Хранилища данных П... · Хранилища данных g Z i j Z \ e _ g b...

14
Правительство Российской Федерации Федеральное государственное автономное образовательное учреждение высшего профессионального образования "Национальный исследовательский университет "Высшая школа экономики" Факультет Бизнес-информатики Отделение Программной инженерии Программа дисциплины Хранилища данных для направления 080700.62 «Бизнес-информатика» специализация «Программная инженерия» подготовки бакалавра Автор программы доцент, к.т.н. А.Д. Брейман [email protected] Рекомендована секцией УМС по бизнес-информатике Председатель ________________ ________________ «___» ___________________ 2011 г. Одобрена на заседании кафедры Управления разработкой программного обеспечения Зав. кафедрой ________________ С.М.Авдошин «___» ___________________ 2011 г. Утверждена УС факультета Бизнес-информатики Ученый секретарь ________________ ________________ « ____» _________________ 2011 г. Москва – 2011

Transcript of Хранилища данных П... · Хранилища данных g Z i j Z \ e _ g b...

Page 1: Хранилища данных П... · Хранилища данных g Z i j Z \ e _ g b 080700.62 – «Бизнес-информатика» k i _ p b Z e b a Z p b y «Программная

ППррааввииттееллььссттввоо РРооссссииййссккоойй ФФееддееррааццииии

Федеральное государственное автономное образовательное учреждение

высшего профессионального образования

"Национальный исследовательский университет

"Высшая школа экономики"

ФФааккууллььттеетт ББииззннеесс--ииннффооррммааттииккии

ООттддееллееннииее ППррооггррааммммнноойй ииннжжееннееррииии

Программа дисциплины

Хранилища данных

для направления 080700.62 – «Бизнес-информатика»

специализация «Программная инженерия»

подготовки бакалавра

Автор программы

доцент, к.т.н. А.Д. Брейман [email protected]

Рекомендована секцией УМС

по бизнес-информатике

Председатель

________________ ________________

«___» ___________________ 2011 г.

Одобрена на заседании кафедры

Управления разработкой программного

обеспечения

Зав. кафедрой

________________ С.М.Авдошин «___» ___________________ 2011 г.

Утверждена УС факультета

Бизнес-информатики

Ученый секретарь

________________ ________________

« ____» _________________ 2011 г.

Москва – 2011

Page 2: Хранилища данных П... · Хранилища данных g Z i j Z \ e _ g b 080700.62 – «Бизнес-информатика» k i _ p b Z e b a Z p b y «Программная

2

I. Пояснительная записка

Автор программы:

доцент, к.т.н. А.Д. Брейман

Общие сведения об учебном курсе:

Дисциплина читается студентам бакалавриата отделения программной

инженерии факультета бизнес-информатики ГУ-ВШЭ (специализация

«Программная инженерия»). Она входит в федеральный компонент блока

специальных дисциплин, является обязательной и читается в первом и

втором модулях четвертого учебного года. Количество кредитов — 6.

Продолжительность курса составляет 54 аудиторных учебных часа, в том

числе: 28 часов лекционных занятий, 26 часов практических занятий, и

108 часов самостоятельной работы. Текущий контроль – реферат и

домашнее задание. Рубежный контроль – зачет по окончанию первого

модуля. Итоговый контроль – экзамен в виде теста по окончанию второго

модуля.

Требования к студентам:

Изучение дисциплины базируется на знаниях, полученных студентам при

освоении учебных дисциплин «Базы данных», «Программирование»,

«Дискретная математика», «Теория вероятностей и математическая

статистика».

Цель курса:

Теоретическое и практическое освоение студентами методов

проектирования хранилищ данных и их последующей эксплуатации.

Формирование у студентов профессиональных компетенций, связанных с

использованием теоретических знаний и практических умений и навыков

в области управления хранилищами данных, достаточных для

дальнейшего продолжения образования и самообразования в области

разработки и эксплуатации систем деловой осведомленности.

Аннотация:

Курс построен на основе учебника В.Е. Туманова «Проектирование

хранилищ данных для систем бизнес-аналитики», вышедшего в

издательстве «Интернет-Университет Информационных Технологий» в

2010 году.

Предлагаемый курс ориентирован на изучение фундаментальных

принципов, современных методов и средств организации хранилищ

данных, моделей данных (основной акцент — на многомерной модели),

средств оперативной аналитической обработки данных OLAP,

использования языка запросов MDX, создания программных приложений,

обращающихся к хранилищам данных. В качестве сервера баз данных

используется Microsoft SQL Server 2008, в качестве средств аналитической

Page 3: Хранилища данных П... · Хранилища данных g Z i j Z \ e _ g b 080700.62 – «Бизнес-информатика» k i _ p b Z e b a Z p b y «Программная

3

обработки данных — Microsoft Analysis Services, в качестве среды

разработки программ — Microsoft Visual Studio 2008 и язык C#.

Содержание курса соответствует курсу CS375 Data warehousing

(Организация информационных хранилищ), входящему в свод знаний по

программной инженерии Software Engineering Education Knowledge

(SEEK), описанный в документе Software Engineering 2004, определяющий

руководящие принципы создания учебных планов для преподавания

программной инженерии в высших учебных заведениях. Построение

курса отвечает требованиям отечественных профессиональных стандартов

в области информационных технологий и международного

профессионального стандарта Guide to the Software Engineering Body of

Knowledge (SWEBOK) ISO/IEC TR 19759 IEEE.

Учебные задачи курса:

В результате изучения данной дисциплины студенты должны:

Знать:

место и роль хранилищ данных в корпоративных информационных

системах, основы организации промышленных систем управления

хранилищами данных;

современное состояние и тенденции развития систем управления

хранилищами данных.

основные определения, относящиеся к концепции управления

хранилищами данных;

основные требования к хранилищам данных и средства их

обеспечения;

технологии, обеспечивающие манипулирование хранилищами

данных.

методологию создания корпоративных информационных систем с

хранилищами данных.

Уметь:

выполнять инфологическое проектирование хранилищ данных

методом «сущность-связь»;

выполнять логическое проектирование реляционных хранилищ

данных;

проектировать многомерные кубы данных, включая иерархии и

множественные иерархии;

реализовывать средства, обеспечивающие предоставление

пользователям хранилища данных результатов анализа за

приемлемое время;

обеспечивать возможность для пользователей осуществления

любого логического и статистического анализа, характерного для

данного приложения, и его сохранения в доступном для конечного

пользователя виде;

Page 4: Хранилища данных П... · Хранилища данных g Z i j Z \ e _ g b 080700.62 – «Бизнес-информатика» k i _ p b Z e b a Z p b y «Программная

4

реализовывать многопользовательский доступ к данным с

поддержкой соответствующих механизмов блокировок и средств

авторизованного доступа;

обеспечивать возможность для пользователей обращаться к любой

нужной информации независимо от ее объема и места хранения.

составлять документацию по результатам своей деятельности.

III. Тематический план учебной дисциплины

п/п Название темы

Всего

часов

Аудиторные

часы

Само-

стоя-

тельная

работа Лек-

ции

Сем. и

практ.

занятия

Всего

аудит.

часов

Первый модуль (32 часа)

1 Тема 1. Введение в хранилища

данных

12 2 2 4 8

2 Тема 2. Архитектуры хранилищ

данных

12 2 2 4 8

3 Тема 3. Методы логического

проектирования хранилищ

данных

12 2 2 4 8

4 Тема 4. Методы моделирования

темпоральных данных

12 2 2 4 8

5 Тема 5. Метод многомерного

моделирования

24 4 4 8 16

6 Тема 6. Физическое

моделирование хранилища

данных

24 4 4 8 16

Второй модуль (22 часа)

7 Тема 7. Загрузка и очистка

данных

12 2 2 4 8

8 Тема 8. SQL в хранилищах

данных

24 4 4 8 16

9 Тема 9. Организация доступа к

хранилищам данных

12 2 2 4 8

10 Тема 10. Методы

интеллектуального анализа

данных в хранилищах данных

18 4 2 6 12

Итого: 162 28 26 54 108

Page 5: Хранилища данных П... · Хранилища данных g Z i j Z \ e _ g b 080700.62 – «Бизнес-информатика» k i _ p b Z e b a Z p b y «Программная

ΙV. Базовый учебник (ридер)

1. Туманов В.Е. Проектирование хранилищ данных для систем бизнес-

аналитики: учебное пособие. — М.:Интернет-Университет Информационных

технологий: БИНОМ. Лаборатория знаний, 2010 — 615с.

Дополнительная литература

1. Сивакумар Х., Мэтт К. и др. Microsoft SQL Server Analysis Services 2008 и

MDX для профессионалов. — М.: Диалектика, 2010. — 1072c.

2. Лобел Л., Браст Э. Дж., Форте С. Разработка приложений на основе Microsoft

SQL Server 2008. Пер с англ. – СПб.:БХВ-Петербург, 2010. – 1024 с.

3. Пирогов В.Ю. Информационные системы и базы данных: организация и

проектирование. — СПб.:БХВ-Петербург, 2009. — 528с.

4. Виейра Р. Программирование баз данных Microsoft SQL Server 2008. Базовый

курс. — К.:Диалектика, 2009. — 816 с.

5. SQL.RU — Все про SQL и клиент/серверные технологии. http://www.sql.ru

6. Центр информационных технологий “ЦИТ Форум”. Базы данных.

http://www.citforum.ru/database

7. Microsoft SQL Server Home. http://www.microsoft.com/sql/default.mspx

8. RSDN. Базы данных. http://rsdn.ru/summary/248.xml

V. Формы контроля

Текущий контроль: работа на практических занятиях, реферат, домашнее

задание.

Работа на практических занятиях контролируется посредством ведения учета

посещаемости и оценки качества подготовки к практическим занятиям

(доклады, презентации, оппонирование, критические выступления). При

непосещении занятий ставится оценка «0».

Домашнее задание выдается в первом модуле, включает проектирование

многомерного OLAP-куба для заданной предметной области и реализацию его в

среде MS SQL Server 2008 Analysis Services. Примерный объем письменной

работы – 10 страниц. Домашнее задание должно быть сдано на проверку не

позднее, чем за неделю до зачета. При невыполнении домашнего задания

ставится оценка «0».

Реферат должен быть написан на тему, соответствующую содержанию курса и

согласованную с преподавателем (примерный перечень тем рефератов приведен

в разделе VII). Реферат должен быть сдан на проверку не позднее, чем за неделю

до экзамена. При отсутствии реферата ставится оценка «0».

Рубежный контроль: зачет по окончанию первого модуля, проставляется по

результату выполнения домашнего задания.

Итоговый контроль: экзамен в конце 2 модуля в виде итогового

(экзаменационного) теста.

Page 6: Хранилища данных П... · Хранилища данных g Z i j Z \ e _ g b 080700.62 – «Бизнес-информатика» k i _ p b Z e b a Z p b y «Программная

6

Итоговая оценка И по десятибалльной шкале формируется как взвешенная

сумма:

И = 0,2 П+ 0,2 Р + 0,3 Дз + 0,3 Э,

где П, Р, Дз и Э — 10-балльные оценки, округленные до целого числа баллов,

за работу на практических занятиях, реферат, домашнее задание и итоговый

экзамен соответственно.

Перевод в пятибалльную оценку осуществляется в соответствии со

следующей таблицей: Таблица соответствия оценок по десятибалльной и пятибалльной шкалам

По десятибалльной шкале По пятибалльной шкале

1 – неудовлетворительно

2 – очень плохо

3 – плохо

2 – неудовлетворительно

4 – удовлетворительно

5 – весьма удовлетворительно 3 – удовлетворительно

6 – хорошо

7 – очень хорошо 4 – хорошо

8 – почти отлично

9 – отлично

10 – блестяще

5 – отлично

VI. Содержание программы

Тема 1. Введение в хранилища данных

Цель и задачи курса. Предпосылки создания концепции складирования

данных. Основные положения концепции складирования данных.

Назначение и основные компоненты хранилищ данных. Оперативный

склад данных, витрина данных. Подсистемы загрузки данных, обработки

запросов и представления данных, Подсистема администрирования хранилища.

Классификация хранилищ данных по Инмону.

Понятие жизненного цикла хранилища данных. Характеристика основных

этапов жизненного цикла разработки хранилища данных.

Основная литература.

1. Туманов В.Е. Проектирование хранилищ данных для систем бизнес-

аналитики: учебное пособие. — М.:Интернет-Университет Информационных

технологий: БИНОМ. Лаборатория знаний, 2010. Лекции 1,3,4.

Дополнительная литература

1. Лобел Л., Браст Э. Дж., Форте С. Разработка приложений на основе Microsoft

SQL Server 2008. Пер с англ. – СПб.:БХВ-Петербург, 2010. – 1024 с.

2. Пирогов В.Ю. Информационные системы и базы данных: организация и

проектирование. — СПб.:БХВ-Петербург, 2009. — 528с.

3. Виейра Р. Программирование баз данных Microsoft SQL Server 2008. Базовый

курс. — К.:Диалектика, 2009. — 816 с.

Page 7: Хранилища данных П... · Хранилища данных g Z i j Z \ e _ g b 080700.62 – «Бизнес-информатика» k i _ p b Z e b a Z p b y «Программная

7

Лабораторная работа. Изучение возможностей Microsoft SQL Server для

решения основных проблем, связанных с реализацией хранилища данных.

Обеспечение повышенных требований к безопасности данных.

Конфигурирование системы безопасности: конфигурирование участников

системы безопасности, предоставление разрешений на защищаемые объекты

на различных уровнях. Выполнение резервного копирования баз данных.

Восстановление базы данных из резервных копий.

Тема 2. Архитектуры хранилищ данных.

Уровни архитектуры: концептуальный, логический, физический. Типовые

архитектуры хранилищ данных. Компоненты типовой архитектуры. Типовая

обобщенная концептуальная схема архитектуры хранилища данных.

Основные методологические подходы к реализации хранилища данных.

Обзор решений основных производителей программного обеспечения для

разработки хранилищ данных. Типовые технологические решения.

Метаданные в хранилищах данных. Содержание термина «метаданные».

Функции метаданных в хранилище данных. Логическая структура метаданных

хранилища данных. Стандарты метаданных.

Основная литература.

1. Туманов В.Е. Проектирование хранилищ данных для систем бизнес-

аналитики: учебное пособие. — М.:Интернет-Университет Информационных

технологий: БИНОМ. Лаборатория знаний, 2010. Лекции 2,4,9.

Дополнительная литература

1. Лобел Л., Браст Э. Дж., Форте С. Разработка приложений на основе Microsoft

SQL Server 2008. Пер с англ. – СПб.:БХВ-Петербург, 2010. – 1024 с.

2. Пирогов В.Ю. Информационные системы и базы данных: организация и

проектирование. — СПб.:БХВ-Петербург, 2009. — 528с.

Лабораторная работа. Изучение возможностей Microsoft SQL Server как

несущей СУБД для хранилища данных. Создание источников данных (OLTP-

систем) средствами Microsoft SQL Server, конфигурирование их файловой

системы. Изучение возможностей языка Transact-SQL для извлечения и

обработки данных: создание запросов к базе данных, использование

агрегатных функций, реализация представлений, создание функций и

хранимых процедур, реализация триггеров.

Тема 3. Методы логического проектирования хранилищ данных.

Предметная область и архитектура данных. Характеристика основных методов

логического проектирования реляционных хранилищ данных: метод

моделирования «сущность-связь», метод многомерного моделирования, методы

моделирования временных данных, метод моделирования «свод данных».

Page 8: Хранилища данных П... · Хранилища данных g Z i j Z \ e _ g b 080700.62 – «Бизнес-информатика» k i _ p b Z e b a Z p b y «Программная

8

Основная литература.

1. Туманов В.Е. Проектирование хранилищ данных для систем бизнес-

аналитики: учебное пособие. — М.:Интернет-Университет Информационных

технологий: БИНОМ. Лаборатория знаний, 2010. Лекции 5,12.

Дополнительная литература

1. Сивакумар Х., Мэтт К. и др. Microsoft SQL Server Analysis Services 2008 и

MDX для профессионалов. — М.: Диалектика, 2010. — 1072c.

2. Лобел Л., Браст Э. Дж., Форте С. Разработка приложений на основе Microsoft

SQL Server 2008. Пер с англ. – СПб.:БХВ-Петербург, 2010. – 1024 с.

3. Пирогов В.Ю. Информационные системы и базы данных: организация и

проектирование. — СПб.:БХВ-Петербург, 2009. — 528с.

4. Виейра Р. Программирование баз данных Microsoft SQL Server 2008. Базовый

курс. — К.:Диалектика, 2009. — 816 с.

Лабораторная работа. Проектирование витрины данных, предназначенного

для хранения данных, изначально записанных в текстовых файлах.

Тема 4. Методы моделирования темпоральных данных.

Основные подходы к представлению времени в объектах модели

предметной области. Темпоральные (временные) данные, понятия временной

метки, моментной временной метки, интервальной временной метки. Таблицы

моментальных снимков, таблицы событий, таблицы состояний. Семантика

темпоральных запросов. Классы временной зависимости.

Основная литература.

1. Туманов В.Е. Проектирование хранилищ данных для систем бизнес-

аналитики: учебное пособие. — М.:Интернет-Университет Информационных

технологий: БИНОМ. Лаборатория знаний, 2010. Лекции 6.

Дополнительная литература

1. Сивакумар Х., Мэтт К. и др. Microsoft SQL Server Analysis Services 2008 и

MDX для профессионалов. — М.: Диалектика, 2010. — 1072c.

2. Лобел Л., Браст Э. Дж., Форте С. Разработка приложений на основе Microsoft

SQL Server 2008. Пер с англ. – СПб.:БХВ-Петербург, 2010. – 1024 с.

3. Пирогов В.Ю. Информационные системы и базы данных: организация и

проектирование. — СПб.:БХВ-Петербург, 2009. — 528с.

4. Виейра Р. Программирование баз данных Microsoft SQL Server 2008. Базовый

курс. — К.:Диалектика, 2009. — 816 с.

Лабораторная работа. Проектирование темпоральной модели данных для

конкретной предметной области.

Тема 5. Метод многомерного моделирования

Основные элементы многомерной модели: атрибуты, измерения, факты,

гранулированность. Основные схемы данных многомерной модели. Свойства

фактов. Медленно и быстро меняющиеся измерения, вырожденные измерения,

иерархии измерений, множественные иерархии. Схемы «звезда» и «снежинка».

Page 9: Хранилища данных П... · Хранилища данных g Z i j Z \ e _ g b 080700.62 – «Бизнес-информатика» k i _ p b Z e b a Z p b y «Программная

9

Основная литература.

1. Туманов В.Е. Проектирование хранилищ данных для систем бизнес-

аналитики: учебное пособие. — М.:Интернет-Университет Информационных

технологий: БИНОМ. Лаборатория знаний, 2010. Лекция 7.

Дополнительная литература

1. Сивакумар Х., Мэтт К. и др. Microsoft SQL Server Analysis Services 2008 и

MDX для профессионалов. — М.: Диалектика, 2010. — 1072c.

2. Пирогов В.Ю. Информационные системы и базы данных: организация и

проектирование. — СПб.:БХВ-Петербург, 2009. — 528с.

Лабораторная работа. Проектирование многомерной модели данных для

конкретной предметной области. Создание проекта приложения бизнес-

аналитики в SQL Server 2008 Analysis Services.

Тема 6. Физическое моделирование хранилища данных.

Основные этапы создания физической модели данных: создание объектов

хранения данных; обеспечение требуемого уровня производительности.

Основные механизмы повышения производительности: денормализация,

индексирование, секционирование, кластеризация. Настройка

производительности запросов к хранилищу данных.

Основная литература.

1. Туманов В.Е. Проектирование хранилищ данных для систем бизнес-

аналитики: учебное пособие. — М.:Интернет-Университет Информационных

технологий: БИНОМ. Лаборатория знаний, 2010. Лекции 8,13,14,17.

Дополнительная литература

1. Сивакумар Х., Мэтт К. и др. Microsoft SQL Server Analysis Services 2008 и

MDX для профессионалов. — М.: Диалектика, 2010. — 1072c.

2. Лобел Л., Браст Э. Дж., Форте С. Разработка приложений на основе Microsoft

SQL Server 2008. Пер с англ. – СПб.:БХВ-Петербург, 2010. – 1024 с.

3. Пирогов В.Ю. Информационные системы и базы данных: организация и

проектирование. — СПб.:БХВ-Петербург, 2009. — 528с.

4. Виейра Р. Программирование баз данных Microsoft SQL Server 2008. Базовый

курс. — К.:Диалектика, 2009. — 816 с.

Лабораторная работа. Изучение возможностей Microsoft SQL Server для

повышения производительности систем хранения данных: построение

кластеризованных и некластеризованных индексов; использование

профилировщика (Profile) и помощника по настройке ядра СУБД (DTA) для

анализа рабочей нагрузки и получения рекомендаций по повышению

производительности.

Page 10: Хранилища данных П... · Хранилища данных g Z i j Z \ e _ g b 080700.62 – «Бизнес-информатика» k i _ p b Z e b a Z p b y «Программная

10

Тема 7. Загрузка и очистка данных.

Механизмы загрузки данных. Проектирование и разработка процесса ETL

(Extract-Transform-Load). Подходы к реализации процесса ETL. Элементы

процесса ETL.

Основная литература.

1. Туманов В.Е. Проектирование хранилищ данных для систем бизнес-

аналитики: учебное пособие. — М.:Интернет-Университет Информационных

технологий: БИНОМ. Лаборатория знаний, 2010. Лекция 10.

Дополнительная литература

1. Сивакумар Х., Мэтт К. и др. Microsoft SQL Server Analysis Services 2008 и

MDX для профессионалов. — М.: Диалектика, 2010. — 1072c.

2. Лобел Л., Браст Э. Дж., Форте С. Разработка приложений на основе Microsoft

SQL Server 2008. Пер с англ. – СПб.:БХВ-Петербург, 2010. – 1024 с.

3. Пирогов В.Ю. Информационные системы и базы данных: организация и

проектирование. — СПб.:БХВ-Петербург, 2009. — 528с.

Лабораторная работа. Механизмы импорта и экспорта данных в MS SQL

Server: загрузка данных из плоских файлов; работа с мастером импорта и

экспорта данных; использование служб SSIS для импорта и экспорта данных.

Загрузка данных в хранилище с помощью пакетов SSIS..

Тема 8. SQL в хранилищах данных.

Расширение оператора SELECT. ROLLUP и CUBE. Функция GROUPING.

Управление иерархией в расширениях оператора SELECT.

SQL для аналитической обработки данных. Агрегатные и статистические

функции. Оконные функции. Функции ранжирования.

Основная литература.

1. Туманов В.Е. Проектирование хранилищ данных для систем бизнес-

аналитики: учебное пособие. — М.:Интернет-Университет Информационных

технологий: БИНОМ. Лаборатория знаний, 2010. Лекции 15,16.

Дополнительная литература

1. Сивакумар Х., Мэтт К. и др. Microsoft SQL Server Analysis Services 2008 и

MDX для профессионалов. — М.: Диалектика, 2010. — 1072c.

2. Лобел Л., Браст Э. Дж., Форте С. Разработка приложений на основе Microsoft

SQL Server 2008. Пер с англ. – СПб.:БХВ-Петербург, 2010. – 1024 с.

3. Пирогов В.Ю. Информационные системы и базы данных: организация и

проектирование. — СПб.:БХВ-Петербург, 2009. — 528с.

4. Виейра Р. Программирование баз данных Microsoft SQL Server 2008. Базовый

курс. — К.:Диалектика, 2009. — 816 с.

Тема 9. Организация доступа к хранилищам данных.

Основные критерии выбора средств доступа к данным. Обзор основных

программных средств доступа к данным: средства доступа, ориентированные на

использование Web, электронные таблицы, средства визуализации, средства

создания запросов. Язык MDX.

Page 11: Хранилища данных П... · Хранилища данных g Z i j Z \ e _ g b 080700.62 – «Бизнес-информатика» k i _ p b Z e b a Z p b y «Программная

11

Основная литература.

1. Туманов В.Е. Проектирование хранилищ данных для систем бизнес-

аналитики: учебное пособие. — М.:Интернет-Университет Информационных

технологий: БИНОМ. Лаборатория знаний, 2010. Лекция 18.

Дополнительная литература

1. Сивакумар Х., Мэтт К. и др. Microsoft SQL Server Analysis Services 2008 и

MDX для профессионалов. — М.: Диалектика, 2010. — 1072c.

2. Лобел Л., Браст Э. Дж., Форте С. Разработка приложений на основе Microsoft

SQL Server 2008. Пер с англ. – СПб.:БХВ-Петербург, 2010. – 1024 с.

3. Пирогов В.Ю. Информационные системы и базы данных: организация и

проектирование. — СПб.:БХВ-Петербург, 2009. — 528с.

4. Виейра Р. Программирование баз данных Microsoft SQL Server 2008. Базовый

курс. — К.:Диалектика, 2009. — 816 с.

Лабораторная работа. Применение электронных таблиц к получению и

анализу данных (на примере MS Excel). Программный доступ к кубам в

Microsoft SQL Server 2008 Analysis Services через интерфейс ADOMD.NET.

Тема 10. Методы интеллектуального анализа данных.

Знакомство с методами интеллектуального анализа данных (Data Mining).

Обзор основных алгоритмов интеллектуального анализа данных: алгоритмы

кластеризации, алгоритмы классификации, алгоритм взаимосвязей, алгоритмы

регрессионного анализа. Основные этапы процесса интеллектуального анализа

данных.

Основная литература.

1. Туманов В.Е. Проектирование хранилищ данных для систем бизнес-

аналитики: учебное пособие. — М.:Интернет-Университет Информационных

технологий: БИНОМ. Лаборатория знаний, 2010. Лекция 18.

Дополнительная литература

1. Сивакумар Х., Мэтт К. и др. Microsoft SQL Server Analysis Services 2008 и

MDX для профессионалов. — М.: Диалектика, 2010. — 1072c.

2. Лобел Л., Браст Э. Дж., Форте С. Разработка приложений на основе Microsoft

SQL Server 2008. Пер с англ. – СПб.:БХВ-Петербург, 2010. – 1024 с.

Лабораторная работа. Создание и использование моделей

интеллектуального анализа данных в Microsoft SQL Server 2008 Analysis

Services.

Page 12: Хранилища данных П... · Хранилища данных g Z i j Z \ e _ g b 080700.62 – «Бизнес-информатика» k i _ p b Z e b a Z p b y «Программная

12

VII. Тематика заданий по различным формам текущего

контроля

Тематика практических занятий

Проектирование, реализация и наполнение БД, являющей источником

данных для хранилища.

Проектирование структуры хранилища данных.

Реализация хранилища данных под управлением Microsoft SQL Server

2000 Analysis Services.

Использование Microsoft Office Excel как стандартного OLAP-клиента

для доступа к данным хранилища.

Создание специализированного клиентского приложения для доступа к

данным хранилища.

Тематика домашних заданий

Домашнее задание предназначено для выработки практических навыков

проектирования хранилищ данных и состоит из четырех частей:

разработать структуру реляционной оперативной базы данных в

заданной предметной области;

разработать многомерную модель хранилища данных, использующего

реляционную оперативную базу данных в качестве источника данных;

создать многомерный куб в среде Microsoft SQL Server 2008 Analysis

Services;

заполнить оперативную базу данных тестовыми данными, выполнить

перенос и агрегирование данных в многомерный куб, проверить

возможность выполнения многомерных запросов.

Тематика рефератов

Архитектура многомерного хранилища данных на примере Microsoft

Analysis Services.

Архитектура многомерного хранилища данных на примере Oracle

Hyperion Essbase.

Архитектура многомерного хранилища данных на примере SAP

NetWeaver BW.

Архитектура многомерного хранилища данных на примере Oracle OLAP

Option.

Архитектура многомерного хранилища данных на примере IBM Cognos.

Многомерная модель данных Microsoft Analysis Services.

Многомерная модель данных Oracle Hyperion Essbase.

Хранилища данных со свободными лицензиями.

Page 13: Хранилища данных П... · Хранилища данных g Z i j Z \ e _ g b 080700.62 – «Бизнес-информатика» k i _ p b Z e b a Z p b y «Программная

13

API и языки запросов для хранилищ данных.

Аппаратно-программные комплексы для хранилищ данных.

Клиентские средства OLAP.

CASE-инструменты OLAP.

Хранилища данных на облачных платформах.

VIII. Вопросы для оценки качества освоения дисциплины

1. Что такое хранилище данных? Основные элементы концепции

складирования данных. Сравнительный анализ характеристик хранилищ

данных и систем оперативных данных.

2. Основная цель складирования данных. Основные преимущества,

предоставляемые технологией складирования данных.

3. Основные типы хранилищ данных (по Инмону), их характерные

особенности.

4. Типовые архитектуры хранилищ данных, их краткая характеристика,

достоинства и недостатки.

5. Типовая обобщенная концептуальная схема архитектуры хранилища данных.

Основные компоненты типовой архитектуры.

6. Основные методологические подходы к построению хранилища данных.

Основные факторы, влияющие на выбор того или иного подхода.

7. Типовые технологические решения реализации хранилищ данных.

8. Основные сферы применения технологии складирования данных в бизнесе.

9. Что такое жизненный цикл хранилища данных? Основные этапы разработки

хранилища данных.

10. Планирование хранилищ данных: цель и решаемые задачи.

11. Формулирование требований к системе складирования данных:

характеристика основных стадий данного этапа.

12. Проектирование хранилища данных: цель данного этапа, характеристика

основных стадий.

13. Конструирование, внедрение и поддержка хранилища данных.

14. Характеристика основных проблем, связанных с реализацией хранилищ

данных.

15. Предметная область и архитектура данных. Структуризация данных.

Основные классы данных в ХД.

16. Метод моделирования «сущность-связь». Основные элементы ER-модели.

17. Метод многомерного моделирования. Факты, измерения, параметры.

Основные схемы многомерного моделирования.

18. Что такое темпоральная модель данных? Основные подходы к созданию

темпоральной модели данных. Временные метки. Классы временной

зависимости.

19. Метод моделирования «свод данных» (Data Vault). Элементы модели Data

Vault, алгоритм построения свода данных.

20. Денормализация: определение, основные типы.

21. Методы реализации денормализации.

Page 14: Хранилища данных П... · Хранилища данных g Z i j Z \ e _ g b 080700.62 – «Бизнес-информатика» k i _ p b Z e b a Z p b y «Программная

14

22. Индексирование. Построение индексов в MS SQL Server 2008. Структура В-

дерева. Кластеризованные и некластеризованные индексы, покрывающие

индексы.

23. Секционирование и кластеризация.

24. Физическая структура базы данных MS SQL Server 2008, конфигурирование

файловой системы. Логические компоненты базы данных.

25. Основные механизмы массовой загрузки данных в MS SQL Server 2008.

Средства автоматизации операций импорта и экспорта данных. SSIS.

26. Средства мониторинга и устранения проблем производительности в MS SQL

Server 2008. Анализ рабочей нагрузки и получение рекомендаций по

повышению производительности.

27. Что такое метаданные? Основные функции метаданных. Основные задачи

проектировщика хранилищ данных при проектировании метаданных.

28. Основные компоненты метаданных в хранилищах данных.

29. Стандарты метаданных.

30. Основные критерии выбора средств доступа к данным.

31. Обзор основных алгоритмов интеллектуального анализа данных.

32. Основные этапы процесса интеллектуального анализа данных.

Автор программы: _________________________ Брейман А.Д.