04 элементы business intelligence в работе аналитика ч2

29
1 Элементы Business Intelligence в работе аналитика Часть 2 Работа с данными, реляционные отношения Москва, 2008 Свешникова Н.В.

description

Во второй части я продолжу говорить о еще более сложных вопросах BI . Поговорим о работе с данными разного объема и разной сложности, пробежимся по реляционной алгебре Кодда и на примере посмотрим, как задачки на анализ проблемы могут порождать составление аналитиком собственных моделей данных, ключевых показателей и сводных отчетов.

Transcript of 04 элементы business intelligence в работе аналитика ч2

Page 1: 04 элементы business intelligence в работе аналитика ч2

1

Элементы Business Intelligence в работе аналитика

Часть 2

Работа с данными, реляционные отношения

Москва, 2008

Свешникова Н.В.

Page 2: 04 элементы business intelligence в работе аналитика ч2

2

• Операции над данными, формирование отчетов

• Табличное представление и реляционные отношения

• Реляционная алгебра Кодда

• Формирование собственных моделей данных

BI аналитикСегодня мы завершим рассмотрение оставшихся вопросов…

Page 3: 04 элементы business intelligence в работе аналитика ч2

3

Работа аналитика часто связана с обработкой данных, уже структурированных и сложенных в хранилище.

Естественный распространенный способ структуризации – табличное представление, будь то таблицы MS Excel,

реляционные базы данных или списки MS SharePoint.

BI аналитик Источники данных

Data

Server

Page 4: 04 элементы business intelligence в работе аналитика ч2

4

BI аналитик Обработка данных

В зависимости от объема и структуры данных меняются приемы обработки и математический аппарат:

• Пока данные умещаются на одном экране в табличке Excel, нам часто проще работать с каждой отдельной ячейкой. Это операции над скалярными величинами.

• Данные становятся динамичнее, количество строк в вашей таблице стремительно растет – Вы начинаете оперировать столбцами. Операции становятся векторными.

• Усложняется структура данных, вы сопоставляете данные нескольких таблиц с разным набором столбцов и сложными взаимосвязями. Это операции над множествами.

Page 5: 04 элементы business intelligence в работе аналитика ч2

5

BI аналитик Обработка данных

Чтобы оперировать большими объемами сложно структурированных данных стоит знать основы

•Теория множеств

•Реляционная алгебра Кодда

Page 6: 04 элементы business intelligence в работе аналитика ч2

6

Табличное представление является «житейской» интерпретациейреляционного отношения – базового понятия

реляционной модели данных

BI аналитикТабличное представление и реляционное отношение

Таблица = отношение

Заголовок = схема отношения

Столбец = атрибут

Строка = кортеж

Page 7: 04 элементы business intelligence в работе аналитика ч2

7

• Отсутствие кортежей-дубликатов Первичный ключ – минимально множество атрибутов, составное значение которых уникально определяет кортеж отношения

• Отсутствие упорядоченности кортежей

• Отсутствие упорядоченности атрибутов

• Атомарность значений всех атрибутов Т.е. значение не содержит своей явной структуры

• Нормальна форма отношения

BI аналитикОсновные свойства отношений

Page 8: 04 элементы business intelligence в работе аналитика ч2

8

• Нормальна форма отношения

BI аналитик 1я нормальная форма

Номер Имя Зарплата Отдел

113 Иванов 25000 А

213 Петров 35000 А

134 Сидоров 16000 Б

123 Федотова 43000 В

421 Пупкина 39000 В

Номер Имя Зарплата Отдел

113 Иванов 25000 А

213 Петров 35000

134 Сидоров 16000 Б

123 Федотова 43000 В

421 Пупкина 39000

Ненормализованное отношение

Page 9: 04 элементы business intelligence в работе аналитика ч2

9

BI аналитикРеляционная алгебра Кодда

Основана на традиционных теоретико-множественных операциях, дополненных некоторыми специальными операциями

Объединение

Пересечение

Разность

Декартово произведение

Ограничение

Проекция

Соединение отношений

Деление отношений

Page 10: 04 элементы business intelligence в работе аналитика ч2

10

BI аналитикТеоретико-множественные операции: Объединение

Результат С объединения А и В содержит кортежи, содержащиеся или в отношении А или в отношении В

Отношение А

№ Имя Зарп. Отдел

113 Иванов 25000 А

213 Петров 35000 А

134 Сидоров 16000 Б

123 Федотова 43000 В

421 Пупкина 39000 В

Отношение В

№ Имя Зарп. Отдел

234 Васильева 40000 С

213 Петров 35000 А

134 Котова 19000 Б

123 Федотова 43000 В

421 Макаров 30000 С

Отношение С

№ Имя Зарп. Отдел

113 Иванов 25000 А

213 Петров 35000 А

134 Сидоров 16000 Б

123 Федотова 43000 В

421 Пупкина 39000 В

234 Васильева 40000 С

134 Котова 19000 Б

421 Макаров 30000 С

Page 11: 04 элементы business intelligence в работе аналитика ч2

11

BI аналитикТеоретико-множественные операции: Пересечение

Результат С пересечения А и В содержит кортежи, содержащиеся и в отношении А и в отношении В

Отношение А

№ Имя Зарп. Отдел

113 Иванов 25000 А

213 Петров 35000 А

134 Сидоров 16000 Б

123 Федотова 43000 В

421 Пупкина 39000 В

Отношение В

№ Имя Зарп. Отдел

234 Васильева 40000 С

213 Петров 35000 А

123 Федотова 43000 В

134 Котова 19000 Б

421 Макаров 30000 С

Отношение С

№ Имя Зарп. Отдел

213 Петров 35000 А

123 Федотова 43000 В

Page 12: 04 элементы business intelligence в работе аналитика ч2

12

BI аналитикТеоретико-множественные операции: Разность

Результат С разности А и В содержит кортежи, содержащиеся в отношении А, но не содержащиеся в отношении В

Отношение А

№ Имя Зарп. Отдел

113 Иванов 25000 А

213 Петров 35000 А

134 Сидоров 16000 Б

123 Федотова 43000 В

421 Пупкина 39000 В

Отношение В

№ Имя Зарп. Отдел

234 Васильева 40000 С

213 Петров 35000 А

123 Федотова 43000 В

134 Котова 19000 Б

421 Макаров 30000 СОтношение С

№ Имя Зарп. Отдел

113 Иванов 25000 А

134 Сидоров 16000 Б

421 Пупкина 39000 В

Page 13: 04 элементы business intelligence в работе аналитика ч2

13

BI аналитикТеоретико-множественные операции: декартово произведение

Кортежи результата С декартового произведения А и В есть объединение каждого кортежа А с каждым кортежом В

Отношение А

№ Имя Зарп. Отдел

113 Иванов 25000 А

213 Петров 35000 А

134 Сидоров 16000 Б

123 Федотова 43000 В

421 Пупкина 39000 В

Отношение В

Проект РМ

П1 Иванов

П2 Васин

Отношение С

№ Имя Зарп. Отд

Пр РМ

113 Иванов 25000 А П1 Иванов

213 Петров 35000 А П1 Иванов

134 Сидоров 16000 Б П1 Иванов

123 Федотова 43000 В П1 Иванов

421 Пупкина 39000 В П1 Иванов

113 Иванов 25000 А П2 Васин

213 Петров 35000 А П2 Васин

134 Сидоров 16000 Б П2 Васин

123 Федотова 43000 В П2 Васин

421 Пупкина 39000 В П2 Васин

Page 14: 04 элементы business intelligence в работе аналитика ч2

14

BI аналитикСпециальные реляционные операции: ограничение

Результат С ограничения А по условию b есть набор кортежей, атрибуты которых удовлетворяют условию b

Отношение А

№ Имя Зарп. Отдел

113 Иванов 25000 А

213 Петров 35000 А

134 Сидоров 16000 Б

123 Федотова 43000 В

421 Пупкина 39000 В Отношение C

№ Имя Зарп. Отдел

213 Петров 35000 А

123 Федотова 43000 В

421 Пупкина 39000 В

Условие b

Заплата > 30000

Можно охарактеризовать,как «горизонтальную»

вырезку из таблицы

Page 15: 04 элементы business intelligence в работе аналитика ч2

15

BI аналитикСпециальные реляционные операции: проекция

Результат С проекции А на множество атрибутов ai есть отношениес соответствующим набором атрибутов и удалением дубликатов

Отношение А

№ Имя Зарп. Отдел

113 Иванов 25000 А

213 Петров 35000 А

134 Сидоров 16000 Б

123 Федотова 43000 В

421 Пупкина 39000 В

Проекция на…

Отдел

Можно охарактеризовать,как «вертикальную»вырезку из таблицы

Отношение С

Отдел

А

Б

В

Page 16: 04 элементы business intelligence в работе аналитика ч2

16

BI аналитикСпециальные реляционные операции: проекция и агрегирование

Модель показателей и классификатор, рассмотренная ранеедополняет операцию проецирования операцией агрегирования

Отношение А

№ Имя Зарп. Отдел

113 Иванов 25000 А

213 Петров 35000 А

134 Сидоров 16000 Б

123 Федотова 43000 В

421 Пупкина 39000 В

Проекция на…

Зарплату

Отношение С1

Зарплата

25000

35000

16000

43000

39000

Проекция с агрегированием на…

Зарплату

Отношение С2

Зарплата

158000

Page 17: 04 элементы business intelligence в работе аналитика ч2

17

BI аналитикСпециальные реляционные операции: Соединение отношений по условию

Результат С соединения А и В по условию d есть ограничениепо условию декартового произведения А и В

Отношение А

№ Имя Зарп. Отдел

113 Иванов 25000 А

213 Петров 35000 А

134 Сидоров 16000 Б

123 Федотова 43000 В

421 Пупкина 39000 В

Отношение В

Отд Рук. Комн

А Петренко 211

Б Сидоренко 221

В Васильев 315

Отношение С

№ Имя Зарп. Отд Рук. Ком

113 Иванов 25000 А Петренко

211

213 Петров 35000 А Петренко

211

134 Сидоров 16000 Б Сидоренко

221

123 Федотова

43000 В Васильев 315

421 Пупкина 39000 В Васильев 315

Условие

Отдел из А = Отдел из В

Page 18: 04 элементы business intelligence в работе аналитика ч2

18

BI аналитикСпециальные реляционные операции: деление отношений

Для выполнения операции А должно содержать все атрибуты ВРезультат С деления А на В есть множество кортежей А, которым

соответствуют каждый из кортежей В

Отношение А

№ Имя Зарп. Проект

113 Иванов 25000 П1

213 Петров 35000 П2

134 Сидоров 16000 П1

213 Петров 35000 П1

421 Пупкина 39000 П1

123 Федотова 43000 П2

421 Пупкина 39000 П2

Отношение В

Проект

П1

П2

Отношение С

№ Имя Зарп. Проект

213 Петров 35000 П2

421 Пупкина 39000 П1

Page 19: 04 элементы business intelligence в работе аналитика ч2

19

Online Analytical Processing, or OLAP, is an approach to quickly provide answers to analytical

queries that are multi-dimensional in nature

BI аналитикИнструменты многомерногоанализа

Позволяет запрашивать данные из различных источников: баз данных, отдельных файлов, например, MS Excel.

Запросы составляются с помощью пользовательского интерфейса.

Широкие вычислительные возможности Связывание данных из различных запросов Поддержка разнообразных представлений данных:

таблицы, кросс-таблицы, графики, диаграммы.

Page 20: 04 элементы business intelligence в работе аналитика ч2

20

Key Performance Indicators (KPI) are financial and non-financial metrics used to help an organization define and

measure progress toward organizational goals

BI аналитикФормирование собственных моделей данных

Как правило, отчетность – это средство представления Ключевых показателей эффективности

Эти показатели задают метрики, которые позволяют руководству проводить диагностику ситуации и принимать обоснованные решения.

Рассмотрим формирование показателей и отчетности на простом примере.

Page 21: 04 элементы business intelligence в работе аналитика ч2

21

Пусть у нас есть задача проанализировать эффективность рекрутинговой деятельности отдела кадров.Для начала необходимо исследовать процесс

BI аналитик Эффективность рекрутинга

Поступление заявок от подразделений

Публикация вакансий Активный поиск

Обработка резюме, контакт с кандидатом

Проведение собеседования

Прием на работу

Отказ

Отказ

Page 22: 04 элементы business intelligence в работе аналитика ч2

22

BI аналитик Что мы измеряем?

Высокоуровневые вопросы:

Сколько сотрудников удалось нанять? (Факт) Сколько сотрудников требовалось нанять за этот

период? (План)

Если факт совершенно не соответствует плану, какие возникнут дополнительные вопросы?

Сколько кандидатов рассматривалось вообще? Каким образом, на каких этапах и по каким причинам они

отсеивались?

Page 23: 04 элементы business intelligence в работе аналитика ч2

23

BI аналитик Отчетная форма

Отвечая на эти вопросы, мы

получаем нашу первую

отчетную форму

Page 24: 04 элементы business intelligence в работе аналитика ч2

24

BI аналитикКак собираются данные для отчета?

Для фиксированияплана нужно вести

журналпо поступающим

заявкам

Page 25: 04 элементы business intelligence в работе аналитика ч2

25

BI аналитикКак собираются данные для отчета?

Для фиксированияфакта нужен

журнал по обработанным

резюме

Page 26: 04 элементы business intelligence в работе аналитика ч2

26

BI аналитик Что можно получить еще?

Оптимизировать работу:

Какие источники поступления резюме наиболее эффективны?

Каковы причины отказов?

Далее информационную модель можно расширять, чтобы получать ответы на все новые вопросы…

Соответствует ли предложение спросу на рынке труда? Сколько времени уходит у сотрудника ОК на полную

обработку одного резюме? И т.п.

Page 27: 04 элементы business intelligence в работе аналитика ч2

27

BI аналитик | Подведем итоги

BI аналитик

Обработкаданных

Реляционныеотношения

Реляционнаяоперации

Формированиемоделей данных

Сборданных

Формированиеотчетов и

показателей

Page 28: 04 элементы business intelligence в работе аналитика ч2

28

BI аналитик | Заключение

• Вопросы?

Page 29: 04 элементы business intelligence в работе аналитика ч2

29

Введение | Литература

www.wikipedia.org

С. Д. Кузнецов. «Основы баз данных. Курс лекций. Учебное пособие». – М.: Интернет-Университет Информационных технологий, 2005. – 488 стр.