L1 Вводная лекция. Обзор основных задач Data Science (Лекция...

30
Введение в Data Science Занятие 0. Знакомство Николай Анохин Михаил Фирулик 22 февраля 2014 г.

description

Вводная лекция. Обзор основных задач Data Science (Лекция №1)

Transcript of L1 Вводная лекция. Обзор основных задач Data Science (Лекция...

Page 1: L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)

Введение в Data ScienceЗанятие 0. Знакомство

Николай Анохин Михаил Фирулик

22 февраля 2014 г.

Page 2: L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)

Ваши преподаватели

I Михаил Фирулик ([email protected] / +7 916 730-97-66)I руководитель отдела анализа данных в Mail.Ru GroupI многолетний опыт интеллектуального анализа данных

I Николай Анохин ([email protected] / +7 903 111-44-60)I программист-исследователь в Mail.Ru GroupI более трех лет работы в области Data Mining

Page 3: L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)

Права и обязанности

I можноI задавать вопросы преподавателюI выносить идеи на общее обсуждениеI входить и выходить, не мешая коллегам

I не можноI нарушать порядок на занятииI разговаривать по телефону в аудитории

I общениеI с преподавателем на “Вы”I с коллегами – как удобно

Ваши правила?

Page 4: L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)

План занятия

Какие задачи решает Data Science

Как устроен наш курс

Методология и применимость Data Science

Простые задачки

Page 5: L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)

Одна (типичная) задачаРекламная компания магазина зимней одежды: определить аудиторию

A1 (data) acquisitionA2 (data) analysisA3 (data) archivingA4 (data) architecture

Page 6: L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)

Что делать?

I Разобраться в предметной областиI Общаться с пользователями данныхI Понимать “Big Picture”I Изучить представление данныхI Произвести подготовку и анализ данныхI Визуализировать результатI Учитывать этические соображения

Page 7: L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)

Мы бы хотели, чтобы вы

1. получили практический опыт решения задач Data Mining2. познакомились с инструментарием3. поиграли и получили удовольствие

Page 8: L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)

Что необходимо повторить

1. Линейная алгебра2. Теория вероятностей3. Алгоритмы и структуры данных

Page 9: L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)

Модули курса

1. Задачи классификации (6 занятий)2. Задачи кластеризации (3 занятия)3. Мета-алгоритмы (4 занятия)

Page 10: L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)

Модуль 1. Задачи классификации

Задача Разработать алгоритм, позволяющий определить класспроизвольного объекта из некоторго множества

I Каждый объект заданного множества принадлежит классу изнекоторого набора

I Дана обучающая выборка, в которой для каждого объектаизвестен класс

ПримерыI Определение спамаI Кредитный скорингI Распознавание лиц

Page 11: L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)

Модуль 1. Содержание

1. Задача классификации ирегрессии. Метрикиошибок

2. Линейная и логистическаярегрессия

3. Решающие деревья

4. Байесовские алгоритмы

5. Метод опорных векторов

Задача модуля. Предсказание пола и возраста пользователейпопулярных социальных сервисов.

Page 12: L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)

Модуль 2. Задачи кластеризации

Задача Разбить выборку объектов на подмножества (кластеры)I Объекты внутри одного кластера должны быть похожиI Объекты из разных кластеров должны существенно отличаться

ПримерыI Определение сообществI Сегментация изображенийI Исследование рынка

Page 13: L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)

Модуль 2. Содержание

1. Задача кластеризации.Метрики качества

2. EM-алгоритм

3. Различные алгоритмыкластеризации

Задача модуля. Разбиение на категории товаров, предлагаемыхкрупными интернет-магазинами.

Page 14: L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)

Модуль 3. Мета-алгоритмы

I Какие факторы выбрать для решения задачи?I Что, если алгоритмы не дают необходимого качества?I Что, если данные не помещаются в памяти?

Page 15: L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)

Модуль 3. Содержание

1. Метод ансамблей

2. Предобработка данных ивыбор факторов

3. Вычислительная модельMapReduce

Задача модуля. Классификация пользоватей интернета сиспользованием реальных данных сервисов Mail.Ru.

Page 16: L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)

CRISP-DM

SPSS, Teradata, Daimler AG, NCR Corporation, OHRA

Page 17: L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)

Business understanding

На рыболовном предприятии автоматизируем сортировку улова

VS

Page 18: L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)

Data understanding 1

Какие факторы будем использовать?

VS

Page 19: L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)

Data understanding 2

X – множество объектов. Фактор fi : X → Fi

I Бинарные/Binary: Fi = {true, false} (есть ли пятна, двойной липлавник)

I Номинальные/Categorical: Fi – конечно (цвет, форма чешуи)I Порядковый/Ordinal: Fi – конечно, определен порядок

(категория возраста, количество плавников)I Количественный/Numerical: Fi = R (длина, вес)

Page 20: L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)

Data preparation

Эта часть проекта занимает больше всего времениI Удаление шумаI Заполнение отсутствующих значенийI Трансформация факторовI Выбор факторовI Использование априорных знаний

Результат. Обучающая выборка, в формате, подходящем длямоделирования

Page 21: L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)

Modeling 1

Модель – описание класса, выраженное, как правило, вматематической форме. Цель – выбрать удачную модель и еепараметры так, чтобы она наилучшим образом описывала заданныйкласс.

I Статистические моделиI Модели машинного обучения

Page 22: L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)

Modeling 2

Page 23: L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)

Evaluation & Deployment

I Решает ли выбранная модель задачу достаточно эффективно?I Удовлетворяет ли модель требованиям бизнеса?I Что вообще может пойти не так?

Page 24: L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)

1854 г. Эпидемия холеры в Лондоне

Page 25: L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)

Программа TIAI Наблюдаем 109 человекI Человек в среднем посещает отель раз в 100 днейI Есть 105 отелей на 100 человек каждыйI Проверим посещения за 1000 дней

Вероятность для конкретной пары встретиться в отеле в конкретныйдень:

p1 =

(1

100

)2

· 10−5 = 10−9

Всего пар людей

npp = C 109

2 ≈ (109)2

2= 5 · 1017

а пар дней

npd = C 103

2 ≈ (103)2

2= 5 · 105

Ожидаемое количество “подозрительных” встреч в отелях

N = p21nppnpd = 250000 >> 10

Page 26: L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)

Принцип Бонферрони

Вычислить количество рассматриваемых событий припредположении их полной случайности. Если это количествонамного превосходит количество событий, о котором идет речь взадаче, полученные результаты нельзя будет считать достоверными.

Page 27: L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)

Что мы обсудили на сегодняшней лекции?

I Познакомились со стандартным процессом CRISP-DMI Вспомнили, какие бывают виды факторовI Узнали, для чего в Data Science используется моделированиеI Разобрались с принципом Бонферрони

Page 28: L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)

Задача 1

Пусть имеется простая обучающая выборка, включающая в себя 4признака: бинарный f1, номинальный f2, порядковый f3 иколичественный f4.

N f1 f2 f3 f4

1 true A O1 3.142 false B O2 2.73 true A O2 11.04 true C O1 10.0

Предложенная модель работает только на бинарных признаках. Какпреобразовать данную обучающую выборку в нужный формат? Аесли количественный? А номинальный?

Page 29: L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)

Задача 2

Пусть имеется информация о покупках, совершенных 100миллионами людей. Кажый из них идет за покупками в среднем 100раз в год и покупает 10 из 1000 представленных товаров.Предположим, что два злоумышленника покупают одинаковыенаборы товаров. Если мы ищем пары людей, купившие одинаковыенаборы в течение года, сможем ли мы действительно определитьтеррористов?

Page 30: L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)

Спасибо!

Обратная связь