L1 Вводная лекция. Обзор основных задач Data Science (Лекция...

Post on 14-Dec-2014

182 views 9 download

description

Вводная лекция. Обзор основных задач Data Science (Лекция №1)

Transcript of L1 Вводная лекция. Обзор основных задач Data Science (Лекция...

Введение в Data ScienceЗанятие 0. Знакомство

Николай Анохин Михаил Фирулик

22 февраля 2014 г.

Ваши преподаватели

I Михаил Фирулик (m.firulik@corp.mail.ru / +7 916 730-97-66)I руководитель отдела анализа данных в Mail.Ru GroupI многолетний опыт интеллектуального анализа данных

I Николай Анохин (n.anokhin@corp.mail.ru / +7 903 111-44-60)I программист-исследователь в Mail.Ru GroupI более трех лет работы в области Data Mining

Права и обязанности

I можноI задавать вопросы преподавателюI выносить идеи на общее обсуждениеI входить и выходить, не мешая коллегам

I не можноI нарушать порядок на занятииI разговаривать по телефону в аудитории

I общениеI с преподавателем на “Вы”I с коллегами – как удобно

Ваши правила?

План занятия

Какие задачи решает Data Science

Как устроен наш курс

Методология и применимость Data Science

Простые задачки

Одна (типичная) задачаРекламная компания магазина зимней одежды: определить аудиторию

A1 (data) acquisitionA2 (data) analysisA3 (data) archivingA4 (data) architecture

Что делать?

I Разобраться в предметной областиI Общаться с пользователями данныхI Понимать “Big Picture”I Изучить представление данныхI Произвести подготовку и анализ данныхI Визуализировать результатI Учитывать этические соображения

Мы бы хотели, чтобы вы

1. получили практический опыт решения задач Data Mining2. познакомились с инструментарием3. поиграли и получили удовольствие

Что необходимо повторить

1. Линейная алгебра2. Теория вероятностей3. Алгоритмы и структуры данных

Модули курса

1. Задачи классификации (6 занятий)2. Задачи кластеризации (3 занятия)3. Мета-алгоритмы (4 занятия)

Модуль 1. Задачи классификации

Задача Разработать алгоритм, позволяющий определить класспроизвольного объекта из некоторго множества

I Каждый объект заданного множества принадлежит классу изнекоторого набора

I Дана обучающая выборка, в которой для каждого объектаизвестен класс

ПримерыI Определение спамаI Кредитный скорингI Распознавание лиц

Модуль 1. Содержание

1. Задача классификации ирегрессии. Метрикиошибок

2. Линейная и логистическаярегрессия

3. Решающие деревья

4. Байесовские алгоритмы

5. Метод опорных векторов

Задача модуля. Предсказание пола и возраста пользователейпопулярных социальных сервисов.

Модуль 2. Задачи кластеризации

Задача Разбить выборку объектов на подмножества (кластеры)I Объекты внутри одного кластера должны быть похожиI Объекты из разных кластеров должны существенно отличаться

ПримерыI Определение сообществI Сегментация изображенийI Исследование рынка

Модуль 2. Содержание

1. Задача кластеризации.Метрики качества

2. EM-алгоритм

3. Различные алгоритмыкластеризации

Задача модуля. Разбиение на категории товаров, предлагаемыхкрупными интернет-магазинами.

Модуль 3. Мета-алгоритмы

I Какие факторы выбрать для решения задачи?I Что, если алгоритмы не дают необходимого качества?I Что, если данные не помещаются в памяти?

Модуль 3. Содержание

1. Метод ансамблей

2. Предобработка данных ивыбор факторов

3. Вычислительная модельMapReduce

Задача модуля. Классификация пользоватей интернета сиспользованием реальных данных сервисов Mail.Ru.

CRISP-DM

SPSS, Teradata, Daimler AG, NCR Corporation, OHRA

Business understanding

На рыболовном предприятии автоматизируем сортировку улова

VS

Data understanding 1

Какие факторы будем использовать?

VS

Data understanding 2

X – множество объектов. Фактор fi : X → Fi

I Бинарные/Binary: Fi = {true, false} (есть ли пятна, двойной липлавник)

I Номинальные/Categorical: Fi – конечно (цвет, форма чешуи)I Порядковый/Ordinal: Fi – конечно, определен порядок

(категория возраста, количество плавников)I Количественный/Numerical: Fi = R (длина, вес)

Data preparation

Эта часть проекта занимает больше всего времениI Удаление шумаI Заполнение отсутствующих значенийI Трансформация факторовI Выбор факторовI Использование априорных знаний

Результат. Обучающая выборка, в формате, подходящем длямоделирования

Modeling 1

Модель – описание класса, выраженное, как правило, вматематической форме. Цель – выбрать удачную модель и еепараметры так, чтобы она наилучшим образом описывала заданныйкласс.

I Статистические моделиI Модели машинного обучения

Modeling 2

Evaluation & Deployment

I Решает ли выбранная модель задачу достаточно эффективно?I Удовлетворяет ли модель требованиям бизнеса?I Что вообще может пойти не так?

1854 г. Эпидемия холеры в Лондоне

Программа TIAI Наблюдаем 109 человекI Человек в среднем посещает отель раз в 100 днейI Есть 105 отелей на 100 человек каждыйI Проверим посещения за 1000 дней

Вероятность для конкретной пары встретиться в отеле в конкретныйдень:

p1 =

(1

100

)2

· 10−5 = 10−9

Всего пар людей

npp = C 109

2 ≈ (109)2

2= 5 · 1017

а пар дней

npd = C 103

2 ≈ (103)2

2= 5 · 105

Ожидаемое количество “подозрительных” встреч в отелях

N = p21nppnpd = 250000 >> 10

Принцип Бонферрони

Вычислить количество рассматриваемых событий припредположении их полной случайности. Если это количествонамного превосходит количество событий, о котором идет речь взадаче, полученные результаты нельзя будет считать достоверными.

Что мы обсудили на сегодняшней лекции?

I Познакомились со стандартным процессом CRISP-DMI Вспомнили, какие бывают виды факторовI Узнали, для чего в Data Science используется моделированиеI Разобрались с принципом Бонферрони

Задача 1

Пусть имеется простая обучающая выборка, включающая в себя 4признака: бинарный f1, номинальный f2, порядковый f3 иколичественный f4.

N f1 f2 f3 f4

1 true A O1 3.142 false B O2 2.73 true A O2 11.04 true C O1 10.0

Предложенная модель работает только на бинарных признаках. Какпреобразовать данную обучающую выборку в нужный формат? Аесли количественный? А номинальный?

Задача 2

Пусть имеется информация о покупках, совершенных 100миллионами людей. Кажый из них идет за покупками в среднем 100раз в год и покупает 10 из 1000 представленных товаров.Предположим, что два злоумышленника покупают одинаковыенаборы товаров. Если мы ищем пары людей, купившие одинаковыенаборы в течение года, сможем ли мы действительно определитьтеррористов?

Спасибо!

Обратная связь