Python для анализа данных

18

Click here to load reader

description

Роман Иманкулов, компания Doist.io. Доклад об анализе данных и посвящен преимущественно тем, кто хочет попробовать, но не знает с чего начать. О том, кому это вообще надо, где брать данные, какие инструменты есть в распоряжении начинающего python-аналитика и какую пользу для себя из всего можно извлечь на старте. Найти видео презентации можно здесь: http://habrahabr.ru/company/wargaming/

Transcript of Python для анализа данных

Page 1: Python для анализа данных

Python для анализа данных

Для тех, кто хочет попробовать, но не знает, с чего начать

Роман Иманкулов / @rdotpyMinsk Python Meetup, январь 2014

Page 2: Python для анализа данных

Python для анализа данных

Data Science

● Программирование.● Математическая статистика.● Прикладная область

Page 3: Python для анализа данных

Python для анализа данных

Data Scientist – человек, который разбирается в статистике лучше любого программиста, и который разбирается в создании программ лучше любого статистика.

Josh Wills, Director of Data Science at Cloudera

Page 4: Python для анализа данных

Python для анализа данных

Data Scientist – человек, который разбирается в статистике хуже любого статистика, и который разбирается в создании программ хуже любого программиста.

Will Cukierski, Data Scientist at Kaggle

Page 5: Python для анализа данных

Python для анализа данных

Зачем?● Optimization at the Obama campaign: a/b

testing.

Как заработать $690 млн за 20 месяцев и увеличить конверсию более чем вдвоеhttp://kylerush.net/blog/optimization-at-the-obama-campaign-ab-testing/

Page 6: Python для анализа данных

Python для анализа данных

Зачем?● Как я покупал квартиру

Как, работая в Wargaming, и используя R и линейные регрессии, за полдня увеличить свою квартиру на 20%http://habrahabr.ru/post/148782/

Page 7: Python для анализа данных

Python для анализа данных

Зачем?● Математик взломал сайт знакомств и

нашел девушку своей мечтыhttp://habrahabr.ru/post/210198/

Page 8: Python для анализа данных

Экосистема Python для анализа данных

Page 9: Python для анализа данных

Экосистема Python

numpy● объект ndarray для быстрой работы с

массивами● векторные операции для работы ними● случайные величины с различными

распределениями

Page 10: Python для анализа данных

Экосистема Python

scipy● Функции для работы с векторными данными

numpy– сluster: кластерный анализ

– fftpack: преобразование Фурье

– interpolate: интерполяция данных

– signal: обработка сигналов ...

Page 11: Python для анализа данных

Экосистема Python

matplotlib и matplotlib.pyplot

Визуализация данных

Page 12: Python для анализа данных

Экосистема Python

pandas

pandas.DataFrame – удобный объект для работы с табличными данными и визуализации их.

Page 13: Python для анализа данных

Экосистема Python

Scikit-learn● Supervised learning (обучение с учителем):

– линейные регрессии, классификация KNN, support vector machines, деревья решений

● Unsupervised learning (обучение без учителя):– Кластеризация

● Кросс-валидация● Препроцессинг данных и куча всего еще

Page 14: Python для анализа данных

Экосистема Python

IPython и IPython Notebook

Page 15: Python для анализа данных

Куда двигаться дальше?

Page 16: Python для анализа данных

Куда двигаться дальше

Coursera: Data Analysis

Jeff Leek

https://www.coursera.org/course/dataanalysis

Page 17: Python для анализа данных

Куда двигаться дальше

Coursera: Machine Learning

Andrew Ng

https://www.coursera.org/course/ml

Page 18: Python для анализа данных

Куда двигаться дальше

Kaggle

http://kaggle.com