Python для анализа данных
Click here to load reader
-
Upload
python-meetup -
Category
Documents
-
view
1.977 -
download
8
description
Transcript of Python для анализа данных
Python для анализа данных
Для тех, кто хочет попробовать, но не знает, с чего начать
Роман Иманкулов / @rdotpyMinsk Python Meetup, январь 2014
Python для анализа данных
Data Science
● Программирование.● Математическая статистика.● Прикладная область
Python для анализа данных
Data Scientist – человек, который разбирается в статистике лучше любого программиста, и который разбирается в создании программ лучше любого статистика.
Josh Wills, Director of Data Science at Cloudera
Python для анализа данных
Data Scientist – человек, который разбирается в статистике хуже любого статистика, и который разбирается в создании программ хуже любого программиста.
Will Cukierski, Data Scientist at Kaggle
Python для анализа данных
Зачем?● Optimization at the Obama campaign: a/b
testing.
Как заработать $690 млн за 20 месяцев и увеличить конверсию более чем вдвоеhttp://kylerush.net/blog/optimization-at-the-obama-campaign-ab-testing/
Python для анализа данных
Зачем?● Как я покупал квартиру
Как, работая в Wargaming, и используя R и линейные регрессии, за полдня увеличить свою квартиру на 20%http://habrahabr.ru/post/148782/
Python для анализа данных
Зачем?● Математик взломал сайт знакомств и
нашел девушку своей мечтыhttp://habrahabr.ru/post/210198/
Экосистема Python для анализа данных
Экосистема Python
numpy● объект ndarray для быстрой работы с
массивами● векторные операции для работы ними● случайные величины с различными
распределениями
Экосистема Python
scipy● Функции для работы с векторными данными
numpy– сluster: кластерный анализ
– fftpack: преобразование Фурье
– interpolate: интерполяция данных
– signal: обработка сигналов ...
Экосистема Python
matplotlib и matplotlib.pyplot
Визуализация данных
Экосистема Python
pandas
pandas.DataFrame – удобный объект для работы с табличными данными и визуализации их.
Экосистема Python
Scikit-learn● Supervised learning (обучение с учителем):
– линейные регрессии, классификация KNN, support vector machines, деревья решений
● Unsupervised learning (обучение без учителя):– Кластеризация
● Кросс-валидация● Препроцессинг данных и куча всего еще
Экосистема Python
IPython и IPython Notebook
Куда двигаться дальше?
Куда двигаться дальше
Coursera: Data Analysis
Jeff Leek
https://www.coursera.org/course/dataanalysis
Куда двигаться дальше
Coursera: Machine Learning
Andrew Ng
https://www.coursera.org/course/ml
Куда двигаться дальше
Kaggle
http://kaggle.com