Data science101

116
DATA SCIENCE 101 by T. C. Hsieh ( 謝宗震 ), Ph.D. 2014.10.23

description

資料科學是綜合、跨界的科學,需仰賴不同學科的人才,在一連串的活動中,分工互補,接力完成使命,以交付資料產品。本次的演講內容分成兩個部分:首先,以資料分析者的觀點探討資料科學的整體流程,並分享講者以資料科學精神來探討生活周遭大小事物的案例 (ex: 首長選舉、豪宅房價、學運新聞);其次,分享講者參與資料科學相關社群活動 (TW.R group, DSP) 的收穫與啟發,進一步提出資料科學家養成的建議。

Transcript of Data science101

Page 1: Data science101

DATA SCIENCE 101by T. C. Hsieh (謝宗震), Ph.D.2014.10.23

Page 2: Data science101

About MeEducation • National Tsing-Hua University, Ph.D.

in Statistics, 2009-2013

Experience • Post-doc, NTHU, 2014 • Lecturer and Hacker, DSP, since 2013 • Officer, TW.R group, since 2013 • Statistics consultant, personal studio,

since 2008

Skills • Data manipulation, Data mining and

statistical learning, Ecology statistics, R programing

Blog • 讀數⼀一格 http://readata.org

Page 3: Data science101

•資料科學簡介 •⽣生活中的資料科學案例 •資料科學社群經驗分享

Agenda

http://goo.gl/LC5voZ

Page 4: Data science101

http://goo.gl/eDFrA5

Page 5: Data science101

什麼是資料科學?

Page 6: Data science101

什麼是資料科學?

Page 7: Data science101

科學是透過理性辯證, 來接近真理的⼀一種⽅方法。

http://commons.wikimedia.org/wiki/File:Scientists_montage.jpg

http://goo.gl/3njGHf

Page 8: Data science101

科學是透過理性辯證, 來接近真理的⼀一種⽅方法。

http://commons.wikimedia.org/wiki/File:Scientists_montage.jpg

科學是透過理性與經驗交互辯證, 來接近真理的⼀一種⽅方法。

Page 9: Data science101

我認為科學⽅方法可分為以下四個步驟: 1. 觀察現狀,提出問題 2. 將真實問題轉換成科學模型 3. 進⾏行實驗、分析 4. 將結果導回真實問題

http://goo.gl/mFqQN6

在有限的時間下,!你想怎麼分配資源來學習這四步?

Page 10: Data science101

什麼是資料科學?⼈人類活動與⾃自然現象的記錄

Page 11: Data science101

1 + 1 = 2?

+ = ?�

Page 12: Data science101

1 + 1 = 2?數據化的記錄總會喪失部分訊息

⼀一個問題是否能透過資料解決

和資料的收集與記錄⽅方式有關

Page 13: Data science101

什麼是資料科學?使⽤用科學⽅方法分析資料,解決真實世界的問題

Page 14: Data science101

好像有點複雜,其實...

Page 15: Data science101

資料科學就跟做菜⼀一樣http://goo.gl/rbkzfO

Page 16: Data science101

最初的動機是因為饑餓(求知若渴!?)

Page 17: Data science101

資料=⻝⾷食材http://goo.gl/sbONBy

Page 18: Data science101

資料庫=冰箱

http://goo.gl/wbozmd

為什麼需要冰箱? 資料要⽤用什麼形式存放?

Page 19: Data science101

分析⼯工具=廚具http://goo.gl/h9nDzO

Math, Statistics, Computer Science, … R, Python, SAS, SPSS IBM, …

Page 20: Data science101

分析⽅方法=⻝⾷食譜

http://goo.gl/J6TLsQ

A/B Test, Regression, Doe, Classification, Clustering, Data Mining, Machine Learning…

Page 21: Data science101

資料呈現=擺盤http://goo.gl/8eR5IM

Data Visualization or Data Presentation, User Interface / User Experience

Page 22: Data science101

那資料科學家呢?

Page 23: Data science101

資料科學家=廚師=全能的超⼈人http://goo.gl/QJ6L2n

Page 24: Data science101

對廚師表⽰示尊敬!!!

Page 25: Data science101

如果你跟我⼀一樣當不成超⼈人

Page 26: Data science101

我們可以是各有所⻑⾧長的 資料科學團隊

http://goo.gl/1td0gt

Page 27: Data science101

延續團隊的觀點,從Data Lifecycle來談資料科學

Page 28: Data science101

Raw Data Clean Data

ModelData Product

Data lifecycle and Data Science Process

by CK Liu - Z > B的資料科學

Page 29: Data science101

Raw Data Clean Data

ModelData Product

Data Engineers Data Analysts

Product Managers

Professional Roles of Data Science

by CK Liu - Z > B的資料科學

Page 30: Data science101

Core Skills of Data AnalystsData

visual

izatio

n

Machine

Learn

ing

Mathem

atics

Statist

ics

Compu

ter Sc

ience

Commun

icatio

n

Domain

Expe

rties

Page 31: Data science101

Viz MLMath Sta

t CSCom DE

Core Skills of Data Science Team

by Rachel Schutt - Next-Gen Data Scientists

Page 32: Data science101

分享⼀一些⽣生活案例

Page 33: Data science101

台北市頂級豪宅房價預測

http://www.rich-house.com.tw/

Page 34: Data science101

台北市頂級豪宅房價預測

http://goo.gl/Tc0Zm6

Page 35: Data science101

內政部不動產實價登錄資料 2012 Aug. - 2013 Sep. 全台灣的租賃、買賣、預售 約47萬筆數據 > Open Data Q&A

Page 36: Data science101

台北市市政府的豪宅標準:每⼾戶總價8000萬元以上,及房價每坪100萬元以上或單⼾戶80坪以上房型得豪宅物件403件,再從這群豪宅物件中找出頂級豪宅40件進⾏行預測。

Page 37: Data science101

統計模型:Generalized Additive Model (GAM) 重要因⼦子:⾯面積⼤大⼩小、屋齡、⾏行政區、是否購買⾞車位、⾼高低樓層 > gam(log10(總價)~s(⾯面積)+s(屋齡)+⾏行政區+⾞車位+樓層) 得到校正後決定係數 (adjust R square) 93.5% 之房價預測模型

Page 38: Data science101

http://goo.gl/vT1Smr Web application is available !

Page 39: Data science101

台北市頂級豪宅房價預測

http://goo.gl/Tc0Zm6

Page 40: Data science101

關於 Generalized Additive Model

Page 41: Data science101

媒體報導關聯性分析 ─以太陽花學運為例

Page 42: Data science101

http://readata.org/datasci/ecfa-and-data-science/

Page 43: Data science101

故事從這裡說起...

Page 44: Data science101

http://juan.tw/?p=2269

Page 45: Data science101

http://g0v.today

Page 46: Data science101

⽂文播組沒說完的話:我們是⼀一群對程式幾乎⼀一無所知的⼈人,想做些事情,只是沒有平台、也不會這些技術。我們不曉得這個夢會不會太⼤大,但只是想整合資源,⽽而不想讓資料隨⾵風飄,然後就消失了......

還有就是想要把這個屬於台灣⼈人⾃自⼰己的歷史完完整整記錄下來,最完整的歷史記錄,留下後讓後⼈人⾃自⼰己來評論。https://g0v.hackpad.com/ep/pad/static/07KBjTxWEFS

Page 47: Data science101

我問⾃自⼰己⼀一個問題 現場⽂文播資料可以怎麼⽤用?

That is data-driven !

Page 48: Data science101

現場情況 V.S. 現場⽂文播

Page 49: Data science101

現場情況 V.S. 現場⽂文播 V.S. 新聞報導

Page 50: Data science101

有沒有辦法量化 新聞媒體報導的真實性?

基本上 沒有完美的辦法

Page 51: Data science101

不過 媒體的關聯性應該有辦法

Page 52: Data science101

怎麼量化關聯性? 先設想 你需要什麼 / 有什麼資料

Page 53: Data science101
Page 54: Data science101

怎麼獲取媒體報導資料?

Page 55: Data science101
Page 56: Data science101

除了堅毅不拔的複製 / 貼上之外...你還會什麼?

Page 57: Data science101
Page 58: Data science101

特別感謝

Page 59: Data science101

Ronny Wang and NewsDiff

Page 60: Data science101

我收到了三萬多筆學運相關報導的原始資料

Page 61: Data science101

怎麼量化關聯性? 接著問 這些資料可以怎麼⽤用?

Page 62: Data science101
Page 63: Data science101

使⽤用關鍵字頻作為基本量化元素

http://johnsonhsieh.github.io/study-area-statR/#49 https://github.com/JohnsonHsieh/study-area-statR/blob/gh-pages/src/tm.R

Page 64: Data science101

這個過程⽤用了以下技術

Page 65: Data science101

Quick references

• Statistics with R (Johnson) • slide: http://johnsonhsieh.github.io/study-area-statR/#49

• vod : https://www.youtube.com/watch?v=XbNx-I9fLWQ

• Text Mining with R (Jiawei) • slide : https://docs.google.com/presentation/d/

1IP5vFmBlGPBp32bWDqSpGYLox5QVmenFAfPwcOseQhQ/edit#slide=id.p

• vod : https://www.youtube.com/watch?v=ALZaXnzXPg8

Page 66: Data science101

怎麼計算關聯性?

Page 67: Data science101

Pearson correlation coefficient

最廣為⼈人知的相關性指標

但是本案例中完全⽤用不上

Page 68: Data science101

觀察資料的結構 該怎麼計算關聯性?

Page 69: Data science101

Ref: Chao, A., Jost, L., Chiang, S. C. Jiang Y.- H. and Chazdon, R. (2008). A Two-stage probabilistic approach to multiple-community similarity indices.Biometrics 64, 1178-1186. (pdf file)

Page 70: Data science101
Page 71: Data science101

這個過程⽤用了以下技術

Page 72: Data science101

最後得到所謂的媒體關係圖

Page 73: Data science101

http://readata.org/datasci/ecfa-and-data-science/

Page 74: Data science101

臺北市⻑⾧長選戰觀察

Page 75: Data science101

我覺得利⽤用資料學⽅方法 來規劃選舉策略是很有潛⼒力的

Page 76: Data science101

譬如說:決策樹(Classification And Regression Trees)

Page 77: Data science101
Page 78: Data science101

基本上,我拿不到 被視為機密的⺠民調原始數據

Page 79: Data science101

但是,我⽤用統計⽅方法 還原數據 (Gibbs Sampling)

Page 80: Data science101

TVBS⺠民調表格 + 台北市統計資料庫查詢系統, 利⽤用 Gibbs sampling 的概念將⺠民調結果回推原始數據

Page 81: Data science101

TVBS⺠民調表格 + 台北市統計資料庫查詢系統, 利⽤用 Gibbs sampling 的概念將⺠民調結果回推原始數據

Page 82: Data science101

TVBS⺠民調表格 + 台北市統計資料庫查詢系統, 利⽤用 Gibbs sampling 的概念將⺠民調結果回推原始數據

Page 83: Data science101
Page 84: Data science101

https://github.com/braz/DublinR-ML-treesandforests/

決策樹基本概念

Page 85: Data science101

負⾯面競選

Page 86: Data science101

負⾯面競選 何以在各個⺠民主國家如此盛⾏行?

Page 87: Data science101
Page 88: Data science101

台北市⻑⾧長⺠民調(wikipedia)

利⽤用LOESS法預測 9/16 - 10/16 每⼀一天候選⼈人的⺠民調⽀支持度 (含未表態)

Page 89: Data science101

社群正/反內容熱度(林克傳說)

熱度百分⽐比指與候選⼈人相關的內容出現在⼀一個⼈人的塗鴉牆之平均機率

Page 90: Data science101

整理成以下表格進⾏行作圖

Page 91: Data science101
Page 92: Data science101

⼩小結• 資料科學主要精神

• Data-driven thinking • 核⼼心技術

• ⽐比⼤大⼩小、⽐比差異 • 找相關、找趨勢

(ex: 新聞關聯性、負⾯面競選)

• 做預測 (ex: 豪宅房價)

• 做分類 (ex: ⺠民調決策樹)

• 做推薦http://shop.oreilly.com/product/0636920029182.do

Page 93: Data science101

資料科學相關社群

Page 94: Data science101

TW.RTaiwan R User Group

MLDM Monday

Page 95: Data science101

吳 ⿑齊 軒

張 家 ⿑齊

https://www.facebook.com/twdsconf

Page 96: Data science101

Free R Online Tutorials is here !!!!Meetup: http://www.meetup.com/Taiwan-R/ YouTube: https://www.youtube.com/user/TWuseRGroup

Taiwan R User Group MLDM Monday

Page 97: Data science101

Mar 2013, Spider & Crawler 寫作相關主題

Page 98: Data science101

Jul 2013, Joint Meeting

Page 99: Data science101

Jan 2014, OSSF Data Science with R Workshop

Page 100: Data science101

Aug 2014, ETL with R

Page 101: Data science101

May 2014, Data visualization

Page 102: Data science101

Aug 2014, Taiwan Data Science Conference with R tutorial

Page 103: Data science101

2014.10.20 Taiwan R user group 2nd Year Anniversary

Page 104: Data science101

DSPThe Data Science Program

資料科學計劃

Page 105: Data science101
Page 106: Data science101

http://dasp.im

Page 107: Data science101

Dec 2013, Team Training #1

Page 108: Data science101

Mar 2014, Team Training #2

Page 109: Data science101
Page 110: Data science101

Jan 2014, Data Fiesta

Page 111: Data science101

Jan 2014, Data Fiesta

Page 112: Data science101

http://dsp.im

Page 113: Data science101

我的社群經驗

Greg Wilsonby Vijaysree Venkatraman - When All Science Becomes Data Science

參與參與社群讓我 • 遇⾒見良師益友 • 接觸更多真實問題 (ex: code for Healthcare) • 懂得團隊協作 (ex: R tutorial, DSP training)

Page 114: Data science101

Let DSP ask a question:

如果DSP要舉辦⼀一個 資料科學冬令營 for ⼤大學⽣生 你有什麼建議?

Page 115: Data science101

Joint UsTW.R

DSPdsp.im

www.meetup.com/Taiwan-R/

Lecturers

Mentors

Volunteers

Page 116: Data science101

thank you