Welcome to IPB University · Dua aliran dalam statistika: Bayesians dan frequentists. Aliran...
Transcript of Welcome to IPB University · Dua aliran dalam statistika: Bayesians dan frequentists. Aliran...
IPB University
Inspiring Innovation with Integrity
Welcome to
IPB University
Department of Statistics Faculty of Mathematics and Natural Sciences
IPB University
Inspiring Innovation with Integrity
Statistika untuk Sains Data Prof. Dr. Ir. Khairil Anwar Notodiputro, MS Program Studi Magister Statistika dan Sains Data
Program Studi Doktor Statistika dan Sains Data
Departemen Statistika Fakultas Matematika dan Ilmu Pengetahuan Alam twitter: @kh_notodiputro
E-mail: [email protected] Seri web-minar 3 Juni 2020
Inspiring Innovation with Integrity
Pengantar
2
“Statistics ought to be concerned with data analysis. The field should be defined in terms of a set of problems (as are most fields) rather than a set of tools…” (1962)
John W Tukey
Bell Laboratories J. W. Tukey started the statistics and data analysis reformation in his [Annals of Mathematical Statistics] publication, titled “The Future of Data Analysis”.
Inspiring Innovation with Integrity
Pengantar
Ada paper bagus yang ditulis oleh David Donoho (2017), Profesor statistika,
Standford University, yang bergelut dalam Sains Data.
3
Donoho mempertegas bahwa Tukey (1962) telah
mendorong perlunya reformasi statistika: dari
deskripsi dan inferensi ke akuisisi data dan
prediksi.
Inilah yang dinamakan sebagai Data Science atau
Sains Data (Cleveland, 2001). pertama kali ada
istilah Data Science.
Sejak saat itu banyak statistisi masyhur menekuni penelitian untuk mengembangkan
Sains Data, misalnya Jeff Wu, John Chambers, William S. Cleveland, David Donoho,
Leo Breimen, Trevor Hastie, Robert Tibshirani, dan Jerome Friedman.
Inspiring Innovation with Integrity
Pengantar
4
Apakah statistika diperlukan dalam memahami sains data?
Apa keuntungan menjadi imuwan data (data scientist ) yang memiliki pengetahuan
statistika dibanding yang tidak memilikinya?
Tentu kalau hanya ingin mengaplikasikan program machine learning Anda dapat
langsung mengoperasikannya tanpa harus paham statistika.
Tapi jika Anda ingin menjadi ilmuwan data yang dapat menyelesaikan berbagai
masalah dalam sains data maka Anda perlu statistics dan probability theory.
Inspiring Innovation with Integrity
Statistika vs Sains Data
5
Aspect Statistics Data Science
Concept Statistics is the science of data It is used to measure or estimate an
attribute Applies statistical functions or algorithms on
sets of data to determine values as appropriate for the problem being studied
Based on scientific computing techniques Encompasses machine learning, other analytics
processes, business models Uses advanced mathematics and statistics to derive
new information from big data A wide discipline which involves programming,
understanding of business models, trends, and so on
Approach Use of mathematical formulas, models, and concepts
Analysis of random data Estimate values for different data attributes To determine behaviors based on data
Apply scientific methods in problem-solving using random data
Identifies data requirements for a given problem Identify techniques to obtain desired results Provide value to organizations using data
Sumber: https://www.educba.com/data-science-vs-statistics/
Inspiring Innovation with Integrity
Statistika vs Sains Data
6
Network of data scientist skills (AmstatNews, 1 May 2018)
Top 10 Skills Listed by Data Scientists on LinkedIn
Statistics
Statistics is the science concerned
with developing and studying
methods for collecting, analyzing,
interpreting and presenting
empirical data. In developing
methods and studying the theory
that underlies the methods
statisticians draw on a variety of
mathematical and computational
tools. (University of California)
Inspiring Innovation with Integrity
Statistika vs Sains Data
7
A data scientist makes hundreds of decisions every day. They range from small ones like how to tune a
model all the way up big ones like the team's R&D strategy.
Many of these decisions require a strong foundation in statistics and probability theory.
The goals of data scientists and statisticians are
the same:
They both want to extract meaningful information
from data.
Much of statistical technique was originally
developed in an environment where data were
scarce and difficult or expensive to collect, so
statisticians focused on creating methods that
would maximize the strength of inference one is
able to make, given the least amount of data.
(Baumer et al., 2017)
Inspiring Innovation with Integrity
Belajar Statistika untuk Sains Data
Core Statistics Concepts
Bayesian Thinking
Statistical Machine Learning
Core Statistics Concepts Statistika Deskriptif, sebaran peluang, pengujian hipotesis, regresi dan model linear.
1
Bayesian Thinking Peluang bersyarat, sebaran prior, sebaran posterior, and kemungkinan maximum.
3
2
Statistical Machine Learning Konsep pembelajaran mesin, model
klasifikasi, Metode Resampling,
Regularisasi dan Seleksi Model, Model
non-linear, Tree-based methods,
Support vector machine, unsupervised
learning.
Inspiring Innovation with Integrity
Core Statistics Concepts
9
Experimental design: Suatu perusahan memperkenalkan produk baru yang
dijual di berbagai toko eceran. Anda diminta merancang uji perbandingan antar
lokasi toko, juga diminta menentukan berapa jumlah toko yang harus dilibatkan
agar diperoleh hasil yang berbeda nyata (statistically significant ) dengan
tingkat kepercayaan 95%.
Regression modeling: Suatu perusahaan ingin memprediksi permintaan
(demand ) atas suatu produk di setiap toko secara lebih akurat menggunakan
peubah penjelas X yang banyak macamnya. Anda perlu membangun model regresi
berkendala (constrained ) atau shrinkage regression sehingga koefisien yang tidak
nyata dikerutkan menjadi nol.
Data transformation: Anda punya beberapa calon model statistical machine
learning yang akan diuji. Beberapa diantaranya mungkin mensyaratkan asumsi
sebaran peluang tertentu. Anda harus mampu mengidentifikasi apakah asumsi
tersebut layak, atau kalau tidak, apakah bisa dilakukan transformasi sehingga
asumsi tersebut menjadi layak digunakan.
Inspiring Innovation with Integrity
Bayesian Thinking
10
Dua aliran dalam statistika: Bayesians dan frequentists. Aliran
Bayesian lebih banyak relevansinya dalam sains data.
Penganut Frequentist menggunakan peluang dalam memodelkan
proses percontohannya (sampling process). Artinya, data yang
terkumpul dimaknai sesuai mekanisme peluang pengumpulannya.
Di pihak lain, penganut Bayesian menggunakan teori peluang untuk
memodelkan proses percontohannya, juga menggunakan teori peluang
untuk mengkuantifikasi ketakpastian sebelum data dikumpulkan.
Dalam pola pikir Bayesian, ketakpastian sebelum data dikumpulkan
disebut peluang a priori atau prior probability. Kemudian setelah data
terkumpul, ditambah informasi proses peluang dalam percontohannya
(likelihood ), peluang apriori ini diperbaiki menjadi peluang a posteriori atau posterior probability. Inilah pemikiran dasar Bayesian.
Model pengumpulan data. Model
ketakpastian.
P(E|I) P(I|E) P(E)
Inspiring Innovation with Integrity
Bayesian Thinking
11
Laptop Anda sudah dicharge 100% dan bisa digunakan. Baterai laptop
berkurang shg kita sambungkan dengan listrik, tapi baterai tidak terisi.
Karena ini baru terjadi maka kemungkinan arus listrik yg bermasalah,
bukan charger nya. Jadi prior kita “charger tidak masalah”, likelihood-nya adalah peluang baterai laptop tidak terisi jika charger tidak
bermasalah, dan posteriornya adalah peluang charger tidak
bermasalah jika diketahui baterai laptop tidak terisi.
Karena kita percaya charger OK, maka kita sambungkan ke sumber
listrik lain, ternyata tetap baterai tidak terisi. Kita mulai tidak percaya
pada charger, artinya prior kita berubah setelah melihat data/fakta.
Misal dicoba lagi untuk menyambungkan charger ke sumber listrik
yang lain, ternyata batterai tetap tidak terisi. Akhirnya prior kita
perbaiki dan disimpulkan bahwa yg bermasalah adalah charger, bukan
sumber listrik.
The Laptop charging problem
Inspiring Innovation with Integrity
Bayesian Thinking
12
Cara memahami dalil Bayes seperti ini saya peroleh ketika saya menulis
disertasi berjudul:
“Statistical Image Reconstruction from Projection ”
yang intinya merekontruksi gambar benda di dalam benda, misal kanker di
dalam kepala atau kandungan emas dan logam berharga di dalam bumi
(tomography). Gambar benda direkonstruksi dari data (biasanya emisi
proton) yang ditangkap oleh kamera di luar benda. Nah, prior kita adalah
pengetahuan tentang gambar benda tersebut, likelihood-nya adalah data
yang tertangkap kamera, posterior-nya adalah gambar hasil rekonstruksi.
Thomas Bayes secara genius berhasil merumuskan cara berpikir dan dan
cara orang mengambil keputusan ke dalam formula matematika. Dalil Bayes
sangat menakjubkan.
Kenangan pribadi:
Inspiring Innovation with Integrity
Statistical Machine Learning
13
Machine learning allows computers to learn and discern patterns without actually being programmed. When Statistical techniques and machine learning are combined together they are a powerful tool for analysing various kinds of data in many computer science/engineering areas including, image processing, speech processing, natural language processing, robot control, as well as in fundamental sciences such as biology, medicine, astronomy, physics, and materials. (Sugiyama, 2016)
+ = Machine learning Statistics Statistical machine learning
Inspiring Innovation with Integrity
Statistical Machine Learning
14
Klasifikasi : Regresi logistik
Fungsi diskriminan
Metode Resampling : Validasi-silang
Bootstrap
Regularisasi dan Seleksi Model : Seleksi himpunan bagian terbaik
Metode penyusutan (shrinkage)
Metode Reduksi dimensi
Model non-linear : Regresi splines
Regresi lokal
Tree-based Methods : Pohon regresi
Pohon klasifikasi
Bagging, random forest, boosting
Support Vector Machine : Maximal margin classifier Support vektor classifier SVM untuk kasus > 2 klasifikasi
Unsupervised learning : Analisis komponen utama
Metode penggerombolan
Inspiring Innovation with Integrity
Catatan Penutup
15
Tujuan statistisi dan ilmuwan data dalam membedah data sangatlah mirip, walaupun
tidak sama dan sebangun.
Karena itu peran statistika untuk Sains Data tidak diragukan walaupun sempat
tenggelam (under-estimated ) dibanding peran dari sains komputer.
Dalam aspek akuisisi data, pengayaan jenis data, dan pemodelan canggih
(advanced modeling ) untuk prediksi nampaknya para statistisi masih tertinggal.
Karena itu statistisi harus memperkuat perannya dalam Sains Data, suatu disiplin
modern yang semakin diterima oleh berbagai kalangan.
Dengan mengkombinasikan metode statistika dan algoritma komputasi maka Sains
Data akan menghasilkan kesimpulan atau keputusan yang bersifat ilmiah.
Akhirnya, hanya dengan menyeimbangkan peran dari semua sains yang terlibat
maka akan dihasilkan solusi yang terbaik dalam Sains Data.
Inspiring Innovation with Integrity
Catatan Penutup
16
Mari belajar Statistika dan Sains Data di
IPB University
Thank Y ou twitter: @kh_notodiputro
email: [email protected]