Data Science meets Developers - Jonne Heikkinen, Solita
-
Upload
solita-oy -
Category
Technology
-
view
185 -
download
3
Transcript of Data Science meets Developers - Jonne Heikkinen, Solita
DATA SCIENCE MEETSDEVELOPERSJonne Heikkinen, Data Scientist
Jonne Heikkinen@jonneheikkinen
~5 vuotta alalla
M.Sc. Comp sci
R&D, asiakasanalytiikka, suosittelukoneet, konenäkö, NLP
Data scientist @ solita
”Data science is about extracting knowledge from
data.
KONEIHMINEN
vs.
PÄÄTÖKSENTEKIJÄ
PÄÄTÖKSENTEKIJÄ:KONE
PÄÄTÖKSENTEKIJÄ:KONE
1 Mitä on koneoppiminen?
1 Mitä on koneoppiminen?
2 Mitä ongelmia koneoppimisella voidaan ratkaista?
PÄÄTÖKSENTEKIJÄ:KONE
1 Mitä on koneoppiminen?
2 Mitä ongelmia koneoppimisella voidaan ratkaista?
3 Koneoppiminen tuotantoratkaisuksi?
PÄÄTÖKSENTEKIJÄ:KONE
1 Mitä on koneoppiminen?
2 Mitä ongelmia koneoppimisella voidaan ratkaista?
3 Koneoppiminen tuotantoratkaisuksi?
4 Miksi ohjelmistokehittäjän stackki on kultaa?
PÄÄTÖKSENTEKIJÄ:KONE
MACHINE LEARNING
SINCE 1959
DATA
ML-WORKFLOW
LEARN MODEL
SupervisedUnsuper-
vised
Machine learning
Reinforce-ment
SUB-CATEGORIES
SOVELLUSKOHTEET
› Suosittelukoneet (Netflix, Amazon).
› Ennustaminen. Asiakaspoistuma, huolto.
› Tunnistaminen. Facial, speech, fraud etc.
› Täysin uudet palvelut, jotka perustuvat ML
PALVELUT:TOUCHPOINTIT,
LIIKETOIMINNAN-KEHITYS
1. Kerää javastaanottaa
2. Rikastaa
3. Varastoija jalostaa
4. Machine learning
6. Julkaiseehyödynnettäväksi
OPERATIIVISET JÄRJESTELMÄT,SENSORIDATAN LÄHTEET &
DIGITAALISET PALVELUT
ULKOISET TIETOLÄHTEET
4. Machine learning
VA
AD
ITT
U T
EK
NIN
EN
O
SA
AM
INE
N
DATAN MÄÄRÄ
DATA EI MAHDU MUISTIIN
4. Machine learning
PREPARE DATA
FEATURE SELECTI
ON
TRAIN MODEL
EVALUATE
ML-WORKFLOW
Measurement-device 1..n
timestamp event … var_n Activity
Truck total_hours
time_from_maintentance
acceleration_magnitude
... feature_m Activity
RAW DATA
FEATURESPREPROCESSING, E.G., HANDLE
MISSING VALUES
n > m
TRAIN MODEL
VALIDOINTI
1/4 1/4 1/4 1/4
1/4 1/4 1/4 1/4
1/4 1/4 1/4 1/4
1/4 1/4 1/4 1/4
Fold 1
Fold 2
Fold 3
Fold4
Testidata
Opetusdata60% 40%
Holdout K-fold
SA
AV
UT
ET
TU
HY
ÖT
Y
KÄYTETTY AIKA
STATISTICAL RIGOR
QUICK ’N DIRTY
SUMMMM:
› Data engineerin rooli on avainasemassa, kun tehdään koneoppimisratkaisuita tuotantoon.
› Rakentavat ja ylläpitävät skaalautuvia älykkäitä järjestelmiä.
› Implementoivat yhdessä menetelmätieteiden asiantuntijoiden kanssa ratkaisuja tuotantoon.
› Analyysi ilman, että se menee käyttöön: 0 pistettä.
1 Ota joku oma datasetti, jonka tunnet hyvin.
2 Choose your weapon.
3 Pyörittele, kokeile, testaa.
4 Esim. kaggle–skabat.
MITEN LIIKKEELLE