Strojové učeníkti.mff.cuni.cz/~marta/uvod.pdfThe Elements of Statistical Learning, Data Mining,...

Strojové učení

Marta Vomlelová

[email protected]

KTIML, S303

Literatura

1.T. Hastie, R. Tishirani, and J. Friedman. The Elements of Statistical Learning, Data Mining, Inference and Prediction. Springer Series in Statistics. Springer, (2003 a další, web).

2.I.H.Witten and E.Frank. Data Mining - Practical machine learning tools and techniques with Java implementation. Accademic Press Pub., USA, 1999.

Doplňující literatura

P. Berka.Dobývání znalostí z databází. Academia, 2003.T. Mitchell. Machine Learning. McGraw Hill, New York, 1997.S. Russel and P. Norwig. Artificial Intelligence: A Modern Approach. Prentice Hall, 2003.

Příklady statistického učení

Vytořit z dat model, který dokáže:● Určit polohu robota z minulé pozice a senzorů .● U pacienta hospitalizovaného s infarktem

predikovat riziko dalšího infarktu. Predikci lze založit na demografických, stravovacích a klinických datech o pacientovi.

● Rozpoznání spamu od e-mailu.● Predikovat cenu akcií za 6 měsíců z aktuální

výkonnosti společnosti a ekonomických dat.

Typický scénář „zadání“● Máme danou cílovou veličinu

● kvantivativní Y – cena akcií, nebo● kategoriální G – infarkt ano/ne.

● Chceme její hodnotu predikovat na základě příznaků (features) X● klinická měření, stravování.

● Máme množinu trénovacích dat, u kterých známe i příznaky, i hodnotu cílové veličiny.

● Na základě těchto dat tvoříme model . ● Dobrý model predikuje cíl s malou chybou.

f , g

Učení s učitelem / bez učitele● Předchozí slajd se týká učení s učitelem

(supervized learning).

● Při učení bez učitele nemáme žádnou cílovou veličinu, úkolem je popsat data – např. klastrováním či určením závislostí. (unsupervised learning)

Příklad: Klasifikace e-mailu.● Data obsahují 4601 příkladů, snažíme se

rozlišit spam a žádaný e-mail.● Známe cílovou třídu spam/email a frekvence 57

nejčastějších slov či znaků.

● Příklad modelu:

● V tomto příkladu je nestejná cena chyby.

Příklad: rakovina prostaty● Cílem je predikovat logaritmus prostate specific

antigen (lpsa) z množiny příznaků.

● Predikujeme spojitouveličinu.

● Bodový graf, XY graf(scatter plot)

ObsahChapter 2: Úvod do učení s učitelemChapter 3. a 4. Lineární metody pro regresi a klasifikaciChapter 5. SplajnyChapter 6. Jádrové (kernal) metody a lokální regrese

Chapter 7. Ohodnocení a volba modelůChapter 8. Kombinace modelů, EM algoritmus, ..Chapter 9: Rozhodovací stromyChapter 10: BoostingChapter 11: Neuronové sítě

Chapter 12: Support vector machinesChapter 13: Nejbližší sousedéChapter 14: Učení bez učitele

Typické otázky u zkoušky● Vysvětlete pojem:

přeučení, prokletí dimenzionality, bayesovsky optimální predikce, maximálně věrohodný odhad, optimální separující nadrovina, ...

● Napište algoritmus: AdaBoost, Rozhodovací stromy včetně prořezávání, EM, SVM, ...

● Dolňující otázky pro ujasnění, nakolik pojmům/algoritmům rozumíte

na jedničku či pokud jste někde hodně nevěděli.Mnohé ze slajdů se nezkouší, z přednášky možná vytušíte co ;-)

Přehled základních pojmů● vstupní veličiny (=features), cílová veličina● numerické, kategoriální, uspořádané veličiny● regrese (=predikce numerické veličiny)● klasifikace (=predikce kategoriální veličiny)● binární veličiny – kódujeme 0/1 nebo -1/1● uspořádané – často pomocí dummy variables (pomocné

proměnné)

● vstupní veličiny značíme X, výstup Y resp. G.● X je matice Nxp, predikce značíme střechou .

Lineární regresep

p

p

p

Lin. regrese 2

p

Lin. regrese - výsledek

● Není-li invertibilní, ubereme závislé sloupce, nebo se pokusíme překódovat nebo přefiltrovat data tak, aby invertibilní byla.

Maskování

U lineární regrese pro víc tříd může dojít k maskování:modrá třída není nikdy predikovaná.

Lin. regrese vs. nejbližší sousedé● Lineární regrese

● je hladká, stabilní● výrazně závisí na předpokladu linearity hranice● má malý rozptyl, potenciálně velké vychýlení (bias).

● k-NN● se přizpůsobí libovolné (spojité..) hranici● predikce záleží na pozici a hodnotách pár okolních

bodů, proto je nestabilní● velký rozptyl, malé vychýlení (bias).

Přeučení (overfitting)● Přeučením se nazývá

přílišná závislost modelu na trénovacích datech, která zvyšuje chybu na testovacích datech.Tj. růst oranžové křivky při klesající modré vpravo v grafu.

Optimální bayeskovská hranice● Pokud víme, jakým

procesem jsou data generována, můžeme v každém bodě predikovat nejčastější hodnotu (při stejné ceně chyby).

● Tento postup vytvoří optimální bayesovskou hranici (kde jsou obě hodnoty stejně časté).

Prokletí dimenzionality● Nejbližší sousedé jsou při velké dimenzi hodně

daleko.

Proč vadí vzdálený nejbližší soused

Druhý příklad

Weka● nástroj pro Data mining, umožňuje učit mnoho

modelů.

● http://www.cs.waikato.ac.nz/ml/weka/

Strojové učeníkti.mff.cuni.cz/~marta/uvod.pdfThe Elements of Statistical Learning, Data Mining,...

Documents

Transcript of Strojové učeníkti.mff.cuni.cz/~marta/uvod.pdfThe Elements of Statistical Learning, Data Mining,...