DATA MINING CON Rweka -...

34
Madrid, 28 de febrero de 2017 DATA MINING CON Rweka Grupo de Usuarios de R de Madrid Mauricio Beltrán Pascual 1

Transcript of DATA MINING CON Rweka -...

Page 1: DATA MINING CON Rweka - madrid.r-es.orgmadrid.r-es.org/wp-content/uploads/2017/02/RWeka_Grupo_Usuarios_R... · CARACTERÍSTICAS DE LOS PRINCIPALES ALGORITMOS DE ÁRBOLES DE DECISIÓN

Madrid,28defebrerode2017

DATA MINING CON Rweka

Grupo de Usuarios de R de Madrid

Mauricio Beltrán Pascual

1

Page 2: DATA MINING CON Rweka - madrid.r-es.orgmadrid.r-es.org/wp-content/uploads/2017/02/RWeka_Grupo_Usuarios_R... · CARACTERÍSTICAS DE LOS PRINCIPALES ALGORITMOS DE ÁRBOLES DE DECISIÓN

Índice– ¿QuéesWEKA?(Waikato Environment forKnowledge Analysis)

• MetodologíadeMineríadedatos.• TécnicasyalgoritmosdeMineríadedatos.

– RWeka

– Recursosdeaprendizaje

2

Page 3: DATA MINING CON Rweka - madrid.r-es.orgmadrid.r-es.org/wp-content/uploads/2017/02/RWeka_Grupo_Usuarios_R... · CARACTERÍSTICAS DE LOS PRINCIPALES ALGORITMOS DE ÁRBOLES DE DECISIÓN

3

Page 4: DATA MINING CON Rweka - madrid.r-es.orgmadrid.r-es.org/wp-content/uploads/2017/02/RWeka_Grupo_Usuarios_R... · CARACTERÍSTICAS DE LOS PRINCIPALES ALGORITMOS DE ÁRBOLES DE DECISIÓN

4

Page 5: DATA MINING CON Rweka - madrid.r-es.orgmadrid.r-es.org/wp-content/uploads/2017/02/RWeka_Grupo_Usuarios_R... · CARACTERÍSTICAS DE LOS PRINCIPALES ALGORITMOS DE ÁRBOLES DE DECISIÓN

5

Page 6: DATA MINING CON Rweka - madrid.r-es.orgmadrid.r-es.org/wp-content/uploads/2017/02/RWeka_Grupo_Usuarios_R... · CARACTERÍSTICAS DE LOS PRINCIPALES ALGORITMOS DE ÁRBOLES DE DECISIÓN

6

Page 7: DATA MINING CON Rweka - madrid.r-es.orgmadrid.r-es.org/wp-content/uploads/2017/02/RWeka_Grupo_Usuarios_R... · CARACTERÍSTICAS DE LOS PRINCIPALES ALGORITMOS DE ÁRBOLES DE DECISIÓN

7

Page 8: DATA MINING CON Rweka - madrid.r-es.orgmadrid.r-es.org/wp-content/uploads/2017/02/RWeka_Grupo_Usuarios_R... · CARACTERÍSTICAS DE LOS PRINCIPALES ALGORITMOS DE ÁRBOLES DE DECISIÓN

8

Page 9: DATA MINING CON Rweka - madrid.r-es.orgmadrid.r-es.org/wp-content/uploads/2017/02/RWeka_Grupo_Usuarios_R... · CARACTERÍSTICAS DE LOS PRINCIPALES ALGORITMOS DE ÁRBOLES DE DECISIÓN

9

Page 10: DATA MINING CON Rweka - madrid.r-es.orgmadrid.r-es.org/wp-content/uploads/2017/02/RWeka_Grupo_Usuarios_R... · CARACTERÍSTICAS DE LOS PRINCIPALES ALGORITMOS DE ÁRBOLES DE DECISIÓN

10

Page 11: DATA MINING CON Rweka - madrid.r-es.orgmadrid.r-es.org/wp-content/uploads/2017/02/RWeka_Grupo_Usuarios_R... · CARACTERÍSTICAS DE LOS PRINCIPALES ALGORITMOS DE ÁRBOLES DE DECISIÓN

11

Page 12: DATA MINING CON Rweka - madrid.r-es.orgmadrid.r-es.org/wp-content/uploads/2017/02/RWeka_Grupo_Usuarios_R... · CARACTERÍSTICAS DE LOS PRINCIPALES ALGORITMOS DE ÁRBOLES DE DECISIÓN

12

Page 13: DATA MINING CON Rweka - madrid.r-es.orgmadrid.r-es.org/wp-content/uploads/2017/02/RWeka_Grupo_Usuarios_R... · CARACTERÍSTICAS DE LOS PRINCIPALES ALGORITMOS DE ÁRBOLES DE DECISIÓN

ControldepaquetesdeWEKAC:\ProgramFiles\Weka-3-8\doc\weka\package-summary.html

13

Page 14: DATA MINING CON Rweka - madrid.r-es.orgmadrid.r-es.org/wp-content/uploads/2017/02/RWeka_Grupo_Usuarios_R... · CARACTERÍSTICAS DE LOS PRINCIPALES ALGORITMOS DE ÁRBOLES DE DECISIÓN

14

Page 15: DATA MINING CON Rweka - madrid.r-es.orgmadrid.r-es.org/wp-content/uploads/2017/02/RWeka_Grupo_Usuarios_R... · CARACTERÍSTICAS DE LOS PRINCIPALES ALGORITMOS DE ÁRBOLES DE DECISIÓN

15

Page 16: DATA MINING CON Rweka - madrid.r-es.orgmadrid.r-es.org/wp-content/uploads/2017/02/RWeka_Grupo_Usuarios_R... · CARACTERÍSTICAS DE LOS PRINCIPALES ALGORITMOS DE ÁRBOLES DE DECISIÓN

16

Page 17: DATA MINING CON Rweka - madrid.r-es.orgmadrid.r-es.org/wp-content/uploads/2017/02/RWeka_Grupo_Usuarios_R... · CARACTERÍSTICAS DE LOS PRINCIPALES ALGORITMOS DE ÁRBOLES DE DECISIÓN

17

Page 18: DATA MINING CON Rweka - madrid.r-es.orgmadrid.r-es.org/wp-content/uploads/2017/02/RWeka_Grupo_Usuarios_R... · CARACTERÍSTICAS DE LOS PRINCIPALES ALGORITMOS DE ÁRBOLES DE DECISIÓN

18

Page 19: DATA MINING CON Rweka - madrid.r-es.orgmadrid.r-es.org/wp-content/uploads/2017/02/RWeka_Grupo_Usuarios_R... · CARACTERÍSTICAS DE LOS PRINCIPALES ALGORITMOS DE ÁRBOLES DE DECISIÓN

19

Page 20: DATA MINING CON Rweka - madrid.r-es.orgmadrid.r-es.org/wp-content/uploads/2017/02/RWeka_Grupo_Usuarios_R... · CARACTERÍSTICAS DE LOS PRINCIPALES ALGORITMOS DE ÁRBOLES DE DECISIÓN

ÁrbolesdedecisiónconRWeka

Library(Rweka)

WOW(J48)

m<- J48(clase~.,data=german_600,control=Weka_control(R=TRUE,M=40))

m<- J48(clase~.,data=german_600,control=Weka_control(M=40,C=0.2))

summary(m)

plot(m)

objects(modelo)

table(m$predictions,german_600$clase)

20

Page 21: DATA MINING CON Rweka - madrid.r-es.orgmadrid.r-es.org/wp-content/uploads/2017/02/RWeka_Grupo_Usuarios_R... · CARACTERÍSTICAS DE LOS PRINCIPALES ALGORITMOS DE ÁRBOLES DE DECISIÓN

21

Page 22: DATA MINING CON Rweka - madrid.r-es.orgmadrid.r-es.org/wp-content/uploads/2017/02/RWeka_Grupo_Usuarios_R... · CARACTERÍSTICAS DE LOS PRINCIPALES ALGORITMOS DE ÁRBOLES DE DECISIÓN

Árbolesdedecisión

22

Page 23: DATA MINING CON Rweka - madrid.r-es.orgmadrid.r-es.org/wp-content/uploads/2017/02/RWeka_Grupo_Usuarios_R... · CARACTERÍSTICAS DE LOS PRINCIPALES ALGORITMOS DE ÁRBOLES DE DECISIÓN

23

Page 24: DATA MINING CON Rweka - madrid.r-es.orgmadrid.r-es.org/wp-content/uploads/2017/02/RWeka_Grupo_Usuarios_R... · CARACTERÍSTICAS DE LOS PRINCIPALES ALGORITMOS DE ÁRBOLES DE DECISIÓN

24

##visualization##usepartykit packageif(require("partykit",quietly =TRUE))plot(m)##or Graphvizwrite_to_dot(m)##or Rgraphviz##Not run:library("Rgraphviz")ff <- tempfile()write_to_dot(m,ff)plot(agread(ff))

Package ‘Rgraphviz’ was removed from the CRAN repository.Formerly available versions can be obtained from the archive.

Page 25: DATA MINING CON Rweka - madrid.r-es.orgmadrid.r-es.org/wp-content/uploads/2017/02/RWeka_Grupo_Usuarios_R... · CARACTERÍSTICAS DE LOS PRINCIPALES ALGORITMOS DE ÁRBOLES DE DECISIÓN

Objetos del modelo

25

objects(m)

"classifier“"handlers“"levels" "predictions" "terms"

Page 26: DATA MINING CON Rweka - madrid.r-es.orgmadrid.r-es.org/wp-content/uploads/2017/02/RWeka_Grupo_Usuarios_R... · CARACTERÍSTICAS DE LOS PRINCIPALES ALGORITMOS DE ÁRBOLES DE DECISIÓN

26

Page 27: DATA MINING CON Rweka - madrid.r-es.orgmadrid.r-es.org/wp-content/uploads/2017/02/RWeka_Grupo_Usuarios_R... · CARACTERÍSTICAS DE LOS PRINCIPALES ALGORITMOS DE ÁRBOLES DE DECISIÓN

27

Árboles de decisión.

CARACTERÍSTICASDELOSPRINCIPALESALGORITMOSDEÁRBOLESDEDECISIÓN

AlgoritmoVariablespredictoras

Tipodedivisión

CriteriodeDivisión

Casosmissing

MétododePoda

Implementación

CART(1984)

Continuas/Discretas

BinariaImpureza(Giniindex )

SI Post-Libre

Comercial

ID3(1979)

Discretas n -ariaGananciadeinformación(Entropía)

NO NO Comercial

C4.5(1993)

Continuas/Discretas

Binaria/n -aria

Gainratio(Entropía)

SI Pre-/Post-Libre

Comercial

J4.8Continuas/Discretas

Binaria/n-aria

Gainratio(Entropía)

SI Pre-/Post- Libre(Weka)

C5.0Continuas/Discretas

Binaria/n-aria

Gainratio(Entropía)

SI Pre-/Post- Comercial

CHAID(1975)

Discretas n -aria X2 SIPre-

(niveldesignificancia)

Comercial

Característicasdelosprincipalesalgoritmos

Fuente: Pérez, J.M.(2006). Tesis doctoral. Universidad del País Vasco

Page 28: DATA MINING CON Rweka - madrid.r-es.orgmadrid.r-es.org/wp-content/uploads/2017/02/RWeka_Grupo_Usuarios_R... · CARACTERÍSTICAS DE LOS PRINCIPALES ALGORITMOS DE ÁRBOLES DE DECISIÓN

28

Page 29: DATA MINING CON Rweka - madrid.r-es.orgmadrid.r-es.org/wp-content/uploads/2017/02/RWeka_Grupo_Usuarios_R... · CARACTERÍSTICAS DE LOS PRINCIPALES ALGORITMOS DE ÁRBOLES DE DECISIÓN

list_Weka_interfaces()

29

ØAssociators: Apriori, Tertius.. ØEvaluators: GainRatioAttributeEval, InfoGainAttributeEval..

ØClassifiers: AdaBoostM1, Bagging, CostSensitiveClassifier, DecisionStump, IBk, J48, JRip, LBR, LinearRegression, LMT, Logistic, LogitBoost, M5P, M5Rules, MultiBoostAB,MultilayerPerceptron, OneR, PART, RBFNetwork, SMO,

Stacking….

ØClusterers: Cobweb, DBScan, FarthestFirst, SimpleKMeans, Xmeans…

ØLoaders: C45Loader, XRFFLoader..

ØSavers: C45Saver, XRFFSaver..

ØFilters: Discretize, Normalize..

ØStemmers: IteratedLovinsStemmer, LovinsStemmer..

ØTokenizers: AlphabeticTokenizer, NGramTokenizer, WordTokenizer…

Page 30: DATA MINING CON Rweka - madrid.r-es.orgmadrid.r-es.org/wp-content/uploads/2017/02/RWeka_Grupo_Usuarios_R... · CARACTERÍSTICAS DE LOS PRINCIPALES ALGORITMOS DE ÁRBOLES DE DECISIÓN

30

WOW(J48)

arbol <- make_Weka_classifier("weka/classifiers/trees/J48")

m<- arbol(clase~.,data=german_600,control=Weka_control())

modelo<- evaluate_Weka_classifier(m,newdata=german_600,numFolds=10,class=T)

print(modelo)

objects(modelo)

Page 31: DATA MINING CON Rweka - madrid.r-es.orgmadrid.r-es.org/wp-content/uploads/2017/02/RWeka_Grupo_Usuarios_R... · CARACTERÍSTICAS DE LOS PRINCIPALES ALGORITMOS DE ÁRBOLES DE DECISIÓN

31

Page 32: DATA MINING CON Rweka - madrid.r-es.orgmadrid.r-es.org/wp-content/uploads/2017/02/RWeka_Grupo_Usuarios_R... · CARACTERÍSTICAS DE LOS PRINCIPALES ALGORITMOS DE ÁRBOLES DE DECISIÓN

32

objects(modelo)

Ø "confusionMatrix“

Ø "details“

Ø "detailsClass“

Ø "string"

Page 33: DATA MINING CON Rweka - madrid.r-es.orgmadrid.r-es.org/wp-content/uploads/2017/02/RWeka_Grupo_Usuarios_R... · CARACTERÍSTICAS DE LOS PRINCIPALES ALGORITMOS DE ÁRBOLES DE DECISIÓN

33

AnobjectofclassWeka_classifier_evaluation,alistofthefollowingcomponents:

string character,concatenationofthestringrepresentationsoftheperformancestatis- tics.

details vector,basestatistics,e.g.,thepercentageofinstancescorrectlyclassified,etc.

detailsComplexity vector,entropy-basedstatistics(ifselected).

detailsClass matrix,classstatistics,e.g.,thetruepositiverate,etc.,foreachleveloftheresponsevariable(ifselected).

confusionMatrix table,cross-classificationoftrueandpredictedclasses.

Page 34: DATA MINING CON Rweka - madrid.r-es.orgmadrid.r-es.org/wp-content/uploads/2017/02/RWeka_Grupo_Usuarios_R... · CARACTERÍSTICAS DE LOS PRINCIPALES ALGORITMOS DE ÁRBOLES DE DECISIÓN

34