Domenica 21 ottobre 2012 If you torture the data long enough, Nature will always confess Ronald H....

10

Transcript of Domenica 21 ottobre 2012 If you torture the data long enough, Nature will always confess Ronald H....

Page 1: Domenica 21 ottobre 2012 If you torture the data long enough, Nature will always confess Ronald H. Coase (premio Nobel 1991 per leconomia)
Page 2: Domenica 21 ottobre 2012 If you torture the data long enough, Nature will always confess Ronald H. Coase (premio Nobel 1991 per leconomia)

Domenica 21 ottobre 2012

Page 3: Domenica 21 ottobre 2012 If you torture the data long enough, Nature will always confess Ronald H. Coase (premio Nobel 1991 per leconomia)
Page 4: Domenica 21 ottobre 2012 If you torture the data long enough, Nature will always confess Ronald H. Coase (premio Nobel 1991 per leconomia)

If you torture the data long enough, Nature will always confess

Ronald H. Coase (premio Nobel 1991 per l’economia)

Page 5: Domenica 21 ottobre 2012 If you torture the data long enough, Nature will always confess Ronald H. Coase (premio Nobel 1991 per leconomia)

attivazione prima del xxx"churn"=4.6%

usa servizio B"churn"=2.5%

più di m mail ricevute"churn"=2.6%

meno di m mail ricevute"churn"=6.8%

più di n chiamate outbound"churn"=3.1%

età superiore ai k anni"churn"=14.0%

non persona fisica"churn"=16.0%

femmina"churn"=17.8%

residente nelle regiorni a,b,c,d,e"churn"=19.2%

residente nelle altre regionipercentuale della customer base=1.8%

"churn"=21.1%

maschio"churn"=20.3%

età inferiore ai k anni"churn"=19.6%

meno di n chiamate outbound"churn"=16.1%

non usa servizio B"churn"=7.2%

attivazione dopo il xxx"churn"=6.0%

sottoscrive servizio A"churn"=5.5%

non sottoscrive servizio A"churn"=1.4%

campione CB"churn"=1.8%

Modello di previsione del churn

Page 6: Domenica 21 ottobre 2012 If you torture the data long enough, Nature will always confess Ronald H. Coase (premio Nobel 1991 per leconomia)

1. Incolori idee verdi dormono furiosamente2. Furiosamente dormono idee verdi incoloriEntrambe le due frasi (né qualche loro parte) non sono mai apparse

nella passata esperienza linguistica. Ma 1. è grammaticamente corretta, mentre 2. non lo è.(Chomsky, 1957, Syntactic Structures)

Secondo Chomsky un modello statistico assegna ad entrambe probabilità nulla, e quindi non è in grado di distinguere la correttezza della 1. rispetto alla 2.

-> Bisogna saper scegliere bene il modello!

In realtà dipende dal modello statistico usato. L’affermazione è vera per il modello statistico più semplice, ma non per modelli più sofisticati. Ad esempio Pereira mostra che un semplice modello che considera 2 parole consecutive (bigram model) calcola che 1. è 200mila volte più probabile di 2.

“La nozione di “probabilità di una frase” è completamente inutile.” (N. Chomsky)

Modelli per il riconoscimento del linguaggio

Page 7: Domenica 21 ottobre 2012 If you torture the data long enough, Nature will always confess Ronald H. Coase (premio Nobel 1991 per leconomia)
Page 8: Domenica 21 ottobre 2012 If you torture the data long enough, Nature will always confess Ronald H. Coase (premio Nobel 1991 per leconomia)
Page 9: Domenica 21 ottobre 2012 If you torture the data long enough, Nature will always confess Ronald H. Coase (premio Nobel 1991 per leconomia)
Page 10: Domenica 21 ottobre 2012 If you torture the data long enough, Nature will always confess Ronald H. Coase (premio Nobel 1991 per leconomia)

All science is either physics or stamp collectingErnest Rutherford (fisico)