domenica 21 ottobre 2012 if you torture the data long enough, nature will always confess ronald h....

Post on 01-May-2015

219 Views

Category:

Documents

5 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Domenica 21 ottobre 2012

If you torture the data long enough, Nature will always confess

Ronald H. Coase (premio Nobel 1991 per l’economia)

attivazione prima del xxx"churn"=4.6%

usa servizio B"churn"=2.5%

più di m mail ricevute"churn"=2.6%

meno di m mail ricevute"churn"=6.8%

più di n chiamate outbound"churn"=3.1%

età superiore ai k anni"churn"=14.0%

non persona fisica"churn"=16.0%

femmina"churn"=17.8%

residente nelle regiorni a,b,c,d,e"churn"=19.2%

residente nelle altre regionipercentuale della customer base=1.8%

"churn"=21.1%

maschio"churn"=20.3%

età inferiore ai k anni"churn"=19.6%

meno di n chiamate outbound"churn"=16.1%

non usa servizio B"churn"=7.2%

attivazione dopo il xxx"churn"=6.0%

sottoscrive servizio A"churn"=5.5%

non sottoscrive servizio A"churn"=1.4%

campione CB"churn"=1.8%

Modello di previsione del churn

1. Incolori idee verdi dormono furiosamente2. Furiosamente dormono idee verdi incoloriEntrambe le due frasi (né qualche loro parte) non sono mai apparse

nella passata esperienza linguistica. Ma 1. è grammaticamente corretta, mentre 2. non lo è.(Chomsky, 1957, Syntactic Structures)

Secondo Chomsky un modello statistico assegna ad entrambe probabilità nulla, e quindi non è in grado di distinguere la correttezza della 1. rispetto alla 2.

-> Bisogna saper scegliere bene il modello!

In realtà dipende dal modello statistico usato. L’affermazione è vera per il modello statistico più semplice, ma non per modelli più sofisticati. Ad esempio Pereira mostra che un semplice modello che considera 2 parole consecutive (bigram model) calcola che 1. è 200mila volte più probabile di 2.

“La nozione di “probabilità di una frase” è completamente inutile.” (N. Chomsky)

Modelli per il riconoscimento del linguaggio

All science is either physics or stamp collectingErnest Rutherford (fisico)

top related