Metodi di stima e test di ipotesi - wpage.unina.itwpage.unina.it/antdambr/Docs/Metodi di stima e...

Ciclo di seminari in STATISTICA e APPLICAZIONI per le Scuole di

Dottorato in Ingegneria Civile, Ingegneria Industriale, Ingegneria

dellInformazione

Coordinatori: Prof.ri Pasquale Erto e Roberta Siciliano

Novembre 2013 Gennaio 2014

Metodi di Stima e Test Statistici

Antonio DAmbrosio, Ph.D.

Assistant Professor,

Dept. Of Industrial Engineering, Naples University Federico II

STAD Research Group

http://www.stad.unina.it

Outline Statistiche campionarie e distribuzioni campionarie

Statistica, stimatore, statistica-test

Propriet degli stimatori

Metodi di stima

Metodo dei Momenti

Metodo dei Minimi Quadrati

Metodo della Massima Verosimiglianza

Stima puntuale per intervalli

Inferenza computazionale (moderna)

Bootstrap

Jacknife

Cross-validation

Ensemble Methods

Test delle ipotesi statistiche

Logica e caratteristiche fondamentali dei test

Test Parametrici e non parametrici

Sono gi noti i concetti di

Statistica descrittiva;

Probabilit;

Variabili casuali.

PremessaUnindustria che produce pompe idrauliche utilizza guarnizioni in materiale

plastico che vengono usate nel raccordo degli elementi meccanici. Le

guarnizioni vengono fornite da unindustria chimica con un contratto di

forniture periodiche di 5000 guarnizioni alla volta.

Lindustria acquirente ha lesigenza di valutare la qualit dei pezzi forniti per

ogni fornitura.

Il tempo (e il costo) di collaudo delle guarnizioni rende inverosimile

procedere allesame di tutti i pezzi forniti, visto che le guarnizioni devono

essere fatte funzionare sotto pressione elevata e per un certo periodo di

tempo.

Si procede, cos, allesame di un numero limitato di guarnizioni, ad esempio

50, e dallesame di soli questi pezzi si vuol valutare la frazione di pezzi

difettosi dellintera partita ed eventualmente respingere la fornitura.

Premessa (Contd)Si pu considerare la partita di 5000 guarnizioni come la popolazione

oggetto di indagine in cui ogni pezzo rappresenta un soggetto (o unit

statistica) del quale siamo interessati alla sua conformit o meno alle

specifiche tecniche.

Le 50 guarnizioni che vengono effettivamente controllate sono il campione,

attraverso lanalisi del quale si vuole valutare la frazione di elementi

conformi nellintera popolazione.

Ovviamente le rilevazioni sugli elementi del campione sono di interesse

nella misura in cui esse forniscono informazione sulle caratteristiche della

popolazione.

Per poter estendere le caratteristiche del campione alla popolazione,

necessario che questo debba riprodurre, per quanto possibile, le

caratteristiche della popolazione, cio deve essere rappresentativo della

stessa.

Premessa (Contd)Affinch un campione sia rappresentativo bisogna scegliere gli elementi che

lo compongono in modo tale che linclusione sia indipendente dalle

caratteristiche che si vogliono esaminare.

Un modo che assicura lindipendenza richiesta quello di scegliere gli

elementi del campione in modo casuale, quindi per definizione in modo

indipendente dalla caratteristica oggetto di studio.

Si pu pensare di istituire un esperimento casuale ausiliario per selezionare

i soggetti da includere nel campione, idealizzandolo (ad esempio) nella

estrazione di tante palline da unurna che contiene tanti elementi quanti

sono gli elementi della popolazione.

Lestrazione pu avvenire con ripetizione o senza ripetizione.

La probabilit di estrazione potrebbe non essere uguale per tutti se, ad

esempio, si assegnano probabilit di estrazione diverse a palline diverse,

oppure se si predispongono pi urne

Premessa (Contd)Lesempio dellindustria pu essere comparato ad una situazione in cui in unurna ci sono 5000 palline (la popolazione di guarnizioni) di cui una proporzione incognita rappresentata da palline nere (i pezzi difettosi).Supponiamo che lestrazione delle 50 palline dia luogo al risultato che 4 di esse siano nere.

La proporzione 4/50 un criterio ragionevole per dare un valore a , ma ad esempio, se si fossero estratte 100 palline di cui 8 difettose, la proporzione sarebbe rimasta immutata. Le domande a cui cerchiamo di dare una risposta sono:

Cosa sarebbe cambiato se avessimo scelto di estrarre 100 palline?

Ci sono altri metodi di scegliere ragionevolmente ? Quanto accurata la valutazione del risultato?

Che informazione abbiamo su altri plausibili valori di ?

Premessa (Contd)Lesperimento in questione ci consente di individuare la v.c. che ha generato

il fenomeno nella popolazione

= 4 = 504 1 Nel grafico si lasciata

variare lincognita nel

range dei possibili valori

che nella realt pu

assumere.

Il massimo valore che la

figura assume si trova in

corrispondenza di = 4/50.Se avessimo optato per

un valore alternativo di pari a 6/50, quale tra le alternative sarebbe

stata pi verosimile?

Premessa (Contd)

Nel grafico si assunto di avere estratto un campione di numerosit 100. Si poi diviso il

risultato di ogni valore di ottenuto per il suo massimo, al fine di rendere sovrapponibili le due figure. Il massimo valore che la figura assume si trova in corrispondenza di = 4/50.Quale delle due situazioni fornisce maggiore informazione?

Premessa (Contd)

Si pu individuare un intervallo di valori sufficientemente plausibili per che tenga conto del fatto che vi comunque un grado di imprecisione intrinseco nel risultato dellestrazione

campionaria?

Campione CasualeIndichiamo con X la popolazione, la quale caratterizzata dalla v.c. X. La

conoscenza della popolazione X coincide strettamente con la funzione di

ripartizione ; della v.c. X.Dalla popolazione X viene estratto un sottoinsieme di n unit statistiche. La

procedura di selezione (assimilabile ad una prova nel senso del calcolo delle

probabilit) genera una n-pla di v.c. (, , , )la cui determinazione numerica specifica una n-pla di numeri reali (, , , ) detto campione osservato. Di conseguenza, ogni la realizzazione della v.c. che prende il nome di v.c. della i-ma estrazione. E da notare, inoltre, che ogni proviene dalla stessa v.c. (; ). Le v.c. sono quindi componenti della v.c. n-pla = (, , , )indipendenti e identicamente distribuite.

Campione Casuale e Campione OsservatoUna successione di v.c. (, , , ) ottenute con una procedura di estrazione da (; ) detta campione casuale se le v.c. , = 1, , sono indipendenti e identicamente distribuite.

Il campione osservato la n-pla di numeri reali (, , , ) che costituiscono le realizzazioni del campione casuale.

La distribuzione congiunta del campione casuale , pertanto,

(; ) = (; )(; )(; ) = (; )!

Statistica, Stimatore, Statistica-testSi definisce statistica (campionaria) " = "(, , , ) qualunque funzione nota e a valori reali del campione casuale indipendente da quantit incognite. Essendo

funzione di variabili casuali, la statistica stessa una variabile casuale.

Il valore della statistica " calcolata sul campione casuale # = "(, , ), prende il nome di statistica calcolata.

Nellambito della teoria della stima, la statistica chiamata stimatore mentre la

statistica calcolata detta stima;

Nellambito della teoria della prova delle ipotesi, la statistica viene detta statistica-

test.

La distribuzione di probabilit della statistica prende il nome di distribuzione

campionaria della statistica (stimatore) ".

Distribuzioni campionarie (intro)Per semplicit, consideriamo lo schema di campionamento casuale semplice, che corrisponde allo schema di estrazione con reinserimento.

Indichiamo con N la numerosit della popolazione, mentre indichiamo con nla numerosit campionaria.

Luniverso campionario (cio linsieme di tutti i possibili campioni di ampiezza n che possono essere estratti da una popolazione di cardinalit N) pari a

$ = %Per curiosit, nel caso di caso di campionamento senza reimmissione, esso pari a

$ = % = %!! (% )!

Distribuzioni campionarie (esempio)Supponiamo di avere una popolazione di 4 macchinari (A, B, C, D) preposti

alla misurazione del tempo di reazione di una cellula fotoelettrica allo

spostamento daria. Supponiamo che, nel corso di una giornata, commettono

errori di misurazione rispettivamente pari a 1, 2, 3 e 4 millisecondi.

La media degli errori di tali macchinari pari a 2,5, mentre la varianza pari

a 1,25.

Supponiamo di essere interessati alla stima della media degli errori dei

macchinari.

Supponendo di estrarre un campione di n=2 macchinari, possibile estrarre

un massimo di 4 = 16 possibili campioni differenti.

Distribuzioni campionarie (esempio)

Si ottengono i seguenti risultati:

= 2,5;)*+ = 0,625;n.b.

,- = ,. = 0,625

Distribuzioni campionarie (esempio)

Si ottengono i seguenti risultati:

= 2,5;)*+ = 0,4167;n.b.

,-0 = ,.0 = 0,4167

Immaginiamo di estrarre tutti i campioni di numerosit 3

Distribuzioni campionarie

Per qualsiasi v.c. che possiede varianza finita, la statistica media campionaria

ha valor medio pari al valor medio della popolazione e varianza pari alla

varianza della popolazione diviso per la numerosit campionaria.

Se X una v.c. Normale, allora anche la v.c. media campionaria una v.c.

Normale.

Distribuzioni campionarie notevoli:

differenza tra medie

Sia (, , , ) un campione casuale proveniente da %(1, 2), allora 3 %(1, 4-5 ). Sia (, , , 6) un campione casuale proveniente da %(17, 27), allora 3 %(17, 48-9 ). Se i due campioni sono indipendenti, allora noto che per qualunque

combinazione lineare (*3 + ;3) %((*1 + ;17), (*4-5 + ;48-9 )).La v.c. differenza tra medie campionarie 3 3 sar anchessa normale, con la conseguenza che la corrispondente v.c. standardizzata si distribuisce come

una v.c. normale standardizzata:

< = 3 3,- + ,8-6 %(0,1)

Distribuzioni campionarie notevoli:

varianza campionariaSia (, , , ) un campione casuale proveniente da %(1, 2), supponiamo che allora 1 sia nota. Sia V = (?@AB)-! la varianza. C2 =D ?@AB, =

!D ?@ABE?3A?3, =D ?@A?3,

!+ ?3AB,

!

Poich F,- si decompone nella somma di 2 v.c. di cui una una v.c. G , per il teorema di Fisher e Cochran segue che H@IHJ4 ! G ASe Q, Q1 2 Q2 sono forme quadratiche tali che Q=Q1+Q2, e se K G L e K1 G L , allora K2 G L0 con g3=g1-g2 con q1 e q2 indipendenti.

G con n gdl. G con 1 gdl, poich ?3AB, = ?3AB,/

Distribuzioni campionarie notevoliQuesto significa che ( 1)M-4- G AA fini inferenziali (per i test statistici) dai risultati precedenti risulta che:

" = 3 1N/ = 0lim] " < _ = 1

La coerenza in media quadratica implica la coerenza in probabilit (ma non

vero il contrario).

Propriet asintotiche degli stimatori

Uno stimatore T si dice coerente (o consistente) quasi certamente se

( lim]" ) = 1Uno stimatore T si dice asintoticamente efficiente se

lim]C*+ " = X AUno stimatore T si dice asintoticamente normale se

lim] " Q(")C*+(") # = (#)

Metodi di costruzione degli stimatori:

Metodo dei momenti

I momenti di ordine r si definiscono come i valori medi delle potenze r-

esime della v.c. X

1d = Q d = e d f]A]

D dg]!


Metodo dei momenti

Sia ; un v.c. che possieda momenti Q d = 1d , + = 1,2, ,OSe si indicano con Td i momenti campionari generati dal campione casuale , , , , il metodo dei momenti consiste nel risolvere rispetto a il sistema delle prime m equazioni1d = Td , + = 1,2, ,OIl metodo dei momenti fornisce stimatori che godono di propriet

asintotiche (sono coerenti, asintoticamente corretti e asintoticamente

normali).

Non sempre fornisce stimatori efficienti.


Metodo dei minimi quadratiSia , , , un campione casuale proveniente da ; . Se ognuna delle v.c. componenti il campione casuale pu essere interpretata come la somma di una componente deterministica e di una quantit stocastica = h + _Allora si pu utilizzare il metodo di stima dei minimi quadrati.

La parte deterministica h formata da funzioni note e a valori reali del parametro , mentre le v.c. _ hanno valore atteso nullo, varianza costante e sono incorrelate tra loro.

Il metodo dei minimi quadrati deriva la stima del parametro (o del vettore vettore di parametri) in modo tale che

i =D h = O!


Metodo dei minimi quadratiLa soluzione di minimo si ottiene derivando iN rispetto a e risolvendo lequazione ij = 0

D ( h )!khk() = 0

Al variare dei campioni, tale soluzione genera una funzione delle v.c.campionarie che definisce lo stimatore dei minimi quadrati per .Nellambito di stimatori lineari (vedi seminario sulla regressione lineare), si pu dimostrare che detti stimatori sono BLUE (Best Linear UnbiasedEstimators).

Gli stimatori dei minimi quadrati sono asintoticamente normali e coerenti. Per lapplicazione di tale metodo non necessario conoscere la distribuzione di probabilit della v.c. che genera il campione.


Metodo della massima verosimiglianzaSia , , , un campione casuale proveniente da ; .Abbiamo gi visto che (; ) = (; )(; )(; ) = (; )! la funzione di densit congiunta del campione casuale. Essa, prima di estrarre il campione, e il parametro (o il vettore di parametri) fisso, esprime la probabilit di estrarre proprio quel campione casuale

Supponendo che il campione sia stato estratto, supponendo che sia incognito, la quantit (; ) = (; )(; )(; ) = (; )!prende il nome di funzione di verosimiglianza, ed funzione del solo parametro .Essa esprime la plausibilit di ottenere quel campione casuale le cui determinazioni numeriche si sono effettivamente realizzate. Se (; ) >(; ), allora maggiormente verosimile che il parametro caratterizzante la v.c. nella popolazione sia e non .


Metodo della massima verosimiglianzaSpesso si preferisce lavorare con il logaritmo della funzione di verosimiglianza,

C = noh(; ) =D noh(; )!Si definisce la funzione score la derivata della funzione di verosimiglianza

rispetto al parametro Cj = knoh(; )k

Se valgono alcune condizioni di regolarit sulla funzione di verosimiglianza

(esistenza per ogni x delle derivate fino al terzo ordine, valore atteso del

quadrato della funzione score finito), allora si ha che

Q Cj = 0; C*+ Cj = Q Cj = Q Cjj = X()


Metodo della massima verosimiglianzaLa grandezzaX() prende il nome di informazione (attesa) di Fisher. Questa grandezza pu essere interpretata come un indice della rapidit di caduta

della funzione di (log)verosimiglianza intorno al suo punto di massimo, e di

conseguenza del grado relativo di preferenza che la verosimiglianza assegna al

valore di corrispondente al suo massimo rispetto a valori alternativi.Il metodo di stima della massima verosimiglianza propone come stima per il valore #(, , , ) per il quale la funzione di verosimiglianza massima.La soluzione della funzione score corrisponde quindi alla stima di massima

verosimiglianza. Al variare del campione essa descrive una v.c. che

rappresenta lo stimatore di massima verosimiglianza.

Metodo della massima

verosimiglianza: proprietSotto le condizioni di regolarit, gli stimatori di massima verosimiglianza possiedono tutte le propriet considerate ottimali.

- Invarianza: se T lo stimatore di massima verosimiglianza per e se p = f una funzione biunivoca di, allora f " lo stimatore di massima verosimiglianza per f

- Coerenza: gli stimatori di massima verosimiglianza sono coerenti e asintoticamente corretti

- BAN: per gli stimatori di massima verosimiglianza vale che " q%(, X A). Quindi sono stimatori BAN (Best Asintotically Normal)- Se esiste uno stimatore T non distorto e efficiente per , e se T* la

soluzione di massima verosimiglianza di C(), allora " " - Se esiste uno stimatore efficiente per , allora lo stimatore di massima

verosimiglianza coincide con esso ed quindi efficiente per ogni n finito. Se non esiste uno stimatore efficiente per , allora lo stimatore di massima verosimiglianza comunque asintoticamente efficiente.

Stima per intervalliPer quanto accurata sia la stima e per quanto sia affidabile lo stimatore, a volte

preferibile accompagnare il risultato numerico derivato dal campione con una

misura di affidabilit circa la sua collocazione pi probabile.

Sia , , , un campione casuale proveniente da ; . Si definisce variabile casuale pivot una v.c. )(; ) che funzione sia del campione che del parametro incognito (quindi, non una statistica), ma la cui

distribuzione di probabilit indipendente da parametri incogniti.

Se esiste una v.c. pivot per , e se la funzione che definisce la stessa invertibile, allora si pu scrivere che )u ) ; Cv = ()A )u, )A )v, ) = 1 wSi pu definire allora un intervallo casuale con coefficiente di confidenza 1 w, i cui limiti sono )A )u, e )A )v,

Stima per intervalli: v.c. pivotSia , , , un campione casuale proveniente da % 1; 2 . Poich sappiamo che Z = HJIy4/ 5z({,), allora Z una v.c. pivot perch la sua distribuzione di probabilit non dipende da 1.Se 2 incognita, sappiamo che T = HJIy}/ 5~ 5I . Allora T una v.c. pivot perch la sua distribuzione di probabilit non dipende da 1.E cos vero per tutte le distribuzioni notevoli che abbiamo incontrato prima.

In genere,

Se esiste uno stimatore di massima verosimiglianza T per un parametro di

posizione (come la media), allora la v.c. T- una v.c. pivot. Se un parametro di scala (come la varianza), allora la v.c. T/ una v.c. pivot.

Stima per intervalli: v.c. pivotSia , , , un campione casuale proveniente da % ; 2 . Poich < = ?3A,/ %(0,1) allora si pu dire che

3 2/ < (/) = 1 w

Da cui XA = 3 (/)2/

Stima per intervalliPrima dellestrazione del campione, si potrebbe parlare di probabilit che il

parametro incognito nella popolazione sia incluso tra i limiti inferiore e

superiore dellintervallo casuale;

Dopo che il campione stato estratto, la probabilit che il parametro incognito

ricada allinterno dei limiti inferiore e superiore vale 1 se laffermazione vera

e 0 altrimenti.

Si parla quindi di intervalli di confidenza, con grado di confidenza pari a 1 w, perch ripetendo lesperimento un numero elevato di volte i limiti

dellintervallo casuale conterranno il parametro incognito in una frazione pari a 1 w %.

Stima per intervalli

Da una popolazione generata da una normale con media pari a 120.92 e varianza

pari a 49 si sono estratti 100 campioni casuali di ampiezza 40. Si riportano 100

intervalli di confidenza al 95%

Stima per intervalliLa stima per intervalli in questo modo possibile se si suppone che la v.c. che

governa il fenomeno oggetto di studio nella popolazione sia Normale.

Se ci non dovesse essere verificato, e si ha conoscenza del momento

secondo, si pu ricorrere alla disuguaglianza di Tchebycheff

3 1 _ 1 2/_Alternativamente si pu ricorrere ad intervalli di confidenza non parametrici,

(ad es. Bootstrap, vedi oltre).

Metodi di stima computazionali

Ai metodi di stima moderni si pu far ricorso in situazioni diverse:

- Le condizioni di regolarit possono non essere soddisfatte, o la condizione di massimo pu essere raggiunta solo per via numerica. In questo caso si utilizzano metodi di ottimizzazione numerica, quali ad esempio:

- Il metodo Newton_Raphson (molto utilizzato per problemi di stima dei parametri nei modelli lineari generalizzati);

- Il metodo Tri-section (metodo molto semplice, ma anche poco efficiente);

- Il metodo dello scoring (simile al metodo Newton-Raphson, ma che sfrutta le propriet statistiche della funzione di verosimiglianza);

- Algoritmi di Majorizing, come lalgoritmo SMACOF (metodo iterativo per la minimizzazione di funzioni di perdita come nel caso dei minimi quadrati- molto utilizzato in statistica multivariata per problemi di multidimensional scaling);

- Algoritmi di Alternating Least Squares (metodi iterativi per la minimizzazione di funzioni di perdita, molto utilizzati per problemi di regressione non lineare).

- .

Metodi di stima computazionali

Ai metodi di stima moderni si pu far ricorso in situazioni diverse:

- Si pu avere una conoscenza solo approssimata o addirittura inesistente

della v.c. che ha generato il campione.

- Si pu avere lesigenza di rendere maggiormente robuste le stime che

ottengono.

- Si pu avere lesigenza di pervenire a stime intervallari senza avere alcuna

idea della distribuzione di probabilit nella popolazione

- Bootstrap

- Jacknife

- Cross-validation

- Ensemble methods (Bagging, Boosting, Random Forest,)

Bootstrap

Tecnica che fa parte della famiglia dei metodi di ricampionamento.

Dal campione osservato si estraggono B campioni casuali con ripetizione della

stessa numerosit del campione osservato.

Per ciascuno di tali campioni si calcolano le grandezze (stime) di interesse,

ottenendone cos una successione.

Il bootstrap viene maggiormente utilizzato per:

Stimare la distorsione;

Stimare la varianza;

Generare intervalli di confidenza, generalmente con il metodo del

percentile.

Bootstrap: toy example 1

Si generato un campione casuale da una v.c. normale di dimensione 100. Immaginiamo che esso sia la nostra popolazione e valutiamo la distorsione con il metodo bootstrap.

Abbiamo (nella popolazione) 1 = 9,9439 e 2 = 8,3158.Generiamo 10000 campioni bootstrap e valutiamo la correttezza degli stimatori media e varianza campionaria (esempio eseguito con MatLab).

Abbiamo che Q 3 1 = 0,00001, Q N 2 = 0,0831588Lo stimatore media campionaria (come noto) corretto, mentre lo stimatore media campionaria (come altrettanto noto) distorto.

Sappiamo anche che la distorsione pari a ,-

.

Dai dati della nostra popolazione abbiamo che ,0.

{{= 0,083158

Bootstrap: toy example 2

Dal dataset auto-mpg (UCI machine learning repository) stimiamo la retta dei

minimi quadrati (vedi seminario su regressione lineare). Si vuole spiegare il

consumo delle automobili espresso in miglia per galloni a partire da una serie

di caratteristiche delle auto. Si riportano sia gli intervalli di confidenza (95%) sui

coefficienti sia gli stessi calcolati con 10000 ripetizioni boostrap (percentile CI)

Beta CI_lower CI_upper

intercept -17,955 -27,150 -8,759

cylinders -0,490 -1,121 0,142

displacement 0,024 0,009 0,039

horsepower -0,018 -0,045 0,009

weight -0,007 -0,008 -0,005

acceleration 0,079 -0,114 0,272

model year 0,777 0,675 0,879

origin_EU 2,630 1,516 3,744

origin_JAP 2,853 1,766 3,940

Boot_Beta

Boot_CI

lower

Boot_CI

upper

intercept -17,746 -27,583 -7,859

cylinders -0,492 -1,079 0,130

displacement 0,024 0,007 0,041

horsepower -0,018 -0,047 0,009

weight -0,007 -0,008 -0,005

acceleration 0,075 -0,170 0,319

model year 0,776 0,672 0,881

origin_EU 2,631 1,338 3,906

origin_JAP 2,858 1,812 3,926

Jackknife

Tecnica che fa parte della famiglia dei metodi di ricampionamento.

Dal campione osservato di numerosit n si estraggono tutti i possibili n

campioni di numerosit n-1 ottenuti eliminando a turno dal campione la i-ma

unit.

Si procede in maniera analoga al metodo bootstrap.

Il metodo jackknife viene maggiormente utilizzato per la costruzione di

intervalli di confidenza.

Metodi Ensemble

Tecniche che fanno parte della famiglia dei metodi di ricampionamento,

principalmente per modelli di regressione (parametrica e non parametrica) e di

classificazione supervisionata (vedi seminari su regressione non parametrica e

sullo statistical learning).

Un ensemble una aggregazione di classificatori con lo scopo di combinare in

qualche modo le decisioni individuali di ciascuno di questi per classificare

nuove osservazioni.

La particolarit del BAGGING (Bootstrap Aggregating) consiste nellutilizzare il

Bootstrap come metodo di ricampionamento; questo significa che la

probabilit di essere estratto, per ciascun individuo, costante in ogni prova e

uguale per tutti. La stima finale quindi laggregazione della risposta dei

modelli di regressione o di classificazione attraverso la media o utilizzando

majority rules.

Metodi Ensemble

0 5 10 15 20 25 30 35 40 45 500

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

0.18

0.2

Bootstrap replications

test

err

or

test error single tree

test error Bagging

Metodi EnsembleBOOSTING

LIDEA:

Addestrare lalgoritmo di apprendimento (weak learner) su un data set e

costringerlo ad imparare dai propri errori a classificare in modo corretto.

Weak learner:

Classificatore almeno moderatamente accurato (le sue previsioni devono

essere almeno leggermente migliori rispetto ad una scelta totalmente casuale).

Si ricampiona dal set di dati in modo che le osservazioni malclassificate (o con

valori maggiori della funzione di perdita) hanno maggiore probabilit di essere

estratte, forzando il weak learner ad addestrarsi sugli errori commessi per

poterli correggere.

La stima finale laggregazione della risposta ponderata dei modelli di

regressione o di classificazione attraverso medie ponderate o a utilizzando

majority rules.

Metodi Ensemble

Cross-ValidationCROSS-VALIDATION

Molto simile concettualmente al Jackknife nella sua forma pi estrema (leave-

one-out cross-validation).

Lidea:

Dividere il set di dati di numerosit n in V sottocampioni di numerosit n/ V (in

genere si pone V=10).

Si procede effettuando V analisi (escludendo di volta in volta il subset di dati

corrispondente alla frazione n/ V), testando il modello solo sulla parte restante

del modello.

Metodo molto utilizzato nei metodi di regressione e classificazione non

parametrici (alberi di classificazione e regressione, criterio di scelta dei

parametri di penalizzazione nelle p-splines) e anche nei metodi di regressione

parametrica (ridge regression, procedure di optimal scaling)

Cross-Validation

Albero di classificazione validato via cross-validation. Funzione di goodness: ? rank correlaztion coefficient.

Cross-Validation

Cross-validation applicata al criterio di selezione della penalit per lutilizzo delle p-

splines


Si pu derivare un test delle ipotesi supponendo nota la distribuzione

di probabilit di una v.c. X, quindi linferenza si riferisce ai soli parametri

che la specificano (Test Parametrici)

Si pu derivare un test senza fare assunzioni stringenti sulla forma

analistca della distribuzione di probabilit della v.c. X (ma qualche

assunzione minimale va fatta: unimodale? continua? simmetrica?

Possiede momento r-mo finito?). Linferenza riguarda quindi sia la

forma che i parametri (Test non parametrici, o distribution free).


Un test una regola istituita sullo spazio campionario mediante la

quale, in funzione del campione osservato, si decide se rifiutare o meno

una ipotesi { riferita alla popolazione.Unipotesi statistica una affermazione che specifica completamente

(ipotesi semplice) o parzialmente (ipotesi composita) la distribuzione

di probabilit di una v.c. X.

% 10,9 ; o 0,5 ; f 1,6 ; ipotesi semplici. Quando sono vere la conoscenza di X completa

% 5, 2 ; o ; f 1, % ; ipotesi composite. Quando sono vere non consentono di pervenire alla conoscenza di ununica v.c. ben definita.


Si intende per ipotesi nulla ({) lipotesi preesistente rispetto allesperimento campionario. E lipotesi che sussiste fino a prova

contraria.

Lipotesi alternativa () lipotesi complementare rispetto a {.E importante precisare subito che, qualora non fosse vera {, non detto che sia vera .{ e sono esaustive e disgiunte: vale luna o vale laltra.

Test delle ipotesi statisticheIl test una regola basata sullo spazio campionario che si concretizza in

una funzione definita sullinsieme di tutti i possibili campioni generati

da X. Per alcuni valori , , , {per cui {, ({ )la regola imporr di rigettare {,mentre per altri valori , , , { per cui { la regola imporr di non rigettare {.{ detta regione critica (RC) per {. La regione complementare detta regione di accettazione.

Poich se lipotesi riguarda il parametro le informazioni riguardo ad esso possono essere sintetizzate senza danno attraverso gli stimatori, la

regola decisionale definita tramite il campione casuale su { si traduce in una nuova regola fondata sullo stimatore (o statistica) " sulla base di { , , , { " {

Struttura probabilistica di un testIn teoria, prima di prendere una decisione, sono possibili le seguenti 4

situazioni

Dopo aver deciso se rigettare o meno {, si pu solo aver preso la decisione giusta o aver commesso un errore.

w = E1 = Pr(rigettare {|{ vera) = Pr(" {|{) = E2 = Pr(non rigettare {|{ falsa) = Pr(" {|) = 1 = Pr(rigettare {|{ falsa) = Pr " { (decisione giusta 2, nota come POTENZA DEL TEST)1 w = Pr(non rigettare {|{ vera) = Pr(" {|{)(decisione giusta 1)

vera Si rigetta { Errore 1 (di prima specie)Non si rigetta { Decisione Giusta 1

falsa Si rigetta { Decisione Giusta 2Non si rigetta { Errore 2 (di seconda specie)

Struttura probabilistica di un testSarebbe auspicabile richiedere che la RC sia tale che sia w che siano ragionevolmente piccole.

A parit di numerosit campionaria, non possibile far tendere a zero

entrambe le probabilit di errore.

Si potrebbe fissare w e scegliere la RC che minimizza ;Si potrebbe fissare e scegliere la RC che minimizza w;Si opta per la prima soluzione, poich si ritiene pi grave commettere

lerrore di prima specie ( pi rischioso modificare a torto la realt piuttosto che persistere nella medesima situazione laddove non fosse pi vera)

1

1 w

Struttura probabilistica di un testSi definisce regione critica ottimale di ampiezza (RCO(w)) una RC per { tale che Pr " { { = w e che, per qualsiasi altra RC j di eguale ampiezza risulti: { = Pr " { < Pr " {j = {j .E quindi ottimale la regione critica che, a parit di tutte quelle di

ampiezza w, possiede la pi elevata potenza del test { > ({j)

Un buon test quello con la potenza pi elevata a parit di probabilit

di commettere lerrore di prima specie. Come si costruiscono le RCO(w)?

Lemma di Neyman PearsonSia X = (, , , ) un campione casuale generato da (; ). Si vuole verificare {: = { contro : = . Sia i(; ) la funzione di verosimiglianza di X. La (w) per { contro quella regione {che soddisfa:

*)ii{ ; ;)Pr(X { { = wdove i = i ; ei{ = i {; .a) Implica che { viene costruita in modo tale che lipotesi alternativa

deve risultare c volte pi verosimile

b) Implica che la costante c determinata in modo che la probabilit di

commettere lerrore di prima specie sia pari a w

Test di significativitSi utilizza solo { e ci si chiede se i dati sostengono tale affermazione.Lipotesi alternativa non mai specificata.

Ci si basa sul p-value: g = Pr(" > #|{), definito cio come probabilit che, se vera {, lo stimatore " assuma un valore almeno estremo come la stima # osservata.Non possibile calcolare la potenza del test

Test uniformemente pi potenteLa potenza del test definita come = Pr(" {| = ). Se si prende in considerazione qualsiasi valore di (), si definisce funzione potenza = Pr " { , ,w = sup ()Sia { una RC di ampiezza w. Un test si dice uniformemente pi potente T se {dove la funzione potenza di qualsiasi altro test di eguale ampiezza.

Test LRTIl test del rapporto di verosimiglianza (LRT) si basa sul rapporto tra la

verosimiglianza massimizzata sotto { e la verosimiglianza massimizzata senza alcun vincolo.

Sia X = , , , un campione casuale generato da (; ). Si vuole verificare {: { contro : {. Si costruisce il rapporto

= max i(; )max() i(; )La RC costruita in modo che siaPr { = w.{ = {: } una RC costruita con il metodo LRT

Test LRT

Se applicabile il Lemma di Neyman-Pearson, il LRT produce (w)coincidenti.

Sotto opportune condizioni di regolarit, se vera { allora2 log qG(L)

dove g il numero di dimensioni dello spazio parametrico sotto {(teorema di Wilks)

Test asintotici: Score test

Sia X = , , , un campione casuale generato da (; ). Si vuole verificare {: contro : . Sia Cj() il vettore degli score rispetto ai parametri:

Cj = k log i ; k ,k log i ; k , ,

k log i ; k6V

Si pu dimostrare che

N = Cj V X ACj qG(6)Lo score test, rispetto al LRT, necessita solo del calcolo delle derivate

della funzione di verosimiglianza per = Asintoticamente LRT e score test sono equivalenti

Test asintotici: test di Wald

Sia X = , , , un campione casuale generato da (; ). Si vuole verificare {: contro : . Si pu dimostrare che

= VX qG(6)

Asintoticamente LRT e score test e test di Wald sono equivalenti

71

LRT, Score test e test di Wald

When the three test statistics

have equivalent

properties.

For small the Likelihood ratio

statistic is more

reliable than the

Wald statistic.

Principali test parametrici: Test sul valore medio, varianza nota:

{: 1 = 1{ : 1 > 1{ w 3 1{ + 2/: 1 < 1{ w 3 1{ 2/: 1 1{ w 3 1{ + /2/3 1{ /2/

Test sul valore medio, varianza ignota:

{: 1 = 1{ : 1 > 1{ w 3 1{ + #(,L)/: 1 < 1{ w 3 1{ #(,L)/: 1 1{ w 3 1{ + #(/,L)/3 1{ #(/,L)/

Principali test parametrici: Test sulla varianza, media ignota:

{: 2 = 2{: 2 > 2{ w N G(,L) 2{/( 1): 2 < 2{ w N G(A,L) 2{/( 1): 2 2{ w N G(/,L)

2{/( 1)N G(A/,L) 2{/( 1)Test sulla differenza tra medie, varianze ignote (note), campioni

indipendenti

Test sulla differenza tra medie, varianze ignote (note), campioni

dipendenti (appaiati)

Test sul rapporto tra varianze

and so on

Principali test non parametrici:Test dei segni

Test di Wicoxon

Test di Mann e Whitney

Goodness of fit tests (test chi quadrato, test di Kolmogorov-Smirnov,

test di Jarque-Bera,)

And so on

Letture consigliate Azzalini, A. Inferenza statistica, Springer, 2008

Casella, G., Berger, R. Statistical inference, Brooks/Cole Pub. Co., 1990

Erto, P. Probabilit e statistica per le scienze e l'ingegneria, McGraw-Hill,

2008

Hastie, T., Tibshirani, R., Friedman, J.H. The elements of statistical learning,

Springer, 2009

Landenna, G., Marasini, D., Ferrari, P. Teoria della Stima, Il Mulino 1997

Landenna, G., Marasini, D., Ferrari, P. La verifica di ipotesi statistiche, Il

Mulino 1998

Lindgren B., W. Statistical theory, Chapman & Hall, 1993

Piccolo, D. Statistica, Il Mulino, 1998.

Rice, J. Mathematical Statistics and Data Analysis, Duxbury, 2007

Metodi di stima e test di ipotesi - wpage.unina.itwpage.unina.it/antdambr/Docs/Metodi di stima e...

Documents

Transcript of Metodi di stima e test di ipotesi - wpage.unina.itwpage.unina.it/antdambr/Docs/Metodi di stima e...