Schmitz - Corso di Laurea Triennale in...
Transcript of Schmitz - Corso di Laurea Triennale in...
© 2015 Ipsos.1 © 2015 Ipsos.1 © 2015 Ipsos.1 © 2015 Ipsos.1 © 2015 Ipsos.11
Ma chi ce lo fa fare?La statistica applicata a problemi pratici
NORA SCHMITZGroup Manager, 25 Febbraio 2016
CONNECT
© 2015 Ipsos. All rights reserved. Contains Ipsos' Confidential and Proprietary information and may not be disclosed or reproduced without the prior written consent of Ipsos.
© 2015 Ipsos.3 © 2015 Ipsos.3 © 2015 Ipsos.3 © 2015 Ipsos.3 © 2015 Ipsos.3
UNA INDAGINE CON 2 GRANDI OBIETTIVI
3
INDAGINE DI
BASE AUDITEL
20,000 Casi probabilistici in 7 wavemensili, lette in media
mobile trimestrale
FORNISCE UNIVERSI DI RIFERIMENTO
LIVELLO FAMIGLIE PER IL PANEL AUDITEL
FORNISCE LISTA DI NOMINATIVI PER IL RECLUTAMENTO DEL PANEL
AUDITEL
© 2015 Ipsos.4 © 2015 Ipsos.4 © 2015 Ipsos.4 © 2015 Ipsos.4 © 2015 Ipsos.4
SFIDE METODOLOGICHE: FRAME DI CAMPIONAMENTO
PER ANNI, INDAGINE CAMPIONATA DA
LISTE ELETTORALI
LISTE INDIVIDUALI
SOLO ELETTORI
LISTE NOMINATIVI
DISTORTE
Probabilità di selezione condizionata da numero componenti maggiorenni
Solo le famiglie con almeno un elettore sono
incluse nella lista
BIAS DI COVERAGE FAMIGLIE
STRANIERE
=
=
© 2015 Ipsos.5 © 2015 Ipsos.5 © 2015 Ipsos.5 © 2015 Ipsos.5 © 2015 Ipsos.5
LA SFIDA METODOLOGICA
5
TROVARE UN FRAME DI CAMPIONAMENTO
ALTERTNATIVO ALLE LISTE ELETTORALI
© 2015 Ipsos.6 © 2015 Ipsos.6 © 2015 Ipsos.6 © 2015 Ipsos.6 © 2015 Ipsos.6
Frame di campionamento: le alternative
� In Italia, oltre alle liste elettorali, gli unici frame di campionamento disponibili sono
� Le telefoniche � problemi di copertura dei telefoni mobili, e dei no telefono
� Le liste anagrafiche � non accessibili alle entità private
� In attesa della disponibilità delle liste anagrafiche, auditel ha chiesto a ipsos di ipotizzare un impianto metodologico basato su un frame unico di campionamento livello famiglie per la realizzazione dell’indagine di base auditel
� L’obiettivo di tale passaggio è dare pari probabilità di inclusione a tutte le famiglie residenti sul territorio italiano e rispondere così a due criticità di fondo emerse con il frame di campionamento delle liste elettorali, e cioè
� Il bias di coverage delle famiglie interamente composte da stranieri (dovuto all’esclusione degli individui stranieri dalle liste elettorali), e
� Il fatto che la distribuzione del campione grezzo per numero di componenti risulta non proporzionale a quella dell’universo stimato (dovuto al ricorso ad una lista di individui per estrarre un campione di famiglie).
© 2015 Ipsos.7 © 2015 Ipsos.7 © 2015 Ipsos.7 © 2015 Ipsos.7 © 2015 Ipsos.7
Frame di campionamento: l’idea
Frame elettorali: giunge alla famiglia individuandola tramite uno specifico
nominativo estratto
Frame indirizzi: giunge alla famiglia operando per unità abitativa, senza nominativo
di riferimento (si estrae una
abitazione)
© 2015 Ipsos.8 © 2015 Ipsos.8 © 2015 Ipsos.8 © 2015 Ipsos.8 © 2015 Ipsos.8
Necessaria fonte per suddivisione
comune in settori
SEZIONI ELETTORALI E
SEZIONI CENSUARI
ISTAT
Ricorrere ad una lista ricostruita di indirizzi come frame di campionamentoimplica i seguenti step:
1. Primo stadio: selezione PPS (probability proportional to size) dei comuni su cuioperare (come attualmente)
2. Secondo stadio: selezione SRS (simple random sampling), all’interno dei comuniestratti, delle sezioni elettorali su cui operare, che avranno solo la funzione di‘agglutinatori territoriali’
3.Terzo stadio: estrazione PPS dei civici in cui verranno
effettuate le interviste
4. Quarto stadio: estrazione SRS delle famiglie da intervistare
Tecnica di campionamento da lista ricostruita di indirizzi
GLI STEP DI CAMPIONAMENTO
Necessaria informazione sulla
‘magnitudo’ comuni (N residenti)
DB CATASTO (SISTER)
Necessaria stima della ‘magnitudo’ civici (N abitazioni/famiglie)
fonte
© 2015 Ipsos.9 © 2015 Ipsos.9 © 2015 Ipsos.9 © 2015 Ipsos.9 © 2015 Ipsos.9
Tecnica di campionamento da lista ricostruita di indirizzi
GLI STEP DI CAMPIONAMENTO
© 2015 Ipsos.11 © 2015 Ipsos.11 © 2015 Ipsos.11 © 2015 Ipsos.11 © 2015 Ipsos.11
Indagine di base sulla radio: obiettivo
� L’indagine è stata realizzata su un campione di 15,000 casi, tramite interviste telefoniche su telefono fisso e mobile
� Uno degli obiettivi dell’indagine era di verificare se esistano delle caratteristiche individuali che si correlano
significativamente con l’ascolto della radio (ascolto/non ascolto ma anche ad esempio frequenza di ascolto)
� Questa analisi è stata condotta con specifico riferimento al mezzo radio, in modo da trovare criteri di campionamento/ponderazione adatti a rilevarne gli ascolti tenendo conto delle sue specificità e peculiarità: anche i criteri di trattamento delle variabili sociodemografiche ‘standard’, per esempio, sono stati verificati in termini di efficacia per lo specifico mezzo radio
Premessa
Variabili sociodemografiche: il trattamento standard è SUFFICIENTE PER la misurazione della radio?
© 2015 Ipsos.12
© 2015 Ipsos.13 © 2015 Ipsos.13 © 2015 Ipsos.13 © 2015 Ipsos.13 © 2015 Ipsos.13
IL TEST-T
� Il test-t ha lo scopo di verificare se il valore medio di un fenomeno, in questo caso l’ascolto della radio, si discosti in modo significativo tra 2 classi
� Nel caso specifico, è stato applicato per verificare se l’ascolto della radio all’interno di ogni principale classe sociodemografica (condizione professionale e età*titolo di studio) si discosti in modo significativo dalla media del campione
� Il test è stato applicato solo a classi composte da almeno 50 casi grezzi e nel seguito si riportano i risultati ottenuti per la variabile istruzione*età
Variabili sociodemografiche
© 2015 Ipsos.14 © 2015 Ipsos.14 © 2015 Ipsos.14 © 2015 Ipsos.14 © 2015 Ipsos.14
Istruzione per età: l’ascolto come criterio aggiuntivoPrimo inquadramento: verifica delle variabili sociodemografiche
Età Valore t Pr > |t| VA grezzi
Licenza Media 14--17 <.0001Licenza Media 18--24 0,0035Licenza Media 25--34 0,0012Licenza Media 35--44 <.0001Licenza Media 45--54 <.0001
Licenza Media 55--64 0,0097Licenza Media 65--74 <.0001Licenza Media 75+ <.0001
Età Valore t Pr > |t| VA grezzi
Laurea 14--17 .Laurea 18--24 0,1035Laurea 25--34 <.0001Laurea 35--44 <.0001
Laurea 45--54 <.0001Laurea 55--64 <.0001Laurea 65--74 0,0693Laurea 75+ 0,3000
Il criterio di aggregazione ‘standard’ incrocia 3 classi di età (14-24, 25-64 e 65+) per livello di scolarità
Tenendo conto dei comportamenti di ascolto per singole celle, emerge che i 45-54 ed i 55-64enni basso scolarizzati hanno un
comportamento molto simile ai 65+ basso scolarizzati
Licenza superiore 14--17Licenza superiore 18--24 <.0001Licenza superiore 25--34 <.0001
Licenza superiore 35--44 <.0001Licenza superiore 45--54 <.0001Licenza superiore 55--64 <.0001Licenza superiore 65--74 0,8298
Licenza superiore 75+ 0,0031
Elementare 14--17
Elementare 18--24
Elementare 25--34Elementare 35--44Elementare 45--54 <.0001Elementare 55--64 <.0001
Elementare 65--74 <.0001Elementare 75+ <.0001
ULTERIORI POSSIBILI PARAMETRI UNIVERSO DA TENERE SOTTO CONTROLLO NEI CAMPIONI GIORNALIERI
© 2015 Ipsos.15
© 2015 Ipsos.17 © 2015 Ipsos.17 © 2015 Ipsos.17 © 2015 Ipsos.17 © 2015 Ipsos.17
Variabili ‘candidate’ a diventare parametri-Universo
Analisi multivariate
� Tutte le analisi sono state realizzate con l’obiettivo di verificare se esistano parametri-Universo in grado di ben
prevedere l’ascolto della radio. In tutti i modelli:
� l’ascolto della radio – cioè la variabile che si vuole prevedere – viene inserita come variabile dipendente
� le variabili candidate a diventare parametri-Universo sono inserite come variabili indipendenti/‘predittori’
� Come possibili candidate, è stato considerato un elenco molto esteso di potenziali parametri-Universo, con l’eccezione delle variabili
� direttamente riferite all’ascolto della radio (es: durata di ascolto)
� completamente estranee al consumo di radio (es: uso abituale di creme per il viso)
© 2015 Ipsos.18 © 2015 Ipsos.18 © 2015 Ipsos.18 © 2015 Ipsos.18 © 2015 Ipsos.18
La variabile da prevedere (dipendente)� La variabile dipendente utilizzata è l’ascolto della radio, diviso in 3 classi
Analisi multivariate
Tutti i giorni o quasi
Tutti i giorni o quasi
4-5 giorni la settimana
1-3 giorni a settimana
2-3 giorni la settimana
1 giorno la settimana
2-3 volte mese
1 volta al mese o meno
1 volta mese
Più raramente
Mai
Obiettivo delle analisi riportate nelle slide successiveè verificare se vi siano, tra quelle rilevate nella indagine di base,delle variabili in grado di stimare l’appartenenza alle 3 classi di ascolto
© 2015 Ipsos.19 © 2015 Ipsos.19 © 2015 Ipsos.19 © 2015 Ipsos.19 © 2015 Ipsos.19
Le variabili indipendenti
Analisi multivariate
� Inizialmente, le variabili indipendenti (candidate a diventare parametri-Universo) inserite nelle diverse tipologie di analisi sono:
� sociodemografiche
� relative alla disponibilità di dotazioni tecnologiche
� relative ad abitudini e comportamenti
� In una prima fase, quindi, sono state considerate anche le variabili non oggettive (abitudini e comportamenti): coerentemente con i principi-guida prima descritti, le analisi sono state poi ripetute escludendo il più possibile
abitudini e comportamenti per valutare le differenze in termini di capacità di predire l’ascolto della radio
© 2015 Ipsos.20 © 2015 Ipsos.20 © 2015 Ipsos.20 © 2015 Ipsos.20 © 2015 Ipsos.20
Variabili indipendenti ‘candidate’ a parametro-Universo
� Variabili demografiche:
� Sesso� Età (8 classi)� GRG (4 classi)� Ampiezza centri (5
classi)� Istruzione (4 classi) � Professione (7 classi)
Analisi multivariate
� Oltre alle sociodemografiche, sono state considerate altre 23 variabili con una penetrazione superiore al 20% del totale popolazione
Variabili di abitudine o comportamentali (% di penetrazione anche con frequenza minima)
Variabili di disponibilità di dotazioni tecnologiche (% di penetrazione)
Apparecchio TV
Autoradio
Connessione a Internet
Personal computer fisso o portatile
Apparecchio radio FM
Possesso Smartphone che si connette a internet
Decoder satellitare o TivùSat
Tablet di qualsiasi marca
Lettore MP3 o MP4
Sky
Tempo dedicato a: Relazioni personali/divertimenti, passatempi
Tempo dedicato a: Guardare la televisione
Frequenza utilizzo auto
Lettura di un quotidiano d'informazione
Quanti km percorre in auto
Le è capitato di mangiare fuori di casa a mezzogiorno
Ogni quanto tempo le capita di usare la carta di credito?
Vacanze in Italia
Tempo dedicato a: Cura/Assistenza Figli
Lettura di un quotidiano sportivo
Va regolarmente in chiesa ogni domenica
Tempo dedicato a: Cura della casa
Utilizzo del suo tablet/Smartphone per: ascoltare musica in streaming gratuitamente
© 2015 Ipsos.22 © 2015 Ipsos.22 © 2015 Ipsos.22 © 2015 Ipsos.22 © 2015 Ipsos.22
Tecniche statistiche utilizzate� Le analisi sono state realizzate con 4 tecniche multivariate tra loro diverse e per alcuni aspetti complementari perché ognuna
è in grado di cogliere relazioni diverse tra le variabili utilizzate
� Analisi Discriminante: separa i gruppi di ascoltatori (forti, medi, deboli) con funzioni lineari (piani)
� Regressione logistica ordinale: stima le probabilità di ascolto (alto, medio, basso) di ogni persona
� Alberi Decisionali: frazionano il campione rispetto a una variabile alla volta (per separare ascoltatori forti, medi, deboli)
� Reti Neurali: generano regole di classificazione (degli ascoltatori) senza ipotesi a priori/vincoli, desumendole solo dai dati
Analisi multivariate
© 2015 Ipsos.23 © 2015 Ipsos.23 © 2015 Ipsos.23 © 2015 Ipsos.23 © 2015 Ipsos.23
Perché 4 tecniche diverse
� Il ricorso a 4 tecniche tra loro diverse garantisce quindi
� Da un lato una verifica multipla della effettiva importanza di un parametro candidato
� Dall’altro, di riuscire a individuare tutti i parametri rilevanti, senza ‘fermarsi’ solo a quelli che hanno uno specifico tipo di relazione con l’ascolto della radio
Analisi multivariate
© 2015 Ipsos.24 © 2015 Ipsos.24 © 2015 Ipsos.24 © 2015 Ipsos.24 © 2015 Ipsos.24
Andare oltre il totale ascolto (prove realizzate)
� Oltre che per il totale campione, con l’intento di non ignorare eventuali variabili utili in specifici segmenti, le analisi sono state realizzate anche ponendo l’obiettivo di predire il non ascolto e diversi sotto-insiemi di ascolto (di specifiche classi di età o in specifiche fasce orarie)
1) Totale ascolto (variabile dipendente frequenza di ascolto, analisi sul totale campione)
2) Non ascolto (variabile dipendente ’Non ascoltatori MAI’)
3) Ascolto non in auto (variabile dipendente frequenza di ascolto, analisi filtrata su chi utilizza poco l’auto)
4) Ascolto 14-24 anni (variabile dipendente frequenza di ascolto, analisi filtrata su età 14 -24 anni)
5) Ascolto 25-44 anni (variabile dipendente frequenza di ascolto, analisi filtrata su età 25 - 44 anni)
6) Ascolto 45-64 anni (variabile dipendente frequenza di ascolto, analisi filtrata su età 45 - 64 anni)
7) Ascolto 65+ anni (variabile dipendente frequenza di ascolto, analisi filtrata sui 65+)
Analisi multivariate
© 2015 Ipsos.25 © 2015 Ipsos.25 © 2015 Ipsos.25 © 2015 Ipsos.25 © 2015 Ipsos.25
Andare oltre il totale ascolto (prove realizzate)_2
8) Ascolto 6:00-9:00 (variabile dipendente: ascoltatori fascia sì vs no, analisi su ascoltatori min. 1 volta a settimana)
9) Ascolto 9:00 -15:00 (variabile dipendente: ascoltatori fascia sì vs no, analisi su ascoltatori min. 1 volta a settimana)
10) Ascolto 15:00-20:00 (variabile dipendente: ascoltatori fascia sì vs no, analisi su ascoltatori min. 1 volta a settimana)
11) Ascolto dopo le 20:00 (variabile dipendente: ascoltatori fascia sì vs no, analisi su ascoltatori min. 1 volta a settimana)
12) Ascolto 17:00-20:00 (variabile dipendente: ascoltatori fascia sì vs no, analisi su ascoltatori min. 1 volta a settimana)
Analisi multivariate
© 2015 Ipsos.26 © 2015 Ipsos.26 © 2015 Ipsos.26 © 2015 Ipsos.26 © 2015 Ipsos.26
Lettura dei risultati
• Come criterio per la lettura dei risultati, è utile valutare
• Capacità predittiva usando tutte le variabili ‘candidate’• Porzione di ascoltatori classificati correttamente in termini di frequenza di ascolto � se cerco di predire
l’ascolto della radio utilizzando l’insieme delle variabili candidate, classifico correttamente i singoli individui come ascoltatori/non ascoltatori o per frequenza di ascolto?
• Miglioramento rispetto alla casualità � rispetto ad una riclassificazione casuale degli ascoltatori per frequenza di ascolto, con la mia stima quanti ascoltatori classifico correttamente come alto, medio o basso ascoltatori?
• Variabili più efficaci: quali sono le migliori per predire l’ascolto?
Analisi multivariate
Se provassi a riclassificare casualmente gli individui per
frequenza di ascolto, in questo esempio otterrei una
percentuale di riclassificazione corretta del 40%;
come si vedrà, la riclassificazione stimata è corretta per
quasi il 70%. Il miglioramento rispetto alla casualità è
quindi di più del 50%
A M BA A A A A M B
A MBA A A A AMB
A M BA A A A AM B
Campione
Casuale
Stimata
Risultati ottenuti con tutte le variabili ‘candidate’ (demografiche, dotazioni, abitudini/comportamentali)
© 2015 Ipsos.27
© 2015 Ipsos.28 © 2015 Ipsos.28 © 2015 Ipsos.28 © 2015 Ipsos.28 © 2015 Ipsos.28
Tecnica
Totale
ascolto
Analisi discriminante +49%
Analisi logistica +56%Analisi alberi decisionali +55%
Analisi reti neurali +57%
Risultati – totale ascolto� Usando tutte le variabili candidate per predire il totale ascolto, gli individui classificati correttamente sono:
Analisi multivariate
Tecnica
Totale
ascolto
Analisi discriminante 66%Analisi logistica 69%
Analisi alberi decisionali 69%Analisi reti neurali 70%
� Le percentuali di miglioramento rispetto alla casualità sono:
Inoltre, le 4 tecniche mostrano tutte un notevole vantaggio rispetto a una classificazione casuale
Le 4 tecniche realizzate su tutte le variabili considerate (demografiche, di dotazioni e comportamentali) mostrano una elevata
capacità predittiva
Le variabili candidate sono quindi effettivamente utili come potenziali parametri-Universo, quantomeno per stimare il totale ascolto
© 2015 Ipsos.29 © 2015 Ipsos.29 © 2015 Ipsos.29 © 2015 Ipsos.29 © 2015 Ipsos.29
Prove
% Di risposte ricodificate
correttamente % Miglioramento
Totale ascolto +54%
Non ascolto +18%
Ascolto non in auto +64%
14-24 anni +46%
25-44 anni +34%
45-64 anni +45%
65+ anni +75%
Ascolto fascia 6-9 +28%
Ascolto fascia 9-15 +22%
Ascolto fascia 15-20 +23%
Ascolto fascia 20+ +9%
Ascolto fascia 17-20 +23%
Risultati – break di ascolto� Le variabili candidate sono utili nel predire l’ascolto anche per i diversi break analizzati
Analisi multivariate
L’utilità delle variabili candidate per stimare
correttamente l’ascolto si conferma anche nelle
analisi relative ai break di ascolto
© 2015 Ipsos.30 © 2015 Ipsos.30 © 2015 Ipsos.30 © 2015 Ipsos.30 © 2015 Ipsos.30
Varabile
% di importanza
nelle diverse prove
Apparecchio radio (Radio FM)
Età
Quanti km percorre in auto?
Autoradio
Frequenza utilizzo auto nei giorni feriali
Connessione a Internet
Scolarità
Le è capitato di mangiare fuori di casa a mezzogiorno
Personal computer fisso o portatile
Lettura di un quotidiano sportivo
Sesso
Smartphone connesso a internet
Lettura di un quotidiano d'informazione
Ascolto di musica in streaming gratuitamente
Casalinga
Tempo dedicato a: Guardare la televisione
Lavori d'ufficio
Operai
Varabile
% di importanza
nelle diverse prove
Tempo dedicato a:Cura/Assistenza Figli
Disoccupati generici
Area - Nord-Est
Studente
Lettore MP3 o MP4
Lavoratori professioni medie
Tempo dedicato: Cura della casa
Area - Nord-Ovest
Ogni quanto tempo usa la carta di credito?
Tempo dedicato a:Relazioni personali/divertimenti
Decoder satellitare o TivùSat
Sky
Pensionato
Tablet di qualsiasi marca
Vado regolarmente in chiesa ogni domenica
Apparecchio TV
Ampiezza centro
Vacanze in Italia
Area - Centro
Importanza delle variabili candidateAnalisi multivariate
Vista la loro importanza ai fini della previsione dell’ascolto, le variabili relative alla intensità di utilizzo dell’auto vengono mantenute anche nel modello parsimonioso
Verso un modello più parsimonioso: risultati ottenuti considerando solo caratteristiche e dotazioni
© 2015 Ipsos.31
© 2015 Ipsos.32 © 2015 Ipsos.32 © 2015 Ipsos.32 © 2015 Ipsos.32 © 2015 Ipsos.32
% Di risposte ricodificate correttamente
PROVE
Considerando anche abitudini e
comportamenti
Escludendo abitudini e
comportamenti Delta
Totale ascolto 0%
Non ascolto 1%
Ascolto non in auto 0%
14-24 anni -1%
25-44 anni -1%
45-64 anni 0%
65+ anni -1%
Ascolto fascia 6-9 0%
Ascolto fascia 9-15 -1%
Ascolto fascia 15-20 0%
Ascolto fascia 20+ 1%
Ascolto fascia 17-20 0%
Risultati – totale ascolto � Eliminando abitudini e comportamenti (con l’eccezione dell’intensità dell’uso dell’auto), le percentuali di
riclassificazioni corrette rimangono sostanzialmente invariate:
Analisi multivariate
© 2015 Ipsos.33 © 2015 Ipsos.33 © 2015 Ipsos.33 © 2015 Ipsos.33 © 2015 Ipsos.33
% Miglioramento stima
PROVE
Considerando anche
abitudini e comportamenti
Escludendo
abitudini e comportamenti Differenze
Totale ascolto -1%
Non ascolto 1%
Ascolto non in auto -1%
14-24 anni -3%
25-44 anni -1%
45-64 anni 0%
65+ anni -2%
Ascolto fascia 6-9 -1%
Ascolto fascia 9-15 -1%
Ascolto fascia 15-20 0%
Ascolto fascia 20+ 2%
Ascolto fascia 17-20 0%
Risultati – totale ascolto � Anche il miglioramento rispetto alla riclassificazione casuale tende a non diminuire:
Analisi multivariate
Per stimare correttamente l’ascolto, è sufficiente inserire come parametri-Universo
le variabili oggettive (caratteristiche/dotazioni)
© 2015 Ipsos.34 © 2015 Ipsos.34 © 2015 Ipsos.34 © 2015 Ipsos.34 © 2015 Ipsos.34
Le variabili eleggibili come parametri-UniversoAnalisi multivariate
Varabile
% di importanza
nelle diverse prove
EtàQuanti km percorre in auto?Apparecchio radio (Radio FM)ScolaritàFrequenza utilizzo auto nei giorni ferialiSmartphone connesso a internetAutoradioPersonal computer fisso o portatileLettore MP3 o MP4SessoConnessione a InternetCasalingaDisoccupati genericiArea - Nord-Ovest
Varabile
% di importanza
nelle diverse
prove
PensionatoStudenteLavori d'ufficioLavoratori professioni medieApparecchio TVOperaiArea - Nord-EstTablet di qualsiasi marcaSkyDecoder satellitare o TivùSatAmpiezza centroArea - Centro
L’unica eccezione riguarda l’intensità di utilizzo dell’auto, più simile ad una
caratteristica individuale che ad un comportamento variabile nella quotidianità
© 2015 Ipsos.36 © 2015 Ipsos.36 © 2015 Ipsos.36 © 2015 Ipsos.36 © 2015 Ipsos.36
Analisi Discriminante
� L'analisi discriminante interpreta ogni caso come un punto di uno spazio a n dimensioni (n = numero di variabili indipendenti) e ipotizza che la separazione tra i gruppi possa essere approssimata con funzioni
lineari dei predittori. L'analisi consiste sostanzialmente nell'identificare queste funzioni.
� La variabile dipendente è nominale (quindi l'AD non sfrutta l'ordinamento dei tre gruppi) e i predittori devono essere variabili numeriche o dicotomiche, e dovrebbero avere distribuzioni normali e varianze uguali nei gruppi. È la tecnica più esigente rispetto alle caratteristiche dei predittori; è sensibile alla presenza di predittori fortemente correlati., elemento che - nel nostro caso - può avere un impatto sull’importanza relativa delle singole variabili ma non sulle capacità predittive del modello.
Analisi multivariate
© 2015 Ipsos.37 © 2015 Ipsos.37 © 2015 Ipsos.37 © 2015 Ipsos.37 © 2015 Ipsos.37
Regressione Logistica Ordinale
� La regressione logistica (binaria) ipotizza che la probabilità di ascolto/non ascolto possa essere stimata con
una funzione logistica dei predittori. L'analisi consiste nel calcolare questa probabilità. La regressione logistica ordinale estende questo approccio calcolando la probabilità di appartenenza a ciascuno dei tre livelli di ascolto.
� La variabile dipendente è ordinale (come nel nostro caso) e i predittori possono essere numerici, categorici o qualunque combinazione di questi. È sensibile alla presenza di predittori fortemente correlati.
Analisi multivariate
© 2015 Ipsos.38 © 2015 Ipsos.38 © 2015 Ipsos.38 © 2015 Ipsos.38 © 2015 Ipsos.38
Alberi Decisionali
� Gli alberi forniscono criteri di classificazione gerarchici, frazionando in
successione il campione secondo il predittore che in ogni ‘foglia’ meglio
discrimina tra i livelli di ascolto. Lungo ciascun ramo i predittori sono normalmente diversi e lo stesso predittore può ripresentarsi, il che permette di rappresentare anche funzioni non lineari. Il processo di frazionamento si interrompe quando si raggiungono dei criteri di arresto predefinito (profondità dell'albero, numero di casi in una foglia).
� La variabile dipendente può essere di qualunque tipo: numerica, categorica oppure ordinale (come nel nostro caso); i predittori possono essere numerici o categorici, o combinazioni di questi; i predittori numerici continui vengono però ricodificati in classi, normalmente a cura dell'algoritmo stesso di generazione dell'albero.
Analisi multivariate
© 2015 Ipsos.39 © 2015 Ipsos.39 © 2015 Ipsos.39 © 2015 Ipsos.39 © 2015 Ipsos.39
Reti Neurali� Le reti neurali hanno una struttura a strati: uno strato di input (variabili
indipendenti), uno strato di output (livelli di ascolto) e uno strato interno con compiti di elaborazione. I neuroni sono legati da uno strato al successivo con connessioni cui è associato un peso. Stimare una rete neurale significa individuare i pesi, con un processo iterativo, in modo che l'errore di previsione nel livello di output sia minimo. Le reti possono
individuare funzioni complesse, non lineari, non necessariamente
spiegabili in termini di "correlazioni" o "differenze tra gruppi", e forniscono regole di classificazione degli individui nelle classi.
� Le variabili dipendenti sono numeriche o categoriche, non ordinali (noi l'abbiamo considerata nominale con 3 livelli); i predittori possono essere numerici o categorici, o combinazioni di questi. Le reti non fanno alcuna ipotesi né sui predittori né sulle relazioni tra variabile dipendente e predittori.
� E’ la tecnica più elastica perché è finalizzata esclusivamente a riclassificare gli individui nelle classi in modo del tutto indipendente da ipotesi a priori sui dati.
Analisi multivariate