statistica univariata

33

description

Matteo Cendamo per www.matematicainrete.it

Transcript of statistica univariata

Page 1: statistica univariata
Page 2: statistica univariata

La statistica è la scienza che studia i fenomeni collettivi in maniera quantitativa

STATISTICA

DESCRITTIVA

INFERENZIALE

La statistica è descrittiva quando va ad indagare su tutta la popolazione statistica

La statistica è inferenziale quando va ad indagare solo su una parte di popolazione statistica

DESCRITTIVA

UNIVARIATA

BIVARIATA

La statistica descrittiva è univariataquando ha per oggetto 1 solo carattere

La statistica descrittiva è bivariata quando ha per oggetto 2 o più caratteri

Page 3: statistica univariata

FENOMENO COLLETTIVO:

E’ un fenomeno che riguarda un insieme di unità statistiche

UNITA’ STATISTICA :

E’ un’unità in cui si raccolgono le informazioni

UNIVERSO STATISTICO O POPOLAZIONE STATISTICA:

E’ l’insieme di tutte le unità statistiche

CARATTERE STATISTICO :

E’ la caratteristica da esaminare nella popolazione statistica

MODALITA’ DI UN CARATTERE STATISTICO :

E‘ il modo in cui si presenta un carattere, quando ha valore numerico si chiama intensità

Page 4: statistica univariata

E’ un carattere , le cui modalità si esprimono con aggettivi o sostantivi

CARATTERE QUALITATIVO:

CARATTERE QUALITATIVO

ORDINATE

NON ORDINATE

Quando le modalità possono essere disposte in un certo ordine

Quando non è possibile ordinarle

CARATTERE QUANTITATIVO:

E’ un carattere , le cui modalità si esprimono con singoli valori numerici o intervalli di valori

CARATTERE QUANTITATIVO

DISCRETI

CONTINUI

Quando le modalità assumono solo valori interi(Numeri Interi)

Quando le modalità possono assumere qualunque valore all’interno di un intervallo(Numeri Reali)

Page 5: statistica univariata

E’ il numero di volte che viene rilevata Una data modalità nell’ambito dellapopolazione

E’ il rapporto tra la frequenza assolutaE il totale delle osservazioni

Basta moltiplicare la frequenza relativa *100. Il totale delle frequenze relative percentuali deve essere SEMPRE100%

La prima frequenza relativa percentuale cumulata è uguale alla prima frequenza relativa percentuale, per le altre si andrà sommando in ordine, ovvero la prima + la seconda; la prima + la seconda + la terza etc…

Page 6: statistica univariata

La variabile statistica è l’insieme delle intensità e delle corrispondenti frequenze

Xi X1 X2 … XK

Fi F1 F2 … FK

La mutabile statistica è la distribuzione di frequenza di un fenomeno qualitativo

Stato Civile Nubile Celibe Coniugato Vedovo

Fi F1 F2 F3 F4

Page 7: statistica univariata

RACCOLTA DATI

Interviste diretteCompilazione di un questionario

Rilevazioni sperimentaliTabelle fornite da enti (ISTAT)

INTERVISTE DIRETTE

IL QUESTIONARIO

APERTO: a risposta aperta

CHIUSO: a risposta chiusa

Page 8: statistica univariata

INTERVISTE DIRETTE

IL QUESTIONARIO

Chiaro

Espresso in un linguaggio

comprensibile agli intervistati

Non troppo lungo

Senza domande non rilevanti ai fini dell’indagine

Può contenere domande di

controllo

Page 9: statistica univariata

LO SPOGLIO DEI DATI

MANUALMENTE: si utilizzano tabelle di spoglio dove vengono calcolate le frequenze assolute di ogni modalità

TRAMITE COMPUTER

Page 10: statistica univariata

Per caratteri quantitativi

Per caratteri qualitativi

Caratteri qualitativi e quantativi

CapelliOcchi

Castani Bruni Totale

Castani 3 2 5

Bruni 4 3 7

Totale 7 5 12N(Collettivo)

Freq. Congiunte Associate

Freq. Marginali Per riga

Freq. Marginali Per colonna

Sono delle tabelle in cui si dispongono due caratteri e le relative modalità.All’incrocio tra righe e colonne stanno le frequenze, cioè il n° di unità statistiche che presentano simultaneamente i caratteri oggetto di studio

Page 11: statistica univariata

Si dividono in :

Gli indici di variabilità assoluti sono quelli che dipendono da una unità di misura.Tra essi troviamo:

Gli indici di variabilità relativi sono quelli che non dipendono da una unità di misura.Tra essi troviamo:

Page 12: statistica univariata

Il Campo di variazione è la differenza tra il maggiore e il minore dei dati, tiene presente solo dei valori estremi e non degli altri.

Page 13: statistica univariata

La varianza è la media aritmetica degli scarti dalla media elevati al quadrato.Si indica con sigma al quadrato e la formula per calcolarla è :

Quando non vi sono frequenze Quando vi sono frequenze

Il numeratore della varianza si chiama DEVIANZA

Page 14: statistica univariata

ESERCIZIO:Calcolare la varianza dei seguenti valori: 1,5,7,12,15

Step 1:Calcolo la media aritmetica dei valori(1+5+7+12+15)/5= 8

Step 2:Calcolo gli scarti dalla media e poi li elevo al quadrato

Xi Xi-M (Xi-M)^2

1 -7 49

5 -3 9

7 -1 1

12 4 16

15 7 49

Totale 40 0 124

Step 3:Calcolo la varianza facendo la sommatoria delle (Xi-M)^2/n

Var(x)= 124/5 = 24,80

Page 15: statistica univariata

ESERCIZIO:Calcolare la varianza dei seguenti valori con le seguenti frequenze

Xi Fi XiFi Xi-M (Xi-M)^2 (Xi-M)^2*Fi

1 8 8 -1,72 2,9584 23,6672

2 12 24 -0,72 0,5184 6,2208

3 20 60 0,28 0,0784 1,5680

4 6 24 1,28 1,6384 9,8304

5 4 20 2,28 5,1984 20,7936

50 136 62,0800

M=136/50=2,72 Var(x)=62,08/50= 1,2416

Page 16: statistica univariata

Lo Scarto Quadratico Medio (SQM), chiamato anche deviazione standard è la radice quadrata della Varianza

Si indica con sigma e si calcola con la seguente formula

Page 17: statistica univariata

La differenza media, è la media delle differenze in valore assoluto fra tutte le possibili coppie di valori della distribuzione. Può essere semplice o con ripetizione, si indica con Delta e Delta r e si calcola con le seguenti formule

Differenza semplice Differenza con ripetizione

Page 18: statistica univariata

Calcolare la differenza media semplice e con ripetizione è molto semplice, per farlo basta creare una tabella con i dati da calcolare ,sottrarre quelli della parte laterale con quelli della parte verticale, sommare tutti i risultati e metterli in formula.

753 841 1005 1184 1690 Tot

753 0 0

841 88 0 88

1005 252 164 0 416

1184 431 343 179 0 953

1690 937 849 685 506 0 2977

Page 19: statistica univariata

Il Coefficiente di Variazione è un numero puro (non dipende da unità di misura) e rappresenta il rapporto tra indice assoluto e la media aritmetica, ovvero tra SQM e media aritmetica.

Si indica con V e si calcola con la seguente formula

E varia tra

Page 20: statistica univariata

Per concentrazione si intende la tendenza all’ammontare di una determinata quantità a concentrarsi nelle mani di poche unità. E’ storicamente legata alla disuguaglianza dei redditi, ed è stata seguita e studiata in particolare da Lorenz. Per far si che esista concentrazione i caratteri devono essere trasferibili (le misure fisiche non sono trasferibili)

Studio della disuguaglianza dei redditi

Studiare come si distribuisce una quantità T tra N unità

Persone benestanti oppure un solo ricco

Stabilire se c’è equidistribuzione cioè (concentrazione nulla) stessa quantità a tutti oppurae concentrazione massima, tutto nelle mani di una persona

Page 21: statistica univariata

È un aspetto della variabilità e i suoi elementi più importanti sono :

Il reddito o la quantitàDa analizzare

(qi)

I soggetti Detentori

(pi)

N sono le unità statistiche

Rapporto di concentrazione

Page 22: statistica univariata
Page 23: statistica univariata

Determinare la concentrazione con il metodo di Gini

j Xj Pj=J/n Qj Qi=qj/qn pi-qi

1 1,8 0,1 1,8 0,018 0,082

2 2 0,2 3,8 0,038 0,162

3 2,2 0,3 6 0,060 0,24

4 2,4 0,4 8,4 0,084 0,316

5 3,9 0,5 12,3 0,123 0,377

6 6,5 0,6 18,8 0,188 0,412

7 8,4 0,7 27,2 0,272 0,428

8 10,9 0,8 38,1 0,381 0,419

9 28,3 0,9 66,4 0,664 0,236

10 33,6 / 100 1,000 /

N=10 100 4,5 2,672

=2,672/4,5 = 0,5938

Rapporto di concentrazione di Gini

Page 24: statistica univariata
Page 25: statistica univariata

Rapporto di Concentrazione:Area di Concentrazione: area della superficie compresa tra la spezzata di concentrazione e il segmento di equidistribuzione.Area Massima di Concentrazione: area del triangolo definito da bisettrice, ascissa massima, ordinata massima

Indice di Gini e metodo dei trapezi sono legati dal seguente rapporto

Page 26: statistica univariata

La moda è la modalità che si presenta con la massima frequenza.

Settore di attività Percentuale

Agricoltura 10%

Ristorazione 30%

Servizi 20%

Industria 35%

Sport 5%

La frequenza più alta è 35% quindi la moda è Industria

Nel caso in cui tutti le frequenze siano uguali, la moda non esiste.

Settore di attività Percentuale

Agricoltura 10%

Ristorazione 10%

Servizi 10%

Industria 10%

Sport 10%

Le frequenze sono tutte uguali quindi non vi è moda

Page 27: statistica univariata

Quando troviamo le classi, nel caso in cui sono tutte uguali, la moda è la modalità con la frequenza più alta, ma quando troviamo per esempio due o più modalità con la stessa frequenza per capire qual è la moda dobbiamo calcolare la densità di frequenza.

N° di ore fuori del centro

Percentuale Ampiezza della classe

Densità % di frequenza

0|-3 40% 3 13,3%

3|-8 20% 5 4%

8|-10 40% 2 20%

La classe modale è la 8|-10

Page 28: statistica univariata

La mediana è l’osservazione che occupa la posizione centrale in un insieme di dati. In altre parole il valore mediano lascia metà delle osservazioni al di sopra e metà al di sotto di se stesso.

Nel caso in cui il numero di Osservazioni n sia dispari èL’osservazione di posizione

Nel caso in cui il numero di Osservazioni n sia pari èL’osservazione di posizione

UNICITA’: In un dato insieme vi è una sola mediana

SEMPLICITA’: La mediana è facile da calcolare

ROBUSTA: Non è drasticamente influenzata dai valori estremi come la media

E’ applicabile anche per variabili ordinali

Rende minima la somma degli scarti

Page 29: statistica univariata

Per calcolare la mediana è fondamentale per prima cosa ordinare i dati.

Dati:1,3,2,0,4

0,1,2,3,4Dati ordinati

I dati sono 5 e Quindi n=5 (dispari)

Conto i dati

Calcolo la mediana

(n+1)/2=(5+1)/2=3

Vado nella posizione 3 e trovo il valore 2, quindi la mediana è 2

Page 30: statistica univariata

Per prima cosa bisogna vedere se n è pari o dispari, dopodichè si applica la formula.

Xi Fi Freq. Cumulate

3 4 4

5 1 5

7 5 10

11 7 17

13 3 20

TOT: 20 /

N=20 (pari)n/2=20/2=10(n/2)+1= 11Calcolo le frequenze cumulateLa mediana è la modalità alla quale corrisponde la prima frequenza che supera o eguaglia il valore del posto.Quindi il 10 rientra nella modalità 7 e l’11 nella modalità 11.Mediana= (11+7)/2= 9

Page 31: statistica univariata

Per prima cosa mi calcolo le frequenze cumulate. Vedo se n è pari o dispari, e grazie a questo mi calcolo la classe mediana poi con la seguente formula mi calcolo la mediana esatta.

Ampiezza classe

Freq.cum.precedenteLimite inferioreclasse

Xi Fi Fc

80-86 2 2

86-92 10 12

92-98 20 32

98-104 4 36

104-110 3 39

Totale (N) 39

N=39 (dispari)P=39/2=19,5 (classe mediana 92-98)Applico la formula:

Page 32: statistica univariata

I QUARTILI:Sono quei valori che per esempio per Q1 lasciano alla propria sinistra ¼ e alla propria destra ¾

ESERCIZIO:Calcolare il primo ed il terzi quartile dei seguenti dati:5,11,20,21,23,26,29,34,37,41

N=10 (pari)Q1= N/4= 10/4=2,5=3P=3 quindi il primo quartile è 20Q3= (N/4)*3= 7,5 = 8P=8 quindi il terzo quartile è 34

Con i quartili quando si ottengonoValori con la virgola si arrotondanoSempre per eccesso.

Con i quartili quando si ottengonoValori con la virgola si arrotondanoSempre per eccesso.

Page 33: statistica univariata

Xi Fi Fc

37 15 15

40 8 23

52 11 34

Totale 34 /

N=34 (pari)P1= N/4= 34/4=8,5=9P3= (N/4)*3= 25,5 = 26E’ quartile la modalità a cui corrisponde la prima frequenza cumulata che supera o eguaglia il valore del postoQuindi Q1=37 e Q3=52

Xi Fi Fc

0-30 47 47

30-50 25 72

50-100 51 123

Totale 123 /

N=123 (dispari)P1= N/4= 123/4=30,75=31P3= (N/4)*3= 92,25=93Applico la formula :