statistica univariata
-
Upload
angelo-stella -
Category
Documents
-
view
3.171 -
download
1
description
Transcript of statistica univariata
La statistica è la scienza che studia i fenomeni collettivi in maniera quantitativa
STATISTICA
DESCRITTIVA
INFERENZIALE
La statistica è descrittiva quando va ad indagare su tutta la popolazione statistica
La statistica è inferenziale quando va ad indagare solo su una parte di popolazione statistica
DESCRITTIVA
UNIVARIATA
BIVARIATA
La statistica descrittiva è univariataquando ha per oggetto 1 solo carattere
La statistica descrittiva è bivariata quando ha per oggetto 2 o più caratteri
FENOMENO COLLETTIVO:
E’ un fenomeno che riguarda un insieme di unità statistiche
UNITA’ STATISTICA :
E’ un’unità in cui si raccolgono le informazioni
UNIVERSO STATISTICO O POPOLAZIONE STATISTICA:
E’ l’insieme di tutte le unità statistiche
CARATTERE STATISTICO :
E’ la caratteristica da esaminare nella popolazione statistica
MODALITA’ DI UN CARATTERE STATISTICO :
E‘ il modo in cui si presenta un carattere, quando ha valore numerico si chiama intensità
E’ un carattere , le cui modalità si esprimono con aggettivi o sostantivi
CARATTERE QUALITATIVO:
CARATTERE QUALITATIVO
ORDINATE
NON ORDINATE
Quando le modalità possono essere disposte in un certo ordine
Quando non è possibile ordinarle
CARATTERE QUANTITATIVO:
E’ un carattere , le cui modalità si esprimono con singoli valori numerici o intervalli di valori
CARATTERE QUANTITATIVO
DISCRETI
CONTINUI
Quando le modalità assumono solo valori interi(Numeri Interi)
Quando le modalità possono assumere qualunque valore all’interno di un intervallo(Numeri Reali)
E’ il numero di volte che viene rilevata Una data modalità nell’ambito dellapopolazione
E’ il rapporto tra la frequenza assolutaE il totale delle osservazioni
Basta moltiplicare la frequenza relativa *100. Il totale delle frequenze relative percentuali deve essere SEMPRE100%
La prima frequenza relativa percentuale cumulata è uguale alla prima frequenza relativa percentuale, per le altre si andrà sommando in ordine, ovvero la prima + la seconda; la prima + la seconda + la terza etc…
La variabile statistica è l’insieme delle intensità e delle corrispondenti frequenze
Xi X1 X2 … XK
Fi F1 F2 … FK
La mutabile statistica è la distribuzione di frequenza di un fenomeno qualitativo
Stato Civile Nubile Celibe Coniugato Vedovo
Fi F1 F2 F3 F4
RACCOLTA DATI
Interviste diretteCompilazione di un questionario
Rilevazioni sperimentaliTabelle fornite da enti (ISTAT)
INTERVISTE DIRETTE
IL QUESTIONARIO
APERTO: a risposta aperta
CHIUSO: a risposta chiusa
INTERVISTE DIRETTE
IL QUESTIONARIO
Chiaro
Espresso in un linguaggio
comprensibile agli intervistati
Non troppo lungo
Senza domande non rilevanti ai fini dell’indagine
Può contenere domande di
controllo
LO SPOGLIO DEI DATI
MANUALMENTE: si utilizzano tabelle di spoglio dove vengono calcolate le frequenze assolute di ogni modalità
TRAMITE COMPUTER
Per caratteri quantitativi
Per caratteri qualitativi
Caratteri qualitativi e quantativi
CapelliOcchi
Castani Bruni Totale
Castani 3 2 5
Bruni 4 3 7
Totale 7 5 12N(Collettivo)
Freq. Congiunte Associate
Freq. Marginali Per riga
Freq. Marginali Per colonna
Sono delle tabelle in cui si dispongono due caratteri e le relative modalità.All’incrocio tra righe e colonne stanno le frequenze, cioè il n° di unità statistiche che presentano simultaneamente i caratteri oggetto di studio
Si dividono in :
Gli indici di variabilità assoluti sono quelli che dipendono da una unità di misura.Tra essi troviamo:
Gli indici di variabilità relativi sono quelli che non dipendono da una unità di misura.Tra essi troviamo:
Il Campo di variazione è la differenza tra il maggiore e il minore dei dati, tiene presente solo dei valori estremi e non degli altri.
La varianza è la media aritmetica degli scarti dalla media elevati al quadrato.Si indica con sigma al quadrato e la formula per calcolarla è :
Quando non vi sono frequenze Quando vi sono frequenze
Il numeratore della varianza si chiama DEVIANZA
ESERCIZIO:Calcolare la varianza dei seguenti valori: 1,5,7,12,15
Step 1:Calcolo la media aritmetica dei valori(1+5+7+12+15)/5= 8
Step 2:Calcolo gli scarti dalla media e poi li elevo al quadrato
Xi Xi-M (Xi-M)^2
1 -7 49
5 -3 9
7 -1 1
12 4 16
15 7 49
Totale 40 0 124
Step 3:Calcolo la varianza facendo la sommatoria delle (Xi-M)^2/n
Var(x)= 124/5 = 24,80
ESERCIZIO:Calcolare la varianza dei seguenti valori con le seguenti frequenze
Xi Fi XiFi Xi-M (Xi-M)^2 (Xi-M)^2*Fi
1 8 8 -1,72 2,9584 23,6672
2 12 24 -0,72 0,5184 6,2208
3 20 60 0,28 0,0784 1,5680
4 6 24 1,28 1,6384 9,8304
5 4 20 2,28 5,1984 20,7936
50 136 62,0800
M=136/50=2,72 Var(x)=62,08/50= 1,2416
Lo Scarto Quadratico Medio (SQM), chiamato anche deviazione standard è la radice quadrata della Varianza
Si indica con sigma e si calcola con la seguente formula
La differenza media, è la media delle differenze in valore assoluto fra tutte le possibili coppie di valori della distribuzione. Può essere semplice o con ripetizione, si indica con Delta e Delta r e si calcola con le seguenti formule
Differenza semplice Differenza con ripetizione
Calcolare la differenza media semplice e con ripetizione è molto semplice, per farlo basta creare una tabella con i dati da calcolare ,sottrarre quelli della parte laterale con quelli della parte verticale, sommare tutti i risultati e metterli in formula.
753 841 1005 1184 1690 Tot
753 0 0
841 88 0 88
1005 252 164 0 416
1184 431 343 179 0 953
1690 937 849 685 506 0 2977
Il Coefficiente di Variazione è un numero puro (non dipende da unità di misura) e rappresenta il rapporto tra indice assoluto e la media aritmetica, ovvero tra SQM e media aritmetica.
Si indica con V e si calcola con la seguente formula
E varia tra
Per concentrazione si intende la tendenza all’ammontare di una determinata quantità a concentrarsi nelle mani di poche unità. E’ storicamente legata alla disuguaglianza dei redditi, ed è stata seguita e studiata in particolare da Lorenz. Per far si che esista concentrazione i caratteri devono essere trasferibili (le misure fisiche non sono trasferibili)
Studio della disuguaglianza dei redditi
Studiare come si distribuisce una quantità T tra N unità
Persone benestanti oppure un solo ricco
Stabilire se c’è equidistribuzione cioè (concentrazione nulla) stessa quantità a tutti oppurae concentrazione massima, tutto nelle mani di una persona
È un aspetto della variabilità e i suoi elementi più importanti sono :
Il reddito o la quantitàDa analizzare
(qi)
I soggetti Detentori
(pi)
N sono le unità statistiche
Rapporto di concentrazione
Determinare la concentrazione con il metodo di Gini
j Xj Pj=J/n Qj Qi=qj/qn pi-qi
1 1,8 0,1 1,8 0,018 0,082
2 2 0,2 3,8 0,038 0,162
3 2,2 0,3 6 0,060 0,24
4 2,4 0,4 8,4 0,084 0,316
5 3,9 0,5 12,3 0,123 0,377
6 6,5 0,6 18,8 0,188 0,412
7 8,4 0,7 27,2 0,272 0,428
8 10,9 0,8 38,1 0,381 0,419
9 28,3 0,9 66,4 0,664 0,236
10 33,6 / 100 1,000 /
N=10 100 4,5 2,672
=2,672/4,5 = 0,5938
Rapporto di concentrazione di Gini
Rapporto di Concentrazione:Area di Concentrazione: area della superficie compresa tra la spezzata di concentrazione e il segmento di equidistribuzione.Area Massima di Concentrazione: area del triangolo definito da bisettrice, ascissa massima, ordinata massima
Indice di Gini e metodo dei trapezi sono legati dal seguente rapporto
La moda è la modalità che si presenta con la massima frequenza.
Settore di attività Percentuale
Agricoltura 10%
Ristorazione 30%
Servizi 20%
Industria 35%
Sport 5%
La frequenza più alta è 35% quindi la moda è Industria
Nel caso in cui tutti le frequenze siano uguali, la moda non esiste.
Settore di attività Percentuale
Agricoltura 10%
Ristorazione 10%
Servizi 10%
Industria 10%
Sport 10%
Le frequenze sono tutte uguali quindi non vi è moda
Quando troviamo le classi, nel caso in cui sono tutte uguali, la moda è la modalità con la frequenza più alta, ma quando troviamo per esempio due o più modalità con la stessa frequenza per capire qual è la moda dobbiamo calcolare la densità di frequenza.
N° di ore fuori del centro
Percentuale Ampiezza della classe
Densità % di frequenza
0|-3 40% 3 13,3%
3|-8 20% 5 4%
8|-10 40% 2 20%
La classe modale è la 8|-10
La mediana è l’osservazione che occupa la posizione centrale in un insieme di dati. In altre parole il valore mediano lascia metà delle osservazioni al di sopra e metà al di sotto di se stesso.
Nel caso in cui il numero di Osservazioni n sia dispari èL’osservazione di posizione
Nel caso in cui il numero di Osservazioni n sia pari èL’osservazione di posizione
UNICITA’: In un dato insieme vi è una sola mediana
SEMPLICITA’: La mediana è facile da calcolare
ROBUSTA: Non è drasticamente influenzata dai valori estremi come la media
E’ applicabile anche per variabili ordinali
Rende minima la somma degli scarti
Per calcolare la mediana è fondamentale per prima cosa ordinare i dati.
Dati:1,3,2,0,4
0,1,2,3,4Dati ordinati
I dati sono 5 e Quindi n=5 (dispari)
Conto i dati
Calcolo la mediana
(n+1)/2=(5+1)/2=3
Vado nella posizione 3 e trovo il valore 2, quindi la mediana è 2
Per prima cosa bisogna vedere se n è pari o dispari, dopodichè si applica la formula.
Xi Fi Freq. Cumulate
3 4 4
5 1 5
7 5 10
11 7 17
13 3 20
TOT: 20 /
N=20 (pari)n/2=20/2=10(n/2)+1= 11Calcolo le frequenze cumulateLa mediana è la modalità alla quale corrisponde la prima frequenza che supera o eguaglia il valore del posto.Quindi il 10 rientra nella modalità 7 e l’11 nella modalità 11.Mediana= (11+7)/2= 9
Per prima cosa mi calcolo le frequenze cumulate. Vedo se n è pari o dispari, e grazie a questo mi calcolo la classe mediana poi con la seguente formula mi calcolo la mediana esatta.
Ampiezza classe
Freq.cum.precedenteLimite inferioreclasse
Xi Fi Fc
80-86 2 2
86-92 10 12
92-98 20 32
98-104 4 36
104-110 3 39
Totale (N) 39
N=39 (dispari)P=39/2=19,5 (classe mediana 92-98)Applico la formula:
I QUARTILI:Sono quei valori che per esempio per Q1 lasciano alla propria sinistra ¼ e alla propria destra ¾
ESERCIZIO:Calcolare il primo ed il terzi quartile dei seguenti dati:5,11,20,21,23,26,29,34,37,41
N=10 (pari)Q1= N/4= 10/4=2,5=3P=3 quindi il primo quartile è 20Q3= (N/4)*3= 7,5 = 8P=8 quindi il terzo quartile è 34
Con i quartili quando si ottengonoValori con la virgola si arrotondanoSempre per eccesso.
Con i quartili quando si ottengonoValori con la virgola si arrotondanoSempre per eccesso.
Xi Fi Fc
37 15 15
40 8 23
52 11 34
Totale 34 /
N=34 (pari)P1= N/4= 34/4=8,5=9P3= (N/4)*3= 25,5 = 26E’ quartile la modalità a cui corrisponde la prima frequenza cumulata che supera o eguaglia il valore del postoQuindi Q1=37 e Q3=52
Xi Fi Fc
0-30 47 47
30-50 25 72
50-100 51 123
Totale 123 /
N=123 (dispari)P1= N/4= 123/4=30,75=31P3= (N/4)*3= 92,25=93Applico la formula :