Estimarea parametrilor statisticisorana.academicdirect.ro/pages/doc/TD2014/Curs08.pdf1. Un volum de...
Transcript of Estimarea parametrilor statisticisorana.academicdirect.ro/pages/doc/TD2014/Curs08.pdf1. Un volum de...
Sorana D. BOLBOACĂ Curs 1
16 Aprilie 20
14
1
Estimarea parametrilor statistici
Sorana D. BOLBOACĂ Curs 1
16 Aprilie 20
14
2Cuprins
» Estimatorul punctual
» Intervalul de încredere�Medie
� Proporție
Sorana D. BOLBOACĂ Curs 1
16 Aprilie 20
14
3
≠
Populația
EșantionEșantionEșantion
Eșantion
Eșantion
Eșantion
Eșantion
Statistica eșantionului
Statistica eșantionului
Statistica eșantionului
Statistica eșantionului
Statistica eșantionului
Statistica eșantionului
Statistica eșantionului
Statistica eșantionului
Statistica eșantionului
Statistica eșantionului
Statistica eșantionului
Distribuțiaeșantionului
Distribuțiade eșantionare
Sorana D. BOLBOACĂ Curs 1
16 Aprilie 20
14
4
Copii de 1 an din Ro
AB: xAB,1, xAB,2, ... xAB,1000
...
...
GJ: xGJ,1, xGJ,2, ... xGJ,1000
VN: xVN,1, xVN,2, ... xVN,1000
...
...
N = volumul populației
ABx
GJx
VNx
Nx...x...x VNGJAB ++++
=μ
N
)xx(N
1i
2i∑
=
−=σ
Distribuțiade eșantionare
μ≈)x(media
σ<↑⇒↓ sn
Sorana D. BOLBOACĂ Curs 1
16 Aprilie 20
14
5
n=30
200 eşantioane
Sorana D. BOLBOACĂ Curs 1
16 Aprilie 20
14
6Teorema limită centrală
» Distribuția statisticii eşantionului este aproape normală, cu media aproape egală cu cea a populației şi cu deviația standard egală cu eroarea standard (deviația standard a populației împărțită la radical din volumul eşantionului).
» Condiții:» Independența: eşantioanele trebuie să fie independente
(eşantion randomizat / asignare randomizată). – în caz de eşantionare fără înlocuire, n < 10%×N.
» Volumul eşantionului/asimetrie: populația e normal distribuită / dacă e distribuția e asimetrică volumul eşantionului e mare (n > 30)
forma centralitatea dispersia
⎟⎠
⎞⎜⎝
⎛ σ=μ=
nSE,meanN~x
Sorana D. BOLBOACĂ Curs 1
16 Aprilie 20
14
7
7
»Distribuția normală: De ce o folosim?�Multe variabile biologice urmează o distribuție normală�Distribuția normală este bine înțeleasă din punct de vedere matematic
»Estimarea punctuală�O valoare a parametrului teoretic estimat
+ m (media eşantionului) este un estimator punctual al mediei populației (μ)
�Este influențată de fluctuațiile de eşantionare�Poate să fie foarte departe de valoarea reală a parametrului estimat
Sorana D. BOLBOACĂ Curs 1
16 Aprilie 20
14
8
8
Intervalul de încredere ‐ De ce?
» Se recomandă ca estimarea unui parametru teoretic să se realizeze prin intermediul unui interval nu a unei singure valori�Acest interval se numeşte interval de confidență/încredere�Parametrul estimat aparține cu o probabilitate mare intervalului de confidență
» Intervalul de confidență/încredere = un interval plauzibil de valori asociat unui parametru al populației�Dacă raportăm un estimator punctual, cel mai probabil acesta nu va fi egal cu parametrul populației
�Dacă raportăm un interval avem o şansă ca acest interval să cuprindă valoarea parametrului populației
Sorana D. BOLBOACĂ Curs 1
16 Aprilie 20
14
9Intervalul de încredere
Teorema limită centrală
⎟⎠
⎞⎜⎝
⎛ σ=μ=
nSE,meanN~x
~IC95% (medie): SE1,96x ×±
Marja de eroare (ME)
Sorana D. BOLBOACĂ Curs 1
16 Aprilie 20
14
10
10
Definiție
» Un şir de valori al unui estimator de interes calculat astfel încât pentru o probabilitate de eroare aleasă să includă valorile adevărate ale variabilei.
» P[valoarea critică inferioară < estimatorul < valoarea critică superioară] = 1‐α�unde α = nivelul de semnificaţie
» Intervalul definit de valorile critice va cuprinde estimatorul populației cu o probabilitate de 1‐α
» Se aplică în cazul variabilelor distribuite normal!
10
Sorana D. BOLBOACĂ Curs 1
16 Aprilie 20
14
11
» Unul din primele exemple de asimetrie comportamentală a omului este preferința de a întoarce capul spre dreapta nu spre stânga. Un studiu realizat pe un eşantion de 124 cupluri a pus în evidență că 64,5% din acestea întorc capul spre dreapta când se sărută. Eroarea standard asociată acestui estimator este egală cu aproximativ 4%. Care din următoarele sunt false?
1. Un volum de eşantion mai mare va determina o eroare standard mai mică.
2. Marja de eroare pentru un IC de 95% asociată procentului de cupluri care întorc capul la dreapta când se sărută e aproximativ 8%.
3. IC95% pentru procentul de cupluri care întorc capul spre dreapta când se sărută este 64,5%±4%
4. IC99,7% pentru procentul de cupluri care întorc capul spre dreapta când se sărută este 64,5%±12%
Sorana D. BOLBOACĂ Curs 1
16 Aprilie 20
14
12
12
Intervalul de încredere pentru medie
» Eroarea standard a mediei este egală cu deviația standard împărțită la radicalul volumului eşantionului�Dacă deviația standard este mare, şansa de eroare în estimator este mare
�Dacă volumul eşantionului este mare, şansa erorii în estimator este mică.
⎥⎦
⎤⎢⎣
⎡ +− αα nsZx,
nsZx
Sorana D. BOLBOACĂ Curs 1
16 Aprilie 20
14
13
13
Intervalul de încredere pentru medie
Condiții:» Independența: �Eşantioanele observate trebuie să fie independente�Eşantion randomizat (fără înlocuire n<10%×N) sau asignare randomizată
»Asimetria distribuției: n ≥ 30, sau mai mare pentru distribuții asimetrice
nsZx α±
Valoare critică
Z = valoare constantă pentru un prag de semnificație dat
Sorana D. BOLBOACĂ Curs 1
16 Aprilie 20
14
14Acuratețe vs precizie
» Luăm mai multe eşantioane şi construim intervalele de confidență de 95%
» ~ 95% din acesteintervale vor conține media adevărată a populației (μ)
» Intervale de confidență frecvent utilizate: 95%, 98% şi 99%.
48/50 = 0,96
Sorana D. BOLBOACĂ Curs 1
16 Aprilie 20
14
15Acuratețe vs precizie
» Dacă dorim să fim siguri că media populației este cuprinsă în IC acesta trebuie să fie larg sau îngust?
Sorana D. BOLBOACĂ Curs 1
16 Aprilie 20
14
16Acuratețe vs precizie
» Dacă dorim să fim siguri că media populației este cuprinsă în IC acesta trebuie să fie larg sau îngust?� 99% ( ): lărgimea ( ) + acuratețe ( ) + precizie ( )
» Cum putem avea precizie mare şi acuratețe mare?� n
2
MEsZ
nnsZME ⎟
⎠⎞
⎜⎝⎛ ×
=→= αα
Sorana D. BOLBOACĂ Curs 1
16 Aprilie 20
14
17
» Se doreşte testarea efectului unui medicament folosit în tratamentul epilepsiei la mamă asupra dezvoltării cognitive a copilului. Dezvoltarea cognitivă se testează prin estimarea indicelui de inteligență a copilului de 3 ani născut de femei care au urmat în timpul sarcinii tratament cu medicamentul de interes.
» Studii anterioare au arătat că deviația standard a indicelui de intelingență a copilului de 3 ani este egală cu 18 puncte.
» Care este numărul de copii în vârstă de 3 ani care trebuie incluşi în studiu pentru a obține un interval de confidență de 90% cu o margine a erorii mai mică sau egală cu 4 puncte?
ME ≤ 4 IC = 90%Z = 1,65Σ = 18
56n13,55n41865,1
MEZn
nZME
22
=→=
⎟⎠⎞
⎜⎝⎛ ×
=⎟⎠⎞
⎜⎝⎛ σ×
=
σ=
α
α
Sorana D. BOLBOACĂ Curs 1
16 Aprilie 20
14
18
» Se doreşte testarea efectului unui medicament folosit în tratamentul epilepsiei la mamă asupra dezvoltării cognitive a copilului. Dezvoltarea cognitivă se testează prin estimarea indicelui de inteligență a copilului de 3 ani născut de femei care au urmat în timpul sarcinii tratament cu medicamentul de interes.
» Studii anterioare au arătat că deviația standard a indicelui de intelingență a copilului de 3 ani este egală cu 18 puncte.
» Care este numărul de copii în vârstă de 3 ani care trebuie incluşi în studiu pentru a obține un interval de confidență de 90% cu o margine a erorii mai mică sau egală cu 4 puncte?
ME ≤ 4 IC = 90%Z = 1,65σ = 18n=56
ME ≤ 2IC = 90%Z = 1,65σ = 18n=4×56=224
ME ≤ 4 IC = 95%Z = 1,96σ = 18n=77,79=78
ME ≤ 6IC = 90%Z = 1,65σ = 18n=24,50
ME ≤ 2IC = 95%n=311,17=312
ME ≤ 5IC = 95%n=49,79=50
Sorana D. BOLBOACĂ Curs 1
16 Aprilie 20
14
19Exemplu
» Un eşantion de 49 studenți au fost întrebați în câte relații exclusive au fost implicați până la data studiului. Studenții din eşantion au avut în medie 3 relații exclusive, cu o deviație standard de 1,2. estimați media adevărată a numărului de relații exclusive bazată pe rezultatele acestui eşantion utilizând intervalul de confidență de 95%. Distribuția de eşantionare a fost aproximativ normală.
» Pasul 1: verificarea condițiilor. � Numărul de relații exclusive ale unui student este independent de al
altui student. n = 49 < 10%×N (numărul de studenți din universitate)
� n>30 → distribuția de eşantionare a numărului de relații exclusive dintr‐un eşantion de volum egal cu 49 este aproximativ normală.
Sorana D. BOLBOACĂ Curs 1
16 Aprilie 20
14
20Exemplu
» Un eşantion de 49 studenți au fost întrebați în câte relații exclusive au fost implicați până la data studiului. Studenții din eşantion au avut în medie 3 relații exclusive, cu o deviație standard de 1,2. estimați media adevărată a numărului de relații exclusive bazată pe rezultatele acestui eşantion utilizând intervalul de confidență de 95%. Distribuția de eşantionare a fost aproximativ normală.
» Pasul 2: calculăm IC95%
2.1s3x
49n
==
=
Suntem 95% siguri că studenții au fost implicați în medie în 3,66 ‐ 5,66 relații exclusive.
]66.5;66,2[%95IC1714.0*96,13ME
1714.0602.1SE
±=
≈=
Sorana D. BOLBOACĂ Curs 1
16 Aprilie 20
14
21
21
Intervale de încredere pentru diferența între doi estimatori: Interpretare» Dacă 0 este conținut în intervalul de încredere, diferența dintre cele două estimări (medii, proporții, rații, etc.) este zero
» Dacă zero nu este conținut în intervalul de încredere, diferența dintre cei 2 estimatori punctuali nu este egală cu zero.
21
• http://www.biomedcentral.com/1746-6148/8/68
• BMC Veterinary Research 2012, 8:68 doi:10.1186/1746-6148-8-68
Sorana D. BOLBOACĂ Curs 1
16 Aprilie 20
14
22
22
Intervale de încredere: Interpretare
»Când aceeaşi procedură se repetă pe mai multe eşantioane, intervalul de încredere (care va fi diferit pentru fiecare eşantion) va cuprinde in 95% din cazuri valoarea reală a estimatorului punctual.
22
Sorana D. BOLBOACĂ Curs 1
16 Aprilie 20
14
23
23
Intervalul de încredere
»Se calculează în funcție de:�Talia eşantionului sau a populației�Tipul de variabilă (calitativă SAU cantitativă)
»Formula de calcul cuprinde 2 părți�Un estimator al calității eşantionului pe baza căruia estimatorul populației s‐a calculat (eroarea standard)+ Eroarea standard: – Cu cât n este mai mare cu atât eroarea standard este mai mică.– Este întotdeauna mai mică decât deviația standard
�Gradul de încredere (confidență) al intervalului specificat (scorul Zα)
»Se poate calcula pentru orice estimator 23
Sorana D. BOLBOACĂ Curs 1
16 Aprilie 20
14
24
Intervalul de încredere pentru medie
» Media glicemiei la un eşantion de 121 pacienți este de 105 iar variația de 36. Care este intervalul de încredere al mediei glicemiei în populația din care s‐a extras eşantionul cu un prag de semnificație α=0,05, considerând că glicemia este normal distribuită şi pentru acest prag Z = 1,96.
» n = 121
» s2 = 36
» s = 6
» [105‐1.07, 105+1.07]
» [103.93 – 106.07]
» [104‐106]
105X =
⎥⎦
⎤⎢⎣
⎡ +−121696,1105;
121696,1105
Sorana D. BOLBOACĂ Curs 1
16 Aprilie 20
14
25
25Compararea mediilor cu ajutorul intervalului de încredere
25
Sorana D. BOLBOACĂ Curs 1
16 Aprilie 20
14
26
26
Intervalul de încredere pentru frecvențe
»Se calculează dacă:�n*f > 10, unde n = talia eşantionului, f = frecvența
( ) ( )⎥⎦
⎤⎢⎣
⎡ −+
−− αα n
f1fZf;nf1fZf
26
Sorana D. BOLBOACĂ Curs 1
16 Aprilie 20
14
27
Intervalul de încredere pentru frecvențe
» Suntem interesați în estimarea frecvenței cancerului de sân la femeile între 50 şi 54 de ani care au antecedente familiale pozitive. Într‐un studiu randomizat la care au participat 10000 de femei, s‐a constatat că 400 dintre acestea au fost diagnosticate cu cancer de sân.
» Care este intervalul de încredere de 95% asociat frecvenței observate?
» f = 400/10000 = 0.04
» [0,04‐0,004; 0,04+0,004]» [0,036; 0,044]
⎥⎦
⎤⎢⎣
⎡ ⋅+
⋅−
1000096,004,096,104,0;
1000096,004,096,104,0
( ) ( )⎥⎦
⎤⎢⎣
⎡ −+
−− αα n
f1fZf;nf1fZf
Sorana D. BOLBOACĂ Curs 1
16 Aprilie 20
14
28De reținut!
» Estimarea corectă a unui parametru statistic se face cu ajutorul intervalului de încredere.
» Intervalul de încredere depinde de volumul eşantionului şi de eroarea standard.
» Cu cât eroarea standard este mai mare cu atât intervalul de încredere este mai larg.
» Cu cât volumul eşantionului este mai mic cu atât intervalul de încredere este mai larg.