Estimarea parametrilor statisticisorana.academicdirect.ro/pages/doc/TD2014/Curs08.pdf1. Un volum de...

28
Sorana D. BOLBOACĂ Curs 1 16 Aprilie 2014 1 Estimarea parametrilor statistici

Transcript of Estimarea parametrilor statisticisorana.academicdirect.ro/pages/doc/TD2014/Curs08.pdf1. Un volum de...

Page 1: Estimarea parametrilor statisticisorana.academicdirect.ro/pages/doc/TD2014/Curs08.pdf1. Un volum de eşantion mai mare va determina o eroare standard mai mică. 2. Marja de eroare

Sorana D. BOLBOACĂ Curs 1

16 Aprilie 20

14

1

Estimarea parametrilor statistici 

Page 2: Estimarea parametrilor statisticisorana.academicdirect.ro/pages/doc/TD2014/Curs08.pdf1. Un volum de eşantion mai mare va determina o eroare standard mai mică. 2. Marja de eroare

Sorana D. BOLBOACĂ Curs 1

16 Aprilie 20

14

2Cuprins

» Estimatorul punctual

» Intervalul de încredere�Medie

� Proporție

Page 3: Estimarea parametrilor statisticisorana.academicdirect.ro/pages/doc/TD2014/Curs08.pdf1. Un volum de eşantion mai mare va determina o eroare standard mai mică. 2. Marja de eroare

Sorana D. BOLBOACĂ Curs 1

16 Aprilie 20

14

3

Populația

EșantionEșantionEșantion

Eșantion

Eșantion

Eșantion

Eșantion

Statistica eșantionului

Statistica eșantionului

Statistica eșantionului

Statistica eșantionului

Statistica eșantionului

Statistica eșantionului

Statistica eșantionului

Statistica eșantionului

Statistica eșantionului

Statistica eșantionului

Statistica eșantionului

Distribuțiaeșantionului

Distribuțiade eșantionare

Page 4: Estimarea parametrilor statisticisorana.academicdirect.ro/pages/doc/TD2014/Curs08.pdf1. Un volum de eşantion mai mare va determina o eroare standard mai mică. 2. Marja de eroare

Sorana D. BOLBOACĂ Curs 1

16 Aprilie 20

14

4

Copii de 1 an din Ro

AB: xAB,1, xAB,2, ... xAB,1000

...

...

GJ: xGJ,1, xGJ,2, ... xGJ,1000

VN: xVN,1, xVN,2, ... xVN,1000

...

...

N = volumul populației

ABx

GJx

VNx

Nx...x...x VNGJAB ++++

N

)xx(N

1i

2i∑

=

−=σ

Distribuțiade eșantionare

μ≈)x(media

σ<↑⇒↓ sn

Page 5: Estimarea parametrilor statisticisorana.academicdirect.ro/pages/doc/TD2014/Curs08.pdf1. Un volum de eşantion mai mare va determina o eroare standard mai mică. 2. Marja de eroare

Sorana D. BOLBOACĂ Curs 1

16 Aprilie 20

14

5

n=30

200 eşantioane

Page 6: Estimarea parametrilor statisticisorana.academicdirect.ro/pages/doc/TD2014/Curs08.pdf1. Un volum de eşantion mai mare va determina o eroare standard mai mică. 2. Marja de eroare

Sorana D. BOLBOACĂ Curs 1

16 Aprilie 20

14

6Teorema limită centrală

» Distribuția statisticii eşantionului este aproape normală, cu media aproape egală cu cea a populației şi cu deviația standard egală cu eroarea standard (deviația standard a populației împărțită la radical din volumul eşantionului).

» Condiții:» Independența: eşantioanele trebuie să fie independente 

(eşantion randomizat / asignare randomizată). – în caz de eşantionare fără înlocuire, n < 10%×N.

» Volumul eşantionului/asimetrie: populația e normal distribuită / dacă e distribuția e asimetrică volumul eşantionului e mare (n > 30)

forma centralitatea dispersia

⎟⎠

⎞⎜⎝

⎛ σ=μ=

nSE,meanN~x

Page 7: Estimarea parametrilor statisticisorana.academicdirect.ro/pages/doc/TD2014/Curs08.pdf1. Un volum de eşantion mai mare va determina o eroare standard mai mică. 2. Marja de eroare

Sorana D. BOLBOACĂ Curs 1

16 Aprilie 20

14

7

7

»Distribuția normală: De ce o folosim?�Multe variabile biologice urmează o distribuție normală�Distribuția normală este bine înțeleasă din punct de vedere matematic

»Estimarea punctuală�O valoare a parametrului teoretic estimat

+ m  (media  eşantionului)  este  un  estimator  punctual  al mediei populației (μ)

�Este influențată de fluctuațiile de eşantionare�Poate  să  fie  foarte  departe  de  valoarea  reală  a parametrului estimat

Page 8: Estimarea parametrilor statisticisorana.academicdirect.ro/pages/doc/TD2014/Curs08.pdf1. Un volum de eşantion mai mare va determina o eroare standard mai mică. 2. Marja de eroare

Sorana D. BOLBOACĂ Curs 1

16 Aprilie 20

14

8

8

Intervalul de încredere ‐ De ce?

» Se  recomandă  ca  estimarea  unui  parametru  teoretic  să  se realizeze  prin  intermediul  unui  interval  nu  a  unei  singure valori�Acest interval se numeşte interval de confidență/încredere�Parametrul estimat aparține cu o probabilitate mare  intervalului de confidență

» Intervalul de  confidență/încredere = un  interval plauzibil de valori asociat unui parametru al populației�Dacă raportăm un estimator punctual, cel mai probabil acesta nu va fi egal cu parametrul populației

�Dacă  raportăm  un  interval  avem  o  şansă  ca  acest  interval  să cuprindă valoarea parametrului populației

Page 9: Estimarea parametrilor statisticisorana.academicdirect.ro/pages/doc/TD2014/Curs08.pdf1. Un volum de eşantion mai mare va determina o eroare standard mai mică. 2. Marja de eroare

Sorana D. BOLBOACĂ Curs 1

16 Aprilie 20

14

9Intervalul de încredere

Teorema limită centrală

⎟⎠

⎞⎜⎝

⎛ σ=μ=

nSE,meanN~x

~IC95% (medie): SE1,96x ×±

Marja de eroare (ME)

Page 10: Estimarea parametrilor statisticisorana.academicdirect.ro/pages/doc/TD2014/Curs08.pdf1. Un volum de eşantion mai mare va determina o eroare standard mai mică. 2. Marja de eroare

Sorana D. BOLBOACĂ Curs 1

16 Aprilie 20

14

10

10

Definiție

» Un  şir de  valori  al  unui  estimator  de  interes  calculat  astfel încât  pentru  o  probabilitate  de  eroare  aleasă  să  includă valorile adevărate ale variabilei.

» P[valoarea critică  inferioară < estimatorul < valoarea critică superioară] = 1‐α�unde α = nivelul de semnificaţie

» Intervalul  definit  de  valorile  critice  va  cuprinde  estimatorul populației cu o probabilitate de  1‐α

» Se aplică în cazul variabilelor distribuite normal!

10

Page 11: Estimarea parametrilor statisticisorana.academicdirect.ro/pages/doc/TD2014/Curs08.pdf1. Un volum de eşantion mai mare va determina o eroare standard mai mică. 2. Marja de eroare

Sorana D. BOLBOACĂ Curs 1

16 Aprilie 20

14

11

» Unul din primele exemple de asimetrie comportamentală a omului este preferința de a întoarce capul spre dreapta nu spre stânga. Un studiu realizat pe un eşantion de 124 cupluri a pus în evidență că 64,5% din acestea întorc capul spre dreapta când se sărută. Eroarea standard asociată acestui estimator este egală cu aproximativ 4%. Care din următoarele sunt false?

1. Un volum de eşantion mai mare va determina o eroare standard mai mică.

2. Marja de eroare pentru un IC de 95% asociată procentului de cupluri care întorc capul la dreapta când se sărută e aproximativ 8%.

3. IC95% pentru procentul de cupluri care întorc capul spre dreapta când se sărută este 64,5%±4%

4. IC99,7% pentru procentul de cupluri care întorc capul spre dreapta când se sărută este 64,5%±12%

Page 12: Estimarea parametrilor statisticisorana.academicdirect.ro/pages/doc/TD2014/Curs08.pdf1. Un volum de eşantion mai mare va determina o eroare standard mai mică. 2. Marja de eroare

Sorana D. BOLBOACĂ Curs 1

16 Aprilie 20

14

12

12

Intervalul de încredere pentru medie

» Eroarea  standard  a mediei  este  egală  cu  deviația standard  împărțită  la  radicalul  volumului eşantionului�Dacă  deviația  standard  este  mare,  şansa  de  eroare  în estimator este mare

�Dacă  volumul  eşantionului  este  mare,  şansa  erorii  în estimator este mică.

⎥⎦

⎤⎢⎣

⎡ +− αα nsZx,

nsZx

Page 13: Estimarea parametrilor statisticisorana.academicdirect.ro/pages/doc/TD2014/Curs08.pdf1. Un volum de eşantion mai mare va determina o eroare standard mai mică. 2. Marja de eroare

Sorana D. BOLBOACĂ Curs 1

16 Aprilie 20

14

13

13

Intervalul de încredere pentru medie

Condiții:» Independența: �Eşantioanele observate trebuie să fie independente�Eşantion  randomizat  (fără  înlocuire  n<10%×N)  sau asignare randomizată

»Asimetria distribuției: n ≥ 30, sau mai mare pentru distribuții asimetrice

nsZx α±

Valoare critică

Z = valoare constantă pentru un prag de semnificație dat

Page 14: Estimarea parametrilor statisticisorana.academicdirect.ro/pages/doc/TD2014/Curs08.pdf1. Un volum de eşantion mai mare va determina o eroare standard mai mică. 2. Marja de eroare

Sorana D. BOLBOACĂ Curs 1

16 Aprilie 20

14

14Acuratețe vs precizie

» Luăm mai multe eşantioane şi construim intervalele de confidență de 95%

» ~ 95% din acesteintervale vor conține media adevărată a populației (μ)

» Intervale de confidență frecvent utilizate: 95%, 98% şi 99%.

48/50 = 0,96

Page 15: Estimarea parametrilor statisticisorana.academicdirect.ro/pages/doc/TD2014/Curs08.pdf1. Un volum de eşantion mai mare va determina o eroare standard mai mică. 2. Marja de eroare

Sorana D. BOLBOACĂ Curs 1

16 Aprilie 20

14

15Acuratețe vs precizie

» Dacă dorim să fim siguri că media populației este cuprinsă în IC acesta trebuie să fie larg sau îngust?

Page 16: Estimarea parametrilor statisticisorana.academicdirect.ro/pages/doc/TD2014/Curs08.pdf1. Un volum de eşantion mai mare va determina o eroare standard mai mică. 2. Marja de eroare

Sorana D. BOLBOACĂ Curs 1

16 Aprilie 20

14

16Acuratețe vs precizie

» Dacă dorim să fim siguri că media populației este cuprinsă în IC acesta trebuie să fie larg sau îngust?� 99% ( ): lărgimea ( ) + acuratețe ( ) + precizie ( ) 

» Cum putem avea precizie mare şi acuratețe mare?� n

2

MEsZ

nnsZME ⎟

⎠⎞

⎜⎝⎛ ×

=→= αα

Page 17: Estimarea parametrilor statisticisorana.academicdirect.ro/pages/doc/TD2014/Curs08.pdf1. Un volum de eşantion mai mare va determina o eroare standard mai mică. 2. Marja de eroare

Sorana D. BOLBOACĂ Curs 1

16 Aprilie 20

14

17

» Se doreşte testarea efectului unui medicament folosit în tratamentul epilepsiei la mamă asupra dezvoltării cognitive a copilului. Dezvoltarea cognitivă se testează prin estimarea indicelui de inteligență a copilului de 3 ani născut de femei care au urmat în timpul sarcinii tratament cu medicamentul de interes.

» Studii anterioare au arătat că deviația standard a indicelui de intelingență a copilului de 3 ani este egală cu 18 puncte.

» Care este numărul de copii în vârstă de 3 ani care trebuie incluşi în studiu pentru a obține un interval de confidență de 90% cu o margine a erorii mai mică sau egală cu 4 puncte? 

ME ≤ 4 IC = 90%Z = 1,65Σ = 18

56n13,55n41865,1

MEZn

nZME

22

=→=

⎟⎠⎞

⎜⎝⎛ ×

=⎟⎠⎞

⎜⎝⎛ σ×

=

σ=

α

α

Page 18: Estimarea parametrilor statisticisorana.academicdirect.ro/pages/doc/TD2014/Curs08.pdf1. Un volum de eşantion mai mare va determina o eroare standard mai mică. 2. Marja de eroare

Sorana D. BOLBOACĂ Curs 1

16 Aprilie 20

14

18

» Se doreşte testarea efectului unui medicament folosit în tratamentul epilepsiei la mamă asupra dezvoltării cognitive a copilului. Dezvoltarea cognitivă se testează prin estimarea indicelui de inteligență a copilului de 3 ani născut de femei care au urmat în timpul sarcinii tratament cu medicamentul de interes.

» Studii anterioare au arătat că deviația standard a indicelui de intelingență a copilului de 3 ani este egală cu 18 puncte.

» Care este numărul de copii în vârstă de 3 ani care trebuie incluşi în studiu pentru a obține un interval de confidență de 90% cu o margine a erorii mai mică sau egală cu 4 puncte? 

ME ≤ 4 IC = 90%Z = 1,65σ = 18n=56

ME ≤ 2IC = 90%Z = 1,65σ = 18n=4×56=224

ME ≤ 4 IC = 95%Z = 1,96σ = 18n=77,79=78

ME ≤ 6IC = 90%Z = 1,65σ = 18n=24,50

ME ≤ 2IC = 95%n=311,17=312

ME ≤ 5IC = 95%n=49,79=50

Page 19: Estimarea parametrilor statisticisorana.academicdirect.ro/pages/doc/TD2014/Curs08.pdf1. Un volum de eşantion mai mare va determina o eroare standard mai mică. 2. Marja de eroare

Sorana D. BOLBOACĂ Curs 1

16 Aprilie 20

14

19Exemplu

» Un eşantion de 49 studenți au fost întrebați în câte relații exclusive au fost implicați până la data studiului. Studenții din eşantion au avut în medie 3 relații exclusive, cu o deviație standard de 1,2. estimați media adevărată a numărului de relații exclusive bazată pe rezultatele acestui eşantion utilizând intervalul de confidență de 95%. Distribuția de eşantionare a fost aproximativ normală.

» Pasul 1: verificarea condițiilor. � Numărul de relații exclusive ale unui student este independent de al

altui student. n = 49 < 10%×N (numărul de studenți din universitate)

� n>30 → distribuția de eşantionare a numărului de relații exclusive dintr‐un eşantion de volum egal cu 49 este aproximativ normală.

Page 20: Estimarea parametrilor statisticisorana.academicdirect.ro/pages/doc/TD2014/Curs08.pdf1. Un volum de eşantion mai mare va determina o eroare standard mai mică. 2. Marja de eroare

Sorana D. BOLBOACĂ Curs 1

16 Aprilie 20

14

20Exemplu

» Un eşantion de 49 studenți au fost întrebați în câte relații exclusive au fost implicați până la data studiului. Studenții din eşantion au avut în medie 3 relații exclusive, cu o deviație standard de 1,2. estimați media adevărată a numărului de relații exclusive bazată pe rezultatele acestui eşantion utilizând intervalul de confidență de 95%. Distribuția de eşantionare a fost aproximativ normală.

» Pasul 2: calculăm IC95% 

2.1s3x

49n

==

=

Suntem 95% siguri că studenții au fost implicați în medie în 3,66 ‐ 5,66 relații exclusive.

]66.5;66,2[%95IC1714.0*96,13ME

1714.0602.1SE

±=

≈=

Page 21: Estimarea parametrilor statisticisorana.academicdirect.ro/pages/doc/TD2014/Curs08.pdf1. Un volum de eşantion mai mare va determina o eroare standard mai mică. 2. Marja de eroare

Sorana D. BOLBOACĂ Curs 1

16 Aprilie 20

14

21

21

Intervale de încredere pentru diferența între doi estimatori: Interpretare» Dacă 0 este conținut în intervalul de încredere, diferența dintre cele două estimări (medii, proporții, rații, etc.) este zero

» Dacă zero nu este conținut în intervalul de încredere, diferența dintre cei 2 estimatori punctuali nu este egală cu zero.

21

• http://www.biomedcentral.com/1746-6148/8/68

• BMC Veterinary Research 2012, 8:68 doi:10.1186/1746-6148-8-68

Page 22: Estimarea parametrilor statisticisorana.academicdirect.ro/pages/doc/TD2014/Curs08.pdf1. Un volum de eşantion mai mare va determina o eroare standard mai mică. 2. Marja de eroare

Sorana D. BOLBOACĂ Curs 1

16 Aprilie 20

14

22

22

Intervale de încredere: Interpretare

»Când  aceeaşi  procedură  se  repetă  pe  mai  multe eşantioane,  intervalul de  încredere (care va fi diferit pentru  fiecare  eşantion)  va  cuprinde  in  95%  din cazuri valoarea reală a estimatorului punctual. 

22

Page 23: Estimarea parametrilor statisticisorana.academicdirect.ro/pages/doc/TD2014/Curs08.pdf1. Un volum de eşantion mai mare va determina o eroare standard mai mică. 2. Marja de eroare

Sorana D. BOLBOACĂ Curs 1

16 Aprilie 20

14

23

23

Intervalul de încredere

»Se calculează în funcție de:�Talia eşantionului sau a populației�Tipul de variabilă (calitativă SAU cantitativă)

»Formula de calcul cuprinde 2 părți�Un  estimator  al  calității  eşantionului  pe  baza  căruia estimatorul populației s‐a calculat (eroarea standard)+ Eroarea standard: – Cu cât n este mai mare cu atât eroarea standard este mai mică.– Este întotdeauna mai mică decât deviația standard

�Gradul  de  încredere  (confidență)  al  intervalului  specificat (scorul Zα)

»Se poate calcula pentru orice estimator 23

Page 24: Estimarea parametrilor statisticisorana.academicdirect.ro/pages/doc/TD2014/Curs08.pdf1. Un volum de eşantion mai mare va determina o eroare standard mai mică. 2. Marja de eroare

Sorana D. BOLBOACĂ Curs 1

16 Aprilie 20

14

24

Intervalul de încredere pentru medie

» Media glicemiei la un eşantion de 121 pacienți este de 105 iar variația de 36. Care este intervalul de încredere al mediei glicemiei în populația din care s‐a extras eşantionul cu un prag de semnificație α=0,05, considerând că glicemia este normal distribuită şi pentru acest prag Z = 1,96.

» n = 121

» s2 = 36

» s = 6

» [105‐1.07, 105+1.07]

» [103.93 – 106.07]

» [104‐106]

105X =

⎥⎦

⎤⎢⎣

⎡ +−121696,1105;

121696,1105

Page 25: Estimarea parametrilor statisticisorana.academicdirect.ro/pages/doc/TD2014/Curs08.pdf1. Un volum de eşantion mai mare va determina o eroare standard mai mică. 2. Marja de eroare

Sorana D. BOLBOACĂ Curs 1

16 Aprilie 20

14

25

25Compararea mediilor cu ajutorul intervalului de încredere

25

Page 26: Estimarea parametrilor statisticisorana.academicdirect.ro/pages/doc/TD2014/Curs08.pdf1. Un volum de eşantion mai mare va determina o eroare standard mai mică. 2. Marja de eroare

Sorana D. BOLBOACĂ Curs 1

16 Aprilie 20

14

26

26

Intervalul de încredere pentru frecvențe

»Se calculează dacă:�n*f > 10, unde n = talia eşantionului, f = frecvența

( ) ( )⎥⎦

⎤⎢⎣

⎡ −+

−− αα n

f1fZf;nf1fZf

26

Page 27: Estimarea parametrilor statisticisorana.academicdirect.ro/pages/doc/TD2014/Curs08.pdf1. Un volum de eşantion mai mare va determina o eroare standard mai mică. 2. Marja de eroare

Sorana D. BOLBOACĂ Curs 1

16 Aprilie 20

14

27

Intervalul de încredere pentru frecvențe

» Suntem interesați în estimarea frecvenței cancerului de sân la femeile între 50 şi 54 de ani care au antecedente familiale pozitive. Într‐un studiu randomizat la care au participat 10000 de femei, s‐a constatat că 400 dintre acestea au fost diagnosticate cu cancer de sân. 

» Care este intervalul de încredere de 95% asociat frecvenței observate? 

» f = 400/10000 = 0.04

» [0,04‐0,004; 0,04+0,004]» [0,036; 0,044]

⎥⎦

⎤⎢⎣

⎡ ⋅+

⋅−

1000096,004,096,104,0;

1000096,004,096,104,0

( ) ( )⎥⎦

⎤⎢⎣

⎡ −+

−− αα n

f1fZf;nf1fZf

Page 28: Estimarea parametrilor statisticisorana.academicdirect.ro/pages/doc/TD2014/Curs08.pdf1. Un volum de eşantion mai mare va determina o eroare standard mai mică. 2. Marja de eroare

Sorana D. BOLBOACĂ Curs 1

16 Aprilie 20

14

28De reținut!

» Estimarea corectă a unui parametru statistic se face cu ajutorul intervalului de încredere.

» Intervalul  de  încredere  depinde  de  volumul eşantionului şi de eroarea standard.

» Cu  cât  eroarea  standard  este  mai  mare  cu  atât intervalul de încredere este mai larg.

» Cu  cât  volumul  eşantionului  este  mai  mic  cu  atât intervalul de încredere este mai larg.