Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De

22
1 Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De Steekproevenverdeling Pierre Simon Laplace (1749-1827) Moore, McCabe & Craig: 3.3 Toward Statistical Inference From Probability to Inference 5.1 Sampling Distributions for Counts and Proportions 5.2 The Sampling Distribution of a Sample Mean

Transcript of Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De

Page 1: Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De

1

Toetsende Statistiek, Week 2. Van Steekproef naar Populatie:

De Steekproevenverdeling

Pierre Simon Laplace (1749-1827)

Moore, McCabe & Craig: 3.3 Toward Statistical Inference From Probability to Inference 5.1 Sampling Distributions for

Counts and Proportions 5.2 The Sampling Distribution of

a Sample Mean

Page 2: Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De

2

Sampling Distributions (Steekproevenverdelingen)

Iedere beschrijvende waarde (statistiek of statistic) van een aselekte

steekproef of een gerandomiseerd experiment is een schatting van

daarmee samenhangende beschrijvende waarde (parameter) in een

populatie en kan variëren in waarde.

iedere statistiek kan worden opgevat als een

toevalsvariabele en heeft een kansverdeling:

de steekproevenverdeling van die statistiek.

Page 3: Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De

3

Opmerkingen

1. We onderscheiden nu

a) populatieverdeling (parameter, bijv: µ, ρ, p),

b) steekproefverdeling (statistiek, bijv: x , r, p̂ ),

c) steekproevenverdeling van een statistiek (parameter)

d) verdeling van één waarneming.

2. In een SRS is de verdeling van één willekeurige waarneming

gelijk aan de populatieverdeling.

3. De populatie kan denkbeeldig zijn, of een proces (zonder

eind), bijv. de verzameling van alle mogelijke testitems.

Page 4: Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De

4

Herhaalde Trekkingen uit een binaire Populatie

Wereldwijd is het kenmerk “Veilig gehecht” als volgt verdeeld:

Populatie verdeling

1e verdeling in

willekeurige random

steekproef

Herhaalde

steekproef-

verdelingen

Veilig p 0.65

Niet-veilig 1-p 0.35

Na 12 Bernoulli* trials (1 steekproef):

Veilig 6

Niet-veilig 6

Na 7 steekproeven met n=12:

Veilig 6 9 7 9 5 8 10

Niet-veilig 6 3 5 3 7 4 2

*Bernoulli trial: experiment met 2 random uitkomsten met kansen p en 1-p.

Page 5: Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De

6

Steekproef-fluctuaties van de Primaire Statistieken

We kunnen totaalscore (count) bepalen en ook steekproefproporties:

count Veilig gehecht 6 9 7 9 5 8 10

steekproef proportie ˆ p .50 .75 .58 .75 .42 .67 .83

ˆ q =1– ˆ p .50 .25 .42 .25 .58 .33 .17

Maak een stem-and-leaf plot van de steekproevenverdeling van ˆ p :

4 2 5 08 6 7 7 55 8 3

Gemiddelde = 0.64, mediaan = 0.67

Conclusie?

Page 6: Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De

7

Binomial Setting & Binomiale Verdeling B(n, p)

De steekproevenverdeling van een telling (count) volgt de binomiale

verdeling als aan de volgende aannamen is voldaan:

1. Vaste steekproefgrootte n (tevoren vastgesteld)

2. Onafhankelijke observaties

3. Observaties zijn Bernoulli trials: “succes” of “failure”

4. Kans op “succes” is constant: p (kans op “failure”: q = 1 – p)

Kans

Aantal successen

Voorbeeld: een B(10, 0.1).

d.w.z. n=10 en p=0.1

Wat valt op?

Page 7: Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De

9

Kansboom bij drie Bernoulli Trials

Er is sprake van onafhankelijke trekkingen met teruglegging

v(.65) •P(vvv)=( .65)( .65)( .65)=.275 v(.65) • n(.35) •P(vvn)=( .65)( .65)( .35)=.148 •

v(.65) v(.65) •P(vnv)=( .65)( .35)( .65)=.148 n(.35) • n(.35) •P(vnn)=( .65)( .35)( .35)=.080

• v(.65) •P(nvv)=( .35)( .65)( .65)=.148 v(.65) •

n(.35) n(.35) •P(nvn)=( .35)( .65)( .35)=.080 • v(.65) •P(nnv)=( .35)( .35)( .65)=.080 n(.35) • n(.35) •P(nnn)=( .35)( .35)( .35)=.043

Page 8: Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De

10

Formule van de Binomiale kansverdeling

Aan de kansboom zien we twee dingen:

1. Omdat de trekkingen onafhankelijk zijn, kunnen we de kansen langs ieder pad met elkaar vermenigvuldigen;

2. Er zijn meerdere manieren om aan dezelfde somscore te komen, door verwisseling van de volgorde in de patronen (NB. teruglegging)

Dit leidt tot de volgende formule van de binomiale verdeling:

{44 344 21

successen-niet ensuccessen op kans

trialsBernoulli in behalen tesuccessen

ommanieren aantal

)1()(

n-kk

knk

nk

ppk

nkXP −−×

==

Voorbeeld: P(X=2) = P(vvn) + P(vnv) + P(nvv) =

Page 9: Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De

11

P(X=2) = P(vvn) + P(vnv) + P(nvv) =

444.0443625.0)2(

35.04225.03)2(

35.065.0112

123)2(

35.065.0)!23(!2

!3)2(

35.065.02

3)2(

232

232

232

≈==××==

××××××==

××−×

==

××

==

XP

XP

XP

XP

XP

• Of opzoeken van Binomiale Kansen m.b.v. Tabel C in M,M&C • Of exact bepalen met software / rekenmachine

Page 10: Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De

12

Tabel C in M,M&C: een kijkje

p

n k 0.01 0.35 0.50

2 0

1

2

0.9801

0.0198

0.0001

0.4225

0.4550

0.1225

0.2500

0.5000

0.2500

3 0

1

2

3

0.9703

0.0294

0.0003

0.2746

0.4436

0.2389

0.0429

0.1250

0.3750

0.3750

0.1250

5 0

1

2

0.9510

0.0480

0.0010

0.1160

0.3124

0.3364

0.0313

0.1563

0.3125

Page 11: Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De

13

Verwachte Waarde en Standaard Deviatie van de Binomiaal

De verwachte waarde van een Bernoulli trial (1 binaire observatie)

X P X * P

0 1 - p 0 * (1 - p) = 0

1 p 1 * p = p +

µ = p

Omdat µ van een som gelijk is aan som van µ's, krijgen we voor de

binomiale count X een verwachte waarde

µX = p + p + p + … + p = np

De variantie σ2 van één Bernoulli trial is p (1 – p), dus σ2 van X

σ2X = np (1 – p) en σX = np(1− p)

Page 12: Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De

14

Steekproefproporties (Sample Proportions)

Als we tellen hoe vaak een verschijnsel voorkomt in een steekproef,

kunnen we dat altijd uitdrukken als een steekproefproportie

lengtesteekproef

telling

sobservatie # totaal

voorkomtietsdat #ˆ ===

n

Xp

Voor een binaire variabele hebben we de volgende relaties tussen verwachte waarden, varianties en standaardafwijkingen:

verdeling van verwachte waarde

variantie standaard afwijking

populatie (1 observatie) p p(1 – p) p) p ( −1

binomial count X np np(1 – p) )1 p n p ( −

steekproef proportie p̂ p n

pp )1( − n

pp )1( −

Page 13: Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De

15

Benadering van de Steekproevenverdeling van een Proportie

Als np ≥ 10 en n(1 – p) ≥ 10 → de steekproeven-verdeling van p̂ en

van de telling X (count) bij benadering N(µ, σ). Andere vuistregel: binomiaal � normaal (bij n > 30).

Page 14: Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De

16

Hoe goed is de Benadering?

Voor B(100,0.1) (nog) niet erg goed

Aantal successen →

Pas daarom continuïteitscorrectie toe. Je corrigeert voor verschil discreet - continu, door in de normaal benadering "een 1/2 stap"

naar µ te doen. Dus niet PN(X ≤ 9) opzoeken maar PN(X ≤ 9.5).

Page 15: Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De

17

Een Vergelijking tussen verschillende Aanpakken I.

Gegeven: B(100,0.1) Wat is P(X ≤ 9)?

Binomiaal via software: P(X ≤ 9) = 0.45129

a) Normaal benadering:

36944.03

1

3

1099)9(

)3,10(

39.01.0100)1(

101.0100

=

−≤

−≤=

−≤=≤

=××=−××=

=×=×=

ZP

ZPZPXP

N

ppn

pn

σµ

σµ

Page 16: Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De

18

Een Vergelijking tussen verschillende Aanpakken II.

b) Normaal benadering + continuïteitscorrectie:

43382.06

1

3

105.95.9)5.9(

9van plaatsin 9.5nu Gebruik

)3,10(

39.01.0100)1(

101.0100

=

−≤

−≤=

−≤=≤

=××=−××=

=×=×=

ZP

ZPZPXP

N

ppn

pn

σµ

σµ

Page 17: Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De

19

Steekproefgemiddelde als een Kansvariabele

Verdeling reactietijden

RT

550510470430390350310

200

100

0

Mean RT, N=10

550510470430390350310

500

400

300

200

100

0

Individuele reactietijd per pp.

Gemiddelde reactietijd (n=10).

Steekproefgemiddelden zijn:

(1) minder variabel

(2) meer normaal

dan individuele observaties

Page 18: Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De

20

Hoeveel minder variabel is het Steekproefgemiddelde?

We gebruiken dezelfde regels voor toevalsvariabelen (random

variables) als voor een telling of proportie bij een binaire populatie.

Basis-aanname: observaties zijn onafhankelijk en gelijk verdeeld.

Voor continue variabelen krijgen we:

verdeling van verwachte waarde

variantie standaard afwijking

populatie (1 observatie)

µ σ2 σ

som van n observaties

nµ nσ2 σn

steekproef-gemiddelde x

µ n2σ

Page 19: Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De

21

Doet de Vorm van de Populatieverdeling ertoe?

Normaal, µ=16, σ = 5 Uniform µ =16, σ = 9.5 Scheef, µ=8.08, σ = 6.22

n=5, m=16, sd = 2.23

n=5, m =16, sd = 4.25

n=5, m=8.05, sd =2.77

n=20, m=16, sd = 1.12

n=20, m=16, sd = 2.12

n=20, m=8.08, sd =1.39

Page 20: Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De

22

Wanneer is het Gemiddelde normaal verdeeld?

1. Als populatie is N(µ, σ), dan is het steekproef-gemiddelde x van

n onafhankelijke observaties ook normaal verdeeld met

N(µ,σ/√n) (unbiased, zuiver).

2. Als populatie niet normaal verdeeld is, dan is x bij benadering

normaal verdeeld! (Centrale Limiet Stelling, Laplace, 1810).

3. Als bij grote steekproeven de waarnemingen niet uit dezelfde

populatie komen (bijv., lengte mannen, lengte vrouwen), is de

verdeling van het gemiddelde toch bij benadering normaal.

4. Bij nog grotere steekproeven zijn zelfs gemiddelden van

afhankelijke observaties bij benadering normaal verdeeld.

Page 21: Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De

23

Samenvattend: Een belangrijk Proces.

Accuraatheid neemt toe met de steekproefgrootte,

maar met afnemende meeropbrengst.

Page 22: Toetsende Statistiek, Week 2. Van Steekproef naar Populatie: De

24

Besluit

• BINOMIAAL: Belangrijke steekproevenverdeling.

Er zijn vier manieren om de binomiale verdeling te gebruiken:

met formule, door opzoeken in tabel, door uitrekenen en door

benaderen met de normaal verdeling

• HOOFDRESULTAAT STATISTIEK: Gemiddelde is ‘altijd’ normaal

verdeeld bij grote steekproeven dankzij Centrale Limiet Stelling.

Stof Volgende Week:

Moore McCabe & Craig, chapter 6 Introduction to Inference

6.1 Estimating with Confidence 6.2 Tests of Significance

6.3 Use and Abuse of Tests