La variabile casuale Binomiale - UniBG · Mentre per la varianza Var(X) = np(1 − p) 4. Statistica...

21
Statistica Lez. 10 La variabile casuale Binomiale Si costruisce a partire dalla nozione di esperimento casuale Bernoulliano che consiste in un insieme di prove ripetute con le seguenti caratteristiche: i) ad ogni singola prova si hanno solo 2 esiti pos- sibili, chiamati “successo” ed “insuccesso” ii) la probabilit` a dell’evento che da origine al “suc- cesso” ` e costante iii) i risultati delle prove sono indipendenti La v.c. che descrive ogni singola prova, ` e la v.c. di Bernoulli X = 1 P (X = 1) = p 0 P (X = 0) = 1 - p 0 <p< 1 Si scrive anche X Ber(p) Abbiamo che E(X )= p e Var(X )= p(1 - p) 1

Transcript of La variabile casuale Binomiale - UniBG · Mentre per la varianza Var(X) = np(1 − p) 4. Statistica...

Statistica Lez. 10

La variabile casuale Binomiale

Si costruisce a partire dalla nozione di esperimento

casuale Bernoulliano che consiste in un insieme di

prove ripetute con le seguenti caratteristiche:

i) ad ogni singola prova si hanno solo 2 esiti pos-

sibili, chiamati “successo” ed “insuccesso”

ii) la probabilita dell’evento che da origine al “suc-

cesso” e costante

iii) i risultati delle prove sono indipendenti

La v.c. che descrive ogni singola prova, e la v.c. di

Bernoulli

X =

1 P (X = 1) = p

0 P (X = 0) = 1− p0 < p < 1

Si scrive anche X ∼ Ber(p)

Abbiamo che

E(X) = p e Var(X) = p(1− p)

1

Statistica Lez. 10

In genere si e interessati a sapere quante volte si

ottiene un successo su n prove, cioe si e interessati

a conoscere la probabilita con cui si ottengono un

certo numero k di successi su n

Ad esempio con quale probabilita possiamo otte-

nere 2 successi (T ) nel lancio di una moneta 6

volte?

Sia Xi la variabile di Bernoulli che vale 1, con pro-

babilita p, se alla prova numero i otteniamo un

successo (p = 12)

La due sequenze di lanci

1 10000 100100

hanno la stessa probabilita di verificarsi

P (110000) = P (X1=1, X2=1, X3=0,

X4=0, X5=0, X6=0)

= P (X1 = 1) · P (X2 = 1) · P (X3 = 0)

· P (X4 = 0) · P (X5 = 0) · P (X6 = 0)

= pp(1− p)(1− p)(1− p)(1− p)

= p2(1− p)4

2

Statistica Lez. 10

Per la seconda

P (100100) = P (X1=1, X2=0, X3=0,

X4=1, X5=0, X6=0)

= P (X1 = 1) · P (X2 = 0) · P (X3 = 0)

· P (X4 = 1) · P (X5 = 0) · P (X6 = 0)

= p(1− p)(1− p)p(1− p)(1− p)

= p2(1− p)4

Le sestine possibili sono

110000 101000 100100 100010 100001

011000 010100 010010 010001 001100

001010 001001 000110 000101 000011

Vale a dire (62

)=

6 · 5 · 4!

4! · 2!= 15

i modi in cui possiamo scegliere 2 posizioni tre le 6

In definitiva

P (2 succ. su 6) = P (110000) + · · ·+ P (000011)

= p2(1− p)4+· · ·+ p2(1− p)4

= 15 p2(1− p)4

=(62

)p2(1− p)6−2

3

Statistica Lez. 10

In generale la v.c. che conta il numero di successi

in n prove bernoulliane si chiama v.c. Binomiale

La v.c. Binomiale e ottenuta come la somma di n

variabili casuali Yi di tipo Bernoulli, indipendenti e

di parametro p, cioe se

Y1 ∼ Ber(p), . . . , Yn ∼ Ber(p)

allora

X =n∑

i=1

Yi

si dice variabile casuale Binomiale e si indica con

X ∼ Bin(n, p) n e p sono i parametri della v.c. e

rappresentano il numero di prove e la probabilita di

successo in una prova

La v.c. Binomiale assume tutti i valori interi da 0

ad n ad ha distribuzione di probabilita

P (X = k) =(n

k

)pk(1− p)n−k, k = 0,1, . . . , n

Calcoliamo la media di X ∼ Bin(n, p)

E(X) =n∑

k=0

k(n

k

)pk(1− p)n−k = np

Mentre per la varianza Var(X) = np(1− p)

4

Statistica Lez. 10

Esempio: Tra gli anni 60 e 80 le giurie popolarinegli stati del sud degli USA contenevano non piudi 4 giurati afro-americani. Si puo ritenere che igiurati siano eletti in modo casuale sapendo che lapopolazione in quegli stati e in quel periodo era percirca il 50% composta da persone afro-americane?

Sia X la variabile casuale che conta il numero diafro-americani in una giuria di 80 persone, X e unavariabile casuale Binomiale di parametri n = 80 ep = 0.5

Si fanno 80 estrazioni e il successo e rappresentatodall’evento “persona afro-americana estratta.

Calcoliamo la probabilita che in una giuria vi sianomeno di 4 persone afro-americane

P (X ≤ 4) = P (X = 0) + P (X = 1) + P (X = 2)+

+ P (X = 3) + P (X = 4)

=4∑

k=0

(80

k

)0.5k0.580−k

' 0.0000000000000000014

Per convincere i giudici dell’improbabilita di taleevento basto dire che tale probabilita e piu piccoladella probabilita di fare 3 scale reali consecutive nelgioco del poker!

5

Statistica Lez. 10

Esempio Un processo produttivo produce compo-

nenti che possono presentare due tipi di difetti A,

B. La probabilita che venga prodotto un pezzo con

tutti e due i difetti e P (A ∩ B) = 0.1. Le probabi-

lita di ottenere pezzi con uno dei due difetti sono

P (A) = P (B) = 0.4. Calcolare

a) la probabilita di ottenere un pezzo con almeno

un difetto;

b) la probabilita di ottenere un pezzo senza difetti;

c) la probabilita che su 10 pezzi tre siano esenti

da difetti nell’ipotesi che i pezzi siano prodotti in-

dipendentemente l’uno dall’altro

a) Dobbiamo calcolare

P (A ∪B) = P (A) + P (B)− P (A ∩B)

0.4 + 0.4− 0.1 = 0.7

b) Dobbiamo calcolare

P (Ac ∩Bc) = 1− P (A ∪B) = 0.3.

c) Consideriamo la v.c X che conta il numero di

pezzi senza difetti su un’estrazione di 10 pezzi. Si

tratta di una v.c Binomiale con parametri p = 0.3

e n = 10. La probabilita richiesta e data da

P (X = 3) =( 3

10

)0.330.77 = 0.266.

6

Statistica Lez. 10

La variabile casuale Gaussiana

Una variabile casuale continua e ben definita quan-

do:

i) si specifica l’intervallo di valori che puo assumere

ii) viene indicata la sua funzione di densita

La variabile casuale Normale standard ha densita

f(x) =1√2π

e−x22 , x ∈ R

Da dove viene questa forma?

Gauss e il padre di tale distribuzione e ne fornı una

derivazione partendo dall’osservazione di misure fi-

siche

Se m e la vera misura dell’oggetto, eseguiamo n

misurazioni xi, gli errori di misura sono definiti

come

ei = xi −m

Raccogliamo per n grande i valori di ei in una

tabella di frequenza

7

Statistica Lez. 10

La distribuzione di frequenza degli errori (allisciata)e proprio il grafico della densita Gaussiana

x

−5 −3 −1 0 1 3 5

La variabile casuale Normale standard si indica conZ ovvero con N(0,1) ed ha le seguenti proprieta

i) E(Z)=0

ii) Var(Z) = 1

Scriveremo Z ∼ N(µ = 0, σ2 = 1) oZ ∼ N(µ = 0, σ = 1)

8

Statistica Lez. 10

Come calcoliamo probabilita del tipo P (a < Z < b)?

Ricordiamo che come per tutte le variabili aleatorie

continue si ha sempre P (Z = z) = 0

Utilizziamo le tavole della Normale

Si tratta di una tabella dove per ogni valore di z e

riportato il valore di

Φ(z) = P(Z < z)

Possiamo calcolare tutte le probabilita

P (a < Z < b) = P (Z < b)− P (Z ≤ a)

= Φ(b)−Φ(a)

Ci aiutiamo con le figure

a 0 b

P(a < Z < b)

=

0 b

Φ(b) = P(Z < b)

a 0

Φ(a) = P(Z < a)

Φ(b)−Φ(a) = Φ(b) – Φ(a)

9

Statistica Lez. 10

Inoltre

P (Z > z) = 1− P (Z ≤ z) = 1−Φ(z)

Se abbiamo le tavole solo per i valori positivi di Z

sfruttiamo la simmetria della curva

se z < 0 P (Z < z) = 1− P (Z ≤ −z) (−z > 0!!!)

se z < 0 P (Z > z) = P (Z < −z) (−z > 0!!!)

z 0

Φ(z) = P(Z ≤ z) = ⌠⌡−∞

z

f(x)dx

0 z

Φ(z) = P(Z ≤ z) = ⌠⌡−∞

z

f(x)dx

10

Statistica Lez. 10

Esempio: calcolare le seguenti probabilita

• P (Z < 2.03)

• P (1 < Z < 2.5)

• P (Z > 1.53)

• P (Z < −2.57)

• P (−1 < Z < 1)

• P (Z > −3)

• P (Z < −5)

11

Statistica Lez. 10

In generale esistono v.c. Normali per ogni valore

dei parametri µ e σ Tali v.c. si indicano con X ∼N(µ, σ2) o X ∼ N(µ, σ) e hanno densita

f(x) =1√2πσ

e−(x−µ)2

2σ2 x ∈ R

x

µ = − 4 0 µ = 7

x

0

σ = 1

σ = 2

12

Statistica Lez. 10

Per una v.c. X ∼ N(µ, σ) abbiamo che E(X) = µ

e Var(X) = σ2

Se X e una Gaussiana di media 1 e varianza 4,

X ∼ N(1,2), come calcoliamo P (X < 3)?

Se X ha media µ, allora X − µ avra media nulla,

infatti

E(X − µ) = E(X)− µ = µ− µ = 0

Se X ha varianza pari a σ2 allora X/σ ha varianza

1, infatti

Var(X/σ) =1

σ2Var(X) =

σ2

σ2= 1

Se mettiamo assieme le due operazioni abbiamo

che

Z =X − µ

σe tale che E(Z) = 0 e Var(Z) = 1

E quindi:

P (X < 3) = P

(X − µ

σ<

3− µ

σ

)= P

(Z <

3− 1

2

)= P (Z < 1) = Φ(1) = 0.84134

13

Statistica Lez. 10

Sia X ∼ N(µ, σ2)

Calcolare le probabilita P (µ− kσ<X <µ + kσ)

k = 1 P (|X − µ| < σ) =P (µ− σ<X <µ + σ)

k = 2 P (|X − µ| < 2σ) =P (µ− 2σ<X <µ + 2σ)

k = 3 P (|X − µ| < 3σ) =P (µ− 3σ<X <µ + 3σ)

P (|X − µ| < σ) = P

(µ− µ− σ

σ<

X − µ

σ<

µ + σ − µ

σ

)= P (−1 < Z < 1) = Φ(1)−Φ(−1)

= 0.84134− 0.15866 ' 0.68

P (|X − µ| < 2σ) = P

(µ− µ− 2σ

σ<

X − µ

σ<

µ + 2σ − µ

σ

)= P (−2 < Z < 2) = Φ(2)−Φ(−2)

= 0.97725− 0.02275 ' 0.95

P (|X − µ| < 3σ) = P

(µ− µ− 3σ

σ<

X − µ

σ<

µ + 3σ − µ

σ

)= P (−3 < Z < 3) = Φ(3)−Φ(−3)

= 0.99865− 0.00135 ' 0.997

14

Statistica Lez. 10

Proprieta della variabile casuale Gaussiana

Sia X ∼ N(µ, σ2) allora anche una trasformazione

lineare di X e ancora Gaussiana. Vale a dire:

se a e b sono due numeri non aleatori si ha che

Y = a + bX ∼ N(a + b µ, b2σ2)

Somma di v.c. Gaussiane indipendenti sono ancora

v.c. Gaussiane. Vale a dire:

se X ∼ N(µ1, σ21) e Y ∼ N(µ2, σ2

2) sono indipendenti

allora

W = X + Y ∼ N(µ1 + µ2, σ21 + σ2

2)

15

Statistica Lez. 10

Esempio: la distribuzione delle altezze della po-

polazione dei coscritti alla leva del 1960 si puo

assumere che segua una legge normale di media

µ = 172.7 cm e scarto quadratico medio σ = 6.7

cm. Estratto a caso un individuo da questa popo-

lazione, calcolare la probabilita che

a) questo individuo ha un’altezza pari all’altezza

media della popolazione;

b) la sua altezza e inferiore all’altezza media della

popolazione;

c) la sua altezza e superiore a 152 cm;

d) supponendo che tutti gli individui della popola-

zione portino scarpe con un tacco di 10 cm, con

che probabilita l’altezza (con scarpe ai piedi)

dell’individuo estratto e superiore a 162 cm.

16

Statistica Lez. 10

Indichiamo con X la variabile altezza dell’individuo.

Abbiamo che

X ∼ N(172.7,6.7)

a) Poiche X e una variabile casuale continua

P (X = µ) = 0

b) Dobbiamo calcolare P (X < µ), per la simmetria

della v.c.

P (X < µ) =1

2

c) Dobbiamo calcolare P (X > 152)

P (X > 152) = 1− P (X > 152) = 1− P (X ≤ 152)

= 1−P (X < 152) = P

(X − µ

σ<

152− µ

σ

)= 1− P

(Z <

152− µ

σ

)= 1−Φ

(152− µ

σ

)= 1−Φ

(152− 172.7

6.7

)= 1−Φ(−3.1)

= 1− 0.00097 = 0.99903 ' 1 ,

d) Sia Y = X + 10, Y ∼ N(182.7,6.7)

P (Y > 162) = P (X + 10 > 162)

= P (X > 152) = 0.99903 ' 1 ,

17

Statistica Lez. 10

Approssimazione della Binomiale con la

Gaussiana

Ricordiamo che la v.c. binomiale conta il nume-ro di successi in n prove Bernoulliane e la suadistribuzione e

P (X = k) =(n

k

)pk(1− p)n−k, k = 0,1, . . . , n

La media e E(X) = np mentre la varianza valeVar(X) = np(1− p)

Quando il numero di prove n e troppo elevatoil calcolo dei coefficienti binomiali genera numeriintrattabili

Si puo dimostrare che la variabile X per n gran-de tende ad assumere la forma di una gaussiana.Precisamente

X − E(X)√Var(X)

=X − np√np(1− p)

∼ N(0,1)

Allora possiamo calcolare la probabilita di eventiche riguardano la X ricorrendo all’approssimazionecon una v.c. Gaussiana. L’approssimazione valeper p = 0.5 se n > 30, se p 6= 0.5 per np ≥ 5 en(1− p) ≥ 5

18

Statistica Lez. 10

Esempio: un venditore contatta dei clienti e me-

diamente conclude una vendita 1 volta su 8. Cal-

colare in modo approssimato la probabilita che su

100 clienti si concludano tra 6 e 10 vendite.

Il numero di vendite e una v.c. X ∼ Bin(n =

100, p = 18). Dobbiamo calcolare P (6 ≤ X ≤ 10).

Poiche np = 100·18 = 12.5 ≥ 5 e n(1−p) = 100·78 =

87.5 ≥ 5, utilizziamo l’approssimazione di X alla

Gaussiana

P(6≤X≤10)=P

6−12.5

3.307≤

X − np√np(1−p)

≤10−12.5

3.307

' P (−1.97 < Z < −0.76)

= Φ(−0.76)−Φ(−1.97)

= (1−Φ(0.76))− (1−Φ(1.97))

= (1− 0.77637)− (1− 0.97558)

= 0.19921

19

Statistica Lez. 10

Teorema del Limite Centrale

Quanto visto per la variabile casuale Binomiale e in

realta un caso particolare di un risultato assai piu

generale

Consideriamo n v.c. Xi i.i.d. (indipendenti ed

identicamente distribuite), con stessa media µ e

varianza σ2 finite.

Allora abbiamo che, posto Y =∑n

i=1 Xi

E(Y ) = nE(Xi) = nµ

Var(Y ) = nVar(Xi) = nσ2

Il teorema del limite centrale afferma che

Z =Y − E(Y )√

Var(Y )=

∑ni=1 Xi − nµ√

nσ2∼ N(0,1)

20

Statistica Lez. 10

Variabile casuale Uniforme

Si tratta di una variabile casuale continua. La

densita e

f(x) =1

b− a, a < x < b

Per calcolare la probabilita che t < x < s con a ≤t < s ≤ b si ha

P (t < X < s) =∫ s

t

1

b− adx =

s− t

b− a

Vale inoltre

E(X) =∫ b

ax

1

b− adx =

a + b

2

var(X) =∫ b

ax2 1

b− adx−

(a + b

2

)2=

(b− a)2

12

21