Post on 23-Jul-2020
Probabilites et statistiques pour l’ingenieur
M1 InformatiqueEtienne Birmele
I. Statistiques descriptives
Types de variables
Une variable peut etre de trois types :
Nominale : variable categorielle sans hierarchie entre les differentes classes(sexe, espece, ...)
Ordinale : variable categorielle pour laquelle l’ordre des classes estsignificatif (indice de satisfaction ...). Elle peut etre convertieen variable quantitative.
Quantitative : variable numerique.
Echantillons
Definition
Un echantillon est un ensemble de mesures d’une meme variable sur desindividus differents.
Remarque : Les individus peuvent etre des personnes, des cellules, des actionsen bourse, etc .
Appariement
Des echantillons mesures sur les memes individus sont appeles echantillonsapparies.
Exemple : Des performances de sportifs avant et apres un entraınementspecifique.
Exemple de donnees
Jeu de donnees de 153 mesures de qualite de l’air de mai a octobre, mesurantsix variables :
I taux d’ozone
I rayonnement solaire
I vitesse du vent
I temperature
I mois
I jour
Disponible sous R par la commande data(airquality).
I.1 Description des variables categorielles
Description des variables categorielles
I La frequence d’une categorie est la proportion de l’echantillon representepar la categorie.
I Le mode d’un echantillon est la categorie de plus grande frequence.
I La representation des frequences se fait a l’aide d’histogrammes ou dediagrammes circulaires.
5 6 7 8 9
010
2030
I.2 Description des variables numeriques
Taux d’ozone
> airquality$Ozone
[1] 41 36 12 18 NA 28 23 19 8 NA 7 16 11 14 18 14 34 6
[19] 30 11 1 11 4 32 NA NA NA 23 45 115 37 NA NA NA NA NA
[37] NA 29 NA 71 39 NA NA 23 NA NA 21 37 20 12 13 NA NA NA
[55] NA NA NA NA NA NA NA 135 49 32 NA 64 40 77 97 97 85 NA
[73] 10 27 NA 7 48 35 61 79 63 16 NA NA 80 108 20 52 82 50
[91] 64 59 39 9 16 78 35 66 122 89 110 NA NA 44 28 65 NA 22
[109] 59 23 31 44 21 9 NA 45 168 73 NA 76 118 84 85 96 78 73
[127] 91 47 32 20 23 21 24 44 21 28 9 13 46 18 13 24 16 13
[145] 23 36 7 14 30 NA 14 18 20
Besoin de resumer l’information par au moins de deux valeurs, appeleesstatistiques : une pour definir le centre de l’echantillon, l’autre pour sadispersion.
Statistique de centre
Moyenne
La moyenne de l’echantillon x = (x1, . . . , xn) est definie
x =
∑ni=1 xi
n
[1] 42.12931
Mediane
Une mediane de l’echantillon est un reel m tel que la moitie des valeurs del’echantillon sont superieures ou egales a m et l’autre moitie sont inferieures.
[1] 31.5
Remarque : La mediane n’est pas unique si l’echantillon est de taille paire. Celaa peu d’impact en pratique s’il est assez grand.
Moyenne vs Mediane
I la formule close de la moyenne est plus simple pour faire des statistiques(estimation, vitesse de convergence ...)
I la mediane est beaucoup moins sensible que la moyenne aux erreurs demesure.
I comparer la mediane et la moyenne d’un echantillon permet d’avoir uneidee sur l’assymetrie de l’echantillon.
Variance et ecart-type
Definition : variance
La variance s2 de l’echantillon est definie par
var(x) = s2 =1
n − 1
n∑i=1
(xi − x)2
Definition : ecart-type
L’indicateur de dispersion associe a la moyenne est l’ecart-type s del’echantillon, correspondant a la racine carree de la variance.
σ(x) = s =√
var(x)
Variance et ecart-type
Interpretation
Plus l’ecart-type et la variance sont grands, plus l’echantillon est disperse.
> var(airquality$Ozone[airquality$Month==5],na.rm=TRUE)
[1] 493.9262
> sd(airquality$Ozone[airquality$Month==5],na.rm=TRUE)
[1] 22.22445
> sd(airquality$Ozone[airquality$Month==8],na.rm=TRUE)
[1] 39.68121
Remarques
I l’ecart-type est homogene avec les donnees en terme d’unite de mesure,contrairement a la variance
I remplacer xi par yi = xi−xs
conserve le les positions relatives des donneesen ramenant la moyenne a 0 et l’ecart-type a 1. y un l’echantillonnormalise.
Quantiles
Definition : quantile
Pour tout 0 ≤ p ≤ 1, un quantile d’ordre p est un nombre q tel que la fractionde l’echantillon inferieure ou egale a q est p.
I Une mediane est par exemple un quantile d’ordre 0.5.
I Le quantile q1 d’ordre 0.25 et le quantile q3 d’ordre 0.75 sont appelespremier et troisieme quartile.
I Les distances m − q1 et q3 −m sont des indicateurs de la dispersion del’echantillon.
Quantiles
> quantile(airquality$Ozone,probs=c(0,.25,.5,.75,1),na.rm=TRUE)
0% 25% 50% 75% 100%
1.00 18.00 31.50 63.25 168.00
I des disparites entre q3 −m et m − q1 permettent de detecter uneassymetrie dans l’echantillon, ce qui ne peut pas etre mis en evidence parl’ecart-type.
I la remarque sur la non-unicite de la mediane reste valable pour lesquantiles.
I les quartiles, tout comme la mediane, sont moins sensibles aux erreurs demesure.
Points extremes
Definition : point extreme
On appelle point extreme toute valeur inferieure a q1 − 1, 5(q3 − q1) ousuperieure a q3 + 1, 5(q3 − q1).
I maniere de caracteriser les mesures qui s’ecartent clairement des autres
I un point extreme peut correspondre a une erreur de mesure
I un point extreme peut etre primordial dans l’interpretation des donnees
La boıte a moustache (boxplot)
La boıte a moustache est un graphique resumant l’echantillon :
I boıte dont la hauteur est definie par q1 et q3.
I trait epais a hauteur de m
I moustache au-dessous de la boıte : de q1 au minimum de l’echantillon s’iln’y a pas de point extreme bas. Sinon, la moustache s’arrete enq1 − 1, 5× EIQ .
I moustache au-dessus : de q3 soit au maximum de l’echantillon, soit aq3 + 1, 5× EIQ
I eventuels points extremes
La boıte a moustache (boxplot)
Outil visuel pour resumer un echantillon et les comparer (grossierement, cftests).
5 6 7 8 9
050
100
150
Correlation
Definition
(x1, . . . , xn) et (y1, . . . , yn) deux echantillons correspondant a deux grandeursmesurees sur les memes individus. Leur covariance est
cov(x,y) =1
n − 1
n∑i=1
(xi − x)(yi − y)
La version normalisee, appelee correlation, est
corr(x,y) =cov(x,y)
sxsy
> cor(airquality$Ozone,airquality$Temp,use='pairwise.complete.obs')
[1] 0.6983603
> cor(airquality$Ozone,airquality$Wind,use='pairwise.complete.obs')
[1] -0.6015465
> cor(airquality$Ozone,airquality$Temp)
[1] NA
Correlation
I La correlation est toujours comprise entre −1 et 1.
I Une correlation proche de 1 indique que X et Y ont tendance a avoir desvariations communes (correlation positive).
I Une correlation proche de −1 indique que X et Y ont tendance a avoirdes variations opposees (correlation negative).
I Si les deux variables mesurees sont independantes, la correlation desechantillons sera proche de 0. L’inverse n’est cependant pas forcement vrai.
II. Probabilites
II.1 Evenements
Evenement
Definition :evenement
Une experience aleatoire E a pour issues possibles les valeurs ω d’un ensembleΩ.Ω est l’univers.On appelle evenement tout sous-ensemble de Ω.
Exemple : Pour l’experience consistant a lire aleatoirment deux nucleotidessuccessifs d’une sequence d’ADN
Ω = AA,AC ,AG,AT ,CA,CC ,CG,CT ,GA,GC ,GG,GT ,TA,TC ,TG,TT
Notations
∅ ensemble vide ne contient aucun elementA ∩ B intersection de A et B A et B sont realisesA ∪ B Union de A et B A ou B est realiseAc complementaires de A dans Ω A n’est pas realiseA ⊂ B A inclus dans B la realisation de A implique la realisation de B
A\B A moins B A est realise et B n’est pas realise
Deux evenements sont disjoints si ils ne peuvent se produire en meme temps :A ∩ B = ∅.
Probabilite
Definition : Probabilite
Une probabilite est une fonction P assignant a tout evenement A un reel P(A)entre 0 et 1 et telle que
1. P(∅) = 0 et P(Ω) = 1 ;
2. Si A et B sont deux evenements disjoints, alors P(A ∪B) = P(A) + P(B).
I Des probabilites differentes peuvent etre definies sur un meme univers.
I On parle en general de loi de probabilite pour designer une fonction P.
IMPORTANT ! ! !
En general, la formule
probabilite =#cas favorables
#cas possibles
est FAUSSE
Elle n’est vraie que dans le cas d’experiences equiprobables, c’est-a-dire avecdes univers finis et dont tous les elements individuels on la meme probabilite.
Pour s’en souvenir
Une personne prise au hasard n’a pas une chance sur deux d’etre asthmatique.
Proprietes
1. P(A ∪ B) = P(A) + P(B)− P(A ∩ B) ;
2. P(Ac) = 1− P(A) ;
3. Si A ⊂ B , alors P(A) ≤ P(B).
Discret vs Continu
Les univers peuvent etre de trois types :
I Un nombre fini d’issues possibles
I Un ensemble infini mais denombrable d’issues possibles (on peut lesenumerer comme dans le cas des entiers)
On parle d’univers discret et de loi de probabilite discrete.
I Un ensemble infini et indenombrable d’issues possibles (un intervalle parexemple)
On parle alors d’univers continu et de loi de probabilite continue.
Loi discrete
I Une loi de probabilite discrete est definie de facon unique par la donneedes P(ω), ω ∈ Ω
I Pour tout evenement A, P(A) =∑ω∈A P(ω)
Exemple :Read AA AC AG AT CA CC CG CTPr. .03 .05 .05 .07 .05 .08 .12 .05
Read GA GC GG GT TA TC TG TTPr. .05 .12 .08 .05 .07 .05 .05 .03
La probabilite d’avoir A en premiere lettre est
P(A.) = P(AA) + P(AC ) + P(AG) + P(AT ) = .2
Loi continueI La loi est definie par une fonction f positive telle que
∫Ωf (x)dx = 1.
I Pour tout evenement A, P(A) =∫Af (x)dx
I Pour tout ω ∈ Ω, P(ω) = 0
Exemple : Ω = [−1, 1], f (x) = 1− |x |.
P([0.5 : 1]) =
∫ 1
0.5
(1− x)dx =1
8
−2 −1 0 1 2
0.0
0.6
Probabilites conditionnelles
Definition : probabilite conditionnelle
Soit A et B deux evenements de B(Ω), avec P(B) 6= 0. On appelle probabiliteconditionnelle de A sachant B le reel
P(A|B) =P(A ∩ B)
P(B).
Probabilites conditionnelles
Definition : probabilite conditionnelle
Soit A et B deux evenements de B(Ω), avec P(B) 6= 0. On appelle probabiliteconditionnelle de A sachant B le reel
P(A|B) =P(A ∩ B)
P(B).
Proposition
Soit B un evenement tel que P(B) > 0. L’application A 7→ P(A|B) est uneprobabilite sur (Ω,B(Ω)), notee P(·|B) ou PB (·), et appelee loi de probabiliteconditionnelle sachant B .
On a donc les propriete classiques d’une probabilite. En particulier
P(A|B) = 1− P(Ac |B).
Par contreP(A|B) 6= 1− P(A|Bc).
Conditionnement - Formule de Bayes
On deduit de la definition des probabilites conditionnelles que
P(A ∩ B) = P(A|B)P(B) (Conditionnement)
puis que
P(A|B) =P(B |A)P(A)
P(B)(Formule de Bayes)
Exemple : Un laboratoire mettant en place un test sanguin pour une maladiepeut evaluer les probabilites P(positif |sain) et P(positif ). Si on connaıtl’incidence P(malade) de la maladie dans la population, on peut en deduire laprobabilite qu’un individu dont le test est positif est en fait sain :
P(sain|positif ) =P(positif |sain)(1− P(malade))
P(positif )
Formule des probabilites totales
Proposition
Soit (Bk )1≤k≤N une partition de Ω telle que P(Bk ) > 0 pour tout k . Alors,pour tout evenement A :
P(A) =∑
1≤k≤N
P(A ∩ Bk ) =∑
1≤k≤N
P(A|Bk )P(Bk ).
En particulier, P(A) = P(A|B)P(B) + P(A|Bc)P(Bc).
Exemple : Dans l’exemple precedent, il est plus simple d’evaluer P(positif |sain)et P(positif |malade). On en deduit
P(sain|positif ) =P(positif |sain)(1− P(malade))
P(positif |sain)(1− P(malade)) + P(positif |malade)P(malade)
Independance d’evenements
Definition : independance
A et B sont deux evenements independants si P(A ∩ B) = P(A)P(B).
Interpretation
Si P(B > 0), alors A et B sont independants ssi P(A|B) = P(A).L’independance de A et B signifie donc qu’avoir des indications sur larealisation ou non de B ne change pas la probabilite qu’on a de voir A serealiser.
Independance d’evenements
Definition : independance
A et B sont deux evenements independants si P(A ∩ B) = P(A)P(B).
Interpretation
Si P(B > 0), alors A et B sont independants ssi P(A|B) = P(A).L’independance de A et B signifie donc qu’avoir des indications sur larealisation ou non de B ne change pas la probabilite qu’on a de voir A serealiser.
Plus generalement, une famille d’evenements (Ai)i∈I est dite familled’evenements (mutuellements) independants si pour toute partie J ⊂ I on a
P(∩i∈JAi) = Πi∈JP(Ai).
Des evenements mutuellement independants sont deux a deux independantsmais l’inverse n’est pas toujours vrai.
II.2 Variables aleatoires
Variable aleatoire
Definition : variable aleatoire
Considerons un processus aleatoire d’univers Ω. On appelle variable aleatoireune fonction de l’ espace Ω dans R.En considerant X (Ω) comme un nouvel univers et X (ω) comme la realisationcorrespondant a ω, on obtient une loi de probabilite sur les sous-ensembles deX (Ω). Elle est appelee loi de probabilite de la variable aleatoire.
Exemple : Considerons une grille de loto remplie et le processus aleatoirecorrespondant au tirage. Ω est l’ensemble des 6-uplets d’entiers entre 0 et 49.Si X est le nombre de bons numeros, X (Ω) = 0, 1, 2, 3, 4, 5, 6 et la loi deprobabilite de X correspond au probabilites d’avoir aucun, un, ... bons numeros.On pourrait raisonner de meme en prenant pour X le gain realise.
Fonction de repartition
Definition : fonction de repartition
On appelle fonction de repartition de la variable aleatoire X la fonction FX
definie pour t dans R, par FX (t) = P(X ≤ t). C’est une fonction croissante,tendant vers 0 en −∞ et vers 1 en +∞.
La fonction de repartition caracterise la loi d’une variable aleatoire. Autrementdit deux variables aleatoires ayant meme fonction de repartition, ont meme loi.
V.a discrete
Loi
La loi de la variable aleatoire X est donnee par les probabilitesP(X = x), pour tout x dans X (Ω), telles que
∑x∈X (Ω) P(X = x) = 1.
Fonction de repartition
La fonction de repartition est une fonction en escalier. Si X prend la valeur xavec une probabilite non nulle, la courbe de FX (t) presente un saut de hauteurP(X = x) en t = x .
02
4
−2 2 6 100
48
V.a continue
Loi
La loi de X est definie par une fonction fX nommee densite, qui est positive ettelle que
∫IfX (t)dt = 1.
Fonction de repartition
FX (t) =∫ x
−∞ f (t)dt donc F ′X (t) = fx (t).
−3 −1 1 3
0.0
0.2
0.4
−3 −1 1 30.
00.
40.
8
Esperance
Esperance
L’esperance caracterise le comportement moyen de la variable aleatoire.Elle est definie pour une variable discrete par
E(X ) =∑
x∈X (Ω)
xP(X = x)
et pour une variable continue par
E(X ) =
∫ +∞
−∞tfX (t)dt .
Variance
Variance
La variance caracterise la dispersion de la variable autour de l’esperance. Elleest definie par
Var(X ) = E[(X − E(X ))2]
ou alternativementVar(X ) = E(X 2)− E(X )2.
Plus generalement, le moment d’ordre p de X est defini, s’il existe, parM p = E(X p).
Proprietes de l’esperance et de la variance
1. E(aX + bY ) = aE(X ) + bE(Y ). L’esperance est lineaire.
2. Var(X ) ≥ 0.
3. Var(aX + b) = Var(aX ) = a2Var(X ).
4. [E(X )]2 ≤ E(X 2). Inegalite de Cauchy-Schwarz.
5. Z = (X − E(X ))/√
Var(X ) verifie E(Z ) = 0 et Var(Z ) = 1. On dit queZ est une variable centree et reduite.
Couples de variables
(X ,Y ) est un couple de variable aleatoire si X et Y sont des variablesaleatoires. L’etude du couple permet d’etudier les liens entre ces variables.
Definition : Loi du couple
La loi d’un couple de variable aleatoire est comme dans le cas donne parl’ensemble des valeurs possibles et des probabilites correspondantes.Dans le cas discret, cela revient a lister l’ensemble des valeursP(X = x ,Y = y) pour tous les couples (x , y).Dans le cas continu, cela revient a definir une fonction de densite a deuxvariables f (x , y) qui permet de calculer P(X ∈ I ,Y ∈ J ) pour tout coupled’intervalles a l’aide d’integrales doubles.
Marginales
I La donnee de la loi de (X ,Y ) permet de determiner la loi de X et celle deY . Ces lois sont appelees les lois marginales du couple.
I Connaıtre la loi du couple permet de determiner les marginales. L’inversen’est pas vrai.
Variables independantes
Definition : variables independantes
Les variables X et Y sont independantes si et seulement si la loi du couple estle produit des lois marginales.Dans le cas discret, cela veut dire que pour tous x ∈ X (Ω) et y ∈ Y (Ω), on a
P(X = x ∩Y = y) = P(X = x)P(Y = y).
Dans le cas continu, cela se traduit pas f(X ,Y )(x , y) = fX (x)fY (y).
I L’interpretation est la meme que dans le chapitre des statistiquesdescriptives : X et Y sont independantes si ils n’ont aucune influence l’unsur l’autre.
I Dans le cas de l’exemple des dinucleotides,P(XY = AT ) 6= P(X = A)P(Y = T ). Deux nucleotides successifs nesont pas independants.
Covariance et correlation
Definition : covariance et coorelation
On appelle covariance entre X et Y , la quantite
Cov(X ,Y ) = E [(X − E(X ))(Y − E(Y ))]
La covariance n’etant pas stable par changement d’echelle, on definit lacorrelation entre X et Y
Corr(X ,Y ) =Cov(X ,Y )√
Var(X )√
Var(Y ).
Proprietes de la correlation et de la covariance
I Si X et Y sont independantes, alors Cov(X ,Y ) = Corr(X ,Y ) = 0.L’inverse est faux
I Cov(X ,X ) = var(X ) et Corr(X ,X ) = 1.
I Var(X + Y ) = Var(X ) + Var(Y ) + 2Cov(X ,Y ).En particulier, si X et Y sont independantes alorsVar(X + Y ) = Var(X ) + Var(Y ).
I Soient X1, · · · ,Xn , n variables aleatoires independantes. AlorsVar(
∑ni=1 Xi) =
∑ni=1 Var(Xi).
II.3 Loi normale
Loi normale (ou gaussienne) centree reduite
Definition : loi normale centree reduite
Une variable aleatoire X suit une loi normale (ou gaussienne) centree reduite eton note X ∼ N (0, 1) si la variable X est a valeurs dans R et si sa densite fXest donnee par
fX (x) =1√2π
exp(−x2
2).
−3 −2 −1 0 1 2 3
0.0
0.2
0.4
Loi normale (ou gaussienne) centree reduite
Definition : loi normale centree reduite
Une variable aleatoire X suit une loi normale (ou gaussienne) centree reduite eton note X ∼ N (0, 1) si la variable X est a valeurs dans R et si sa densite fXest donnee par
fX (x) =1√2π
exp(−x2
2).
X verifie alors E(X ) = 0 et VarX = 1.
Loi normale (ou gaussienne)
Definition : loi normale
Une variable aleatoire X suit une loi normale (ou gaussienne) et on noteX ∼ N (µ, σ∈) si la variable X est a valeurs dans R et si sa densite fX estdonnee par
fX (x) =1
σ√
2πexp
[− (x − µ)2
2σ2
].
−4 −2 0 2 4 6 8
0.02
0.08
Loi normale (ou gaussienne)
Definition : loi normale
Une variable aleatoire X suit une loi normale (ou gaussienne) et on noteX ∼ N (µ, σ∈) si la variable X est a valeurs dans R et si sa densite fX estdonnee par
fX (x) =1
σ√
2πexp
[− (x − µ)2
2σ2
].
X verifie alors E(X ) = µ et VarX = σ2.
Influence des parametres µ et σ
−4 0 2 4
0.0
0.2
0.4
−4 0 2 4
0.0
0.2
0.4
A droite, les lois sont toutes d’ecart-type 1 et d’esperance −2 (vert), 0 (rouge)et 2 (bleu). A droite, les densites sont toutes d’esperance 0 et d’ecarts-types0.25 (vert), 1 (rouge) et 4 (bleu).
Proprietes de la loi normale
I La variable X de loi N (µ, σ2) est symetrique autour de µ, sa mediane estegale a son esperance.
I Si X ∼ N (µ, σ2) alorsX − µσ
∼ N (0, 1).
I Si X ∼ N (µ, σ2) et Y ∼ N (µ′, σ′2) sont deux variables aleatoiresgaussiennes independantes, alors X + Y ∼ N (µ+ µ′, σ2 + σ′2).
Importance de la loi normale
I Loi modelisant de nombreuses situations reelles
I Theoreme central limite (TCL)
Loi des grands nombres
Theoreme
Loi des grands nombres Soient X1,X2, · · · ,Xn , n variables aleatoires de memeloi qu’une variable aleatoire X . Alors, presque surement (c’est-a-dire avecprobabilite 1),
limn→+∞
X1 + . . .+ Xn
n= µ
Plus la taille de l’echantillon augmente, plus la moyenne empirique (observeesur l’echantillon) est proche de l’esperance (moyenne theorique).
Theoreme Central Limite
Theoreme
Soient X1, · · · ,Xn des variables aleatoires independantes et identiquementdistribuees d’esperance µ et de variance σ2. On note X n = n−1∑n
i=1 Xi . Alors
la loi de Xn−µσ/√n
tend vers la loi normale centree reduite.
Ceci s’ecrit aussi : pour tous a et b reels,
P[a ≤√n
(Y n − µ
σ
)≤ b
]→ P(a ≤ Z ≤ b), (1)
ou Z est une variable gaussienne centree reduite, Z ∼ N (0, 1).
Ce resultat reste vrai quand σ est remplace par σ, un estimateur consistant deσ, en particulier pour l’estimateur de la variance defini au chapitre desstatistiques descriptives.
II.4 Autres lois usuelles discretes
Loi de Bernoulli
I Experience ayant deux issues possibles (succes/echec)
I X v.a. valant 1 en cas de succes,0 sinon
I p la probabilite de succes
X est une variable de Bernoulli. et on le note X ∼ B(p).
I P(X = 1) = p et P(X = 0) = 1− p.
I E(X ) = p et Var(X ) = p(1− p).
Loi Binomiale B(n, p)On repete n fois, dans des conditions identiques, une experience aleatoire deBernoulli de parametre p. On note X le nombre de succes parmi les nexperiences independantes.
I X nombre de succes parmi n experiences de Bernoulli independantesidentiques.
I ensemble des valeurs possibles 0, · · · ,nI P(X = k) = C k
n pk (1− p)n−k , pour tout k ∈ 0, · · · ,n.
I E(X ) = np et Var(X ) = np(1− p).
0 10 20 30 40
0.00
0.06
0.12
Loi de Poisson P(λ)I ensemble des valeurs possibles est NI
P(X = k) = exp (−λ)λk
k !, pour tout k ∈ N.
I E(X ) = λ et Var(X ) = λ.
0 10 20 30 40
0.00
0.06
0.12
Loi de Poisson
Applications
Deux applications principales et courantes :
I Une loi binomiale de parametres n et p avec n grand et p faible peut etreapprochee par une loi de Poisson de parametre np.Exemples : Nombre de mutations lors d’une copie d’ADN, nombre defoyers d’une epidemie ...
I Si un processus suit un temps d’attente exponentiel entre deuxevenements, le nombre d’evenements pendant un temps donnee suit uneloi de PoissonExemples : Nombre de mutations au cours du temps, de desintegrationsatomiques, d’arrivees dans une file d’attente .... pendant un temps donne
Loi geometriqueI X designe le nombre de repetitions d’une experience de Bernoulli
necessaires pour obtenir un succesI ensemble des valeurs possibles est N∗I P(X = k) = p(1− p)k−1, pour tout k ∈ N∗I E(X ) = 1
pet Var(X ) = 1−p
p2 .
5 10 15
0.00
0.15
0.30
Loi uniforme discrete
I Valeurs possibles sont 1, ...,N .I P(X = k) = 1
N, pour tout k ∈ 1, · · · ,N .
I E(X ) = N+12
et Var(X ) = N2−112
.
2 4 6 8 10
0.06
0.10
0.14
Loi uniforme discrete
I Valeurs possibles sont 1, ...,N .I P(X = k) = 1
N, pour tout k ∈ 1, · · · ,N .
I E(X ) = N+12
et Var(X ) = N2−112
.
Application
Loi correspondant aux situations d’equiprobabilite.
Loi Hypergeometrique H(N ,n, p)
I Population de N individus dont une proportion p est rouge
I On preleve au hasard, sans remise un echantillon de n individus
I X nombre d’individus rouges dans l’echantillon
I P(X = k) =C k
Np×Cn−kN(1−p)
CnN
, pour tout k tel que max(0,n −N (1− p)) ≤k ≤ min(n,Np).
I E(X ) = np et Var(X ) = N−nN−1
np(1− p).
Application
Tests d’enrichissements
II.4 Autres lois usuelles continues
Loi uniforme U[a,b]
I X est a valeurs dans [a, b]
I sa densite fX est donnee par fX (x) = 1/(b − a) Ix∈[a,b]
I E(X ) = (b + a)/2 et Var(X ) = (b − a)2/12
0 1 2 3 4 5 6
0.00
0.15
Loi exponentielle E(λ)
I X est a valeurs dans R+
I sa densite fX est donnee par fX (x) = λe−λx Ix≥0
I E(X ) = 1/λ et Var(X ) = 1/λ2.
0 2 4 6 8 10
0.0
1.0
Loi exponentielle E(λ)
I X est a valeurs dans R+
I sa densite fX est donnee par fX (x) = λe−λx Ix≥0
I E(X ) = 1/λ et Var(X ) = 1/λ2.
Application
Modelisation des temps d’attente sans memoire (la date du prochainevenement d’interet ne depend pas de la date du dernier a avoir eu lieu).
Lois du Chi-Deux, de Student et de Fisher
Les lois du Chi-Deux, de Student et de Fisher ne servent pas a des fins demodelisation mais sont tabulees dans tout logiciel de statistique en raison deleur grande utilite dans le cadre des tests.
III. TESTS STATISTIQUES
Test
Definition
Un test statistique est une procedure de decision entre deux hypothesesconcernant un ou plusieurs echantillons.
Exemple : On considere deux series de personnes soumises les unes a unmedicament, les autres a un placebo. On mesure les tensions arterielles dans lesdeux groupes.Au vu des resultats, le medicament a-t-il un effet sur la tension ?
Hypotheses
Definition
L’hypothese nulle notee H0 est celle que l’on considere vraie a priori. Le but dutest est de decider si cet a priori est credible.L’hypothese alternative notee H1 est l’hypothese complementaire de H0.
Exemple : Sous H0, le medicament n’a pas d’influence, sous H1 il en a une.
Hypotheses
Definition
L’hypothese nulle notee H0 est celle que l’on considere vraie a priori. Le but dutest est de decider si cet a priori est credible.L’hypothese alternative notee H1 est l’hypothese complementaire de H0.
Exemple : Sous H0, le medicament n’a pas d’influence, sous H1 il en a une.
Attention
I Les deux hypotheses ne sont pas symetriques. H1 est choisie uniquementpar defaut si H0 n’est pas consideree comme credible.
I Le choix de H0 et de H1 est en general impose par le test qu’on utilise etne releve donc pas de l’utilisateur.
Ecriture des hypotheses
Soit µ1 et µ2 les moyennes de tension des deux populations correspondant a laprise de medicament ou de placebo. Une maniere de demontrer que lemedicament modifie la tension est de montrer que µ2 est different de µ1.
Les hypotheses deviennent alors H0 : les moyennes des deux populations sontegales et H0 : les moyennes des deux populations sont differentes . Onl’ecrit succintement sous la forme :
H0 : µ1 = µ2
H1 : µ1 6= µ2
Ecriture des hypotheses
Question 1
La moyenne de la tension dans le premier groupe est de 13,4. La moyenne de latension dans le second groupe est de 12,8.
Le medicament est-il efficace ?
Question 2 (pour ceux qui ont repondu oui)
Je lance six fois un de, puis fais 50 pompes, puis relance six fois un de. Mapremiere serie de lancers vaut en moyenne 3,1. La seconde serie vaut enmoyenne 3,7.
Les pompes m’ont-elles rendues meilleur au lancer de de ?
Reponse
On n’en sait rien a ce stade !
Ecriture des hypotheses
Question 1
La moyenne de la tension dans le premier groupe est de 13,4. La moyenne de latension dans le second groupe est de 12,8.
Le medicament est-il efficace ?
Question 2 (pour ceux qui ont repondu oui)
Je lance six fois un de, puis fais 50 pompes, puis relance six fois un de. Mapremiere serie de lancers vaut en moyenne 3,1. La seconde serie vaut enmoyenne 3,7.
Les pompes m’ont-elles rendues meilleur au lancer de de ?
Reponse
On n’en sait rien a ce stade !
Ecriture des hypotheses
Question 1
La moyenne de la tension dans le premier groupe est de 13,4. La moyenne de latension dans le second groupe est de 12,8.
Le medicament est-il efficace ?
Question 2 (pour ceux qui ont repondu oui)
Je lance six fois un de, puis fais 50 pompes, puis relance six fois un de. Mapremiere serie de lancers vaut en moyenne 3,1. La seconde serie vaut enmoyenne 3,7.
Les pompes m’ont-elles rendues meilleur au lancer de de ?
Reponse
On n’en sait rien a ce stade !
Ecriture des hypotheses
Attention
Les moyennes x1 et x2 des echantillons resultents d’echantillonnages, et ne sontdonc que des estimations de µ1 et µ2. Ce n’est pas parce qu’elles sontdifferentes que µ1 et µ2 le sont (et vice-versa, mais c’est rare !).
Comparer les moyennes des echantillons ne peut en aucun cas suffire !
Ecriture des hypotheses
Attention
Les moyennes x1 et x2 des echantillons resultents d’echantillonnages, et ne sontdonc que des estimations de µ1 et µ2. Ce n’est pas parce qu’elles sontdifferentes que µ1 et µ2 le sont (et vice-versa, mais c’est rare !).
Comparer les moyennes des echantillons ne peut en aucun cas suffire !
Les signes =, 6=, > et ≤ dans l’ecriture succinte des hypotheses necorrespondent pas a l’egalite ou aux inegalites au sens mathematique du terme.Il s’agit d’une facon d’ecrire :
H0 : Il est credible de penser que µ1 = µ2
H1 : µ1 est significativement different de µ2
Statistique
L
a statistique de test S est une fonction qui resume l’information sur l’echantillonqu’on veut tester. On la choisit de facon a pouvoir calculer sa loi sous H0.
I S est une variable aleatoire, definie independemment des donneesobservees. La valeur que prend cette variable aleatoire pour les donneesobservees sera appelee statistique observee et notee Sobs dans la suite.
I Suivant le type de statistique choisi, le test sera parametrique ounon-parametrique.
Statistique
Definition : test parametrique
Un test parametrique est un test pour lequel on fait une hypothese sur la formedes donnees sous H0 (normale, Poisson, ...). Les hypotheses du test concernantalors les parametres gouvernant cette loi.
Exemple : On suppose que la tension sous medicament suit une loi N (µ1, σ1)et celle sous placebo suit une loi N (µ2, σ2).
H0 : µ1 = µ2
H1 : µ1 6= µ2
S =x1 − x2
σ√
1n
+ 1m
ou σ =
√(n − 1)σ1
2 + (m − 1)σ22
n + m − 2
La loi de S sous H0 est connue (loi de Student)
Statistique
Definition : test non-parametrique
Un test non parametrique est un test ne necessitant pas d’hypothese sur laforme des donnees. Les donnees sont alors remplacees par des statistiques nedependant pas des moyennes/variances des donnees initiales (tables decontingence, statistique d’ordre ...).
Exemple : on classe les tensions de tous les individus par ordre croissant et onregarde comment sont classes les personnes sont medicaments. On obtient parexemple
M M P M M P M P P M P P
S est alors la somme des rangs des individus sous medicaments. On peutdeterminer sa loi sous H0.
Region de rejet - Lateralite
Definition
La region de rejet est le sous-ensemble I de R tel qu’on rejette H0 si Sobs
appartient a I.
Definir une procedure de test peut donc se faire en definissant
1. une statistique
2. une region de rejet pour cette statistique
Exemple : Les test medicaux figurant sur une prise de sang, comme le taux defer.
H0 : La ferritine est entre 20 et 300µg/L
H1 : La ferritine est trop haute ou trop basse
Region de rejet - Lateralite
Definition
La region de rejet est le sous-ensemble I de R tel qu’on rejette H0 si Sobs
appartient a I.
La forme de la region de rejet definit la lateralite du test :
I test multilateral : On veut rejetter H0 si Sobs est trop grand ou trop petit,sans a priori. La region de rejet est alors de la forme ]−∞, a] ∪ [b,+∞[.
I test unilateral a droite : On veut rejetter H0 seulement si Sobs est tropgrand. La region de rejet est alors de la forme [a,+∞[.
I test unilateral a gauche : On veut rejetter H0 seulement si Sobs est troppetit. La region de rejet est alors de la forme ]−∞, b].
Exemples
On considere toujours des medicaments reduisant la tension arterielle. Quellessont les hypotheses pour repondre aux questions suivantes ?
I Comparaison entre deux medicaments en vente
H0 : µ1 = µ2
H1 : µ1 6= µ2
I Interet d’un nouveau medicament plus cher que l’existant.
H0 : µnew ≥ µold
H1 : µnew < µold
I Interet d’un nouveau medicament moins cher que l’existant.
H0 : µnew ≤ µold
H1 : µnew > µold
Exemples
On considere toujours des medicaments reduisant la tension arterielle.
I Comparaison entre deux medicaments en vente
H0 : µ1 = µ2
H1 : µ1 6= µ2
I Interet d’un nouveau medicament plus cher que l’existant.
H0 : µnew ≥ µold
H1 : µnew < µold
I Interet d’un nouveau medicament moins cher que l’existant.
H0 : µnew ≤ µold
H1 : µnew > µold
Probabilite critique
Definition
La probabilite critique (ou p-valeur) est la probabilite, sous H0, que lastatistique soit au moins aussi eloignee de son esperance que la valeur observee.En d’autres termes, c’est la probabilite d’observer quelque chose d’au moinsaussi surprenant que ce que l’on observe.
I Si le test est unilateral a droite, la probabilite critique est P(S > Sobs).
Sobs
Probabilite critique
Definition
La probabilite critique (ou p-valeur) est la probabilite, sous H0, que lastatistique soit au moins aussi eloignee de son esperance que la valeur observee.En d’autres termes, c’est la probabilite d’observer quelque chose d’au moinsaussi surprenant que ce que l’on observe.
I Si le test est unilateral a gauche, la probabilite critique est P(S < Sobs).
Sobs
Probabilite critique
Definition
La probabilite critique (ou p-valeur) est la probabilite, sous H0, que lastatistique soit au moins aussi eloignee de son esperance que la valeur observee.En d’autres termes, c’est la probabilite d’observer quelque chose d’au moinsaussi surprenant que ce que l’on observe.
I Si le test est bilateral et que la loi de la statistique est symetrique parrapport a 0, la probabilite critique est P(|S | > |Sobs |).
Sobs
Risque de premiere espece ou confiance
Definition
Le risque de premiere espece α est la probabilite sous H0 de la region de rejet.En d’autres termes, il s’agit de la proabilite avec laquelle on accepte de deciderH1 si la verite est H0.
α = PH0(H1)
La quantite 1− α est la confiance du test.
En d’autres termes, une proportion α des situations dans lesquelles la verite estH0 verront une decision en faveur de H1.
α est la probabilite avec laquelle on accepte de se tromper quand la veriteest H0
Autre maniere de mener le test
On peut comparer la p-valeur a α plutot que Sobs et la region de rejet.I si la p-valeur est superieure a α, il n’est pas exceptionnel sous H0
d’observer la valeur effectivement observee. Par consequent, H0 estacceptee.
I si la p-valeur est inferieure a α, la valeur observee est jugee exceptionnellesous H0. On decide alors de rejeter H0 et de valider H1.
Acceptation
Seuil
5%
Sobs
Autre maniere de mener le test
On peut comparer la p-valeur a α plutot que Sobs et la region de rejet.I si la p-valeur est superieure a α, il n’est pas exceptionnel sous H0
d’observer la valeur effectivement observee. Par consequent, H0 estacceptee.
I si la p-valeur est inferieure a α, la valeur observee est jugee exceptionnellesous H0. On decide alors de rejeter H0 et de valider H1.
Rejet
Seuil
5%
Sobs
Autre maniere de mener le test
On peut comparer la p-valeur a α plutot que Sobs et la region de rejet.
I si la p-valeur est superieure a α, il n’est pas exceptionnel sous H0
d’observer la valeur effectivement observee. Par consequent, H0 estacceptee.
I si la p-valeur est inferieure a α, la valeur observee est jugee exceptionnellesous H0. On decide alors de rejeter H0 et de valider H1.
Avantage
Cette methode permet de se rendre compte a quel point on est sur de sadecision : la position de la p-valeur par rapport a α ne depend pas de l’echelledes donnees, contrairement a Sobs et au(x) seuil(s) de la region de rejet.
Exemple : Si on a fixe α = 0.05, une p-valeur de 3.10−4 est clairement un rejet,alors qu’une p-valeur de 0.03 est un rejet ’de peu’ qu’il faudra nuancer aumoment de l’interpretation.
Risque de premiere espece ou confiance
I Hormis dans des cas de tests multiples non abordes dans ce cours, α variegeneralement entre 0, 01 et 0, 05.
I Dans le cas de variables continues, on peut choisir une valeur arbitraire deα et obtenir une region de rejet presentant exactement le risque α.
I Dans le cas de variables discretes, le nombre de regions de rejet, et doncde risques, possibles est fini ou denombrable. Dans ce cas, on fixe unrisque, dit risque nominal, par exemple de 5%. On cherche alors la plusgrande region ne depassant pas ce risque, qui devient la region de rejet. Leveritable risque, dit risque reel, peut alors etre recalcule.
Risque de deuxieme espece ou puissance
Definition
Le risque de deuxieme espece β est la probabilite d’accepter H0 alors que laverite est H1.
β = PH1(H0)
La quantite 1− β est la puissance du test.
VeriteH0 H1
DecisionH0 1-α βH1 α 1-β
Choix de α et β
H0 H1
S
αβ
Si l’echantillon reste inchange, une diminution de α entraıne une augmentationde β et inversement. Autrement dit, si on decide de reduire le nombre de fauxpositifs, on augmente forcement le nombre de faux negatifs.La seule maniere d’ameliorer les deux criteres est d’augmenter la taille del’echantillon.
Courbe de puissance
I Pour determiner la puissance, il faut connaıtre la lois de S sous H1, ce quin’est generalement pas le cas.
I On recourt alors a des courbes de puissance qui sont des courbes pourlaquelle la puissance est calculee pour des valeurs donnees des parametresdu probleme ou de la taille de l’echantillon.On ne sait pas ou se situe la situation reelle sur cette courbe mais on y litla probabilite de detecter H1 en fonction de son ’eloignement’ de H0.
Exemple : Courbe de puissance d’un test de Student bilateral sur 100 individusen fonction de mu[2]−mu[1] (en supposant que σ1 = σ2 = 1).
0.0 0.5 1.0 1.5
0.0
0.4
0.8
Principe du test
Les etapes d’un test sont toujours realisees dans l’ordre suivant :
1) Choix du risque α
2) Choix du type de test et de sa lateralite si besoin
3) Calcul de la statistique de test
4) Calcul de la p-valeur
5) Conclusion
En pratique, l’utilisation d’un logiciel type R permet de ne pas se soucier despartie 3) et 4). Par contre, les choix liees aux etapes 1) et 2) ainsi quel’interpretation finale ne peuvent etre faits par le logiciel.
Remarques sur les tests
I Le resultat d’un test comprend toujours une dose d’incertitude : ONNE SAIT JAMAIS SI ON A BIEN PRIS LA BONNE DECISION !
I La probabilite critique permet d’avoir une vision plus fine que sa simplecomparaison avec α. En effet, plus elle est petite, plus l’evenement observeest surprenant sous H0. Ainsi, pour α = 0.5, des probabilites critiques de10−6 et de 0.35 impliquent le rejet de H0 mais avec des degres decertitude different concernant la decision.
IV. QUEL TEST POUR REPONDRE A QUELLE QUESTION ?
IV.1. Test d’adequation
Adequation de l’esperance
Hypotheses
On considere un echantillon de donnees de taille n, de moyenne µ etd’ecart-type σ, et une moyenne a priori µ0. On veut savoir s’il est credible depenser que l’echantillon a ete tire dans une population de moyenne µ0 ou si lamoyenne de l’echantillon est significativement differente de µ0.
H0 : µ = µ0
H1 : µ 6= µ0
Statistique
Sous H0, on connaıt la loi de la statistique de Student definie par
t =µ− µ0
σ/√n
Il s’agit de la loi de Student a n − 1 degres de liberte.
Adequation de l’esperance
Lateralite - Region de rejet
Les trois options sont possibles : test unilateral a droite, a gauche ou bilateral.
Sous R
t.test en utilisant les parametres x pour l’echantillon et mu pour la valeurde µ0.
Version non parametrique
Test de Wilcoxon ( wilcox.test ). Dans ce cas, l’adequation est teste pourla mediane, et non pour l’esperance.
H0 : m = m0
H1 : m 6= m0
Exemple
On realise 20 sondages de taille 100 dans une population dont 55% des gensvotent pour le candidat d’interet. La moyenne de ces sondages est-ellesignificativement differente de 0.
> x <- rbinom(20,100,.55)
> x
[1] 60 61 47 56 55 48 60 54 55 59 50 58 55 61 54 64 37 62 54 49
> t.test(x,mu=50,alternative="two.sided")
One Sample t-test
data: x
t = 3.4573, df = 19, p-value = 0.002639
alternative hypothesis: true mean is not equal to 50
95 percent confidence interval:
51.95334 57.94666
sample estimates:
mean of x
54.95
Adequation d’un echantillon a une loi
Hypotheses
Soit (x1, . . . , xn) un echantillon tire suivant une loi L inconnue et L∗ une loifixee par l’utilisateur.
H0 : L = L∗
H1 : L 6= L∗
Statistique
On separe les valeurs possibles en k classes Ci . On note Oi le nombred’observations dans Ci . L’effectif moyen Ei de Ci sous H0 est donne parEi = np∗i ou p∗i est la probabilite qu-une v.a. X suivant la loi L∗ prenne savaleur dans Ci .L’ecart entre la realite et la theorie sous H0 est mesuree par la statistique
S =
k∑i=1
(np∗i −Oi)2
np∗i=
k∑i=1
O2i
np∗i− n
Sous H0, la loi de S tend vers une loi du chi-deux.
Remarque : En pratique, il faut que les effectifs 0i soit superieurs a 5 pourque l’approximation par une loi du chi-deux soit valide. Si ce n’est pas le cas, ilfaut fusionner des classes Ci (ce qui fera perdre de la puissance).
Adequation a une loi
Lateralite - Region de rejet
La region de rejet est de la forme RC > a.
Sous R
chisq.test
Autre possibilite
Test de Kolmogorov-Smirnov ( ks.test), qui est plus puissant que le test duχ2 mais dont l’utilisation est limitee aux distributions continues. Il consiste atester l’ecart maximal entre les fonctions de repartition theorique et empiriques.
A noter qu’il existe de nombreuses adaptations de ces tests pour testerl’appartenance a des familles de lois, notamment le test de Shapiro-Wilk pourles lois normales.
Exemple
On recueille le nombre de requetes par heure sur un serveur. On recueille lenombre de requetes sur 100 heures.Ce nombre suit-il une loi normale ?
> x[1:10]
[1] 290 303 287 291 324 306 291 319 308 327
> c(mean(x),var(x))
[1] 300.1400 305.7378
> ks.test(x,"pnorm",mean(x),sd(x))
One-sample Kolmogorov-Smirnov test
data: x
D = 0.099225, p-value = 0.2784
alternative hypothesis: two-sided
Exemple
On recueille le nombre de requetes par heure sur un serveur. On recueille lenombre de requetes sur 100 heures.Ce nombre suit-il une loi de Poisson de parametre 300 ?
> br<- c(min(x),280,290,300,310,320,max(x))
> nx <- hist(x,breaks=br)$counts
> nx
[1] 14 19 21 18 14 14
> att
[1] 12.95252 16.44741 22.13494 21.44826 15.11642 11.90045
> chisq.test(nx,p=patt)
Chi-squared test for given probabilities
data: nx
X-squared = 1.5463, df = 5, p-value = 0.9077
IV.2. Tests de comparaison d’esperance et de variance
Appariement
Definition
Des echantillons sont apparies s’ils correspondent a des mesures prises sur lesmemes individus
I mesurer la tension des memes personnes a des moments differents donnedes echantillons apparies.
I comparer la taille des hommes et des femmes ne peut pas se faire avec desechantillons apparies.
I comparer les temperatures de 1950 et 2015 aux memes stations meteodonne des echantillons apparies.
Remarque : Si possible, il vaut toujours mieux recueillir des donnees appariees,les tests en sont plus puissants.
Test d’egalite des variances : test de Fisher
Hypotheses
On dispose de deux echantillons d’ecart-types respectifs σ1 et σ2. On sedemande s’il est raisonnable de penser que les deux echantillons ont ete tiressuivant des lois de meme ecart-type ou si ils sont significativement differents.
H0 : σ1 = σ2
H1 : σ1 6= σ2
Statistique
F = σ12
σ22 suit une loi de Fisher Fn1,n2 sous H0.
Lateralite - Region de rejet
Les trois options enoncees au chapitre precedent sont possibles : rejet unilaterala droite, a gauche ou bilateral.
Sous R
var.test
Comparaison de la moyenne de deux echantillons : t-test ou test de Student
Hypotheses
On dispose de deux echantillons de moyennes respectives µ1 et µ2 etd’ecart-type respectifs σ1 et σ2. On se demande s’il est raisonnable de penserque les deux echantillons ont ete tires suivant des lois de meme esperance ou sileurs moyennes sont significativement differentes.
H0 : µ1 = µ2
H1 : µ1 6= µ2
Comparaison de la moyenne de deux echantillons : t-test ou test de Student
Statistique
La valeur de la statistique peut prendre quatre expressions differentes suivantsles criteres suivants :
appariement les echantillons sont apparies si ils sont correspondent adifferentes mesures prises sur les memes individus.
egalite des variances les variances sont significativement differentes ou pas (cftest de Fisher).
Toutes ces statistiques reposent en fait sur le meme principe qui est dedependre essentiellement de la difference µ1 − µ2, normalisee par une quantitepermettant d’obtenir une variable de loi de Student sous H0.Par exemple, dans le cas d’echantillons non apparies, de variance nonsignificativement differentes, et de taille respectives n et m,
t =µ1 − µ2
σ√
1n
+ 1m
ou
σ =
√(n − 1)σ1
2 + (m − 1)σ22
n + m − 2
Comparaison de la moyenne de deux echantillons : t-test ou test de Student
Lateralite - Region de rejet
Les trois options enoncees au chapitre precedent sont possibles : rejet unilaterala droite, a gauche ou bilateral.
Sous R
t.test en utilisant les parametres x et y pour les deux echantillons,alternative pour le lateralite, paired pour l’appariement ou non desechantillons et var.equal pour l’egalite des variances.
Version non parametrique
Test de Wilcoxon ou de Mann-Whitney (wilcox.test sous R).
Exemple
Pour n grand et p petit, la loi binomiale B(n, p) peut etre approximee par la loide Poisson P(np).
> x <- rbinom(100,100,.05)
> y <- rpois(100,5)
> var.test(x,y)
F test to compare two variances
data: x and y
F = 0.58046, num df = 99, denom df = 99, p-value = 0.007299
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.3905577 0.8626993
sample estimates:
ratio of variances
0.5804601
>
Exemple
Pour n grand et p petit, la loi binomiale B(n, p) peut etre approximee par la loide Poisson P(np).
> x <- rbinom(100,100,.05)
> y <- rpois(100,5)
> t.test(x,y,alternative="two.sided",paired=FALSE,var.equal=TRUE)
Two Sample t-test
data: x and y
t = 0.25794, df = 198, p-value = 0.7967
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.5316177 0.6916177
sample estimates:
mean of x mean of y
5.17 5.09
Exemple
Les proportions d’abeilles africaines (moins productives et plus agressives) ontete mesurees dans dix localites du Texas a dix ans d’intervalle. Y a-t-il uneaugmentation de la population ?
Piege 1 2 3 4 5 6 7 8 9 101980 0.330 0.146 0.518 0.339 0.693 0.249 0.438 0.695 0.135 0.3881990 0.360 0.177 0.524 0.447 0.140 0.392 0.534 0.263 0.157 0.566
> x <- c(0.330,0.146,0.518,0.339,0.693,0.249,0.438,0.695,0.135,0.388)
> y <- c(0.360,0.177,0.524,0.447,0.640,0.392,0.534,0.563,0.157,0.566)
> wilcox.test(x,y,paired=TRUE,alternative="less")
Wilcoxon signed rank test
data: x and y
V = 13, p-value = 0.08008
alternative hypothesis: true location shift is less than 0
Comparaison de la moyenne de plus de deux echantillons : ANOVA
Hypotheses
I Plusieurs echantillons dont on se demande si ils ont ete tires selon des loisde meme esperance.
I Decomposition
variance totale = variance intra-echantillons+variance entre les echantillons
I Pour mesurer la variance entre les echantillons, on cree un nouveau jeu dedonnees dans lequel on donne a chaque individu la valeur moyenne dansson echantillon. La variance du nouveau jeu de donnees est la varianceentre echantillons.
I
RC =variance de l’echantillon des moyennes
variance de l’echantillon initial
RC donne le pourcentage de la variabilite due a l’effet etudie par rapporta la variabilite totale.
Les hypotheses deviennent alors
H0 : RC = 0
H1 : RC > 0
Comparaison de la moyenne de plus de deux echantillons : ANOVA
Statistique
Soit n la taille de l’echantillon et g le nombre d’echantillons. La statistique
Z =n − g
g − 1RC
Sous H0, Z suit une loi de Fisher de parametres (g − 1,n − g).
Lateralite - Region de rejet
La region de rejet est de la forme RC > a.
Sous R
oneway.test avec pour argument une table a deux colonnes contenant dans lapremiere colonne la concatenation de tous les echantillons et dans la secondel’appartenance aux echantillons.
Version non parametrique
Test de Kruskal-Wallis (echantillons non apparies) ou test de Friedman(echantillons apparies).
Exemple> data(airquality)
> boxplot(airquality$Ozone~airquality$Month)
5 6 7 8 9
050
100
150
Exemple
> oneway.test(airquality$Ozone~airquality$Month)
One-way analysis of means (not assuming equal variances)
data: airquality$Ozone and airquality$Month
F = 8.0267, num df = 4.000, denom df = 42.668, p-value = 6.439e-05
IV.3. Tests d’independance
Independance de deux variables qualitatives : test du χ2
Table de contingence
I X et Y sont qualitatives : pas de coefficient de correlation possible
I Leur valeurs sont regroupees en respectivement r et s ensembles.
I Le tableau a r lignes et s colonnes contenant les effectifs est appele tablede contingence.
I Les sommes par lignes et colonnes donnent les effectifs marginaux. Lasomme globale donne l’effectif total.
Exemple :Guerison Non-guerison
Traitement 7 3Placebo 3 6
Test du χ2 d’independance
Formulation
H0 : X et Y sont independantes
H1 : X et Y ne sont pas independantes
Postulats
L’echantillon est grand.
Test du χ2 d’independance
Procedure
On note nij l’entree de la table dans la cellule i × j , ni• la somme des effectifsde la ligne i et n•j la somme des efectifs de lacolonne j .Sous hypothese d’independance,
P(X ∈ Ii ,Y ∈ Jj ) = P(X ∈ Ii)P(Y ∈ Jj )
ce qui se traduit, si on remplace les probabilites par leurs estimateurs, par uneegalite attendue entre nij et eij =
ni•n•jN
, ou N est l’effectif total.
La statistique
T =∑i,j
(nij − eij )2
eij=∑i,j
n2ij
eij−N
suit une loi du χ2 a (r − 1)(s − 1) degres de liberte sous H0.
Autre possibilite
Test exact de Fisher. Ne necessite pas de grands echantillons mais lourd d’unpoint de vue computationnel et supposant des sommes marginales fixees.
Exemple
Des cultures cellulaires de souches differentes sont soumises a desrayonnements radioactifs et la proportion de cellules mortes est relevee.
A B C Dray. α 23 34 17 78ray. β 58 64 56 86ray. γ 45 37 43 79
temoin 04 06 02 03
I valeur de la statistique de 23.6
I nombre de degres de liberte de 9
I p-valeur de 4.9 10−3. Les souches reagissent differemment auxrayonnements.
Independance d’une variable quantitative et d’une variable qualitative
On se ramene alors aux tests de comparaison de la section precedente.
Exemple : Pour tester si le taux d’une hormone est independant du sexe, oncompare les moyennes pour des echantillons des deux sexes.
Independance de deux variables qualitatives : test des coefficients decorrelation
Correlation de Pearson
corr(x,y) =cov(x,y)
sxsy
> x
[1] 0.59637725 0.61786741 0.74594744 0.93457381 0.29872870 0.55438860
[7] 0.93705296 0.19402199 0.09448572 0.60146355
> y
[1] 0.00285277 0.41158044 0.68761801 0.66404480 0.66798358 0.64610506
[7] 0.44145733 0.46760624 0.70261156 0.22489771
> z
[1] 0.01069205 0.67328534 0.81793833 0.72027774 0.86890047 0.68293838
[7] 0.55287843 0.55715159 0.91870563 0.45035580
> cor(x,y)
[1] -0.1458849
> cor(y,z)
[1] 0.9431016
Independance de deux variables qualitatives : test des coefficients decorrelation
Correlation des rangs de Spearman
ρ = corr(r(x), r(y))
ou r(x) designe l’echantillon des rangs tire de x.
> rank(x)
[1] 5 7 8 9 3 4 10 2 1 6
> rank(y)
[1] 1 3 9 7 8 6 4 5 10 2
> rank(z)
[1] 1 5 8 7 9 6 3 4 10 2
> cor(x,y,method="spearman")
[1] -0.2606061
> cor(y,z,method="spearman")
[1] 0.9515152
Independance de deux variables qualitatives : test des coefficients decorrelation
Correlation des rangs de Kendall
I Soit nc le nombre de concordances, c’est-a-dire de paires (xi , yi) et (xj , yj )telles que xi < xj et yi < yj ;
I Soit nd le nombre de discordances, c’est-a-dire de paires (xi , yi) et (xj , yj )telles que xi < xj et yi > yj ;
Le coefficient de Kendall est alors
τ =nc − nd
n(n − 1)/2
> rank(x)
[1] 5 7 8 9 3 4 10 2 1 6
> rank(y)
[1] 1 3 9 7 8 6 4 5 10 2
> rank(z)
[1] 1 5 8 7 9 6 3 4 10 2
> cor(x,y,method="kendall")
[1] -0.1555556
> cor(y,z,method="kendall")
[1] 0.8666667
Independance de deux variables qualitatives : test des coefficients decorrelation
Interpretation
Ces trois coefficients sont comris entre −1 et 1 et valent 0 pour des variablesindependantes.Une valeur significativement positive indique une correlation positive (Yaugmente quand X augmente).Une valeur significativement negative indique une correlation negative (Yaugmente quand X augmente).
Independance de deux variables qualitatives : test des coefficients decorrelation
Formulation
H0 : corr(x,y) = 0 ou ρ = 0 ou τ = 0
H1 : corr(x,y) 6= 0 ou ρ 6= 0 ou τ 6= 0
Lateralite
Le test peut etre mene de facon unilaterale pour ne detecter qu’une correlationpositive ou qu’une correlation negative.
Sous R
cor.test
Exemple
> cor.test(x,y,method="pearson")
Pearson's product-moment correlation
data: x and y
t = -0.41709, df = 8, p-value = 0.6876
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.7102707 0.5326686
sample estimates:
cor
-0.1458849
> cor.test(y,z,method="pearson")
Pearson's product-moment correlation
data: y and z
t = 8.0224, df = 8, p-value = 4.28e-05
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.7717296 0.9867777
sample estimates:
cor
0.9431016
V. ESTIMATION
V.1. Estimateurs
Probleme
I On s’interesse a la distribution d’un caractere X dans une population P.On suppose que la loi de X dans P (generalement de forme connue)depend d’un parametre θ inconnu (esperance, variance,...), eventuellementmulti-dimensionnel.On cherche a estimer la valeur de θ.
Exemple : On suppose que X suit une loi normale. Determiner µ et σ.
I Les tests permettent de prendre une decision binaire concernant cesparametres, ce qui est relie mais different de l’estimation.
I On suppose qu’on dispose d’un echantillon x = (x1, . . . , xn) de mesuresindependantes de X dans la population P.
Estimateur/Estimation
Estimateur
On appelle estimateur de θ une variable aleatoire Tn obtenue comme fonctiondu n-echantillon aleatoire (X1,X2, · · · ,Xn) ; autrement ditTn = f (X1,X2, · · · ,Xn).
Exemple : Si (X1, . . . ,Xn) est une suite de v.a. i.i.d. de meme loi que X , un
estimateur de la moyenne de X est X n =∑
i Xi
n
Estimateur
Soit Tn un estimateur de θ. On appelle estimation de θ, la realisation tn de lav.a. Tn , obtenue a partir de l’observation x = (x1, x2, · · · , xn)
tn = f (x1, x2, · · · , xn)
Exemple : µ =∑
i xin
I L’estimateur et l’estimation de θ sont souvent confondus et notes θ.
Qualite d’un estimateur : le biais
I Le biais de Tn est donne par Bn(θ) = E(Tn)− θ.
I Tn est un estimateur sans biais si E(Tn) = θ. Sinon, il est dit biaise.
I Si Bn(θ) tend vers 0 quand n tend vers l’infini, alors Tn est ditasymptotiquement sans biais.
Exemples :
I x =∑
i xin
est un estimateur sans biais de l’esperance
I σ2 = 1n−1
∑i(xi − x)2 a un denominateur de n − 1 et non de n pour en
faire un estimateur sans biais de la variance.
Qualite d’un estimateur : la consistance
Consistance
L’estimateur Tn de θ est consistant si il converge en moyenne quadratique versθ, quand n tend vers l’infini, c’est-a-dire si EQM (Tn) = E
[(Tn − θ)2
]tend
vers 0 quand la taille de l’echantillon augmente.
I La consistance traduit une propriete qu’on attend intuitivement d’unestimateur, a savoir qu’il converge vers la valeur du parametre θ a estimer,quand la taille n de l’echantillon tend vers l’infini.
I Une autre notion de convergence qu’on peut utiliser mais qui est plus forteet donc plus difficile a etablir est celle de convergence presque sure : dansce cas, on a P(limn→∞ tn = θ) = 1, c’est-a-dire que pour tout echantillonqui croıt indefiniment, l’estimation finira par tendre vers la vraie valeur deθ.
Exemple : La moyenne est un estimateur consistant de l’esperance d’un pointde vue de la convergence presque sure.
Intervalle de confiance d’une estimation
Les criteres de qualite precedents ne permettent pas d’evaluer l’imprecisionconcernant une estimation particuliere. Pour ce faire, on va chercher a encadrerla difference entre les estimations et la valeur de θ.
Intervalle de confiance
Soit α ∈]0, 1[. On appelle intervalle de confiance du parametre θ de niveau deconfiance 1− α (ou de risque α) un intervalle (aleatoire) Iα tel queP(θ ∈ Iθ,α) = 1− α.
Exemples
1. Le resultat d’un sondage devrait etre une estimation ponctuelle et unintervalle de confiance en dependant.
2. Quand on compare deux moyennes via un test de Student, un intervalle deconfiance de la difference est automatiquement genere. Le fait que 0 soitdans cet intervalle est equivalent a decider H1 avec un niveau de 5%.
> x <- runif(50,0,1)
> y <- runif(50,.5,1)
> t.test(x,y)
Welch Two Sample t-test
data: x and y
t = -3.9965, df = 70.747, p-value = 0.0001557
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.28567838 -0.09549295
sample estimates:
mean of x mean of y
0.5231755 0.7137611
Moyens d’obtenir des intervalles de confiance
1 : Approche frequentiste theorique
Determiner la loi de θ et choisir un intervalle dans laquelle cette loi se situeavec une probabilite 1− α.
Exemple : On realise un sondage de type OUI/NON sur un echantillon de taillen, la fraction de OUI dans la population etant p.Le TCL entraıne que le resultat p du sondage a 95% de chances d’etre dansl’intervalle
p − 1.96p(1− p)
n; p + 1.96
p(1− p)
n
ce qui donne un intervalle de confiance a 95% pour p de
p − 1.96p(1− p)
n; p + 1.96
p(1− p)
n
En pratique, p n’etant pas connu, il faut en fait remplacer la variance p(1− p)par une estimation de la variance et utiliser une loi de Student plutot qu’une loinormale.
Moyens d’obtenir des intervalles de confiance
2 : Approche bayesienne
Considerer θ comme une variable aleatoire, dont on se donne une loi a prioriP(θ), qu’on veut mettre a jour au vu des donnees.
P(θ|X ) =P(X |θ)P(θ)
P(X )
La loi P(θ|X ), appelee loi a posteriori, permet de determiner un intervalle danslequel θ se trouve avec probabilite 1− α.
I influence du choix de la loi a priori, possibilite d’y onclure d’autre typesd’information
I possibilite d’utiliser un algorithme MCMC (Monte-Carlo Markov-Chain)pour apprendre la loi a posteriori quand le calcul theorique n’est paspossible
Moyens d’obtenir des intervalles de confiance
3 : Bootstrapping
On genere un grand nombre de jeux de donnees de meme taille a partir du jeude donnees en effectuant des tirages avec remise.Pour chacun des jeux ainsi crees, on evalue l’estimateur, obtenant ainsi unedistribution de l’estimation, ce qui conduit a un intervalle de confiance.
> library(boot)
> x <- c(52, 10, 40, 104, 50, 27, 146, 31, 46)
> mean(x)
[1] 56.22222
> bb <- boot(data = x, statistic = function(x, index) mean(x[index]),
+ R = 1000)
> bb
ORDINARY NONPARAMETRIC BOOTSTRAP
Call:
boot(data = x, statistic = function(x, index) mean(x[index]),
R = 1000)
Bootstrap Statistics :
original bias std. error
t1* 56.22222 -0.7888889 13.31232
V.2 Estimation par maximum de vraisemblance
Vraisemblance
Vraisemblance
On considere une variable aleatoire X suivant une loi de parametresθ = (θ1, . . . , θp).On considere des donnees x = (x1, . . . , xn) correspondant a un echantillon tiresuivant X .La vraisemblance des donnees suivant le modele est
L(θ) = P(X1 = x1, . . . ,Xn = xn |θ)
En d’autres termes, la vraisemblance est une fonction de θ qui donne laprobabilite d’observer les donnees si la valeur du parametre est θ.
Exemple : X ∼ N (µ, σ) et x un echantillon d’observations independantes.
L(µ, σ) =n∏
i=1
( 1
σ√
2πe−
(xi−µ)2
2σ)
Maximum de vraisemblance
Estimation du maimum de vraisamblance
Une maniere d’estimer θ est de choisir
θ = argmaxθL(θ)
En d’autres termes, la value retenue pour θ est celle pour laquelle la probabilitede voir ce que l’on observe est maximale.
Le probleme devient alors un probleme d’optimisation de fonction.
Log-vraisemblance
La fonction logarithme etant strictement croissante, L et log(L) atteigne leurmaximum au meme endroit. On peut donc maximiser la log-vraisemblancelogL quand cela se revele plus simple, l’estimateur sera le meme.Ceci est notamment pertinent lorsque l’echantillon correspond a desobservations independantes.
Exemple 1 : Estimateur pour une loi de Poisson
I X ∼ P(λ)
I x echantillon de n tirages independants.
I
L(λ) =n∏
i=1
λxi
xi !e−λ
I
logL(λ) =n∑
i=1
(xi log(λ)− log(xi !)− λ
I Annuler la derivee de la fonction precedente donne
λ =
∑xi
n
Exemple 2 : Estimateur pour une loi normale
I X ∼ N (µ, σ)
I x echantillon de n tirages independants.
I
L(µ, σ) =n∏
i=1
( 1
σ√
2πe−
(xi−µ)2
2σ)
I
logL(µ, σ) = −n log(√
2π)− n log σ −n∑
i=1
(xi − µ)2
2σ
I Annuler simultanement les derivees partielles de la fonction precedentedonne
µ =
∑xi
nσ =
1
n
n∑i=1
(xi − µ)2
Exemple 3
I On considere une sequence d’ADN.
I On prend un modele simple ou les nucleotides sont independants et onnote pZ la probabilite que chaque lettre soit un Z , Z ∈ A,C ,G,T.
I Soit nZ le nombre de Z observes, Z ∈ A,C ,G,T et n la longueurtotale de la sequence.
I
L(pA, pC , pG , pT ) =
n∏i=1
(pXi
)I
logL(pA, pC , pG , pT ) = nA log(pA)+nC log(pC )+nG log(pG)+nT log(pT )
I Il faut utiliser des multiplicateurs de Lagrange pour resoudre le problemed’optimisation sous la contrainte pA + pC + pG + pT = 1. On en deduit
pZ =nZ
n, ∀Z ∈ A,C ,G,T
Exemple 4
I On considere un modele de melange gaussien.
I Tout individu tire un groupe Zi au hasard parmi (1, . . . ,K ) avecP(Zi = k) = αk . On dit que Zi suit une loi multinomiale de parametreα = (α1, . . . , αn).
I Xi ∼ N (µk , σ2k ) avec k = Zi .
I
L(µ, σ) =∑
Z1,...,Zn
n∏i=1
( 1
σZi
√2π
e−
(xi−µZi)2
2σZi
)I Le probleme d’optimisation devient plus dur a resoudre. De nombreuses
heuristiques ont ete developpees pour optimiser des vraisemblancescompliquees
I descente de gradientI algorithme Monte-Carlo Markov-ChainI algorithme Expectation-Maximisation
V.3. Modele lineaire
Modele lineaire gaussien
Modele
Soit X une variable explicative et Y une variable a expliquer. Le modelelineaire gaussien revient a considerer que
Y = α+ βX + ε
ou ε est un terme de bruit qui suit une loi normale centree N (0, σ2)
Exemple : Poids en fonction de la taille, rythme cardiaque au repos en fonctionde l’age.
Probleme
Estimer les parametres α, β, σ du modele.
Estimateur du maximum de vraisemblance
I On dispose d’observations (xi , yi), 1 ≤ i ≤ n.
I
logL(α, β, σ) = −n
2log(2π)− n log(σ)−
n∑i=1
(yi − α− βxi)2
2σ2
I En ce qui concerne α et β, maximiser la vraisemblance revient a minimiserle dernier terme, c’est-a-dire utiliser les estimateurs des moindres carres.
a =
∑i(xi − x)(yi − y)∑
i(xi − x)2
b = y − ax
Generalisations du modele lineaire gaussien
I On peut considerer plusieurs variable explicatives X1, . . . ,Xn .
Y = α+∑i
βiXi + ε
ou ε est un terme de bruit qui suit une loi normale centree N (0, σ2)
I On peut egalement introduire des effets croises. Pour deux variablesexplicatives, cela donne le modele
Y = α+ β1X1 + β2X2 + β12X12 + ε
ou ε est un terme de bruit qui suit une loi normale centree N (0, σ2)
I On peut appliquer le modele a une fonction f (Y ) plutot qu’a Y . Si onpense que Y croıt exponentiellement avec X , on pourra par exemplel’appliquer a log(Y ).
Sous R
lm
Modele logistique
Considerons maintenant une variable a expliquer binaire.
I On ne peut pas directement ecrire un modele lineaire concernant Y .
I On peut cependant chercher a expliquer P(Y = 1) en fonction desvariables explicatives.
I La fonction logistique definie par logit(t) = log t1−t
est une bijection entre[−1, 1] et R.
I Le modele logistique revient a ecrire logit(P(Y = 1)) en fonction desvariables explicatives.
logit(P(Y = 1)) = α+∑i
βiXi
Sous R
glm
Exemple
I Le jeu de donnees esoph sous R contient le nombre de patients atteintsd’un cancer de l’oesophage et de patients sains dans un echantillonstratifie suivant l’age (6 classes), la consommation d’alcool (4 classes) etla consommation de tabac (4 classes) des sondes.
I Soit Yi la variable aleatoire correspondant a l’indicatrice du fait quel’individu i developpe un cancer de l’oesophage. On considere le modele deregression logistique suivant :
log(P(Yi = 1)
1− P(Yi = 1)) = α+ βAgei + γTabi + δAlci
ou Agei ∈ 1, . . . , 6, Tabi ∈ 1, . . . , 4 et Alci ∈ 1, . . . , 4 designent lesclasses de l’individu i suivant les trois variables qualitatives transformeesen variables ordinales.
I L’estimateur du maximum de vraisemblance θ peut etre determine.
Exemple
> model <- glm(cbind(ncases,ncontrols) ~ unclass(agegp)+unclass(alcgp)+unclass(tobgp), data=esoph, family='binomial')
> EMV <- model$coefficients
> EMV
(Intercept) unclass(agegp) unclass(alcgp) unclass(tobgp)
-5.5959444 0.5286674 0.6938248 0.2744565
V.4. Comment determiner le maximum de vraisemblance ?
Methode analytique
I La vraisemblance est une fonction a une ou plusieurs variables. Soit n cenombre.
I Au(x) point(s) ou une fonction admet son maximum, toutes ses deriveespartielles s’annulent.
∂L∂θ1
(θ1, . . . , θn) = 0
. . .
∂L∂θn
(θ1, . . . , θn) = 0
I On resout le systeme a n equations et n inconnues.
I On evalue la vraisemblance en toutes les solutions au systeme precedent,et on en deduit le maximum.
Avantage : Simple et rapide a mettre programmer puisque l’estimateur estsimplement une fonction.
Inconvenient : Ne permet pas de traiter de nombreuses fonctions tropcomplexes.
Descente du gradient
I On considere le probleme consistant a minimiser l’oppose de lavraisemblance.
I Pour minimiser une fonction f , on peut partir d’un point x (0) puisconstruire une suite
x (k+1) = x (k) − αk∇f (x (k))
ou αk∇f (x (k) designe le gradient, c’est-a-dire le vecteur de toutes lesderivees partielles evalees en x (k).
Avantage : General et rapide pour toute fonction convexe
Inconvenient : Si la fonction n’est pas convexe, l’algorithme reste enfermedans une seule ’cuvette’, qui ne correspond pas forcement a lameilleure solution.
Exemple d’algorithme MCMC : Metropolis-Hastings par marche aleatoire
I Le principe des algorithmes MCMC est de simuler suivant la distributionproportionnelle a une fonction donnee en construisant une chaıne deMarkov dont la mesure limite est egale a la distribution en question.
I On choisit x0 quelconque et on applique (aussi longtemps que possible) lepas suivant
1. Generer yn ∼ g(y − xn), g symetrique
2. Choisir
xn+1 =
yn avec probabilite ρ(xn , yn)xn avec probabilite 1− ρ(xn , yn)
ou
ρ(x , y) = min f (y)
f (x), 1
Algorithmes MCMC
I Algorithme de Metropolis-Hastings : une proposition de deplacement dansl’espace est faite et est acceptee avec une certaine probabilite
I Echantillonnage de Gibbs : les coordonnees sont changees une a une, maison accepte systematiquement la proposition
I Algorithme du recuit simule : adaptation de MH pour l’optimisation. Lataille des pas des propositions tend vers 0, ce qui amene l’algorithme aconverger vers une solution qu’on espere etre le maximum.
Avantage tout algorithme MCMC converge vers la bonne distribution
Inconvenient on ne sait jamais si on a deja converge ou pas : il peut resterune partie de l’espace ou la distribution n’est pas nulle mais quin’a pas encore ete explore. On parle de masse manquante
Conclusion il faut toujours faire tourner de tels algorithmes le pluslongtemps possible !
Exemple
I jeu de donnees esoph sous R : nombre de cancer de l’oesophage et depatients sains dans un echantillon stratifie suivant l’age, la consommationd’alcool et la consommation de tabac.
I Yi la variable aleatoire correspondant a l’indicatrice du fait que l’individu ideveloppe un cancer de l’oesophage.
I modele de regression logistique :
log(P(Yi = 1)
1− P(Yi = 1)) = α+ βAgei + γTabi + δAlci
Question
Trouver un intervalle de confiance de niveau 95% pour la probabilite dedevelopper un cancer pour un individu dont les variables Agei , Tabi et Alcisont connues.
Exemple
> #Calcul de la vraisemblance a une constante pres pour une valeur de Theta
> logit <- function(x)
+ return(exp(x)/(1+exp(x)))
+
> LogLikelihood <- function(Theta, data)
+ logL <- 0
+ coeffmatrix <- cbind(1,data$agegp,data$alcgp,data$tobgp) #matrice des coefficients correspondant a chaque possibilite
+ for (i in 1:dim(data)[1])
+ proba <- logit(t(Theta)%*%coeffmatrix[i,])
+ logL <- logL+log(proba)*data$ncases[i]+log(1-proba)*data$ncontrols[i]
+
+ logL <- logL + sum(log(dnorm(Theta))) # ajouter la loi a priori ou chacune prise comme loi normale central reduite
+ return(logL)
+
>
Exemple> trajectoryRW <- function(Nsim,data,width,X0)
+
+ X <- matrix(X0,1,4)
+ proba <- c()
+ for (n in 2:Nsim)
+ Y <- runif(4,-width,width)
+ rho <- exp(LogLikelihood(X[n-1,]+Y,data) - LogLikelihood(X[n-1,],data))
+ X <- rbind(X, X[n-1,] + Y * (runif(1)<rho))
+ if (floor(n/100)==(n/100)) print(n)
+ s <- t(X[n,])%*%c(1,1,3,1)
+ proba <- c(proba,exp(s)/(1+exp(s)))
+
+ return(list(X=X,proba=proba))
+
> data <- esoph
> data$tobgp <- unclass(data$tobgp)
> data$alcgp <- unclass(data$alcgp)
> data$agegp <- unclass(data$agegp)
> trajectory <- trajectoryRW(10000,data,.1,c(0,0,0,0))
[1] 100
[1] 200
[1] 300
[1] 400
[1] 500
[1] 600
[1] 700
[1] 800
[1] 900
[1] 1000
[1] 1100
[1] 1200
[1] 1300
[1] 1400
[1] 1500
[1] 1600
[1] 1700
[1] 1800
[1] 1900
[1] 2000
[1] 2100
[1] 2200
[1] 2300
[1] 2400
[1] 2500
[1] 2600
[1] 2700
[1] 2800
[1] 2900
[1] 3000
[1] 3100
[1] 3200
[1] 3300
[1] 3400
[1] 3500
[1] 3600
[1] 3700
[1] 3800
[1] 3900
[1] 4000
[1] 4100
[1] 4200
[1] 4300
[1] 4400
[1] 4500
[1] 4600
[1] 4700
[1] 4800
[1] 4900
[1] 5000
[1] 5100
[1] 5200
[1] 5300
[1] 5400
[1] 5500
[1] 5600
[1] 5700
[1] 5800
[1] 5900
[1] 6000
[1] 6100
[1] 6200
[1] 6300
[1] 6400
[1] 6500
[1] 6600
[1] 6700
[1] 6800
[1] 6900
[1] 7000
[1] 7100
[1] 7200
[1] 7300
[1] 7400
[1] 7500
[1] 7600
[1] 7700
[1] 7800
[1] 7900
[1] 8000
[1] 8100
[1] 8200
[1] 8300
[1] 8400
[1] 8500
[1] 8600
[1] 8700
[1] 8800
[1] 8900
[1] 9000
[1] 9100
[1] 9200
[1] 9300
[1] 9400
[1] 9500
[1] 9600
[1] 9700
[1] 9800
[1] 9900
[1] 10000
> xRW <- as.mcmc(trajectory$X)
> prRW <- as.mcmc(trajectory$proba)
>
Exemple
> plot(prRW,main='Proba')
0 4000 10000
0.1
0.3
0.5
Proba
Iterations
0.1 0.3 0.50
515
Proba
N = 9999 Bandwidth = 0.003334
IV FILES D’ATTENTES
Probleme
On considere un systeme accueillant des clients et gerant leur requetes.
Les questions qui se posent sont de determiner, en fonction des processusd’arrivee et de gestion des requete,
I la taille de la file d’attente
I la duree moyenne d’attente pour un client
IV.1 Loi de Little
Loi de Little
Loi de Little
Soit λ le nombre moyen d’arrivees par unite de temps, T le temps moyen passepar un client dans le systeme et N le nombre moyen de clients presents dans lesysteme.Alors
N = λT
Demonstration (avec les mains) : Considerons un intervalle de longueur t assezgrande. Supposons qu’on paye un euro par par client dans le systeme et parunite de temps.La somme payee vaut a peu pres Nt par definition de N .Durant cet intervalle, λt client entrent dans le systeme et chacun y reste enmoyenne T unites de temps.
Consequence
Etre capable d’etudier le comportement asymptotique de N nous donnera parla meme occasion le temps moyen d’attente dans le systeme.
IV.2 Processus de Poisson
Lois exponentielles et de Poisson
Loi exponentielle
Une variable aleatoire suit une loi exponentielle de parametre λ, et on noteX ∼ E(λ), si elle est a valeurs dans R+ de densite
fX (x) = λe−λx
On a alors E(X ) = 1λ
et Var(X ) = 1λ2
Loi de Poisson
Une variable aleatoire suit une loi de Poisson de parametre λ, et on noteX ∼ P(λ), si elle est a valeurs dans N et que
P(X = k) =λk
k !e−λ
On a alors E(X ) = λ et Var(X ) = λ
Arrivees sans memoire
I On veut modeliser un processus d’arrivee sans memoire, c’est-a-dire que laprobabilite qu’un client arrive dans le prochain intervalle de longueur ∆test independant du moment d’arrivee du dernier client.
I Soit X la variable aleatoire modelisant le temps d’attente entre deuxvariables
P(X ≥ t + ∆t |X ≥ t) = P(X ≥ ∆t)
Propriete
Si X est une variable sans memoire, X suit une loi exponentielle.
Processus de Poisson
On considere une suite de variables aleatoires (τi)i ∈ N i.i.d, de loiexponentielle E(λ) modelisant les temps successifs entre deux arrivees. On noteTn =
∑ni=1 τi .
Le processus de Poisson Nt d’intensite λ est la variable aleatoire comptant lenombre d’arrivee precedant l’instant t :
Nt =∑n≥1
I(Tn ≤ t)
Le nom de processus de Poisson est du a la propriete suivante.
Propriete
P(Nt = n) =(λt)n
n!e−λt
En d’autres termes, Nt ∼ P(λt).
Proprietes plus fortes
Propriete
Soit t1 < t2 < . . . < tn une suite de points de temps. Alors les variables Nt1 ,Nt2 −Nt1 , Nt3 −Nt2 , . . . ,Ntn −Ntn−1 sont independantes et de loiP(λ(tk − tk−1))1≤k≤n .
Propriete
Conditionnellement a l’evenement Nt = n, les temps S1, . . . ,Sn sont repartiscomme n variables uniformes sur [0, t ], independantes et reordonnees par ordrecroissant.En d’autres termes, soit U1, . . . ,Un des v.a. i.i.d uniformes sur [0, t ]. Soit U(1)
la plus petite, U(2) la suivante, ... , U(n) la plus grande. Alors,
L(S1, . . . ,Sn |Nt = n) = L(U(1), . . . ,U(n))
IV.3 Exponentielle de matrice et chaınes de Markov continues
Exponentielle de matrice
I Soit Q une matrice carree. On definit l’exponentielle de Q par
eQ =
+∞∑k=0
1
k !Qk
I Elle est facile a calculer pour une matrice diagonale ou diagonalisable
I Si A et B commutent, eA+B = eAeB .
Theoreme
Soit P(t) une fonction matricielle. L’unique solution de
P ′(t) = P(t)Q
est P(t) = P(0)etQ .
Chaınes de Markov continues - Definitions
I On considere un processus (Xt)t≥0 prenant ses valeurs dans un ensemblediscret, eventuellement infini. Il s’agit d’une chaıne de Markov si Xt+h |Xt
est independante de tout Xs , s < t .
I On definit P(t) par Pij (t) = P(Xt = i |X0 = j ).
I On definit la matrice Q telle que qij = limh→0P(Xt+h=j |Xt=i)
hsi i 6= j et
qii = −∑
j 6=i qij .
I Soit π(t) la distribution au temps t .
Chaınes de Markov continues - Convergence
I P ′(t) = P(t)Q
I Si la chaıne est irreductible, π(t) converge vers l’unique mesure π verifiantπ = πP(1).
I Ceci est equivalent a πQ = 0.
IV.3 File M/M/1/∞
File M/M/1/∞
On considere une file dite M/M/1/∞ , c’est-a-dire regie par les lois suivantes :
I Les inclusions se font suivant un proscessus de Poisson de parametre λ
I Un seul client peut etre servi a la fois
I Le temps d’un service d’un client suit une loi exponentielle de parametreµ, et les temps de service des clients sont independants
I La file peut atteindre une longueur infinie.
Notons A(t) le nombre d’arrivees ayant eu lieu a l’instant t et D(t) le nombrede depart. Le nombre de clients presents est alors
N (t) = A(t)−D(t)
La question est de determiner le comportement de N (t).
File M/M/1/∞ : λ > µ
E(A(t)) = λt et E(D(t)) = µt
donc
limn→+∞
E(N (t)) = +∞
On peut en fait montrer un resultat plus fort, a savoir que la file devient infinieavec probabilite 1.
File M/M/1/∞ : λ = µ
Ce cas est d’un point de vue mathematique un cas a part que nous netraiterons pas et qui abooutit un resultat suivant :
I la file se vide infiniment souvent avec probabilite 1 (tout client finira doncpar etre servi)
I l’esperance du temps entre deux moments ou la file se vide est infinie.
D’un point de vue applicatif, seul le cas λ < mu est realiste.
File M/M/1/∞ : λ < µ
I La file se vide en moyenne plus qu’elle e se remplit.
I Elle a tres peu de chances de devenir infinie et va donc essentiellement secomporter comme une chaıne de Markov.
I Elle tend vers une distribution limite a etablir.
File M/M/1/∞ : λ < µ
I La file se vide en moyenne plus qu’elle e se remplit.
I Elle a tres peu de chances de devenir infinie et va donc essentiellement secomporter comme une chaıne de Markov.
I Elle tend vers une distribution limite a etablir.
Considerons un h petit
P(N (t + h)−N (t) = 1) = λh + o(h)
P(N (t + h)−N (t) = −1) = µh + o(h)
P(N (t + h)−N (t) > 1) = o(h)
P(N (t + h)−N (t) < −1) = o(h)
P(N (t + h)−N (t) = 0) = 1− λh − µh + o(h)
File M/M/1/∞ : λ < µ
En faisant tendre h vers 0, on peut modeliser la taille de la file par une chaınede Markov continue de matrice de transitions
Q =
−λ λµ −λ− µ λ
µ −λ− µ λ...
Loi limite
Soit ρ = λµ
. La resolution de πQ = 0 donne
π(k) = ρkπ(0) avec π(0) = 1− ρ
La loi limite est donc une loi geometrique et
N =ρ
1− ρ
T =1
µ(1− ρ)
Generalisation : principe
La demarche precedente reste valable pour de nombreux autres processusd’arrivees ou de traitement. Si les taux de transition entre les tailles de file nedependent que de la taille actuelle, l’approche par chaıne de Markov continuereste valable, seule les formules de recurrence changent.
En general, il est raisonnable de penser qu’on ne gagne ou ne perd qu’un clienta la fois, ce qui donne une matrice
Q =
−λ0 λ0
µ1 −λ1 − µ1 λ1
µ2 −λ2 − µ2 λ2
...
Arrivees decouragees
Les arrivees sont d’autant plus rares que la file est deja grande :
λk =λ
k + 1et µk = µ
Alors π(k) = ρk
k !π(0) d’ou
N = ρ
T =ρ
µ(1− e−ρ)
Autres generalisations
Cette approche permet de gerer toutes les files de type M/M :
M/M/1/K λk = λ si k ≤ K − 1, λk = 0 sinon.
M/M/m/∞ muk = kµ si k ≤ m, µk = mµ sinon.
M/M/m/K On considere les deux precedentes simultanement.