probabilité et statistique unige ressources

download probabilité et statistique unige ressources

of 238

Transcript of probabilité et statistique unige ressources

  • 7/27/2019 probabilit et statistique unige ressources

    1/238

    Probabilits et StatistiqueY. Velenik

    Version du 24 mai 2012

    Dernire version tlchargeable ladressehttp://www.unige.ch/math/folks/velenik/cours.html

    2011-2012

  • 7/27/2019 probabilit et statistique unige ressources

    2/238

    2

  • 7/27/2019 probabilit et statistique unige ressources

    3/238

    Table des matires

    Table des matires 3

    1 Introduction 71.1 Modlisation des phnomnes alatoires . . . . . . . . . . . . . . . . . . . . 8

    1.1.1 Univers. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.1.2 vnements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.1.3 Mesure de probabilit . . . . . . . . . . . . . . . . . . . . . . . . . . 13

    1.2 Rsum du chapitre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

    2 Probabilit, indpendance 152.1 Axiomatique de la thorie des probabilits . . . . . . . . . . . . . . . . . . . 15

    2.2 Construction despaces probabiliss . . . . . . . . . . . . . . . . . . . . . . . 182.2.1 Univers fini . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.2.2 Univers dnombrable . . . . . . . . . . . . . . . . . . . . . . . . . . . 232.2.3 Univers non-dnombrable . . . . . . . . . . . . . . . . . . . . . . . . 24

    2.3 Probabilit conditionnelle, formule de Bayes . . . . . . . . . . . . . . . . . . 272.4 Indpendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 332.5 Expriences rptes, espace produit . . . . . . . . . . . . . . . . . . . . . . 352.6 Rsum du chapitre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

    3 Variables alatoires 393.1 Dfinitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

    3.1.1 Variables alatoires et leurs lois . . . . . . . . . . . . . . . . . . . . . 393.1.2 Variables alatoires dfectives . . . . . . . . . . . . . . . . . . . . . . 413.1.3 Fonction de rpartition dune variable alatoire . . . . . . . . . . . . 42

    3.2 Variables alatoires discrtes . . . . . . . . . . . . . . . . . . . . . . . . . . . 433.2.1 Exemples importants de variables alatoires discrtes . . . . . . . . . 45

    3.3 Variables alatoires densit . . . . . . . . . . . . . . . . . . . . . . . . . . 493.3.1 Exemples importants de variables alatoires densit . . . . . . . . . 52

    3.4 Indpendance de variables alatoires . . . . . . . . . . . . . . . . . . . . . . 57

    3

  • 7/27/2019 probabilit et statistique unige ressources

    4/238

    TABLE DES MATIRES

    3.5 Vecteurs alatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 593.5.1 Loi conjointe et fonction de rpartition conjointe . . . . . . . . . . . 593.5.2 Vecteurs alatoires discrets . . . . . . . . . . . . . . . . . . . . . . . 61

    3.5.3 Vecteurs alatoires densit . . . . . . . . . . . . . . . . . . . . . . . 623.6 Esprance, variance, covariance et moments . . . . . . . . . . . . . . . . . . 66

    3.6.1 Esprance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 663.6.2 Variance, moments dordre suprieurs . . . . . . . . . . . . . . . . . 743.6.3 Covariance et corrlation . . . . . . . . . . . . . . . . . . . . . . . . . 763.6.4 Vecteurs alatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . 793.6.5 Absence de corrlation et indpendance . . . . . . . . . . . . . . . . 793.6.6 Esprance conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . 81

    3.7 Dtermination de la loi dune variable alatoire . . . . . . . . . . . . . . . . 843.8 Variables alatoires gnrales . . . . . . . . . . . . . . . . . . . . . . . . . . 84

    3.8.1 Intgration au sens de Lebesgue . . . . . . . . . . . . . . . . . . . . . 85

    3.8.2 Esprance dune variable alatoire quelconque . . . . . . . . . . . . . 893.8.3 Intgrales multiples . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

    4 Fonctions gnratrices et caractristiques 914.1 Fonctions gnratrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

    4.1.1 Dfinition, proprits . . . . . . . . . . . . . . . . . . . . . . . . . . . 914.1.2 Application aux processus de branchement . . . . . . . . . . . . . . . 954.1.3 Fonction gnratrice conjointe . . . . . . . . . . . . . . . . . . . . . . 98

    4.2 Fonctions caractristiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1004.2.1 Dfinition et proprits lmentaires . . . . . . . . . . . . . . . . . . 1004.2.2 Quelques exemples classiques . . . . . . . . . . . . . . . . . . . . . . 104

    5 Thormes limites 1075.1 Un point technique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1075.2 Quelques outils . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

    5.2.1 Les lemmes de Borel-Cantelli . . . . . . . . . . . . . . . . . . . . . . 1085.2.2 Quelques ingalits . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

    5.3 Modes de convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1115.4 La loi des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

    5.4.1 La loi faible des grands nombres . . . . . . . . . . . . . . . . . . . . 1135.4.2 La loi forte des grands nombres . . . . . . . . . . . . . . . . . . . . . 117

    5.5 Le Thorme Central Limite . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

    5.6 La loi 0-1 de Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

    6 Introduction la statistique 1236.1 Estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

    6.1.1 Dfinition, consistance, biais . . . . . . . . . . . . . . . . . . . . . . . 1236.1.2 Quelques exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1256.1.3 Construction destimateurs . . . . . . . . . . . . . . . . . . . . . . . 1266.1.4 Comparaison destimateurs . . . . . . . . . . . . . . . . . . . . . . . 129

    4

  • 7/27/2019 probabilit et statistique unige ressources

    5/238

    TABLE DES MATIRES

    6.2 Intervalles de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1306.2.1 Dfinition et exemples . . . . . . . . . . . . . . . . . . . . . . . . . . 1306.2.2 Intervalles de confiance par excs et asymptotiques . . . . . . . . . . 131

    6.2.3 Normalit asymptotique . . . . . . . . . . . . . . . . . . . . . . . . . 1346.3 Tests dhypothses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134

    6.3.1 Un exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1346.3.2 Procdure de test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1356.3.3 Cas gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1366.3.4 Tests dhypothses simples . . . . . . . . . . . . . . . . . . . . . . . . 1376.3.5 Tests du 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140

    7 Marches alatoires 1437.1 Quelques gnralits sur les processus stochastiques . . . . . . . . . . . . . . 1437.2 Marche alatoire simple unidimensionnelle . . . . . . . . . . . . . . . . . . . 144

    7.2.1 Ruine du joueur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1467.2.2 Proprits trajectorielles : approche combinatoire . . . . . . . . . . . 1477.2.3 Proprits trajectorielles : fonctions gnratrices . . . . . . . . . . . . 156

    7.3 Marche alatoire simple sur Zd . . . . . . . . . . . . . . . . . . . . . . . . . 1597.3.1 Probabilits de sortie . . . . . . . . . . . . . . . . . . . . . . . . . . . 1607.3.2 Rcurrence et transience des marches alatoires sur Zd . . . . . . . . 1627.3.3 Convergence vers le mouvement brownien . . . . . . . . . . . . . . . 164

    8 Les chanes de Markov 1678.1 Dfinition et exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1678.2 Chanes de Markov absorbantes . . . . . . . . . . . . . . . . . . . . . . . . . 172

    8.3 Chanes de Markov irrductibles . . . . . . . . . . . . . . . . . . . . . . . . . 1778.3.1 Distribution stationnaire . . . . . . . . . . . . . . . . . . . . . . . . . 1808.3.2 Convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1838.3.3 Rversibilit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185

    9 Modle de percolation 1899.1 Dfinition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1899.2 Transition de phase . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191

    10 Le processus de Poisson 19510.1 Dfinition et proprits lmentaires . . . . . . . . . . . . . . . . . . . . . . 195

    10.2 Autres proprits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20210.2.1 Le paradoxe de lautobus . . . . . . . . . . . . . . . . . . . . . . . . 20210.2.2 Processus de Poisson et statistiques dordre . . . . . . . . . . . . . . 20310.2.3 Superposition et amincissement . . . . . . . . . . . . . . . . . . . . . 20410.2.4 Processus de Poisson non homogne . . . . . . . . . . . . . . . . . . 20710.2.5 Processus de Poisson compos . . . . . . . . . . . . . . . . . . . . . . 20810.2.6 Processus de Poisson spatial . . . . . . . . . . . . . . . . . . . . . . . 20910.2.7 Processus de renouvellement . . . . . . . . . . . . . . . . . . . . . . . 212

    5

  • 7/27/2019 probabilit et statistique unige ressources

    6/238

    TABLE DES MATIRES

    11 lments de thorie de linformation 21511.1 Sources, codages et entropie . . . . . . . . . . . . . . . . . . . . . . . . . . . 215

    11.1.1 Codes binaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215

    11.1.2 Longueur de code, entropie . . . . . . . . . . . . . . . . . . . . . . . 21711.2 Taux optimal de compression . . . . . . . . . . . . . . . . . . . . . . . . . . 21911.3 Transmission travers un canal bruit . . . . . . . . . . . . . . . . . . . . . 221

    12 La mthode probabiliste 22712.1 Combinatoire : le thorme dErds-Ko-Rado . . . . . . . . . . . . . . . . . 22712.2 Thorie des nombres : facteurs premiers . . . . . . . . . . . . . . . . . . . . 22812.3 Thorie des graphes : nombre chromatique . . . . . . . . . . . . . . . . . . . 23012.4 Gomtrie : triangles vides . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231

    Index 235

    6

  • 7/27/2019 probabilit et statistique unige ressources

    7/238

    Chapitre1Introduction

    Si la thorie des probabilits a t originellement motive par lanalyse des jeux de ha-sard, elle a pris aujourdhui une place centrale dans la plupart des sciences. Tout dabord,de par ses applications pratiques : en tant que base des statistiques, elle permet lana-lyse des donnes recueillies lors dune exprience, lors dun sondage, etc. ; elle a galementconduit au dveloppement de puissants algorithmes stochastiques pour rsoudre des pro-blmes inabordables par une approche dterministe ; elle a aussi de nombreuses applicationsdirectes, par exemple en fiabilit, ou dans les assurances et dans la finance. Dun ct plusthorique, elle permet la modlisation de nombreux phnomnes, aussi bien en sciencesnaturelles (physique, chimie, biologie, etc.) quen sciences humaines (conomie, sociologie,par exemple) et dans dautres disciplines (mdecine, climatologie, informatique, rseaux

    de communication, traitement du signal, etc.). Elle sest mme rvle utile dans de nom-breux domaines de mathmatiques pures (algbre, thorie des nombres, combinatoire, etc.)et appliques (EDP, par exemple). Finalement, elle a acquis une place importante en ma-thmatiques de par son intrt intrinsque, et, de par sa versatilit, possde un des spectresles plus larges en mathmatiques, allant des problmes les plus appliqus aux questions lesplus abstraites.

    Le concept de probabilit est aujourdhui familier tout un chacun. Nous sommesconstamment confronts des vnements dpendant dun grand nombre de facteurs horsde notre contrle ; puisquil nous est impossible dans ces conditions de prdire exactementquel en sera le rsultat, on parle de phnomnes alatoires. Ceci ne signifie pas ncessai-

    rement quil y ait quelque chose dintrinsquement alatoire loeuvre, mais simplementque linformation notre disposition nest que partielle. Quelques exemples : le rsultatdun jeu de hasard (pile ou face, jet de d, roulette, loterie, etc.); la dure de vie dunatome radioactif, dun individu ou dune ampoule lectrique; le nombre de gauchers dansun chantillon de personnes tires au hasard ; le bruit dans un systme de communication ;la frquence daccidents de la route ; le nombre de SMS envoys la nuit du 31 dcembre ;le nombre dtoiles doubles dans une rgion du ciel; la position dun grain de pollen ensuspension dans leau ; lvolution du cours de la bourse ; etc.

    7

  • 7/27/2019 probabilit et statistique unige ressources

    8/238

    1.1. MODLISATION DES PHNOMNES ALATOIRES

    Le dveloppement dune thorie mathmatiques permettant de modliser de tels ph-nomnes alatoires a occup les scientifiques depuis plusieurs sicles. Motivs initialementpar ltude des jeux de hasard, puis par des problmes dassurances, le domaine dapplica-

    tion de la thorie sest ensuite immensment largi. Les premires publications sur le sujetremontent G. Cardano 1 avec son livre Liber De Ludo Ale (publi en 1663, mais proba-blement achev en 1563), ainsi qu Kepler 2 et Galile footnoteGalile ou Galileo Galilei(1564, Pise - 1642, Arcetri), physicien et astronome italien.. Toutefois, il est gnralementadmis que la thorie des probabilits dbute rellement avec les travaux de Pascal 3 et deFermat 4. La thorie fut ensuite dveloppe par de nombreuses personnes, dont Huygens 5,J. Bernoulli 6, de Moivre 7, D. Bernoulli 8, Euler 9, Gauss 10 et Laplace 11. La thorie mo-derne des probabilits est fonde sur lapproche axiomatique de Kolmogorov 12, base surla thorie de la mesure de Borel 13 et Lebesgue 14. Grce cette approche, la thorie a alorsconnu un dveloppement trs rapide tout au long du XXme sicle.

    1.1 Modlisation des phnomnes alatoires

    Le but de la thorie des probabilits est de fournir un modle mathmatique pourdcrire les phnomnes alatoires. Sous sa forme moderne, la formulation de cette thoriecontient trois ingrdients : lunivers, les vnements, et la mesure de probabilit.

    1. Girolamo Cardano (1501, Pavie - 1576, Rome), parfois connu sous le nom de Jrme Cardan, ma-thmaticien, philosophe et mdecin italien. Fru dastrologie, on dit quil avait prvu le jour de sa mort,mais que celle-ci ne semblant pas vouloir se produire delle-mme, il se suicida afin de rendre sa prdictioncorrecte.

    2. Johannes Kepler (1571, Weil der Stadt - 1630, Ratisbonne), mathmaticien, astronome et astrologue

    allemand.3. Blaise Pascal (1623, Clermont - 1662, Paris), mathmaticien, physicien, philosophe, moraliste et

    thologien franais. Auteur de nombreuses contributions majeures en mathmatiques et en physique, ildlaisse ces dernires la fin de 1654, la suite dune exprience mystique, et se consacre la rflexionphilosophique et religieuse.

    4. Pierre de Fermat (1601, Beaumont-de-Lomagne - 1665, Castres), juriste et mathmaticien franais.5. Christiaan Huygens (1629, La Haye 1695, La Haye), mathmaticien, astronome et physicien

    nerlandais.6. Jacques ou Jakob Bernoulli ( 1654, Ble - 1705, Ble), mathmaticien et physicien suisse.7. Abraham de Moivre (1667, Vitry-le-Franois - 1754, Londres), mathmaticien franais.8. Daniel Bernoulli (1700, Groningen - 1782, Ble), mdecin, physicien et mathmaticien suisse.9. Leonhard Euler (1707, Ble - 1783, Saint-Ptersbourg), mathmaticien et physicien suisse. Il est

    considr comme le mathmaticien le plus prolifique de tous les temps. Compltement aveugle pendant les

    dix-sept dernires annes de sa vie, il produit presque la moiti de la totalit de son travail durant cettepriode.10. Johann Carl Friedrich Gauss (1777, Brunswick - 1855, Gttingen), mathmaticien, astronome et

    physicien allemand.11. Pierre-Simon Laplace (1749, Beaumont-en-Auge - 1827, Paris), mathmaticien, astronome et physi-

    cien franais.12. Andre Nikolaevich Kolmogorov (1903, Tambov - 1987, Moscou), mathmaticien russe.13. Flix douard Justin mile Borel (1871, Saint-Affrique - 1956, Paris), mathmaticien et homme

    politique franais.14. Henri Lon Lebesgue (1875, Beauvais - 1941, Paris), mathmaticien franais.

    8

  • 7/27/2019 probabilit et statistique unige ressources

    9/238

    CHAPITRE 1. INTRODUCTION

    1.1.1 Univers.

    Il sagit dun ensemble, not habituellement , dont les lments correspondent tous

    les rsultats possibles de lexprience alatoire que lon cherche modliser. On lappellegalement lespace des observables, ou encore lespace chantillon.

    Exemple 1.1.1.

    1. Un tirage pile ou face : = {P,F}.2. Deux tirages pile ou face : = {PP,PF,FP,FF}.3. Une suite de tirages pile ou face se terminant la premire apparition dun pile :

    = {P,FP,FFP,FFFP, . . .}.4. Taille dune personne : = R+.

    5. Dure de vie dune ampoule : = R+.

    6. Le cours dune action sur un intervalle de temps [s,t] : = C([s,t],R+), o lon anotC(A,B) lensemble des fonctions continues de A vers B.

    7. La trajectoire dun grain de pollen en suspension dans un fluide : = C(R+,R3).Dans chaque cas, il ne sagit que dune modlisation de lexprience correspondante : il

    y a donc videmment de nombreuses faons de choisir et dencoder les diffrents rsultatspossibles dune exprience alatoire dans un ensemble . Par exemple, dans le troisimeexemple, on pourrait tout aussi bien prendre = N, en ne retenant que la dure de lapartie ; dans le quatrime, on pourrait limiter, par exemple, [0,3] (mtres), voire {1,2, . . . ,3000} (millimtres), sans perte de gnralit.

    1.1.2 vnements

    Un vnement est une proprit dont on peut dire si elle est vrifie ou non une foisle rsultat de lexprience connu. Mathmatiquement, un vnement est caractris parlensemble des rsultats dans lesquels il est ralis (un tel rsultat est alors appel uneralisation de lvnement).

    Exemple 1.1.2. On lance successivement deux ds, = {(m,n) {1,2,3,4,5,6}{1,2,3,4,5,6}}.1. Lvnement le second lancer est un 6 : {(m,6) : m {1,2,3,4,5,6}}.2. Lvnement le premier lancer est suprieur au second : {(m,n) : m > n}.3. Lvnement la somme des deux lancers est paire :

    {(m,n)

    : 2

    |(m + n)

    }.

    Lensemble des vnements associs une exprience alatoire est donc un sous-ensembleFdes parties de , F P(). Il pourrait paratre raisonnable de prendre F= P(),mais nous verrons par la suite quil est alors en gnral impossible dassocier chaquevnement une probabilit de faon cohrente. Il est donc ncessaire en gnral de se res-treindre un sous-ensemble strict de P(), contenant les vnements intressants .Quelle que soit la notion d intressant que lon choisisse, il est naturel dexiger queFpossde un certain nombre de proprits : si A est un vnement intressant, alors son

    9

  • 7/27/2019 probabilit et statistique unige ressources

    10/238

    1.1. MODLISATION DES PHNOMNES ALATOIRES

    complmentaire Ac est galement intressant, puisque demander si Ac est ralis est qui-valent demander si A ne lest pas ; de mme, si A et B sont des vnements intressants,leur conjonction A

    B est galement intressante, puisque demander si A

    B est ralis

    revient demander si A est ralis et si B est ralis.

    Dfinition 1.1.1. Un ensemble F de parties dun ensemble est une algbre sur silsatisfait aux trois conditions suivantes :

    1. F;2. A F = Ac F;3. A,B F = A B F.

    Exemple 1.1.3. P() est une algbre sur , lalgbre triviale sur .

    {,} est une algbre sur , lalgbre grossire sur . Si A , {,A,Ac,} est une algbre sur . Lensemble form deR, , et des unions finies dintervalles de la forme

    [a,b], (a,b), (a,b], [a,b), (,a], (,a), [a, + ), (a, + ),

    avec a b R, forme une algbre surR.

    Dfinition 1.1.2. Introduisons un peu de terminologie. Un singleton (cest--dire un v-nement rduit un unique lment de) est appelvnement lmentaire. Sinon on parledvnement composite. On appelle lvnement certain et lvnement impossible. Si

    A F, on appelleAc lvnement contrairedeA. Si A,B F, on appelleAB lvnement A et B , et A B lvnement A ou B . Finalement, si A B = , A et B sontdits disjoints, ou incompatibles.

    videmment il suit de la dfinition que si F est une algbre sur , alors F(combiner les conditions 1. et 2.), et que si A,B F, alors A B F(combiner les troisconditions).

    En itrant la proprit 3., il suit que lintersection de toute famille finie A1, . . . , An Fest galement dans F,

    A1, . . . , An

    F=

    A1

    An

    F,

    et donc galement

    A1, . . . , An F = A1 An F.Par contre, le fait que F soit une algbre nimplique pas que lunion ou lintersectiondune collection infinie A1,A2, . . . dvnements soient galement dans F. De nombreuxvnements importants sexpriment toutefois comme union ou intersection dun nombreinfini dvnements.

    10

  • 7/27/2019 probabilit et statistique unige ressources

    11/238

    CHAPITRE 1. INTRODUCTION

    Exemple 1.1.4. On considre une exprience consistant jeter une infinit de fois unepice de monnaie. On a donc comme univers = {a1a2a3 . . . : ai {0,1}}, lensemble dessuites infinies de 0 et de 1, o lon a dcid de reprsenter par 0, resp. 1, un pile, resp.

    face. On considre lensembleA compos des sous-ensembles de de la forme{ : (a1, . . . , an) A} ,

    avec n 1 un entier arbitraire et A {0,1}n. On vrifie facilement queA contient (enprenant n = 1 et A = ) et (en prenant n = 1 et A = {0,1}), et queA est une algbre.

    Un vnement intressant15 est 1nn

    i=1 ai converge vers12 , qui affirme que si lon

    lance un grand nombre de fois une pice de monnaie, pile est sorti en moyenne une fois surdeux. Or cet vnement ne fait pas partie deA : on voit en effet immdiatement quil nedpend pas des premiers termes a1, . . . , an, quel que soit n fix, alors quun vnement deA doit toujours pouvoir, par dfinition, sexprimer en fonction du dbut de la suite infiniede lancers.

    Pour cette raison on remplace habituellement la contrainte que Fest une algbre parla contrainte plus forte que Fest une -algbre, ou tribu, sur .Dfinition 1.1.3. Une algbre sur est une -algbre, ou tribu, sur si

    3. A1,A2, . . . F =i=1 Ai F.

    Comme prcdemment, si Fest une tribu sur , il suit que

    A1,A2, . . . F =

    i=1Ai F.

    Une tribu est toujours une algbre, mais la rciproque nest pas vraie.

    Exemple 1.1.5. 1. Les trois premiers exemples de lExemple 1.1.3 sont des tribus(mais pas le quatrime).

    2. Revenons lExemple 1.1.4. Soit Fune tribu contenant A, nous allons vrifier quelvnement A = 1n

    ni=1 ai converge vers

    12 appartient bien F. Soit N N et

    > 0 ; lvnement

    AN, =

    1

    n

    n

    i=1ai 12

    pour tout n N

    15. Pour un mathmaticien du moins. Dun point de vue pratique, cela est moins clair. Toutefois, le faitdautoriser ce type dvnements enrichit substantiellement la thorie mathmatique. De plus, il y a uneraison importante de sintresser des vnements asymptotiques : ce nest que pour ceux-ci que lathorie des probabilits est falsifiable ! En effet, laffirmation la probabilit que, lors du prochain lancer,cette pice tombe sur pile est gale 1/2 nest pas falsifiable. Les seules affirmations falsifiables sontcelles correspondant des vnements dont la probabilit est 0 ou 1 (ou ventuellement trs proche de 0ou 1). Par exemple, affirmer que si on lance une pice 1000000 fois, le nombre de pile sera comprisentre 497500 et 502500 peut tre considr comme falsifiable, car la thorie prdit que la probabilit quecet vnement nait pas lieu est ngligeable en pratique (de lordre de 6 cdot107).

    11

  • 7/27/2019 probabilit et statistique unige ressources

    12/238

    1.1. MODLISATION DES PHNOMNES ALATOIRES

    peut scrire

    AN, = nN : 1

    n

    n

    i=1 ai 12 ,

    et par consquent AN, F, pour tout N N et > 0, puisquil scrit comme uneintersection dvnements dansA. Ceci implique que lvnement

    A = 1

    n

    ni=1

    ai 12 pour tout n suffisamment grand ,

    qui peut scrire

    A =N1

    AN,

    appartient aussi F, pour tout > 0 (cest une union dnombrable dlments deF). Or lvnement A qui nous intresse peut scrire quant lui

    A =M1

    A1/M,

    et appartient donc bien F.

    La construction dcrite dans ce dernier exemple, dans laquelle on part dune algbrefacile dcrire, que lon complte ensuite en une tribu, est trs courant. Lobservationessentielle (simple) est la suivante.

    Lemme 1.1.1. Soit (Fi,i I) une famille quelconque de tribus sur . AlorsiIFi est

    galement une tribu sur .

    Dmonstration. Exercice.

    Dfinition 1.1.4. Soit C P(). On appelle tribu engendre par C, note (C), la pluspetite tribu contenant C,

    (C) =iI

    Fi,

    o (Fi, i I) est la famille de toutes les tribus sur contenant C (cette famille tantnon-vide puisquelle contient toujoursP()).

    Dfinition 1.1.5. Soit = R. La tribu borlienne est la tribu Bsur engendre par laclasse des ouverts. Une partie deR appartenant Best appele un borlien.

    On peut vrifier assez facilement que Bconcide avec la tribu engendre par les inter-valles de la forme (,a], avec a Q.

    12

  • 7/27/2019 probabilit et statistique unige ressources

    13/238

    CHAPITRE 1. INTRODUCTION

    1.1.3 Mesure de probabilit

    tant en possession dune tribu dvnements, on cherche ensuite attribuer chacun

    de ces derniers une probabilit, qui reprsente le degr de confiance que lon a en sa ralisa-tion. Les probabilits sont encodes sous forme de nombres rels compris dans lintervalle[0,1], avec linterprtation que plus la probabilit est proche de 1, plus notre confiance dansla ralisation de lvnement est grande.

    Il est important de remarquer ce point que la dtermination de la probabilit asso-cier un vnement donn ne fait pas partie du modle que nous cherchons construire(on pourra cependant parfois la dterminer si lon nous donne la probabilit dautres v-nements). Notre but est dobtenir un cadre mathmatique permettant de dcrire des ph-nomnes alatoires, mais dterminer les paramtres permettant doptimiser ladquationentre notre modle et des expriences relles nest pas du ressort de la thorie (cest unetche dvolue aux statistiques). En particulier, nous ne nous intresserons pas aux diff-

    rentes interprtations de la notion de probabilit. Contentons-nous den mentionner une,utile pour motiver certaines contraintes que nous imposerons notre modle plus tard :lapproche frquentiste. Dans cette approche, on naccepte dassocier de probabilit qudes vnements correspondant des expriences pouvant tre reproduites linfini, de faonindpendante. On identifie alors la probabilit dun vnement avec la frquence asympto-tique de ralisation de cet vnement lorsque lexprience est rpte infiniment souvent.Cette notion a lavantage dtre trs intuitive et de donner, en principe, un algorithmepermettant de dterminer empiriquement avec une prcision arbitraire la probabilit dunvnement. Elle souffre cependant de plusieurs dfauts : dune part, une analyse un peuplus approfondie montre quil est fort difficile (si tant est que ce soit possible) dviter quecette dfinition ne soit circulaire, et dautre part, elle est beaucoup trop restrictive, et ne

    permet par exemple pas de donner de sens une affirmation du type il y a 15% de chancequil y ait un tremblement de terre dau moins 7 sur lchelle de Richter en Californie dansles 20 annes venir . Dans de telles affirmations, lvnement en question ne correspondpas une exprience renouvelable, et la notion de probabilit na plus dinterprtation entermes de frquence, mais en termes de quantification de notre degr de certitude subjectifquant la ralisation de lvnement en question. En rsum, il existe de nombreuses inter-prtations du concept de probabilit, dont certaines sont beaucoup moins contraignantesque linterprtation frquentiste, mais il sagit dun problme pistmologique que nous nediscuterons pas ici

    Dsirant modliser les phnomnes alatoires, il est important que les proprits quelon impose la fonction attribuant chaque vnement sa probabilit soient naturelles.

    Une faon de dterminer un ensemble de bonnes conditions est de considrer linterprta-tion frquentiste mentionne plus haut. Rptons N fois une exprience, dans les mmesconditions, et notons fN(A) la frquence de ralisation de lvnement A (cest--dire lenombre de fois NA o il a t ralis divis par N). On a alors, au moins heuristiquement,

    P(A) = limN

    fN(A).

    On peut ainsi dduire un certain nombre de proprits naturelles de P partir de celles desfrquences. En particulier fN() = 1, 0 fN(A) 1, et, si A et B sont deux vnements

    13

  • 7/27/2019 probabilit et statistique unige ressources

    14/238

    1.2. RSUM DU CHAPITRE

    disjoints, NAB = NA + NB, et donc fN(A B) = fN(A) + fN(B). Il est donc raisonnabledexiger quune mesure de probabilit possde les proprits correspondantes,

    1. 0P(A)

    1 ;

    2. P() = 1 ;

    3. Si A B = , alors P(A B) = P(A) + P(B).Ces conditions sont tout fait naturelles, et suffisent presque construire la thorie desprobabilits : pour la mme raison quil est utile de passer de la structure dalgbre celle de tribu, il est utile de remplacer la condition dadditivit de P (3. ci-dessus) par laproprit plus forte de -additivit,

    3. Si A1,A2, . . . sont des vnements deux--deux disjoints, alors

    P(

    i=1 Ai) =

    i=1 P(Ai).Exemple 1.1.6. On jette deux ds non pips. Il est alors naturel de prendre = {(n,m) {1,2,3,4,5,6}2} et F= P(). Les ds tant supposs bien quilibrs, la symtrie du pro-blme fait quil ny a aucune raison de penser un rsultat plus vraisemblable quun autre.On associe donc chaque vnement lmentaire{(n,m)} la mme probabilit1/36, ce quiconduit, par les proprits ci-dessus, dfinir la probabilit dun vnement A parP(A) =|A|/36, o |A| reprsente la cardinalit de A. On a ainsi, par exemple, que la probabilitque la somme des ds soit gale 10 est donne parP({(6,4),(5,5),(4,6)}) = 3/36 = 1/12.

    1.2 Rsum du chapitre

    Lobjet de base de la thorie des probabilits, lespace probabilis, est un triplet (,F,P)compos dun univers arbitraire, dune tribu F sur , et dune application P : F Rsatisfaisant les conditions 1., 2. et 3. ci-dessus.

    14

  • 7/27/2019 probabilit et statistique unige ressources

    15/238

    Chapitre2Probabilit, probabilit conditionnelle etindpendance

    2.1 Axiomatique de la thorie des probabilits

    Comme discut dans lintroduction, la structure mathmatique de base de la thoriedes probabilits est un espace probabilis 1, cest--dire un triplet (,F,P), o lunivers est un ensemble quelconque, lensemble des vnements Fest une tribu sur , et P est uneprobabilit sur F, comme dfinie ci-dessous.Dfinition 2.1.1. Une mesure de probabilit, ou plus simplement une probabilit, sur Fest une applicationP :

    F [0,1] possdant les deux proprits suivantes :

    1. P() = 1.

    2. (-additivit) Pour toute familleA1,A2, . . . Fdvnements deux--deux disjoints,

    P i=1

    Ai

    =

    i=1

    P(Ai).

    Les proprits suivantes dune probabilit sont des consquences immdiates de la d-finition prcdente.

    Lemme 2.1.1. 1. P() = 0.

    2. Pour tout A F

    , P(Ac) = 1P(A).

    3. (Additivit) Pour tout A,B F tels que A B = ,P(A B) = P(A) + P(B).

    4. Pour tout A B F,P(B) = P(A) + P(B \ A) P(A).

    1. La paire (,F) seule forme un espace probabilisable.

    15

  • 7/27/2019 probabilit et statistique unige ressources

    16/238

    2.1. AXIOMATIQUE DE LA THORIE DES PROBABILITS

    A1

    A2

    A3 B1

    B2

    B3

    Figure 2.1: Trois ensembles A1,A2,A3 (dlimits par des cercles) gauche, et les ensemblesB1,B2,B3 correspondant droite (reprsents par les rgions colories en bleu, vert et rouge,respectivement.)

    5. Pour toutA,B F,P(A B) = P(A) + P(B) P(A B).

    6. Plus gnralement, A1,A2, . . . , An F,

    P(ni=1

    Ai) =ni=1

    P(Ai)

    1i

  • 7/27/2019 probabilit et statistique unige ressources

    17/238

    CHAPITRE 2. PROBABILIT, INDPENDANCE

    Nous allons prsent noncer une proprit plus abstraite, qui nous sera utile plusieursreprises dans le cours.

    Lemme 2.1.2. Soit(Ai)i1 une suite croissante dvnements, cest--dire telle que A1 A2 A3 , et soit A leur limite,

    A =i=1

    Ai limi

    Ai.

    AlorsP(A) = lim

    iP(Ai).

    Soit (Bi)i1 une suite dcroissante dvnements, cest--dire telle que B1 B2 B3 , et soit B leur limite,

    B = i=1

    Bi limi

    Bi.

    AlorsP(B) = lim

    iP(Bi).

    Dmonstration. A = A1 (A2 \A1) (A3 \A2) est lunion dune famille dvnementsdeux--deux disjoints. Par consquent,

    P(A) = P(A1) +

    i=1P(Ai+1 \ Ai)

    = P(A1) + limn

    ni=1

    P(Ai+1) P(Ai)

    = P(A1) + lim

    nP(An+1) P(A1)

    = limnP(An).

    La seconde affirmation suit facilement, puisque la suite des complmentaires (Bci )i1 estcroissante. On peut donc appliquer la premire partie pour obtenir

    P(B) = P(

    i=1 Bi) = 1 P(

    i=1 Bci ) = 1 limiP(Bci ) = limiP(Bi).

    Notation. Nous emploierons trs frquemment dans la suite la notation suivante : si A,Bsont deux vnements, alors on pose

    P(A,B) = P(A B).

    17

  • 7/27/2019 probabilit et statistique unige ressources

    18/238

    2.2. CONSTRUCTION DESPACES PROBABILISS

    2.2 Construction despaces probabiliss

    Il convient prsent de montrer quil est possible de construire de tels espaces proba-

    biliss assez riches pour pouvoir dcrire les phnomnes alatoires. Nous le ferons pour desunivers de plus en plus gnraux.

    2.2.1 Univers fini

    Commenons par la situation la plus simple, dans laquelle lunivers est fini. Dans cecas, la construction dun espace probabilis est particulirement lmentaire. La tribu desvnements est simplement F= P(). On se donne une fonction f : [0,1] telle que

    f() = 1.

    On associe tout dabord chaque vnement lmentaire la probabilit P({}) =f(). On tend ensuite P Fpar additivit :

    P(A) = P(A

    {}) =A

    f().

    Lemme 2.2.1. LapplicationP : F [0,1] construite ci-dessus est une mesure de proba-bilit surP().Dmonstration. Il est clair que P() =

    f() = 1. La seule chose vrifier est donc

    la condition dadditivit. Soient A,B F, avec A B = . On a

    P(A B) = AB

    f() = A

    f() + B

    f() = P(A) + P(B).

    Remarque 2.2.1. Observez galement que toute mesure de probabilit sur P() avec fini est de cette forme : tant donnP, il suffit de poser f() = P({}). Ladditivit dePimplique bien que la fonction f satisfait

    f() = 1, etP(A) =

    A f().

    On voit donc quune mesure de probabilit sur un univers fini est entirement caract-rise par les probabilits associes aux vnements lmentaires.

    Exemple 2.2.1. Pour un d non pip, on prend ={

    1,2,3,4,5,6

    }et f(i) = 16 ,

    i = 1, . . . , 6. Pour un d pip, on pourra avoir par exemple f(1) = 16 , f(2) = f(3) = f(4) =

    f(5) = 18 et f(6) =13 .

    Pour 5 lancers dune pices bien quilibre, on prendra f() = 25, pour tout = {P,F}5.

    Un cas particulirement important est celui o la mme probabilit est associe chaquevnement lmentaire, comme dans le premier et le troisime exemples ci-dessus.

    18

  • 7/27/2019 probabilit et statistique unige ressources

    19/238

    CHAPITRE 2. PROBABILIT, INDPENDANCE

    Figure 2.2: Une ralisation du graphe alatoire G(8,4) (les artes prsentes sont indiques enrouge).

    Dfinition 2.2.1. On appelle distribution de probabilit uniforme sur un univers fini, la

    mesure de probabilit dfinie par f() = 1/||, pour tout . On dit dans ce cas quily a quiprobabilit.Manifestement, lorsquil y a quiprobabilit, la probabilit dun vnement A est sim-

    plement donne par P(A) = |A|/||.Exemple 2.2.2. Nous allons prsent introduire un exemple non-trivial despace proba-bilis fini : le graphe alatoire dErdsRnyi2 3. Soient m 0 et n 1 deux entiers. Legraphe alatoire G(n,m) est lespace probabilis sur lensemble des graphes G = (S,A) nsommets et m artes : S = {1, . . . , n}, et A {i,j} : 1 i < j n avec |A| = m. Lamesure de probabilit sur cet ensemble est la mesure uniforme.

    Quelques rsultats combinatoiresNous allons prsent rappeler certains rsultats de combinatoire lmentaires qui sont

    rgulirement utiliss. On utilisera la notation suivante : pour n r 1, le symbole dePochhammer 4 (n)r est dfini par

    (n)r = n(n 1)(n 2) (n r + 1).On posera galement (n)0 = 1.

    chantillons ordonns. Considrons un ensemble de n lments a1, . . . , an. Un chantil-lon ordonn de taille r est une suite ordonne de r lments de lensemble. Deux procdures

    sont possibles : le tirage avec remise, durant lequel chaque lment de lensemble peuttre choisi plusieurs reprises, et le tirage sans remise, durant lequel chaque lment delensemble ne peut tre choisi quau plus une fois (dans ce cas, on doit videmment avoirr n).

    2. Pl Erds (1913, Budapest 1996, Varsovie), galement ortographi Paul Erds, Paul Erds ou PaulErdos, mathmaticien hongrois.

    3. Alfrd Rnyi (1921, Budapest 1970, Budapest), mathmaticien hongrois.4. Leo August Pochhammer (1841, Stendal 1920, Kiel), mathmaticien prusse.

    19

  • 7/27/2019 probabilit et statistique unige ressources

    20/238

    2.2. CONSTRUCTION DESPACES PROBABILISS

    Lemme 2.2.2. On considre un ensemble n 1 lments, etr N.1. Le nombre dchantillons de taille r diffrents avec remise est gal nr.

    2. Pourr n, le nombre dchantillons de tailler diffrents sans remise est gal (n)r.3. Le nombre de faons dordonner lensemble est gal n!.

    Dmonstration. 1. Dans le cas du tirage avec remise, chacun des r lments peut tre choiside n faons diffrentes. Par consquent, le nombre total dchantillons possibles est gal nr.

    2. Dans le cas sans remise, le premier lment est choisi parmi n, le second parmi n 1(celui choisi pour le premier lment ne peut plus tre choisi nouveau), le troisime parmin 2, etc. On a donc un nombre total dchantillons possibles gal (n)r.

    3. Suit de 2. puisque cela revient faire n tirages sans remise.

    Jusqu prsent, il na pas t fait mention de probabilit. Lorsque nous parleronsdchantillon alatoire de taille r, ladjectif alatoire signifiera que lon a muni lensemblede tous les chantillons possibles dune distribution de probabilit. Sauf mention explicitedu contraire, on considrera la distribution uniforme.

    Considrons prsent un chantillon alatoire avec remise de taille r. On sintresse lvnement aucun lment na t choisi plus dune fois . Le thorme montre que parmiles nr chantillons possibles, (n)r satisfont cette contrainte. Par consquent, la probabilitque notre chantillon ne contienne pas de rptition est donne par (n)r/nr. Ce rsultat ades consquences qui peuvent sembler surprenantes.

    Exemple 2.2.3. Supposons que dans une ville donne il y a 7 accidents par semaine. Alorsdurant la quasi-totalit des semaines, certains jours verront plusieurs accidents. En posantn = r = 7, on voit en effet que la probabilit davoir exactement un accident chaque jourde la semaine est seulement de 0,00612 . . . ; cela signifie quun tel vnement naura lieuen moyenne quenviron une fois tous les trois ans !

    Exemple 2.2.4. Supposons que 23 personnes se trouvent dans la mme salle. Quelle estla probabilit quau moins deux dentre elles aient leur anniversaire le mme jour ? Onpeut modliser cette situation, en premire approximation, par un tirage alatoire avecremise de lensemble{1, . . . ,365}, avec la mesure uniforme ; un modle plus raliste devraitprendre en compte les annes bissextiles, ainsi que les variations saisonnires du taux de

    natalit (sous nos latitudes, le nombre de naissances est plus lev en t quen hiver5, parexemple), etc. Pour le modle prcdent, il suit de la discussion ci-dessus que la probabilitquau moins deux des 23 personnes aient leur anniversaire le mme jour est donne par1 (365)23/36523 = 0,507 . . . : il y a plus dune chance sur deux que a ait lieu !

    Cette probabilit est de97% sil y a50 personnes, et de99,99996% pour100 personnes.

    5. Ceci dit, considrer une rpartition inhomogne des naissances ne peut quaugmenter la probabilitdavoir plusieurs personnes avec la mme date danniversaire...

    20

  • 7/27/2019 probabilit et statistique unige ressources

    21/238

    CHAPITRE 2. PROBABILIT, INDPENDANCE

    chantillons non ordonns. Considrons prsent le problme dextraire un chan-tillon de taille r dune population de taille n sans tenir compte de lordre. En dautrestermes, tant donn une population de taille n, nous cherchons dterminer le nombre de

    sous-populations de taille r.

    Lemme 2.2.3. Une population de taillen possdenr

    diffrentes sous-populations de taille

    r n.

    Dmonstration. Chaque sous-population de taille r peut tre ordonne de r! faons diff-rentes. Puisque le nombre total dchantillons ordonns sans remise de taille r est gal (n)r, on en dduit que le nombre dchantillons non-ordonns de taille r doit tre gal (n)r/r! =

    nr

    .

    Exemple 2.2.5. Au poker, chaque joueur reoit 5 cartes parmi 52. Le nombre de mains

    possibles est donc de 525 = 2598960. Calculons alors la probabilit davoir 5 cartes devaleurs diffrentes. On peut choisir ces valeurs de 135 faons diffrentes. Il faut ensuiteassocier chacune une couleur, ce qui donne un facteur additionnel 45. Par consquent,la probabilit en question est donne par 45 135 /525 = 0,5071 . . ..Exemple 2.2.6. Considrons la distribution alatoire der balles dansn urnes. Quelle estla probabilit quune urne donne contienne exactement k balles? On peut choisir les kballes de

    rk

    faons. Les autres r k balles doivent tre rparties parmi les n 1 urnes

    restantes, ce qui peut se faire de(n1)rk faons. Il sensuit que la probabilit en questionest donne par

    1

    nr

    r

    k (n 1)rk =

    r

    k 1

    nk

    1 1

    nrk

    .

    Il sagit dun cas particulier de la distribution binomiale, que nous reverrons plus tard.

    Exemple 2.2.7. Retournons au graphe alatoire de lExemple 2.2.2. On a clairement

    {i,j} : 1 i < j n = n2

    N.

    Par consquent, le nombre total de graphes dans G(n,m) est donn par Nm, et donc laprobabilit de chaque graphe est donne par

    P(G) = Nm1, G G(n,m).

    (On fait ici un lger abus de notation en utilisant la mme criture pour lespace probabiliset pour lunivers.)

    Partitionnement. Finalement, considrons le nombre de faons de partitionner une po-pulation en k sous-populations de tailles donnes.

    21

  • 7/27/2019 probabilit et statistique unige ressources

    22/238

    2.2. CONSTRUCTION DESPACES PROBABILISS

    Lemme 2.2.4. Soit r1, . . . , rk des entiers positifs (ventuellement nuls) tels quer1 + +rk = n. Le nombre de faons de rpartir n objets dansk familles, de sorte ce que la ime

    famille contienneri lments est gal

    n!

    r1!r2! rk! .

    Dmonstration. Pour remplir la premire famille, il faut choisir r1 objets parmi n, ce quipeut se faire de

    nr1

    faons. Pour remplir la seconde famille, il faut choisir r2 objets parmi

    n r1, soitnr1r2

    possibilits. En continuant ainsi, on obtient que le nombre de telles

    rpartitions est den

    r1

    n r1

    r2

    n r1 r2

    r3

    n r1 rk1

    rk

    =

    n!

    r1!r2! rk! .

    Exemple 2.2.8. une table de bridge, les 52 cartes sont distribues 4 joueurs. Quelleest la probabilit que chacun reoive un as ? Le nombre total de diffrentes rpartitionsest de 52!/(13!)4. Les 4 as peuvent tre ordonns de 4! faons diffrentes, et chaque ordrecorrespond une faon de les rpartir parmi les 4 joueurs. Les48 cartes restantes peuventensuite tre rparties de 48!/(12!)4 faons. Par consquent, la probabilit en question estde

    4!48!

    (12!)4

    52!(13!)4

    = 0,105 . . .

    Formule du binme gnralise Soit R et k

    N. Le coefficient binomial k estdfini par

    k

    =

    ( 1) ( k + 1)k!

    .

    On a alors la gnralisation suivante du Thorme du binme de Newton.

    Lemme 2.2.5. Soient x,y, R. Alors,

    (x + y) =k=0

    k

    xkyk,

    si lune des conditions suivantes est vrifie

    1. |y/x| < 1 et R ;2. |y/x| = 1 et 0 ;3. y/x = 1 et > 1.

    Dmonstration. En crivant (x + y) = x(1 + yx), on voit quil suffit de considrer le cas

    x = 1. Il suffit alors de dvelopper (1 + y) en srie de Taylor autour de y = 0, et de vrifierque chacune des conditions donnes ci-dessus assurent la convergence de la srie.

    22

  • 7/27/2019 probabilit et statistique unige ressources

    23/238

    CHAPITRE 2. PROBABILIT, INDPENDANCE

    Formule de Stirling Lquivalence asymptotique suivante pour n!, de Stirling 6, esttrs utile dans de nombreux problmes de nature combinatoire.

    Lemme 2.2.6. Lorsque n , on an! = nnen

    2n (1 + o(1)).

    Dmonstration. Sera faite en exercice.

    2.2.2 Univers dnombrable

    On peut procder la construction despaces probabiliss avec un univers dnom-brable exactement de la mme faon que dans le cas fini : on prend F = P(), et onassocie chaque vnement lmentaire sa probabilit, P({}) f() [0,1], avec

    f() = 1.Remarque 2.2.2. La somme ci-dessus est dfinie de la manire suivante. tant dnom-brable, il est possible de numroter ses lments, disons = {1,2, . . .}. On pose alors,pour tout A ,

    Af() =

    i=1

    f(i) 1A(i).

    Il est important dobserver que cette dfinition ne dpend pas de lordre choisi pour leslments de : toutes les sries intervenant sont termes positifs, et ceux-ci peuvent donctre rorganiss notre guise.

    On pose ensuite, pour A F

    , P(A) = A f(). On vrifie alors de la mme faonque dans le cas fini que P est bien une mesure de probabilit et que toute mesure deprobabilit sur un univers dnombrable est ncessairement de cette forme.

    Exemple 2.2.9. On jette une pice de monnaie jusqu lobtention du premier pile. Onpeut choisir = N {} o le dernier vnement reprsente la possibilit que pile nesorte jamais. Si la pice est quilibre, on aura

    f(k) = 2k, k = 1,2, . . .

    En particulier, la probabilit que pile ne sorte jamais est donne par

    f(

    ) = 1

    k=1 2k = 0,

    comme le veut lintuition.En particulier, la probabilit que le premier pile sorte aprs un nombre pair de lancers

    est de

    P({2,4,6, . . .}) =k=1

    f(2k) =k=1

    22k = 1/3.

    6. James Stirling (1692, Garden 1770, Leadhills), mathmaticien britannique.

    23

  • 7/27/2019 probabilit et statistique unige ressources

    24/238

    2.2. CONSTRUCTION DESPACES PROBABILISS

    ab 2x

    Figure 2.3: Laiguille de lExemple 2.2.10. La position de laiguille (en bleu) est reprsente parle nombre x [0,1). La direction de laiguille tombe dans un intervalle [a,b) quelconque avecprobabilit b a.

    2.2.3 Univers non-dnombrable

    Nous allons prsent brivement discuter le cas despaces probabiliss construits partir dun univers infini non dnombrable. Cette situation est substantiellement plussubtile que les cas tudis prcdemment. Commenons par considrer un exemple.

    Exemple 2.2.10. On dsire modliser lexprience suivante : on considre une aiguilledont une extrmit est fixe un axe autour duquel elle peut tourner (cf. Fig. 2.3). On peutencoder la position de laiguille par langle quelle fait avec une direction fixe. On peut doncprendre, dans des units appropries, = [0,1). On suppose quune fois lance, laiguille

    peut sarrter en pointant dans nimporte quelle direction, avec la mme probabilit. Plusprcisment, on va demander ce que la probabilit que laiguille sarrte dans un intervalle[a,b) (a = b [0,1]) le long du cercle, ne dpende que de sa longueur, P([a,b)) = b a.

    Manifestement, on ne peut plus construire une telle probabilit comme prcdemment,en spcifiant les probabilits des vnements lmentaires, puis en dfinissant les probabi-lits dvnements gnraux partir de celles-ci. En effet, la probabilit de nimporte quelvnement lmentaire doit tre nulle : si x [0,1), P({x}) P([x,x + )) = , pour tout > 0. Les seuls vnements dont il est possible dvaluer la probabilit partir de celles desvnements lmentaires sont les unions dnombrables de points (et leurs complments),et les probabilits de celles-ci sont toutes nulles (ou gales 1).

    La question est de savoir sil est possible de construire une tribu sur [0,1), contenanttous les intervalles, sur laquelle on puisse dfinir une mesure de probabilit P associant chaque intervalle sa longueur. La rponse est positive, mais la construction nest pastriviale. Elle sera faite en dtail dans le cours de thorie de la mesure (Analyse III). Latribu correspondante est celle des borliens de [0,1) (la tribu engendre par les ouverts de[0,1)). Elle ne contient pas toutes les parties de [0,1) : il nest pas possible dattribuer une longueur (on dit mesurer) tous les sous ensembles de [0,1) de faon cohrente.

    Pour tre un peu plus prcis, laffirmation toute partie de [0,1) est mesurable est

    24

  • 7/27/2019 probabilit et statistique unige ressources

    25/238

    CHAPITRE 2. PROBABILIT, INDPENDANCE

    indpendante du systme daxiomes de Zermelo-Fraenkel7 8 : il nest pas possible de laprouver, ni de prouver son contraire. En fait, si lon accepte laxiome du choix (non d-nombrable), alors il est possible de montrer lexistence de sous-ensembles de [0,1) qui ne

    sont pas mesurables9. Ceci dit, mme dans ces conditions, lexistence de tels ensemblesauxquels on ne peut associer de probabilit ne limite en rien lapplicabilit de la thoriedes probabilits, puisque ces ensembles sont pathologiques (il est impossible de les dcrireexplicitement, puisque leur existence repose de faon essentielle sur laxiome du choix), etne correspondent donc pas des vnements intressants dans la pratique.

    Comme expliqu dans lexemple prcdent, il est ncessaire en gnral de restreindre laclasse des vnements, afin de pouvoir construire un espace probabilis. La procdure estla suivante :

    1. On commence par dterminer une algbre dvnements intressants, sur laquelle ondfinit une probabilit. Dans lexemple, on part des intervalles, dont on connat la

    probabilit. On considre ensuite lalgbre engendre par les intervalles. On dfinitsur cette algbre une mesure de probabilit finiment additive, la probabilit de chaquelment tant dtermine partir de celle des intervalles et des rgles dadditivit.On montre ensuite que cette mesure est en fait -additive.

    2. On fait appel un rsultat fondamental de thorie de la mesure, le Thorme dexten-sion de Carathodory, qui affirme quune mesure de probabilit sur une algbre stendde faon unique en une mesure de probabilit sur la tribu engendre par lalgbre.

    Exemple 2.2.11. Revenons un problme dj discut dans les Exemples 1.1.4 et1.1.5 :une infinit de jets dune pice de monnaie. On a vu que les ensembles

    { : (a1, . . . , an) A} ,avec n 1 un entier arbitraire et A {0,1}n, forment une algbre sur . Or, chaquelment de cette algbre ne fait intervenir quun nombre fini de lancers, et par consquent,on peut aisment leur associer une probabilit (nous reviendrons sur la faon de le faire une

    7. Ernst Friedrich Ferdinand Zermelo (1871, Berlin - 1953, Fribourg-en-Brisgau), mathmaticien alle-mand.

    8. Abraham Adolf Halevi Fraenkel (1891, Mnich - 1965, Jrusalem), mathmaticien dabord allemandpuis isralien.

    9. Esquissons brivement une construction due Vitali. On note S1 le cercle unit. Nous allons montrer,en utilisant laxiome du choix, quil est possible dcrire S1 =

    nZ An, o les ensembles An sont disjoints

    et peuvent tous tre obtenus partir de A0 par rotation. Si A0 possdait une longueur (A), alors la-additivit impliquerait que 2 = (A), ce qui est impossible. Pour construire An, on procde commesuit. On identifie S1 lensemble

    ei : R

    dans C. On introduit une relation dquivalence sur S1 en

    posant x y sil existe , R tels que x = ei, y = ei, avec Z. On utilise laxiome du choixpour construire lensemble A0 compos dexactement un reprsentant de chaque classe dquivalence. Onpose alors, pour n Z, An = einA0 =

    einx : x A0

    . La famille ainsi construite possde les proprits

    dsires. En effet, si y An alors il existe x A0 tel que y = einx, et donc y x ; comme A0 ne contient

    quun seul reprsentant de chaque classe dquivalence, on en dduit que y A0. Ceci montre que lesensembles An sont disjoints. De plus, si y S1, sa classe dquivalence est donne par

    eiky : k Z

    , et il

    existe donc n Z tel que einy A0, puisque A0 contient un reprsentant de chaque classe dquivalence ;on en dduit que y An, et donc que les An forment une partition de S1.

    25

  • 7/27/2019 probabilit et statistique unige ressources

    26/238

    2.2. CONSTRUCTION DESPACES PROBABILISS

    fois le concept dindpendance introduit), et vrifier que celle-ci est -additive. On obtientalors notre espace probabilis, sur la tribu engendre par cette algbre, par une applicationdu Thorme dextension de Carathodory.

    Le cas de R

    Le cas de R est particulirement important. Donnons donc brivement quelques dfini-tions et rsultats dans ce contexte. Ceux-ci seront tudis de faon dtaille dans le coursde thorie de la mesure (Analyse III).

    Dfinition 2.2.2. Latribu borlienne sur R, B(), est la tribu sur engendre parles ouverts de . Ses lments sont appels les borliens.

    Dans la suite, lorsque nous considrerons R comme espace probabilis, nous le suppo-serons toujours muni de sa tribu borlienne, sauf mention du contraire.

    Lemme 2.2.7. La tribu borlienne est engendre par les intervalles (,a], a Q.

    Une mesure de probabilit P sur R peut tre caractrise par les valeurs quelleattribue aux intervalles de cette forme. Ceci motive lintroduction dune fonction FP : R [0,1], FP(x) = P((,x]).

    Dfinition 2.2.3. Une fonction de rpartition est une fonction F : R [0,1] possdant lesproprits suivantes :

    1. F est croissante ;

    2. limx F(x) = 0 ;

    3. limx+ F(x) = 1 ;

    4. F est continue droite.

    Lemme 2.2.8. FP est une fonction de rpartition.

    Dmonstration. Laisse en exercice. Pour la continuit droite, utiliser le Lemme 2.1.2.

    On peut donc associer chaque mesure de probabilit une fonction de rpartition. Lersultat suivant montre que la rciproque est galement vraie.

    Thorme 2.2.1. SoitF : R R. Alors il existe une mesure de probabilitP sur(R,B(R))telle que F = FP si et seulement si F est une fonction de rpartition.

    Ce rsultat montre que les mesures de probabilit sur R sont en bijection avec lesfonctions de rpartition sur R.

    26

  • 7/27/2019 probabilit et statistique unige ressources

    27/238

    CHAPITRE 2. PROBABILIT, INDPENDANCE

    2.3 Probabilit conditionnelle, formule de Bayes

    De nombreuses affirmations prennent la forme si B a lieu, alors la probabilit de A

    est p , o B et A sont des vnements (tels il pleut demain , et le bus sera lheure ,respectivement).

    Afin de motiver la dfinition de la probabilit conditionnelle dun vnement A tantconnue la ralisation dun vnement B, revenons linterprtation frquentiste des pro-babilits. On considre deux vnements A et B. On dsire dterminer la frquence deralisation de lvnement A lorsque lvnement B a lieu. La faon de procder est lasuivante : on rpte lexprience un grand nombre de fois N. On note le nombre NB detentatives lors desquelles B est ralis, et le nombre NAB de ces dernires tentatives lorsdesquelles A est galement ralis. La frquence de ralisation de A parmi les tentativesayant donn lieu B est alors donne par

    NABNB

    = NABN

    NNB

    .

    Lorsque N devient grand, on sattend ce que le terme de gauche converge vers la pro-babilit de A conditionnellement la ralisation de lvnement B, alors que le terme dedroite devrait converger vers P(A B)/P(B). Ceci motive la dfinition suivante.

    Dfinition 2.3.1. Soit B F un vnement tel que P(B) > 0. Pour tout A F, laprobabilit conditionnelle de A sachant B est la quantit

    P(A

    |B) =

    P(A B)P

    (B)

    .

    Lemme 2.3.1. Soit B F un vnement tel queP(B) > 0. Alors la probabilit condi-tionnelleP( | B) : F R est une mesure de probabilit, et (,F,P( | B)) est un espaceprobabilis. De plus, FB = {A B : A F} est une tribu et(B,FB,P( | B)) est galementun espace probabilis.

    Dmonstration. On a manifestement P(A B)/P(B) [0,1], pour tout A F. Comme B = B, on a galement P( | B) = 1. Finalement, si A1,A2, . . . sont des vnementsdeux--deux disjoints, la -additivit de P implique que

    P i=1

    Ai B = P i=1

    Ai B = i=1

    P(Ai B),

    et donc que

    P i=1

    Ai B =

    i=1

    P(Ai B)P(B)

    =i=1

    P(Ai | B).

    La preuve de la seconde affirmation est laisse en exercice.

    27

  • 7/27/2019 probabilit et statistique unige ressources

    28/238

    2.3. PROBABILIT CONDITIONNELLE, FORMULE DE BAYES

    Exemple 2.3.1. On jette deux ds non pips. Sachant que le premier jet nous donne 3,quelle est la probabilit que la somme soit suprieure 6 ? Ici, B = {(3,k) : k = 1, . . . , 6},A =

    {(a,b)

    {1, . . . ,6

    }2 : a + b > 6

    }, et A

    B =

    {(3,4),(3,5),(3,6)

    }. On a alors

    P(A | B) = P(A B)P(B)

    =|A B|

    |B| =3

    6=

    1

    2.

    Exemple 2.3.2. On choisit une famille au hasard parmi toutes les familles ayant deuxenfants et dont au moins un est un garon. Quelle est la probabilit que les deux enfantssoient des garons ? Introduisant les vnementsB = {(G, G), (F, G), (G, F)} et A = A B = {(G, G)}, on voit que

    P(A | B) = P({(G, G)})P({(G, G), (F, G), (G, F)}) =

    1

    3.

    On choisit une famille au hasard parmi toutes les familles ayant deux enfants et dont lan

    est un garon. Quelle est la probabilit que les deux enfants soient des garons ? prsent,B = {(G, G), (G, F)}, A = A B = {(G, G)}. Donc

    P(A | B) = P({(G, G)})P({(G, G), (G, F)}) =

    1

    2.

    Dfinition 2.3.2. Une famille (Bi)iI, I dnombrable, est une partition de si

    Bi Bj = , ds quei = j, etiI

    Bi = .

    En dpit de sa simplicit, le thorme suivant est crucialement important en thoriedes probabilits.

    Thorme 2.3.1. Soit (Bi)iI une partition de telle queP(Bi) > 0, pour tout i I, etsoit A F.

    1. (Loi de la probabilit totale)

    P(A) =iI

    P(A | Bi)P(Bi).

    2. (Formule de Bayes)

    P(Bi | A) = P(A | Bi)P(Bi)jIP(A | Bj)P(Bj)

    .

    Dmonstration. Par -additivit,iI

    P(A | Bi)P(Bi) = iI

    P(A Bi) = PiI

    (A Bi) = PA (iI

    Bi)

    = P(A).

    La seconde relation suit de lobservation que

    P(Bi | A) = P(Bi A)P(A)

    =P(Bi A)P(Bi)

    P(Bi)

    P(A)= P(A | Bi)P(Bi)

    P(A)

    et lapplication de la loi de la probabilit totale.

    28

  • 7/27/2019 probabilit et statistique unige ressources

    29/238

    CHAPITRE 2. PROBABILIT, INDPENDANCE

    Bc

    Ac

    B

    A Bc

    Ac Bc

    A BB

    3/5

    2/5

    5/8

    3/8

    1/2

    1/2

    Figure 2.4: Larbre reprsentant le processus dcrit dans lExemple 2.3.3

    Remarque 2.3.1. Dans la terminologie statistique, on appelleP(Bi) la probabilit priorideBi etP(Bi | A) la probabilit posteriori deBi (sachantA). La formule de Bayes donnedonc un moyen de transformer les probabilits priori en probabilits posteriori.

    Exemple 2.3.3. On se donne deux urnes. La premire contient deux balles rouges et troisballes bleues ; la seconde trois rouges et quatre bleues. Une balle est tire au hasard de lapremire urne et place dans la seconde. On tire ensuite au hasard une balle de la secondeurne : quelle est la probabilit quelle soit bleue?

    SoitA lvnement la balle tire de la seconde urne est bleue , et B lvnement laballe dplace de la premire urne la seconde est bleue . Puisque B et Bc forment unepartition de , une application de la loi de la probabilit totale donne

    P(A) = P(A | B)P(B) + P(A | Bc)P(Bc).

    prsent,P(A | B) = P(A | la 2me urne contient trois balles rouges et cinq bleues) = 58 ;

    P(A | Bc) = P(A | la 2me urne contient quatre balles rouges et quatre bleues) = 12 .

    PuisqueP(B) = 35 etP(Bc) = 25 , on obtientP(A) =

    2340 .

    On reprsente souvent des situations de ce type comme sur la Fig. 2.4.

    Exemple 2.3.4 (Problme du ballot). Lors dune lection opposant deux candidats Aet B, le premier reoit n voix et le second m < n voix. En supposant quiprobables lesdiffrents ordres dapparition des bulletins (et en ignorant les bulletins blancs ou non-valides), montrer que la probabilit P(n,m) que le candidat A soit toujours en tte lors du

    dpouillement est gale (n m)/(n + m).En conditionnant sur le rsultat du dernier bulletin, il suit de la loi de la probabilit

    totale et de lhypothse dquiprobabilit que

    P(n,m) = P(A toujours en tte| dernier vote en faveur de A) nn + m

    + P(A toujours en tte| dernier vote en faveur de B) mm + n

    .

    29

  • 7/27/2019 probabilit et statistique unige ressources

    30/238

    2.3. PROBABILIT CONDITIONNELLE, FORMULE DE BAYES

    Un instant de rflexion montre queP(A toujours en tte| dernier vote en faveur de A) =P(n1,m) etP(A toujours en tte| dernier vote en faveur de B) = P(n,m1). Par cons-quent, le problme se rduit vrifier que P(n,m) = (n

    m)/(n + m) est bien la solution

    du systme

    P(n,m) =n

    n + mP(n 1,m) + m

    m + nP(n,m 1), n > m 1,

    avec les conditions au bord P(n,n) = 0 (A ne peut avoir t toujours en tte sil est galit avec B la fin) et P(n,0) = 1 (A a forcment toujours t en tte si personne navot pour B). Les conditions au bord sont clairement vrifies. Pour dmontrer le rsultat,on procde par rcurrence sur n + m. Supposons le rsultat valide pour n + m k (n m,k 1), ainsi que pour n = m arbitraires. Considrons prsent n + m = k + 1, n > m.On a alors, par hypothse de rcurrence,

    P(n,m) = nn + m

    n 1 mn 1 + m + mm + n n (m 1)n + (m 1) = n mn + m,

    et le rsultat est tabli.

    Exemple 2.3.5. Le test de dpistage dun certain virus nest pas infaillible : 1 fois sur100, il est positif, alors que lindividu nest pas contamin ; 2 fois sur100, il est ngatif, alors que lindividu est contamin.

    Il est donc important de rpondre aux questions suivantes :

    1. tant donn que son test est positif, quelle est la probabilit quun individu ne soitpas porteur du virus ?

    2. tant donn que son test est ngatif, quelle est la probabilit quun individu soitporteur du virus ?

    La formule de Bayes est parfaitement adapte ce type de calculs. Afin de pouvoir lappli-quer, il nous faut une information supplmentaire : dans la population totale, la fractionde porteurs est approximativement de 1/1000.

    Formalisons tout cela. On introduit les vnements suivants :

    T = {le test est positif},V = {lindividu est contamin}.

    On a donc les informations suivantes :

    P(T | Vc) = 1100 , P(Tc | V) = 2100 , P(V) = 11000 ,et on veut calculer

    1. P(Vc | T), 2. P(V | Tc).La formule de Bayes nous dit que

    P(Vc | T) = P(T | Vc)P(Vc)

    P(T | Vc)P(Vc) + P(T | V)P(V) .

    30

  • 7/27/2019 probabilit et statistique unige ressources

    31/238

    CHAPITRE 2. PROBABILIT, INDPENDANCE

    Nous connaissons toutes les valeurs correspondant aux quantits du membre de droite (ob-servez queP(T | V) = 1 P(Tc | V) = 98/100). On obtient donc

    P(Vc | T) =1

    100 999

    10001

    100 9991000 + 98100 11000= 0,91 . . .

    Mme si son test est positif, un individu a plus de 90% de chances de ne pas tre porteurdu virus !

    Un calcul similaire montre par contre que

    P(V | Tc) = 0,00002...ce qui montre que cest bien l que se trouve lutilit de ce test, puisque la probabilit dedclarer non porteur un individu contamin est de lordre de 2/100000.

    Observez que le calcul ci-dessus ne sapplique qu un individu normal . Dans le casdun individu appartenant une population risques, la probabilit priori dtre porteur,P(V), peut devenir proche de 1 et non pas trs petite comme prcdemment. Cela changecompltement les conclusions : dans ce cas, la probabilit dtre non porteur alors que letest est positif est minuscule, tandis que la probabilit dtre porteur alors que le test estngatif est trs importante.

    Lusage des probabilits conditionnelles peut se rvler trs dlicat, et lintuition peutparfois jouer des tours, comme le montrent les exemples suivants.

    Exemple 2.3.6. Un bienfaiteur vous propose le jeu suivant. Il va vous prsenter 3 en-veloppes fermes ; 2 dentre elles contiennent du papier journal, la dernire un chque de

    1000000 CHF. Vous devrez choisir une enveloppe, sans louvrir. Il ouvrira ensuite une desdeux enveloppes restantes et vous montrera quelle contient du papier journal. Vous aurezalors le choix entre conserver lenveloppe choisie initialement, ou bien changer pour cellequi reste. Quelle est la meilleure stratgie ? (Rponse : vous avez deux fois plus de chancesde gagner si vous changez ; pourquoi ?)

    Exemple 2.3.7. (Paradoxe du prisonnier) Trois hommes se sont faits arrter dans unesombre dictature. Ils apprennent de leur garde que le dictateur a dcid arbitrairement quelun dentre eux va tre libr, et les2 autres excuts ; le garde nest pas autoris annoncer un prisonnier quel sera son sort. Le prisonnier A sait donc, que la probabilit quil soitpargn est de1/3. Afin dobtenir davantage dinformations, il dcide dinterroger le garde.Il lui demande de lui donner en secret le nom dun de ses camarades qui sera excut. Le

    garde nomme le prisonnier B. Le prisonnier A sait donc quentre lui-mme et C, lun vatre libr, et lautre excut. Quelle est la probabilit que A soit excut ?

    Remarque 2.3.2. Dans les2 exemples prcdents, le problme est partiellement mal pos,car la stratgie employe par votre bienfaiteur, ou par le garde, lorsquils ont prendre unedcision nest pas indique. Dans une telle situation, supposez quil prend sa dcision de

    faon uniforme (aprs tout, vous navez aucune information sur le sujet, et tout autre choixserait difficile justifier).

    31

  • 7/27/2019 probabilit et statistique unige ressources

    32/238

    2.3. PROBABILIT CONDITIONNELLE, FORMULE DE BAYES

    Si les exemples prcdents sont trs artificiels et se rglent facilement en appliquant avecsoin les rgles de la thorie des probabilits, lexemple suivant montre que des difficultsrelles, subtiles et difficiles traiter apparaissent galement dans des applications pratiques.

    Exemple 2.3.8. (Paradoxe de Simpson10) Un scientifique a effectu des expriences cli-niques afin de dterminer les efficacits relatives de deux traitements. Il a obtenu les rsul-tats suivants :

    Traitement A Traitement BSuccs 219 1010chec 1801 1190

    Le traitement A ayant t administr 2020 personnes, et 219 dentre elles ayant tguries, son taux de succs est donc de 219/2020, ce qui est trs infrieur au taux corres-pondant pour le traitement B qui est de 1010/2200. Par consquent, le traitement B est

    plus efficace que le traitement A.Aprs avoir annonc ce rsultat, un de ses assistants vient vers lui. Il est en dsaccord

    avec linterprtation des rsultats. Il lui prsente le tableau suivant, dans lequel les rsultatsprcdents sont donns en tenant compte du sexe des patients :

    Femmes Hommes Traitement A Traitement B Traitement A Traitement B

    Succs 200 10 19 1000chec 1800 190 1 1000

    Chez les femmes, les taux de succs des traitements sont de 1/10 et 1/20 respectivement,et chez les hommes de 19/20 et 1/2. Le traitement A est donc plus efficace dans les 2 cas.Par consquent, le traitement A est plus efficace que le traitement B.

    Bien entendu, cest lassistant qui a raison : quel que soit le sexe du patient, ses chancesde gurir sont suprieures avec le traitement A.

    Ce paradoxe apparat rgulirement dans des tudes statistiques. Observez aussi la dif-ficult suivante : si lon navait pas relev le sexe des patients, on aurait t oblig debaser notre analyse sur le premier raisonnement, et on serait arriv une conclusion erro-ne. En particulier, comment tre certain quil nexiste pas dautres paramtres que le sexe(lge, le poids, . . . ) dont on naurait pas tenu compte et qui modifierait une fois de plus laconclusion ?

    Un cas rel clbre sest produit lorsque luniversit de Berkeley a t poursuivie pour

    discrimination sexuelle : les chiffres des admissions montraient que les hommes ayant posleur candidature avaient plus de chance dtre admis que les femmes, et la diffrence tait siimportante quelle ne pouvait raisonnablement tre attribue au hasard. Cependant, aprsavoir analys sparment les diffrents dpartements, on a dcouvert quaucun dpartementntait significativement biais en faveur des hommes ; en fait, la plupart des dpartementsavaient un petit (et pas trs significatif) biais en faveur des femmes ! Lexplication se trouve

    10. Edward Hugh Simpson. Ce paradoxe, discut par ce dernier en 1951, lavait dj t en 1899 parKarl Pearson et ses coauteurs, puis en 1903 par George Udny Yule.

    32

  • 7/27/2019 probabilit et statistique unige ressources

    33/238

    CHAPITRE 2. PROBABILIT, INDPENDANCE

    tre que les femmes avaient tendance porter leur choix sur des dpartements dont les tauxdadmission sont faibles, tandis que les hommes avaient tendance candidater dans desdpartements avec forts taux dadmission.

    2.4 Indpendance

    En gnral, linformation quun vnement B est ralis modifie la probabilit quunautre vnement A soit ralis : la probabilit priori de A, P(A), est remplace parla probabilit posteriori, P(A | B), en gnral diffrente. Lorsque linformation que B estralis ne modifie pas la probabilit doccurrence de A, cest--dire lorsque P(A | B) = P(A),on dit que les vnements A et B sont indpendants. Il y a au moins deux bonnes raisonspour ne pas utiliser cette proprit comme dfinition de lindpendance : dune part, ellena de sens que lorsque P(B) > 0, et dautre part, les deux vnements ne jouent pas

    un rle symtrique. La notion de probabilit conditionnelle conduit donc la dfinitionsuivante.

    Dfinition 2.4.1. Deux vnements A et B sont indpendants sousP si

    P(A B) = P(A)P(B).

    Plus gnralement, une famille dvnements (Ai)iI est indpendante sousP si

    P(iJ

    Ai) =iJ

    P(Ai),

    pour tous les sous-ensembles finisJ de I.

    Proposition 2.4.1. Soient A,B deux vnements indpendants. Alors A et Bc sont ind-pendants, et Ac et Bc sont indpendants.

    Plus gnralement, si A1, . . . , An sont indpendants, alors

    B1, . . . , Bn,

    o Bi {Ai,Aci}, sont aussi indpendants.

    Dmonstration. Laisse en exercice.

    Remarque 2.4.1. Si une famille dvnements(Ai)iI satisfaitP(AiAj) = P(Ai)P(Aj),pour toute paire i = j, on dit que la famille est 2 2 indpendante, ou indpendante parpaires. Lindpendance par paires nimplique pas lindpendance. Un exemple : considrez = {1,2,3,4}, avec la distribution uniforme, et les vnements A = {1,2}, B = {2,3}et C = {1,3} ; on vrifie aisment que A,B,C sont indpendants par paires, et pourtantP(A B C) = 0 = P(A)P(B)P(C).

    33

  • 7/27/2019 probabilit et statistique unige ressources

    34/238

    2.4. INDPENDANCE

    Exemple 2.4.1. Retournons au graphe alatoireG(n,m). La probabilit que deux sommetsdistinctsi etj donns soient relis par une arte (noti j) est donne par (rappelez-vousque N =

    n2)

    P(i j) = N1m1Nm

    = mN

    .

    En effet, le numrateur correspond au nombre total de faon de choisir les m 1 artesrestantes parmi les N 1 artes encore disponibles.

    Dautre part, soient i,j,k, quatre sommets tels que{i,j} = {k,}. La probabilit quonait la fois i j et k est donne par

    P(i j, k ) =N2m2

    Nm

    = m(m 1)N(N 1) .

    On voit donc que les vnements i

    j et k

    ne sont pas indpendants.

    Il convient dtre attentif lorsque lon utilise la notion dindpendance. En particulier,lide intuitive dindpendance peut tre parfois mise en dfaut, comme le montre les deuxexemples suivants.

    Exemple 2.4.2. Un vnement peut tre indpendant de lui-mme. En effet, ceci a lieusi et seulement sil a probabilit 0 ou 1, car dans ce cas, on a bien

    P(A) = P(A A) = P(A)P(A) P(A) {0,1}.Exemple 2.4.3. Considrons des familles avec 3 enfants et intressons-nous au sexe desenfants ; on suppose que chacune des8 possibilits a la mme probabilit 1/8. SoitA lv-

    nement la famille a des enfants des 2 sexes , et B lvnement la famille a au plusune fille . On a

    P(A) = 34 , P(B) =12 , P(A B) = 38 ,

    et donc A et B sont indpendants.Faisons la mme chose avec des familles de 4 enfants. Dans ce cas,

    P(A) = 78 , P(B) =5

    16 , P(A B) = 14 ,et donc A et B ne sont pas indpendants.

    Dfinition 2.4.2. Soit C un vnement avec P(C) > 0. Deux vnements A et B sontindpendants conditionnellement C sousP si

    P(A B | C) = P(A | C)P(B | C).Plus gnralement, une famille dvnements (Ai)iI est indpendante conditionnellement C sousP si

    P(iJ

    Ai | C) =iJ

    P(Ai | C),

    pour tous les sous-ensembles finis J de I.

    34

  • 7/27/2019 probabilit et statistique unige ressources

    35/238

    CHAPITRE 2. PROBABILIT, INDPENDANCE

    2.5 Expriences rptes, espace produit

    Dans cette section, nous allons nous intresser la description mathmatique dune

    exprience alatoire rpte dans les mmes conditions, de faon indpendante, un nombrefini ou infini de fois. Afin de rester concret, nous illustrerons la construction avec le casparticulier du lancer rpt dune pice de monnaie, un exemple dj discut plusieursreprises prcdemment.

    Lespace probabilis correspondant une instance de lexprience est not (1,F1,P1).Exemple 2.5.1. Dans le cas dun jet dune pice de monnaie, 1 = {P,F}, et la tribucorrespondante est F= P(1). 1 tant fini, il est suffisant, pour dterminer la mesurede probabilit, de donner ses valeurs sur les vnements lmentaires : on posera doncP1({P}) = p, P1({F}) = 1 p q, o p [0,1] est la probabilit que la pice tombe surpile. p = 12 dans le cas dune pice quilibre.

    Nous allons prsent construire lespace probabilis correspondant 2 rptitions delexprience. Lunivers correspondant est donn par le produit cartsien de 2 copies de 1 :2 = 1 1 = {(a1, a2) : ai 1}.

    En ce qui concerne la construction de la tribu sur 2, nous voulons garantir que celle-cicontienne tous les vnements du type lvnement A sest produit lors de la premireexprience, et lvnement B sest produit lors de la seconde . Ceci conduit la dfinitionsuivante.

    Dfinition 2.5.1. Si F et F sont deux tribus sur des univers et , la tribu produitF F sur est la tribu engendre par les rectangles, cest--dire les ensembles de la

    forme A B avec A Fet B F.

    Exemple 2.5.2. La tribu borlienne sur Rn est la tribu produit B(R) B(R) (nfois). On la noteraB(Rn). On peut montrer quelle concide avec la tribu engendre parles ouverts deRn, et quelle est en fait galement engendre par les ensembles de la forme(,x1] (,xn], avec x1, . . . , xn Q.

    Nous dsirons prsent dfinir la mesure de probabilit P2 sur (2,F2). Nous voulonsmodliser lindpendance des expriences successives, par consquent deux vnementsA et B portant lun sur la premire exprience, et lautre sur la seconde doivent treindpendants. Cela implique que

    P2(A B) = P2(A)P2(B),

    pour tout A de la forme

    A 1, et B de la forme 1

    B, avec

    A,

    B F1. De plus laralisation de lvnement A ne dpendant que de la ralisation de A lors de la premireexprience, on doit avoir P2(A) = P1(A) ; similairement P2(B) = P1(B). Observant queA B = A B, ceci conduit chercher dfinir P2 par

    P2(A B) = P1(A)P1(B), A,B F1.Lexistence dune telle mesure de probabilit est un rsultat classique de thorie de lamesure (cf. Analyse III).

    35

  • 7/27/2019 probabilit et statistique unige ressources

    36/238

    2.5. EXPRIENCES RPTES, ESPACE PRODUIT

    Thorme 2.5.1. Soient (,F,P) et (,F,P) deux espaces probabiliss. Il existe uneunique mesure de probabilitP P sur lespace probabilisable ( ,F F) telle que

    P P(A B) = P(A)P(B), A F, B F.

    P P est appel mesure produit deP etP.

    Dfinition 2.5.2. Soient (,F,P) et (,F,P) deux espaces probabiliss. Lespace proba-bilis ( ,F F,P P) est leurespace probabilis produit.

    Exemple 2.5.3. Pour deux jets de pices de monnaie, on obtient

    2 = {PP,PF,FP,FF}, F2 = P(2),

    etP2 est dtermine parP2({PP}) = p2, P2({PF}) = P2({FP}) = pq etP2({FF}) = q2.

    En itrant la construction ci-dessus, on construit lespace probabilis (n,Fn,Pn) cor-respondant la rptition dun nombre fini quelconque dexpriences indpendantes :n = 1 1 (n fois), Fn = F1 F1 (n fois) et Pn = P1 P1 (nfois).

    Pour diverses raisons, en particulier la discussion de la loi forte des grands nombres,il est important de pouvoir discuter de la rptition dun nombre infini dexpriencesindpendantes. La faon de procder est la suivante (dj esquisse dans lExemple 1.1.4).On dfinit videmment lunivers comme le produit cartsien dune infinit de copies de 1,

    = 1

    1

    . La tribu correspondante

    Fest la tribu engendre par les vnements

    ne dpendant que des rsultats dun nombre fini dexpriences, cest--dire les vnementsde la forme

    (a1,a2, . . .) : (a1, . . . , an) A

    ,

    avec n 1 un entier arbitraire et A Fn. Ces ensembles formant une algbre (cf.lExemple 1.1.4), il suffit de construire la mesure de probabilit P pour ces ensembles,le Thorme dextension de Carathodory permettant de ltendre automatiquement latribu F. Mais, si A est un tel vnement, A = A 1 1 , A Fn, n 1, on doitavoir P(A) = Pn(A).

    En particulier, pour dterminer la probabilit de lvnement

    A = {(a1,a2, . . .) : a1 B1, . . . , an Bn} ,

    o Bi F1 (i = 1, . . . , n), il suffit de ne considrer que les n premires expriences, et ondoit donc avoir

    P(A) = Pn(A) = P1(B1) P1(Bn),o A = B1 Bn.

    36

  • 7/27/2019 probabilit et statistique unige ressources

    37/238

    CHAPITRE 2. PROBABILIT, INDPENDANCE

    2.6 Rsum du chapitre

    Continuit des mesures de probabilit. Si (Ai)i1 est une suite croissante dvne-

    ments, A1 A2 , alors leur limite limi Ai = i1 Ai satisfaitP( limi

    Ai) = limi

    P(Ai).

    Un rsultat analogue est galement vrifi pour une suite dcroissante dvnements.

    Construction despaces probabiliss : cas fini et dnombrable. Dans ce cas ilest possible de choisir F= P(), et une mesure de probabilit P est caractrise par lesvaleurs quelle associe aux vnements lmentaires , P({}) = f(). La probabilitdun vnement A quelconque est alors donne par P(A) =

    A f().

    Construction despaces probabiliss : cas non dnombrable. Dans ce cas il nesten gnral pas possible de prendre F= P(). La construction se fait alors par tapes :choix dune algbre naturelle dvnements, dont la probabilit peut tre aisment dfinie ;extension de cette mesure de probabilit sur lalgbre en une mesure de probabilit sur latribu quelle engendre, laide du Thorme dextension de Carathodory.

    Probabilit conditionnelle. tant donn un vnement B tel que P(B) > 0, la pro-babilit conditionnelle sachant B est la mesure de probabilit dfinie par P(A | B) =P(A B)/P(B).

    Loi de la probabilit totale : P(A) =

    iIP(A | Bi)P(Bi), pour toute partition

    (Bi)iI de ;

    Formule de Bayes : P(Bi | A) = P(A | Bi)P(Bi)/jIP(A | Bj)P(Bj).Indpendance. Une famille (Ai)iI dvnements est indpendante (sous P) si, pourtout J I fini, P(iJAi) = iJP(Ai). En particulier, si A et B sont indpendants etP(B) > 0, alors P(A | B) = P(A).

    Expriences rptes. Si (,F,P) est lespace probabilis associ une expriencealatoire, lespace probabilis associ n rptitions indpendantes de lexprience estdonn par lespace produit, ( , F F ,P P) (tous les produits tantpris n fois), o est le produit cartsien des ensembles, F Fest la tribu engendrepar les ensembles de la forme A

    B, A,B

    F, et P

    P est lunique de mesure de probabilit

    sur F Ftelle que P P(A B) = P(A)P(B).Lespace probabilis correspondant une infinit de rptitions indpendantes de lex-

    prience est (,F,P), o est le produit cartsien dune infinit de copies de, F est la tribu engendre par les vnements ne dpendant que des n premiresexpriences, n arbitraire, et P est lunique mesure de probabilit sur F telle queP(A1 An) = P(A1) P(An), pour tout n.

    37

  • 7/27/2019 probabilit et statistique unige ressources

    38/238

    2.6. RSUM DU CHAPITRE

    38

  • 7/27/2019 probabilit et statistique unige ressources

    39/238

    Chapitre3Variables alatoires

    3.1 Dfinitions

    3.1.1 Variables alatoires et leurs lois

    Il est souvent plus pratique dassocier une valeur numrique au rsultat dune exprien-ce alatoire, plutt que de travailler directement avec une ralisation. Par exemple, lorsquen et m sont grands, une ralisation du graphe alatoire G(n,m) de lExemple 2.2.2 est unobjet trop complexe pour tre directement intressant (voir la Fig. 3.1). Il sera alors plusutile de se concentrer sur certaines proprits numriques de cette ralisation, comme, parexemple, le nombre dartes incidentes en un sommet, le nombre de composantes connexes,ou la taille de la plus grande composante connexe. Mathmatiquement, de telles valeurs

    numriques sont des fonctions X : R associant un rsultat de lexprience une valeurdans R. Une telle fonction est appele variable alatoire.

    Exemple 3.1.1. On considre le graphe alatoireG(n,m). Pour chaquek N, la fonctionNk donnant le nombre de sommets ayant k artes incidentes est une variable alatoire.Dans la ralisation deG(8,4) reprsente dans la figure 2.2, on aN0 = 1, N1 = 6, N2 = 1,et Nk = 0 pour les autres valeurs de k.

    Soit (,F,P) un espace probabilis. Les questions que lon va se poser concernant unevariable alatoire X : R prennent la forme

    P({ : X() A}) = P(X1(A)) P(X A),

    pour certains sous-ensembles A R. Or, P(X1(A)) nest bien dfinie que si X1(A) F.De plus, la distribution de probabilit P sur et la variable alatoire X induisent unemesure de probabilit PX sur R en posant, pour A R,

    PX(A) = P(X A).On a vu que ceci ne peut pas tre fait de manire cohrente pour toutes les parties de R, etquil faudra donc se restreindre aux ensembles A B. On est donc conduit la dfinitionsuivante.

    39

  • 7/27/2019 probabilit et statistique unige ressources

    40/238

    3.1. DFINITIONS

    Figure 3.1: Une ralisation du graphe alatoire G(100,200).

    Dfinition 3.1.1. Une applicationX : R entre les deux espaces probabilisables(,F)et (R,B) est une variable alatoire si et seulement si

    X1(A) F, A B.

    La mesure de probabilitPX surR dfinie par

    PX(A) = P(X A), A B

    est appele la loi de X.

    Remarque 3.1.1. On peut montrer quil suffit de vrifier que X1

    (,x] F, pourtout x R.Exemple 3.1.2. Considrons le lancer de deux ds non pips, et notons X la variablealatoire correspondant la somme des valeurs obtenues. Alors, la probabilit que la sommevaille3 est donne par

    PX({3}) = P(X = 3) = P({(1,2),(2,1)}) = 236

    =1

    18.

    Remarque 3.1.2. Une fonction : R R est dite mesurable si 1(A) B, pour toutA B. Dans ce cas, on vrifie immdiatement que si X : R est une variable alatoire,alors(X) est galement une variable alatoire. Dans ce cours, chaque fois que lon crit(X), X une variable alatoire, la fonction sera suppose mesurable. Similairement, ondira quune fonction : Rn R est mesurable si 1(A) B(Rn), pour tout A B(R).

    40

  • 7/27/2019 probabilit et statistique unige ressources

    41/238

    CHAPITRE 3. VARIABLES ALATOIRES

    La mesure de probabilit PX contient toute linformation ncessaire pour tudier lesproprits statistiques de la variable alatoire X; en particulier, si lon nest intress quepar cette variable alatoire, lespace probabilis de dpart (,

    F,P) peut tre compltement

    ignor, et souvent nest mme pas spcifi, lespace probabilis pertinent tant (R,B,PX).

    3.1.2 Variables alatoires dfectives

    Il est parfois naturel dautoriser des variables alatoires prendre des valeurs infinies.Bien sr, ceci na dinfluence que si la probabilit dobtenir une valeur infinie est strictementpositive.

    Dfinition 3.1.2. Une variable alatoire X telle queP(X = ) > 0 est dite dfective.Exemple 3.1.3. On jette une pice de monnaie jusqu ce que le nombre de pile etde face obtenus soient gaux. On suppose que face sort avec probabilit p, indpen-

    damment chaque lancer. On note le nombre de lancers effectus. est priori unevariable alatoire valeurs dansR{+}, = + correspondant une suite de lancerso lgalit des pile et des face na jamais lieu.

    La loi de peut facilement tre dduite du problme du ballot de lExemple 2.3.4. Bienentendu, on ne peut avoir galit entre le nombre de face et de pile quaux tempspairs. valuons donc la probabilit de lvnement = 2n. Une faon de procder est deconditionner sur le nombre de face obtenus lors des premiers 2n essais :

    P( = 2n) = P( = 2n | n face lors des 2n premiers lancers)

    2n

    n

    pn(1 p)n.

    On vrifie immdiatement que, conditionnellement au fait davoir n face lors des 2n

    premiers lancers, toutes les sries de 2n lancers compatibles sont quiprobables. La probabi-lit conditionnelle est donc gale la probabilit quau cours du dpouillement des bulletinsdune lection lors de laquelle chacun des deux candidats reoit n votes, un des deux can-didats ait toujours t en avance avant que le dernier bulletin ne soit lu (et mette les deuxcandidats galit). En conditionnant sur le rsultat du dernier bulletin, on voit facilementque la probabilit conditionnelle recherche est gale P(n,n 1) (dans les notations delExemple 2.3.4). Par consquent, la loi de est donne par

    P( = 2n) =

    2n

    n

    pn(1 p)n P(n,n 1) =

    2n

    n

    pn(1 p)n

    2n 1 .

    videmment P( x) = 1 FX(x),2. P(x < X y) = FX(y) FX(x),

    3. P(X = x) = FX(x) limyx FX(y).Dmonstration. Les deux premires affirmations sont immdiates. Pour la troisime, onconsidre les vnements An = {x 1n < X x}. Puisque limn An = {X = x}, il suitdu Lemme 2.1.2 que

    P(X = x) = limnP(An) = limn

    FX(x) FX(x 1

    n)

    ,

    par le p