Cours de Statistique
Transcript of Cours de Statistique
1
STATISTIQUE I
(STAT-D-101)
ECTS: 5 (theorie: 2, exercices: 2, travaux
personnels: 1)
Catherine Dehon
Batiment S - 11eme etage - bureau S11.226
Tel.: (02) 6503858 e-mail: [email protected]
Universite libre de Bruxelles
Annee 2009-2010
1ere annee - Bachelier en sciences economiques
Version 2
2
AVERTISSEMENT
Ce syllabus a ete redige dans le but de faciliter
la prise de notes pendant le cours theorique.
La mise a jour du present syllabus sera faite via
le cours theorique.
Il est bien entendu que l’examen portera sur
l’ensemble de la matiere vue au cours theorique
(des elements pourraient etre ajoutes oralement
au cours) ainsi que la matiere des travaux pra-
tiques.
3
A savoir ....
• Buts du cours:
1. Introduction des concepts statistiques afin de
realiser des analyses descriptives sur des vari-
ables quantitatives et/ou qualitatives.
2. Introduction des elements du calcul de proba-
bilites et des lois de probabilite univariee discrete
pour preparer les problemes d’inference statis-
tique qui seront etudies en 2eme annee.
3. Mise en pratique des connaissances dans des
situations de la vie de tous les jours.
•Methode d’enseignement et support:
Theorie : Cours ex cathedra. Syllabus de theorie
contenant la copie des transparents projetes (et
commentes) au cours disponible sur le site:
http://www.ulb.ac.be/soco/statrope/.
4
• Exercices:
Subdivision des etudiants en groupes de T.P.
Les enonces des exercices sont disponibles sur
le site ci-avant. Quelques examens resolus des
annees precedentes sont egalement telechargeables
sur ce site. En outre, des permanences et
des guidances sont organisees.
•Methode d’evaluation:
Une epreuve ecrite dispensatoire est organisee
durant la session de janvier. L’examen com-
porte une partie theorique et une partie pra-
tique, sans interruption entre les deux. Aucune
note personnelle n’est autorisee. Les etudiants
peuvent (re)presenter une epreuve durant la ses-
sion de mai/juin. Dans ce cas, la note obtenue
remplace celle de l’epreuve de janvier.
Chapitre 1
INTRODUCTION A LA
STATISTIQUE
But: Transformer des donnees en information
La Statistique: ensemble de methodes et ou-
tils mathematiques visant a collecter, decrire
et analyser des donnees afin d’obtenir de l’infor-
mation permettant de prendre des decisions
malgre la presence d’incertitude (erreur, bruit)
5
CHAPITRE 1. INTRODUCTION A LA STATISTIQUE 6
La statistique joue un role essentiel dans de nom-
breuses disciplines:
• en economie: taux de croissance, nombre de
brevets deposes, prix de l’immobilier,...
• en finance: rentabilite d’un investissement,...
• en marketing: etude de marche, ...
• en gestion des ressources humaines: absenteisme,...
• en medecine: mise sur le marche de nouveaux
medicaments, ...
• en sciences sociales, en sciences politiques,
etc
⇓
la statistique est l’outil de confrontation d’une
theorie scientifique a l’observation
CHAPITRE 1. INTRODUCTION A LA STATISTIQUE 7
1.1 EXEMPLES
1.1.1 RENTABILITE D’UN INVESTISSEMENT
Pour investir intelligemment vos economies, vous
allez voir le conseiller de votre banque qui vous
suggere 2 types d’investissement:
- investir dans le secteur de l’informatique
- investir dans le secteur agro-alimentaire.
Votre but est double:
- maximiser les profits
- minimiser les risques.
Pour prendre la decision, vous realisez une etude
statistique.
CHAPITRE 1. INTRODUCTION A LA STATISTIQUE 8
1. Collecte des donnees
Selectionner au hasard un echantillon de 100 en-
treprises dans le secteur de l’informatique et 100
dans le secteur de l’agro-alimentaire.
Calculer le taux de rentabilite de l’investissement
pour chaque entreprise (rate of return on in-
vestissment):
ROI = Benefice/Valeur de l’investissement.
Exemples:
- investir 100 euros en 2004 et avoir 106 euros
en 2005 donc benefice de 6 euros:
ROI = 6/100 = 0.06 = 6%
- investir 100 euros en 2004 et avoir 80 euros en
2005 donc perte de 20 euros:
ROI = -20/100 = -20%.
CHAPITRE 1. INTRODUCTION A LA STATISTIQUE 9
2. Statistique Descriptive:
Tableaux-Graphiques
• Variable etudiee: taux de rentabilite.
• Variable quantitative continue.
• Variable etudiee sur 2 populations:
Info et Agro alimentaire.
• Effectif: n=100 dans chaque secteur.
Informatique ROI(%) Agro-Ali ROI(%)
Entreprise 1 10 Entreprise 1 7
Entreprise 2 -5 Entreprise 2 3
· · · · · · · · · · · ·Entreprise 99 30 Entreprise 99 -2
Entreprise 100 -25 Entreprise 100 10
CHAPITRE 1. INTRODUCTION A LA STATISTIQUE 10
Graphiques: Histogrammes
-10 -5 0 5 10
02
46
8
ROI
effe
ctif
Secteur de l’informatique
-10 -5 0 5 10
02
46
810
12
ROI
effe
ctif
Secteur de l’agroalimentaire
Comparaison des 2 histogrammes:
• centre de la distribution plus a gauche pour
le secteur informatique donc moins rentable
• dispersion plus grande en informatique donc
plus risque
=⇒ Investir dans l’agro alimentaire.
CHAPITRE 1. INTRODUCTION A LA STATISTIQUE 11
Statistiques descriptives: Parametres
Calculs de quelques statistiques:
Parametres Informatique Agro-Ali
Minimum -6.92 -0.66
Maximum 10.56 7.21
Mediane 1.79 3.53
Moyenne 1.50 3.40
Ecart-type 2.99 1.96
Asymetrie
. . .
CHAPITRE 1. INTRODUCTION A LA STATISTIQUE 12
3. Inference statistique (BA2)
• Tester l’egalite des moyennes des taux de renta-
bilite dans les 2 secteurs
• Tester si la moyenne des ROI dans le secteur
de l’informatique est significativement plus
petite que dans le secteur agro alimentaire
(donc moins rentable en moyenne)
• Tester si la dispersion dans les 2 secteurs est
identique, tester si le secteur de l’informatique
est plus risque
• ...
CHAPITRE 1. INTRODUCTION A LA STATISTIQUE 13
1.1.2 PROBLEME D’ABSENTEISME EN ENTREPRISES
(Chadhury, Ng, “Canadian Journal of Economics”, 1992)
L’absenteisme reduit la production de ± 10%
⇓
Deux economistes ont selectionne 100 firmes et
mesure le nombre moyen de jours d’absence par
employe sur une annee. Cette variable (X1) est
quantitative.
Ils ont egalement mesure plusieurs variables sus-
ceptibles d’influencer le taux d’absenteisme:
X2 = salaire moyen (quantitative continue)
X3 = % d’employes part-time (idem)
X4 = capacite a travailler en equipe (0=non,
1=oui =⇒ variable qualitatitve dichotomique)
X5 = qualite des relations avec le manager
(0=mauvais, 1=bon =⇒ Idem)
CHAPITRE 1. INTRODUCTION A LA STATISTIQUE 14
1. Statistique Descriptive: Graphiques
0 5 10 15
05
10
15
20
Absenteisme
effect
if
Histogramme du taux d’absenteisme
0 10000 30000 50000
05
10
15
Salaire
effect
if
Hist. du salaire moyen
0 10 20 30 40
05
10
15
Part Time
effect
if
Hist. du pourcentage de Part Time
Manager
Abse
nt
0.0 0.2 0.4 0.6 0.8 1.0
24
68
10
12
14
Graphique 2 dimensions
Salaire
Abse
nt
15000 25000 35000
24
68
10
12
14
Graphique 2 dimensions
Part.Time
Abse
nt
0 5 10 15 20 25 30
24
68
10
12
14
Graphique 2 dimensions
CHAPITRE 1. INTRODUCTION A LA STATISTIQUE 15
2. Statistiques descriptives univariees
Absent Salaire PT Equipe Manager
Minimum 2.10 12023 0 0 0
Maximum 14.8 42986 30.80 1 1
Mediane 5.65 22586 9.10 1 1
Moyenne 6.23 23587 11.52 0.67 0.64
Ecart-type 3.36 6656.19 8.08 0.47 0.48
Skewness 0.66 0.80 0.58 - -
Kurtosis 2.44 3.38 2.46 - -
Differents types de variables
⇓
Attention aux interpretations !!!!
CHAPITRE 1. INTRODUCTION A LA STATISTIQUE 16
3. Regression lineaire multiple (Stat2)
Le taux d’absenteisme peut etre explique en par-
tie par les autres variables (en supposant un lien
lineaire). Dependent Variable: ABSENT
Variable Coefficient t-Statistic
SALAIRE -0.000211 -5.319899
PART-TIME -0.093396 -2.862929
EQUIPE 1.491396 2.671433
MANAGER -2.706436 -4.951130
C 13.01733 11.43809
R-squared 0.416499 F-statistic: 16.95260
Le taux d’absenteisme diminue si
- le salaire moyen augmente
- le pourcentage de part time augmente
- non capacite a travailler en equipe
- les relations avec le manager sont bonnes
CHAPITRE 1. INTRODUCTION A LA STATISTIQUE 17
1.2 MOTS CLEFS
• Population: collection complete (dans le sens
ou elle inclut tous les individus a etudier) d’individus
sur laquelle porte l’etude
• Parametre: mesure numerique decrivant une
caracteristique de la population
•Echantillon: sous-ensemble d’individus obtenus
a partir de la population (methodes de sondage)
• Une statistique: mesure numerique decrivant
une caracteristique de l’echantillon
•Donnee: fait numerique ou non porteur d’infor-
mation
CHAPITRE 1. INTRODUCTION A LA STATISTIQUE 18
•Variable: Caracteristique dont la valeur change
d’un individu a l’autre dans la population
• Type de variable:
- variable directe: mesurable directement (salaire)
- indicateur: non mesurable directement (sante
des entreprises belges cotees en bourse: BEL20)
- variable qualitative: caracteristiques (modalites)
non numeriques (profession)
- variable dichotomique: variable qualitative
ne prenant que 2 modalites (sexe)
- variable quantitative dicrete: valeurs numeriques
discretes, isolees (nombre d’enfants)
- variable quantitative continue: valeurs numeriques
sur un intervalle continu (salaire)
CHAPITRE 1. INTRODUCTION A LA STATISTIQUE 19
• Le choix d’une echelle de mesure n’est pas
unique:
- echelle nominale: donnees non numeriques
qui ne peuvent pas etre ordonnees (type de film)
- echelle ordinale: donnees non numeriques pos-
sedant un ordre naturel (avis pedagogiques)
- echelle d’intervalle: donnees numeriques avec
interpretation possible des differences entre in-
dividus mais pas de zero unique (date)
- echelle de rapport: echelle d’intervalle avec la
notion supplementaire de zero naturel (age)
ECHELLE ECHELLE ECHELLE ECHELLE
NOMINALE ORDINALE D’INTERVALLE DE RAPPORT
Denombrement Denombrement Denombrement Denombrement
Comparaison Comparaison Comparaison
Difference Difference
Rapports
CHAPITRE 1. INTRODUCTION A LA STATISTIQUE 20
1.3 DEMARCHE SCIENTIFIQUE
Objectif(s) a atteindre, Question(s) a poser
⇓Collecte des donnees:releve direct, experimentation,
enquete exhaustive (recensement),
enquete partielle (sondage)
⇓Analyse descriptive:
univariee (Stat 1) et bivariee (Stat 1)
P-variee (Analyse des donnees)
⇓Analyse confirmatoire: Inference statistique
Estimation, Tests d’hypothese (Stat 2)
Regression Lineaire et Series Chrono. (Econometrie)
⇓Previsions, Conclusions, Decisions
CHAPITRE 1. INTRODUCTION A LA STATISTIQUE 21
=⇒ Deux grandes aires d’etude:
• Statistique descriptive: Etape preliminaire
qui etudie l’echantillon en produisant des graphiques
et des valeurs numeriques (statistiques) resumant
l’information du jeu de donnees
• Inference statistique: facilite le processus de
decision en utilisant des procedure d’estimation,
de problemes de tests, ...qui permettent de tirer
des conclusions sur la populatipon a partir de
l’echantillon
Lien entre Statistique et Probabilite:
Probabilite
Population −→ Echantillon
Inference Statistique
Echantillon −→ Population
CHAPITRE 1. INTRODUCTION A LA STATISTIQUE 22
1.4 PLAN DU COURS
• Introduction
• Analyse descriptive: serie statistique univariee
• Probabilite
• Analyse descriptive: serie statistique bivariee
• Analyse d’une serie chronologique
•Variables aleatoires et lois de probabilites discretes
CHAPITRE 1. INTRODUCTION A LA STATISTIQUE 23
1.5 REFERENCES
• Anderson D., Sweeney D., Williams T. (2001),
Statistiques pour l’economie et la gestion,
Bruxelles, De Boeck Universite.
• Dagnelie P. (1998), Statistique theorique et
appliquee. Tome 1: Statistique descrip-
tive et bases de l’inference statistique, Brux-
elles, De Boeck Universite.
• Dehon, C. , Droesbeke, J-J. et Vermandele C.
(2008), Elements de statistique, Bruxelles,
Editions de L’Unviversite de Bruxelles.
• http://www.ulb.ac.be/soco/statrope/ (notes
de cours)
Chapitre 2
STATISTIQUE DESCRIPTIVE
D’UNE SERIE UNIVARIEE
• Etape preliminaire a toute etude statistique.
• Permet de “prendre contact” avec l’echantillon.
• Se divise en 2 aires:
- elaboration de tableaux et graphiques
- valeurs numeriques resumant l’echantillon
(statistiques).
24
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 25
2.1 NOTATIONS
Les donnees sont souvent collectees dans un tableau
Individus × Caracteres
Var-Ind 1 2 . . . j . . . p
1 x11 x12 . . . x1j . . . x1p
2 x21 x22 . . . x2j . . . x2p
· · · · · · · · · · · · · · · · · · · · ·i xi1 xi2 . . . xij . . . xip
· · · · · · · · · · · · · · · · · · · · ·n xn1 xn2 . . . xnj . . . xnp
• n: Taille de l’echantillon
• p: nombre de variables
⇓
Matrice de donnees de dimension n× p=⇒ Serie statistique a p-dimension.
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 26
Remarques
• Serie univariee si p = 1:
x1, x2, . . . , xn = xi; i = 1, . . . , n
• Serie bivariee si p = 2:
(x1, y1), . . . , (xn, yn) = (xi, yi); i = 1, . . . , n
• Serie ordonnee:
Definition: La serie ordonnee x(1), x(2), . . . , x(n)est telle que : x(i) ≤ x(j) si i ≤ j, ou ≤ definit
la relation d’ordre.
(i) est appele le rang de l’observation x(i).
Exemple:
Serie observee: xi; i = 1, . . . , 6 = 2, 0,−1, 1, 4, 3Serie ordonnee: x(i); i = 1, . . . , 6 = −1, 0, 1, 2, 3, 4
Ainsi: x(1) = x3, x(3) = x4, x(6) = x5.
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 27
2.2 TABLEAUX ET GRAPHIQUES
A. Donnees nominales (qualitatives)
Exemple 1: Donnees reprenant tous les achats
par carte de credit aux USA durant les 6 pre-
miers mois de 1998. La variable etudiee est la
nature de la carte utilisee (The Nilson Report,
Oct. 8, 1998).
Sur les 200 milliards achats effectues, on a la
repartition suivante:
• 36 milliards d’achats avec la carte American
express
• 2 milliards d’achats avec la carte Diners Club
• 12 milliards d’achats avec la carte Discover
• 50 milliards d’achats avec la Master card
• 100 milliards d’achats avec la carte VISA
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 28
Resume de l’information: Tableau des effectifs
xj nj (unite: milliard)
American express 36
Diners Club 2
Discover 12
Master card 50
Visa 100∑Jj=1 nj = n=200
• x1, x2, x3, x4, x5 representent les 5 modalites
disctinctes observees
• J est le nombre de modalites disctinctes ob-
servees (ici J = 5).
• nj est l’effectif associe a xj pour j = 1, . . . , 5
• La serie univariee est donc resumee par
(xj, nj); j = 1, . . . , J =
(AE, 36), (DC, 2), (D, 12), (MC, 50), (V, 100)
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 29
Alternative aux effectifs (nj) : l’utilisation des
frequences:
fj =njn
(j = 1, . . . , J)
Les frequences representent le pourcentage d’ober-
vations egales a xj.
Tableau des frequences
xj nj fj
American express 36 0.18
Diners Club 2 0.01
Discover 12 0.06
Master card 50 0.25
Visa 100 0.50
200 1
Remarque:∑Jj=1 fj = 1.
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 30
Representations graphiques
Bar Chart
020
40
60
80
100
ModalitØ
Effect
if(nj)
AE DC D MC VISA
Ordre AlphabØtique
020
40
60
80
100
ModalitØ
Effect
if(nj)
VISA MC AE D DC
Ordre DØcroissant
=⇒Choix arbitraire sur les axes puisqu’il n’existe
pas d’ordre naturel entre les modalites.
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 31
Diagramme en secteurs (Pie Chart)
Concept de proportion
18.0%
1.0%6.0%
25.0%
50.0%
xj nj fj(%) Degre
American express 36 0.18 64.8
Diners Club 2 0.01 3.6
Discover 12 0.06 21.6
Master card 50 0.25 90
Visa 100 0.50 180
200 1 360
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 32
Tableau disjonctif complet
•Nombre de lignes = nombre d’individus (achats)
• Nombre de colonnes = nombre de modalites
(5 cartes de credit)
•Chaque colonne est une variable binaire prenant
la valeur 1 si l’individu possede cette modalite
et 0 sinon.
Individu 1 2 3 4 . . . 200 ∗ 109
Type de cartes V D AE V . . . DC
0 0 0 0 1
0 0 1 0 0
X= 1 0 0 0 0
0 0 0 0 1
· · · · · · · · · · · · · · ·0 1 0 0 0
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 33
B. Donnees ordinales (qualitatives)
Exemple 1: Avis pedagogique: evaluation d’un
cours par les etudiants.
• Tableau des effectifs
avec n = 100 et J = 5:
xj TD D M F TF
nj 1 9 40 35 15
Ordre naturel entre les modalites
⇓
Tableau des frequences cumulees ou:
• Effectif cumule: Nj = n1 + . . . + nj
(nombre d’observations ≤ xj)
• Frequence cumulee: Fj =Njn
(pourcentage d’observations ≤ xj)
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 34
• Tableau des effectifs cumules et des
frequences cumulees
xj nj fj Nj Fj
TD 1 0.01 1 0.01
D 9 0.09 10 0.10
M 40 0.40 50 0.50
F 35 0.35 85 0.85
TF 15 0.15 100 1
100 1
• 10% des eleves interroges ont un avis tres
defavorable ou defavorable.
• 85 eleves sur 100 ont un avis egal ou inferieur
a la notation favorable.
• 15% des eleves ont un avis tres favorable.
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 35
Representations graphiques
Diagramme en barres des effectifs et des frequences
(Bar Chart)0
1020
3040
Avis PØdagogiques
Effe
ctif(
nj)
TD D M F TF
Diagramme en barres (effectifs)
0.0
0.1
0.2
0.3
0.4
Avis PØdagogiques
Freq
uenc
e(fj)
TD D M F TF
Diagramme en barres (frØquences)
Diagramme en blocs
0
20
40
60
80
100
120
TD D
M F
TF
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 36
Exemple 2: Etude sur le niveau de diplome des
25 managers americians les mieux payes (Forbes,
May 17, 1999).
Top Noms Societe Niveau de diplome
1. Michael d. Eisner Walt Disney Bachelier
2. Mel Karmazin CBS Bachelier
3. Stephen M. Case American Online Bachelier
4. Stephen C. Hilbert Conseco None
5. Craig R. Barrett Intel Doctorat
6. Millard Drexler Gap Master
7. John F. Welsch, Jr. General Electric Doctorat
. . . . . . . . . . . .
10. Reuben Mark Colgate-Palmolive Master
. . . . . . . . . . . .
13. Margaret C. Whitman eBay Master
14. Louis V. Gerstner,Jr. IBM Master
. . . . . . . . . . . .
17. M. Douglas Ivester Coca-Cola Bachelier
. . . . . . . . . . . .
20. William R. Steere, Jr Pfizer Bachelor
21. Nolan D. Archibald Black-Decker Master
. . . . . . . . . . . .
25. Richard Jay Kogan Schering-Plough Master
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 37
• Tableau des effectifs: n = 25, J = 4
xj None Bachelier Master Doctorat/Droit
nj 1 7 11 6
Diagramme en barres (Bar Chart)
Effe
ctif(
nj)
01
23
45
6
None Bachelor Master Doctorate
25 Best−Paid Executives
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 38
• Tableau des frequences cumulees ou:
Effectif cumule: Nj = n1 + . . . + nj
(nombre d’observations ≤ xj)
Frequence cumulee: Fj =Njn
(pourcentage d’observations ≤ xj)
Highest Degree nj fj Nj Fj
None 1 0.04 1 0.04
Bachelors 7 0.28 8 0.32
Masters 11 0.44 19 0.76
Doctorale/law 6 0.24 25 1
25 1
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 39
Remarque: on peut aussi calculer les effectifs
et frequences cumules a droite:
• Effectif cumule a droite: N∗j = nj + nj+1 +
. . .+nJ (nombre d’observation ≥ xj)
• Frequence cumulee a droite: F ∗j =N∗jn
(pourcentage d’observations ≥ xj)
Exercice: realiser le tableau des effectifs et
frequences cumules a droite.
Highest Degree nj fj N∗j F ∗jNone 1 0.04
Bachelors 7 0.28
Masters 11 0.44
Doctorale/law 6 0.24
25 1
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 40
C. Donnees quantitatives
Exemple 1 - Variable discrete: Pour etudier
la qualite de la recherche a l’ULB, on utilise
comme indicateur le nombre de publications par
an. L’echantillon est constitue de 25 jeunes pro-
fesseurs.
• Tableau recapitulatif de la serie observee:
xj nj fj Nj Fj N∗j F ∗j0 5 0.20 5 0.20 25 1
1 10 0.40 15 0.60 20 0.80
2 4 0.16 19 0.76 10 0.40
3 3 0.12 22 0.88 6 0.24
4 2 0.08 24 0.96 3 0.12
5 1 0.04 25 1 1 0.04
25 1
Remarque: Nj = Nj−1 + nj
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 41
Representations graphiques
Diagramme en batons
Nombre de publications
Effe
ctif
0 1 2 3 4 5
24
68
10
Etude sur la qualitØ de la recherche
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 42
Courbe cumulative: y = N(x)
N(x) etant le nombre d’observations ≤ x.
Nombre de publications
Nj
0 2 4 6
05
1015
2025
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 43
Courbe cumulative a droite : y = N∗(x)
N∗(x) etant le nombre d’observations ≥ x.
Nombre de publications
Nj
0 2 4 6
05
1015
2025
Etude sur la qualitØ de la recherche
Remarques:
• Si x = xj =⇒ N(x) + N∗(x) = n + nj
• Si x 6= xj =⇒ N(x) + N∗(x) = n
De facon generale: N(x) + N∗(x) ≥ n
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 44
Exemple 2 - Variable continue: Le manager
du marketing d’une compagnie telephonique com-
mande une etude sur le profil des nouveaux abonnes.
Pour ce faire il recolte la 1ere note en Euro de
telephone de 120 nouveaux clients.
Serie Statistique:
83 83 18 65 99 96 7 94 62 98 71 20 97 88 38 55
81 51 68 19 36 41 56 49 33 85 75 97 35 36 32 59
88 28 63 60 99 7 31 13 34 33 15 12 62 41 13 27
74 24 67 98 22 13 32 9 54 84 35 62 14 90 91 59
77 38 31 22 92 39 54 90 47 89 81 79 9 88 30 50
41 16 49 44 45 87 23 5065 20 88 83 7 53 73 64
45 78 60 38 75 83 28 11 27 34 15 94 33 76 86 36
42 52 61 52 78 54 53 58
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 45
Serie Ordonnee:
7 7 7 9 9 11 12 13 13 13 14 15 15 16 18 19 20 20
22 22 23 24 27 27 28 28 30 31 31 32 32 33 33 33
34 34 35 35 36 36 36 38 38 38 39 41 41 41 42 44
45 45 47 49 49 50 50 51 52 52 53 53 54 54 54 55
56 58 59 59 60 60 61 62 62 62 63 64 65 65 67 68
71 73 74 75 75 76 77 78 78 79 81 81 83 83 83 83
84 85 86 87 88 88 88 88 89 90 90 91 92 94 94 96
97 97 98 98 99 99
• Grands nombres de valeurs distinctes
• Beaucoup de petits effectifs
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 46
Diagramme en batons
20 40 60 80 100
01
23
4
note
Eff
ect
if
Diagramme en b tons
MAIS ... Grand nombre de valeurs distinctes
⇓
Resumer l’information
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 47
Solution 1: Diagramme en tiges et feuilles
(stem and leaf display).
0|77997 0|77799
1|89352334615 1|12333455689
2|0874223087 2|0022347788
3|8635621432581908436 3|0112233344556668889
4|1917194552 4|1112455799
5|516949400322438 5|001223344456899
6|528302725401 6|001222345578
7|1547938568 7|1345567889
8|338158491878336 8|113333456788889
9|9648779801204 9|0012446778899
Remarque: Autre alternative: Dot Plots
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 48
Solution 2: Regrouper les individus par classes
Comment faire les classes ?
• Logique: le minimum est inclus dans la 1ere
classe, le maximum est inclus dans la derniere
classe, meme largeur des classes (pas obligatoire
mais facilite la lecture des graphes).
• Regle empirique de Sturges: choisir le nom-
bre de classes:
J ≈ 1 + log2 n
Notations: Classes: 1,. . . ,J.
−− |−−−−−−− |−−−−−−− |−−lj− xcj lj+
ou nj = nombre d’observations dans la classe j
et hj = longueur de la classe.
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 49
Serie regroupee par classe
Regroupement des 120 observations
en 5 classes (j = 1, . . . , 5)
de longueur egale hj = 20 ∀j ∈ 1, . . . , 5.
[lj−, lj+[ xcj nj fj Nj Fj N∗j F ∗j[0, 20[ 10 16 0.13 16 0.13 120 1
[20, 40[ 30 29 0.24 45 0.37 104 0.87
[40, 60[ 50 25 0.21 70 0.58 75 0.63
[60, 80[ 70 22 0.19 92 0.77 50 0.42
[80, 100[ 90 28 0.23 120 1 28 0.23
n=120 1
NB Attention aux arrondis !!!
NB La regle de Sturges proposait 8 classes
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 50
Histogramme des effectifs
0 20 40 60 80 100
05
1015
2025
Note de tØlØphone
nj
NB: Parfois, on prends comme ordonneenjhj de
telle sorte que la surface de chaque barre est
egale a nj
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 51
Polygone des effectifs
0 20 40 60 80 100
05
1015
2025
30
Note de tØlØphone
nj
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 52
Histogramme des effectifs cumules et Courbe
cumulative: y = N(x)
0 20 40 60 80 100
020
4060
8010
012
0
Note de tØlØphone
Nj
Nj : nombre d’observations ≤ l+j
N(x) etant le nombre d’observations ≤ x
(hypothese d’equirepartition)
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 53
Courbe cumulative a droite : y = N∗(x)
Exercice: Construisez la courbe cumulative a
droite.
N∗(x) etant le nombre d’observations ≥ x
(hypothese d’equirepartition)
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 54
Remarques (exercices)
• Si x 6= xj ∀j:
N(x) + N∗(x) = n
• Fonctions N(x) et N∗(x):
N(x) =
0 x < l−1n1h1
(x− l−1 ) l−1 ≤ x < l+1
. . . . . .
Nj−1 +njhj
(x− l−j ) l−j ≤ x < l+j
. . . . . .
n l+J ≤ x
N∗(x) =
n x < l−1. . . . . .
N∗j −njhj
(x− l−j ) l−j ≤ x < l+j
. . . . . .
0 l+J ≤ x
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 55
D. Conclusions
• Inclure toutes les informations utiles a la compre-
hension du graphique
• Eviter les informations, mentions, lignes inu-
tiles
•Un graphique simple sera prefere a un graphique
sophistique
• Choisir les unites et les axes de la maniere la
plus neutre possible (ne pas influencer le lecteur)
• Comparer des graphiques ayant des unites
communes
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 56
• Il existe d’autres types de graphiques: Car-
tographie, Pyramide des ages, Graphiques de
comparaison, ...
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 57
2.3 TECHNIQUES DESCRIPTIVES NUMERIQUES
Apres les graphiques, il est necessaire de decrire
les differentes caracteristiques des donnees de
maniere plus precise.
Rappel:
• mesure d’une caracteristique de la population
(lettre grecque)
• mesure d’une caracteristique de l’echantillon
(lettre latine).
Bien souvent il est impossible d’etudier l’ensemble
de la population (N grand ou infini)
⇓
Se limiter a l’etude d’un echantillon de taille n
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 58
Exemple: Etude sur le salaire des belges
=⇒ N ≈ 4 millions de travailleurs
La moyenne population µ est inconnue.
Pour la connaitre il faudrait interroger tous les
travailleurs belges, mais on n’a pas les moyens
financiers
⇓
Selectionner un echantillon de taille n <<< N .
Calcul sur base de l’echantillon de la moyenne
echantillon x.
⇓
On espere que x est une “bonne ” estimation de
la moyenne population µ.
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 59
Trois types de caracteristiques
•Tendance centrale (position): moyenne, mode,
mediane, quantiles, . . .
-2 0 2
x
0 2 4 6
y
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 60
• Variabilite, dispersion, risque: ecart-type,
variance, etendue, . . .
-40 -20 0 20
x
-40 -20 0 20
y
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 61
• Forme (asymetrie, aplatissement): Skew-
ness, Kurtosis, . . .
1 2 3
x
-2 0 2
y
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 62
2.3.1 A. MESURES DE POSITION (tendance centrale)
BUT: Determiner une valeur centrale.
1. Moyenne arithmetique x
Soit x1, . . . , xn un echantillon de donnees numeriques,
alors
x =1
n
n∑i=1
xi
Exemples:
• Soit l’echantillon 1, 1, 2, 2, 2, 2, 3, 3
⇓
x =1
8(1 + 1 + 2 + 2 + 2 + 2 + 3 + 3) = 2.
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 63
•Reprenons l’exemple de la societe telephonique
recoltant la 1ere note en Euro de telephone de
120 nouveaux clients.
Serie Statistique:
83 83 18 65 99 96 7 94 62 98 71 20 97 88 38 55
81 51 68 19 36 41 56 49 33 85 75 97 35 36 32 59
88 28 63 60 99 7 31 13 34 33 15 12 62 41 13 27
74 24 67 98 22 13 32 9 54 84 35 62 14 90 91 59
77 38 31 22 92 39 54 90 47 89 81 79 9 88 30 50
41 16 49 44 45 87 23 5065 20 88 83 7 53 73 64
45 78 60 38 75 83 28 11 27 34 15 94 33 76 86 36
42 52 61 52 78 54 53 58
⇓
x =1
120(83+83+18+65+. . .+53+58) = 53.12
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 64
Calcul reprenant la somme de 120 chiffres (long)
⇓
Meme base de donnees mais regroupees en classes:
[lj−, lj+[ xcj nj fj Nj Fj N∗j F ∗j[0, 20[ 10 16 0.13 16 0.13 120 1
[20, 40[ 30 29 0.24 45 0.37 104 0.87
[40, 60[ 50 25 0.21 70 0.58 75 0.63
[60, 80[ 70 22 0.19 92 0.77 50 0.42
[80, 100[ 90 28 0.23 120 1 28 0.23
n=120 1
x =1
n
J∑j=1
njxcj
=10× 16 + 30× 29 + . . . + 90× 28
120= 52.83
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 65
Proprietes
• Sensible face aux points aberrants.
Echantillon 1, 1, 2, 2, 2, 2, 3, 3 → x = 2.
Echantillon 1, 1, 2, 2, 2, 2, 3, 300 → x = 39.125.
• Valeurs centrees:
Echantillon 1, 1, 2, 2, 2, 2, 3, 3 =⇒ x = 2.
Alors l’echantillon des valeurs centrees:
xi − x = −1,−1, 0, 0, 0, 0, 1, 1
est de moyenne nulle:
1
n
n∑i=1
(xi − x) = 0
(exercice).
• Reecriture de la formule de la moyenne:n∑i=1
xi = nx
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 66
• Agregation de 2 echantillons.
Echantillon 1: n1, x1, Echantillon 2:n2, x2
⇓
la moyenne de l’echantillon global comprenant
n = n1 + n2 individus est donne par:
x =n1x1 + n2x2
n
Remarque: Posons w1 = n1n et w2 = n2
n , ainsi
la moyenne globale n’est rien d’autre qu’une
moyenne ponderee:
x = w1x1 + w2x2
Cas particulier: Ajout d’une observation x a
l’echantillon n1, x1 → n2 = 1 et n = n1 + 1
⇓
x =n1x1 + x
n
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 67
• Moyenne ponderee.
- La moyenne est par unite elementaire.
- La moyenne ponderee est par unite de poids.
Remarque: Soit C est le nombre d’elements a
ponderer, alors
C∑i=1
wi = 1
Par exemple:
- La moyenne des points de vos cours est votre
“moyenne par cours”.
- Votre grade final est une moyenne ponderee,
utilisant comme poids le credit d’heures (1 credit
pour 12 h de cours theorique, 2 credits pour 24
h, etc). La moyenne ponderee est donc votre
“moyenne par credit d’heures”
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 68
Exemple: Rentabilite d’un portefeuille
La rentabilite attendue d’un portefeuille est donnee
par la moyenne ponderee des rentabilites atten-
dues des investissements de celui-ci, pondere par
le montant investi en $.
Le portefeuille est compose de 3 actions:
-la 1ere ($1, 000) est supposee rapporter 20%
-la 2eme ($1, 800 investis) 15%
-la 3eme ($2, 200 investis) 30%.
⇓
Total investi:
1, 000 + 1, 800 + 2, 200 = $5, 000
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 69
Les poids sont donc:
w1 = $1, 000/$5, 000 = 0.20
w2 = $1, 800/$5, 000 = 0.36
w3 = $2, 200/$5, 000 = 0.44
Moyenne ponderee:
3∑i=1
wixi = 0.20× 20% + 0.36× 15% + 0.44× 30%
= 22.6%
La rentabilite attendue du portefeuille est donc
de 22.6%.
Chacun des investissement est represente par le
montant en $ investi.
NB: Si tous les poids sont egaux, on revient a la
moyenne arithmetique (exercice).
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 70
2. Mediane x1/2
• Calcul de la mediane:
a) Mettre les observations en ordre croissant:
x(1), . . . , x(n)
b) Prendre l’observation centrale (ou la moyenne
des 2 observations centrales si n est pair).
⇓
Si n est impair: x1/2 = x(n+1
2 )
Si n est pair: x1/2 =x(n2 )+x(n2 +1)
2
• Exemples:
Echantillon: 2, 5, 9, 11, 13 =⇒ x1/2 = 9
Echantilon: 2, 5, 9, 11, 13, 20=⇒ x1/2 = 9+112
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 71
• Pas influencee par des valeurs extremes.
• Pour des distributions dissymetriques, la mediane
offre une meilleure representation que la moyenne.
Par exemple: les revenus des menages:
- Le revenu moyen pour un pays somme tous
les revenus dont certains peuvent etre extremement
eleves
- Le revenu median represente le revenu de la
personne au centre (la moitie ayant plus, l’autre
moitie ayant moins).
• Echantillon donne avec des classes:
- Determiner la classe mediane: (l−m, l+m)
- Valeur de la mediane:
x1/2 = l−m + hm
n2 −Nm−1
nm
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 72
3. Quantiles xp ou p ∈ (0, 1)
• Construire la serie ordonnee. Soit p ∈ (0, 1)
(appele ordre du quantile), on cherche xp tel que
N(xp) ≥ np et N∗(xp) ≥ n(1− p)
p 1-p
-l————-l—————l
x(1) xp x(n)
• Quantiles particuliers:
-Mediane x1/2: quantile 50%
-Premier quartile x1/4: quantile 25%
-Troisieme quartile x3/4: quantile 75%
-Deciles: p = 0.10, 0.20, . . . , 0.90
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 73
• Graphique base sur les quantiles: Box Plot
(boıte a moustache)
Exercice (ELST, P114): Resultats de 10 etudiants
pour 7 cours.
C1 C2 C3 C4 C5 C6 C7
04 42 19 33 21 14 18
12 44 23 47 24 75 19
23 46 25 59 27 76 21
35 47 27 67 29 77 23
46 49 31 69 77 78 24
52 51 43 73 79 79 25
67 54 48 75 83 80 27
75 56 51 77 85 81 29
83 57 63 83 86 83 30
92 58 73 85 87 84 93
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 74
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 75
4. Mode xM
• Definition: Valeur la plus frequente.
• Problemes:
- depend de la maniere dont vous construisez
l’histogramme (bin width)
- il est possible d’avoir plusieurs modes
• Utiliser pour les donnees qualitatives.
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 76
5. Autres valeurs centrales
c1 =x(1) + x(n)
2
c2 =x1/4 + 2x1/2 + x3/4
4
c3 =x1/4 + x3/4
2Moyenne tronquee:
c4 =1
n− 2
n−1∑i=2
x(i)
Moyenne geometrique:
c5 =√
Πixi
· · ·
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 77
6. Cas particulier : Distribution gaussienne
•Distribution normale (introduite en 2eme annee).
x
-2 -1 0 1 2
Moyenne, Médiane et Mode
Distribution gaussienne
Caracteristique: distribution symetrique avec
un unique mode
↓
La moyenne est egale a la mediane et au mode
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 78
• Distribution asymetrique.
x
5 10 15Moyenne
Médiane
Mode
Distribution asymétrique
La moyenne, la mediane et le mode sont differents:
• les grandes observations rares influencent beau-
coup la moyenne
• la valeur la plus frequente est decentree.
A priori, il vaut mieux utiliser la mediane (ex-
emple: revenus des menages).
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 79
7. Resume en fonction du type de la variable
Quantitative Ordinale Nominale
Moyenne OUI NON NON
Mediane OUI OUI NON
Quantiles OUI OUI NON
Mode OUI OUI OUI
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 80
2.3.2 MESURE DE DISPERSION
Aussi connue sous le nom de variabilite, diver-
site, risque, . . .
Questions:
• Sur le marche, les valeurs boursieres changent
jours apres jours =⇒ incertitude !
• Risk of a business venture
Les gains sont possibles mais egalement les pertes.
• Aversion au risque:
Preferez-vous avoir
- 100$ avec certitude
- 0 ou 200$ avec probabilite egale
Les 2 ont la meme moyenne (100$)! Preferez
vous reduire l’incertain ou aimez vous le risque?
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 81
1. Etendue
E = x(n) − x(1)
• Facile et rapide a calculer
• Tres sensible aux points aberrants
2. Ecart interquartile
Il contient 50% des observations:
EQ = x3/4 − x1/4
3. Ecart interdecile
Il contient 80% des observations:
ED = x9/10 − x1/10
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 82
4. Le peigne
x1/2 Dispersion Position
Q x1/4 x3/4 x3/4 − x1/4x3/4+x1/4
2
E x(1) x(n) x(n) − x(1)x(1)+x(n)
2
5. Le Box Plot
• Definition de base:
• Definition des valeurs pivots:
a1 = x1/4 − 1.5(x3/4 − x1/4)
a2 = x3/4 + 1.5(x3/4 − x1/4)
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 83
• Definition des valeurs adjacentes:
xg: plus petite observation ≥ a1
xd: plus grande observation ≤ a2
=⇒ Deuxieme definition du box plot:
NB: si tous les xi ∈ (a1, a2):
xg = x(1) et xd = x(n).
• Definition des valeurs exterieures:
Observations en dehors de l’intervalle [xg, xd]
⇒ Presomption de valeurs extremes (aberrantes).
Exercice (ELST, P114-116): Resultats de 10
etudiants pour 7 cours.
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 84
6. Ecart moyen absolu
em =1
n
n∑i=1
|xi − x|
Remarque: Changeons le parametre de posi-
tion. Alors,
em(c) =1
n
n∑i=1
|xi − c|
est minimum quand c = x1/2.
7. Ecart median absolu
e∗m =1
n
n∑i=1
|xi − x1/2|
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 85
8. Variance
Version francaise:
s2 =1
n
n∑i=1
(xi − x)2
Version anglaise (on l’utilisera en 2eme annee)
S2 =1
n− 1
n∑i=1
(xi − x)2
• Agregation: Soient 2 echantillons:
n1 n2
x1 s21 x2 s2
2
Notons n = n1 + n2, x et s2 la moyenne et la
variance de l’echantillon regroupant les 2 echantillons.
Exercice:
s2 =n1s
21 + n2s
22
n1 + n2+n1(x1 − x)2 + n2(x2 − x)2
n1 + n2
(variance dans les groupes) +(variance entre les groupes)
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 86
• Theoreme de Konig-Huyghens:1
n
∑i
(xi − c)2 = s2 + (x− c)2 c ∈ IR
Demonstration1
n
∑i
(xi − c)2 =1
n
∑i
(xi − x + x− c)2
=1
n
∑i
(xi − x)2 + 2(xi − x)(x− c) + (x− c)2
=
1
n
∑i
(xi − x)2 + (x− c)2
+ 2(x− c)
1
n
∑i
(xi − x)
= s2 + (x− c)2
Consequence: 1n
∑i(xi−c)2 est minimum quand
c = x
Exercice: Appliquez ce theoreme avec c = 0.
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 87
9. Ecart-type
s =√s2
• Interpretations:
- 2 echantillons: l’echantillon avec l’ecart-type
le plus grand est le plus disperse des deux
- 1 echantillon: Regle de Chebyshev:
au moins (1 − 1k2) des observations se trouvent
dans l’intervalle (x± ks)Pour k = 2:
au moins 75% des observations ∈ a l’intervalle (x± 2s)
Pour k = 3:
au moins 89% des observations ∈ a l’intervalle (x± 3s)
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 88
Pour les distributions en “forme de cloche ” et
relativement symetrique, on a des intervalles re-
marquables plus precis:
x
-2 -1 0 1 2
Moyenne, Médiane et Mode
Distribution gaussienne
23 des observations ∈ a l’intervalle (x± s)
95% des observations ∈ a l’intervalle (x± 2s)
99% des observations ∈ a l’intervalle (x± 3s)
=⇒ Pour faciliter les interpretations: construc-
tion des valeurs centrees reduites (z-score):
z =x− xs
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 89
9. Coefficient de variation
CV =s
x• Mesure relative de variabilite. Nombre sans
unite (pure number).
• Answers:
“Typically, in percentage terms, how far are
data values from average?”
•Utile pour comparer des situations pour lesquelles
les unites differents
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 90
2.3.3 MESURES DE FORMES
GRAPHIQUES
1. Box Plot
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 91
2. Graphique des quantiles
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 92
ASYMETRIE - SKEWNESS
• Moment centre d’ordre 3
m3 =1
n
n∑i=1
(xi − x)3
m3 > 0: asymetrie a gauche
m3 < 0: asymetrie a droite
m3 = 0: symetrie
• Coefficient de Fisher: g1 = m3s3
• Coefficient empirique de Yule et Kendall:
Yk =x1/4 − 2x1/2 + x3/4
x3/4 − x1/4
• Coefficient empirique de Pearson:
Sk =x− xM
s
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 93
APLATISSEMENT - KURTOSIS
• Coefficient de Pearson
b2 =m4
s4
ou m4 est le moment centre d’ordre 4
m4 =1
n
n∑i=1
(xi − x)4
• Coefficient de Fisher: g2 = b2 − 3
-2 -1 0 1 2
b2=3, g2=0b2>3, g2>0b2<3, g2<0
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 94
2.3.4 INDICE DE CONCENTRATION DE GINI ET COURBE
DE LORENTZ
Exemple: Mesurer le degre d’inegalite dans la
distribution des revenus des familles belges.
Formalisation: Soit une distribution, d’une
variable continue positive, regroupee en J classes.
Notons xjc le centre de la classe j et nj l’effectif
de la classe j pour (j = 1, . . . , J).
Courbe de concentration de Lorentz:
pj = Fj et qj =
∑jk=1 nkxck∑Jk=1 nkxck
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 95
Indice de concentration de Gini:
γ = 2A
ouA est l’aire comprise entre la courbe de Lorentz
et la 1ere bissectrice.
Proprietes
• 0 ≤ γ ≤ 1
• γ ≈ 0: equirepartion
• γ ≈ 1: concentration.
Exemple: Site de la CIA reprenant “Distribu-
tion of family income - Gini index“
http://www.odci.gov/cia/publications/factbook/fields/2172.html
Belgium 28, 7%
Paraguay 57, 7%
Sweden 25%
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 96
2.4 TRANSFORMATION DE VARIABLES ET IN-
DICES
BUTS:
• Facilite l’encodage, la lecture des donnees
• “Lineariser” une relation entre 2 variables
• Se rapprocher d’une distribution symetrique
• Remedier a d’eventuelles inegalites de vari-
ances lorsque l’on etudie plusieurs echantillons
• . . .
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 97
2.4.1 TRANSFORMATION LINEAIRE
But: Changer l’origine et l’unite pour facilite
la lecture des donnees sans changer le forme
(asymetrie, aplatissement,. . .).
Definition: Soit xi, 1, . . . , n un echantillon de
taille n. Appelons zi, 1, . . . , n la serie translatee
de la constante c et reduite par la constante d:
zi =xi − cd
i = 1, . . . , n
Influence sur les mesures de position:
Toutes ces mesures vont subir la meme trans-
formation que les donnees. Par exemple:
z =x− cd
Exercices: Preuve pour z, z1/2, zM , . . ..
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 98
Influence sur les mesures de dispersion:
• Changement d’origine (translation)
- pas d’influence sur E,EQ, ED, s2, s
- influence sur CV = sx
• Changement d’unite
- influence sur E,EQ, ED, s2, s
- pas d’influence sur CV = sx
Exemple:
s2z =
1
n
n∑i=1
(zi − z)2 =1
n
n∑i=1
(xi − cd− x− c
d)2
=1
n
n∑i=1
(xid− x
d)2 =
1
d2n
n∑i=1
(xi − x)2
=1
d2s2x
Influence sur les mesures de formes: Pas
d’influence sur g1, SK, YK, b2, g2, . . ..
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 99
Exemple
Soit un echantillon reprenant le salaire brut de
10 travailleurs en FB. La variable z aura comme
unite l’Euro et comme moyenne 0.
i xi zi
1 98000FB 114,03
2 96000FB
3 104000FB
4 66000FB
5 120000FB
6 75000FB
7 88000FB
8 84000FB
9 93000FB
10 110000FB 411,50
70000 80000 90000 100000 110000
x
-500 0 500
z
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 100
2.4.2 TRANSFORMATION LOGARITHMIQUE
Objectifs: Simplifier l’analyse en rendant les
phenomenes plus symetriques, plus lineaires, de
variabilite plus constante,. . .
Exemple: Relation entre deux variables
x
y
0.0 0.5 1.0 1.5 2.0 2.5 3.0
1.5
2.0
2.5
3.0
3.5
log(x)
log(y)
-3 -2 -1 0 1
0.4
0.6
0.8
1.0
1.2
NB: Les relations du type: y = axb devien-
nent apres transformation logarithmique (log− log):
log y = log a + b log x
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 101
Exemple: Comparaison de plusieurs echantillons.
Comparons le nombres d’iules (mille-pattes) soumises
a 4 substances nocives (“Statistique Theorique
et Aplliquee, Tome 2”, Pierre Dagnelie, page
97).
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 102
2.4.3 TRANSFORMATIONS DE BOX-COX
Definition: Soit xi, 1, . . . , n un echantillon de
taille n. Appelons zi, 1, . . . , n la serie trans-
formee par une relation de Box-Cox de parametre
λ:
zi =
(xλi−1)λ si λ 6= 0
loge xi si λ = 0
Ces transformations ont les memes objectifs que
la transformation logarithmique.
Remarque
• La transformation logarithmique est un cas
particulier (λ = 0)
• Si λ = 1/2 alors zi =√xi − 1
• Ce groupe de transformation englobe aussi
les transformations racine carree inverse 1√x
,
inverse 1x, . . .
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 103
2.4.4 TRANSFORMATION ´´DIFFERENCE”
But: Utilise en serie chronologique pour eliminer
un trend (tendance) constant.
Definition: Soit xt(1, . . . , T ) une serie chrono-
logique. La serie differencie est donnee par:
∇xt = xt − xt−1
Exemple ELST, p. 29: Population en millions
Annees 1910 1920 1930 1940 1950 1960 1970 1980
xt 1.1 1.3 2.2 4.0 6.6 8.3 9.3 9.6
∇xt - 0.2 0.9 1.8 2.6 1.7 1.0 0.3
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 104
2.4.5 LES INDICES
But: Mesurer l’evolution d’une variable (ou de
plusieurs variables) dans le temps.
INDICE ELEMENTAIRE
Definition. Soit 0 l’epoque de base (reference).
L’indice de la variable x pour le temps t est:
it/0(x) =xtx0.
L’indice mesure le pourcentage d’augmentation
ou diminution de la variable par rapport a l’epoque
de reference.
Remarque:
La variable etudiee peut etre le prix (p), la
quantite (q) ou la valeur (v=pq) d’un bien.
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 105
Exemple: Etudions l’evolution du prix d’un
bien de consommation de janvier 1989 a janvier
1996. Annee de base: 1989 (ELST, p. 69).
Annees 1989 1990 1991 1992 1993 1994 1995 1996
xt 25 25 27 28 32 33 34 35
it/0(x) 1.00 1.00 1.08 1.12 1.28 1.32 1.36 1.40
Commentaires: 8% d’augmentation en 1991 par
rapport a 1989. Forte augmentation entre 1992
et 1993, . . ..
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 106
INDICE SYNTHETIQUE SIMPLE
But: Etude de l’evolution dans le temps d’un
panier de consommation.
Soit x = (x(1), x(2), . . . , x(n)) le vecteur don-
nant le prix (ou quantite, . . .) des n produits du
panier de consommation.
• Indice de Bradstreet:
Bt/0(x) =
∑j x
(j)t∑
j x(j)0
• Indice Moyenne arithmetique:
At/0(x) =1
n
∑j
x(j)t
x(j)0
•Autres indices: moyenne harmonqiue, moyenne
geometrique, . . .
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 107
INDICE SYNTHETIQUE PONDERE
But: Etude de l’evolution dans le temps d’un
panier de consommation en mettant des poids
associes a chacun des produits.
Soit x = (x(1), x(2), . . . , x(n)) le vecteur don-
nant le prix (ou quantite, . . .) des n produits du
panier de consommation.
• Indice de Laspeyres:
Lt/0(x) =
∑j w
(j)0 x
(j)t∑
j w(j)0 x
(j)0
ou w(j)0 peut donner representer le prix ou la
quantite du produit j au temps de reference.
CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 108
• Indice de Paasche:
Pt/0(x) =
∑j w
(j)t x
(j)t∑
j w(j)t x
(j)0
ou w(j)t peut donner representer le prix ou la
quantite du produit j au temps t.
• Indice de Sidgwick:
St/0(x) =Lt/0(x) + Pt/0(x)
2
• Indice de Fisher:
Ft/0(x) =√Lt/0(x)× Pt/0(x)
• Indice de Edgeworth:
Et/0(x) =
∑j(w
(j)0 + w
(j)t )x
(j)t∑
j(w(j)0 + w
(j)t )x
(j)0
Chapitre 3
INTRODUCTION A LA THEORIE
PROBABILISTE
“Le hasard est le pseudonyme de Dieu quand
il ne voulait pas signer”
Anatole France
“Un coup de des jamais n’abolira le hasard”
Mallarme
“Rien ne depasse la beaute du mystere”
Einstein
109
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 110
1. Quelles sont les chances que les ventes dans
les friteries baissent si le prix des pommes de
terre augmente?
2. Quelle est la probabilite que Justine devienne
numero 1 a l’ATP?
3. Quelles sont les chances qu’un nouvel investisse-
ment soit rentable?
4. Quelle est la probabilite de reussir l’examen
de statistique en 1ere session?
5. Quelle est la probabilite de gagner au Lotto?
6. . . .
La probabilite peut:
• exprimer une propriete intrinseque
d’une experience
• mesurer la vraisemblance d’un eve-
nement.
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 111
3.1 UN PEU D’HISTOIRE
“ . . . un probleme relatif aux jeux de hasard,
propose par un austere janseniste par un homme
du monde, a ete a l’origine du Calcul des pro-
babilites . . .”
Il s’agit du probleme des partis, propose par le
Chevalier de Mere a Blaise Pascal et resolu
par celui-ci, ainsi que par Pierre de Fermat en
1654:
“2 joueurs, rompant de gre a gre le jeu avant
la fin, cherchent a operer entre eux la juste
repartition de l’enjeu suivant la probabilite
qu’avait chacun d’eux de gagner.”
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 112
3.2 LOGIQUE ET INTUITION . . .
Exemple 1: Theorie des sept garcons
Quelle est la probabilite d’avoir 7 garcons?
P (7G) =
(1
2
)7
=1
128
Peu, mais pourquoi n’y a-t-il pas plus de familles
de 7 garcons??
Reponse: parce que ceci est la probabilite d’avoir
7 garcons si on a 7 enfants, or il y a peu de
familles de 7 enfants.
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 113
Exemple 2: Articles de presse.
“ Il y a eu plus de tues dans des accidents d’avion
en 1993 qu’en 1920 ”
Peut-on en deduire que les avions sont devenus
plus dangereux?
“ Pendant la 1ere guerre mondiale, le nombre
de blesses a la tete etait nettement plus grand
parmi ceux qui portaient un casque ”
Peut-on en deduire que le port du casque est
dangereux ?
“ En 2002, il y a eut 20.343 chomeurs ayant
un diplome universitaire et 8.657 chomeurs de
l’enseignement non universitaire type long ” (voir
ECOPOL)
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 114
Exemple 3: 1er Probleme du chevalier
de Mere.
”Supposez qu’on joue plusieurs fois avec un de,
combien faudra-t-il de lances au minimum pour
que l’on puisse parier avec avantage, apres avoir
joue ces coups, d’avoir au moins un 6 ? ”
Reponse: 4 lances en effet, (voir exercice)
P (avoir au moins un 6) = 671/1296 > 0.5
Scema du developpement:
P (avoir au moins un 6) = 1−P (ne jamais avoir de 6)
et nous savons que:
P (ne pas avoir de 6 sur un lance) = 5/6
P (ne pas avoir de 6 sur n lance) = (5/6)n
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 115
Exemple 4: Paradoxe du jour
d’anniversaire.
Si vous rencontrez quelqu’un par hasard au bistrot
du coin, il y a environ 1 chance sur 365 que vous
soyez ne le meme jour.
Maintenant supposez que vous etes 10 dans une
meme piece, quelle est la probabilite que deux
personnes aient la meme date d’anniversaire ?????
(reponse: 11,69% de chance)
Et avec 23 personnes dans la piece?
(reponse: 50,7% de chance)
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 116
Exemple 5: Temoignage
Etre un bon jure.
Accident avec delit de fuite MAIS il y a un
temoin oculaire.
Faits:
• le temoin affirme avoir vu un taxi jaune
• il y a 2 types de taxi: jaune et orange
• difficulte: le soir tombait et un test pratique
dans des conditions similaires a montre que
le temoin ne pouvait distinguer correctement
la couleur que dans 80% des cas
Conclusion a priori: L’hypothese la plus
probable est celle du taxi jaune.
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 117
Information manquante: Proportion de taxis
jaunes et de taxis oranges?
Reponse: 85% d’oranges et 15% de jaunes.
Conclusion correcte: (Theoreme de Bayes)
La probabilite que le taxi soit jaune sachant que
le temoin affirme qu’il etait jaune est de 41.38%.
⇓
Donc il y a plus de chance que le taxi soit orange.
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 118
Exemple 6: Le jeu de la Cadillac
Jeu televise: 3 portes et derriere l’une d’elle
il y a une cadillac.
Etape1: Le candidat choisit au hasard une
porte: 1 chance sur 3 de gagner la cadillac.
Etape2: Le presentateur ouvre une des 2 portes
restantes mais bien evidemment pas la porte a
la cadillac.
Question: Le candidat a-t-il interet de changer
de porte ou de garder son choix initial ?
Reponse:
Choix initial: 1 chance sur 3 de gagner
S’il change de porte: 2 chance sur 3 de gagner!!
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 119
3.3 PROBABILITE, EXPERIENCE ALEATOIRE, EVEN-
EMENT
3.3.1 DEFINITIONS
• Probabilite: sera definie par une approche
classique, frequentiste et axiomatique.
• Experience aleatoire: action ou processus qui
engendre des observations et dont on ne peut
predire avec certitude le resultat.
• Ensemble (espace) fondamental Ω: ensemble
de tous les resultats possibles.
• Evenement: sous-ensemble ou partie de Ω.
• Famille F des evenements: ensemble de tous
les evenements associes a une experience aleatoire.
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 120
3.3.2 EXEMPLES
Lancement d’un de
L’ensemble fondamental Ω:
1 2 3
4 5 6
Exemples d’evenements et Diagramme de Venn:
• Avoir le nombre “1” : A=1
• Avoir un nombre divisible par 3: B=3,6
• Avoir un nombre pair: C=2,4,6
• Avoir un nombre impair: D=1,3,5
• Avoir un nombre plus petit que 7: E=1,2,3,4,5,6.
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 121
3.3.3 CAS PARTICULIERS D’EVENEMENTS
• Evevement elementaire: ne contient qu’un
seul element de Ω:
Exemple: Avoir le nombre “1”: A = 1
• Evenement impossible: ne contient aucun eve-
nement:
Exemple: Avoir un nombre plus grand que 6:
F = = ∅
• Evenement certain: contient tous les elements
de Ω:
Exemple: Avoir un nombre plus petit que 7:
E = 1, 2, 3, 4, 5, 6 = Ω
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 122
3.3.4 OPERATIONS SUR LES EVENEMENTS
Soient E1, E2, . . . des evenements de F .
• Implication (= inclusion): E1 ⊂ E2 signifie:
E1 se realise ⇒ E2 se realise.
• Conjonction (= intersection = produit logique)
E1 ∩E2: E1 et E2 se realisent tous les deux
Evenements mutuellement exclusifs (incom-
patibles): E1 ∩ E2 = ∅
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 123
• Reunion (= somme logique)
E1 ∪ E2: E1 ou E2 se realisent (au moins
un des deux)
• Difference
E1\E2: E1 se realise sans que E2 se realise
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 124
• Complementaire: Soit E un evenement, le
complementaire de E est note E:
E = Ω\E
Remarques
1. E ∩ E = ∅⇒ E et E sont mutuellement exclusifs
2. E ∪ E = Ω
3. E et E constituent une partition de Ω.
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 125
• Partition de E
E1, E2, . . . , Em tel que:
1. E1, E2, . . . , Em ⊂ E
2. Ei ∩ Ej = ∅ (i 6= j)
3. E = E1 ∪ E2 ∪ . . . ∪ Em
• Systeme complet d’evenements:
Partition de Ω
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 126
• Fonction d’ensemble: Fonction qui associe a
chaque evenement de Ω un nombre reel.
Exemples: Soit E ∈ F
1. n(E) = nombre d’elements de E
2. f (E) =n(E)n(Ω)
Proprietes:
1. f (E) ≥ 0, pour tout E ⊂ Ω
2. f (Ω) = 1
3. SiE1, E2, . . . sont mutuellement exclusifs
(Ei ⊂ Ω):
f (E1 ∪ E2 ∪ . . .) = f (E1) + f (E2) + . . .
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 127
3.3.5 FAMILLE F D’EVENEMENTS
Rappel: F est l’ensemble de tous les evenements
associes a une experience aleatoire.
• Si Ω est fini alors a tout sous-ensemble cor-
respond un evenement =⇒ la famille F des
evenements est confondue avec l’ensemble des
parties de Ω.
• Si Ω est infini
⇓
on se restreint a une classe F de parties, stricte-
ment contenue dans l’ensemble des parties de
Ω, qui contient les evenements elementaires, les
evenements impossibles et certain, ainsi que tous
ceux qui sont obtenus par les operations ci-avant.
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 128
3.3.6 TROIS DEFINITIONS DE LA PROBABILITE
• Definition classique
Experience: -N resultats possibles “equivalents”
(symetrie des resultats)
- NS resultats donnent le succes S.
=⇒ Probabilite de succes:
P (S) =NSN.
Exemple: Lancement d’un de equilibre. Succes
si nombre pair. Probabilite de succes:
P (pair) =3
6= 0.5
Remarque: Cette definition n’est valable que si
tout les evenements elementaires sont equiprobables
(contre exemple: avion).
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 129
• Definition frequentiste
(approche experimentale)
Experience repetee n fois de maniere independante
et identique (ex: lance d’un de).
On s’interesse a l’evenement E (ex: avoir 3).
Notons n(E) le nombre de realisations de E
⇓
Frequence: fn(E) =n(E)n .
On definit alors la frequence theorique (proba-
bilite) par:
P (E) = limn→∞
fn(E).
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 130
• Definition axiomatique
Cas ou Ω est fini
P (.) est une fonction d’ensemble a valeurs reelles,
definie sur F = P(Ω), satisfaisant aux axiomes
suivants:
A.1: P (E) ≥ 0, pour tout E ∈ F
A.2: P (Ω) = 1
A.3: Si E1, E2, E3, . . . sont mutuellement
exclusifs (Ei ∩ Ej = ∅, ∀i 6= j):
P (E1 ∪E2 ∪E3 ∪ . . .) = P (E1) + P (E2) + P (E3) + . . .
N.B. Les definitions classique et frequentiste sat-
isfont a ces axiomes
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 131
Cas ou Ω est infini
Ici, l’ensemble des evenements ne sera plusP(Ω)
mais une famille F de sous-ensembles possedant
les proprietes suivantes:
1. Ω ∈ F
2. si E ∈ F , alors E ∈ F
3. Pour tout ensemble fini ou denombrable d’evene-
ments E1, E2, E3, . . . de F , (∪Ei) ∈ F
Une telle famille est appelee une σ-algebre (ou
corps de Borel ou encore tribu).
Remarques:
1. Les proprietes ci-dessus impliquent que
∅ ∈ F et ∩Ei ∈ F
2. (Ω,F) est appele un espace probabiliste
3. (Ω,F , P ) est appele un espace probabilise
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 132
3.3.7 QUELQUES PROPRIETES SIMPLES
• Propriete 1
Si un evenement E est partitionne en deux eve-
nements E1 et E2:
P (E) = P (E1) + P (E2).
• Propriete 2
Extension a plus de 2 evenements.
• Propriete 3
Si E1 ⊂ E2:
P (E1) ≤ P (E2).
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 133
• Propriete 4
Pour tout evenement E, P (E) ≤ 1.
• Propriete 5
Si E est le complementaire de E:
P (E) = 1− P (E)
.
• Propriete 6
Le complementaire de Ω est ∅
⇒ P (∅) = 0.
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 134
3.3.8 LOI D’ADDITION
Cas de deux evenements
Soient A et B ∈ F :
P (A ∪B) = P (A) + P (B)− P (A ∩B).
Demonstration:
A ∪B = (A\B) ∪ (A ∩B) ∪ (B\A)
P (A ∪B) = P (A\B) + P (A ∩B) + P (B\A)
⇒ P (A ∪B) = P (A)− P (A ∩B)
+P (A ∩B) + P (B)
−P (A ∩B)
= P (A) + P (B)− P (A ∩B).
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 135
Exemple:
B = 3, 6, C = 2, 4, 6
P (B ∪ C) = P (B) + P (C)− P (B ∩ C)
=2
6+
3
6− 1
6=
4
6
Si A et B sont mutuellement exclusifs:
A ∩B = ∅
⇒ P (A ∪B) = P (A) + P (B) (Axiome 3)
Exercice theorique: Cas de 3 evenements ou
plus
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 136
3.3.9 REGLE DE MULTIPLICATION
• Probabilite conditionnelle
Presentation a partir de l’exemple 4.1 (ELST,
p.149)
1. Prenons C (=nbre pair) comme condition,
donc on suppose que C se realise:
⇒ P (B|C) =1
3=
1/6
3/6=P (B ∩ C)
P (C)
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 137
2. Prenons B = 3, 6 comme condition:
P (C|B) =1
2=
1/6
2/6=P (B ∩ C)
P (B)
Definition des probabilites conditionnelles
Soient A et B deux evenements de F(P (A) 6= 0; P (B) 6= 0):
P (A|B) =P (A ∩B)
P (B)
P (B|A) =P (A ∩B)
P (A)
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 138
• Regle de multiplication
Cas de deux evenements
Soient A et B deux evenements de probabilite
non nulle:
P (A ∩B) = P (A).P (B|A)
P (A ∩B) = P (B).P (A|B)
Exemple: Choix de 2 cartes sans remise dans
un jeu de 52 cartes
Evenements: R1=choix d’un roi pour la
premiere carte
R2=choix d’un roi pour la
seconde carte
P (R1 ∩R2) = P (R1).P (R2|R1)
=4
52.
3
51=
1
221
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 139
Cas de trois evenements
• Soient A, B, C ∈ F :
P (A∩B∩C) = P (A).P (B|A).P (C|A∩B)
• Ordre de prise en compte de A, B et C
• Exemple: Choix de trois cartes sans remise
dans un jeu de 52 cartes:
P (R1 ∩R2 ∩R3)
= P (R1).P (R2|R1).P (R3|R1 ∩R2)
=4
52.
3
51.
2
50=
1
5525
Extension a plus de trois evenements
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 140
3.3.10 INDEPENDANCE STOCHASTIQUE
Cas de 2 evenements
1. Definition
Deux evenements A et B de probabilite non
nulle sont (stochastiquement) independants
si et seulement si:
P (A ∩B) = P (A).P (B)
2. Si deux evenements sont independants alors:
P (A|B) = P (A) et P (B|A) = P (B)
3. Exemple 4.6 (ELST, p.166)
F1: premiere piece =face
F2: deuxieme piece =face
P (F1 ∩ F2) = P (F1).P (F2) =1
2
1
2=
1
4
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 141
Cas de trois evenements
1. Definition
A, B et C sont independants ssi:
P (A ∩B) = P (A).P (B)
P (A ∩ C) = P (A).P (C)
P (B ∩ C) = P (B).P (C)
P (A ∩B ∩ C) = P (A).P (B).P (C)
⇒ Regle de multiplication dans le cas d’eve-
nements independants
2. Exemple
Lancement de 3 pieces de monnaie:
P (F1 ∩ F2 ∩ F3) = P (F1).P (F2).P (F3)
=1
2.1
2.1
2=
1
8
Cas de plus de trois evenements
Exercice theorique
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 142
3.3.11 THEOREME DES PROBABILITES TOTALES ET DE
BAYES
•Definition d’un systeme complet d’evene-
ments ou systeme exhaustif
Soit la partition E1, . . . , Em de Ω telle que
P (Ei) ≥ 0 (i = 1 . . . ,m).
• Theoreme des probabilites totales
Soit E1, . . . , Em un systeme exhaustif defini
sur Ω et un evenement quelconque de A ∈ F :
P (A) =
m∑i=1
P (Ei)P (A|Ei).
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 143
• Theoreme de Bayes
Soit E1, . . . , Em un systeme exhaustif defini
sur Ω et un evenement quelconque deA ∈ F , de
probabilite non nulle. Supposons connaıtre les
probabilites a priori P (Ei) et les probabilites
conditionnelles P (A|Ei) (pour i = 1, . . . ,m).
On peut alors calculer les probabilites a poste-
riori par la relation:
P (Ei|A) =P (Ei)P (A|Ei)∑mj=1P (Ej)P (A|Ej)
.
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 144
3.3.12 QUELQUES APPLICATIONS DES PROPRIETES FON-
DAMENTALES
• La formule du binome
Schema de Bernoulli
Dans une experience aleatoire ξ, nous nous interes-
sons a l’avenement ou non de l’evenement E:
P (E) = p et P (E) = q = 1− p.
L’experience ξ est repetee n fois de facon indepen-
dante et sous des conditions identiques (p cons-
tant).
⇓
P (E se realise n fois) = pp . . . p = pn
P (E ne se realise jamais) = qq . . . q = qn
P (E se realise au moins 1 fois) = 1− qn
P (E se realise r fois dans ordre precis) = prqn−r
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 145
Par la formule du binome, on peut aussi cal-
culer des probabilites plus difficiles:
P (E se presente r fois dans ordre quelconque)
=
(n
r
)prqn−r
ou
(n
r
)= n!r!(n−r)! = Crn
Il existe en effet
(n
r
)suites mutuellement ex-
clusives et de meme probabilite contenant r elements
E et (n− r) elements E.
Remarque:n∑r=0
(n
r
)prqn−r = (q + p)n = 1.
Exemple: 10 lances d’une piece equilibree:
P (3 fois face) =
(10
3
)(1
2)3(
1
2)7 =
120
1024= 0.117
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 146
• Prelevements avec ou sans remise
Soit un sac de billes avec N1 billes jaunes (J)
et N2 billes de couleurs differentes (J). Notons
N = N1 + N2.
1. Prelevement de n billes avec remise (AR)
P (r fois Jaune) =
(n
r
)prqn−r
ou
p =N1
Net q =
N2
N
(formule du binome)
CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 147
2. Prelevement de n billes sans remise (SR)
Formule hypergeometrique:
P (r fois Jaune) =
(N1
r
)(N2
n− r
)(N
n
)si r ≤ N1 et n− r ≤ N2.
3. Remarque(N1
r
)(N2
n− r
)(N
n
) −→
(n
r
)prqn−r
pour N1, N2→∞ et N1N = p.
Chapitre 4
STATISTIQUE DESCRIPTIVE
D’UNE SERIE BIVARIEE
• Donnees : Serie statistique bivariee:
(xi, yi); i = 1, 2, . . . , n
collectees dans un tableau Individus×Caracteres
Var-Ind 1 2
1 x1 y1
2 x2 y2
· · · · · · · · ·i xi yi
· · · · · · · · ·n xn yn
• But : Mettre en evidence les relations existant
entre 2 series d’observations148
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 149
Exemple Mode de payement
La societe X gere une chaıne de supermarche,
et elle s’interesse aux modes de payement.
Le tableau suivant reprend pour 100 clients le
montant en euros depense sur 1 mois en liq-
uide et par carte bancaire (Source : donnees
simulees).
Payement liquide 115 45 99 154 201 27 62 32 44 . . .
Payement par carte 227 459 151 376 321 555 698 159 323 . . .
Payement liquide . . . 95 93 83 103 103 100 95 95 94
Payement par carte . . . 298 59 73 80 13 253 175 175 164
Questions:
•Quel est le mode de payement favori des clients?
• Les clients qui depensent plus que la moyenne
en liquide depensent-ils egalement plus que la
moyenne par carte ?
• etc
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 150
Exemple Bourse: Donnees contenant les in-
formations financieres de 25 entreprises.
Entreprises Place boursiere Prix de l’action (en dollars)
Award Software OTC 11.500
Chesapeake Energy NYSE 7.880
Craig Corporation NYSE 17.000
Edisto Resources AMEX 9.688
Franklin Elect. Pbls. NYSE 12.880
Gentia Softaware OTC 5.750
Giant Group NYSE 6.563
Hot Topic OTC 15.750
Hudson General AMEX 39.750
ICU Medical OTC 8.500
Jackpot Enterprises NYSE 10.875
Kentek Information OTC 9.500
Larscom, Inc OTC 10.313
Lumisys, Inc OTC 7.375
Maynard Oil OTC 10.750
Mechanical Dynamics OTC 6.688
Metrika Systems AMEX 15.250
National Home Health OTC 5.130
National Tech Team OTC 10.875
OrCad OTC 11.375
OroAmerica OTC 5.125
Overland Data OTC 7.000
PIA Merchandising OTC 7.500
Plenum Publishing OTC 44.000
Premier Research OTC 8.250
Source : Stock Investor Pro, Association americaine
des investisseurs individuels , 31 aout 1997.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 151
Place boursiere : Endroit ou les titres des en-
treprises sont echanges:
• NYSE (bourse de New York)
• AMEX (Bourse americaine)
• OTC (marche parallele)
⇓
Variable nominale.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 152
Exemple Seconde session: Echantillon com-
pose de 20 bacheliers en economiques. L’etude
porte sur le nombre de 2emes sessions presentees
dans le secondaire (x) et a l’universite (y).
i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
X 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 2 2 2 2 3
Y 0 0 1 1 1 2 2 2 2 3 3 3 3 4 4 0 1 3 4 5
Commentaires:
• Beaucoup d’etudiants s’engageant dans les
etudes en economie n’ont jamais eu de 2eme ses-
sion dans le secondaire.
• Ne pas avoir eu de 2eme session dans le sec-
ondaire n’est pas une garantie de reussite en 1ere
session a l’universite
• Les etudiants sans 2eme session dans le sec-
ondaire ont-ils plus de chances de reussite en
1ere session que les autres ?
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 153
Nous envisagerons 4 situations en fonc-
tion de la nature des variables
x/y Quantitatif Ordinal Nominal
Quantitatif I IV IV
Ordinal IV II III
Nominal IV III III
Etude dans 2 directions:
• Elaboration de tableaux et graphiques
• Reduction des donnees.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 154
4.1 RELATIONS ENTRE 2 VARIABLES QUANTI-
TATIVES
4.1.1 VISUALISATION DES DONNEES (Scatter Plot)
Exemple Mode de payement
Dépenses mensuelles en liquide
50 100 150 200
Mode de payement
Conclusion : Lien positif entre les deux vari-
ables donc une personne depensiere en liquide
le sera egalement par carte. (Logique ? Autres
variables a prendre en compte ? Nombre de
personnes dans le menage, . . .)
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 155
4.1.2 DISTRIBUTION MARGINALE, DISTRIBUTION CON-
DITIONNELLE
1. Tableau de contingence (TC)
Soit (xi, yi); i = 1, 2, . . . , n la serie statis-
tique bivariee =⇒ construction d’un tableau de
contingence:
x|y y1 y2 . . . yk . . . yK
x1 n11 n12 . . . n1k . . . n1K
x2 n21 n22 . . . n2k . . . n2K
· · · · · · · · · · · · · · · · · · · · ·xj nj1 nj2 . . . njk . . . niK
· · · · · · · · · · · · · · · · · · · · ·xJ nJ1 nJ2 . . . nJk . . . nJK
ou njk : effectif associe au couple (xj, yk).
=⇒ Reecriture de la serie statistique bivariee:
(xj, yk, njk), j = 1, . . . J, k = 1, . . . K.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 156
Exemple sur les secondes sessions
njk y = 0 y = 1 y = 2 y = 3 y = 4 y = 5∑
x = 0 2 3 4 2 0 0 11
x = 1 0 0 0 2 2 0 4
x = 2 1 1 0 1 1 0 4
x = 3 0 0 0 0 0 1 1∑3 4 4 5 3 1 20
Commentaires :
• Deux etudiants de l’echantillon n’ont jamais
eu de 2eme session
• Un etudiant a eu trois 2emes sessions en
secondaire et cinq 2emes sessions a l’universite
• L’effectif maximal est 4 pour des etudiants
n’ayant jamais eu de 2eme session en secondaire
mais deux 2emes sessions a l’universite
• . . .
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 157
Si le nombre de lignes et de colonnes d’un
TC sont trop grands =⇒ faire des classes
Exemple: Mode de payement
njk [0, 175[ [175, 350[ [350, 525[∑
[0, 100[ 26 24 1 51
[100, 200[ 16 25 7 48
[200, 300[ 0 1 0 1∑42 50 8 100
xcj et yck: valeurs centrales des classes
∆x et ∆y: longueurs de classes.
Commentaires:
• 26 clients sur 100 ont achete en liquide entre 0 et 100
euros et par carte entre 0 et 175 euros.
• Plus de la moitie de l’echantillon (51 sur 100) ont
achete pour moins de 100 euros en liquide
• 8% ont achete entre 350 et 525 euros par carte.
NB : Parfois on a des distributions de type mixte
ou une des deux series est regroupee en classes.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 158
2. Distributions marginales
Etude d’une seule serie observee (abstraction de
l’autre serie) =⇒ etude de series univariees.
a) Serie marginale en x :xi; i = 1, 2, . . . , nou encore (xj, nj.); j = 1, . . . , J ou
nj. =
K∑k=1
njk
sont les effectifs marginaux.
Frequence marginale en x :
fj. =nj.n
ou j = 1, . . . , J =⇒
x =1
n
n∑i=1
xi =1
n
J∑j=1
nj.xj
s2x =
1
n
n∑i=1
(xi − x)2 =1
n
J∑j=1
nj.(xj − x)2
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 159
b) Serie marginale en y :yi; i = 1, 2, . . . , nou encore (yk, n.k); k = 1, . . . , K ou
n.k =
J∑j=1
njk
sont les effectifs marginaux.
Frequence marginale en y :
f.k =n.kn
ou k = 1, . . . , K =⇒
y =1
n
n∑i=1
yi =1
n
K∑k=1
n.kyk
s2y =
1
n
n∑i=1
(yi − y)2 =1
n
K∑k=1
n.k(yk − y)2
Exercice:J∑j=1
nj. =
K∑k=1
n.k =
J∑j=1
K∑k=1
njk = n
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 160
Exemple sur les secondes sessions
njk y = 0 y = 1 y = 2 y = 3 y = 4 y = 5 nj.
x = 0 2 3 4 2 0 0 11
x = 1 0 0 0 2 2 0 4
x = 2 1 1 0 1 1 0 4
x = 3 0 0 0 0 0 1 1
n.k 3 4 4 5 3 1 20
(xj, nj.), j = 1, . . . , J = (0, 11), (1, 4), (2, 4), (3, 1)
(yk, n.k), k = 1, . . . , K = (0, 3), (1, 4), (2, 4), (3, 5), (4, 3), (5, 1)
Diagramme en batons des effectifs marginaux
en x.
0.0 0.5 1.0 1.5 2.0 2.5 3.0xj
4 4
1
11
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 161
3. Distributions conditionnelles
Etude d’une serie observee en fixant la valeur
de l’autre serie observee.
Questions :
• Parmi les etudiants n’ayant jamais eu de
2eme session dans le secondaire, quel est le pour-
centage d’etudiants reussissant sans 2eme ses-
sion a l’universite ?
• Quelle est la moyenne du prix d’une action
pour les titres echanges sur la bourse de New
York ?
• Sachant que les depenses en liquides par
mois sont inferieures a 100 euros pour certains
individus de l’echantillon, quelle sera la moyenne
des depenses de ces individus par carte ?
• . . .
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 162
Distribution conditionnelle de y en x :
Fixons x = xj : (yk, njk), k = 1, . . . , K=⇒ etude sur un echantillon de taille nj.
Frequence conditionnelle (profil-lignes) :
fyk|xj = fk|j =njknj.
j fixe ; k = 1, . . . , K
On peut calculer les moyennes, variances,. . . con-
ditionnelles :
y|xj =1
nj.
K∑k=1
njkyk
s2y|xj
=1
nj.
K∑k=1
njk(yk − y|xj)2
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 163
Distribution conditionnelle de x en y:
Fixons y = yk : (xj, njk), j = 1, . . . , J=⇒ etude sur un echantillon de taille n.k
Frequence conditionnelle (profil-colonnes) :
fxj|yk = fj|j =njkn.k
k fixe ; j = 1, . . . , J
On peut calculer les moyennes, variances,. . . con-
ditionnelles :
x|yk =1
n.k
J∑j=1
njkxj
s2x|yk
=1
n.k
J∑j=1
njk(xj − x|yk)2
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 164
Exemple sur les secondes sessions
Nombre moyen de secondes sessions a l’universite
sachant le nombre de secondes sessions dans le
secondaire :
xj y|xj0 1.5455
1 3.5
2 2
3 5
Exemple : Bourse
Moyenne des prix d’une action pour les titres
echanges sur la bourse de New York :
yx=NY SE =7.88 + 17.000 + 12.888 + 6.563 + 10.865
5= 11.0396
yx=AMEX =9.688 + 39.750 + 15.250
3= 21.5627
Exercice: yx=OTC = . . .
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 165
4.1.3 MOMENTS, COVARIANCE ET CORRELATION
1. Les moments
Generalisation a 2 dimensions de la notion de
moment :
a) Moments centres
mrs =1
n
n∑i=1
(xi − x)r(yi − y)s r, s ∈ IN
Cas particuliers :
m20 =1
n
n∑i=1
(xi − x)2 = s2x
m02 =1
n
n∑i=1
(yi − y)2 = s2y
m11 =1
n
n∑i=1
(xi − x)(yi − y) = sxy
ou sxy est appele covariance
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 166
b) Moments par rapport a l’origine
m′rs =1
n
n∑i=1
xriysi
Cas particuliers
m′10 = x m′01 = y
c)Proprietes de mrs
Soient x0, y0 ∈ IR et dx, dy ∈ IR+
Posons : ui = xi−x0dx
, vi = yi−y0dy
(i = 1, . . . , n)
et
mrs =1
n
n∑i=1
(ui − u)r(vi − v)s
⇓
mrs =mrs
drxdsy
(exercice)
Cas particulier :
suv =sxydxdy
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 167
2. Covariance
Moment centre d’ordre (1,1):
m11 = sxy = cov(x, y) =1
n
n∑i=1
((xi − x)(yi − y))
La covariance sera positive (negative) s’il existe
une relation croissante (decroissante) entre les 2
variables.
Exemple: Mode de payement
Dépenses mensuelles en liquide
50 100 150 200
Modes de payement
-
+
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 168
Proprietes
• Influencee par les changements d’unites mais
pas d’origine. Soient
ui =xi − x0
dxet vi =
yi − y0
dy(i = 1, . . . , n)
=⇒ cov(u, v) =cov(x, y)
dxdy(exercice)
• |cov(x, y)| ≤ sxsy (exercice)
Aide: developper l’expression suivante:
1
n
n∑i=1
(b(xi − x)− (yi − y))2
• Expression liant m11 et m′11 (exercice):
m11 = sxy =1
n
n∑i=1
((xi − x)(yi − y))
=1
n
n∑i=1
xiyi − xy = m′11 −m′01m′10
Mettre en parallele avec : s2x = 1
n
∑ni=1 x
2i− x
2.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 169
3. Coefficient de correlation
(Bravais-Pearson)
Definition:
r =sxysxsy
ou sx 6= 0, sy 6= 0
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 170
Commentaires:
r = 1 quand tous les points observes se trou-
vent sur une meme droite de pente positive
r ≈ 1 quand tous les points observes sont
situes a proximite d’une telle droite
r = 0 quand le nuage de points est allonge
parallelement a l’un des axes de coordonnees ,
ou forme arrondie
r = −1 quand tous les points observes se trou-
vent sur une meme droite de pente negative
r ≈ −1 quand tous les points observes sont
situes a proximite d’une telle droite
=⇒ r mesure l’intensite de la “dependance”
lineaire entre x et y
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 171
Proprietes
• Ne peut pas etre utilise avec des variables
qualitatives
• signe(r) = signe(cov(x, y))
• −1 ≤ r ≤ 1
• r est independant des unites de mesures (orig-
ine et unite des echelles de mesure) =⇒ r est
independant de toute transformation lineaire.
Ainsi, on a que rxy = ruv quand
ui =xi − x0
dxet vi =
yi − y0
dy(i = 1, . . . , n)
avec dx et dy strictement positifs.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 172
!!Correlation n’implique pas toujours
causalite!!
Une forte correlation n’implique pas automa-
tiquement une relation directe de cause a effet.
Ceci peut simplement etre du au fait que les
2 variables sont soumises a des influences com-
munes.
Exemple des cigognes.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 173
4.1.4 VECTEUR MOYENNE ET MATRICE DE VARIANCE-
COVARIANCE
Il est frequent de representer les moments du
1er et du 2eme ordres d’une serie bivariee sous
forme matricielle (notation aisee, temps de cal-
culs reduits).
Soit xi, yi; i = 1, . . . , n, une serie bivariee:
a) Vecteur moyenne:
g =
(x
y
)NB: g definit le centre de gravite des donnees.
b) Matrice variance-covariance:
V =
(s2x sxy
sxy s2y
)NB: V est une matrice symetrique.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 174
c) Soit X la matrice des observations:
X =
x1 y1
x2 y2
... ...
xn yn
et Xc la matrice des valeurs centrees:
Xc =
x1 − x y1 − yx2 − x y2 − y
... ...
xn − x yn − y
,
=⇒ V = 1nX′cXc
=1
n
(x1 − x x2 − x . . . xn − xy1 − y y2 − y . . . yn − y
)x1 − x y1 − yx2 − x y2 − y
... ...
xn − x yn − y
.
Exercice: Ecriture matricielle avec trois vari-
ables (x, y, z).
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 175
4.1.5 REGRESSION LINEAIRE SIMPLE
Objectif : Definir une relation de dependance
statistique entre 2 variables.
La variable a expliquer sera notee Y (variable
reponse, variable dependante), et la variable ex-
plicative sera note X (variable independante)
Exemples
x1
1 0 1 2
x1
y2
-2 -1 0 1
-4-2
02
4
x1
1 0 1 2
x1
y4
-2 -1 0 1
-2-1
01
2
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 176
Dependance simple : relation lineaire
=⇒ determination d’une droite de regression.
Exemple: Essayons d’estimer le prix d’une
maison PRICE (en milliers de dollars) en fonc-
tion de la superficie totale FLR (en pieds carres).
La variable dependante est PRICE, la variable
explicative est FLR.
Ajustons “au mieux” ces donnees par une droite
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 177
L’erreur commise entre la vraie valeur Price et la
valeur ajustee par la droite est appelee “residu”
(residual)
Remarquons qu’en moyenne nous ne faisons pas
d’erreur, en effet la moyenne des residus est nulle
des qu’un terme constant est dans le modele.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 178
CADRE THEORIQUE
Soit (xi, yi); i = 1, . . . , n une serie statistique
bivariee. Soit y la variable dependante et x la
variable explicative.
Notons la droite de regression:
yi = a + bxi (a, b ∈ IR).
Alors, il est possible de calculer les residus:
ei = yi − yi = yi − a− bxi
Idee: Minimiser les erreurs commises entre la
vraie valeur de l’observation yi et la prevision
basee sur la variable explicative yi.
Differentes pistes: Minimisern∑i=1
e2i ou
n∑i=1
|ei| ou mediane(ei) ou . . .
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 179
CRITERE DES MOINDRES CARRES (MC)
Point de vue mathematique: critere simple.
But: Minimiser:
n∑i=1
e2i =
n∑i=1
(yi − a− bxi)2.
=⇒ Systeme d’equations normales. Pour avoir
un minimum, il faut que
(i)∂
∂aQ(a, b) = 0
(ii)∂
∂bQ(a, b) = 0.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 180
Resolution:
Derivons la somme des residus carres par rap-
port a a:
∂
∂aQ(a, b) = −2
n∑i=1
(yi − a− bxi)
Il s’ensuit de (i) que
⇔n∑i=1
(yi − a− bxi) = 0
⇔n∑i=1
yi − na− bn∑i=1
xi = 0
⇔n∑i=1
yi = na + b
n∑i=1
xi
⇔ y = a + bx,
ce qui implique que le centre de gravite est sur
la droite de regression.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 181
Derivons la somme des residus carres par rap-
port a b:
∂
∂bQ(a, b) = −2
n∑i=1
(yi − a− bxi)(xi)
Il s’ensuit de (ii) que
⇔n∑i=1
(yi − a− bxi)(xi) = 0
⇔n∑i=1
xiyi − an∑i=1
xi − bn∑i=1
x2i = 0
⇔ 1
n
n∑i=1
xiyi − (y − bx)1
n
n∑i=1
xi − b1
n
n∑i=1
x2i = 0
⇔ 1
n
n∑i=1
xiyi − yx + bx2 − b1
n
n∑i=1
x2i = 0
⇔ b(1
n
n∑i=1
x2i − x
2) =1
n
n∑i=1
xiyi − yx
⇔ b =1n
∑ni=1 xiyi − yx
1n
∑ni=1 x
2i − x2
=1n
∑ni=1(xi − x)(yi − y)
1n
∑ni=1(xi − x)2
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 182
Solution au probleme de minimisation:
a = y − bxb =
sxy
s2x
Remarque: en calculant les derivees secondes,
on peut montrer que la solution est bien un min-
imum (exercice).
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 183
Variances residuelle et de regression
Decomposons la variance de la variable a ex-
plique (y) en deux parties: d’une part la partie
expliquee par la droite de regression (variance
de regression) et d’autre part la partie non ex-
pliquee (variance residuelle)
s2y =
1
n
n∑i=1
(yi−yi)2+1
n
n∑i=1
(yi−y)2 = s2e+s
2reg
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 184
Demonstration:
s2y =
1
n
n∑i=1
(yi − y)2 =1
n
n∑i=1
(yi − yi + yi − y)2
=1
n
n∑i=1
(yi − yi)2 +1
n
n∑i=1
(yi − y)2
+2
n
n∑i=1
(yi − yi)(yi − y)
Montrons que le double produit est nul. Rappel:
yi = a + bxi = y − bx + bxi = y + b(xi − x)
Donc, nous avons que:
2
n
n∑i=1
(yi − yi)(yi − y) =2
n
n∑i=1
(yi − y − b(xi − x))(b(xi − x))
=2b
n[
n∑i=1
(yi − y)(xi − x)− bn∑i=1
(xi − x)2]
= 2b[sxy − bs2x] = 2b[sxy −
sxys2x
s2x] = 0
Ceci prouve la decomposition de la variance en
une variance residuelle et une variance de regression.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 185
Coefficient de correlation (r) et coeffi-
cient de determination (R2)
• Lien entre le signe de r et la pente de la
droite de regression. On peut prouver que
yi − y = rsysx
(xi − x)
De cette relation, il est aise de voir que:
r > 0 =⇒ pente positive
r < 0 =⇒ pente negative
• Pourcentage de variance de la variable y
explique par la variable x. On peut montrer:
s2e = s2
y(1− r2) ⇐⇒ r2 =s2reg
s2y
Interpretation : r2 qui sera etendu dans le cas
de regression multiple a R2 mesure le % de vari-
ance de la variable reponse (y) explique par la
variable explicative (x).
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 186
Demonstration: s2e = s2
y(1− r2)
s2e =
1
n
n∑i=1
(yi − yi)2 =1
n
n∑i=1
(yi − y − b(xi − x))2
=1
n
n∑i=1
(yi − y)2 +b2
n
n∑i=1
(xi − x)2
− 2b
n
n∑i=1
(yi − y)(xi − x)
= s2y +
s2xy
s4xs2x − 2
sxy
s2xsxy
= s2y −
s2xy
s2x
= s2y(1−
s2xy
s2xs
2y)
= s2y(1− r2)
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 187
Exemple
Argent de poche donne a de jeunes adolescents:
• x = age
• y = montant hebdomadaire moyen en euro
xi 12 12 15 14 16 14 12 13 11 11
yi 4.1 3.4 11.3 10.2 11.5 7.2 6.0 7.8 3.5 3.0
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 188
xi yi xi − x yi − y (xi − x)2 (yi − y)2 (xi − x)(yi − y)
12 4.1 -1 -2.7 1 7.29 2.7
12 3.4 -1 -3.4 1 11.56 3.4
15 11.3 2 4.5 4 20.25 9
14 10.2 1 3.4 1 11.56 3.4
16 11.5 3 4.7 9 22.09 14.1
14 7.2 1 0.4 1 0.16 0.4
12 6 -1 -0.8 1 0.64 0.8
13 7.8 0 1 0 1 0
11 3.5 -2 -3.3 4 10.89 6.6
11 3 -2 -3.8 4 14.44 7.6
130 68 0 0 26 99.88 48
g =
(x
y
)=
(13
6.8
)et V =
(s2x sxy
sxy s2y
)=
(2.6 4.8
4.8 9.99
)
Donc la droite de regression est donnee par:
y = 6.8 +4.8
2.6(x− 13) = −17.2 + 1.85x
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 189
Importance de l’analyse des graphiques
• Examen du graphique des donnees =⇒ in-
formation sur la relation eventuelle entre deux
variables
•Analyse des residus ei = yi−yi (i = 1, . . . , n).
• Exemple du a Anscombe (p. 398)
Ensemble A Ensemble B Ensemble C Ensemble D
x y x y x y x y
10 8.04 10 9.14 10 7.46 8 6.58
8 6.95 8 8.14 8 6.77 8 5.76
13 7.58 13 8.74 13 12.74 8 7.71
9 8.81 9 8.77 9 7.11 8 8.84
11 8.33 11 9.26 11 7.81 8 8.47
14 9.96 14 8.10 14 8.84 8 7.14
6 7.24 6 6.13 6 6.08 8 5.25
4 4.26 4 3.10 4 5.39 19 12.50
12 10.84 12 9.13 12 8.15 8 5.56
7 4.82 7 7.26 7 6.42 8 7.91
5 5.68 5 4.74 5 5.73 8 6.89
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 190
Representations graphiques des exemples d’Anscombe:
Que pensez-vous de l’hypothese de relation lineaire
entre x et y pour chacun de ces cas?
• N.B.: Calculez les residus et commentez leurs
graphiques.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 191
4.2 RELATIONS ENTRE UNE VARIABLE QUAN-
TITATIVE ET UNE VARIABLE QUALITATIVE
Soient:
- Y une variable quantitative (p.e. le salaire)
- X une variable qualitative (p.e. le niveau
de diplome) prenant les modalites x1, . . . , xj, . . . , xJ .
• Moyennes conditionnelles: Quel est le salaire
moyen pour un travailleur ayant un diplome de
bachelier ??
y|xj =1
nj.
∑y tq x=xj
yj
=⇒ Graphique des moyennes conditionnelles.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 192
• Mesure de l’intensite de la dependance non
lineaire de y en x. Effectuons une decomposition
de la variance marginale :
s2y =
1
n
n∑i=1
(yi − y)2 =1
n
K∑k=1
n.k(yk − y)2
=1
n
J∑j=i
K∑k=1
njk(yk − y)2
=1
n
J∑j=i
K∑k=1
njk(yk − y|xj + y|xj − y)2
=1
n
J∑j=i
K∑k=1
njk(yk − y|xj)2
+1
n
J∑j=i
nj.(y|xj − y)2
= moyenne des variances conditionnelles
+ variance des moyennes conditionnelles
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 193
• Le rapport de correlation ηy.x est defini par
son carre:
η2y.x =
1n
∑Jj=i nj.(y|xj − y)2
s2y
Interpretation: Pourcentage de la variance ex-
pliquee par la connaissance de la variable X .
Remarques:
- expression a comparer avec R2
- η2y.x est independant des origines et des
unites
- 0 ≤ η2y.x ≤ 1
- Si y|xj = y ∀j =⇒ η2y.x = 0
- Si s2y|xj
= 0 ∀j =⇒ η2y.x = 1
- Indice de non linearite: η2y.x − r2
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 194
4.3 RELATION ENTRE 2 VARIABLES QUALITA-
TIVES ORDINALES
Exemple: Sondage d’opinion aupres de 10 clients
du restaurant Lobster Pot dans l’Etat de Floride.
i 1 2 3 4 5 6 7 8 9 10
QN E B B E S S I B E S
QS B B B E S B I E B S
R B B E B B I I E B B
P S B E E B I I B S B
G B B E B E B I S S E
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 195
4.3.1 CORRELATIONS DE RANG
Echelle ordinale donc il n’existe plus de lien
lineaire ⇒ Information a exploiter pour com-
parer les 2 series: ORDRE.
Soit (xi, yi); i = 1, . . . , n la serie statistique
bivariee. Soient les 2 series marginales ordonnees:
x(1), . . . , x(n) et y(1), . . . , y(n).
L’indice (i) est appele rang de l’observation
correspondante. NotonsR(xi) le rang de l’obser-
vation xi et R(yi) le rang de l’observation yi.
Exemples:
Serie observee: QNi = E,B,E,B, S, S, I, B,E, SSerie ordonnee: QN(i) = I, S, S, S,B,B,B,E,E,ERang de la serie ordonnee: R(QN(i)) = 1, 3, 3, 3, 6, 6, 6, 9, 9, 9
Rang de la serie observee: R(QNi) = 9, 6, 9, 6, 3, 3, 1, 6, 9, 3
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 196
• Correlation de Spearman (rs)
Definition:
Rs = corr(R(x), R(y)).
Par definition de la correlation de Pearson:
Rs =1n
∑ni=1
(R(xi)− Rx
) (R(yi)− Ry
)√[1n
∑ni=1(R(xi)− Rx)2
] [1n
∑ni=1(R(yi)− Ry)2
]
• Correlation du quadrant
Base sur la division de l’espace en 4 parties au
moyen des medianes.
• Correlation de Kendall
Base sur la notion de paire d’observations con-
cordantes et discordantes.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 197
4.4 RELATIONS ENTRE 2 VARIABLES QUALITA-
TIVES NOMINALES
Serie statistique bivariee
(xj, yk, njk); j = 1, . . . , J et k = 1, . . . , K
• Exemple: Enquete aupres de 200 etudiants
Variable X : “Provenance des etudiants”
3 modalites: R1, R2, R3 (3 regions).
Variable Y : “Choix de l’universite”
3 modalites: U1, U2, U3 (3 universites).
Tableau de contingence
njk U1 U2 U3 nj.
R1 28 73 29 130
R2 0 2 18 20
R3 12 25 13 50
n.k 40 100 60 200
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 198
Formalisation
• 2 variables qualitatives (nominales) X et Y :
- X prend J modalites: A1, . . . , AJ
- Y prend K modalites: B1, . . . , BK .
• X et Y sont observes sur un echantillon de
taille n =⇒ Tableau de contingence (N):
X|Y B1 . . . Bk . . . BK∑Kk=1
A1 n11 . . . n1k . . . n1K n1.
· · · · · · · · · · · · · · · · · ·Aj nj1 . . . njk . . . niP nj.
· · · · · · · · · · · · · · · · · ·AJ nJ1 . . . nJk . . . nJK nJ.∑Jj=1 n.1 . . . n.k . . . n.K n
ou les effectifs njk representent le nombre d’individus
ayant simultanement les modalites Aj et Bk.
Notons que nj. =∑Kk=1 njk et n.k =
∑Jj=1 njk.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 199
Tableau des frequences relatives F
Proportion d’individus possedant simultanement
les modalites Aj et Bk:
fjk =njkn
(j = 1 . . . , J ; k = 1, . . . , K).
Frequences relatives marginales sont donnees par:
fj. =nj.n
(j = 1 . . . , J)
et
f.k =n.kn
(k = 1, . . . , K).
Remarquons que:
fjk est une estimation de
πjk = P (X ∈ Aj, Y ∈ Bk)
fj. est une estimation de πj. = P (X ∈ Aj)f.k est une estimation de π.k = P (Y ∈ Bk)
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 200
Exemple Regions-Universites.
fjk U1 U2 U3 fj.
R1 0.14 0.365 0.145 0.65
R2 0 0.010 0.090 0.10
R3 0.06 0.125 0.065 0.25
f.k 0.20 0.50 0.30 1
Commentaires
• 14% des 200 etudiants viennent de la region
R1 et sont a l’universite U1
• 65% des etudiants viennent de la region R1
• 30% des etudiants sont a l’universite U3
• . . .
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 201
Tableaux des frequences conditionnelles
• Tableau des profils-lignes
Proportion des individus presentant la modalite
Bk parmi les individus ayant la modalite Aj:
fk|j =njknj.
=njk/n
nj./n=fjkfj.
(j = fixe; k = 1, . . . , K).
=⇒ estimation de la probabilite conditionnelle:
P (Y ∈ Bk|X ∈ Aj)
fjkfj.
U1 U2 U3 Totaux
R1 0.215 0.562 0.223 1
R2 0 0.100 0.900 1
R3 0.240 0.500 0.260 1
f.k 0.200 0.500 0.300 1
Commentaires
• Dans les etudiants venant de la region R2,
10% ont choisi l’universite U2.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 202
• Tableau des profils-colonnes
Proportion des individus presentant la modalite
Aj parmi les individus ayant la modalite Bk:
fj|k =njkn.k
=njk/n
n.k/n=fjkf.k
(j = 1, . . . , J ; k = fixe).
=⇒ estimation de la probabilite conditionnelle:
P (X ∈ Aj|Y ∈ Bk)
Exemple 1:
fjkf.k
U1 U2 U3 fj.
R1 0.700 0.730 0.483 0.65
R2 0 0.020 0.300 0.10
R3 0.300 0.250 0.217 0.25
Totaux 1 1 1 1
Commentaires
• Dans les etudiants ayant choisi l’universite
U3, 30% viennet de la region R2.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 203
Situation d’independance
• Si 2 variables aleatoiresX et Y sont independantes,
alors ∀j ∈ 1, . . . , J et ∀k ∈ 1, . . . , K:
a)P (X ∈ Aj, Y ∈ Bk) = P (X ∈ Aj)P (Y ∈ Bk)
b)P (Y ∈ Bk|X ∈ Aj) = P (Y ∈ Bk)
c)P (X ∈ Aj|Y ∈ Bk) = P (X ∈ Aj)
• L’echantillon de taille n nous permet d’estimer
ces quantites, des lors sous l’hypothese d’inde-
pendance, on devrait avoir:
a )fjk ≈ fj.f.k ∀j ∈ 1, . . . , J ∀k ∈ 1, . . . , K
b )fk|j =fjkfj.≈ f.k ∀j, ∀k
c )fj|k =fjkf.k≈ fj. ∀j, ∀k.
Ainsi tous les profils-lignes et les profils-colonnes
sont pratiquement egaux.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 204
•Definissons les frequences (relatives) theoriques
esperees sous l’hypothese d’independance:
f∗jk = fj.f.k et n∗jk = nf∗jk =nj.n.kn
• Exemple Regions-Universites.
Effectifs et effectifs theoriques:
njk U1 U2 U3 nj.
R1 28 73 29 130
R2 0 2 18 20
R3 12 25 13 50
n.k 40 100 60 200
n∗jk U1 U2 U3 nj.
R1 26 65 39 130
R2 4 10 6 20
R3 10 25 15 50
n.k 40 100 60 200
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 205
Frequences observees et frequences theoriques
esperees sous l’hypothese d’independance:
fjk U1 U2 U3 fj.
R1 0.14 0.365 0.145 0.65
R2 0 0.010 0.090 0.10
R3 0.06 0.125 0.065 0.25
f.k 0.20 0.50 0.30 1
f∗jk U1 U2 U3 fj.
R1 0.13 0.325 0.195 0.65
R2 0.02 0.050 0.030 0.10
R3 0.05 0.125 0.075 0.25
f.k 0.20 0.50 0.30 1
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 206
Ecarts a l’independance
Les ecarts a l’independance sont donnes par
ejk = njk − n∗jk
La matrice des ecarts est calculee en soustrayant
de la matrice des effectifs observes N , la matrice
des effectifs theoriques esperes sous l’hypothese
d’independance N∗.
• Exemple Regions-Universites
njk U1 U2 U3 nj. n∗jk U1 U2 U3 nj.
R1 28 73 29 130 R1 26 65 39 130
R2 0 2 18 20 R2 4 10 6 20
R3 12 25 13 50 R3 10 25 15 50
n.k 40 100 60 200 n.k 40 100 60 200
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 207
=⇒ejk U1 U2 U3
R1 2 8 -10
R2 -4 -8 12
R3 2 0 -2
• Interpretations:
ejk > 0↔ njk > n∗jk ↔ fjk > f∗jk = fj.f.k
→ on dit que les modalitesAj etBk “s’attirent”
ejk < 0↔ njk < n∗jk ↔ fjk < f∗jk = fj.f.k
→ on dit que les modalites Aj et Bk “se re-
poussent”.
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 208
Mesures d’association du chi-carre:
D2 =
J∑j=1
K∑k=1
(njk − n∗jk)2
n∗jk=
J∑j=1
K∑k=1
e2jk
n∗jk
Exemple Regions-Universites:
e2jkn∗jk
U1 U2 U3 Totaux
R1 0.1538 0.9846 2.5641 3.7025
R2 4.0000 6.4000 24.0000 34.4000
R3 0.4000 0.0000 0.2667 0.6667
Totaux 4.5538 7.3846 26.8308 38.7692
• Interpretation : Plus la valeur est grande, plus
on s’ecarte de l’independance donc association
(en 2eme annee dans le chapitre des problemes
de test, vous utiliserez cette statistique pour
tester l’independance).
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 209
4.5 EXTENSIONS (cours a option en 4eme):
ANALYSE DES DONNEES MULTIDIMENSION-
NELLES
But: presenter les differentes methodes statis-
tiques permettant de visualiser et resumer l’infor-
mation contenue dans des bases de donnees con-
tenant un grand nombre de variables.
Analyse en composantes principales (ACP)
Technique de representation et de reduction d’un
ensemble de variables quantitatives continues.
Analyse des correspondances binaires
(ACOBI)
Methode adaptee a l’etude des eventuelles re-
lations existantes entre 2 variables nominales
(etude des tableaux de contingence).
CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 210
Analyse des correspondances multiples
(AFCM)
Generalisation de l’analyse des correspondances.
Permet de decrire les relations entre plusieurs
variables nominales.
Methodes de classification
Methodes permettant de grouper les individus
ou variables suivant certains criteres de prox-
imite.
Analyse discriminante
Techniques destinees a classer (affecter a des
classes preexistantes) des individus caracterises
par un certain nombre de variables quantitatives
ou qualitatives
Chapitre 5
SERIES CHRONOLOGIQUES
211
1
Chapitre 5 : Analyse d’une série chronologique
1. Introduction. Série chronologique : Suite de valeurs observées yt1, yt2, ….ytn d’une variable Y effectuées dans le temps aux instants : t1, t2, …, tn.
2
Hypothèse simplificatrice : On suppose que les dates d’observations sont équidistantes → y1, y2, …yn. Variable de niveau : Etat à un moment donné :
- montant des avoirs le 31 décembre - nombre de chômeurs le 1er de
chaque mois - etc
Variable de flux : Mouvement intervenu durant une certaine période :
- quantité produite pendant 1 mois - nombre de navetteurs sur la E411 sur une journée
- etc
3
Prévisions :Exemples Prévision à court terme :
- prévision des ventes futures du produit X pour faire face à la demande Prévision à moyen terme : - rendement d’un investissement Prévision à long terme :
- prévisions des besoins en service publics (hôpitaux, écoles, etc).
Les méthodes présentées dans ce chapitre se rapportent à la prévision à court terme Origine de la prévision (T) : moment où le prévision est effectuée Horizon de la prévision (h) : intervalle de temps qui sépare l’origine de la prévision et le moment pour lequel on désire la prévision Prévision ponctuelle : ˆ ( )Ty h
4
2. Composante d’une série chronologique
Le principe de décomposition est basé sur la maxime : «diviser pour régner». Décomposition en 4 composantes : T= tendance C= composante cyclique S= composante saisonnière E= composante résiduelle (irrégulière) Combinaisons possibles des composantes : Modèle additif : yt = Tt + Ct + St + Et NB : composante extra-saisonnière : ft = Tt + Ct Modèle multiplicatif : yt= Tt * Ct * St * Et NB : composante extra-saisonnière : ft = Tt * Ct Modèle mixte : tout autre modèle où additions et multiplications sont utilisées.
5
Composition d’une série chronologique. Modèle additif : yt = Tt + Ct + St + Et Graphique 1 : T = Tendance linéaire
Graphique 2 : T + C = Tendance linéaire + composante cyclique
6
Graphique 3 : T + C + S = idem+ composante saisonnière
Graphique 4 : T + C + S + E= idem+ composante résiduelle
7
Modèle multiplicatif : yt = Tt * Ct * St * Et
Graphique 1 : T = Tendance linéaire
Graphique 2 : T * C = Tendance linéaire * composante cyclique
8
Graphique 3 : T * C * S = idem * composante saisonnière
Graphique 4 : T * C * S * E= idem * composante résiduelle
CONCLUSION :
9
3. Etude de la tendance a) Approche exploratoire Difficulté pratique de procéder, souvent lié à : - la longueur de la série
- l’importance des fluctuations
Solution : essayer de « lisser » la série pour avoir une idée générale de la tendance Outils :
- filtres linéaires (moyenne mobile, etc) - régression linéaire simple après avoir
linéarisé par différenciation, transformation logarithmique, etc
10
b) Filtres linéaires. Soit y1,…,yt,…,yn la série chronologique → une valeur filtrée linéairement:
Donc la série filtrée est donnée par :
où wt est indépendant de t Exemple : y1, y2, …, y8, posons p1=1, p2=2
Donc 2
*1 1 0 1 1 2 2
1t j t j t t t t
jy w y w y w y w y w y+ − − + +
=−
= = + + +∑ Série filtrée : y*
2, y*3,…,y*
6
11
Cas particuliers :Moyennes Mobiles (MM)
12
13
14
15
16
5°) Choix de l’ordre de la moyenne mobile.
17
18
Donc le choix « idéal » dépend de la saisonnalité.
19
c) Ajustement analytique (régression linéaire)
Variable y fonction du temps : y=f(t) + erreur Procédure : - étape 1 : si y n’est pas une fonction linéaire : f(t) = a + bt, essayer de la linéariser
t
y1
0 10 20 30 40 50
020
4060
8010
0
Tendance lineaire
t
y2
0 10 20 30 40 50
020
4060
8012
0
Tendance quadratique
t
y3
0 10 20 30 40 50
2040
6080
100
120
Tendance exponentielle
t
y4
0 10 20 30 40 50
-1.0
-0.6
-0.2
Tendance hyperbolique
- étape 2 : utiliser la méthode des moindres carrés sur les données linéarisées (modèle de régression)
20
Etape 1 : Linéariser la relation. NB : en série chronologique, la variable
explicative x est le temps t Régression exponentielle :
y = 10a+bx ⇒ log10 y = a + b x ⇒ régression linéaire pour (xi , zi) où
zi = log10 yi
Régression hyperbolique :
y =1
a + bx⇒
1y
= a + bx
⇒ régression linéaire pour xi , zi( ) où
zi = 1 yi
21
Régression quadratique: la parabole
y = b0 + b1 x + b2 x2
Min Q b0, b1, b2( )= yi − b0 − b1 xi − b2 xi
2( )2i∑
Système d’équations normales :
∂ Q∂ b0
= −2 yi − b0 − b1 xi − b2 xi2( )= 0
i∑
∂ Q∂ b1
= −2 yi − b0 − b1 xi − b2 xi2( ) xi( )= 0
i∑
∂ Q∂ b2
= −2 yi − b0 − b1 xi − b2 xi2( ) xi
2( )= 0i∑
22
Etape 2 : Estimation de la tendance par la méthode des moindres carrés
Soit (ti,yi); i=1,2,…,n la série statistique bivariée. Soit y la variable dépendante et t le temps Notons la droite de régression par:
ˆi iy a bt= + (a, b ∈ R)
⇒ on peut calculer les résidus:
ˆi i i i ie y y y a bt= − = − −
Idée : Minimiser les erreurs commises entre la vraie valeur de l’observation yi et la prévision basée sur la tendance :
Critère des moindres carrés : ∑
=
n
iie
1
2
23
Critère des moindres carrés (MC) On veut minimiser : Q(a,b)=Σi ei
2 = Σi (yi- a- b ti)2 ⇒ Système d’équations normales : pour avoir un minimum il faut que :
( , ) 0Q a ba
∂=
∂
( , ) 0Q a bb
∂=
∂ On obtient donc comme solution du problème de minimisation :
a y bt= −
2ty
t
sb
s=
Remarque : en calculant les dérivées secondes, on peut montrer que la solution est bien un minimum
24
Cas particulier : Soit l’échantillon : (y1,1), (y2,2), …(yT,T)
⇒ 2)1(...21 +=+++ TTT ⇒ 2
1+=Tt
et 6)12)(1(...21 222 ++=+++ TTTT ⇒ 12
122
−=T
st Ce qui implique que l’ajustement linéaire au sens des MCO est donné par :
ˆty = a +b t
où 21+−= Tbya
et )1(121
21
2
1 1
−
+−=∑ ∑
= =
TT
yTtyb
T
t
T
ttt
25
4. Etude de la composante
saisonnière a). Introduction.
26
b) Modèle additif
27
28
29
30
31
32
33
34
35
c) Modèle multiplicatif
36
5. Elimination de la tendance ou/et de la composante
saisonnière a) Elimination de la tendance. Solution 1 : On détermine T et ensuite on effectue les opérations suivantes :
1°) Cas additif : y-T
2°) Cas multiplicatif : y/T Solution 2 : Utilisation des différences Cas d’une tendance linéaire :
Cas d’une tendance quadratique :
37
b) Elimination de la saisonnalité. Solution 1 : On détermine Sj (ou 1+ sj) et ensuite on effectue les opérations suivantes :
1°) Cas additif : dij = yij - Sj
2°) Cas multiplicatif : dij = yij / (1+sj) Solution 2 : Utilisation des différences saisonnières.
38
6. Méthodes de Prévision
39
40
41
42
43
44
45
46
Chapitre 6
VARIABLES ALEATOIRES ET LOIS
DE PROBABILITE DISCRETES
Citibank, Long Island City, Etat de New York
(Anderson, Sweeney, & Williams, 2001)
212
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES213
6.1 Definitions, Variables aleatoires
Experience aleatoire: processus dont on ne
peut pas prevoir le resultat:
• lancer un de
• jouer au lotto
• faire une offre de vente
• qualite d’une piece (defectueuse ou non) dans
un processus industriel, . . .
Espace-echantillon: ensemble des resultats
possibles
Exemple : on lance 2 pieces de monnaie
Ω'
&
$
%
ω1 : P1 ∩ P2
ω2 : P1 ∩ F2
ω3 : F1 ∩ P2
ω4 : F1 ∩ F2
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES214
Variable aleatoire: sa valeur est determinee
par le resultat d’une experience aleatoire.
Exemple: on lance 2 pieces de monnaie et on
s’interesse au nombreX de resultats face obtenus
Ω'
&
$
%
ω1 : P1 ∩ P2
ω2 : P1 ∩ F2
ω3 : F1 ∩ P2
ω4 : F1 ∩ F2
HHHH
HHHHHHH
XXXXXXXXXXX
,,,,,,,,,,,
j
z
*
V'
&
$
%
0
1
2
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES215
Notons Ex l’evenement compose des resultats
associes a la valeur x ∈ V
Ω'
&
$
%
'&
$%E0 P1 ∩ P2
E1
P1 ∩ F2
'
&
$
%F1 ∩ P2
E2 F1 ∩ F2
'&
$%
HHHHHH
HHHHH
XXXXXXXXXXX
,,,,,,,,,,,
j
z
*
V'
&
$
%
0
1
2
On a donc:
P (E0) = P (X = 0) =1
4
P (E1) = P (X = 1) =1
4+
1
4=
1
2
P (E2) = P (X = 2) =1
4
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES216
1
px
x
6
1214
34
-
0 1 2
Definition d’une variable aleatoire: Une
variable aleatoire (v.a.) X est une fonction definie
sur Ω a valeurs dans un ensemble note V.
A chaque ω de Ω on associe une valeur
x = X(ω) ∈ V.
Ω'
&
$
%
ω•```````````z
V'
&
$
%x•
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES217
Discrete et continue
Si V est un ensemble discret, la v.a. est dite
discrete (par exemples V = 0, 1, . . . , n ou
n ∈ N ; V = Z)
Experience Variable aleatoire X Valeurs possibles V
Contacter 5 clients Nbre de clients 0, 1, 2, 3, 4, 5
qui commandent
Inspecter une Nbre de radios defectueuses 0, 1, . . . , 50
cargaison de 50 radios
Gerer un restaurant Nombre de clients 0, 1, 2, 3, . . .
pendant une journee
Si V est continu, la v.a. sera dire continue (par
exemple V = IR)
Experience Variable aleatoire X Valeurs possibles V
Jouer au lotto Montant gagner Intervalle de IR+
Gerer un restaurant Benefices Intervalle de IR+
pendant une journee
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES218
6.2 Loi d’une v.a. discrete
Associons a la valeur x ∈ V l’ensemble d’evenements:
Ex = w tel que w ∈ Ω et X(w) = x
On peut donc calculer pour tout x ∈ V :
px = PX(x) = P (X = x) = P (Ex)
⇓
Loi de probabilite de X:
(x, px), x ∈ V .
Remarque : (x, px), x ∈ V est une DP ssi
px ≥ 0 ∀x ∈ V et∑x
px = 1
Exemples: distribution uniforme, binomiale, de
Bernouilli, de Poisson, geometrique, binomiale
negative, hypergeometrique, etc
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES219
6.3 Fonction de repartition d’une v.a. dicrete
• Rappel: Statistique descriptive
Fj est la frequence cumulee c’est-a-dire le pour-
centage d’observations ≤ xj.
• Definition au niveau population:
F (x) = P (X ≤ x) ou x ∈ IR
Donc pour une DP (xj, pj), j = 1 . . . , J:
F (x) =∑xj≤x
pj
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES220
Proprietes
• F (x) ∈ [0, 1]
• F (−∞) = 0 et F (∞) = 1
• F (a) ≤ F (b), ∀a ≤ b (a, b ∈ IR)
• P (a < X ≤ b) = P (X ≤ b)− P (X ≤ a)
= F (b)− F (a), (a < b)
• Si xi et xj sont deux valeurs de la v.a. telle
que xi ≤ xj alors:
P (xi ≤ X ≤ xj) = F (xj)− F (xi−1)
En particulier P (X = xj) = F (xj)−F (xj−1).
• F(x) est continue a droite ∀x ∈ IR.
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES221
6.4 Esperance mathematique (EPM)
1. Approche historique: Probleme des
partis
• 2 joueurs misent chacun 32 euros
• La partie comprends plusieurs jeux successifs
ou chacun a la meme probabilite de gagner
• On gagne la mise des que on a gagne 3 jeux.
La partie est deja commencee :
E[gain pour A] = 641
2+ 32
1
2= 48
E[gain pour B] = 01
2+ 32
1
2= 16
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES222
2. Definition
Soit la distribution de probabilite:
(x, px), x ∈ V
et la fonction X → g(X) : x → g(x). Alors
l’esperance mathematique est definie
E[g(X)] =∑x
g(x)px
3. Proprietes
• Si b est une constante: E(b) = b
Demonstration:
E(b) =∑x
bpx = b∑x
px = b.
• Si a est une constante : E(aX) = aE(X)
Demonstration:
E(aX) =∑x
(ax)px = a∑x
xpx = aE(X).
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES223
• Si a et b sont des constantes:
E(aX + b) = aE(X) + b
Demonstration: exercice
• Notons E(X) = µ. Alors Y = X − µ est tel
que E(Y ) = 0 =⇒ Y est la v.a. centree.
Demonstration:
E(Y ) = E(X − µ) = E(X)− µ = 0.
• Soient a et b deux constantes, g(X) et h(X)
deux fonctions de X a valeurs reelles :
E[ag(X) + bh(X)] = aE(g(X)) + bE(h(X))
Demonstration: exercice.
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES224
6.5 Parametres (moyenne, variance, moments, mediane,...)
•Moyenne
Cas particulier de l’EPM pour g(X) = X :
E(X) =∑x
xpx := µ
Remarque : analogie avec la statistique descrip-
tive basee sur un echantillon :
x =1
n
∑j
njxj =∑j
fjxj
Exemple: Lancement de 2 pieces
1
px
x
6
12
14
34
-
0 1 2
µ =∑x
xpx =1
40 +
1
21 +
1
42 = 1
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES225
• Variance et Ecart-type
Cas particulier de l’EPM: g(X) = (X−E(X))2
E((X−E(X))2) =∑x
(x−µ)2px := σ2 = V (X)
Remarque : analogie avec la statistique descrip-
tive basee sur un echantillon :
s2 =1
n
∑j
nj(xj − x)2 =∑j
fj(xj − x)2
Exemple: Lancement de 2 pieces
1
px
x
6
12
14
34
-
0 µ = 1 2
σ2 =1
4(0− 1) +
1
2(1− 1) +
1
4(2− 1) =
1
2
Ecart-type: σ =√
(σ2).
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES226
PROPPRIETES:
1. Si b est une constante: V (b) = 0
Demonstration: Puisque E(b) = b, on a:
V (b) = E((b−E(b))2) =∑x
(b−E(b))2px = 0.
2. Si a est une constante: V (aX) = a2V (X)
Demonstration: Puisque E(aX) = aE(X):
V (aX) = E((aX − E(aX))2)
= E[a2(X − E(X))2]
= a2E[(X − E(X))2]
= a2V (X).
3. Si Y = X − a alors V (Y ) = V (X)
Demonstration: Exercice.
⇓
La variance est independante d’un changement
d’origine.
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES227
4. En particulier, si Y = X−µ alors V(Y)=V(X)
Demonstration: Puisque E(X − µ) = 0, on a:
V (Y ) = E((Y − E(Y ))2)
= E[((X − µ)− E(X − µ))2]
= E[(X − µ)2] = V (X).
5. Soit Z = X−µσ alors V (Z) = 1
⇓
Z est dite v.a. centree-reduite
Demonstration:
V (Z) = V (X − µσ
)
= V (1
σ(X − µ))
=1
σ2V (X − µ)
= 1.
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES228
• Les Moments
Definition: Moments d’ordre r par rapport a c
µr(c) = E[(X − c)r] r ∈ IN, c ∈ IR
Cas particuliers:
1. Moment par rapport a l’origine (c = 0):
µ′r = E[Xr] =∑x
xrpx
Exemple: La moyenne est le moment par rap-
port a l’origine d’ordre 1 (r = 1)
2. Moment centre (c = µ):
µr = E[(X − µ)r] =∑x
(x− µ)rpx
Exemple: La variance est le moment centre d’ordre
2 (r = 2)
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES229
PROPRIETES:
µ′0 = µ0 = 1
µ′1 = E(X) = µ
µ1 = 0
µ2 = E[(X − µ)2] = σ2
Demonstration: exercice.
Expression utile: E(X2) = σ2 + µ2
Demonstration:
σ2 = E[(X − µ)2] = E(X2 − 2Xµ + µ2)
= E(X2)− 2µE(X) + µ2 = E(X2)− µ2
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES230
• Mediane
Definition: La mediane x1/2 est telle que:
P (X < x1/2) ≤ 1
2et P (X ≤ x1/2) ≥ 1
2
Remarque: analogie avec la statistique descrip-
tive.
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES231
6.6 Fonctions generatrices des moments
• Definition: Soit une DP (x, px), x ∈ V . La
fonction generatrice des moments est:
MX(t) = E[etX ] =∑x
etxpx ∀t ∈ IR.
Remarque: MX(t) n’existe pas toujours (con-
dition d’existence).
•Decomposition en utilisant le developpement
en serie de etx:
MX(t) =∑x
(1 + tx +t2x2
2!+ . . . +
trxr
r!+ . . .)px
=∑x
px + t∑x
xpx + . . . +tr
r!
∑x
xrpx + . . .
= 1 + tµ′1 + . . . +tr
r!µ′r + . . .
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES232
Ce resultat nous fournit la propriete suivante:
• Propriete: SiM(t) existe et admet des derivees
d’ordre r (r = 1, 2, . . .):
µ′r = [drM(t)
dtr]t=0
• Exemple: 1px
x
6
1214
34
-
0 1 2
M(t) = E(etX) =
2∑x=0
etxpx =1
4+
1
2et +
1
4e2t
→ µ = [dM(t)
dt]t=0 = [
1
2et +
1
2e2t]t=0 = 1
→ µ′2 = [d2M(t)
dt2]t=0 = [
1
2et + e2t]t=0 =
3
2
⇒ σ2 = µ′2 − µ2 =
3
2− 1 =
1
2
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES233
6.7 Lois discretes particulieres
1. Distribution uniforme
a) Definition: X ∼ U [1, . . . , n] si
P (X = x) =1
n∀x ∈ V = 1, . . . , n
b) Exemples
• valeur obtenue par un lance de de (n=6)
• dans une etude basee sur un echantillon de
taille n, il est souvent assume que chaque indi-
vidu de l’echantillon a un poids 1/n.
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES234
c) Quelques parametres
• Moyenne (parametre de position):
µ = E(X) =
n∑x=1
xpx =1
n
n∑x=1
x =n + 1
2
Aide:n∑x=1
x =n(n + 1)
2
• Variance (parametre de dispersion):
σ2 = E(X−µ)2 = E(X2)−µ2 = E(X2)−(n + 1)2
4
or
E(X2) =
n∑x=1
x2px =1
n
n∑x=1
x2
Aide:n∑x=1
x2 =n(n + 1)(2n + 1)
6
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES235
Preuve:
(x + 1)3 = x3 + 3x2 + 3x + 3
⇒ (x + 1)3 − x3 = 3x2 + 3x + 1
et
n∑x=1
[(x + 1)3 − x3] = (n + 1)3 − 1
En outren∑x=1
[(x + 1)3 − x3] =
n∑x=1
(3x2 + 3x + 1)
= 3(1 + 22 + . . . + n2)
+ 3(1 + 2 + . . . + n) + n
Nous avons donc que:
(n + 1)3 − 1 = 3
n∑x=1
x2 + 3
n∑x=1
x + n
⇒n∑x=1
x2 =1
3[(n + 1)3 − 1− 3
n(n + 1)
2− n]
⇒n∑x=1
x2 =1
6n(n + 1)(2n + 1)
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES236
Donc nous avons:
σ2 = E(X2)− µ2 =(n + 1)(2n + 1)
6− (n + 1)2
4
=(n + 1)
12[4n + 2− 3(n + 1)]
=(n + 1)(n− 1)
12=n2 − 1
12
• Skewness (parametre d’asymetrie): La dis-
tribution etant symetrique µ3 = 0.
Exercice: Prouver formellement le resultat en
utilisant l’aide:n∑x=1
x3 =n2(n + 1)2
4
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES237
2. Distribution de Bernouilli
a) Definition: X ∼ B(1, p) si les valeurs pos-
sibles pour X sont succes (x = 1) et echec
(x = 0). En outre la probabilite de succes est
egale a p (P (X = 1) = p).
b) Exemples
• inspection d’une piece dans un processus in-
dustriel (defectueux ou pas)
• resultat (reussite ou echec) a l’examen de
statistique.
c) Quelques parametres (exercice)
µ = p
σ2 = pq ou q = 1− pµ3 = pq(q − p)
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES238
d) Schema de Bernouilli: Soient
- X ∼ B(1, p) ⇒ Experience ou l’evenement
“succes” a une probabilite p de se realiser
- Nous realisons n experience sous des condi-
tions uniformes (p est constant)
- Les n experiences sont independantes
Notons x le nombre de succes, y le nombre
d’echec
⇓
Plusieurs distributions peuvent etre deduites:
- si Z=nombre de succes
→ distribution binomiale
- si Z=nombre d’echec avant le premier succes
→ distribution geometrique
- si Z=nombre d’echec avant le rieme succes
→ distribution negative binomiale
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES239
3. Distribution binomiale
a) Definition: X ∼ B(n, p) si on procede a un
schema de Bernouilli (n experiences uniformes
et independante avec probabilite de succes egale
a p) et que X=nombre de succes.
b) Exemples
• Selection aleatoire n pieces dans une produc-
tion et on compte le nombre de pieces conformes
• On compte le nombre de fois que l’on gagne
(avoir pile) dans un jeu de n pile ou face.
c) Distribution de probabilite:
- x ∈ 0, 1, . . . , n
- px =
(n
x
)pxqn−x (formule du binome)
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES240
d) Fonction generatrice des moments
Rappel: Puissance d’un binome
(a + b)n =
n∑x=0
(n
x
)bxan−x
Avec cette aide, nous pouvons developper la
fonction generatrice des moments:
M(t) = E(etX) =
n∑x=0
etxpx =
n∑x=0
etx
(n
x
)pxqn−x
=
n∑x=0
(n
x
)(pet)xqn−x = (q + pet)n
d) Quelques parametres
• Moyenne:
µ = [dM(t)
dt]t=0
= [n(q + pet)n−1pet]t=0
= n(q + p)n−1p = np
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES241
• Variance:
µ′2 = [dM2(t)
dt2]t=0
= np[(n− 1)(q + pet)n−2pe2t + (q + pet)n−1et]t=0
= np[(n− 1)p + 1] = np(np + q)
Ainsi la variance est deduite par:
σ2 = µ2 = µ′2−µ′21 = n2p2+npq−n2p2 = npq
• Parametre d’asymetrie (exercice):
µ3 = npq(q − p)
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES242
e) Frequence de succes
• SoitX le nombre de succes et Y la frequence
de succes:
Y =X
n
• Valeurs de Y: y ∈ 0, 1n, . . . , 1
• Calculs des probabilites:
py = P (Y = y) = P (X
n= y) = P (X = ny)
= P (X = x) =
(n
x
)pxqn−x
• Liens entre les moments de X et Y :
E(Y ) = E(X
n) = p
V (Y ) = V (X
n) =
pq
n
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES243
4. Distribution de Poisson
a) Contexte: Decrit le nombre d’evenements se
produisant sur une periode de temps donnee T
b) Exemples
• Le nombre de faillites sur une journee dans
un secteur industriel.
• Le nombre d’accidents d’avion sur une annee.
c) Distribution de probabilite: X ∼ P (λ) avec
comme support x ∈ 0, 1, 2, . . . ou
P (X = x) = px =e−λλx
x!λ ∈ IR+
0
Remarque:∞∑x=0
px =
∞∑x=0
e−λλx
x!= e−λ
∞∑x=0
λx
x!= e−λeλ = 1
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES244
d) Fonction generatrice des moments:
M(t) = E(etX) =
∞∑x=0
etxpx =
∞∑x=0
etxe−λλx
x!
= e−λ∞∑x=0
(λet)x
x!= e−λeλe
t= eλ(et−1)
e) Quelques moments:
• La moyenne:
µ = [dM(t)
dt]t=0 = [λeteλ(et−1)]t=0 = λ
• Moments d’ordre 2
µ′2 = [dM2(t)
dt2]t=0 = λ[eteλ(et−1) + etλeteλ(et−1)]t=0
= λ + λ2
⇓
σ2 = µ2 = µ′2 − µ′21 = λ + λ2 − λ2 = λ
• Moments d’ordre 3 et 4
µ3 = λ µ4 = λ + 3λ2
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES245
f) Limite de la distribution binomiale quand la
probabilite de succes est faible (p → 0) et que
le nombre d’essais est grand (n→∞)
Preuve: Soit X ∼ Bin(n, p) ou p = λ/n
P (X = x) =n!
x!(n− x)!pxqn−x
=nx
nxpx(1− p)n−x
n!
x!(n− x)!
=nx
nxpx
(1− p)n
(1− p)xn!
x!(n− x)!
=(np)x
x!
1
(1− p)x(1− p)n
n!
nx(n− x)!
=(λ)x
x!
1
(1− p)x(1− λ
n)n
n(n− 1) . . . (n− x + 1)
nx
Pour n→∞, p→ 0 et np→ λ, on obtient:
P (X = x)→ (λ)x
x!e−λ ∗ 1
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES246
La qualite de l’approximation depend des valeurs
de n et p.
Exemples
• X ∼ Bin(50, 0.10)
P(X=5)=0,1849
F(5)=0,6161
• X ∼ Bin(100, 0.05)
P(X=5)=0,1800
F(5)=0,6160
• X ∼ P (5)
P(X=5)=0,1755
F(5)=0,6160
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES247
g) Introduction intuitive de la loi de Poisson:
Soit X le nombre d’arrivees d’un phenomene
dans l’intervalle de temps:
−−−|−−−−|−−−−−−|−−−−|−−−−|−−−−
0 ↑ ↑ t t+ ∆t
Posons les hypotheses suivantes:
• P(1 arrivee dans ∆t) = α∆t
• P(plus qu’une arrivee dans ∆t) ≈ 0
• Des evenements arrivant dans des intervalles
disjoints sont independants.
Notons px(t+∆t) la probabilite d’avoir x arrivee
dans l’intervalle de temps [0, t + ∆t]
Deux possibilites:
• x arrivees dans [0, t] et 0 arrivee dans [t,∆t]
• x− 1 arrivees dans [0, t] et une dans [t,∆t]
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES248
Donc,
px(t + ∆t) = px(t)[1− α∆t] + px−1(t)α∆t
= px(t)− α∆tpx(t) + α∆tpx−1(t)
⇒ A =px(t + ∆t)− px(t)
∆t= α[px−1(t)−px(t)]
En prenant comme conditions initiales:
• p0(0) = 1
• px(0) = 0,
la derivee:
lim∆t→0
A =dpx(t)
dt= α[px−1(t)− px(t)]
a comme solution:
px(t) =e−λλx
x!ou λ = αt
qui est la fonction de probabilite d’une variable
aleatoire de Poisson de parametre αt.
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES249
5. Distribution geometrique
a) Definition: Schema de Bernouilli (experiences
uniformes et independantes avec probabilite de
succes egale a p) ou n n’est pas fixe a priori.
X=nombre d’essais precedant le premier succes.
b) Exemples:
• Nombre de lance d’un de avant d’avoir 1.
• En repondant au hasard: le nombre de QCM
faux avant d’avoir une bonne reponse.
c) Distribution de probabilite:
P (X = x) = px = pqx x ∈ 0, 1, 2, . . .
d) Fonction generatrice des moments:
M(t) = E(etX) =
∞∑x=0
etxpqx = p
∞∑x=0
(qet)x =p
1− qet
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES250
e) Quelques moments:
• La moyenne:
µ = [dM(t)
dt]t=0 = [
pqet
(1− qet)2]t=0 =
pq
p2=q
p
• Moments d’ordre 2
µ′2 = [dM2(t)
dt2]t=0
= pq[et(1− qet)2 + 2etqet(1− qet)
(1− qet)4]t=0
= pq(1− q)2 + 2qp
p4=q(p + 2q)
p2=q(1 + q)
p2
⇒ σ2 =q(1 + q)
p2− q2
p2=q
p2
e) Definition alternative: Y =nombre d’essais
necessaire pour avoir le premier succes.
• Y = X+1; P(Y=y)=pqy−1 y ∈ 1, 2, . . .• M(t) = E(etY ) = pet
1−qet
• µ = [dM(t)dt ]t=0 = 1
p et σ2 = qp2.
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES251
6. Distribution binomiale negative
a) Definition: Schema de Bernouilli (experiences
uniformes et independantes avec probabilite de
succes egale a p) ou n n’est pas fixe a priori.
X=nombre d’echec avant le rieme succes.
b) Exemples
• Nombre de pile obtenus avant d’avoir 5 faces.
• En repondant au hasard: le nombre de QCM
faux avant d’avoir 3 bonnes reponses.
c) Distribution de probabilite:
P (X = x) = Cr−1x+r−1p
rqx x ∈ 0, 1, 2, . . .
d) Fonction generatrice des moments:
M(t) = E(etX) =
∞∑x=0
etxCr−1x+r−1p
rqx
= pr∞∑x=0
Cr−1x+r−1(qet)
x=
pr
(1− qet)r
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES252
e) Quelques moments (exercice):
• La moyenne:
µ =rq
pσ2 =
rq
p2
e) Definition alternative: Y =nombre d’experience
necessaire pour avoir r succes.
b) Exemples
• Nombre de lances necessaires pour obtenir 5
faces.
• En repondant au hasard: le nombre de QCM
necessaires avant d’avoir 3 bonnes reponses.
CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES253
7. Distribution hypergeometrique
a) Definition: On preleve n individus dans une
population de tailleN de maniere aleatoire, mais
sans remise. Chaque individu possede (succes)
ou ne possede pas (echec) une certaine caracteristique.
Dans la population M individus possedent cette
caracteristique. Soit X=nombre de succes.
b) Distribution de probabilite:
P (X = x) =
(M
x
)(N −Mn− x
)(N
n
)ou x ∈ max(0, n−(N−M)), . . . ,min(n,M).
c) Moyenne et variance: Notons π = MN
µ = nπ σ2 = nπ(1− π)N − nN − 1
Universite Libre de Bruxelles Annee academique 2009-2010
STAT-D-101Catherine Dehon
Seance 1 : Introduction1
Exercice 1
Utilisez le signe de sommation pour ecrire les expressions suivantes :
1. y1 + y2 + y3 + y4 + y5 ;
2. n1x1 + n2x2 + . . . + nJxJ ;
3. f1(x1 − a)2 + f2(x2 − a)2 + . . . + fJ(xJ − a)2.
Exercice 2
L’etudiant nomme Cresus recoit de ses parents chaque mois 100 Euros comme argent depoche.
1. Calculez l’argent de poche recu sur une annee.Cresus, etant relativement depensier, travaille egalement pour gagner de l’argent. Lasomme d’argent gagnee varie selon les mois :
Mois Jan Fev Mars Avril Mai Juin Juil Aout Sept Oct Nov DecSomme d’argent 100 125 100 150 175 125 150 200 250 100 150 125
2. Calculez le montant total d’argent dont Cresus peut disposer sur une annee.Neanmoins, Cresus a un GSM dont le cout fixe par mois est de 15 Euros.
3. Calculez la somme d’argent disponible pour une annee apres avoir retenu les frais deson GSM.
Exercice 3
Considerons la serie statistique de taille 5 :x1 = 1; x2 = 4; x3 = 5; x4 = 3; x5 = 2. Determinezla valeur des sommes suivantes :
1.∑5
i=1 xi ;
2.∑5
i=1 4xi ;
3. x = 15
∑5i=1 xi ;
4.∑5
i=1(xi − x) ;
5.∑5
i=1 x2i .
1Les enonces sont disponibles sur le site www.ulb.ac.be/soco/statrope
1
Exercice 4
Trouver la valeur minimale de n (n ≥ 1) tel que :(1−
(23
)n)5
≥ 0.95.
Exercice 5
Considerons l’ensemble E de R suivant : 1, 3, 15, 31, 42, 100. On note A = 1, 15, 42,B = 1, 15, 100 et C = 3, 31.
1. Determiner les ensembles A, A ∪B, A ∩B et A \B.
2. Verifier que A ∪B = A∩B, A ∩B = A∪B et A∪B = (A \B)∪ (A∩B)∪ (B \A).
Exercice 6
Calculer les sommes suivantes :
1.∑10
k=1(25)k et
∑10k=0(2
5)k ;
2.∑∞
k=1(15)k et
∑∞k=0(1
5)k.
Exercice 7
Soient p et n deux entiers naturels tel que, 1 ≤ p ≤ n. Montrez que :
1.(
np
)=(
nn− p
).
2.(
np + 1
)+(
np
)=(
n + 1p + 1
).
3.∑n
k=0(−1)k
(nk
)= 0.
4.∑n
k=0
(nk
)= 2n.
Exercice 8
Considerons la serie de variables suivante : nombre d’enfants dans une famille, couleur desyeux, categorie socio-professionnelle, commune de naissance, niveau de scolarite, revenu,poids, sexe, age, langue maternelle, type de voiture, taille, nombre de grains de beaute surla peau, taille de grains de beaute.Specifier pour chacune de ces variables si elle est qualitative, quantitative, continue,discrete, ordinale ou nominale.
2
Universite Libre de Bruxelles Annee academique 2009-2010
STAT-D-101Catherine Dehon
Seances 2, 3 et 4 : Statistique descriptive d’une serieunivariee 1
Exercice 1
Un constructeur d’automobiles a demande a 150 individus de faire part de leur preferenceconcernant la couleur de la voiture. Les resultats qu’il obtient sont les suivants :
Couleurs Blanc Noir Rouge Bleu VertEffectifs 43 30 15 32 30
1. De quel type est la variable ?
2. Donnez le tableau de la distribution observee.
3. Representez graphiquement la distribution de la variable.
4. Quels parametres de cette distribution peuvent etre calcules ?
5. Determinez la valeur de ces parametres.
Exercice 2
Lors d’une etude en psychologie sociale sur la mobilite geographique, on a interroge 50personnes pour savoir si elles passaient leurs vacances a l’etranger. Les effectifs obtenussont les suivants :
Vacances a l’etranger Jamais Parfois Souvent ToujoursEffectifs 5 19 23 3
1. De quel type est la variable ?
2. Donnez le tableau de la distribution observee (effectifs et effectifs cumules).
3. Representez graphiquement la distribution de la variable.
4. Quels parametres de cette distribution peuvent etre calcules ?
5. Determinez la valeur de ces parametres.
1Les enonces sont disponibles sur le site www.ulb.ac.be/soco/statrope
1
Exercice 3
Soit la population des etudiants de premiere bachelor a l’ULB en ingenieur de gestion. Uneetude de la Communaute Francaise (en charge de l’enseignement secondaire) s’interessea l’age de ces etudiants. Pour ce faire, on preleve un echantillon de taille n = 50. Lesresultats sont les suivants :
17 20 19 18 21 18 18 19 19 1818 18 17 18 18 20 20 17 18 1721 18 19 20 18 17 21 19 17 1817 17 19 18 18 17 21 19 17 2018 17 19 21 18 20 18 17 19 17
1. De quel type est la variable ?
2. Donnez le tableau de la distribution observee (effectifs et effectifs cumules).
3. Representez graphiquement la distribution de la variable.
4. Quels parametres de cette distribution peuvent etre calcules ?
5. Determinez la valeur de ces parametres.
Exercice 4
On a mesure, en millisecondes, a quelle vitesse 50 enfants de quatre ans identifiaient desimages simples (ours, lapin, chat . . . ). Les resultats sont les suivants :
24 27 33 21 27 19 23 23 24 1927 30 15 27 24 34 18 20 21 1533 27 20 32 28 27 22 17 30 1821 25 25 29 25 24 32 31 28 2029 24 23 27 17 15 21 28 24 23
1. De quel type est la variable ?
2. Regroupez les 50 valeurs en classes. Prenez des classes de longueur 4 et le debut dela premiere classe en 14,5. Donnez le tableau de la distribution groupee (effectifs eteffectifs cumules).
3. Representez graphiquement la distribution groupee.
4. Quels parametres de cette distribution groupee peuvent etre calcules ?
5. Determinez la valeur de ces parametres.
2
Exercice 5
Considerons une serie statistique x1, . . . , xi, . . . , xn relative a un caractere quantitatifX et le changement d’origine et d’unite suivant :
yi = xi−ad , i = 1, . . . , n.
Soient x et s2x la moyenne et la variance de la serie x1, . . . , xi, . . . , xn et y et s2
y celles dela serie y1, . . . , yi, . . . , yn. Demontrez que :
1. y = x−ad ;
2. s2y = s2
x
d2 .
Exercice 6
Une enquete sur le taux de chomage des jeunes femmes en 2002 dans les directionssubregionales de Namur et Charleroi a ete realisee. La direction subregionale de Namurcomprend 31 communes et celle de Charleroi 26 communes. Le taux de chomage moyendes jeunes femmes a Namur est de x1 = 32% avec un ecart-type de s1 = 10%. Le tauxde chomage moyen des jeunes femmes a Charleroi est de x2 = 34% avec un ecart-type des2 = 5%.
1. Enoncez les formules d’agregation de la moyenne et de la variance en definissantsoigneusement chacune des composantes.
2. Calculez la moyenne globale x et la variance globale s2 du taux de chomage pourl’echantillon obtenu en regroupant les communes de Namur et de Charleroi.
Exercice 7
Romeo quitte son domicile a 20 heures pour se rendre chez Juliette a la vitesse moyennede 200 km/h. Il la quitte a 23 heures et retourne chez lui a la vitesse moyenne de 40 km/h.Supposons que la distance a l’aller egale celle du retour.
1. Quelle est dans ce cas la vitesse moyenne de Romeo sur l’aller-retour ?
2. Comment calculer cette vitesse rapidement ?
Exercice 8
Une personne place une somme d’argent K dans une banque pendant une periode de 3ans. Dans cette banque le taux d’interet varie d’une annee a une autre. Il est de 20% lapremiere annee, 10% la seconde annee et de 6% la troisieme annee.
1. Le taux d’interet moyen pour l’ensemble de ces trois annees est-il de 12% ?
2. Comment calculer ce taux rapidement ?
3
Exercice supplementaire 1
Considerons la serie statistique de taille n : x1; x2; . . . ; xn. Montrez que :
1.∑n
i=1(xi − x) = 0, si x = 1n
∑ni=1 xi ;
2. s2x = 1
n
∑ni=1(xi − x)2 = 1
n
∑ni=1 x2
i − x2.
Exercice supplementaire 2
Soit x1, . . . , xn une serie statistique univariee de moyenne x et de variance s2x. Calculez la
moyenne et la variance de la serie des valeurs centrees et reduites z1, . . . , zn ou zi = xi−xsx
.
Exercice supplementaire 3
On a calcule la moyenne et la variance d’une serie de 10 observations et on a obtenules resultats suivants : x = 5.9 et s2
x = 4.83. On a constate ulterieurement qu’une desobservations initiales avait ete transcrite de facon erronee : la valeur consideree au coursdes calculs etait 8.5 alors que la valeur exacte est en realite 6.5. La moyenne et la variancesont recalculees sur les donnees corrigees. Calculez la moyenne et la variance exactes.
Exercice supplementaire 4 (suite de l’exercice 6)
Dans les 2 echantillons, nous avons centre les donnees par rapport a la moyenne globalex de telle sorte que la moyenne globale sur les donnees centrees soit : xnew = 0.
1. Calculez les nouvelles moyennes et variances des 2 comites subregionaux : x1,new,x2,new, s2
1,new et s22,new.
2. Calculez la variance globale s2new pour l’echantillon obtenu en regroupant les com-
munes de Namur et de Charleroi.
Exercice supplementaire 5
Construisez deux series statistiques univariees constituees de 6 observations chacune,x1, x2, . . . , x6 et y1, y2, . . . , y6, telles que,
1. x1/2 = y1/2 mais x > y, ou x1/2 et y1/2 designent les medianes des deux seriesstatistiques.
2. x1/2 = y1/2 mais EDx > EDy, ou EDx et EDy designent les deux ecarts interdecilesdes deux series statistiques.
3. Ex = Ey mais x > y, ou Ex et Ey designent les deux etendues des deux seriesstatistiques.
4. xM = yM et x > y, ou xM et yM designent les modes des deux series statistiques.
5. x = y et sx > sy.
4
Universite Libre de Bruxelles Annee academique 2008-2009
STAT-D-101Catherine Dehon
Seances 5, 6 et 712 : Introduction a la theorie probabiliste 1
Exercice 1
a) Avec les chiffres 0 et 1, on peut former 8 sequences de longueur 3 : 000, 001, 010, 011, 100,101, 110, 111. Combien de sequences de longueur 10 peut-on former ?
b) Combien de mots de longueur 100 peut-on former avec les lettres K, A, H, J, D, I ?c) Combien de mots de longueur n peut-on former avec un alphabet de m lettres ?
Exercice 2
Trois filles (Annie, Julie et Nathalie) et trois garcons (Damien, Eric et Jonathan) font la file devantun distributeur automatique de billets.
a) Il y a combien d’arrangements possibles ?b) Il y a combien d’arrangements possibles si les trois filles doivent etre ensemble et les trois
garcons doivent etre ensemble ?c) Il y a combien d’arrangements possibles si on exige seulement que les trois filles soient
ensemble ?
Exercice 3
On lance simultanement deux des numerotes de 1 a 6. Determiner l’ensemble fondamental Ω dansles cas suivants :
a) les deux des sont distincts (par exemple un rouge et un bleu).b) les deux des sont identiques.c) les deux des sont identiques et on s’interesse seulement a la parite du resultat.
Exercice 4
Soit L’experience aleatoire consistant au lance de deux des a 6 faces. Nous sommes interesses parles deux evenements suivants :
– A : avoir comme resultat deux fois le meme nombre (la meme face)– B : avoir au moins une fois la face numerotee 5.a) Demontrez a partir des 3 axiomes definissant la probabilite que :
P (A ∪B) = P (A) + P (B)− P (A ∩B).
b) Calculez chacune des 4 probabilites enoncees dans la formule par rapport au cas concretexplicite ci-dessus et montrez que l’egalite enoncee ci-dessus est bien correcte.
c) Les evenements A et B sont-ils dependants ? mutuellement exclusifs ?1Les enonces sont disponibles sur le site www.ulb.ac.be/soco/statrope
1
Exercice 5
Dix couples sont reunis dans une soiree. On admet que, pour danser, chaque homme choisit unefemme au hasard.
a) Quelle est la probabilite pour que chacun des 10 hommes danse avec son epouse ?b) Quelle est la probabilite pour que monsieur Dupond danse avec son epouse ?c) Quelle est la probabilite pour que monsieur Dupond et monsieur Durand dansent avec leur
epouse ?d) Quelle est la probabilite pour que monsieur Dupond ou monsieur Durand dansent avec leur
epouse ?
Exercice 6
On cherche une lettre qui a la probabilite 0.2 de se trouver dans l’un des quatre tiroirs d’unsecretaire. On note A l’evenement “la lettre est dans le quatrieme tiroir” et B l’evenement “lalettre n’est pas dans les trois premiers tiroirs”.
a) Calculez les probabilites P (A ∩B), P (B ∩ A) et P (A ∩ B).b) En deduire les probablites P (A), P (B) et P (A|B).c) Les evenements A et B sont-ils independants ?
Exercice 7
Sept personnes prennent place au rez-de-chaussee dans un ascenseur d’un immeuble de dix etages.Chacune choisit l’etage ou elle sort de l’ascenseur. Quelle est la probabilite que :
a) elles sortent toutes a des etages differents ?b) deux personnes au moins descendent a un meme etage ?c) trois personnes determinees a l’avance descendent a un meme etage et toutes les autres a
des etages differents ?d) trois personnes (n’importe lesquelles) descendent a un meme etage et toutes les autres a des
etages differents ?e) trois personnes (n’importe lesquelles) descendent a un meme etage, deux autres (n’importe
lesquelles) descendent a un autre etage et les deux dernieres encore a un autre etage ?
Exercice 8
Un livre contient cinq fautes d’orthographe. A chaque relecture, on a une probabilite de 1/3 dedetecter et de corriger une faute. On effectue successivement plusieurs relectures independantes.Soit n le nombre de relectures necessaires pour qu’il ne reste aucune faute avec une probabilitesuperieure ou egale a 0.9.
a) Pour chaque faute, quelle est la probabilite pour qu’elle soit corrigee en n relectures ?b) Quelle est la valeur minimale de n ?
Exercice 9
Dans une rue, un panneau publicitaire est remarque par un passant sur quatre. On suppose que,pour un passant, l’evenement ” remarquer le panneau numero i ” est independant de l’evenement” remarquer le panneau numero j ”.
a) Sachant que l’on dispose de deux panneaux dans la meme rue, calculer la probabilite qu’unpassant remarque exactement un seul panneau publicitaire.
2
b) Sachant que l’on dispose de trois panneaux dans la meme rue, calculer la probabilite qu’unpassant remarque au moins un panneau publicitaire.
c) Combien doit-il y avoir de panneaux pour que plus de 95% des passants remarque au moinsune publicite ?
Exercice 10
Dans l’entrepot d’une certaine usine de fabrication de clous, 50% des clous ont ete fabriques parla machine A, 30% par la machine B et 20% par la machine C. Parmi les clous fabriques par lamachine A, 3% sont defectueux. Parmi ceux fabriques par la machine B, 5% sont defectueux etparmi ceux fabriques par la machine C, 8% sont defectueux. On tire un clou au hasard d’un lotconstitue de clous fabriques.
a) Quelle est la probabilite que ce clou ne soit pas defectueux ?b) Sachant que le clou est defectueux, quelle est la probabilite qu’il soit fabrique par la machine
B ?
Exercice supplementaire 1
Une personne rentre chez elle apres une soiree un peu trop arrosee. Elle ne sait plus laquelle des 10cles qui se trouvent dans sa poche ouvre la porte de son domicile. Elle essaie donc les clefs une aune sans utiliser deux fois la meme. Determiner la probabilite pour que la k-ieme cle soit la bonne(1 ≤ k ≤ 10).
Exercice supplementaire 2
On cherche un parapluie qui se trouve dans un immeuble de sept etages. La probabilite qu’il setrouve dans l’un des sept etages est 0.6 et qu’il se trouve au rez-de-chaussee est 0.4. Chacun des septetages est susceptible de cacher le parapluie avec la meme probabilite. On a fouille les six premiersetages et on en a rien trouve. Quelle est la probabilite que le parapluie se trouve au septieme etage ?
Exercice supplementaire 3
Deux etudiants et 14 etudiantes sont assis au hasard sur 16 chaises formant une ligne.
a) Quelle est la probabilite que les deux etudiants soient assis un a cote de l’autre ?
b) Quelle est la probabilite que les deux etudiants occupent les deux extremites de la ligne ?
Exercice supplementaire 4
Deux etudiants et 14 etudiantes sont assis au hasard sur 16 chaises formant un cercle.
a) Quelle est la probabilite que les deux etudiants soient assis un a cote de l’autre ?
b) Quelle est la probabilite que les deux etudiants occupent deux chaisses diametralement op-posees ?
Exercice supplementaire 5
On tire au hasard un nombre de 9 chiffres. Calculez la probabilite p que tous les chiffres soientdifferents.
3
Exercice supplementaire 6
Soient A et B des evenements tels que P (A) = 15 et P (A ∪B) = 1
2 .a) Supposons que A et B soient des evenements mutuellements exclusifs. Calculez P (B).b) Supposons que A et B soient des evenements independants. Calculez P (B).
Exercice supplementaire 7
Une etude a classe les gerants de portefeuilles en deux categories : ceux qui sont bien informes etceux qui ne le sont pas. Lorsqu’un gerant bien informe achete une valeur boursiere pour son client,la probabilite que le cours de celle-ci monte est de 0,8. Dans le cas d’un gerant mal informe, cetteprobabilite ne vaut que 0,5. Si on choisit au hasard un gerant dans un annuaire professionnel, laprobabilite qu’il soit bien informe est de 0,2. Calculez la probabilite qu’un gerant choisi au hasardsoit mal informe, sachant que la valeur qu’il a achetee a monte.
Exercice supplementaire 8
Un etudiant repond a une question a choix multiple. De deux choses l’une : soit il connaıt la reponse,soit il la devine. Soit p la probabilite que l’etudiant connaise la reponse (et donc 1 − p celle qu’illa devine). On admet que l’etudiant qui tente de deviner la reponse, repondra correctement avecune probabilite 1/m, ou m est le nombre de modalite qu’offre la question. Quelle est la probabilitequ’un etudiant connaisse la reponse a la question s’il y a repondu correctement ?
Exercice supplementaire 9
Un etudiant doit suivre 2 cours de math (M1, M2), 3 cours de chimie (C1, C2, C3), et 4 cours dephysique (P1, P2, P3, P4). Il decide de n’assister qu’a 3 cours. S’il choisit au hasard, quelle est laprobabilite qu’il assiste aux deux cours de math ? n’assiste a aucun cours de math ? n’assiste qu’aun cours de math ?
Exercice supplementaire 10
On considere une classe de 42 eleves. On suppose qu’il n’y a pas d’annee bissextile.a) Quelle est la probabilite pour que deux eleves au moins aient la meme date d’anniversaire ?b) Quelle est la probabilte pour qu’au moins un eleve ait la meme date d’anniversaire que
Socrate ?
Exercice supplementaire 11
Dans une classe de 21 etudiants, une personne raconte une histoire a une seconde personne qui laraconte a une troisieme et ainsi de suite. A chaque etape, l’individu, a qui l’on raconte l’histoire,est choisi au hasard. Chacune des etapes est independantes des autres. Notons p1 la probabilite quel’histoire ne revienne pas a son inventeur et p2 la probabilite qu’elle ne soit jamais repetee deuxfois a la meme personne. L’histoire etant racontee 8 fois, calculer p1 et p2.
Exercice supplementaire 12
Dans une population donnee, un individu peut etre atteint d’une affection A avec la probabilitepA = 1/100 et d’une affection B, independante de A, avec une probabilite pB = 1/20. Quelle est laprobabilite pour qu’un individu choisi au hasard soit atteint d’au moins une des deux maladies ?
4
Universite Libre de Bruxelles Annee academique 2008-2009
STAT-D-101Catherine Dehon
Seances 712 et 8 : Statistique descriptive d’une serie
bivariee 1
Exercice 1
Une enquete realisee aupres des familles d’une ville comporte les deux questions suivantes :– Combien avez-vous eu d’enfants jusqu’a ce jour ?– Combien de televisions avez-vous ?
En ne considerant que 257 familles ayant au moins une television et au moins un enfant, onconstruit un tableau de contingence resumant les reponses donnees a ces deux questions.Le tableau de contingence observe est le suivant :
Nombre d’enfants YNombre de television X 1 2 3 4 5 6
1 12 11 15 15 7 102 9 6 8 3 4 63 11 12 11 15 17 104 10 12 11 15 17 10
1. Determinez les distributions marginales.
2. Determinez les moyennes et variances marginales.
3. Determinez le nombre moyen de televiseurs que possede une famille de 4 enfants.Determinez egalement la variance dans ce cas.
4. Calculez la covariance entre X et Y .
5. Calculez le coefficient de correlation entre X et Y .
Exercice 2
L’association nationale des entrepreneurs du batiment evalue les marches immobiliers lesplus abordables et les moins abordables. Les donnees sur le revenu moyen (en milliers dedollars) et le prix de vente moyen (en milliers de dollars) d’un echantillon de 12 marchesimmobiliers choisis parmi la liste des marches les plus abordables, sont presentes ci-dessous(The Wall Street Journal Almanac 1998).
1Les enonces sont disponibles sur le site www.ulb.ac.be/soco/statrope
1
Marche Revenu PrixSyracuse, NY 41.8 76Springfield, IL 47.7 91
Lima, OH 40 65Dayton, OH 44.3 88
Beaumont, TX 37.3 70Lakeland, FL 35.9 73
Baton Rouge, LA 39.3 85Nashau, NH 56.9 118Racine, WI 46.7 81
Des Moines, IA 48.3 89Minneapolis-St. Paul, MN 54.6 110
Wilmington, DE-MD 55.5 110
1. Deduisez de cet enonce la variable explicative et la variable reponse.
2. Representez graphiquement ces donnees.
3. Determinez les moyennes et variances marginales, ainsi que la covariance.
4. Determinez l’equation de la droite de regression correspondante.
5. Est-ce que cette equation est bien adaptee aux donnees ? Expliquez.
6. Calculez les variances residuelle et de regression.
7. Le revenu moyen a Binghamton, dans l’Etat de New York, s’eleve a 40100 dollars.Utilisez l’equation estimee de la regression pour prevoir le prix de vente moyen desmaisons vendues sur le marche de Binghamton.
8. Calculez la valeur predite et le residu correspondants a l’observation Springfield.
9. Que valent la moyenne des residus et la moyenne des valeurs predites ?
Exercice 3
Dans une enquete realisee aupres de 200 personnes en activite, deux variables qualitativesetaient mesurees. La premiere consistait a savoir leur niveau d’etudes et la deuxiemeportait sur le secteur ou ils travaillaient.Le tableau de contingence observe est le suivant :
njk Public Prive Autre
Primaire 10 4 30Secondaire 25 16 15Superieur 35 60 5
1. Determinez les profils-lignes et les profils-colonnes.
2. Calculer les effectifs theoriques esperes sous l’hypothese d’independance.
3. Calculer les ecarts a l’independance. Interpreter ces ecarts.
4. Calculer la mesure d’association D2.
2
Exercice supplementaire 1
Une societe de consultance a releve le revenu annuel X (en milliers d’euros) et l’epargnecorrespondante Y (en milliers d’euros) de 12 familles. Les resultats sont dans le tableausuivant :
Famille 1 2 3 4 5 6 7 8 9 10 11 12Revenu 21 21 19 23 19 20 24 18 19 21 21 22Epargne 2.2 1.8 1.9 1.9 2.3 1.9 2.0 2.4 1.8 1.9 2.1 2.2
1. Determinez les moyennes et les variances marginales.
2. Determinez la moyenne et la variance de l’epargne des familles qui ont un revenusuperieur ou egal a 21 mille euros.
3. Determinez l’equation de la droite de regression de Y en X.
4. Est-ce que cette equation est bien adaptee aux donnees ? Expliquez.
5. Calculez les variances residuelle et de regression.
6. Calculez la valeur predite et le residu correspondant a la famille 8.
Exercice supplementaire 2
Un echantillon de 82 femmes agees de plus de 40 ans et ayant au moins un enfant, a eteclasse selon les deux criteres suivants : le nombre de freres et soeurs (vivants ou decedes)(Y ) et le nombre d’enfants (X). Les resultats obtenus sont presentees dans le tableausuivant :
Nombre de freres et soeurs YNombre d’enfants X 0 1 2 3 4
1 4 4 1 1 02 9 15 5 2 03 4 11 9 2 04 1 5 1 1 25 0 2 1 0 2
1. Determinez les distributions marginales.
2. Determinez les moyennes et variances marginales.
3. Determinez les distribution conditionnelles de Y en X = 3 et de X en Y = 2.Determinez egalement les moyennes et variances conditionnelles.
4. Calculez la covariance entre X et Y .
5. Calculez le coefficient de correlation entre X et Y .
3
Exercice supplementaire 3
Le tableau suivant donne la repartition de 200 etudiants de premiere annee universitaireselon deux caracteres statistiques : l’age X et le principal sport pratique Y .
njk Football Natation Tennis Equitation
18 ans 45 23 15 319 ans 29 18 8 220 ans 18 10 3 221 ans 14 8 2 0
1. De quels types sont les deux variables ?
2. Quels parametres peuvent etre calcules pour chacune de ces deux variables ?
3. Calculer la moyenne et la variance de la distribution marginale en X.
4. Calculer les effectifs theoriques esperes sous l’hypothese d’independance entre X etY .
5. Calculer les ecarts a l’independance.
6. Calculer la mesure d’association D2.
Exercice supplementaire 4
Dans une classe, on a mesure la taille (en pouces) et le poids (en livres) de 10 eleves.L’objectif est d’etudier le poids (Y ) en fonction de la taille (X). Le tableau ci-dessouspresente les resultats obtenus par les 10 eleves
Nom Albert Alice Cindy Carol Henry July Jane Janet Jack JohnTaille 69.0 56.5 65.3 62.8 63.5 57.3 59.8 62.5 62.5 59.0Poids 112.5 84.0 98.0 102.5 102.5 83.0 84.5 112.5 84.0 99.5
1. Calculez le coefficient de correlation entre X et Y .
2. Determinez l’equation de la droite de regression de Y en X.
3. Est-ce que cette equation est bien adaptee aux donnees ? Expliquez.
4. Calculez les variances residuelle et de regression.
5. Sachant que 1 pouce = 2.54 cm et 1 livre = 0.454 kg. A quel poids (en kg) peut-ons’attendre chez un eleve qui mesure 177.8 cm ?
4
Universite Libre de Bruxelles Annee academique 2009-2010
STAT-D-101Catherine Dehon
Seances 9 et 1012 : Analyse d’une serie chronologique 1
Exercice 1
Pendant trois semaines consecutives, on a observe le nombre de visiteurs d’un musee dont lesjours de fermeture sont le samedi et le dimanche.
Lundi Mardi Mercredi Jeudi VendrediPremiere semaine 7 5 35 5 6Deuxieme semaine 8 9 45 8 9Troisieme semaine 10 11 25 9 11
Considerons un modele additif sans composante cyclique : Y = T + S + E.
1. Representez graphiquement Y en fonction du temps. Pourquoi prend-on un modele additif ?
2. Calculez les moyennes mobiles d’ordre 5, notees MM(5). Representez graphiquement cettemoyenne mobile. Pourquoi prend-on un ordre 5 ?
3. Effectuez un ajustement lineaire sur cette serie chronologique Y . Representez graphique-ment cet ajustement.
4. Determinez les composantes saisonnieres par la methode de comparaison a la tendance.
5. Sur base du modele additif et des resultats ci-dessus, donnez la prevision pour le lundi etle mardi de la 4ieme semaine.
Exercice 2
Les 12 observations suivantes representent le nombre de magasins ouverts, par trimestre etpendant trois annees, dans une station de sport d’hiver :
TrimestresAnnees T1 T2 T3 T4
2002 60 30 10 852003 72 36 18 742004 86 29 20 100
1. Calculez les moyennes mobiles centrees d’ordre 4, notees MMC(4).
2. Determinez les composantes saisonnieres par la methode de comparaison a la moyennemobile.
1Les enonces sont disponibles sur le site www.ulb.ac.be/soco/statrope
1
Exercice 3
Les 10 observations suivantes representent la valeur d’une action observee pendant 10 moisconsecutifs :
t 1 2 3 4 5 6 7 8 9 10Y 40 41 40 39 77 70 40 17 25 39
1. Effectuez une prevision par lissage exponentiel simple de la valeur de cette action pour le11ieme mois, avec comme valeur de α = 0.3.
2. Supposons que l’observation pour le 11ieme mois soit 50. Effectuez alors une prevision dela valeur de cette action pour le 12ieme mois en utilisant votre resultat en 1.
Exercice supplementaire 1
Le tableau ci-dessous contient des valeurs experimentales de la pression P (en Pascals) d’uncertain gaz en fonction de son volume V (en m3) :
P 65 50 40 35 50V 50 60 70 80 55
On suspecte entre P et V une relation de la forme ” P.V b = c ”, ou b et c sont des constantes.
1. Estimez la valeur de ces constantes en utilisant les resultats d’un certain ajustement lineaireau sens des moindres carres.
2. En utilisant cet ajustement, estimez la valeur de P pour le cas ou V vaut 100 m3.
Exercice supplementaire 2
La production annuelle d’electricite pour les entreprises publiques d’un pays pendant ces 7dernieres annees est :
t 1998 1999 2000 2001 2002 2003 2004Y 3.5 2.5 4.3 3 1.5 3.2 3
1. Effectuez un ajustement hyperbolique ( prendre une hyperbole equilatere) sur ces donnees.
2. Sur base de cet ajustement, donnez une prevision de la production annuelle d’electricitepour l’annee 2005.
2
Universite Libre de Bruxelles Annee academique 2008-2009
STAT-D-101Catherine Dehon
Seances 1012 , 11 et 12 : Variables aleatoires et lois de
probabilite discretes 1
Exercice 1
Soit X la variable aleatoire dont la loi est definie par le tableau suivant :
k 1 2 3 4 5P (X = k) 0.25 0.1 0.2 p 0.35
1. Determiner la valeur de p.
2. Calculer l’esperance mathematique et la variance de X.
3. Calculer le mode et la mediane de X.
4. Calculer la valeur de la fonction de repartition de X en 2, 2.76 et 7.
Exercice 2
On designe par X la variable aleatoire qui represente le nombre de boules rouges obtenuesapres cinq tirages avec remise dans une urne qui contient deux boules rouges et six boulesblanches.
1. Determiner la loi de probabilite de X.
2. Calculer E(X) et V ar(X).
3. Calculer la probabilite de tirer au moins une boule rouge.
4. Calculer la probabilite que le nombre de boules rouges soit superieur ou egal a 1 etinferieur au egal a 3.
5. Calculer les quantiles d’ordre 0.25, 0.5, 0.75 de X.
6. Determiner la distribution du nombre de boules blanches, parmi les 5 boules tirees.
1Les enonces sont disponibles sur le site www.ulb.ac.be/soco/statrope
1
Exercice 3
Le nombre de micro-ordinateurs vendus chaque jour dans un magasin informatique suitune loi de Poisson de moyenne 8. Calculer la probabilite que dans une journee :
1. on ne vende aucun micro-ordinateur,
2. on vende au moins un micro-ordinateur,
3. le nombre de micro-ordinateurs vendus soit superieur ou egal a 2 et inferieur ou egala 6.
Exercice 4
On lance 8 balles pour atteindre une cible. Les differents lancements sont independants.Si on lance une balle, la probabilite qu’elle atteingne la cible est 0.95. Soit X la variablealeatoire qui compte le nombre de fois que la cible a ete atteinte.
1. Determinez la loi de probabilte de X.
2. Combien de balles seront necessaires pour etre sur que la cible ait ete atteinte aumoins une fois avec une probabilite superieure ou egale a 0.99.
3. Calculez la probabilite que la cible soit atteinte au moins quatre fois.
4. Supposons qu’on lance 100 balles, calculez la probabilite que :
i) la cible soit atteinte exactement 96 fois,
ii) la cible soit atteinte plus que 92 fois.
Exercice 5
Un gardien de nuit doit ouvrir une porte dans le noir, avec 10 clefs dont une seule estla bonne. Soit X la variable aleatoire qui compte le nombre d’essais necessaires jusqu’al’ouverture de la porte. Le gardien etant ivre, il melange toutes les clefs a chaque tentative.
1. Quelles sont les valeurs possibles de X ?
2. Calculez la probabilite de l’evenement [X = k], ou k est une valeur prise par X.
3. De quel type de distribution s’agit-il ?
4. Donnez les valeurs de la moyenne et de la variance de X.
5. Quelle est la probabilite que la porte soit ouverte apres n tentatives ?
6. Le gardien se dit avant de commencer : “ Si j’essaie n fois, j’ai une probabilite d’aumoins 0.95 de reussir a ouvrir la porte”. Quelle est la valeur minimale de n ?
Exercice 6
Dans une urne qui contient 10 boules numerotees de 1 a 10, on extrait 3 boules avecremise. Soient X la variable aleatoire egale au plus grand des 3 numeros tires.
1. Quelles sont les valeurs possibles de X ?
2
2. Calculez la probabilite de l’evenement [X ≤ k], ou k est une valeur prise par X.
3. Deduire la loi de probabilite de X.
4. Calculez P (1 < X ≤ 3).
5. Les deux evenements (X = 1) et (X = 3) sont-ils independants ? (Justifiez votrereponse).
6. Calculez la probabilite que X soit paire.
Exercice 7
Soit X une variable aleatoire discrete qui ne peut prendre que les valeurs 1, 3 et 6 avecdes probabilites 1
4, 1
2et 1
4.
1. Quelle est la fonction generatrice des moments de X ?
2. En utilisant le resultat precedent, calculez l’esperance mathematique et la variancede X.
Exercice supplementaire 1
Dans une entreprise travaillent 6 ouvriers et 5 employes. Le PDG, souhaitant prendre l’avisde son personnel, interroge 7 personnes choisies au hasard parmi ces 11 personnes. SoitX la variable aleatoire : ”nombre d’ouvriers interroges”. Determiner la loi de probabilitede X.
Exercice supplementaire 2
Une variable aleatoire X peut prendre l’une des trois valeurs 0, 1 ou 2 avec des probabilitespositives. Determiner sa loi de probabilite sachant que E(X) = 1 et V ar(X) = 1/2.
Exercice supplementaire 3
Soit X la variable aleatoire discrete qui associe a chaque enfant de 8 ans le nombre debonnes reponses qu’il fournit lors d’un test de discrimination droite-gauche des mains. Xobeit a la distribution de probabilite suivante :
Nombre de bonnes reponses k 0 1 2 3 4 5 6P (X = k) 0.05 0.15 0.20 0.25 0.20 0.10 0.05
1. On choisit au hasard un enfant de 8 ans. Calculez la probabilite des evenementssuivants :i) L’enfant fournit au moins 2 bonnes reponses mais pas plus de 5.ii) Le nombre de bonnes reponses fournies par l’enfant est strictement superieur a
4.
3
2. Calculez le mode et la mediane de X.
3. Calculez la moyenne de X et la valeur de la fonction de repartition de X en 3.4.
4. Supposons que l’on selectionne, par tirages aleatoires a probabilites egales avec re-mise, un echantillon de 25 enfants de 8 ans.i) Quelle est la distribution de probabilite de la variable aleatoire Y correspondant
au nombre d’enfants donnant 4 bonnes reponses dans l’echantillon ?ii) A combien d’enfants donnant 4 bonnes reponses peut-on raisonnablement s’at-
tendre dans l’echantillon ?
Exercice supplementaire 4
Soit X une loi binomiale de moyenne 3 et de variance 2. Calculez P (X = 7).
Exercice supplementaire 5
Un gardien de nuit doit ouvrir une porte dans le noir, avec n clefs dont une seule estla bonne. Soit X la variable aleatoire qui compte le nombre d’essais necessaires jusqu’al’ouverture de la porte. Determinez la loi de probabilite de X si le gardien essaie les clefsune a une sans utiliser deux fois la meme. Calculez l’esperance et la variance de X.
Exercice supplementaire 6
On considere une succession d’epreuves de Bernoulli independantes de meme parametre.A chaque epreuve la probabilite de succes est notee p (p ∈]0, 1[). On note X la longueuraleatoire du “run” demarrant au premier coup, ou l’on appelle “run” une succession soit desucces ou d’echecs interrompue par l’evenement contraire. Par exemple pour une sequencedebutant par SSSE...le premier run est de longueur 3 et est un run de succes. Trouver laloi de X et son esperance.
Exercice supplementaire 7
On considere un point M se deplacant sur un axe d’origine O, en partant de O et parsauts d’une unite vers la droite avec la probabilite 0.2 et vers la gauche avec la probabilite0.8. Les sauts etant supposes independants.
Soit X la variable aleatoire egale a l’abscisse du point a l’issue du 8ieme deplacement etY la variable aleatoire egale au nombre de sauts vers la droite.
1. Determiner la loi de probabilite de Y .
2. Donner les valeurs de la moyenne et de la variance de Y .
3. Calculer les quantiles d’ordre 0.25, 0.5, 0.75 de Y .
4. Exprimer la variable aleatoire egale au nombre de sauts vers la gauche en fonctionde Y .
5. Deduire l’expression de X en fonction de Y .
4
6. Quelles sont les valeurs prises par X ?
7. Determiner la loi de probabilite de X.
Exercice supplementaire 8
Un fumeur dispose d’un nombre infini d’allumettes. La probabilite qu’une allumettes’eteigne est 0.2 . Le fumeur tente d’allumer sa cigarette, chaque essai est independantdes autres. S’il allume sa cigarette, il cesse d’allumer des allumettes. Soit X la variablealeatoire egale au nombre d’allumettes utilisees.
1. Quelles sont les valeurs prises par X ?
2. Calculez la probabilite de l’evenement [X = k], ou k est une valeur prise par X.
3. De quel type de distribution s’agit-il ?
4. Donnez les valeurs de la moyenne et de la variance de X.
5. Quelle est la probabilite qu’il reussisse a allumer sa cigarette avec n allumettes ?
6. Combien d’allumettes seront necessaires pour qu’il reussisse a allumer sa cigaretteavec une probabilte superieure ou egale a 0.95.
7. Pour tout k ≥ 1, montrez que
P (X = n + k|X > n) = P (X = k).
8. Sachant que le nombre d’allumettes utilisees est superieure strictement a 10, quelleest la probabilite qu’il reussisse a allumer sa cigarette avec exactement 18 allu-mettes ?
Exercice supplementaire 9
Les valeurs prises par une variable binomiale X de parametres n et p sont affichees parun compteur de la facon suivante :
– Si X prend une valeur non nulle, le compteur affiche correctement cette valeur.– Si X prend la valeur 0, le compteur affiche n’importe quoi, au hasard, entre 1 et n.
On note Y la variable aleatoire “nombre affiche par le compteur”.
1. Quelle sont les valeurs prises par Y ?
2. Calculer la probabilite P (Y = k|X = 0), pour un k ∈ VY .
5
Universite Libre de Bruxelles Annee academique 2008-2009
STAT-D-101Catherine Dehon
Exercices supplementaires
Exercice 1
Questions a choix multiples : il y a au moins une reponse exacte par question.
(a) Pour une serie d’observations d’une variable quantitative :
1. on peut calculer quatre quartiles ;
2. l’ecart interquartile contient 50% des observations ;
3. le cinquieme decile est egal a la mediane ;
4. 50% des observations sont superieures au premier quartile ;
5. l’ecart interdecile contient 90% des observations.
(b) Si on veut minimiser l’influence des valeurs extremes :
1. on prefere la mediane a la moyenne ;
2. on prefere l’etendue a l’ecart interquartile ;
3. on prefere l’ecart interdecile a l’etendue ;
4. on prefere le coefficient empirique de Yule et Kendall au coefficient de Fisher ;
5. on prefere l’ecart interquartile a l’ecart-type.
(c) Une etude des notes obtenues par deux groupes de premiere bachelor a l’ULB ensciences economiques a un test commun a fourni les resultats suivants :
Groupe Groupe 1 Groupe 2Effectif 20 30
Moyenne 16 13Ecart-type 6 6
Mode 14 11Mediane 14 11
1. la note moyenne des deux groupes reunies est comprise strictement entre 14, 25et 14, 45 ;
2. l’ecart-type des notes des deux groupes reunies est superieur strictement a6, 12 ;
3. la mediane des notes des deux groupes reunies est egale a 12 ;
4. la distribution du premier groupe presente une asymetrie a gauche ;
5. la dispersion dans le deuxieme groupe est plus importante que dans le premier.
1
(d) Soit x1, x2, . . . , xn un echantillon de donnees numeriques, determinez la ou lesaffirmation(s) toujours exacte(s) :
1. 1n
∑ni=1(xi − x) = 0 ;
2. 1n
∑ni=1 |xi − x9/10| ≥ 1
n
∑ni=1 |xi − x1/2| ;
3.∑n
i=1 x2i ≥ 1
n(∑n
i=1 xi)2 ;
4. 1n
∑ni=1 x2
i ≤ s2x ;
5. 1n
∑ni=1(xi − x)2 ≥ 1
n
∑ni=1(xi − x1/2)
2 ;
6. si la distribution presente une asymetrie a droite alors x ≤ x1/2 ≤ xM ; ;
7. EQ ≤ 12(a2 − a1), ou EQ est l’ecart interquartile, a1 et a2 sont les valeurs
pivots ;
8. si tous les xi ∈ (a1, a2) alors xg = x(1) et xd = x(n), ou xg et xd sont les valeursadjacentes.
(e) Pour une distribution observee (xj, nj); j = 1, . . . , J relative a une variable quan-titaive X,
1. pour que la variance soit nulle, il suffit que 1n
∑Jj=1 njx
2j =
(1n
∑Jj=1 njxj
)2
;
2. 1n
∑Jj=1 nj(xj − x) ≤ s2
x ;
3. la variance est : s2x = 1
n
∑Jj=1(njx
2j − x2) ;
4. pout tout j = 1, . . . , J , Nj = n1 + n2 + . . . + nj ;
5. N∗j est le nombre d’observations ≤ xj ;
6. la courbe cumulative a gauche est une fonction en escalier (continue a droite).
(f) Considerons une serie statistique x1, . . . , xn relative a un caractere quantitatif Xet le changement d’origine et d’unite suivant :
yi = (xi − 2)/10, i = 1, . . . , n.
Dans ces conditions, comment se transforment la moyenne, le mode, la mediane,l’ecart-type, etc de la serie statistique y1, . . . , yn. Determinez la ou les affirma-tion(s) totalement exacte(s) :
1. la moyenne et la mediane diminuent de 2 et la variance reste inchangee ;
2. la moyenne et le mode diminuent de 2 et ensuite divises par 10, et la varianceest divisee par 10 ;
3. la moyenne, le mode, le premier decile et le troisieme quartile sont diminues de2 et ensuite divises par 10.
4. l’etendue, l’ecart-type et l’ecart interquartile sont divises par 10 et le coefficientde Fisher reste inchange ;
5. le coefficient de variation, le coefficient empirique de Yule et Kendall et lecoefficient empirique de Pearson restent inchanges.
2
(g) Pour une variable quantitative de distribution symetrique, determinez la ou lesaffirmation(s) toujours exacte(s) :
1. 50% des observations sont superieures a la moyenne ;
2. la moyenne est egale au mode ;
3. x3/4 − x1/4 = 2(x1/2 − x1/4) ;
4. 1n
∑ni=1(xi − x1/2) = 0 ;
5. s2x + x2
1/2 = 1n
∑ni=1 x2
i .
(h) Pour comparer des distributions de variables statistiques exprimees dans des unitesdifferentes (par exemple des distributions de salaires exprimes dans des monnaiesdifferentes), on peut utiliser les caracteristiques suivantes :
1. la mediane ;
2. l’ecart interquartile ;
3. le coefficient de variation ;
4. le rapport interdecilex9/10
x1/10;
5. la moyenne.
(i) Soient deux evenements independants A et B d’un meme espace probabilise telsque : P (A) = 0, 3 et P (B) = 0, 2. Determinez la ou les affirmation(s) correcte(s) :
1. P (A ∪B) = 0, 44 ;
2. P (A ∩B) = 0, 6 ;
3. P (A ∩B) = 0, 06 ;
4. P (A \B) = 0, 24 ;
5. P (A ∪B) = 0, 84 ;
6. A et B sont independants ;
7. P (A|B) = 0, 7 ;
8. A et B ne sont pas independants.
(j) Trois chasseurs visent simultanement un meme lievre et tirent en meme temps.Soient p1, p2 et p3 les probabilites respectives de toucher le lievre pour chaquechasseur (p1 ≤ p2 ≤ p3), alors la probabilite que le lievre soit touche par au moinsun des chasseurs :
1. peut etre inferieure a p1 ;
2. est egale a (p1 + p2 + p3) ;
3. est egale a [1− (1− p1)(1− p2)(1− p3)] ;
4. est comprise entre (p1.p2.p3) et (p1 + p2 + p3) ;
5. est comprise entre [1− (1− p1)3] et [1− (1− p3)
3].
(k) Soient A et B deux evenements d’un espace probabilise tels que P (A) = P (B) = 34.
Determinez la ou les affirmation(s) toujours exacte(s) :
3
1. A et B sont des evenements mutuellement exclusifs ;
2. P (A ∩B) ≤ P (A ∪B) ;
3. 34≤ P (A ∪B) ≤ 1 et 1
2≤ P (A ∩B) ≤ 3
4;
4. 12≤ P (A ∪B) < 3
4et 3
4< P (A ∩B) ≤ 1 ;
5. aucune des affirmations ci-dessus n’est correcte.
(l) Dans une classe, on a mesure la taille (en pouces) et le poids (en livres) de 10eleves. L’objectif est d’etudier le poids en fonction de la taille. Le tableau ci-dessouspresente les resultats obtenus pour 10 eleves (4 decimales dans cet exercice).
Nom Albert Alice Cindy Carol Henry July Jane Janet Jack JohnTaille 69.0 56.5 65.3 62.8 63.5 57.3 59.8 62.5 62.5 59.0Poids 112.5 84.0 98.0 102.5 102.5 83.0 84.5 112.5 84.0 99.5
Sachant que 1 pouce = 2.54 cm et 1 livre = 0.454 kg, determinez la ou les affirma-tion(s) toujours exacte(s) :
1. La pente de la droite de regression de y en x est inferieure strictement a 2.1997 ;
2. La prevision du poids chez un eleve qui mesure 177.8 cm est une valeur inferieurestrictement a 116 livre ;
3. La prevision du poids chez un eleve qui mesure 177.8 cm est une valeur comprisestrictement entre 53 et 55 kg ;
4. Le residu correspondant a l’etudiant Henry est superieure strictement a 1 kg ;
5. L’equation de la droite de regression de y en x est bien adaptee aux donnees.
(m) Le tableau suivant donne la repartition de 200 etudiants de premiere annee uni-versitaire selon deux caracteres statistiques : l’age X et le principal sport pratiqueY .
njk Football Natation Tennis Equitation
18 ans 45 23 15 319 ans 29 18 8 220 ans 18 10 3 221 ans 14 8 2 0
Determinez la ou les affirmation(s) toujours exacte(s) :
1. Le coefficient empirique de Pearson de la variable X est superieur strictementa 0, 961 ;
2. Le coefficient de Fisher de la variable X est compris strictement entre 0.55 et0.75 ;
3. Le coefficient de variation de la variable age est inferieur strictement a 0.08 ;
4. La somme des ecarts a l’independance est nulle ;
5. La mesure d’association est inferieure strictement a 4.456.
4
(n) Un jouet se trouve cache dans l’une des N boıtes fermees ou un enfant le cherche.Celui-ci ouvre une boıte au hasard et recommence jusqu’a ce qu’il trouve le jouet.On suppose qu’a chaque tentative il a oublie le resultat de toutes les precedentes.Soit X le nombre de tentatives effectuees jusqu’a la decouverte du jouet. Determinezla ou les affirmation(s) toujours exacte(s) :
1. V ar(X) = (E(X))2 − E(X) ;
2. Il faut 5 boıtes pour que l’enfant ait environ trois chances sur quatre de trouverle jouet a l’issue de ses trois premieres tentatives ;
3. Aucune des affirmations ci-dessus n’est correcte ;
4. X suit une distribution geometrique de parametre 1/N ;
5. Le jouet est trouve a l’issue de n tentatives avec une probabilite egale a 1 −(1− 1
n)N .
(o) Dans une urne qui contient 10 boules numerotees de 1 a 10, on extrait 3 boulesavec remise. Soient X la variable aleatoire egale au plus grand des 3 numeros tires.Determinez la ou les affirmation(s) toujours exacte(s) :
1. X est une variable aleatoire Binomiale de moyenne 0.3 ;
2. La probabilite que X soit paire est comprise strictement entre 0.567 et 0.578 ;
3. La probabilite que X soit impaire est inferieure a 0.578 ;
4. 0.025 < P (1 < X ≤ 3) < 0.03 ;
5. Les deux evenements (X = 1) et (X = 3) sont dependants.
Exercice 2
Considerons la distribution des salaires (en euros) dans les entreprises du secteur prive enfrance pour les annees 1975 et 2005. L’intervalle de variation des salaires est partage en 5classes. Notons xcj le centre de la classe j et nj l’effectif de la classe j pour (j = 1, . . . , 5).
1975 2005Classe xcj nj Classe xcj nj
1 1130 20 1 1706 202 1400 20 2 2030 203 1850 20 3 2475 204 2590 20 4 3200 205 5150 20 5 5815 20
1. Construisez les courbes de Lorentz pour les annees 1975 et 2005. Comparez laconcentration des salaires entre ces deux annees.
2. Calculez le coefficient de Gini pour les deux annees. Interpretez ces coefficient.
5
Exercice 3
Le tableau ci-dessous presente les prix et les quantites de Coca-Cola et de BigMac acheteespar un consommateur en 2000 et 2005.
BigMac (j = 1) BigMac (j = 2)Prix en $ (a la piece) Quantite (piece) Prix en $ (au litre) Quantite (litre)
p(1)i q
(1)i p
(2)i q
(2)i
2000(i = 0) 2 12 1.5 72005(i = 1) 3 13 2 10
Comment donner une mesure de la variation de prix du panier compose des ces deuxproduits ?
Exercice 4
Une meme somme S a ete confiee a deux banques B1 et B2 pour une duree de 10 ans. Lesrendements successifs des placements effectues par les dux banques ont ete les suivants :
– Bnaque B1 : 12% pendant 2 ans, puis 8% pendant 4 ans, puis 6% pendant 4 ans ;– Bnaque B2 : 10% pendant 3 ans, puis 8% pendant 3 ans, puis 7% pendant 4 ans.
1. Calculez le taux moyen de croissance dans chaque banque.
2. A quel taux la moins performante des deux banques aurait-elle du placer l’argentpendant la troisieme periode pour egaler l’autre ?
Exercice 5
Un jeu de cartes ordinaire comprend 52 cartes. Chacune de ces 52 cartes appartient a unecouleur (le carreau, le coeur, le trefle et le pique) et possede une valeur (2, 3, 4, 5, 6, 7, 8,9, 10, J (valet), Q (dame), K (roi) et A (as)). Pour les questions qui suivent, on considereune main de poker, c’est-a-dire une combinaison de 5 cartes tirees au hasard a partir d’unjeu de 52 cartes. Quelle est la probabilite qu’une main contienne :
1. une paire, c’est-a-dire une main de poker contenant en tout 4 valeurs differentes ?
2. deux paires, (Les deux paires ne peuvent pas avoir la meme valeur et la valeur dela cinquieme cartes doit etre differente des valeurs des deux paires) ?
3. un brelan, c’est-a-dire une main de poker contenant trois cartes de la meme valeur(Les deux autres cartes doivent etre de valeurs differentes entre elles et differentesde la valeur commune aux trois premieres cartes) ?
4. une main pleine, c’est-a-dire une main de poker contenant trois cartes d’une valeuret deux cartes d’une autre valeur ?
5. un carre, c’est-a-dire une main de poker contenant quatre cartes de la meme valeur(et une cinquieme carte quelconque) ?
6