Cours de Statistique

1

STATISTIQUE I

(STAT-D-101)

ECTS: 5 (theorie: 2, exercices: 2, travaux

personnels: 1)

Catherine Dehon

Batiment S - 11eme etage - bureau S11.226

Tel.: (02) 6503858 e-mail: [email protected]

Universite libre de Bruxelles

Annee 2009-2010

1ere annee - Bachelier en sciences economiques

Version 2

2

AVERTISSEMENT

Ce syllabus a ete redige dans le but de faciliter

la prise de notes pendant le cours theorique.

La mise a jour du present syllabus sera faite via

le cours theorique.

Il est bien entendu que l’examen portera sur

l’ensemble de la matiere vue au cours theorique

(des elements pourraient etre ajoutes oralement

au cours) ainsi que la matiere des travaux pra-

tiques.

3

A savoir ....

• Buts du cours:

1. Introduction des concepts statistiques afin de

realiser des analyses descriptives sur des vari-

ables quantitatives et/ou qualitatives.

2. Introduction des elements du calcul de proba-

bilites et des lois de probabilite univariee discrete

pour preparer les problemes d’inference statis-

tique qui seront etudies en 2eme annee.

3. Mise en pratique des connaissances dans des

situations de la vie de tous les jours.

•Methode d’enseignement et support:

Theorie : Cours ex cathedra. Syllabus de theorie

contenant la copie des transparents projetes (et

commentes) au cours disponible sur le site:

http://www.ulb.ac.be/soco/statrope/.

4

• Exercices:

Subdivision des etudiants en groupes de T.P.

Les enonces des exercices sont disponibles sur

le site ci-avant. Quelques examens resolus des

annees precedentes sont egalement telechargeables

sur ce site. En outre, des permanences et

des guidances sont organisees.

•Methode d’evaluation:

Une epreuve ecrite dispensatoire est organisee

durant la session de janvier. L’examen com-

porte une partie theorique et une partie pra-

tique, sans interruption entre les deux. Aucune

note personnelle n’est autorisee. Les etudiants

peuvent (re)presenter une epreuve durant la ses-

sion de mai/juin. Dans ce cas, la note obtenue

remplace celle de l’epreuve de janvier.

Chapitre 1

INTRODUCTION A LA

STATISTIQUE

But: Transformer des donnees en information

La Statistique: ensemble de methodes et ou-

tils mathematiques visant a collecter, decrire

et analyser des donnees afin d’obtenir de l’infor-

mation permettant de prendre des decisions

malgre la presence d’incertitude (erreur, bruit)

5

CHAPITRE 1. INTRODUCTION A LA STATISTIQUE 6

La statistique joue un role essentiel dans de nom-

breuses disciplines:

• en economie: taux de croissance, nombre de

brevets deposes, prix de l’immobilier,...

• en finance: rentabilite d’un investissement,...

• en marketing: etude de marche, ...

• en gestion des ressources humaines: absenteisme,...

• en medecine: mise sur le marche de nouveaux

medicaments, ...

• en sciences sociales, en sciences politiques,

etc

⇓

la statistique est l’outil de confrontation d’une

theorie scientifique a l’observation


1.1 EXEMPLES

1.1.1 RENTABILITE D’UN INVESTISSEMENT

Pour investir intelligemment vos economies, vous

allez voir le conseiller de votre banque qui vous

suggere 2 types d’investissement:

- investir dans le secteur de l’informatique

- investir dans le secteur agro-alimentaire.

Votre but est double:

- maximiser les profits

- minimiser les risques.

Pour prendre la decision, vous realisez une etude

statistique.


1. Collecte des donnees

Selectionner au hasard un echantillon de 100 en-

treprises dans le secteur de l’informatique et 100

dans le secteur de l’agro-alimentaire.

Calculer le taux de rentabilite de l’investissement

pour chaque entreprise (rate of return on in-

vestissment):

ROI = Benefice/Valeur de l’investissement.

Exemples:

- investir 100 euros en 2004 et avoir 106 euros

en 2005 donc benefice de 6 euros:

ROI = 6/100 = 0.06 = 6%

- investir 100 euros en 2004 et avoir 80 euros en

2005 donc perte de 20 euros:

ROI = -20/100 = -20%.


2. Statistique Descriptive:

Tableaux-Graphiques

• Variable etudiee: taux de rentabilite.

• Variable quantitative continue.

• Variable etudiee sur 2 populations:

Info et Agro alimentaire.

• Effectif: n=100 dans chaque secteur.

Informatique ROI(%) Agro-Ali ROI(%)

Entreprise 1 10 Entreprise 1 7

Entreprise 2 -5 Entreprise 2 3

· · · · · · · · · · · ·Entreprise 99 30 Entreprise 99 -2

Entreprise 100 -25 Entreprise 100 10


Graphiques: Histogrammes

-10 -5 0 5 10

02

46

8

ROI

effe

ctif

Secteur de l’informatique

-10 -5 0 5 10

02

46

810

12

ROI

effe

ctif

Secteur de l’agroalimentaire

Comparaison des 2 histogrammes:

• centre de la distribution plus a gauche pour

le secteur informatique donc moins rentable

• dispersion plus grande en informatique donc

plus risque

=⇒ Investir dans l’agro alimentaire.


Statistiques descriptives: Parametres

Calculs de quelques statistiques:

Parametres Informatique Agro-Ali

Minimum -6.92 -0.66

Maximum 10.56 7.21

Mediane 1.79 3.53

Moyenne 1.50 3.40

Ecart-type 2.99 1.96

Asymetrie

. . .


3. Inference statistique (BA2)

• Tester l’egalite des moyennes des taux de renta-

bilite dans les 2 secteurs

• Tester si la moyenne des ROI dans le secteur

de l’informatique est significativement plus

petite que dans le secteur agro alimentaire

(donc moins rentable en moyenne)

• Tester si la dispersion dans les 2 secteurs est

identique, tester si le secteur de l’informatique

est plus risque

• ...


1.1.2 PROBLEME D’ABSENTEISME EN ENTREPRISES

(Chadhury, Ng, “Canadian Journal of Economics”, 1992)

L’absenteisme reduit la production de ± 10%

⇓

Deux economistes ont selectionne 100 firmes et

mesure le nombre moyen de jours d’absence par

employe sur une annee. Cette variable (X1) est

quantitative.

Ils ont egalement mesure plusieurs variables sus-

ceptibles d’influencer le taux d’absenteisme:

X2 = salaire moyen (quantitative continue)

X3 = % d’employes part-time (idem)

X4 = capacite a travailler en equipe (0=non,

1=oui =⇒ variable qualitatitve dichotomique)

X5 = qualite des relations avec le manager

(0=mauvais, 1=bon =⇒ Idem)


1. Statistique Descriptive: Graphiques

0 5 10 15

05

10

15

20

Absenteisme

effect

if

Histogramme du taux d’absenteisme

0 10000 30000 50000

05

10

15

Salaire

effect

if

Hist. du salaire moyen

0 10 20 30 40

05

10

15

Part Time

effect

if

Hist. du pourcentage de Part Time

Manager

Abse

nt

0.0 0.2 0.4 0.6 0.8 1.0

24

68

10

12

14

Graphique 2 dimensions

Salaire

Abse

nt

15000 25000 35000

24

68

10

12

14


Part.Time

Abse

nt

0 5 10 15 20 25 30

24

68

10

12

14



2. Statistiques descriptives univariees

Absent Salaire PT Equipe Manager

Minimum 2.10 12023 0 0 0

Maximum 14.8 42986 30.80 1 1

Mediane 5.65 22586 9.10 1 1

Moyenne 6.23 23587 11.52 0.67 0.64

Ecart-type 3.36 6656.19 8.08 0.47 0.48

Skewness 0.66 0.80 0.58 - -

Kurtosis 2.44 3.38 2.46 - -

Differents types de variables

⇓

Attention aux interpretations !!!!


3. Regression lineaire multiple (Stat2)

Le taux d’absenteisme peut etre explique en par-

tie par les autres variables (en supposant un lien

lineaire). Dependent Variable: ABSENT

Variable Coefficient t-Statistic

SALAIRE -0.000211 -5.319899

PART-TIME -0.093396 -2.862929

EQUIPE 1.491396 2.671433

MANAGER -2.706436 -4.951130

C 13.01733 11.43809

R-squared 0.416499 F-statistic: 16.95260

Le taux d’absenteisme diminue si

- le salaire moyen augmente

- le pourcentage de part time augmente

- non capacite a travailler en equipe

- les relations avec le manager sont bonnes


1.2 MOTS CLEFS

• Population: collection complete (dans le sens

ou elle inclut tous les individus a etudier) d’individus

sur laquelle porte l’etude

• Parametre: mesure numerique decrivant une

caracteristique de la population

•Echantillon: sous-ensemble d’individus obtenus

a partir de la population (methodes de sondage)

• Une statistique: mesure numerique decrivant

une caracteristique de l’echantillon

•Donnee: fait numerique ou non porteur d’infor-

mation


•Variable: Caracteristique dont la valeur change

d’un individu a l’autre dans la population

• Type de variable:

- variable directe: mesurable directement (salaire)

- indicateur: non mesurable directement (sante

des entreprises belges cotees en bourse: BEL20)

- variable qualitative: caracteristiques (modalites)

non numeriques (profession)

- variable dichotomique: variable qualitative

ne prenant que 2 modalites (sexe)

- variable quantitative dicrete: valeurs numeriques

discretes, isolees (nombre d’enfants)

- variable quantitative continue: valeurs numeriques

sur un intervalle continu (salaire)


• Le choix d’une echelle de mesure n’est pas

unique:

- echelle nominale: donnees non numeriques

qui ne peuvent pas etre ordonnees (type de film)

- echelle ordinale: donnees non numeriques pos-

sedant un ordre naturel (avis pedagogiques)

- echelle d’intervalle: donnees numeriques avec

interpretation possible des differences entre in-

dividus mais pas de zero unique (date)

- echelle de rapport: echelle d’intervalle avec la

notion supplementaire de zero naturel (age)

ECHELLE ECHELLE ECHELLE ECHELLE

NOMINALE ORDINALE D’INTERVALLE DE RAPPORT

Denombrement Denombrement Denombrement Denombrement

Comparaison Comparaison Comparaison

Difference Difference

Rapports


1.3 DEMARCHE SCIENTIFIQUE

Objectif(s) a atteindre, Question(s) a poser

⇓Collecte des donnees:releve direct, experimentation,

enquete exhaustive (recensement),

enquete partielle (sondage)

⇓Analyse descriptive:

univariee (Stat 1) et bivariee (Stat 1)

P-variee (Analyse des donnees)

⇓Analyse confirmatoire: Inference statistique

Estimation, Tests d’hypothese (Stat 2)

Regression Lineaire et Series Chrono. (Econometrie)

⇓Previsions, Conclusions, Decisions


=⇒ Deux grandes aires d’etude:

• Statistique descriptive: Etape preliminaire

qui etudie l’echantillon en produisant des graphiques

et des valeurs numeriques (statistiques) resumant

l’information du jeu de donnees

• Inference statistique: facilite le processus de

decision en utilisant des procedure d’estimation,

de problemes de tests, ...qui permettent de tirer

des conclusions sur la populatipon a partir de

l’echantillon

Lien entre Statistique et Probabilite:

Probabilite

Population −→ Echantillon

Inference Statistique

Echantillon −→ Population


1.4 PLAN DU COURS

• Introduction

• Analyse descriptive: serie statistique univariee

• Probabilite

• Analyse descriptive: serie statistique bivariee

• Analyse d’une serie chronologique

•Variables aleatoires et lois de probabilites discretes


1.5 REFERENCES

• Anderson D., Sweeney D., Williams T. (2001),

Statistiques pour l’economie et la gestion,

Bruxelles, De Boeck Universite.

• Dagnelie P. (1998), Statistique theorique et

appliquee. Tome 1: Statistique descrip-

tive et bases de l’inference statistique, Brux-

elles, De Boeck Universite.

• Dehon, C. , Droesbeke, J-J. et Vermandele C.

(2008), Elements de statistique, Bruxelles,

Editions de L’Unviversite de Bruxelles.

• http://www.ulb.ac.be/soco/statrope/ (notes

de cours)

Chapitre 2

STATISTIQUE DESCRIPTIVE

D’UNE SERIE UNIVARIEE

• Etape preliminaire a toute etude statistique.

• Permet de “prendre contact” avec l’echantillon.

• Se divise en 2 aires:

- elaboration de tableaux et graphiques

- valeurs numeriques resumant l’echantillon

(statistiques).

24

CHAPITRE 2. STATISTIQUE DESCRIPTIVE D’UNE SERIE UNIVARIEE 25

2.1 NOTATIONS

Les donnees sont souvent collectees dans un tableau

Individus × Caracteres

Var-Ind 1 2 . . . j . . . p

1 x11 x12 . . . x1j . . . x1p

2 x21 x22 . . . x2j . . . x2p

· · · · · · · · · · · · · · · · · · · · ·i xi1 xi2 . . . xij . . . xip

· · · · · · · · · · · · · · · · · · · · ·n xn1 xn2 . . . xnj . . . xnp

• n: Taille de l’echantillon

• p: nombre de variables

⇓

Matrice de donnees de dimension n× p=⇒ Serie statistique a p-dimension.


Remarques

• Serie univariee si p = 1:

x1, x2, . . . , xn = xi; i = 1, . . . , n

• Serie bivariee si p = 2:

(x1, y1), . . . , (xn, yn) = (xi, yi); i = 1, . . . , n

• Serie ordonnee:

Definition: La serie ordonnee x(1), x(2), . . . , x(n)est telle que : x(i) ≤ x(j) si i ≤ j, ou ≤ definit

la relation d’ordre.

(i) est appele le rang de l’observation x(i).

Exemple:

Serie observee: xi; i = 1, . . . , 6 = 2, 0,−1, 1, 4, 3Serie ordonnee: x(i); i = 1, . . . , 6 = −1, 0, 1, 2, 3, 4

Ainsi: x(1) = x3, x(3) = x4, x(6) = x5.


2.2 TABLEAUX ET GRAPHIQUES

A. Donnees nominales (qualitatives)

Exemple 1: Donnees reprenant tous les achats

par carte de credit aux USA durant les 6 pre-

miers mois de 1998. La variable etudiee est la

nature de la carte utilisee (The Nilson Report,

Oct. 8, 1998).

Sur les 200 milliards achats effectues, on a la

repartition suivante:

• 36 milliards d’achats avec la carte American

express

• 2 milliards d’achats avec la carte Diners Club

• 12 milliards d’achats avec la carte Discover

• 50 milliards d’achats avec la Master card

• 100 milliards d’achats avec la carte VISA


Resume de l’information: Tableau des effectifs

xj nj (unite: milliard)

American express 36

Diners Club 2

Discover 12

Master card 50

Visa 100∑Jj=1 nj = n=200

• x1, x2, x3, x4, x5 representent les 5 modalites

disctinctes observees

• J est le nombre de modalites disctinctes ob-

servees (ici J = 5).

• nj est l’effectif associe a xj pour j = 1, . . . , 5

• La serie univariee est donc resumee par

(xj, nj); j = 1, . . . , J =

(AE, 36), (DC, 2), (D, 12), (MC, 50), (V, 100)


Alternative aux effectifs (nj) : l’utilisation des

frequences:

fj =njn

(j = 1, . . . , J)

Les frequences representent le pourcentage d’ober-

vations egales a xj.

Tableau des frequences

xj nj fj

American express 36 0.18

Diners Club 2 0.01

Discover 12 0.06

Master card 50 0.25

Visa 100 0.50

200 1

Remarque:∑Jj=1 fj = 1.


Representations graphiques

Bar Chart

020

40

60

80

100

ModalitØ

Effect

if(nj)

AE DC D MC VISA

Ordre AlphabØtique

020

40

60

80

100

ModalitØ

Effect

if(nj)

VISA MC AE D DC

Ordre DØcroissant

=⇒Choix arbitraire sur les axes puisqu’il n’existe

pas d’ordre naturel entre les modalites.


Diagramme en secteurs (Pie Chart)

Concept de proportion

18.0%

1.0%6.0%

25.0%

50.0%

xj nj fj(%) Degre

American express 36 0.18 64.8

Diners Club 2 0.01 3.6

Discover 12 0.06 21.6

Master card 50 0.25 90

Visa 100 0.50 180

200 1 360


Tableau disjonctif complet

•Nombre de lignes = nombre d’individus (achats)

• Nombre de colonnes = nombre de modalites

(5 cartes de credit)

•Chaque colonne est une variable binaire prenant

la valeur 1 si l’individu possede cette modalite

et 0 sinon.

Individu 1 2 3 4 . . . 200 ∗ 109

Type de cartes V D AE V . . . DC

0 0 0 0 1

0 0 1 0 0

X= 1 0 0 0 0

0 0 0 0 1

· · · · · · · · · · · · · · ·0 1 0 0 0


B. Donnees ordinales (qualitatives)

Exemple 1: Avis pedagogique: evaluation d’un

cours par les etudiants.

• Tableau des effectifs

avec n = 100 et J = 5:

xj TD D M F TF

nj 1 9 40 35 15

Ordre naturel entre les modalites

⇓

Tableau des frequences cumulees ou:

• Effectif cumule: Nj = n1 + . . . + nj

(nombre d’observations ≤ xj)

• Frequence cumulee: Fj =Njn

(pourcentage d’observations ≤ xj)


• Tableau des effectifs cumules et des

frequences cumulees

xj nj fj Nj Fj

TD 1 0.01 1 0.01

D 9 0.09 10 0.10

M 40 0.40 50 0.50

F 35 0.35 85 0.85

TF 15 0.15 100 1

100 1

• 10% des eleves interroges ont un avis tres

defavorable ou defavorable.

• 85 eleves sur 100 ont un avis egal ou inferieur

a la notation favorable.

• 15% des eleves ont un avis tres favorable.



Diagramme en barres des effectifs et des frequences

(Bar Chart)0

1020

3040

Avis PØdagogiques

Effe

ctif(

nj)

TD D M F TF

Diagramme en barres (effectifs)

0.0

0.1

0.2

0.3

0.4

Avis PØdagogiques

Freq

uenc

e(fj)

TD D M F TF

Diagramme en barres (frØquences)

Diagramme en blocs

0

20

40

60

80

100

120

TD D

M F

TF


Exemple 2: Etude sur le niveau de diplome des

25 managers americians les mieux payes (Forbes,

May 17, 1999).

Top Noms Societe Niveau de diplome

1. Michael d. Eisner Walt Disney Bachelier

2. Mel Karmazin CBS Bachelier

3. Stephen M. Case American Online Bachelier

4. Stephen C. Hilbert Conseco None

5. Craig R. Barrett Intel Doctorat

6. Millard Drexler Gap Master

7. John F. Welsch, Jr. General Electric Doctorat

. . . . . . . . . . . .

10. Reuben Mark Colgate-Palmolive Master

. . . . . . . . . . . .

13. Margaret C. Whitman eBay Master

14. Louis V. Gerstner,Jr. IBM Master

. . . . . . . . . . . .

17. M. Douglas Ivester Coca-Cola Bachelier

. . . . . . . . . . . .

20. William R. Steere, Jr Pfizer Bachelor

21. Nolan D. Archibald Black-Decker Master

. . . . . . . . . . . .

25. Richard Jay Kogan Schering-Plough Master


• Tableau des effectifs: n = 25, J = 4

xj None Bachelier Master Doctorat/Droit

nj 1 7 11 6

Diagramme en barres (Bar Chart)

Effe

ctif(

nj)

01

23

45

6

None Bachelor Master Doctorate

25 Best−Paid Executives


• Tableau des frequences cumulees ou:

Effectif cumule: Nj = n1 + . . . + nj

(nombre d’observations ≤ xj)

Frequence cumulee: Fj =Njn

(pourcentage d’observations ≤ xj)

Highest Degree nj fj Nj Fj

None 1 0.04 1 0.04

Bachelors 7 0.28 8 0.32

Masters 11 0.44 19 0.76

Doctorale/law 6 0.24 25 1

25 1


Remarque: on peut aussi calculer les effectifs

et frequences cumules a droite:

• Effectif cumule a droite: N∗j = nj + nj+1 +

. . .+nJ (nombre d’observation ≥ xj)

• Frequence cumulee a droite: F ∗j =N∗jn

(pourcentage d’observations ≥ xj)

Exercice: realiser le tableau des effectifs et

frequences cumules a droite.

Highest Degree nj fj N∗j F ∗jNone 1 0.04

Bachelors 7 0.28

Masters 11 0.44

Doctorale/law 6 0.24

25 1


C. Donnees quantitatives

Exemple 1 - Variable discrete: Pour etudier

la qualite de la recherche a l’ULB, on utilise

comme indicateur le nombre de publications par

an. L’echantillon est constitue de 25 jeunes pro-

fesseurs.

• Tableau recapitulatif de la serie observee:

xj nj fj Nj Fj N∗j F ∗j0 5 0.20 5 0.20 25 1

1 10 0.40 15 0.60 20 0.80

2 4 0.16 19 0.76 10 0.40

3 3 0.12 22 0.88 6 0.24

4 2 0.08 24 0.96 3 0.12

5 1 0.04 25 1 1 0.04

25 1

Remarque: Nj = Nj−1 + nj



Diagramme en batons

Nombre de publications

Effe

ctif

0 1 2 3 4 5

24

68

10

Etude sur la qualitØ de la recherche


Courbe cumulative: y = N(x)

N(x) etant le nombre d’observations ≤ x.


Nj

0 2 4 6

05

1015

2025


Courbe cumulative a droite : y = N∗(x)

N∗(x) etant le nombre d’observations ≥ x.


Nj

0 2 4 6

05

1015

2025

Etude sur la qualitØ de la recherche

Remarques:

• Si x = xj =⇒ N(x) + N∗(x) = n + nj

• Si x 6= xj =⇒ N(x) + N∗(x) = n

De facon generale: N(x) + N∗(x) ≥ n


Exemple 2 - Variable continue: Le manager

du marketing d’une compagnie telephonique com-

mande une etude sur le profil des nouveaux abonnes.

Pour ce faire il recolte la 1ere note en Euro de

telephone de 120 nouveaux clients.

Serie Statistique:

83 83 18 65 99 96 7 94 62 98 71 20 97 88 38 55

81 51 68 19 36 41 56 49 33 85 75 97 35 36 32 59

88 28 63 60 99 7 31 13 34 33 15 12 62 41 13 27

74 24 67 98 22 13 32 9 54 84 35 62 14 90 91 59

77 38 31 22 92 39 54 90 47 89 81 79 9 88 30 50

41 16 49 44 45 87 23 5065 20 88 83 7 53 73 64

45 78 60 38 75 83 28 11 27 34 15 94 33 76 86 36

42 52 61 52 78 54 53 58


Serie Ordonnee:

7 7 7 9 9 11 12 13 13 13 14 15 15 16 18 19 20 20

22 22 23 24 27 27 28 28 30 31 31 32 32 33 33 33

34 34 35 35 36 36 36 38 38 38 39 41 41 41 42 44

45 45 47 49 49 50 50 51 52 52 53 53 54 54 54 55

56 58 59 59 60 60 61 62 62 62 63 64 65 65 67 68

71 73 74 75 75 76 77 78 78 79 81 81 83 83 83 83

84 85 86 87 88 88 88 88 89 90 90 91 92 94 94 96

97 97 98 98 99 99

• Grands nombres de valeurs distinctes

• Beaucoup de petits effectifs


Diagramme en batons

20 40 60 80 100

01

23

4

note

Eff

ect

if

Diagramme en b tons

MAIS ... Grand nombre de valeurs distinctes

⇓

Resumer l’information


Solution 1: Diagramme en tiges et feuilles

(stem and leaf display).

0|77997 0|77799

1|89352334615 1|12333455689

2|0874223087 2|0022347788

3|8635621432581908436 3|0112233344556668889

4|1917194552 4|1112455799

5|516949400322438 5|001223344456899

6|528302725401 6|001222345578

7|1547938568 7|1345567889

8|338158491878336 8|113333456788889

9|9648779801204 9|0012446778899

Remarque: Autre alternative: Dot Plots


Solution 2: Regrouper les individus par classes

Comment faire les classes ?

• Logique: le minimum est inclus dans la 1ere

classe, le maximum est inclus dans la derniere

classe, meme largeur des classes (pas obligatoire

mais facilite la lecture des graphes).

• Regle empirique de Sturges: choisir le nom-

bre de classes:

J ≈ 1 + log2 n

Notations: Classes: 1,. . . ,J.

−− |−−−−−−− |−−−−−−− |−−lj− xcj lj+

ou nj = nombre d’observations dans la classe j

et hj = longueur de la classe.


Serie regroupee par classe

Regroupement des 120 observations

en 5 classes (j = 1, . . . , 5)

de longueur egale hj = 20 ∀j ∈ 1, . . . , 5.

[lj−, lj+[ xcj nj fj Nj Fj N∗j F ∗j[0, 20[ 10 16 0.13 16 0.13 120 1

[20, 40[ 30 29 0.24 45 0.37 104 0.87

[40, 60[ 50 25 0.21 70 0.58 75 0.63

[60, 80[ 70 22 0.19 92 0.77 50 0.42

[80, 100[ 90 28 0.23 120 1 28 0.23

n=120 1

NB Attention aux arrondis !!!

NB La regle de Sturges proposait 8 classes


Histogramme des effectifs

0 20 40 60 80 100

05

1015

2025

Note de tØlØphone

nj

NB: Parfois, on prends comme ordonneenjhj de

telle sorte que la surface de chaque barre est

egale a nj


Polygone des effectifs

0 20 40 60 80 100

05

1015

2025

30

Note de tØlØphone

nj


Histogramme des effectifs cumules et Courbe

cumulative: y = N(x)

0 20 40 60 80 100

020

4060

8010

012

0

Note de tØlØphone

Nj

Nj : nombre d’observations ≤ l+j

N(x) etant le nombre d’observations ≤ x

(hypothese d’equirepartition)


Courbe cumulative a droite : y = N∗(x)

Exercice: Construisez la courbe cumulative a

droite.

N∗(x) etant le nombre d’observations ≥ x

(hypothese d’equirepartition)


Remarques (exercices)

• Si x 6= xj ∀j:

N(x) + N∗(x) = n

• Fonctions N(x) et N∗(x):

N(x) =

0 x < l−1n1h1

(x− l−1 ) l−1 ≤ x < l+1

. . . . . .

Nj−1 +njhj

(x− l−j ) l−j ≤ x < l+j

. . . . . .

n l+J ≤ x

N∗(x) =

n x < l−1. . . . . .

N∗j −njhj

(x− l−j ) l−j ≤ x < l+j

. . . . . .

0 l+J ≤ x


D. Conclusions

• Inclure toutes les informations utiles a la compre-

hension du graphique

• Eviter les informations, mentions, lignes inu-

tiles

•Un graphique simple sera prefere a un graphique

sophistique

• Choisir les unites et les axes de la maniere la

plus neutre possible (ne pas influencer le lecteur)

• Comparer des graphiques ayant des unites

communes


• Il existe d’autres types de graphiques: Car-

tographie, Pyramide des ages, Graphiques de

comparaison, ...


2.3 TECHNIQUES DESCRIPTIVES NUMERIQUES

Apres les graphiques, il est necessaire de decrire

les differentes caracteristiques des donnees de

maniere plus precise.

Rappel:

• mesure d’une caracteristique de la population

(lettre grecque)

• mesure d’une caracteristique de l’echantillon

(lettre latine).

Bien souvent il est impossible d’etudier l’ensemble

de la population (N grand ou infini)

⇓

Se limiter a l’etude d’un echantillon de taille n


Exemple: Etude sur le salaire des belges

=⇒ N ≈ 4 millions de travailleurs

La moyenne population µ est inconnue.

Pour la connaitre il faudrait interroger tous les

travailleurs belges, mais on n’a pas les moyens

financiers

⇓

Selectionner un echantillon de taille n <<< N .

Calcul sur base de l’echantillon de la moyenne

echantillon x.

⇓

On espere que x est une “bonne ” estimation de

la moyenne population µ.


Trois types de caracteristiques

•Tendance centrale (position): moyenne, mode,

mediane, quantiles, . . .

-2 0 2

x

0 2 4 6

y


• Variabilite, dispersion, risque: ecart-type,

variance, etendue, . . .

-40 -20 0 20

x

-40 -20 0 20

y


• Forme (asymetrie, aplatissement): Skew-

ness, Kurtosis, . . .

1 2 3

x

-2 0 2

y


2.3.1 A. MESURES DE POSITION (tendance centrale)

BUT: Determiner une valeur centrale.

1. Moyenne arithmetique x

Soit x1, . . . , xn un echantillon de donnees numeriques,

alors

x =1

n

n∑i=1

xi

Exemples:

• Soit l’echantillon 1, 1, 2, 2, 2, 2, 3, 3

⇓

x =1

8(1 + 1 + 2 + 2 + 2 + 2 + 3 + 3) = 2.


•Reprenons l’exemple de la societe telephonique

recoltant la 1ere note en Euro de telephone de

120 nouveaux clients.

Serie Statistique:

83 83 18 65 99 96 7 94 62 98 71 20 97 88 38 55

81 51 68 19 36 41 56 49 33 85 75 97 35 36 32 59

88 28 63 60 99 7 31 13 34 33 15 12 62 41 13 27

74 24 67 98 22 13 32 9 54 84 35 62 14 90 91 59

77 38 31 22 92 39 54 90 47 89 81 79 9 88 30 50

41 16 49 44 45 87 23 5065 20 88 83 7 53 73 64

45 78 60 38 75 83 28 11 27 34 15 94 33 76 86 36

42 52 61 52 78 54 53 58

⇓

x =1

120(83+83+18+65+. . .+53+58) = 53.12


Calcul reprenant la somme de 120 chiffres (long)

⇓

Meme base de donnees mais regroupees en classes:

[lj−, lj+[ xcj nj fj Nj Fj N∗j F ∗j[0, 20[ 10 16 0.13 16 0.13 120 1

[20, 40[ 30 29 0.24 45 0.37 104 0.87

[40, 60[ 50 25 0.21 70 0.58 75 0.63

[60, 80[ 70 22 0.19 92 0.77 50 0.42

[80, 100[ 90 28 0.23 120 1 28 0.23

n=120 1

x =1

n

J∑j=1

njxcj

=10× 16 + 30× 29 + . . . + 90× 28

120= 52.83


Proprietes

• Sensible face aux points aberrants.

Echantillon 1, 1, 2, 2, 2, 2, 3, 3 → x = 2.

Echantillon 1, 1, 2, 2, 2, 2, 3, 300 → x = 39.125.

• Valeurs centrees:

Echantillon 1, 1, 2, 2, 2, 2, 3, 3 =⇒ x = 2.

Alors l’echantillon des valeurs centrees:

xi − x = −1,−1, 0, 0, 0, 0, 1, 1

est de moyenne nulle:

1

n

n∑i=1

(xi − x) = 0

(exercice).

• Reecriture de la formule de la moyenne:n∑i=1

xi = nx


• Agregation de 2 echantillons.

Echantillon 1: n1, x1, Echantillon 2:n2, x2

⇓

la moyenne de l’echantillon global comprenant

n = n1 + n2 individus est donne par:

x =n1x1 + n2x2

n

Remarque: Posons w1 = n1n et w2 = n2

n , ainsi

la moyenne globale n’est rien d’autre qu’une

moyenne ponderee:

x = w1x1 + w2x2

Cas particulier: Ajout d’une observation x a

l’echantillon n1, x1 → n2 = 1 et n = n1 + 1

⇓

x =n1x1 + x

n


• Moyenne ponderee.

- La moyenne est par unite elementaire.

- La moyenne ponderee est par unite de poids.

Remarque: Soit C est le nombre d’elements a

ponderer, alors

C∑i=1

wi = 1

Par exemple:

- La moyenne des points de vos cours est votre

“moyenne par cours”.

- Votre grade final est une moyenne ponderee,

utilisant comme poids le credit d’heures (1 credit

pour 12 h de cours theorique, 2 credits pour 24

h, etc). La moyenne ponderee est donc votre

“moyenne par credit d’heures”


Exemple: Rentabilite d’un portefeuille

La rentabilite attendue d’un portefeuille est donnee

par la moyenne ponderee des rentabilites atten-

dues des investissements de celui-ci, pondere par

le montant investi en $.

Le portefeuille est compose de 3 actions:

-la 1ere ($1, 000) est supposee rapporter 20%

-la 2eme ($1, 800 investis) 15%

-la 3eme ($2, 200 investis) 30%.

⇓

Total investi:

1, 000 + 1, 800 + 2, 200 = $5, 000


Les poids sont donc:

w1 = $1, 000/$5, 000 = 0.20

w2 = $1, 800/$5, 000 = 0.36

w3 = $2, 200/$5, 000 = 0.44

Moyenne ponderee:

3∑i=1

wixi = 0.20× 20% + 0.36× 15% + 0.44× 30%

= 22.6%

La rentabilite attendue du portefeuille est donc

de 22.6%.

Chacun des investissement est represente par le

montant en $ investi.

NB: Si tous les poids sont egaux, on revient a la

moyenne arithmetique (exercice).


2. Mediane x1/2

• Calcul de la mediane:

a) Mettre les observations en ordre croissant:

x(1), . . . , x(n)

b) Prendre l’observation centrale (ou la moyenne

des 2 observations centrales si n est pair).

⇓

Si n est impair: x1/2 = x(n+1

2 )

Si n est pair: x1/2 =x(n2 )+x(n2 +1)

2

• Exemples:

Echantillon: 2, 5, 9, 11, 13 =⇒ x1/2 = 9

Echantilon: 2, 5, 9, 11, 13, 20=⇒ x1/2 = 9+112


• Pas influencee par des valeurs extremes.

• Pour des distributions dissymetriques, la mediane

offre une meilleure representation que la moyenne.

Par exemple: les revenus des menages:

- Le revenu moyen pour un pays somme tous

les revenus dont certains peuvent etre extremement

eleves

- Le revenu median represente le revenu de la

personne au centre (la moitie ayant plus, l’autre

moitie ayant moins).

• Echantillon donne avec des classes:

- Determiner la classe mediane: (l−m, l+m)

- Valeur de la mediane:

x1/2 = l−m + hm

n2 −Nm−1

nm


3. Quantiles xp ou p ∈ (0, 1)

• Construire la serie ordonnee. Soit p ∈ (0, 1)

(appele ordre du quantile), on cherche xp tel que

N(xp) ≥ np et N∗(xp) ≥ n(1− p)

p 1-p

-l————-l—————l

x(1) xp x(n)

• Quantiles particuliers:

-Mediane x1/2: quantile 50%

-Premier quartile x1/4: quantile 25%

-Troisieme quartile x3/4: quantile 75%

-Deciles: p = 0.10, 0.20, . . . , 0.90


• Graphique base sur les quantiles: Box Plot

(boıte a moustache)

Exercice (ELST, P114): Resultats de 10 etudiants

pour 7 cours.

C1 C2 C3 C4 C5 C6 C7

04 42 19 33 21 14 18

12 44 23 47 24 75 19

23 46 25 59 27 76 21

35 47 27 67 29 77 23

46 49 31 69 77 78 24

52 51 43 73 79 79 25

67 54 48 75 83 80 27

75 56 51 77 85 81 29

83 57 63 83 86 83 30

92 58 73 85 87 84 93


4. Mode xM

• Definition: Valeur la plus frequente.

• Problemes:

- depend de la maniere dont vous construisez

l’histogramme (bin width)

- il est possible d’avoir plusieurs modes

• Utiliser pour les donnees qualitatives.


5. Autres valeurs centrales

c1 =x(1) + x(n)

2

c2 =x1/4 + 2x1/2 + x3/4

4

c3 =x1/4 + x3/4

2Moyenne tronquee:

c4 =1

n− 2

n−1∑i=2

x(i)

Moyenne geometrique:

c5 =√

Πixi

· · ·


6. Cas particulier : Distribution gaussienne

•Distribution normale (introduite en 2eme annee).

x

-2 -1 0 1 2

Moyenne, Médiane et Mode

Distribution gaussienne

Caracteristique: distribution symetrique avec

un unique mode

↓

La moyenne est egale a la mediane et au mode


• Distribution asymetrique.

x

5 10 15Moyenne

Médiane

Mode

Distribution asymétrique

La moyenne, la mediane et le mode sont differents:

• les grandes observations rares influencent beau-

coup la moyenne

• la valeur la plus frequente est decentree.

A priori, il vaut mieux utiliser la mediane (ex-

emple: revenus des menages).


7. Resume en fonction du type de la variable

Quantitative Ordinale Nominale

Moyenne OUI NON NON

Mediane OUI OUI NON

Quantiles OUI OUI NON

Mode OUI OUI OUI


2.3.2 MESURE DE DISPERSION

Aussi connue sous le nom de variabilite, diver-

site, risque, . . .

Questions:

• Sur le marche, les valeurs boursieres changent

jours apres jours =⇒ incertitude !

• Risk of a business venture

Les gains sont possibles mais egalement les pertes.

• Aversion au risque:

Preferez-vous avoir

- 100$ avec certitude

- 0 ou 200$ avec probabilite egale

Les 2 ont la meme moyenne (100$)! Preferez

vous reduire l’incertain ou aimez vous le risque?


1. Etendue

E = x(n) − x(1)

• Facile et rapide a calculer

• Tres sensible aux points aberrants

2. Ecart interquartile

Il contient 50% des observations:

EQ = x3/4 − x1/4

3. Ecart interdecile

Il contient 80% des observations:

ED = x9/10 − x1/10


4. Le peigne

x1/2 Dispersion Position

Q x1/4 x3/4 x3/4 − x1/4x3/4+x1/4

2

E x(1) x(n) x(n) − x(1)x(1)+x(n)

2

5. Le Box Plot

• Definition de base:

• Definition des valeurs pivots:

a1 = x1/4 − 1.5(x3/4 − x1/4)

a2 = x3/4 + 1.5(x3/4 − x1/4)


• Definition des valeurs adjacentes:

xg: plus petite observation ≥ a1

xd: plus grande observation ≤ a2

=⇒ Deuxieme definition du box plot:

NB: si tous les xi ∈ (a1, a2):

xg = x(1) et xd = x(n).

• Definition des valeurs exterieures:

Observations en dehors de l’intervalle [xg, xd]

⇒ Presomption de valeurs extremes (aberrantes).

Exercice (ELST, P114-116): Resultats de 10

etudiants pour 7 cours.


6. Ecart moyen absolu

em =1

n

n∑i=1

|xi − x|

Remarque: Changeons le parametre de posi-

tion. Alors,

em(c) =1

n

n∑i=1

|xi − c|

est minimum quand c = x1/2.

7. Ecart median absolu

e∗m =1

n

n∑i=1

|xi − x1/2|


8. Variance

Version francaise:

s2 =1

n

n∑i=1

(xi − x)2

Version anglaise (on l’utilisera en 2eme annee)

S2 =1

n− 1

n∑i=1

(xi − x)2

• Agregation: Soient 2 echantillons:

n1 n2

x1 s21 x2 s2

2

Notons n = n1 + n2, x et s2 la moyenne et la

variance de l’echantillon regroupant les 2 echantillons.

Exercice:

s2 =n1s

21 + n2s

22

n1 + n2+n1(x1 − x)2 + n2(x2 − x)2

n1 + n2

(variance dans les groupes) +(variance entre les groupes)


• Theoreme de Konig-Huyghens:1

n

∑i

(xi − c)2 = s2 + (x− c)2 c ∈ IR

Demonstration1

n

∑i

(xi − c)2 =1

n

∑i

(xi − x + x− c)2

=1

n

∑i

(xi − x)2 + 2(xi − x)(x− c) + (x− c)2

=

1

n

∑i

(xi − x)2 + (x− c)2

+ 2(x− c)

1

n

∑i

(xi − x)

= s2 + (x− c)2

Consequence: 1n

∑i(xi−c)2 est minimum quand

c = x

Exercice: Appliquez ce theoreme avec c = 0.


9. Ecart-type

s =√s2

• Interpretations:

- 2 echantillons: l’echantillon avec l’ecart-type

le plus grand est le plus disperse des deux

- 1 echantillon: Regle de Chebyshev:

au moins (1 − 1k2) des observations se trouvent

dans l’intervalle (x± ks)Pour k = 2:

au moins 75% des observations ∈ a l’intervalle (x± 2s)

Pour k = 3:

au moins 89% des observations ∈ a l’intervalle (x± 3s)


Pour les distributions en “forme de cloche ” et

relativement symetrique, on a des intervalles re-

marquables plus precis:

x

-2 -1 0 1 2

Moyenne, Médiane et Mode

Distribution gaussienne

23 des observations ∈ a l’intervalle (x± s)

95% des observations ∈ a l’intervalle (x± 2s)

99% des observations ∈ a l’intervalle (x± 3s)

=⇒ Pour faciliter les interpretations: construc-

tion des valeurs centrees reduites (z-score):

z =x− xs


9. Coefficient de variation

CV =s

x• Mesure relative de variabilite. Nombre sans

unite (pure number).

• Answers:

“Typically, in percentage terms, how far are

data values from average?”

•Utile pour comparer des situations pour lesquelles

les unites differents


2.3.3 MESURES DE FORMES

GRAPHIQUES

1. Box Plot


2. Graphique des quantiles


ASYMETRIE - SKEWNESS

• Moment centre d’ordre 3

m3 =1

n

n∑i=1

(xi − x)3

m3 > 0: asymetrie a gauche

m3 < 0: asymetrie a droite

m3 = 0: symetrie

• Coefficient de Fisher: g1 = m3s3

• Coefficient empirique de Yule et Kendall:

Yk =x1/4 − 2x1/2 + x3/4

x3/4 − x1/4

• Coefficient empirique de Pearson:

Sk =x− xM

s


APLATISSEMENT - KURTOSIS

• Coefficient de Pearson

b2 =m4

s4

ou m4 est le moment centre d’ordre 4

m4 =1

n

n∑i=1

(xi − x)4

• Coefficient de Fisher: g2 = b2 − 3

-2 -1 0 1 2

b2=3, g2=0b2>3, g2>0b2<3, g2<0


2.3.4 INDICE DE CONCENTRATION DE GINI ET COURBE

DE LORENTZ

Exemple: Mesurer le degre d’inegalite dans la

distribution des revenus des familles belges.

Formalisation: Soit une distribution, d’une

variable continue positive, regroupee en J classes.

Notons xjc le centre de la classe j et nj l’effectif

de la classe j pour (j = 1, . . . , J).

Courbe de concentration de Lorentz:

pj = Fj et qj =

∑jk=1 nkxck∑Jk=1 nkxck


Indice de concentration de Gini:

γ = 2A

ouA est l’aire comprise entre la courbe de Lorentz

et la 1ere bissectrice.

Proprietes

• 0 ≤ γ ≤ 1

• γ ≈ 0: equirepartion

• γ ≈ 1: concentration.

Exemple: Site de la CIA reprenant “Distribu-

tion of family income - Gini index“

http://www.odci.gov/cia/publications/factbook/fields/2172.html

Belgium 28, 7%

Paraguay 57, 7%

Sweden 25%


2.4 TRANSFORMATION DE VARIABLES ET IN-

DICES

BUTS:

• Facilite l’encodage, la lecture des donnees

• “Lineariser” une relation entre 2 variables

• Se rapprocher d’une distribution symetrique

• Remedier a d’eventuelles inegalites de vari-

ances lorsque l’on etudie plusieurs echantillons

• . . .


2.4.1 TRANSFORMATION LINEAIRE

But: Changer l’origine et l’unite pour facilite

la lecture des donnees sans changer le forme

(asymetrie, aplatissement,. . .).

Definition: Soit xi, 1, . . . , n un echantillon de

taille n. Appelons zi, 1, . . . , n la serie translatee

de la constante c et reduite par la constante d:

zi =xi − cd

i = 1, . . . , n

Influence sur les mesures de position:

Toutes ces mesures vont subir la meme trans-

formation que les donnees. Par exemple:

z =x− cd

Exercices: Preuve pour z, z1/2, zM , . . ..


Influence sur les mesures de dispersion:

• Changement d’origine (translation)

- pas d’influence sur E,EQ, ED, s2, s

- influence sur CV = sx

• Changement d’unite

- influence sur E,EQ, ED, s2, s

- pas d’influence sur CV = sx

Exemple:

s2z =

1

n

n∑i=1

(zi − z)2 =1

n

n∑i=1

(xi − cd− x− c

d)2

=1

n

n∑i=1

(xid− x

d)2 =

1

d2n

n∑i=1

(xi − x)2

=1

d2s2x

Influence sur les mesures de formes: Pas

d’influence sur g1, SK, YK, b2, g2, . . ..


Exemple

Soit un echantillon reprenant le salaire brut de

10 travailleurs en FB. La variable z aura comme

unite l’Euro et comme moyenne 0.

i xi zi

1 98000FB 114,03

2 96000FB

3 104000FB

4 66000FB

5 120000FB

6 75000FB

7 88000FB

8 84000FB

9 93000FB

10 110000FB 411,50

70000 80000 90000 100000 110000

x

-500 0 500

z


2.4.2 TRANSFORMATION LOGARITHMIQUE

Objectifs: Simplifier l’analyse en rendant les

phenomenes plus symetriques, plus lineaires, de

variabilite plus constante,. . .

Exemple: Relation entre deux variables

x

y

0.0 0.5 1.0 1.5 2.0 2.5 3.0

1.5

2.0

2.5

3.0

3.5

log(x)

log(y)

-3 -2 -1 0 1

0.4

0.6

0.8

1.0

1.2

NB: Les relations du type: y = axb devien-

nent apres transformation logarithmique (log− log):

log y = log a + b log x


Exemple: Comparaison de plusieurs echantillons.

Comparons le nombres d’iules (mille-pattes) soumises

a 4 substances nocives (“Statistique Theorique

et Aplliquee, Tome 2”, Pierre Dagnelie, page

97).


2.4.3 TRANSFORMATIONS DE BOX-COX

Definition: Soit xi, 1, . . . , n un echantillon de

taille n. Appelons zi, 1, . . . , n la serie trans-

formee par une relation de Box-Cox de parametre

λ:

zi =

(xλi−1)λ si λ 6= 0

loge xi si λ = 0

Ces transformations ont les memes objectifs que

la transformation logarithmique.

Remarque

• La transformation logarithmique est un cas

particulier (λ = 0)

• Si λ = 1/2 alors zi =√xi − 1

• Ce groupe de transformation englobe aussi

les transformations racine carree inverse 1√x

,

inverse 1x, . . .


2.4.4 TRANSFORMATION ´´DIFFERENCE”

But: Utilise en serie chronologique pour eliminer

un trend (tendance) constant.

Definition: Soit xt(1, . . . , T ) une serie chrono-

logique. La serie differencie est donnee par:

∇xt = xt − xt−1

Exemple ELST, p. 29: Population en millions

Annees 1910 1920 1930 1940 1950 1960 1970 1980

xt 1.1 1.3 2.2 4.0 6.6 8.3 9.3 9.6

∇xt - 0.2 0.9 1.8 2.6 1.7 1.0 0.3


2.4.5 LES INDICES

But: Mesurer l’evolution d’une variable (ou de

plusieurs variables) dans le temps.

INDICE ELEMENTAIRE

Definition. Soit 0 l’epoque de base (reference).

L’indice de la variable x pour le temps t est:

it/0(x) =xtx0.

L’indice mesure le pourcentage d’augmentation

ou diminution de la variable par rapport a l’epoque

de reference.

Remarque:

La variable etudiee peut etre le prix (p), la

quantite (q) ou la valeur (v=pq) d’un bien.


Exemple: Etudions l’evolution du prix d’un

bien de consommation de janvier 1989 a janvier

1996. Annee de base: 1989 (ELST, p. 69).

Annees 1989 1990 1991 1992 1993 1994 1995 1996

xt 25 25 27 28 32 33 34 35

it/0(x) 1.00 1.00 1.08 1.12 1.28 1.32 1.36 1.40

Commentaires: 8% d’augmentation en 1991 par

rapport a 1989. Forte augmentation entre 1992

et 1993, . . ..


INDICE SYNTHETIQUE SIMPLE

But: Etude de l’evolution dans le temps d’un

panier de consommation.

Soit x = (x(1), x(2), . . . , x(n)) le vecteur don-

nant le prix (ou quantite, . . .) des n produits du


• Indice de Bradstreet:

Bt/0(x) =

∑j x

(j)t∑

j x(j)0

• Indice Moyenne arithmetique:

At/0(x) =1

n

∑j

x(j)t

x(j)0

•Autres indices: moyenne harmonqiue, moyenne

geometrique, . . .


INDICE SYNTHETIQUE PONDERE

But: Etude de l’evolution dans le temps d’un

panier de consommation en mettant des poids

associes a chacun des produits.

Soit x = (x(1), x(2), . . . , x(n)) le vecteur don-

nant le prix (ou quantite, . . .) des n produits du


• Indice de Laspeyres:

Lt/0(x) =

∑j w

(j)0 x

(j)t∑

j w(j)0 x

(j)0

ou w(j)0 peut donner representer le prix ou la

quantite du produit j au temps de reference.


• Indice de Paasche:

Pt/0(x) =

∑j w

(j)t x

(j)t∑

j w(j)t x

(j)0

ou w(j)t peut donner representer le prix ou la

quantite du produit j au temps t.

• Indice de Sidgwick:

St/0(x) =Lt/0(x) + Pt/0(x)

2

• Indice de Fisher:

Ft/0(x) =√Lt/0(x)× Pt/0(x)

• Indice de Edgeworth:

Et/0(x) =

∑j(w

(j)0 + w

(j)t )x

(j)t∑

j(w(j)0 + w

(j)t )x

(j)0

Chapitre 3

INTRODUCTION A LA THEORIE

PROBABILISTE

“Le hasard est le pseudonyme de Dieu quand

il ne voulait pas signer”

Anatole France

“Un coup de des jamais n’abolira le hasard”

Mallarme

“Rien ne depasse la beaute du mystere”

Einstein

109

CHAPITRE 3. INTRODUCTION A LA THEORIE PROBABILISTE 110

1. Quelles sont les chances que les ventes dans

les friteries baissent si le prix des pommes de

terre augmente?

2. Quelle est la probabilite que Justine devienne

numero 1 a l’ATP?

3. Quelles sont les chances qu’un nouvel investisse-

ment soit rentable?

4. Quelle est la probabilite de reussir l’examen

de statistique en 1ere session?

5. Quelle est la probabilite de gagner au Lotto?

6. . . .

La probabilite peut:

• exprimer une propriete intrinseque

d’une experience

• mesurer la vraisemblance d’un eve-

nement.


3.1 UN PEU D’HISTOIRE

“ . . . un probleme relatif aux jeux de hasard,

propose par un austere janseniste par un homme

du monde, a ete a l’origine du Calcul des pro-

babilites . . .”

Il s’agit du probleme des partis, propose par le

Chevalier de Mere a Blaise Pascal et resolu

par celui-ci, ainsi que par Pierre de Fermat en

1654:

“2 joueurs, rompant de gre a gre le jeu avant

la fin, cherchent a operer entre eux la juste

repartition de l’enjeu suivant la probabilite

qu’avait chacun d’eux de gagner.”


3.2 LOGIQUE ET INTUITION . . .

Exemple 1: Theorie des sept garcons

Quelle est la probabilite d’avoir 7 garcons?

P (7G) =

(1

2

)7

=1

128

Peu, mais pourquoi n’y a-t-il pas plus de familles

de 7 garcons??

Reponse: parce que ceci est la probabilite d’avoir

7 garcons si on a 7 enfants, or il y a peu de

familles de 7 enfants.


Exemple 2: Articles de presse.

“ Il y a eu plus de tues dans des accidents d’avion

en 1993 qu’en 1920 ”

Peut-on en deduire que les avions sont devenus

plus dangereux?

“ Pendant la 1ere guerre mondiale, le nombre

de blesses a la tete etait nettement plus grand

parmi ceux qui portaient un casque ”

Peut-on en deduire que le port du casque est

dangereux ?

“ En 2002, il y a eut 20.343 chomeurs ayant

un diplome universitaire et 8.657 chomeurs de

l’enseignement non universitaire type long ” (voir

ECOPOL)


Exemple 3: 1er Probleme du chevalier

de Mere.

”Supposez qu’on joue plusieurs fois avec un de,

combien faudra-t-il de lances au minimum pour

que l’on puisse parier avec avantage, apres avoir

joue ces coups, d’avoir au moins un 6 ? ”

Reponse: 4 lances en effet, (voir exercice)

P (avoir au moins un 6) = 671/1296 > 0.5

Scema du developpement:

P (avoir au moins un 6) = 1−P (ne jamais avoir de 6)

et nous savons que:

P (ne pas avoir de 6 sur un lance) = 5/6

P (ne pas avoir de 6 sur n lance) = (5/6)n


Exemple 4: Paradoxe du jour

d’anniversaire.

Si vous rencontrez quelqu’un par hasard au bistrot

du coin, il y a environ 1 chance sur 365 que vous

soyez ne le meme jour.

Maintenant supposez que vous etes 10 dans une

meme piece, quelle est la probabilite que deux

personnes aient la meme date d’anniversaire ?????

(reponse: 11,69% de chance)

Et avec 23 personnes dans la piece?

(reponse: 50,7% de chance)


Exemple 5: Temoignage

Etre un bon jure.

Accident avec delit de fuite MAIS il y a un

temoin oculaire.

Faits:

• le temoin affirme avoir vu un taxi jaune

• il y a 2 types de taxi: jaune et orange

• difficulte: le soir tombait et un test pratique

dans des conditions similaires a montre que

le temoin ne pouvait distinguer correctement

la couleur que dans 80% des cas

Conclusion a priori: L’hypothese la plus

probable est celle du taxi jaune.


Information manquante: Proportion de taxis

jaunes et de taxis oranges?

Reponse: 85% d’oranges et 15% de jaunes.

Conclusion correcte: (Theoreme de Bayes)

La probabilite que le taxi soit jaune sachant que

le temoin affirme qu’il etait jaune est de 41.38%.

⇓

Donc il y a plus de chance que le taxi soit orange.


Exemple 6: Le jeu de la Cadillac

Jeu televise: 3 portes et derriere l’une d’elle

il y a une cadillac.

Etape1: Le candidat choisit au hasard une

porte: 1 chance sur 3 de gagner la cadillac.

Etape2: Le presentateur ouvre une des 2 portes

restantes mais bien evidemment pas la porte a

la cadillac.

Question: Le candidat a-t-il interet de changer

de porte ou de garder son choix initial ?

Reponse:

Choix initial: 1 chance sur 3 de gagner

S’il change de porte: 2 chance sur 3 de gagner!!


3.3 PROBABILITE, EXPERIENCE ALEATOIRE, EVEN-

EMENT

3.3.1 DEFINITIONS

• Probabilite: sera definie par une approche

classique, frequentiste et axiomatique.

• Experience aleatoire: action ou processus qui

engendre des observations et dont on ne peut

predire avec certitude le resultat.

• Ensemble (espace) fondamental Ω: ensemble

de tous les resultats possibles.

• Evenement: sous-ensemble ou partie de Ω.

• Famille F des evenements: ensemble de tous

les evenements associes a une experience aleatoire.


3.3.2 EXEMPLES

Lancement d’un de

L’ensemble fondamental Ω:

1 2 3

4 5 6

Exemples d’evenements et Diagramme de Venn:

• Avoir le nombre “1” : A=1

• Avoir un nombre divisible par 3: B=3,6

• Avoir un nombre pair: C=2,4,6

• Avoir un nombre impair: D=1,3,5

• Avoir un nombre plus petit que 7: E=1,2,3,4,5,6.


3.3.3 CAS PARTICULIERS D’EVENEMENTS

• Evevement elementaire: ne contient qu’un

seul element de Ω:

Exemple: Avoir le nombre “1”: A = 1

• Evenement impossible: ne contient aucun eve-

nement:

Exemple: Avoir un nombre plus grand que 6:

F = = ∅

• Evenement certain: contient tous les elements

de Ω:

Exemple: Avoir un nombre plus petit que 7:

E = 1, 2, 3, 4, 5, 6 = Ω


3.3.4 OPERATIONS SUR LES EVENEMENTS

Soient E1, E2, . . . des evenements de F .

• Implication (= inclusion): E1 ⊂ E2 signifie:

E1 se realise ⇒ E2 se realise.

• Conjonction (= intersection = produit logique)

E1 ∩E2: E1 et E2 se realisent tous les deux

Evenements mutuellement exclusifs (incom-

patibles): E1 ∩ E2 = ∅


• Reunion (= somme logique)

E1 ∪ E2: E1 ou E2 se realisent (au moins

un des deux)

• Difference

E1\E2: E1 se realise sans que E2 se realise


• Complementaire: Soit E un evenement, le

complementaire de E est note E:

E = Ω\E

Remarques

1. E ∩ E = ∅⇒ E et E sont mutuellement exclusifs

2. E ∪ E = Ω

3. E et E constituent une partition de Ω.


• Partition de E

E1, E2, . . . , Em tel que:

1. E1, E2, . . . , Em ⊂ E

2. Ei ∩ Ej = ∅ (i 6= j)

3. E = E1 ∪ E2 ∪ . . . ∪ Em

• Systeme complet d’evenements:

Partition de Ω


• Fonction d’ensemble: Fonction qui associe a

chaque evenement de Ω un nombre reel.

Exemples: Soit E ∈ F

1. n(E) = nombre d’elements de E

2. f (E) =n(E)n(Ω)

Proprietes:

1. f (E) ≥ 0, pour tout E ⊂ Ω

2. f (Ω) = 1

3. SiE1, E2, . . . sont mutuellement exclusifs

(Ei ⊂ Ω):

f (E1 ∪ E2 ∪ . . .) = f (E1) + f (E2) + . . .


3.3.5 FAMILLE F D’EVENEMENTS

Rappel: F est l’ensemble de tous les evenements

associes a une experience aleatoire.

• Si Ω est fini alors a tout sous-ensemble cor-

respond un evenement =⇒ la famille F des

evenements est confondue avec l’ensemble des

parties de Ω.

• Si Ω est infini

⇓

on se restreint a une classe F de parties, stricte-

ment contenue dans l’ensemble des parties de

Ω, qui contient les evenements elementaires, les

evenements impossibles et certain, ainsi que tous

ceux qui sont obtenus par les operations ci-avant.


3.3.6 TROIS DEFINITIONS DE LA PROBABILITE

• Definition classique

Experience: -N resultats possibles “equivalents”

(symetrie des resultats)

- NS resultats donnent le succes S.

=⇒ Probabilite de succes:

P (S) =NSN.

Exemple: Lancement d’un de equilibre. Succes

si nombre pair. Probabilite de succes:

P (pair) =3

6= 0.5

Remarque: Cette definition n’est valable que si

tout les evenements elementaires sont equiprobables

(contre exemple: avion).


• Definition frequentiste

(approche experimentale)

Experience repetee n fois de maniere independante

et identique (ex: lance d’un de).

On s’interesse a l’evenement E (ex: avoir 3).

Notons n(E) le nombre de realisations de E

⇓

Frequence: fn(E) =n(E)n .

On definit alors la frequence theorique (proba-

bilite) par:

P (E) = limn→∞

fn(E).


• Definition axiomatique

Cas ou Ω est fini

P (.) est une fonction d’ensemble a valeurs reelles,

definie sur F = P(Ω), satisfaisant aux axiomes

suivants:

A.1: P (E) ≥ 0, pour tout E ∈ F

A.2: P (Ω) = 1

A.3: Si E1, E2, E3, . . . sont mutuellement

exclusifs (Ei ∩ Ej = ∅, ∀i 6= j):

P (E1 ∪E2 ∪E3 ∪ . . .) = P (E1) + P (E2) + P (E3) + . . .

N.B. Les definitions classique et frequentiste sat-

isfont a ces axiomes


Cas ou Ω est infini

Ici, l’ensemble des evenements ne sera plusP(Ω)

mais une famille F de sous-ensembles possedant

les proprietes suivantes:

1. Ω ∈ F

2. si E ∈ F , alors E ∈ F

3. Pour tout ensemble fini ou denombrable d’evene-

ments E1, E2, E3, . . . de F , (∪Ei) ∈ F

Une telle famille est appelee une σ-algebre (ou

corps de Borel ou encore tribu).

Remarques:

1. Les proprietes ci-dessus impliquent que

∅ ∈ F et ∩Ei ∈ F

2. (Ω,F) est appele un espace probabiliste

3. (Ω,F , P ) est appele un espace probabilise


3.3.7 QUELQUES PROPRIETES SIMPLES

• Propriete 1

Si un evenement E est partitionne en deux eve-

nements E1 et E2:

P (E) = P (E1) + P (E2).

• Propriete 2

Extension a plus de 2 evenements.

• Propriete 3

Si E1 ⊂ E2:

P (E1) ≤ P (E2).


• Propriete 4

Pour tout evenement E, P (E) ≤ 1.

• Propriete 5

Si E est le complementaire de E:

P (E) = 1− P (E)

.

• Propriete 6

Le complementaire de Ω est ∅

⇒ P (∅) = 0.


3.3.8 LOI D’ADDITION

Cas de deux evenements

Soient A et B ∈ F :

P (A ∪B) = P (A) + P (B)− P (A ∩B).

Demonstration:

A ∪B = (A\B) ∪ (A ∩B) ∪ (B\A)

P (A ∪B) = P (A\B) + P (A ∩B) + P (B\A)

⇒ P (A ∪B) = P (A)− P (A ∩B)

+P (A ∩B) + P (B)

−P (A ∩B)

= P (A) + P (B)− P (A ∩B).


Exemple:

B = 3, 6, C = 2, 4, 6

P (B ∪ C) = P (B) + P (C)− P (B ∩ C)

=2

6+

3

6− 1

6=

4

6

Si A et B sont mutuellement exclusifs:

A ∩B = ∅

⇒ P (A ∪B) = P (A) + P (B) (Axiome 3)

Exercice theorique: Cas de 3 evenements ou

plus


3.3.9 REGLE DE MULTIPLICATION

• Probabilite conditionnelle

Presentation a partir de l’exemple 4.1 (ELST,

p.149)

1. Prenons C (=nbre pair) comme condition,

donc on suppose que C se realise:

⇒ P (B|C) =1

3=

1/6

3/6=P (B ∩ C)

P (C)


2. Prenons B = 3, 6 comme condition:

P (C|B) =1

2=

1/6

2/6=P (B ∩ C)

P (B)

Definition des probabilites conditionnelles

Soient A et B deux evenements de F(P (A) 6= 0; P (B) 6= 0):

P (A|B) =P (A ∩B)

P (B)

P (B|A) =P (A ∩B)

P (A)


• Regle de multiplication

Cas de deux evenements

Soient A et B deux evenements de probabilite

non nulle:

P (A ∩B) = P (A).P (B|A)

P (A ∩B) = P (B).P (A|B)

Exemple: Choix de 2 cartes sans remise dans

un jeu de 52 cartes

Evenements: R1=choix d’un roi pour la

premiere carte

R2=choix d’un roi pour la

seconde carte

P (R1 ∩R2) = P (R1).P (R2|R1)

=4

52.

3

51=

1

221


Cas de trois evenements

• Soient A, B, C ∈ F :

P (A∩B∩C) = P (A).P (B|A).P (C|A∩B)

• Ordre de prise en compte de A, B et C

• Exemple: Choix de trois cartes sans remise

dans un jeu de 52 cartes:

P (R1 ∩R2 ∩R3)

= P (R1).P (R2|R1).P (R3|R1 ∩R2)

=4

52.

3

51.

2

50=

1

5525

Extension a plus de trois evenements


3.3.10 INDEPENDANCE STOCHASTIQUE

Cas de 2 evenements

1. Definition

Deux evenements A et B de probabilite non

nulle sont (stochastiquement) independants

si et seulement si:

P (A ∩B) = P (A).P (B)

2. Si deux evenements sont independants alors:

P (A|B) = P (A) et P (B|A) = P (B)

3. Exemple 4.6 (ELST, p.166)

F1: premiere piece =face

F2: deuxieme piece =face

P (F1 ∩ F2) = P (F1).P (F2) =1

2

1

2=

1

4


Cas de trois evenements

1. Definition

A, B et C sont independants ssi:

P (A ∩B) = P (A).P (B)

P (A ∩ C) = P (A).P (C)

P (B ∩ C) = P (B).P (C)

P (A ∩B ∩ C) = P (A).P (B).P (C)

⇒ Regle de multiplication dans le cas d’eve-

nements independants

2. Exemple

Lancement de 3 pieces de monnaie:

P (F1 ∩ F2 ∩ F3) = P (F1).P (F2).P (F3)

=1

2.1

2.1

2=

1

8

Cas de plus de trois evenements

Exercice theorique


3.3.11 THEOREME DES PROBABILITES TOTALES ET DE

BAYES

•Definition d’un systeme complet d’evene-

ments ou systeme exhaustif

Soit la partition E1, . . . , Em de Ω telle que

P (Ei) ≥ 0 (i = 1 . . . ,m).

• Theoreme des probabilites totales

Soit E1, . . . , Em un systeme exhaustif defini

sur Ω et un evenement quelconque de A ∈ F :

P (A) =

m∑i=1

P (Ei)P (A|Ei).


• Theoreme de Bayes

Soit E1, . . . , Em un systeme exhaustif defini

sur Ω et un evenement quelconque deA ∈ F , de

probabilite non nulle. Supposons connaıtre les

probabilites a priori P (Ei) et les probabilites

conditionnelles P (A|Ei) (pour i = 1, . . . ,m).

On peut alors calculer les probabilites a poste-

riori par la relation:

P (Ei|A) =P (Ei)P (A|Ei)∑mj=1P (Ej)P (A|Ej)

.


3.3.12 QUELQUES APPLICATIONS DES PROPRIETES FON-

DAMENTALES

• La formule du binome

Schema de Bernoulli

Dans une experience aleatoire ξ, nous nous interes-

sons a l’avenement ou non de l’evenement E:

P (E) = p et P (E) = q = 1− p.

L’experience ξ est repetee n fois de facon indepen-

dante et sous des conditions identiques (p cons-

tant).

⇓

P (E se realise n fois) = pp . . . p = pn

P (E ne se realise jamais) = qq . . . q = qn

P (E se realise au moins 1 fois) = 1− qn

P (E se realise r fois dans ordre precis) = prqn−r


Par la formule du binome, on peut aussi cal-

culer des probabilites plus difficiles:

P (E se presente r fois dans ordre quelconque)

=

(n

r

)prqn−r

ou

(n

r

)= n!r!(n−r)! = Crn

Il existe en effet

(n

r

)suites mutuellement ex-

clusives et de meme probabilite contenant r elements

E et (n− r) elements E.

Remarque:n∑r=0

(n

r

)prqn−r = (q + p)n = 1.

Exemple: 10 lances d’une piece equilibree:

P (3 fois face) =

(10

3

)(1

2)3(

1

2)7 =

120

1024= 0.117


• Prelevements avec ou sans remise

Soit un sac de billes avec N1 billes jaunes (J)

et N2 billes de couleurs differentes (J). Notons

N = N1 + N2.

1. Prelevement de n billes avec remise (AR)

P (r fois Jaune) =

(n

r

)prqn−r

ou

p =N1

Net q =

N2

N

(formule du binome)


2. Prelevement de n billes sans remise (SR)

Formule hypergeometrique:

P (r fois Jaune) =

(N1

r

)(N2

n− r

)(N

n

)si r ≤ N1 et n− r ≤ N2.

3. Remarque(N1

r

)(N2

n− r

)(N

n

) −→

(n

r

)prqn−r

pour N1, N2→∞ et N1N = p.

Chapitre 4

STATISTIQUE DESCRIPTIVE

D’UNE SERIE BIVARIEE

• Donnees : Serie statistique bivariee:

(xi, yi); i = 1, 2, . . . , n

collectees dans un tableau Individus×Caracteres

Var-Ind 1 2

1 x1 y1

2 x2 y2

· · · · · · · · ·i xi yi

· · · · · · · · ·n xn yn

• But : Mettre en evidence les relations existant

entre 2 series d’observations148

CHAPITRE 4. STATISTIQUE DESCRIPTIVE D’UNE SERIE BIVARIEE 149

Exemple Mode de payement

La societe X gere une chaıne de supermarche,

et elle s’interesse aux modes de payement.

Le tableau suivant reprend pour 100 clients le

montant en euros depense sur 1 mois en liq-

uide et par carte bancaire (Source : donnees

simulees).

Payement liquide 115 45 99 154 201 27 62 32 44 . . .

Payement par carte 227 459 151 376 321 555 698 159 323 . . .

Payement liquide . . . 95 93 83 103 103 100 95 95 94

Payement par carte . . . 298 59 73 80 13 253 175 175 164

Questions:

•Quel est le mode de payement favori des clients?

• Les clients qui depensent plus que la moyenne

en liquide depensent-ils egalement plus que la

moyenne par carte ?

• etc


Exemple Bourse: Donnees contenant les in-

formations financieres de 25 entreprises.

Entreprises Place boursiere Prix de l’action (en dollars)

Award Software OTC 11.500

Chesapeake Energy NYSE 7.880

Craig Corporation NYSE 17.000

Edisto Resources AMEX 9.688

Franklin Elect. Pbls. NYSE 12.880

Gentia Softaware OTC 5.750

Giant Group NYSE 6.563

Hot Topic OTC 15.750

Hudson General AMEX 39.750

ICU Medical OTC 8.500

Jackpot Enterprises NYSE 10.875

Kentek Information OTC 9.500

Larscom, Inc OTC 10.313

Lumisys, Inc OTC 7.375

Maynard Oil OTC 10.750

Mechanical Dynamics OTC 6.688

Metrika Systems AMEX 15.250

National Home Health OTC 5.130

National Tech Team OTC 10.875

OrCad OTC 11.375

OroAmerica OTC 5.125

Overland Data OTC 7.000

PIA Merchandising OTC 7.500

Plenum Publishing OTC 44.000

Premier Research OTC 8.250

Source : Stock Investor Pro, Association americaine

des investisseurs individuels , 31 aout 1997.


Place boursiere : Endroit ou les titres des en-

treprises sont echanges:

• NYSE (bourse de New York)

• AMEX (Bourse americaine)

• OTC (marche parallele)

⇓

Variable nominale.


Exemple Seconde session: Echantillon com-

pose de 20 bacheliers en economiques. L’etude

porte sur le nombre de 2emes sessions presentees

dans le secondaire (x) et a l’universite (y).

i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

X 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 2 2 2 2 3

Y 0 0 1 1 1 2 2 2 2 3 3 3 3 4 4 0 1 3 4 5

Commentaires:

• Beaucoup d’etudiants s’engageant dans les

etudes en economie n’ont jamais eu de 2eme ses-

sion dans le secondaire.

• Ne pas avoir eu de 2eme session dans le sec-

ondaire n’est pas une garantie de reussite en 1ere

session a l’universite

• Les etudiants sans 2eme session dans le sec-

ondaire ont-ils plus de chances de reussite en

1ere session que les autres ?


Nous envisagerons 4 situations en fonc-

tion de la nature des variables

x/y Quantitatif Ordinal Nominal

Quantitatif I IV IV

Ordinal IV II III

Nominal IV III III

Etude dans 2 directions:

• Elaboration de tableaux et graphiques

• Reduction des donnees.


4.1 RELATIONS ENTRE 2 VARIABLES QUANTI-

TATIVES

4.1.1 VISUALISATION DES DONNEES (Scatter Plot)

Exemple Mode de payement

Dépenses mensuelles en liquide

50 100 150 200

Mode de payement

Conclusion : Lien positif entre les deux vari-

ables donc une personne depensiere en liquide

le sera egalement par carte. (Logique ? Autres

variables a prendre en compte ? Nombre de

personnes dans le menage, . . .)


4.1.2 DISTRIBUTION MARGINALE, DISTRIBUTION CON-

DITIONNELLE

1. Tableau de contingence (TC)

Soit (xi, yi); i = 1, 2, . . . , n la serie statis-

tique bivariee =⇒ construction d’un tableau de

contingence:

x|y y1 y2 . . . yk . . . yK

x1 n11 n12 . . . n1k . . . n1K

x2 n21 n22 . . . n2k . . . n2K

· · · · · · · · · · · · · · · · · · · · ·xj nj1 nj2 . . . njk . . . niK

· · · · · · · · · · · · · · · · · · · · ·xJ nJ1 nJ2 . . . nJk . . . nJK

ou njk : effectif associe au couple (xj, yk).

=⇒ Reecriture de la serie statistique bivariee:

(xj, yk, njk), j = 1, . . . J, k = 1, . . . K.


Exemple sur les secondes sessions

njk y = 0 y = 1 y = 2 y = 3 y = 4 y = 5∑

x = 0 2 3 4 2 0 0 11

x = 1 0 0 0 2 2 0 4

x = 2 1 1 0 1 1 0 4

x = 3 0 0 0 0 0 1 1∑3 4 4 5 3 1 20

Commentaires :

• Deux etudiants de l’echantillon n’ont jamais

eu de 2eme session

• Un etudiant a eu trois 2emes sessions en

secondaire et cinq 2emes sessions a l’universite

• L’effectif maximal est 4 pour des etudiants

n’ayant jamais eu de 2eme session en secondaire

mais deux 2emes sessions a l’universite

• . . .


Si le nombre de lignes et de colonnes d’un

TC sont trop grands =⇒ faire des classes

Exemple: Mode de payement

njk [0, 175[ [175, 350[ [350, 525[∑

[0, 100[ 26 24 1 51

[100, 200[ 16 25 7 48

[200, 300[ 0 1 0 1∑42 50 8 100

xcj et yck: valeurs centrales des classes

∆x et ∆y: longueurs de classes.

Commentaires:

• 26 clients sur 100 ont achete en liquide entre 0 et 100

euros et par carte entre 0 et 175 euros.

• Plus de la moitie de l’echantillon (51 sur 100) ont

achete pour moins de 100 euros en liquide

• 8% ont achete entre 350 et 525 euros par carte.

NB : Parfois on a des distributions de type mixte

ou une des deux series est regroupee en classes.


2. Distributions marginales

Etude d’une seule serie observee (abstraction de

l’autre serie) =⇒ etude de series univariees.

a) Serie marginale en x :xi; i = 1, 2, . . . , nou encore (xj, nj.); j = 1, . . . , J ou

nj. =

K∑k=1

njk

sont les effectifs marginaux.

Frequence marginale en x :

fj. =nj.n

ou j = 1, . . . , J =⇒

x =1

n

n∑i=1

xi =1

n

J∑j=1

nj.xj

s2x =

1

n

n∑i=1

(xi − x)2 =1

n

J∑j=1

nj.(xj − x)2


b) Serie marginale en y :yi; i = 1, 2, . . . , nou encore (yk, n.k); k = 1, . . . , K ou

n.k =

J∑j=1

njk

sont les effectifs marginaux.

Frequence marginale en y :

f.k =n.kn

ou k = 1, . . . , K =⇒

y =1

n

n∑i=1

yi =1

n

K∑k=1

n.kyk

s2y =

1

n

n∑i=1

(yi − y)2 =1

n

K∑k=1

n.k(yk − y)2

Exercice:J∑j=1

nj. =

K∑k=1

n.k =

J∑j=1

K∑k=1

njk = n



njk y = 0 y = 1 y = 2 y = 3 y = 4 y = 5 nj.

x = 0 2 3 4 2 0 0 11

x = 1 0 0 0 2 2 0 4

x = 2 1 1 0 1 1 0 4

x = 3 0 0 0 0 0 1 1

n.k 3 4 4 5 3 1 20

(xj, nj.), j = 1, . . . , J = (0, 11), (1, 4), (2, 4), (3, 1)

(yk, n.k), k = 1, . . . , K = (0, 3), (1, 4), (2, 4), (3, 5), (4, 3), (5, 1)

Diagramme en batons des effectifs marginaux

en x.

0.0 0.5 1.0 1.5 2.0 2.5 3.0xj

4 4

1

11


3. Distributions conditionnelles

Etude d’une serie observee en fixant la valeur

de l’autre serie observee.

Questions :

• Parmi les etudiants n’ayant jamais eu de

2eme session dans le secondaire, quel est le pour-

centage d’etudiants reussissant sans 2eme ses-

sion a l’universite ?

• Quelle est la moyenne du prix d’une action

pour les titres echanges sur la bourse de New

York ?

• Sachant que les depenses en liquides par

mois sont inferieures a 100 euros pour certains

individus de l’echantillon, quelle sera la moyenne

des depenses de ces individus par carte ?

• . . .


Distribution conditionnelle de y en x :

Fixons x = xj : (yk, njk), k = 1, . . . , K=⇒ etude sur un echantillon de taille nj.

Frequence conditionnelle (profil-lignes) :

fyk|xj = fk|j =njknj.

j fixe ; k = 1, . . . , K

On peut calculer les moyennes, variances,. . . con-

ditionnelles :

y|xj =1

nj.

K∑k=1

njkyk

s2y|xj

=1

nj.

K∑k=1

njk(yk − y|xj)2


Distribution conditionnelle de x en y:

Fixons y = yk : (xj, njk), j = 1, . . . , J=⇒ etude sur un echantillon de taille n.k

Frequence conditionnelle (profil-colonnes) :

fxj|yk = fj|j =njkn.k

k fixe ; j = 1, . . . , J

On peut calculer les moyennes, variances,. . . con-

ditionnelles :

x|yk =1

n.k

J∑j=1

njkxj

s2x|yk

=1

n.k

J∑j=1

njk(xj − x|yk)2



Nombre moyen de secondes sessions a l’universite

sachant le nombre de secondes sessions dans le

secondaire :

xj y|xj0 1.5455

1 3.5

2 2

3 5

Exemple : Bourse

Moyenne des prix d’une action pour les titres

echanges sur la bourse de New York :

yx=NY SE =7.88 + 17.000 + 12.888 + 6.563 + 10.865

5= 11.0396

yx=AMEX =9.688 + 39.750 + 15.250

3= 21.5627

Exercice: yx=OTC = . . .


4.1.3 MOMENTS, COVARIANCE ET CORRELATION

1. Les moments

Generalisation a 2 dimensions de la notion de

moment :

a) Moments centres

mrs =1

n

n∑i=1

(xi − x)r(yi − y)s r, s ∈ IN

Cas particuliers :

m20 =1

n

n∑i=1

(xi − x)2 = s2x

m02 =1

n

n∑i=1

(yi − y)2 = s2y

m11 =1

n

n∑i=1

(xi − x)(yi − y) = sxy

ou sxy est appele covariance


b) Moments par rapport a l’origine

m′rs =1

n

n∑i=1

xriysi

Cas particuliers

m′10 = x m′01 = y

c)Proprietes de mrs

Soient x0, y0 ∈ IR et dx, dy ∈ IR+

Posons : ui = xi−x0dx

, vi = yi−y0dy

(i = 1, . . . , n)

et

mrs =1

n

n∑i=1

(ui − u)r(vi − v)s

⇓

mrs =mrs

drxdsy

(exercice)

Cas particulier :

suv =sxydxdy


2. Covariance

Moment centre d’ordre (1,1):

m11 = sxy = cov(x, y) =1

n

n∑i=1

((xi − x)(yi − y))

La covariance sera positive (negative) s’il existe

une relation croissante (decroissante) entre les 2

variables.

Exemple: Mode de payement

Dépenses mensuelles en liquide

50 100 150 200

Modes de payement

-

+


Proprietes

• Influencee par les changements d’unites mais

pas d’origine. Soient

ui =xi − x0

dxet vi =

yi − y0

dy(i = 1, . . . , n)

=⇒ cov(u, v) =cov(x, y)

dxdy(exercice)

• |cov(x, y)| ≤ sxsy (exercice)

Aide: developper l’expression suivante:

1

n

n∑i=1

(b(xi − x)− (yi − y))2

• Expression liant m11 et m′11 (exercice):

m11 = sxy =1

n

n∑i=1

((xi − x)(yi − y))

=1

n

n∑i=1

xiyi − xy = m′11 −m′01m′10

Mettre en parallele avec : s2x = 1

n

∑ni=1 x

2i− x

2.


3. Coefficient de correlation

(Bravais-Pearson)

Definition:

r =sxysxsy

ou sx 6= 0, sy 6= 0


Commentaires:

r = 1 quand tous les points observes se trou-

vent sur une meme droite de pente positive

r ≈ 1 quand tous les points observes sont

situes a proximite d’une telle droite

r = 0 quand le nuage de points est allonge

parallelement a l’un des axes de coordonnees ,

ou forme arrondie

r = −1 quand tous les points observes se trou-

vent sur une meme droite de pente negative

r ≈ −1 quand tous les points observes sont

situes a proximite d’une telle droite

=⇒ r mesure l’intensite de la “dependance”

lineaire entre x et y


Proprietes

• Ne peut pas etre utilise avec des variables

qualitatives

• signe(r) = signe(cov(x, y))

• −1 ≤ r ≤ 1

• r est independant des unites de mesures (orig-

ine et unite des echelles de mesure) =⇒ r est

independant de toute transformation lineaire.

Ainsi, on a que rxy = ruv quand

ui =xi − x0

dxet vi =

yi − y0

dy(i = 1, . . . , n)

avec dx et dy strictement positifs.


!!Correlation n’implique pas toujours

causalite!!

Une forte correlation n’implique pas automa-

tiquement une relation directe de cause a effet.

Ceci peut simplement etre du au fait que les

2 variables sont soumises a des influences com-

munes.

Exemple des cigognes.


4.1.4 VECTEUR MOYENNE ET MATRICE DE VARIANCE-

COVARIANCE

Il est frequent de representer les moments du

1er et du 2eme ordres d’une serie bivariee sous

forme matricielle (notation aisee, temps de cal-

culs reduits).

Soit xi, yi; i = 1, . . . , n, une serie bivariee:

a) Vecteur moyenne:

g =

(x

y

)NB: g definit le centre de gravite des donnees.

b) Matrice variance-covariance:

V =

(s2x sxy

sxy s2y

)NB: V est une matrice symetrique.


c) Soit X la matrice des observations:

X =

x1 y1

x2 y2

... ...

xn yn

et Xc la matrice des valeurs centrees:

Xc =

x1 − x y1 − yx2 − x y2 − y

... ...

xn − x yn − y

,

=⇒ V = 1nX′cXc

=1

n

(x1 − x x2 − x . . . xn − xy1 − y y2 − y . . . yn − y

)x1 − x y1 − yx2 − x y2 − y

... ...

xn − x yn − y

.

Exercice: Ecriture matricielle avec trois vari-

ables (x, y, z).


4.1.5 REGRESSION LINEAIRE SIMPLE

Objectif : Definir une relation de dependance

statistique entre 2 variables.

La variable a expliquer sera notee Y (variable

reponse, variable dependante), et la variable ex-

plicative sera note X (variable independante)

Exemples

x1

1 0 1 2

x1

y2

-2 -1 0 1

-4-2

02

4

x1

1 0 1 2

x1

y4

-2 -1 0 1

-2-1

01

2


Dependance simple : relation lineaire

=⇒ determination d’une droite de regression.

Exemple: Essayons d’estimer le prix d’une

maison PRICE (en milliers de dollars) en fonc-

tion de la superficie totale FLR (en pieds carres).

La variable dependante est PRICE, la variable

explicative est FLR.

Ajustons “au mieux” ces donnees par une droite


L’erreur commise entre la vraie valeur Price et la

valeur ajustee par la droite est appelee “residu”

(residual)

Remarquons qu’en moyenne nous ne faisons pas

d’erreur, en effet la moyenne des residus est nulle

des qu’un terme constant est dans le modele.


CADRE THEORIQUE

Soit (xi, yi); i = 1, . . . , n une serie statistique

bivariee. Soit y la variable dependante et x la

variable explicative.

Notons la droite de regression:

yi = a + bxi (a, b ∈ IR).

Alors, il est possible de calculer les residus:

ei = yi − yi = yi − a− bxi

Idee: Minimiser les erreurs commises entre la

vraie valeur de l’observation yi et la prevision

basee sur la variable explicative yi.

Differentes pistes: Minimisern∑i=1

e2i ou

n∑i=1

|ei| ou mediane(ei) ou . . .


CRITERE DES MOINDRES CARRES (MC)

Point de vue mathematique: critere simple.

But: Minimiser:

n∑i=1

e2i =

n∑i=1

(yi − a− bxi)2.

=⇒ Systeme d’equations normales. Pour avoir

un minimum, il faut que

(i)∂

∂aQ(a, b) = 0

(ii)∂

∂bQ(a, b) = 0.


Resolution:

Derivons la somme des residus carres par rap-

port a a:

∂

∂aQ(a, b) = −2

n∑i=1

(yi − a− bxi)

Il s’ensuit de (i) que

⇔n∑i=1

(yi − a− bxi) = 0

⇔n∑i=1

yi − na− bn∑i=1

xi = 0

⇔n∑i=1

yi = na + b

n∑i=1

xi

⇔ y = a + bx,

ce qui implique que le centre de gravite est sur

la droite de regression.


Derivons la somme des residus carres par rap-

port a b:

∂

∂bQ(a, b) = −2

n∑i=1

(yi − a− bxi)(xi)

Il s’ensuit de (ii) que

⇔n∑i=1

(yi − a− bxi)(xi) = 0

⇔n∑i=1

xiyi − an∑i=1

xi − bn∑i=1

x2i = 0

⇔ 1

n

n∑i=1

xiyi − (y − bx)1

n

n∑i=1

xi − b1

n

n∑i=1

x2i = 0

⇔ 1

n

n∑i=1

xiyi − yx + bx2 − b1

n

n∑i=1

x2i = 0

⇔ b(1

n

n∑i=1

x2i − x

2) =1

n

n∑i=1

xiyi − yx

⇔ b =1n

∑ni=1 xiyi − yx

1n

∑ni=1 x

2i − x2

=1n

∑ni=1(xi − x)(yi − y)

1n

∑ni=1(xi − x)2


Solution au probleme de minimisation:

a = y − bxb =

sxy

s2x

Remarque: en calculant les derivees secondes,

on peut montrer que la solution est bien un min-

imum (exercice).


Variances residuelle et de regression

Decomposons la variance de la variable a ex-

plique (y) en deux parties: d’une part la partie

expliquee par la droite de regression (variance

de regression) et d’autre part la partie non ex-

pliquee (variance residuelle)

s2y =

1

n

n∑i=1

(yi−yi)2+1

n

n∑i=1

(yi−y)2 = s2e+s

2reg


Demonstration:

s2y =

1

n

n∑i=1

(yi − y)2 =1

n

n∑i=1

(yi − yi + yi − y)2

=1

n

n∑i=1

(yi − yi)2 +1

n

n∑i=1

(yi − y)2

+2

n

n∑i=1

(yi − yi)(yi − y)

Montrons que le double produit est nul. Rappel:

yi = a + bxi = y − bx + bxi = y + b(xi − x)

Donc, nous avons que:

2

n

n∑i=1

(yi − yi)(yi − y) =2

n

n∑i=1

(yi − y − b(xi − x))(b(xi − x))

=2b

n[

n∑i=1

(yi − y)(xi − x)− bn∑i=1

(xi − x)2]

= 2b[sxy − bs2x] = 2b[sxy −

sxys2x

s2x] = 0

Ceci prouve la decomposition de la variance en

une variance residuelle et une variance de regression.


Coefficient de correlation (r) et coeffi-

cient de determination (R2)

• Lien entre le signe de r et la pente de la

droite de regression. On peut prouver que

yi − y = rsysx

(xi − x)

De cette relation, il est aise de voir que:

r > 0 =⇒ pente positive

r < 0 =⇒ pente negative

• Pourcentage de variance de la variable y

explique par la variable x. On peut montrer:

s2e = s2

y(1− r2) ⇐⇒ r2 =s2reg

s2y

Interpretation : r2 qui sera etendu dans le cas

de regression multiple a R2 mesure le % de vari-

ance de la variable reponse (y) explique par la

variable explicative (x).


Demonstration: s2e = s2

y(1− r2)

s2e =

1

n

n∑i=1

(yi − yi)2 =1

n

n∑i=1

(yi − y − b(xi − x))2

=1

n

n∑i=1

(yi − y)2 +b2

n

n∑i=1

(xi − x)2

− 2b

n

n∑i=1

(yi − y)(xi − x)

= s2y +

s2xy

s4xs2x − 2

sxy

s2xsxy

= s2y −

s2xy

s2x

= s2y(1−

s2xy

s2xs

2y)

= s2y(1− r2)


Exemple

Argent de poche donne a de jeunes adolescents:

• x = age

• y = montant hebdomadaire moyen en euro

xi 12 12 15 14 16 14 12 13 11 11

yi 4.1 3.4 11.3 10.2 11.5 7.2 6.0 7.8 3.5 3.0


xi yi xi − x yi − y (xi − x)2 (yi − y)2 (xi − x)(yi − y)

12 4.1 -1 -2.7 1 7.29 2.7

12 3.4 -1 -3.4 1 11.56 3.4

15 11.3 2 4.5 4 20.25 9

14 10.2 1 3.4 1 11.56 3.4

16 11.5 3 4.7 9 22.09 14.1

14 7.2 1 0.4 1 0.16 0.4

12 6 -1 -0.8 1 0.64 0.8

13 7.8 0 1 0 1 0

11 3.5 -2 -3.3 4 10.89 6.6

11 3 -2 -3.8 4 14.44 7.6

130 68 0 0 26 99.88 48

g =

(x

y

)=

(13

6.8

)et V =

(s2x sxy

sxy s2y

)=

(2.6 4.8

4.8 9.99

)

Donc la droite de regression est donnee par:

y = 6.8 +4.8

2.6(x− 13) = −17.2 + 1.85x


Importance de l’analyse des graphiques

• Examen du graphique des donnees =⇒ in-

formation sur la relation eventuelle entre deux

variables

•Analyse des residus ei = yi−yi (i = 1, . . . , n).

• Exemple du a Anscombe (p. 398)

Ensemble A Ensemble B Ensemble C Ensemble D

x y x y x y x y

10 8.04 10 9.14 10 7.46 8 6.58

8 6.95 8 8.14 8 6.77 8 5.76

13 7.58 13 8.74 13 12.74 8 7.71

9 8.81 9 8.77 9 7.11 8 8.84

11 8.33 11 9.26 11 7.81 8 8.47

14 9.96 14 8.10 14 8.84 8 7.14

6 7.24 6 6.13 6 6.08 8 5.25

4 4.26 4 3.10 4 5.39 19 12.50

12 10.84 12 9.13 12 8.15 8 5.56

7 4.82 7 7.26 7 6.42 8 7.91

5 5.68 5 4.74 5 5.73 8 6.89


Representations graphiques des exemples d’Anscombe:

Que pensez-vous de l’hypothese de relation lineaire

entre x et y pour chacun de ces cas?

• N.B.: Calculez les residus et commentez leurs

graphiques.


4.2 RELATIONS ENTRE UNE VARIABLE QUAN-

TITATIVE ET UNE VARIABLE QUALITATIVE

Soient:

- Y une variable quantitative (p.e. le salaire)

- X une variable qualitative (p.e. le niveau

de diplome) prenant les modalites x1, . . . , xj, . . . , xJ .

• Moyennes conditionnelles: Quel est le salaire

moyen pour un travailleur ayant un diplome de

bachelier ??

y|xj =1

nj.

∑y tq x=xj

yj

=⇒ Graphique des moyennes conditionnelles.


• Mesure de l’intensite de la dependance non

lineaire de y en x. Effectuons une decomposition

de la variance marginale :

s2y =

1

n

n∑i=1

(yi − y)2 =1

n

K∑k=1

n.k(yk − y)2

=1

n

J∑j=i

K∑k=1

njk(yk − y)2

=1

n

J∑j=i

K∑k=1

njk(yk − y|xj + y|xj − y)2

=1

n

J∑j=i

K∑k=1

njk(yk − y|xj)2

+1

n

J∑j=i

nj.(y|xj − y)2

= moyenne des variances conditionnelles

+ variance des moyennes conditionnelles


• Le rapport de correlation ηy.x est defini par

son carre:

η2y.x =

1n

∑Jj=i nj.(y|xj − y)2

s2y

Interpretation: Pourcentage de la variance ex-

pliquee par la connaissance de la variable X .

Remarques:

- expression a comparer avec R2

- η2y.x est independant des origines et des

unites

- 0 ≤ η2y.x ≤ 1

- Si y|xj = y ∀j =⇒ η2y.x = 0

- Si s2y|xj

= 0 ∀j =⇒ η2y.x = 1

- Indice de non linearite: η2y.x − r2


4.3 RELATION ENTRE 2 VARIABLES QUALITA-

TIVES ORDINALES

Exemple: Sondage d’opinion aupres de 10 clients

du restaurant Lobster Pot dans l’Etat de Floride.

i 1 2 3 4 5 6 7 8 9 10

QN E B B E S S I B E S

QS B B B E S B I E B S

R B B E B B I I E B B

P S B E E B I I B S B

G B B E B E B I S S E


4.3.1 CORRELATIONS DE RANG

Echelle ordinale donc il n’existe plus de lien

lineaire ⇒ Information a exploiter pour com-

parer les 2 series: ORDRE.

Soit (xi, yi); i = 1, . . . , n la serie statistique

bivariee. Soient les 2 series marginales ordonnees:

x(1), . . . , x(n) et y(1), . . . , y(n).

L’indice (i) est appele rang de l’observation

correspondante. NotonsR(xi) le rang de l’obser-

vation xi et R(yi) le rang de l’observation yi.

Exemples:

Serie observee: QNi = E,B,E,B, S, S, I, B,E, SSerie ordonnee: QN(i) = I, S, S, S,B,B,B,E,E,ERang de la serie ordonnee: R(QN(i)) = 1, 3, 3, 3, 6, 6, 6, 9, 9, 9

Rang de la serie observee: R(QNi) = 9, 6, 9, 6, 3, 3, 1, 6, 9, 3


• Correlation de Spearman (rs)

Definition:

Rs = corr(R(x), R(y)).

Par definition de la correlation de Pearson:

Rs =1n

∑ni=1

(R(xi)− Rx

) (R(yi)− Ry

)√[1n

∑ni=1(R(xi)− Rx)2

] [1n

∑ni=1(R(yi)− Ry)2

]

• Correlation du quadrant

Base sur la division de l’espace en 4 parties au

moyen des medianes.

• Correlation de Kendall

Base sur la notion de paire d’observations con-

cordantes et discordantes.


4.4 RELATIONS ENTRE 2 VARIABLES QUALITA-

TIVES NOMINALES

Serie statistique bivariee

(xj, yk, njk); j = 1, . . . , J et k = 1, . . . , K

• Exemple: Enquete aupres de 200 etudiants

Variable X : “Provenance des etudiants”

3 modalites: R1, R2, R3 (3 regions).

Variable Y : “Choix de l’universite”

3 modalites: U1, U2, U3 (3 universites).

Tableau de contingence

njk U1 U2 U3 nj.

R1 28 73 29 130

R2 0 2 18 20

R3 12 25 13 50

n.k 40 100 60 200


Formalisation

• 2 variables qualitatives (nominales) X et Y :

- X prend J modalites: A1, . . . , AJ

- Y prend K modalites: B1, . . . , BK .

• X et Y sont observes sur un echantillon de

taille n =⇒ Tableau de contingence (N):

X|Y B1 . . . Bk . . . BK∑Kk=1

A1 n11 . . . n1k . . . n1K n1.

· · · · · · · · · · · · · · · · · ·Aj nj1 . . . njk . . . niP nj.

· · · · · · · · · · · · · · · · · ·AJ nJ1 . . . nJk . . . nJK nJ.∑Jj=1 n.1 . . . n.k . . . n.K n

ou les effectifs njk representent le nombre d’individus

ayant simultanement les modalites Aj et Bk.

Notons que nj. =∑Kk=1 njk et n.k =

∑Jj=1 njk.


Tableau des frequences relatives F

Proportion d’individus possedant simultanement

les modalites Aj et Bk:

fjk =njkn

(j = 1 . . . , J ; k = 1, . . . , K).

Frequences relatives marginales sont donnees par:

fj. =nj.n

(j = 1 . . . , J)

et

f.k =n.kn

(k = 1, . . . , K).

Remarquons que:

fjk est une estimation de

πjk = P (X ∈ Aj, Y ∈ Bk)

fj. est une estimation de πj. = P (X ∈ Aj)f.k est une estimation de π.k = P (Y ∈ Bk)


Exemple Regions-Universites.

fjk U1 U2 U3 fj.

R1 0.14 0.365 0.145 0.65

R2 0 0.010 0.090 0.10

R3 0.06 0.125 0.065 0.25

f.k 0.20 0.50 0.30 1

Commentaires

• 14% des 200 etudiants viennent de la region

R1 et sont a l’universite U1

• 65% des etudiants viennent de la region R1

• 30% des etudiants sont a l’universite U3

• . . .


Tableaux des frequences conditionnelles

• Tableau des profils-lignes

Proportion des individus presentant la modalite

Bk parmi les individus ayant la modalite Aj:

fk|j =njknj.

=njk/n

nj./n=fjkfj.

(j = fixe; k = 1, . . . , K).

=⇒ estimation de la probabilite conditionnelle:

P (Y ∈ Bk|X ∈ Aj)

fjkfj.

U1 U2 U3 Totaux

R1 0.215 0.562 0.223 1

R2 0 0.100 0.900 1

R3 0.240 0.500 0.260 1

f.k 0.200 0.500 0.300 1

Commentaires

• Dans les etudiants venant de la region R2,

10% ont choisi l’universite U2.


• Tableau des profils-colonnes

Proportion des individus presentant la modalite

Aj parmi les individus ayant la modalite Bk:

fj|k =njkn.k

=njk/n

n.k/n=fjkf.k

(j = 1, . . . , J ; k = fixe).

=⇒ estimation de la probabilite conditionnelle:

P (X ∈ Aj|Y ∈ Bk)

Exemple 1:

fjkf.k

U1 U2 U3 fj.

R1 0.700 0.730 0.483 0.65

R2 0 0.020 0.300 0.10

R3 0.300 0.250 0.217 0.25

Totaux 1 1 1 1

Commentaires

• Dans les etudiants ayant choisi l’universite

U3, 30% viennet de la region R2.


Situation d’independance

• Si 2 variables aleatoiresX et Y sont independantes,

alors ∀j ∈ 1, . . . , J et ∀k ∈ 1, . . . , K:

a)P (X ∈ Aj, Y ∈ Bk) = P (X ∈ Aj)P (Y ∈ Bk)

b)P (Y ∈ Bk|X ∈ Aj) = P (Y ∈ Bk)

c)P (X ∈ Aj|Y ∈ Bk) = P (X ∈ Aj)

• L’echantillon de taille n nous permet d’estimer

ces quantites, des lors sous l’hypothese d’inde-

pendance, on devrait avoir:

a )fjk ≈ fj.f.k ∀j ∈ 1, . . . , J ∀k ∈ 1, . . . , K

b )fk|j =fjkfj.≈ f.k ∀j, ∀k

c )fj|k =fjkf.k≈ fj. ∀j, ∀k.

Ainsi tous les profils-lignes et les profils-colonnes

sont pratiquement egaux.


•Definissons les frequences (relatives) theoriques

esperees sous l’hypothese d’independance:

f∗jk = fj.f.k et n∗jk = nf∗jk =nj.n.kn

• Exemple Regions-Universites.

Effectifs et effectifs theoriques:

njk U1 U2 U3 nj.

R1 28 73 29 130

R2 0 2 18 20

R3 12 25 13 50

n.k 40 100 60 200

n∗jk U1 U2 U3 nj.

R1 26 65 39 130

R2 4 10 6 20

R3 10 25 15 50

n.k 40 100 60 200


Frequences observees et frequences theoriques

esperees sous l’hypothese d’independance:

fjk U1 U2 U3 fj.

R1 0.14 0.365 0.145 0.65

R2 0 0.010 0.090 0.10

R3 0.06 0.125 0.065 0.25

f.k 0.20 0.50 0.30 1

f∗jk U1 U2 U3 fj.

R1 0.13 0.325 0.195 0.65

R2 0.02 0.050 0.030 0.10

R3 0.05 0.125 0.075 0.25

f.k 0.20 0.50 0.30 1


Ecarts a l’independance

Les ecarts a l’independance sont donnes par

ejk = njk − n∗jk

La matrice des ecarts est calculee en soustrayant

de la matrice des effectifs observes N , la matrice

des effectifs theoriques esperes sous l’hypothese

d’independance N∗.

• Exemple Regions-Universites

njk U1 U2 U3 nj. n∗jk U1 U2 U3 nj.

R1 28 73 29 130 R1 26 65 39 130

R2 0 2 18 20 R2 4 10 6 20

R3 12 25 13 50 R3 10 25 15 50

n.k 40 100 60 200 n.k 40 100 60 200


=⇒ejk U1 U2 U3

R1 2 8 -10

R2 -4 -8 12

R3 2 0 -2

• Interpretations:

ejk > 0↔ njk > n∗jk ↔ fjk > f∗jk = fj.f.k

→ on dit que les modalitesAj etBk “s’attirent”

ejk < 0↔ njk < n∗jk ↔ fjk < f∗jk = fj.f.k

→ on dit que les modalites Aj et Bk “se re-

poussent”.


Mesures d’association du chi-carre:

D2 =

J∑j=1

K∑k=1

(njk − n∗jk)2

n∗jk=

J∑j=1

K∑k=1

e2jk

n∗jk

Exemple Regions-Universites:

e2jkn∗jk

U1 U2 U3 Totaux

R1 0.1538 0.9846 2.5641 3.7025

R2 4.0000 6.4000 24.0000 34.4000

R3 0.4000 0.0000 0.2667 0.6667

Totaux 4.5538 7.3846 26.8308 38.7692

• Interpretation : Plus la valeur est grande, plus

on s’ecarte de l’independance donc association

(en 2eme annee dans le chapitre des problemes

de test, vous utiliserez cette statistique pour

tester l’independance).


4.5 EXTENSIONS (cours a option en 4eme):

ANALYSE DES DONNEES MULTIDIMENSION-

NELLES

But: presenter les differentes methodes statis-

tiques permettant de visualiser et resumer l’infor-

mation contenue dans des bases de donnees con-

tenant un grand nombre de variables.

Analyse en composantes principales (ACP)

Technique de representation et de reduction d’un

ensemble de variables quantitatives continues.

Analyse des correspondances binaires

(ACOBI)

Methode adaptee a l’etude des eventuelles re-

lations existantes entre 2 variables nominales

(etude des tableaux de contingence).


Analyse des correspondances multiples

(AFCM)

Generalisation de l’analyse des correspondances.

Permet de decrire les relations entre plusieurs

variables nominales.

Methodes de classification

Methodes permettant de grouper les individus

ou variables suivant certains criteres de prox-

imite.

Analyse discriminante

Techniques destinees a classer (affecter a des

classes preexistantes) des individus caracterises

par un certain nombre de variables quantitatives

ou qualitatives

Chapitre 5

SERIES CHRONOLOGIQUES

211

1

Chapitre 5 : Analyse d’une série chronologique

1. Introduction. Série chronologique : Suite de valeurs observées yt1, yt2, ….ytn d’une variable Y effectuées dans le temps aux instants : t1, t2, …, tn.

2

Hypothèse simplificatrice : On suppose que les dates d’observations sont équidistantes → y1, y2, …yn. Variable de niveau : Etat à un moment donné :

- montant des avoirs le 31 décembre - nombre de chômeurs le 1er de

chaque mois - etc

Variable de flux : Mouvement intervenu durant une certaine période :

- quantité produite pendant 1 mois - nombre de navetteurs sur la E411 sur une journée

- etc

3

Prévisions :Exemples Prévision à court terme :

- prévision des ventes futures du produit X pour faire face à la demande Prévision à moyen terme : - rendement d’un investissement Prévision à long terme :

- prévisions des besoins en service publics (hôpitaux, écoles, etc).

Les méthodes présentées dans ce chapitre se rapportent à la prévision à court terme Origine de la prévision (T) : moment où le prévision est effectuée Horizon de la prévision (h) : intervalle de temps qui sépare l’origine de la prévision et le moment pour lequel on désire la prévision Prévision ponctuelle : ˆ ( )Ty h

4

2. Composante d’une série chronologique

Le principe de décomposition est basé sur la maxime : «diviser pour régner». Décomposition en 4 composantes : T= tendance C= composante cyclique S= composante saisonnière E= composante résiduelle (irrégulière) Combinaisons possibles des composantes : Modèle additif : yt = Tt + Ct + St + Et NB : composante extra-saisonnière : ft = Tt + Ct Modèle multiplicatif : yt= Tt * Ct * St * Et NB : composante extra-saisonnière : ft = Tt * Ct Modèle mixte : tout autre modèle où additions et multiplications sont utilisées.

5

Composition d’une série chronologique. Modèle additif : yt = Tt + Ct + St + Et Graphique 1 : T = Tendance linéaire

Graphique 2 : T + C = Tendance linéaire + composante cyclique

6

Graphique 3 : T + C + S = idem+ composante saisonnière

Graphique 4 : T + C + S + E= idem+ composante résiduelle

7

Modèle multiplicatif : yt = Tt * Ct * St * Et

Graphique 1 : T = Tendance linéaire

Graphique 2 : T * C = Tendance linéaire * composante cyclique

8

Graphique 3 : T * C * S = idem * composante saisonnière

Graphique 4 : T * C * S * E= idem * composante résiduelle

CONCLUSION :

9

3. Etude de la tendance a) Approche exploratoire Difficulté pratique de procéder, souvent lié à : - la longueur de la série

- l’importance des fluctuations

Solution : essayer de « lisser » la série pour avoir une idée générale de la tendance Outils :

- filtres linéaires (moyenne mobile, etc) - régression linéaire simple après avoir

linéarisé par différenciation, transformation logarithmique, etc

10

b) Filtres linéaires. Soit y1,…,yt,…,yn la série chronologique → une valeur filtrée linéairement:

Donc la série filtrée est donnée par :

où wt est indépendant de t Exemple : y1, y2, …, y8, posons p1=1, p2=2

Donc 2

*1 1 0 1 1 2 2

1t j t j t t t t

jy w y w y w y w y w y+ − − + +

=−

= = + + +∑ Série filtrée : y*

2, y*3,…,y*

6

11

Cas particuliers :Moyennes Mobiles (MM)

16

5°) Choix de l’ordre de la moyenne mobile.

18

Donc le choix « idéal » dépend de la saisonnalité.

19

c) Ajustement analytique (régression linéaire)

Variable y fonction du temps : y=f(t) + erreur Procédure : - étape 1 : si y n’est pas une fonction linéaire : f(t) = a + bt, essayer de la linéariser

t

y1

0 10 20 30 40 50

020

4060

8010

0

Tendance lineaire

t

y2

0 10 20 30 40 50

020

4060

8012

0

Tendance quadratique

t

y3

0 10 20 30 40 50

2040

6080

100

120

Tendance exponentielle

t

y4

0 10 20 30 40 50

-1.0

-0.6

-0.2

Tendance hyperbolique

- étape 2 : utiliser la méthode des moindres carrés sur les données linéarisées (modèle de régression)

20

Etape 1 : Linéariser la relation. NB : en série chronologique, la variable

explicative x est le temps t Régression exponentielle :

y = 10a+bx ⇒ log10 y = a + b x ⇒ régression linéaire pour (xi , zi) où

zi = log10 yi

Régression hyperbolique :

y =1

a + bx⇒

1y

= a + bx

⇒ régression linéaire pour xi , zi( ) où

zi = 1 yi

21

Régression quadratique: la parabole

y = b0 + b1 x + b2 x2

Min Q b0, b1, b2( )= yi − b0 − b1 xi − b2 xi

2( )2i∑

Système d’équations normales :

∂ Q∂ b0

= −2 yi − b0 − b1 xi − b2 xi2( )= 0

i∑

∂ Q∂ b1

= −2 yi − b0 − b1 xi − b2 xi2( ) xi( )= 0

i∑

∂ Q∂ b2

= −2 yi − b0 − b1 xi − b2 xi2( ) xi

2( )= 0i∑

22

Etape 2 : Estimation de la tendance par la méthode des moindres carrés

Soit (ti,yi); i=1,2,…,n la série statistique bivariée. Soit y la variable dépendante et t le temps Notons la droite de régression par:

ˆi iy a bt= + (a, b ∈ R)

⇒ on peut calculer les résidus:

ˆi i i i ie y y y a bt= − = − −

Idée : Minimiser les erreurs commises entre la vraie valeur de l’observation yi et la prévision basée sur la tendance :

Critère des moindres carrés : ∑

=

n

iie

1

2

23

Critère des moindres carrés (MC) On veut minimiser : Q(a,b)=Σi ei

2 = Σi (yi- a- b ti)2 ⇒ Système d’équations normales : pour avoir un minimum il faut que :

( , ) 0Q a ba

∂=

∂

( , ) 0Q a bb

∂=

∂ On obtient donc comme solution du problème de minimisation :

a y bt= −

2ty

t

sb

s=

Remarque : en calculant les dérivées secondes, on peut montrer que la solution est bien un minimum

24

Cas particulier : Soit l’échantillon : (y1,1), (y2,2), …(yT,T)

⇒ 2)1(...21 +=+++ TTT ⇒ 2

1+=Tt

et 6)12)(1(...21 222 ++=+++ TTTT ⇒ 12

122

−=T

st Ce qui implique que l’ajustement linéaire au sens des MCO est donné par :

ˆty = a +b t

où 21+−= Tbya

et )1(121

21

2

1 1

−

+−=∑ ∑

= =

TT

yTtyb

T

t

T

ttt

25

4. Etude de la composante

saisonnière a). Introduction.

26

b) Modèle additif

35

c) Modèle multiplicatif

36

5. Elimination de la tendance ou/et de la composante

saisonnière a) Elimination de la tendance. Solution 1 : On détermine T et ensuite on effectue les opérations suivantes :

1°) Cas additif : y-T

2°) Cas multiplicatif : y/T Solution 2 : Utilisation des différences Cas d’une tendance linéaire :

Cas d’une tendance quadratique :

37

b) Elimination de la saisonnalité. Solution 1 : On détermine Sj (ou 1+ sj) et ensuite on effectue les opérations suivantes :

1°) Cas additif : dij = yij - Sj

2°) Cas multiplicatif : dij = yij / (1+sj) Solution 2 : Utilisation des différences saisonnières.

38

6. Méthodes de Prévision

Chapitre 6

VARIABLES ALEATOIRES ET LOIS

DE PROBABILITE DISCRETES

Citibank, Long Island City, Etat de New York

(Anderson, Sweeney, & Williams, 2001)

212

CHAPITRE 6. VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES213

6.1 Definitions, Variables aleatoires

Experience aleatoire: processus dont on ne

peut pas prevoir le resultat:

• lancer un de

• jouer au lotto

• faire une offre de vente

• qualite d’une piece (defectueuse ou non) dans

un processus industriel, . . .

Espace-echantillon: ensemble des resultats

possibles

Exemple : on lance 2 pieces de monnaie

Ω'

&

$

%

ω1 : P1 ∩ P2

ω2 : P1 ∩ F2

ω3 : F1 ∩ P2

ω4 : F1 ∩ F2


Variable aleatoire: sa valeur est determinee

par le resultat d’une experience aleatoire.

Exemple: on lance 2 pieces de monnaie et on

s’interesse au nombreX de resultats face obtenus

Ω'

&

$

%

ω1 : P1 ∩ P2

ω2 : P1 ∩ F2

ω3 : F1 ∩ P2

ω4 : F1 ∩ F2

HHHH

HHHHHHH

XXXXXXXXXXX

,,,,,,,,,,,

j

z

*

V'

&

$

%

0

1

2


Notons Ex l’evenement compose des resultats

associes a la valeur x ∈ V

Ω'

&

$

%

'&

$%E0 P1 ∩ P2

E1

P1 ∩ F2

'

&

$

%F1 ∩ P2

E2 F1 ∩ F2

'&

$%

HHHHHH

HHHHH

XXXXXXXXXXX

,,,,,,,,,,,

j

z

*

V'

&

$

%

0

1

2

On a donc:

P (E0) = P (X = 0) =1

4

P (E1) = P (X = 1) =1

4+

1

4=

1

2

P (E2) = P (X = 2) =1

4


1

px

x

6

1214

34

-

0 1 2

Definition d’une variable aleatoire: Une

variable aleatoire (v.a.) X est une fonction definie

sur Ω a valeurs dans un ensemble note V.

A chaque ω de Ω on associe une valeur

x = X(ω) ∈ V.

Ω'

&

$

%

ω•```````````z

V'

&

$

%x•


Discrete et continue

Si V est un ensemble discret, la v.a. est dite

discrete (par exemples V = 0, 1, . . . , n ou

n ∈ N ; V = Z)

Experience Variable aleatoire X Valeurs possibles V

Contacter 5 clients Nbre de clients 0, 1, 2, 3, 4, 5

qui commandent

Inspecter une Nbre de radios defectueuses 0, 1, . . . , 50

cargaison de 50 radios

Gerer un restaurant Nombre de clients 0, 1, 2, 3, . . .

pendant une journee

Si V est continu, la v.a. sera dire continue (par

exemple V = IR)

Experience Variable aleatoire X Valeurs possibles V

Jouer au lotto Montant gagner Intervalle de IR+

Gerer un restaurant Benefices Intervalle de IR+

pendant une journee


6.2 Loi d’une v.a. discrete

Associons a la valeur x ∈ V l’ensemble d’evenements:

Ex = w tel que w ∈ Ω et X(w) = x

On peut donc calculer pour tout x ∈ V :

px = PX(x) = P (X = x) = P (Ex)

⇓

Loi de probabilite de X:

(x, px), x ∈ V .

Remarque : (x, px), x ∈ V est une DP ssi

px ≥ 0 ∀x ∈ V et∑x

px = 1

Exemples: distribution uniforme, binomiale, de

Bernouilli, de Poisson, geometrique, binomiale

negative, hypergeometrique, etc


6.3 Fonction de repartition d’une v.a. dicrete

• Rappel: Statistique descriptive

Fj est la frequence cumulee c’est-a-dire le pour-

centage d’observations ≤ xj.

• Definition au niveau population:

F (x) = P (X ≤ x) ou x ∈ IR

Donc pour une DP (xj, pj), j = 1 . . . , J:

F (x) =∑xj≤x

pj


Proprietes

• F (x) ∈ [0, 1]

• F (−∞) = 0 et F (∞) = 1

• F (a) ≤ F (b), ∀a ≤ b (a, b ∈ IR)

• P (a < X ≤ b) = P (X ≤ b)− P (X ≤ a)

= F (b)− F (a), (a < b)

• Si xi et xj sont deux valeurs de la v.a. telle

que xi ≤ xj alors:

P (xi ≤ X ≤ xj) = F (xj)− F (xi−1)

En particulier P (X = xj) = F (xj)−F (xj−1).

• F(x) est continue a droite ∀x ∈ IR.


6.4 Esperance mathematique (EPM)

1. Approche historique: Probleme des

partis

• 2 joueurs misent chacun 32 euros

• La partie comprends plusieurs jeux successifs

ou chacun a la meme probabilite de gagner

• On gagne la mise des que on a gagne 3 jeux.

La partie est deja commencee :

E[gain pour A] = 641

2+ 32

1

2= 48

E[gain pour B] = 01

2+ 32

1

2= 16


2. Definition

Soit la distribution de probabilite:

(x, px), x ∈ V

et la fonction X → g(X) : x → g(x). Alors

l’esperance mathematique est definie

E[g(X)] =∑x

g(x)px

3. Proprietes

• Si b est une constante: E(b) = b

Demonstration:

E(b) =∑x

bpx = b∑x

px = b.

• Si a est une constante : E(aX) = aE(X)

Demonstration:

E(aX) =∑x

(ax)px = a∑x

xpx = aE(X).


• Si a et b sont des constantes:

E(aX + b) = aE(X) + b

Demonstration: exercice

• Notons E(X) = µ. Alors Y = X − µ est tel

que E(Y ) = 0 =⇒ Y est la v.a. centree.

Demonstration:

E(Y ) = E(X − µ) = E(X)− µ = 0.

• Soient a et b deux constantes, g(X) et h(X)

deux fonctions de X a valeurs reelles :

E[ag(X) + bh(X)] = aE(g(X)) + bE(h(X))

Demonstration: exercice.


6.5 Parametres (moyenne, variance, moments, mediane,...)

•Moyenne

Cas particulier de l’EPM pour g(X) = X :

E(X) =∑x

xpx := µ

Remarque : analogie avec la statistique descrip-

tive basee sur un echantillon :

x =1

n

∑j

njxj =∑j

fjxj

Exemple: Lancement de 2 pieces

1

px

x

6

12

14

34

-

0 1 2

µ =∑x

xpx =1

40 +

1

21 +

1

42 = 1


• Variance et Ecart-type

Cas particulier de l’EPM: g(X) = (X−E(X))2

E((X−E(X))2) =∑x

(x−µ)2px := σ2 = V (X)

Remarque : analogie avec la statistique descrip-

tive basee sur un echantillon :

s2 =1

n

∑j

nj(xj − x)2 =∑j

fj(xj − x)2

Exemple: Lancement de 2 pieces

1

px

x

6

12

14

34

-

0 µ = 1 2

σ2 =1

4(0− 1) +

1

2(1− 1) +

1

4(2− 1) =

1

2

Ecart-type: σ =√

(σ2).


PROPPRIETES:

1. Si b est une constante: V (b) = 0

Demonstration: Puisque E(b) = b, on a:

V (b) = E((b−E(b))2) =∑x

(b−E(b))2px = 0.

2. Si a est une constante: V (aX) = a2V (X)

Demonstration: Puisque E(aX) = aE(X):

V (aX) = E((aX − E(aX))2)

= E[a2(X − E(X))2]

= a2E[(X − E(X))2]

= a2V (X).

3. Si Y = X − a alors V (Y ) = V (X)

Demonstration: Exercice.

⇓

La variance est independante d’un changement

d’origine.


4. En particulier, si Y = X−µ alors V(Y)=V(X)

Demonstration: Puisque E(X − µ) = 0, on a:

V (Y ) = E((Y − E(Y ))2)

= E[((X − µ)− E(X − µ))2]

= E[(X − µ)2] = V (X).

5. Soit Z = X−µσ alors V (Z) = 1

⇓

Z est dite v.a. centree-reduite

Demonstration:

V (Z) = V (X − µσ

)

= V (1

σ(X − µ))

=1

σ2V (X − µ)

= 1.


• Les Moments

Definition: Moments d’ordre r par rapport a c

µr(c) = E[(X − c)r] r ∈ IN, c ∈ IR

Cas particuliers:

1. Moment par rapport a l’origine (c = 0):

µ′r = E[Xr] =∑x

xrpx

Exemple: La moyenne est le moment par rap-

port a l’origine d’ordre 1 (r = 1)

2. Moment centre (c = µ):

µr = E[(X − µ)r] =∑x

(x− µ)rpx

Exemple: La variance est le moment centre d’ordre

2 (r = 2)


PROPRIETES:

µ′0 = µ0 = 1

µ′1 = E(X) = µ

µ1 = 0

µ2 = E[(X − µ)2] = σ2

Demonstration: exercice.

Expression utile: E(X2) = σ2 + µ2

Demonstration:

σ2 = E[(X − µ)2] = E(X2 − 2Xµ + µ2)

= E(X2)− 2µE(X) + µ2 = E(X2)− µ2


• Mediane

Definition: La mediane x1/2 est telle que:

P (X < x1/2) ≤ 1

2et P (X ≤ x1/2) ≥ 1

2

Remarque: analogie avec la statistique descrip-

tive.


6.6 Fonctions generatrices des moments

• Definition: Soit une DP (x, px), x ∈ V . La

fonction generatrice des moments est:

MX(t) = E[etX ] =∑x

etxpx ∀t ∈ IR.

Remarque: MX(t) n’existe pas toujours (con-

dition d’existence).

•Decomposition en utilisant le developpement

en serie de etx:

MX(t) =∑x

(1 + tx +t2x2

2!+ . . . +

trxr

r!+ . . .)px

=∑x

px + t∑x

xpx + . . . +tr

r!

∑x

xrpx + . . .

= 1 + tµ′1 + . . . +tr

r!µ′r + . . .


Ce resultat nous fournit la propriete suivante:

• Propriete: SiM(t) existe et admet des derivees

d’ordre r (r = 1, 2, . . .):

µ′r = [drM(t)

dtr]t=0

• Exemple: 1px

x

6

1214

34

-

0 1 2

M(t) = E(etX) =

2∑x=0

etxpx =1

4+

1

2et +

1

4e2t

→ µ = [dM(t)

dt]t=0 = [

1

2et +

1

2e2t]t=0 = 1

→ µ′2 = [d2M(t)

dt2]t=0 = [

1

2et + e2t]t=0 =

3

2

⇒ σ2 = µ′2 − µ2 =

3

2− 1 =

1

2


6.7 Lois discretes particulieres

1. Distribution uniforme

a) Definition: X ∼ U [1, . . . , n] si

P (X = x) =1

n∀x ∈ V = 1, . . . , n

b) Exemples

• valeur obtenue par un lance de de (n=6)

• dans une etude basee sur un echantillon de

taille n, il est souvent assume que chaque indi-

vidu de l’echantillon a un poids 1/n.


c) Quelques parametres

• Moyenne (parametre de position):

µ = E(X) =

n∑x=1

xpx =1

n

n∑x=1

x =n + 1

2

Aide:n∑x=1

x =n(n + 1)

2

• Variance (parametre de dispersion):

σ2 = E(X−µ)2 = E(X2)−µ2 = E(X2)−(n + 1)2

4

or

E(X2) =

n∑x=1

x2px =1

n

n∑x=1

x2

Aide:n∑x=1

x2 =n(n + 1)(2n + 1)

6


Preuve:

(x + 1)3 = x3 + 3x2 + 3x + 3

⇒ (x + 1)3 − x3 = 3x2 + 3x + 1

et

n∑x=1

[(x + 1)3 − x3] = (n + 1)3 − 1

En outren∑x=1

[(x + 1)3 − x3] =

n∑x=1

(3x2 + 3x + 1)

= 3(1 + 22 + . . . + n2)

+ 3(1 + 2 + . . . + n) + n

Nous avons donc que:

(n + 1)3 − 1 = 3

n∑x=1

x2 + 3

n∑x=1

x + n

⇒n∑x=1

x2 =1

3[(n + 1)3 − 1− 3

n(n + 1)

2− n]

⇒n∑x=1

x2 =1

6n(n + 1)(2n + 1)


Donc nous avons:

σ2 = E(X2)− µ2 =(n + 1)(2n + 1)

6− (n + 1)2

4

=(n + 1)

12[4n + 2− 3(n + 1)]

=(n + 1)(n− 1)

12=n2 − 1

12

• Skewness (parametre d’asymetrie): La dis-

tribution etant symetrique µ3 = 0.

Exercice: Prouver formellement le resultat en

utilisant l’aide:n∑x=1

x3 =n2(n + 1)2

4


2. Distribution de Bernouilli

a) Definition: X ∼ B(1, p) si les valeurs pos-

sibles pour X sont succes (x = 1) et echec

(x = 0). En outre la probabilite de succes est

egale a p (P (X = 1) = p).

b) Exemples

• inspection d’une piece dans un processus in-

dustriel (defectueux ou pas)

• resultat (reussite ou echec) a l’examen de

statistique.

c) Quelques parametres (exercice)

µ = p

σ2 = pq ou q = 1− pµ3 = pq(q − p)


d) Schema de Bernouilli: Soient

- X ∼ B(1, p) ⇒ Experience ou l’evenement

“succes” a une probabilite p de se realiser

- Nous realisons n experience sous des condi-

tions uniformes (p est constant)

- Les n experiences sont independantes

Notons x le nombre de succes, y le nombre

d’echec

⇓

Plusieurs distributions peuvent etre deduites:

- si Z=nombre de succes

→ distribution binomiale

- si Z=nombre d’echec avant le premier succes

→ distribution geometrique

- si Z=nombre d’echec avant le rieme succes

→ distribution negative binomiale


3. Distribution binomiale

a) Definition: X ∼ B(n, p) si on procede a un

schema de Bernouilli (n experiences uniformes

et independante avec probabilite de succes egale

a p) et que X=nombre de succes.

b) Exemples

• Selection aleatoire n pieces dans une produc-

tion et on compte le nombre de pieces conformes

• On compte le nombre de fois que l’on gagne

(avoir pile) dans un jeu de n pile ou face.

c) Distribution de probabilite:

- x ∈ 0, 1, . . . , n

- px =

(n

x

)pxqn−x (formule du binome)


d) Fonction generatrice des moments

Rappel: Puissance d’un binome

(a + b)n =

n∑x=0

(n

x

)bxan−x

Avec cette aide, nous pouvons developper la

fonction generatrice des moments:

M(t) = E(etX) =

n∑x=0

etxpx =

n∑x=0

etx

(n

x

)pxqn−x

=

n∑x=0

(n

x

)(pet)xqn−x = (q + pet)n

d) Quelques parametres

• Moyenne:

µ = [dM(t)

dt]t=0

= [n(q + pet)n−1pet]t=0

= n(q + p)n−1p = np


• Variance:

µ′2 = [dM2(t)

dt2]t=0

= np[(n− 1)(q + pet)n−2pe2t + (q + pet)n−1et]t=0

= np[(n− 1)p + 1] = np(np + q)

Ainsi la variance est deduite par:

σ2 = µ2 = µ′2−µ′21 = n2p2+npq−n2p2 = npq

• Parametre d’asymetrie (exercice):

µ3 = npq(q − p)


e) Frequence de succes

• SoitX le nombre de succes et Y la frequence

de succes:

Y =X

n

• Valeurs de Y: y ∈ 0, 1n, . . . , 1

• Calculs des probabilites:

py = P (Y = y) = P (X

n= y) = P (X = ny)

= P (X = x) =

(n

x

)pxqn−x

• Liens entre les moments de X et Y :

E(Y ) = E(X

n) = p

V (Y ) = V (X

n) =

pq

n


4. Distribution de Poisson

a) Contexte: Decrit le nombre d’evenements se

produisant sur une periode de temps donnee T

b) Exemples

• Le nombre de faillites sur une journee dans

un secteur industriel.

• Le nombre d’accidents d’avion sur une annee.

c) Distribution de probabilite: X ∼ P (λ) avec

comme support x ∈ 0, 1, 2, . . . ou

P (X = x) = px =e−λλx

x!λ ∈ IR+

0

Remarque:∞∑x=0

px =

∞∑x=0

e−λλx

x!= e−λ

∞∑x=0

λx

x!= e−λeλ = 1


d) Fonction generatrice des moments:

M(t) = E(etX) =

∞∑x=0

etxpx =

∞∑x=0

etxe−λλx

x!

= e−λ∞∑x=0

(λet)x

x!= e−λeλe

t= eλ(et−1)

e) Quelques moments:

• La moyenne:

µ = [dM(t)

dt]t=0 = [λeteλ(et−1)]t=0 = λ

• Moments d’ordre 2

µ′2 = [dM2(t)

dt2]t=0 = λ[eteλ(et−1) + etλeteλ(et−1)]t=0

= λ + λ2

⇓

σ2 = µ2 = µ′2 − µ′21 = λ + λ2 − λ2 = λ

• Moments d’ordre 3 et 4

µ3 = λ µ4 = λ + 3λ2


f) Limite de la distribution binomiale quand la

probabilite de succes est faible (p → 0) et que

le nombre d’essais est grand (n→∞)

Preuve: Soit X ∼ Bin(n, p) ou p = λ/n

P (X = x) =n!

x!(n− x)!pxqn−x

=nx

nxpx(1− p)n−x

n!

x!(n− x)!

=nx

nxpx

(1− p)n

(1− p)xn!

x!(n− x)!

=(np)x

x!

1

(1− p)x(1− p)n

n!

nx(n− x)!

=(λ)x

x!

1

(1− p)x(1− λ

n)n

n(n− 1) . . . (n− x + 1)

nx

Pour n→∞, p→ 0 et np→ λ, on obtient:

P (X = x)→ (λ)x

x!e−λ ∗ 1


La qualite de l’approximation depend des valeurs

de n et p.

Exemples

• X ∼ Bin(50, 0.10)

P(X=5)=0,1849

F(5)=0,6161

• X ∼ Bin(100, 0.05)

P(X=5)=0,1800

F(5)=0,6160

• X ∼ P (5)

P(X=5)=0,1755

F(5)=0,6160


g) Introduction intuitive de la loi de Poisson:

Soit X le nombre d’arrivees d’un phenomene

dans l’intervalle de temps:

−−−|−−−−|−−−−−−|−−−−|−−−−|−−−−

0 ↑ ↑ t t+ ∆t

Posons les hypotheses suivantes:

• P(1 arrivee dans ∆t) = α∆t

• P(plus qu’une arrivee dans ∆t) ≈ 0

• Des evenements arrivant dans des intervalles

disjoints sont independants.

Notons px(t+∆t) la probabilite d’avoir x arrivee

dans l’intervalle de temps [0, t + ∆t]

Deux possibilites:

• x arrivees dans [0, t] et 0 arrivee dans [t,∆t]

• x− 1 arrivees dans [0, t] et une dans [t,∆t]


Donc,

px(t + ∆t) = px(t)[1− α∆t] + px−1(t)α∆t

= px(t)− α∆tpx(t) + α∆tpx−1(t)

⇒ A =px(t + ∆t)− px(t)

∆t= α[px−1(t)−px(t)]

En prenant comme conditions initiales:

• p0(0) = 1

• px(0) = 0,

la derivee:

lim∆t→0

A =dpx(t)

dt= α[px−1(t)− px(t)]

a comme solution:

px(t) =e−λλx

x!ou λ = αt

qui est la fonction de probabilite d’une variable

aleatoire de Poisson de parametre αt.


5. Distribution geometrique

a) Definition: Schema de Bernouilli (experiences

uniformes et independantes avec probabilite de

succes egale a p) ou n n’est pas fixe a priori.

X=nombre d’essais precedant le premier succes.

b) Exemples:

• Nombre de lance d’un de avant d’avoir 1.

• En repondant au hasard: le nombre de QCM

faux avant d’avoir une bonne reponse.


P (X = x) = px = pqx x ∈ 0, 1, 2, . . .


M(t) = E(etX) =

∞∑x=0

etxpqx = p

∞∑x=0

(qet)x =p

1− qet


e) Quelques moments:

• La moyenne:

µ = [dM(t)

dt]t=0 = [

pqet

(1− qet)2]t=0 =

pq

p2=q

p

• Moments d’ordre 2

µ′2 = [dM2(t)

dt2]t=0

= pq[et(1− qet)2 + 2etqet(1− qet)

(1− qet)4]t=0

= pq(1− q)2 + 2qp

p4=q(p + 2q)

p2=q(1 + q)

p2

⇒ σ2 =q(1 + q)

p2− q2

p2=q

p2

e) Definition alternative: Y =nombre d’essais

necessaire pour avoir le premier succes.

• Y = X+1; P(Y=y)=pqy−1 y ∈ 1, 2, . . .• M(t) = E(etY ) = pet

1−qet

• µ = [dM(t)dt ]t=0 = 1

p et σ2 = qp2.


6. Distribution binomiale negative

a) Definition: Schema de Bernouilli (experiences

uniformes et independantes avec probabilite de

succes egale a p) ou n n’est pas fixe a priori.

X=nombre d’echec avant le rieme succes.

b) Exemples

• Nombre de pile obtenus avant d’avoir 5 faces.


faux avant d’avoir 3 bonnes reponses.


P (X = x) = Cr−1x+r−1p

rqx x ∈ 0, 1, 2, . . .


M(t) = E(etX) =

∞∑x=0

etxCr−1x+r−1p

rqx

= pr∞∑x=0

Cr−1x+r−1(qet)

x=

pr

(1− qet)r


e) Quelques moments (exercice):

• La moyenne:

µ =rq

pσ2 =

rq

p2

e) Definition alternative: Y =nombre d’experience

necessaire pour avoir r succes.

b) Exemples

• Nombre de lances necessaires pour obtenir 5

faces.


necessaires avant d’avoir 3 bonnes reponses.


7. Distribution hypergeometrique

a) Definition: On preleve n individus dans une

population de tailleN de maniere aleatoire, mais

sans remise. Chaque individu possede (succes)

ou ne possede pas (echec) une certaine caracteristique.

Dans la population M individus possedent cette

caracteristique. Soit X=nombre de succes.

b) Distribution de probabilite:

P (X = x) =

(M

x

)(N −Mn− x

)(N

n

)ou x ∈ max(0, n−(N−M)), . . . ,min(n,M).

c) Moyenne et variance: Notons π = MN

µ = nπ σ2 = nπ(1− π)N − nN − 1

Universite Libre de Bruxelles Annee academique 2009-2010

STAT-D-101Catherine Dehon

Seance 1 : Introduction1

Exercice 1

Utilisez le signe de sommation pour ecrire les expressions suivantes :

1. y1 + y2 + y3 + y4 + y5 ;

2. n1x1 + n2x2 + . . . + nJxJ ;

3. f1(x1 − a)2 + f2(x2 − a)2 + . . . + fJ(xJ − a)2.

Exercice 2

L’etudiant nomme Cresus recoit de ses parents chaque mois 100 Euros comme argent depoche.

1. Calculez l’argent de poche recu sur une annee.Cresus, etant relativement depensier, travaille egalement pour gagner de l’argent. Lasomme d’argent gagnee varie selon les mois :

Mois Jan Fev Mars Avril Mai Juin Juil Aout Sept Oct Nov DecSomme d’argent 100 125 100 150 175 125 150 200 250 100 150 125

2. Calculez le montant total d’argent dont Cresus peut disposer sur une annee.Neanmoins, Cresus a un GSM dont le cout fixe par mois est de 15 Euros.

3. Calculez la somme d’argent disponible pour une annee apres avoir retenu les frais deson GSM.

Exercice 3

Considerons la serie statistique de taille 5 :x1 = 1; x2 = 4; x3 = 5; x4 = 3; x5 = 2. Determinezla valeur des sommes suivantes :

1.∑5

i=1 xi ;

2.∑5

i=1 4xi ;

3. x = 15

∑5i=1 xi ;

4.∑5

i=1(xi − x) ;

5.∑5

i=1 x2i .

1Les enonces sont disponibles sur le site www.ulb.ac.be/soco/statrope

1

Exercice 4

Trouver la valeur minimale de n (n ≥ 1) tel que :(1−

(23

)n)5

≥ 0.95.

Exercice 5

Considerons l’ensemble E de R suivant : 1, 3, 15, 31, 42, 100. On note A = 1, 15, 42,B = 1, 15, 100 et C = 3, 31.

1. Determiner les ensembles A, A ∪B, A ∩B et A \B.

2. Verifier que A ∪B = A∩B, A ∩B = A∪B et A∪B = (A \B)∪ (A∩B)∪ (B \A).

Exercice 6

Calculer les sommes suivantes :

1.∑10

k=1(25)k et

∑10k=0(2

5)k ;

2.∑∞

k=1(15)k et

∑∞k=0(1

5)k.

Exercice 7

Soient p et n deux entiers naturels tel que, 1 ≤ p ≤ n. Montrez que :

1.(

np

)=(

nn− p

).

2.(

np + 1

)+(

np

)=(

n + 1p + 1

).

3.∑n

k=0(−1)k

(nk

)= 0.

4.∑n

k=0

(nk

)= 2n.

Exercice 8

Considerons la serie de variables suivante : nombre d’enfants dans une famille, couleur desyeux, categorie socio-professionnelle, commune de naissance, niveau de scolarite, revenu,poids, sexe, age, langue maternelle, type de voiture, taille, nombre de grains de beaute surla peau, taille de grains de beaute.Specifier pour chacune de ces variables si elle est qualitative, quantitative, continue,discrete, ordinale ou nominale.

2



Seances 2, 3 et 4 : Statistique descriptive d’une serieunivariee 1

Exercice 1

Un constructeur d’automobiles a demande a 150 individus de faire part de leur preferenceconcernant la couleur de la voiture. Les resultats qu’il obtient sont les suivants :

Couleurs Blanc Noir Rouge Bleu VertEffectifs 43 30 15 32 30

1. De quel type est la variable ?

2. Donnez le tableau de la distribution observee.

3. Representez graphiquement la distribution de la variable.

4. Quels parametres de cette distribution peuvent etre calcules ?

5. Determinez la valeur de ces parametres.

Exercice 2

Lors d’une etude en psychologie sociale sur la mobilite geographique, on a interroge 50personnes pour savoir si elles passaient leurs vacances a l’etranger. Les effectifs obtenussont les suivants :

Vacances a l’etranger Jamais Parfois Souvent ToujoursEffectifs 5 19 23 3


2. Donnez le tableau de la distribution observee (effectifs et effectifs cumules).





1

Exercice 3

Soit la population des etudiants de premiere bachelor a l’ULB en ingenieur de gestion. Uneetude de la Communaute Francaise (en charge de l’enseignement secondaire) s’interessea l’age de ces etudiants. Pour ce faire, on preleve un echantillon de taille n = 50. Lesresultats sont les suivants :

17 20 19 18 21 18 18 19 19 1818 18 17 18 18 20 20 17 18 1721 18 19 20 18 17 21 19 17 1817 17 19 18 18 17 21 19 17 2018 17 19 21 18 20 18 17 19 17


2. Donnez le tableau de la distribution observee (effectifs et effectifs cumules).




Exercice 4

On a mesure, en millisecondes, a quelle vitesse 50 enfants de quatre ans identifiaient desimages simples (ours, lapin, chat . . . ). Les resultats sont les suivants :

24 27 33 21 27 19 23 23 24 1927 30 15 27 24 34 18 20 21 1533 27 20 32 28 27 22 17 30 1821 25 25 29 25 24 32 31 28 2029 24 23 27 17 15 21 28 24 23


2. Regroupez les 50 valeurs en classes. Prenez des classes de longueur 4 et le debut dela premiere classe en 14,5. Donnez le tableau de la distribution groupee (effectifs eteffectifs cumules).

3. Representez graphiquement la distribution groupee.

4. Quels parametres de cette distribution groupee peuvent etre calcules ?


2

Exercice 5

Considerons une serie statistique x1, . . . , xi, . . . , xn relative a un caractere quantitatifX et le changement d’origine et d’unite suivant :

yi = xi−ad , i = 1, . . . , n.

Soient x et s2x la moyenne et la variance de la serie x1, . . . , xi, . . . , xn et y et s2

y celles dela serie y1, . . . , yi, . . . , yn. Demontrez que :

1. y = x−ad ;

2. s2y = s2

x

d2 .

Exercice 6

Une enquete sur le taux de chomage des jeunes femmes en 2002 dans les directionssubregionales de Namur et Charleroi a ete realisee. La direction subregionale de Namurcomprend 31 communes et celle de Charleroi 26 communes. Le taux de chomage moyendes jeunes femmes a Namur est de x1 = 32% avec un ecart-type de s1 = 10%. Le tauxde chomage moyen des jeunes femmes a Charleroi est de x2 = 34% avec un ecart-type des2 = 5%.

1. Enoncez les formules d’agregation de la moyenne et de la variance en definissantsoigneusement chacune des composantes.

2. Calculez la moyenne globale x et la variance globale s2 du taux de chomage pourl’echantillon obtenu en regroupant les communes de Namur et de Charleroi.

Exercice 7

Romeo quitte son domicile a 20 heures pour se rendre chez Juliette a la vitesse moyennede 200 km/h. Il la quitte a 23 heures et retourne chez lui a la vitesse moyenne de 40 km/h.Supposons que la distance a l’aller egale celle du retour.

1. Quelle est dans ce cas la vitesse moyenne de Romeo sur l’aller-retour ?

2. Comment calculer cette vitesse rapidement ?

Exercice 8

Une personne place une somme d’argent K dans une banque pendant une periode de 3ans. Dans cette banque le taux d’interet varie d’une annee a une autre. Il est de 20% lapremiere annee, 10% la seconde annee et de 6% la troisieme annee.

1. Le taux d’interet moyen pour l’ensemble de ces trois annees est-il de 12% ?

2. Comment calculer ce taux rapidement ?

3

Exercice supplementaire 1

Considerons la serie statistique de taille n : x1; x2; . . . ; xn. Montrez que :

1.∑n

i=1(xi − x) = 0, si x = 1n

∑ni=1 xi ;

2. s2x = 1

n

∑ni=1(xi − x)2 = 1

n

∑ni=1 x2

i − x2.


Soit x1, . . . , xn une serie statistique univariee de moyenne x et de variance s2x. Calculez la

moyenne et la variance de la serie des valeurs centrees et reduites z1, . . . , zn ou zi = xi−xsx

.


On a calcule la moyenne et la variance d’une serie de 10 observations et on a obtenules resultats suivants : x = 5.9 et s2

x = 4.83. On a constate ulterieurement qu’une desobservations initiales avait ete transcrite de facon erronee : la valeur consideree au coursdes calculs etait 8.5 alors que la valeur exacte est en realite 6.5. La moyenne et la variancesont recalculees sur les donnees corrigees. Calculez la moyenne et la variance exactes.

Exercice supplementaire 4 (suite de l’exercice 6)

Dans les 2 echantillons, nous avons centre les donnees par rapport a la moyenne globalex de telle sorte que la moyenne globale sur les donnees centrees soit : xnew = 0.

1. Calculez les nouvelles moyennes et variances des 2 comites subregionaux : x1,new,x2,new, s2

1,new et s22,new.

2. Calculez la variance globale s2new pour l’echantillon obtenu en regroupant les com-

munes de Namur et de Charleroi.


Construisez deux series statistiques univariees constituees de 6 observations chacune,x1, x2, . . . , x6 et y1, y2, . . . , y6, telles que,

1. x1/2 = y1/2 mais x > y, ou x1/2 et y1/2 designent les medianes des deux seriesstatistiques.

2. x1/2 = y1/2 mais EDx > EDy, ou EDx et EDy designent les deux ecarts interdecilesdes deux series statistiques.

3. Ex = Ey mais x > y, ou Ex et Ey designent les deux etendues des deux seriesstatistiques.

4. xM = yM et x > y, ou xM et yM designent les modes des deux series statistiques.

5. x = y et sx > sy.

4



Seances 5, 6 et 712 : Introduction a la theorie probabiliste 1

Exercice 1

a) Avec les chiffres 0 et 1, on peut former 8 sequences de longueur 3 : 000, 001, 010, 011, 100,101, 110, 111. Combien de sequences de longueur 10 peut-on former ?

b) Combien de mots de longueur 100 peut-on former avec les lettres K, A, H, J, D, I ?c) Combien de mots de longueur n peut-on former avec un alphabet de m lettres ?

Exercice 2

Trois filles (Annie, Julie et Nathalie) et trois garcons (Damien, Eric et Jonathan) font la file devantun distributeur automatique de billets.

a) Il y a combien d’arrangements possibles ?b) Il y a combien d’arrangements possibles si les trois filles doivent etre ensemble et les trois

garcons doivent etre ensemble ?c) Il y a combien d’arrangements possibles si on exige seulement que les trois filles soient

ensemble ?

Exercice 3

On lance simultanement deux des numerotes de 1 a 6. Determiner l’ensemble fondamental Ω dansles cas suivants :

a) les deux des sont distincts (par exemple un rouge et un bleu).b) les deux des sont identiques.c) les deux des sont identiques et on s’interesse seulement a la parite du resultat.

Exercice 4

Soit L’experience aleatoire consistant au lance de deux des a 6 faces. Nous sommes interesses parles deux evenements suivants :

– A : avoir comme resultat deux fois le meme nombre (la meme face)– B : avoir au moins une fois la face numerotee 5.a) Demontrez a partir des 3 axiomes definissant la probabilite que :

P (A ∪B) = P (A) + P (B)− P (A ∩B).

b) Calculez chacune des 4 probabilites enoncees dans la formule par rapport au cas concretexplicite ci-dessus et montrez que l’egalite enoncee ci-dessus est bien correcte.

c) Les evenements A et B sont-ils dependants ? mutuellement exclusifs ?1Les enonces sont disponibles sur le site www.ulb.ac.be/soco/statrope

1

Exercice 5

Dix couples sont reunis dans une soiree. On admet que, pour danser, chaque homme choisit unefemme au hasard.

a) Quelle est la probabilite pour que chacun des 10 hommes danse avec son epouse ?b) Quelle est la probabilite pour que monsieur Dupond danse avec son epouse ?c) Quelle est la probabilite pour que monsieur Dupond et monsieur Durand dansent avec leur

epouse ?d) Quelle est la probabilite pour que monsieur Dupond ou monsieur Durand dansent avec leur

epouse ?

Exercice 6

On cherche une lettre qui a la probabilite 0.2 de se trouver dans l’un des quatre tiroirs d’unsecretaire. On note A l’evenement “la lettre est dans le quatrieme tiroir” et B l’evenement “lalettre n’est pas dans les trois premiers tiroirs”.

a) Calculez les probabilites P (A ∩B), P (B ∩ A) et P (A ∩ B).b) En deduire les probablites P (A), P (B) et P (A|B).c) Les evenements A et B sont-ils independants ?

Exercice 7

Sept personnes prennent place au rez-de-chaussee dans un ascenseur d’un immeuble de dix etages.Chacune choisit l’etage ou elle sort de l’ascenseur. Quelle est la probabilite que :

a) elles sortent toutes a des etages differents ?b) deux personnes au moins descendent a un meme etage ?c) trois personnes determinees a l’avance descendent a un meme etage et toutes les autres a

des etages differents ?d) trois personnes (n’importe lesquelles) descendent a un meme etage et toutes les autres a des

etages differents ?e) trois personnes (n’importe lesquelles) descendent a un meme etage, deux autres (n’importe

lesquelles) descendent a un autre etage et les deux dernieres encore a un autre etage ?

Exercice 8

Un livre contient cinq fautes d’orthographe. A chaque relecture, on a une probabilite de 1/3 dedetecter et de corriger une faute. On effectue successivement plusieurs relectures independantes.Soit n le nombre de relectures necessaires pour qu’il ne reste aucune faute avec une probabilitesuperieure ou egale a 0.9.

a) Pour chaque faute, quelle est la probabilite pour qu’elle soit corrigee en n relectures ?b) Quelle est la valeur minimale de n ?

Exercice 9

Dans une rue, un panneau publicitaire est remarque par un passant sur quatre. On suppose que,pour un passant, l’evenement ” remarquer le panneau numero i ” est independant de l’evenement” remarquer le panneau numero j ”.

a) Sachant que l’on dispose de deux panneaux dans la meme rue, calculer la probabilite qu’unpassant remarque exactement un seul panneau publicitaire.

2

b) Sachant que l’on dispose de trois panneaux dans la meme rue, calculer la probabilite qu’unpassant remarque au moins un panneau publicitaire.

c) Combien doit-il y avoir de panneaux pour que plus de 95% des passants remarque au moinsune publicite ?

Exercice 10

Dans l’entrepot d’une certaine usine de fabrication de clous, 50% des clous ont ete fabriques parla machine A, 30% par la machine B et 20% par la machine C. Parmi les clous fabriques par lamachine A, 3% sont defectueux. Parmi ceux fabriques par la machine B, 5% sont defectueux etparmi ceux fabriques par la machine C, 8% sont defectueux. On tire un clou au hasard d’un lotconstitue de clous fabriques.

a) Quelle est la probabilite que ce clou ne soit pas defectueux ?b) Sachant que le clou est defectueux, quelle est la probabilite qu’il soit fabrique par la machine

B ?


Une personne rentre chez elle apres une soiree un peu trop arrosee. Elle ne sait plus laquelle des 10cles qui se trouvent dans sa poche ouvre la porte de son domicile. Elle essaie donc les clefs une aune sans utiliser deux fois la meme. Determiner la probabilite pour que la k-ieme cle soit la bonne(1 ≤ k ≤ 10).


On cherche un parapluie qui se trouve dans un immeuble de sept etages. La probabilite qu’il setrouve dans l’un des sept etages est 0.6 et qu’il se trouve au rez-de-chaussee est 0.4. Chacun des septetages est susceptible de cacher le parapluie avec la meme probabilite. On a fouille les six premiersetages et on en a rien trouve. Quelle est la probabilite que le parapluie se trouve au septieme etage ?


Deux etudiants et 14 etudiantes sont assis au hasard sur 16 chaises formant une ligne.

a) Quelle est la probabilite que les deux etudiants soient assis un a cote de l’autre ?

b) Quelle est la probabilite que les deux etudiants occupent les deux extremites de la ligne ?


Deux etudiants et 14 etudiantes sont assis au hasard sur 16 chaises formant un cercle.

a) Quelle est la probabilite que les deux etudiants soient assis un a cote de l’autre ?

b) Quelle est la probabilite que les deux etudiants occupent deux chaisses diametralement op-posees ?


On tire au hasard un nombre de 9 chiffres. Calculez la probabilite p que tous les chiffres soientdifferents.

3


Soient A et B des evenements tels que P (A) = 15 et P (A ∪B) = 1

2 .a) Supposons que A et B soient des evenements mutuellements exclusifs. Calculez P (B).b) Supposons que A et B soient des evenements independants. Calculez P (B).


Une etude a classe les gerants de portefeuilles en deux categories : ceux qui sont bien informes etceux qui ne le sont pas. Lorsqu’un gerant bien informe achete une valeur boursiere pour son client,la probabilite que le cours de celle-ci monte est de 0,8. Dans le cas d’un gerant mal informe, cetteprobabilite ne vaut que 0,5. Si on choisit au hasard un gerant dans un annuaire professionnel, laprobabilite qu’il soit bien informe est de 0,2. Calculez la probabilite qu’un gerant choisi au hasardsoit mal informe, sachant que la valeur qu’il a achetee a monte.


Un etudiant repond a une question a choix multiple. De deux choses l’une : soit il connaıt la reponse,soit il la devine. Soit p la probabilite que l’etudiant connaise la reponse (et donc 1 − p celle qu’illa devine). On admet que l’etudiant qui tente de deviner la reponse, repondra correctement avecune probabilite 1/m, ou m est le nombre de modalite qu’offre la question. Quelle est la probabilitequ’un etudiant connaisse la reponse a la question s’il y a repondu correctement ?


Un etudiant doit suivre 2 cours de math (M1, M2), 3 cours de chimie (C1, C2, C3), et 4 cours dephysique (P1, P2, P3, P4). Il decide de n’assister qu’a 3 cours. S’il choisit au hasard, quelle est laprobabilite qu’il assiste aux deux cours de math ? n’assiste a aucun cours de math ? n’assiste qu’aun cours de math ?


On considere une classe de 42 eleves. On suppose qu’il n’y a pas d’annee bissextile.a) Quelle est la probabilite pour que deux eleves au moins aient la meme date d’anniversaire ?b) Quelle est la probabilte pour qu’au moins un eleve ait la meme date d’anniversaire que

Socrate ?


Dans une classe de 21 etudiants, une personne raconte une histoire a une seconde personne qui laraconte a une troisieme et ainsi de suite. A chaque etape, l’individu, a qui l’on raconte l’histoire,est choisi au hasard. Chacune des etapes est independantes des autres. Notons p1 la probabilite quel’histoire ne revienne pas a son inventeur et p2 la probabilite qu’elle ne soit jamais repetee deuxfois a la meme personne. L’histoire etant racontee 8 fois, calculer p1 et p2.


Dans une population donnee, un individu peut etre atteint d’une affection A avec la probabilitepA = 1/100 et d’une affection B, independante de A, avec une probabilite pB = 1/20. Quelle est laprobabilite pour qu’un individu choisi au hasard soit atteint d’au moins une des deux maladies ?

4



Seances 712 et 8 : Statistique descriptive d’une serie

bivariee 1

Exercice 1

Une enquete realisee aupres des familles d’une ville comporte les deux questions suivantes :– Combien avez-vous eu d’enfants jusqu’a ce jour ?– Combien de televisions avez-vous ?

En ne considerant que 257 familles ayant au moins une television et au moins un enfant, onconstruit un tableau de contingence resumant les reponses donnees a ces deux questions.Le tableau de contingence observe est le suivant :

Nombre d’enfants YNombre de television X 1 2 3 4 5 6

1 12 11 15 15 7 102 9 6 8 3 4 63 11 12 11 15 17 104 10 12 11 15 17 10

1. Determinez les distributions marginales.

2. Determinez les moyennes et variances marginales.

3. Determinez le nombre moyen de televiseurs que possede une famille de 4 enfants.Determinez egalement la variance dans ce cas.

4. Calculez la covariance entre X et Y .

5. Calculez le coefficient de correlation entre X et Y .

Exercice 2

L’association nationale des entrepreneurs du batiment evalue les marches immobiliers lesplus abordables et les moins abordables. Les donnees sur le revenu moyen (en milliers dedollars) et le prix de vente moyen (en milliers de dollars) d’un echantillon de 12 marchesimmobiliers choisis parmi la liste des marches les plus abordables, sont presentes ci-dessous(The Wall Street Journal Almanac 1998).


1

Marche Revenu PrixSyracuse, NY 41.8 76Springfield, IL 47.7 91

Lima, OH 40 65Dayton, OH 44.3 88

Beaumont, TX 37.3 70Lakeland, FL 35.9 73

Baton Rouge, LA 39.3 85Nashau, NH 56.9 118Racine, WI 46.7 81

Des Moines, IA 48.3 89Minneapolis-St. Paul, MN 54.6 110

Wilmington, DE-MD 55.5 110

1. Deduisez de cet enonce la variable explicative et la variable reponse.

2. Representez graphiquement ces donnees.

3. Determinez les moyennes et variances marginales, ainsi que la covariance.

4. Determinez l’equation de la droite de regression correspondante.

5. Est-ce que cette equation est bien adaptee aux donnees ? Expliquez.

6. Calculez les variances residuelle et de regression.

7. Le revenu moyen a Binghamton, dans l’Etat de New York, s’eleve a 40100 dollars.Utilisez l’equation estimee de la regression pour prevoir le prix de vente moyen desmaisons vendues sur le marche de Binghamton.

8. Calculez la valeur predite et le residu correspondants a l’observation Springfield.

9. Que valent la moyenne des residus et la moyenne des valeurs predites ?

Exercice 3

Dans une enquete realisee aupres de 200 personnes en activite, deux variables qualitativesetaient mesurees. La premiere consistait a savoir leur niveau d’etudes et la deuxiemeportait sur le secteur ou ils travaillaient.Le tableau de contingence observe est le suivant :

njk Public Prive Autre

Primaire 10 4 30Secondaire 25 16 15Superieur 35 60 5

1. Determinez les profils-lignes et les profils-colonnes.

2. Calculer les effectifs theoriques esperes sous l’hypothese d’independance.

3. Calculer les ecarts a l’independance. Interpreter ces ecarts.

4. Calculer la mesure d’association D2.

2


Une societe de consultance a releve le revenu annuel X (en milliers d’euros) et l’epargnecorrespondante Y (en milliers d’euros) de 12 familles. Les resultats sont dans le tableausuivant :

Famille 1 2 3 4 5 6 7 8 9 10 11 12Revenu 21 21 19 23 19 20 24 18 19 21 21 22Epargne 2.2 1.8 1.9 1.9 2.3 1.9 2.0 2.4 1.8 1.9 2.1 2.2

1. Determinez les moyennes et les variances marginales.

2. Determinez la moyenne et la variance de l’epargne des familles qui ont un revenusuperieur ou egal a 21 mille euros.

3. Determinez l’equation de la droite de regression de Y en X.



6. Calculez la valeur predite et le residu correspondant a la famille 8.


Un echantillon de 82 femmes agees de plus de 40 ans et ayant au moins un enfant, a eteclasse selon les deux criteres suivants : le nombre de freres et soeurs (vivants ou decedes)(Y ) et le nombre d’enfants (X). Les resultats obtenus sont presentees dans le tableausuivant :

Nombre de freres et soeurs YNombre d’enfants X 0 1 2 3 4

1 4 4 1 1 02 9 15 5 2 03 4 11 9 2 04 1 5 1 1 25 0 2 1 0 2

1. Determinez les distributions marginales.

2. Determinez les moyennes et variances marginales.

3. Determinez les distribution conditionnelles de Y en X = 3 et de X en Y = 2.Determinez egalement les moyennes et variances conditionnelles.

4. Calculez la covariance entre X et Y .


3


Le tableau suivant donne la repartition de 200 etudiants de premiere annee universitaireselon deux caracteres statistiques : l’age X et le principal sport pratique Y .

njk Football Natation Tennis Equitation

18 ans 45 23 15 319 ans 29 18 8 220 ans 18 10 3 221 ans 14 8 2 0

1. De quels types sont les deux variables ?

2. Quels parametres peuvent etre calcules pour chacune de ces deux variables ?

3. Calculer la moyenne et la variance de la distribution marginale en X.

4. Calculer les effectifs theoriques esperes sous l’hypothese d’independance entre X etY .

5. Calculer les ecarts a l’independance.

6. Calculer la mesure d’association D2.


Dans une classe, on a mesure la taille (en pouces) et le poids (en livres) de 10 eleves.L’objectif est d’etudier le poids (Y ) en fonction de la taille (X). Le tableau ci-dessouspresente les resultats obtenus par les 10 eleves

Nom Albert Alice Cindy Carol Henry July Jane Janet Jack JohnTaille 69.0 56.5 65.3 62.8 63.5 57.3 59.8 62.5 62.5 59.0Poids 112.5 84.0 98.0 102.5 102.5 83.0 84.5 112.5 84.0 99.5


2. Determinez l’equation de la droite de regression de Y en X.



5. Sachant que 1 pouce = 2.54 cm et 1 livre = 0.454 kg. A quel poids (en kg) peut-ons’attendre chez un eleve qui mesure 177.8 cm ?

4



Seances 9 et 1012 : Analyse d’une serie chronologique 1

Exercice 1

Pendant trois semaines consecutives, on a observe le nombre de visiteurs d’un musee dont lesjours de fermeture sont le samedi et le dimanche.

Lundi Mardi Mercredi Jeudi VendrediPremiere semaine 7 5 35 5 6Deuxieme semaine 8 9 45 8 9Troisieme semaine 10 11 25 9 11

Considerons un modele additif sans composante cyclique : Y = T + S + E.

1. Representez graphiquement Y en fonction du temps. Pourquoi prend-on un modele additif ?

2. Calculez les moyennes mobiles d’ordre 5, notees MM(5). Representez graphiquement cettemoyenne mobile. Pourquoi prend-on un ordre 5 ?

3. Effectuez un ajustement lineaire sur cette serie chronologique Y . Representez graphique-ment cet ajustement.

4. Determinez les composantes saisonnieres par la methode de comparaison a la tendance.

5. Sur base du modele additif et des resultats ci-dessus, donnez la prevision pour le lundi etle mardi de la 4ieme semaine.

Exercice 2

Les 12 observations suivantes representent le nombre de magasins ouverts, par trimestre etpendant trois annees, dans une station de sport d’hiver :

TrimestresAnnees T1 T2 T3 T4

2002 60 30 10 852003 72 36 18 742004 86 29 20 100

1. Calculez les moyennes mobiles centrees d’ordre 4, notees MMC(4).

2. Determinez les composantes saisonnieres par la methode de comparaison a la moyennemobile.


1

Exercice 3

Les 10 observations suivantes representent la valeur d’une action observee pendant 10 moisconsecutifs :

t 1 2 3 4 5 6 7 8 9 10Y 40 41 40 39 77 70 40 17 25 39

1. Effectuez une prevision par lissage exponentiel simple de la valeur de cette action pour le11ieme mois, avec comme valeur de α = 0.3.

2. Supposons que l’observation pour le 11ieme mois soit 50. Effectuez alors une prevision dela valeur de cette action pour le 12ieme mois en utilisant votre resultat en 1.


Le tableau ci-dessous contient des valeurs experimentales de la pression P (en Pascals) d’uncertain gaz en fonction de son volume V (en m3) :

P 65 50 40 35 50V 50 60 70 80 55

On suspecte entre P et V une relation de la forme ” P.V b = c ”, ou b et c sont des constantes.

1. Estimez la valeur de ces constantes en utilisant les resultats d’un certain ajustement lineaireau sens des moindres carres.

2. En utilisant cet ajustement, estimez la valeur de P pour le cas ou V vaut 100 m3.


La production annuelle d’electricite pour les entreprises publiques d’un pays pendant ces 7dernieres annees est :

t 1998 1999 2000 2001 2002 2003 2004Y 3.5 2.5 4.3 3 1.5 3.2 3

1. Effectuez un ajustement hyperbolique ( prendre une hyperbole equilatere) sur ces donnees.

2. Sur base de cet ajustement, donnez une prevision de la production annuelle d’electricitepour l’annee 2005.

2



Seances 1012 , 11 et 12 : Variables aleatoires et lois de

probabilite discretes 1

Exercice 1

Soit X la variable aleatoire dont la loi est definie par le tableau suivant :

k 1 2 3 4 5P (X = k) 0.25 0.1 0.2 p 0.35

1. Determiner la valeur de p.

2. Calculer l’esperance mathematique et la variance de X.

3. Calculer le mode et la mediane de X.

4. Calculer la valeur de la fonction de repartition de X en 2, 2.76 et 7.

Exercice 2

On designe par X la variable aleatoire qui represente le nombre de boules rouges obtenuesapres cinq tirages avec remise dans une urne qui contient deux boules rouges et six boulesblanches.

1. Determiner la loi de probabilite de X.

2. Calculer E(X) et V ar(X).

3. Calculer la probabilite de tirer au moins une boule rouge.

4. Calculer la probabilite que le nombre de boules rouges soit superieur ou egal a 1 etinferieur au egal a 3.

5. Calculer les quantiles d’ordre 0.25, 0.5, 0.75 de X.

6. Determiner la distribution du nombre de boules blanches, parmi les 5 boules tirees.


1

Exercice 3

Le nombre de micro-ordinateurs vendus chaque jour dans un magasin informatique suitune loi de Poisson de moyenne 8. Calculer la probabilite que dans une journee :

1. on ne vende aucun micro-ordinateur,

2. on vende au moins un micro-ordinateur,

3. le nombre de micro-ordinateurs vendus soit superieur ou egal a 2 et inferieur ou egala 6.

Exercice 4

On lance 8 balles pour atteindre une cible. Les differents lancements sont independants.Si on lance une balle, la probabilite qu’elle atteingne la cible est 0.95. Soit X la variablealeatoire qui compte le nombre de fois que la cible a ete atteinte.

1. Determinez la loi de probabilte de X.

2. Combien de balles seront necessaires pour etre sur que la cible ait ete atteinte aumoins une fois avec une probabilite superieure ou egale a 0.99.

3. Calculez la probabilite que la cible soit atteinte au moins quatre fois.

4. Supposons qu’on lance 100 balles, calculez la probabilite que :

i) la cible soit atteinte exactement 96 fois,

ii) la cible soit atteinte plus que 92 fois.

Exercice 5

Un gardien de nuit doit ouvrir une porte dans le noir, avec 10 clefs dont une seule estla bonne. Soit X la variable aleatoire qui compte le nombre d’essais necessaires jusqu’al’ouverture de la porte. Le gardien etant ivre, il melange toutes les clefs a chaque tentative.

1. Quelles sont les valeurs possibles de X ?

2. Calculez la probabilite de l’evenement [X = k], ou k est une valeur prise par X.

3. De quel type de distribution s’agit-il ?

4. Donnez les valeurs de la moyenne et de la variance de X.

5. Quelle est la probabilite que la porte soit ouverte apres n tentatives ?

6. Le gardien se dit avant de commencer : “ Si j’essaie n fois, j’ai une probabilite d’aumoins 0.95 de reussir a ouvrir la porte”. Quelle est la valeur minimale de n ?

Exercice 6

Dans une urne qui contient 10 boules numerotees de 1 a 10, on extrait 3 boules avecremise. Soient X la variable aleatoire egale au plus grand des 3 numeros tires.

1. Quelles sont les valeurs possibles de X ?

2

2. Calculez la probabilite de l’evenement [X ≤ k], ou k est une valeur prise par X.

3. Deduire la loi de probabilite de X.

4. Calculez P (1 < X ≤ 3).

5. Les deux evenements (X = 1) et (X = 3) sont-ils independants ? (Justifiez votrereponse).

6. Calculez la probabilite que X soit paire.

Exercice 7

Soit X une variable aleatoire discrete qui ne peut prendre que les valeurs 1, 3 et 6 avecdes probabilites 1

4, 1

2et 1

4.

1. Quelle est la fonction generatrice des moments de X ?

2. En utilisant le resultat precedent, calculez l’esperance mathematique et la variancede X.


Dans une entreprise travaillent 6 ouvriers et 5 employes. Le PDG, souhaitant prendre l’avisde son personnel, interroge 7 personnes choisies au hasard parmi ces 11 personnes. SoitX la variable aleatoire : ”nombre d’ouvriers interroges”. Determiner la loi de probabilitede X.


Une variable aleatoire X peut prendre l’une des trois valeurs 0, 1 ou 2 avec des probabilitespositives. Determiner sa loi de probabilite sachant que E(X) = 1 et V ar(X) = 1/2.


Soit X la variable aleatoire discrete qui associe a chaque enfant de 8 ans le nombre debonnes reponses qu’il fournit lors d’un test de discrimination droite-gauche des mains. Xobeit a la distribution de probabilite suivante :

Nombre de bonnes reponses k 0 1 2 3 4 5 6P (X = k) 0.05 0.15 0.20 0.25 0.20 0.10 0.05

1. On choisit au hasard un enfant de 8 ans. Calculez la probabilite des evenementssuivants :i) L’enfant fournit au moins 2 bonnes reponses mais pas plus de 5.ii) Le nombre de bonnes reponses fournies par l’enfant est strictement superieur a

4.

3

2. Calculez le mode et la mediane de X.

3. Calculez la moyenne de X et la valeur de la fonction de repartition de X en 3.4.

4. Supposons que l’on selectionne, par tirages aleatoires a probabilites egales avec re-mise, un echantillon de 25 enfants de 8 ans.i) Quelle est la distribution de probabilite de la variable aleatoire Y correspondant

au nombre d’enfants donnant 4 bonnes reponses dans l’echantillon ?ii) A combien d’enfants donnant 4 bonnes reponses peut-on raisonnablement s’at-

tendre dans l’echantillon ?


Soit X une loi binomiale de moyenne 3 et de variance 2. Calculez P (X = 7).


Un gardien de nuit doit ouvrir une porte dans le noir, avec n clefs dont une seule estla bonne. Soit X la variable aleatoire qui compte le nombre d’essais necessaires jusqu’al’ouverture de la porte. Determinez la loi de probabilite de X si le gardien essaie les clefsune a une sans utiliser deux fois la meme. Calculez l’esperance et la variance de X.


On considere une succession d’epreuves de Bernoulli independantes de meme parametre.A chaque epreuve la probabilite de succes est notee p (p ∈]0, 1[). On note X la longueuraleatoire du “run” demarrant au premier coup, ou l’on appelle “run” une succession soit desucces ou d’echecs interrompue par l’evenement contraire. Par exemple pour une sequencedebutant par SSSE...le premier run est de longueur 3 et est un run de succes. Trouver laloi de X et son esperance.


On considere un point M se deplacant sur un axe d’origine O, en partant de O et parsauts d’une unite vers la droite avec la probabilite 0.2 et vers la gauche avec la probabilite0.8. Les sauts etant supposes independants.

Soit X la variable aleatoire egale a l’abscisse du point a l’issue du 8ieme deplacement etY la variable aleatoire egale au nombre de sauts vers la droite.

1. Determiner la loi de probabilite de Y .

2. Donner les valeurs de la moyenne et de la variance de Y .

3. Calculer les quantiles d’ordre 0.25, 0.5, 0.75 de Y .

4. Exprimer la variable aleatoire egale au nombre de sauts vers la gauche en fonctionde Y .

5. Deduire l’expression de X en fonction de Y .

4

6. Quelles sont les valeurs prises par X ?

7. Determiner la loi de probabilite de X.


Un fumeur dispose d’un nombre infini d’allumettes. La probabilite qu’une allumettes’eteigne est 0.2 . Le fumeur tente d’allumer sa cigarette, chaque essai est independantdes autres. S’il allume sa cigarette, il cesse d’allumer des allumettes. Soit X la variablealeatoire egale au nombre d’allumettes utilisees.

1. Quelles sont les valeurs prises par X ?

2. Calculez la probabilite de l’evenement [X = k], ou k est une valeur prise par X.

3. De quel type de distribution s’agit-il ?

4. Donnez les valeurs de la moyenne et de la variance de X.

5. Quelle est la probabilite qu’il reussisse a allumer sa cigarette avec n allumettes ?

6. Combien d’allumettes seront necessaires pour qu’il reussisse a allumer sa cigaretteavec une probabilte superieure ou egale a 0.95.

7. Pour tout k ≥ 1, montrez que

P (X = n + k|X > n) = P (X = k).

8. Sachant que le nombre d’allumettes utilisees est superieure strictement a 10, quelleest la probabilite qu’il reussisse a allumer sa cigarette avec exactement 18 allu-mettes ?


Les valeurs prises par une variable binomiale X de parametres n et p sont affichees parun compteur de la facon suivante :

– Si X prend une valeur non nulle, le compteur affiche correctement cette valeur.– Si X prend la valeur 0, le compteur affiche n’importe quoi, au hasard, entre 1 et n.

On note Y la variable aleatoire “nombre affiche par le compteur”.

1. Quelle sont les valeurs prises par Y ?

2. Calculer la probabilite P (Y = k|X = 0), pour un k ∈ VY .

5



Exercices supplementaires

Exercice 1

Questions a choix multiples : il y a au moins une reponse exacte par question.

(a) Pour une serie d’observations d’une variable quantitative :

1. on peut calculer quatre quartiles ;

2. l’ecart interquartile contient 50% des observations ;

3. le cinquieme decile est egal a la mediane ;

4. 50% des observations sont superieures au premier quartile ;

5. l’ecart interdecile contient 90% des observations.

(b) Si on veut minimiser l’influence des valeurs extremes :

1. on prefere la mediane a la moyenne ;

2. on prefere l’etendue a l’ecart interquartile ;

3. on prefere l’ecart interdecile a l’etendue ;

4. on prefere le coefficient empirique de Yule et Kendall au coefficient de Fisher ;

5. on prefere l’ecart interquartile a l’ecart-type.

(c) Une etude des notes obtenues par deux groupes de premiere bachelor a l’ULB ensciences economiques a un test commun a fourni les resultats suivants :

Groupe Groupe 1 Groupe 2Effectif 20 30

Moyenne 16 13Ecart-type 6 6

Mode 14 11Mediane 14 11

1. la note moyenne des deux groupes reunies est comprise strictement entre 14, 25et 14, 45 ;

2. l’ecart-type des notes des deux groupes reunies est superieur strictement a6, 12 ;

3. la mediane des notes des deux groupes reunies est egale a 12 ;

4. la distribution du premier groupe presente une asymetrie a gauche ;

5. la dispersion dans le deuxieme groupe est plus importante que dans le premier.

1

(d) Soit x1, x2, . . . , xn un echantillon de donnees numeriques, determinez la ou lesaffirmation(s) toujours exacte(s) :

1. 1n

∑ni=1(xi − x) = 0 ;

2. 1n

∑ni=1 |xi − x9/10| ≥ 1

n

∑ni=1 |xi − x1/2| ;

3.∑n

i=1 x2i ≥ 1

n(∑n

i=1 xi)2 ;

4. 1n

∑ni=1 x2

i ≤ s2x ;

5. 1n

∑ni=1(xi − x)2 ≥ 1

n

∑ni=1(xi − x1/2)

2 ;

6. si la distribution presente une asymetrie a droite alors x ≤ x1/2 ≤ xM ; ;

7. EQ ≤ 12(a2 − a1), ou EQ est l’ecart interquartile, a1 et a2 sont les valeurs

pivots ;

8. si tous les xi ∈ (a1, a2) alors xg = x(1) et xd = x(n), ou xg et xd sont les valeursadjacentes.

(e) Pour une distribution observee (xj, nj); j = 1, . . . , J relative a une variable quan-titaive X,

1. pour que la variance soit nulle, il suffit que 1n

∑Jj=1 njx

2j =

(1n

∑Jj=1 njxj

)2

;

2. 1n

∑Jj=1 nj(xj − x) ≤ s2

x ;

3. la variance est : s2x = 1

n

∑Jj=1(njx

2j − x2) ;

4. pout tout j = 1, . . . , J , Nj = n1 + n2 + . . . + nj ;

5. N∗j est le nombre d’observations ≤ xj ;

6. la courbe cumulative a gauche est une fonction en escalier (continue a droite).

(f) Considerons une serie statistique x1, . . . , xn relative a un caractere quantitatif Xet le changement d’origine et d’unite suivant :

yi = (xi − 2)/10, i = 1, . . . , n.

Dans ces conditions, comment se transforment la moyenne, le mode, la mediane,l’ecart-type, etc de la serie statistique y1, . . . , yn. Determinez la ou les affirma-tion(s) totalement exacte(s) :

1. la moyenne et la mediane diminuent de 2 et la variance reste inchangee ;

2. la moyenne et le mode diminuent de 2 et ensuite divises par 10, et la varianceest divisee par 10 ;

3. la moyenne, le mode, le premier decile et le troisieme quartile sont diminues de2 et ensuite divises par 10.

4. l’etendue, l’ecart-type et l’ecart interquartile sont divises par 10 et le coefficientde Fisher reste inchange ;

5. le coefficient de variation, le coefficient empirique de Yule et Kendall et lecoefficient empirique de Pearson restent inchanges.

2

(g) Pour une variable quantitative de distribution symetrique, determinez la ou lesaffirmation(s) toujours exacte(s) :

1. 50% des observations sont superieures a la moyenne ;

2. la moyenne est egale au mode ;

3. x3/4 − x1/4 = 2(x1/2 − x1/4) ;

4. 1n

∑ni=1(xi − x1/2) = 0 ;

5. s2x + x2

1/2 = 1n

∑ni=1 x2

i .

(h) Pour comparer des distributions de variables statistiques exprimees dans des unitesdifferentes (par exemple des distributions de salaires exprimes dans des monnaiesdifferentes), on peut utiliser les caracteristiques suivantes :

1. la mediane ;

2. l’ecart interquartile ;

3. le coefficient de variation ;

4. le rapport interdecilex9/10

x1/10;

5. la moyenne.

(i) Soient deux evenements independants A et B d’un meme espace probabilise telsque : P (A) = 0, 3 et P (B) = 0, 2. Determinez la ou les affirmation(s) correcte(s) :

1. P (A ∪B) = 0, 44 ;

2. P (A ∩B) = 0, 6 ;

3. P (A ∩B) = 0, 06 ;

4. P (A \B) = 0, 24 ;

5. P (A ∪B) = 0, 84 ;

6. A et B sont independants ;

7. P (A|B) = 0, 7 ;

8. A et B ne sont pas independants.

(j) Trois chasseurs visent simultanement un meme lievre et tirent en meme temps.Soient p1, p2 et p3 les probabilites respectives de toucher le lievre pour chaquechasseur (p1 ≤ p2 ≤ p3), alors la probabilite que le lievre soit touche par au moinsun des chasseurs :

1. peut etre inferieure a p1 ;

2. est egale a (p1 + p2 + p3) ;

3. est egale a [1− (1− p1)(1− p2)(1− p3)] ;

4. est comprise entre (p1.p2.p3) et (p1 + p2 + p3) ;

5. est comprise entre [1− (1− p1)3] et [1− (1− p3)

3].

(k) Soient A et B deux evenements d’un espace probabilise tels que P (A) = P (B) = 34.

Determinez la ou les affirmation(s) toujours exacte(s) :

3

1. A et B sont des evenements mutuellement exclusifs ;

2. P (A ∩B) ≤ P (A ∪B) ;

3. 34≤ P (A ∪B) ≤ 1 et 1

2≤ P (A ∩B) ≤ 3

4;

4. 12≤ P (A ∪B) < 3

4et 3

4< P (A ∩B) ≤ 1 ;

5. aucune des affirmations ci-dessus n’est correcte.

(l) Dans une classe, on a mesure la taille (en pouces) et le poids (en livres) de 10eleves. L’objectif est d’etudier le poids en fonction de la taille. Le tableau ci-dessouspresente les resultats obtenus pour 10 eleves (4 decimales dans cet exercice).

Nom Albert Alice Cindy Carol Henry July Jane Janet Jack JohnTaille 69.0 56.5 65.3 62.8 63.5 57.3 59.8 62.5 62.5 59.0Poids 112.5 84.0 98.0 102.5 102.5 83.0 84.5 112.5 84.0 99.5

Sachant que 1 pouce = 2.54 cm et 1 livre = 0.454 kg, determinez la ou les affirma-tion(s) toujours exacte(s) :

1. La pente de la droite de regression de y en x est inferieure strictement a 2.1997 ;

2. La prevision du poids chez un eleve qui mesure 177.8 cm est une valeur inferieurestrictement a 116 livre ;

3. La prevision du poids chez un eleve qui mesure 177.8 cm est une valeur comprisestrictement entre 53 et 55 kg ;

4. Le residu correspondant a l’etudiant Henry est superieure strictement a 1 kg ;

5. L’equation de la droite de regression de y en x est bien adaptee aux donnees.

(m) Le tableau suivant donne la repartition de 200 etudiants de premiere annee uni-versitaire selon deux caracteres statistiques : l’age X et le principal sport pratiqueY .

njk Football Natation Tennis Equitation

18 ans 45 23 15 319 ans 29 18 8 220 ans 18 10 3 221 ans 14 8 2 0

Determinez la ou les affirmation(s) toujours exacte(s) :

1. Le coefficient empirique de Pearson de la variable X est superieur strictementa 0, 961 ;

2. Le coefficient de Fisher de la variable X est compris strictement entre 0.55 et0.75 ;

3. Le coefficient de variation de la variable age est inferieur strictement a 0.08 ;

4. La somme des ecarts a l’independance est nulle ;

5. La mesure d’association est inferieure strictement a 4.456.

4

(n) Un jouet se trouve cache dans l’une des N boıtes fermees ou un enfant le cherche.Celui-ci ouvre une boıte au hasard et recommence jusqu’a ce qu’il trouve le jouet.On suppose qu’a chaque tentative il a oublie le resultat de toutes les precedentes.Soit X le nombre de tentatives effectuees jusqu’a la decouverte du jouet. Determinezla ou les affirmation(s) toujours exacte(s) :

1. V ar(X) = (E(X))2 − E(X) ;

2. Il faut 5 boıtes pour que l’enfant ait environ trois chances sur quatre de trouverle jouet a l’issue de ses trois premieres tentatives ;

3. Aucune des affirmations ci-dessus n’est correcte ;

4. X suit une distribution geometrique de parametre 1/N ;

5. Le jouet est trouve a l’issue de n tentatives avec une probabilite egale a 1 −(1− 1

n)N .

(o) Dans une urne qui contient 10 boules numerotees de 1 a 10, on extrait 3 boulesavec remise. Soient X la variable aleatoire egale au plus grand des 3 numeros tires.Determinez la ou les affirmation(s) toujours exacte(s) :

1. X est une variable aleatoire Binomiale de moyenne 0.3 ;

2. La probabilite que X soit paire est comprise strictement entre 0.567 et 0.578 ;

3. La probabilite que X soit impaire est inferieure a 0.578 ;

4. 0.025 < P (1 < X ≤ 3) < 0.03 ;

5. Les deux evenements (X = 1) et (X = 3) sont dependants.

Exercice 2

Considerons la distribution des salaires (en euros) dans les entreprises du secteur prive enfrance pour les annees 1975 et 2005. L’intervalle de variation des salaires est partage en 5classes. Notons xcj le centre de la classe j et nj l’effectif de la classe j pour (j = 1, . . . , 5).

1975 2005Classe xcj nj Classe xcj nj

1 1130 20 1 1706 202 1400 20 2 2030 203 1850 20 3 2475 204 2590 20 4 3200 205 5150 20 5 5815 20

1. Construisez les courbes de Lorentz pour les annees 1975 et 2005. Comparez laconcentration des salaires entre ces deux annees.

2. Calculez le coefficient de Gini pour les deux annees. Interpretez ces coefficient.

5

Exercice 3

Le tableau ci-dessous presente les prix et les quantites de Coca-Cola et de BigMac acheteespar un consommateur en 2000 et 2005.

BigMac (j = 1) BigMac (j = 2)Prix en $ (a la piece) Quantite (piece) Prix en $ (au litre) Quantite (litre)

p(1)i q

(1)i p

(2)i q

(2)i

2000(i = 0) 2 12 1.5 72005(i = 1) 3 13 2 10

Comment donner une mesure de la variation de prix du panier compose des ces deuxproduits ?

Exercice 4

Une meme somme S a ete confiee a deux banques B1 et B2 pour une duree de 10 ans. Lesrendements successifs des placements effectues par les dux banques ont ete les suivants :

– Bnaque B1 : 12% pendant 2 ans, puis 8% pendant 4 ans, puis 6% pendant 4 ans ;– Bnaque B2 : 10% pendant 3 ans, puis 8% pendant 3 ans, puis 7% pendant 4 ans.

1. Calculez le taux moyen de croissance dans chaque banque.

2. A quel taux la moins performante des deux banques aurait-elle du placer l’argentpendant la troisieme periode pour egaler l’autre ?

Exercice 5

Un jeu de cartes ordinaire comprend 52 cartes. Chacune de ces 52 cartes appartient a unecouleur (le carreau, le coeur, le trefle et le pique) et possede une valeur (2, 3, 4, 5, 6, 7, 8,9, 10, J (valet), Q (dame), K (roi) et A (as)). Pour les questions qui suivent, on considereune main de poker, c’est-a-dire une combinaison de 5 cartes tirees au hasard a partir d’unjeu de 52 cartes. Quelle est la probabilite qu’une main contienne :

1. une paire, c’est-a-dire une main de poker contenant en tout 4 valeurs differentes ?

2. deux paires, (Les deux paires ne peuvent pas avoir la meme valeur et la valeur dela cinquieme cartes doit etre differente des valeurs des deux paires) ?

3. un brelan, c’est-a-dire une main de poker contenant trois cartes de la meme valeur(Les deux autres cartes doivent etre de valeurs differentes entre elles et differentesde la valeur commune aux trois premieres cartes) ?

4. une main pleine, c’est-a-dire une main de poker contenant trois cartes d’une valeuret deux cartes d’une autre valeur ?

5. un carre, c’est-a-dire une main de poker contenant quatre cartes de la meme valeur(et une cinquieme carte quelconque) ?

6

Cours de Statistique

Documents

Transcript of Cours de Statistique