Statistique descriptive...

32
Statistique descriptive bivariée Michaël Genin Université de Lille 2 EA 2694 - Santé Publique : Epidémiologie et Qualité des soins [email protected]

Transcript of Statistique descriptive...

Page 1: Statistique descriptive bivariéecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/...Statistique descriptive bivariée Michaël Genin Université de Lille 2 EA 2694 - Santé

Statistique descriptive bivariée

Michaël Genin

Université de Lille 2EA 2694 - Santé Publique : Epidémiologie et Qualité des soins

[email protected]

Page 2: Statistique descriptive bivariéecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/...Statistique descriptive bivariée Michaël Genin Université de Lille 2 EA 2694 - Santé

Plan

1 Introduction

2 Variable qualitative / Variable qualitative

3 Variable quantitative / Variable qualitative

4 Variable quantitative / Variable quantitative

Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 1 / 28

Page 3: Statistique descriptive bivariéecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/...Statistique descriptive bivariée Michaël Genin Université de Lille 2 EA 2694 - Santé

Plan

1 Introduction

2 Variable qualitative / Variable qualitative

3 Variable quantitative / Variable qualitative

4 Variable quantitative / Variable quantitative

Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 1 / 28

Page 4: Statistique descriptive bivariéecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/...Statistique descriptive bivariée Michaël Genin Université de Lille 2 EA 2694 - Santé

Plan

1 Introduction

2 Variable qualitative / Variable qualitative

3 Variable quantitative / Variable qualitative

4 Variable quantitative / Variable quantitative

Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 1 / 28

Page 5: Statistique descriptive bivariéecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/...Statistique descriptive bivariée Michaël Genin Université de Lille 2 EA 2694 - Santé

Plan

1 Introduction

2 Variable qualitative / Variable qualitative

3 Variable quantitative / Variable qualitative

4 Variable quantitative / Variable quantitative

Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 1 / 28

Page 6: Statistique descriptive bivariéecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/...Statistique descriptive bivariée Michaël Genin Université de Lille 2 EA 2694 - Santé

Introduction

Point étudié

1 Introduction

2 Variable qualitative / Variable qualitative

3 Variable quantitative / Variable qualitative

4 Variable quantitative / Variable quantitative

Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 2 / 28

Page 7: Statistique descriptive bivariéecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/...Statistique descriptive bivariée Michaël Genin Université de Lille 2 EA 2694 - Santé

Introduction

Motivations

Pour approfondir l’analyse, il est souvent utile de croiser certaines variables entreelles :

Croiser le niveau de satisfaction avec le sexe (les femmes sont-elles plus satisfaites queles hommes par rapport à ce produit ?)Croiser l’âge avec le sexe (quelle est la moyenne d’âge chez les hommes ? Chez lesfemmes ?)Croiser l’âge avec le poids (l’âge est-il corrélé au poids ? )

Les représentations statistiques diffèrent en fonction du type de variables croisées :qualitative/qualitativequalitative/quantitativequantitative/quantitative

L’analyse descriptive bivariée prépare l’inférence statistique :Liaison entre variablesCorrélation entre variables

Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 3 / 28

Page 8: Statistique descriptive bivariéecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/...Statistique descriptive bivariée Michaël Genin Université de Lille 2 EA 2694 - Santé

Variable qualitative / Variable qualitative

Point étudié

1 Introduction

2 Variable qualitative / Variable qualitativePrésentation des donnéesReprésentations graphiques

3 Variable quantitative / Variable qualitative

4 Variable quantitative / Variable quantitative

Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 4 / 28

Page 9: Statistique descriptive bivariéecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/...Statistique descriptive bivariée Michaël Genin Université de Lille 2 EA 2694 - Santé

Variable qualitative / Variable qualitative Présentation des données

Point étudié

1 Introduction

2 Variable qualitative / Variable qualitativePrésentation des donnéesReprésentations graphiques

3 Variable quantitative / Variable qualitative

4 Variable quantitative / Variable quantitative

Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 5 / 28

Page 10: Statistique descriptive bivariéecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/...Statistique descriptive bivariée Michaël Genin Université de Lille 2 EA 2694 - Santé

Variable qualitative / Variable qualitative Présentation des données

Présentation des données

ConsidéronsX = {x1, x2, . . . , xl}

Y = {y1, y2, . . . , ym}

deux variables qualitatives ayant respectivement l et m modalités.

ExempleNiveau de satisfaction : Mauvais, Passable, Bon, Excellent.Sexe : Masculin, Féminin

Tableau de contingenceBasé sur l’effectif et la fréquence de chaque croisement de modalitéNotions supplémentaires : fréquences lignes et fréquences colonnes (conditionnelles)Permet, d’une manière descriptive, d’étudier le "lien" entre deux variablesqualitatives

Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 6 / 28

Page 11: Statistique descriptive bivariéecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/...Statistique descriptive bivariée Michaël Genin Université de Lille 2 EA 2694 - Santé

Variable qualitative / Variable qualitative Présentation des données

Présentation des données - Effectifs joints / Effectifs marginaux

X = {x1, x2, . . . , xl}, Y = {y1, y2, . . . , ym}

Variable Yy1 y2 . . . yj . . . ym Total

Variable X

x1 n11 n12 . . . n1j . . . n1m n1.

x2 n21 n22 . . . n2j . . . n2m n2.

......

... . . .... . . .

......

xi ni1 ni2 . . . nij . . . nim ni....

...... . . .

... . . ....

...xl nl1 nl2 . . . nlj . . . nlm nl.

Total n.1 n.2 . . . n.j . . . n.m n

nij : effectif joint de la modalité xi et de la modalité yjni. : effectif marginal de la modalité xin.j : effectif marginal de la modalité yjn : taille de l’échantillon

Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 7 / 28

Page 12: Statistique descriptive bivariéecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/...Statistique descriptive bivariée Michaël Genin Université de Lille 2 EA 2694 - Santé

Variable qualitative / Variable qualitative Présentation des données

Présentation des données - Fréquences jointes / Fréquences marginales

Fréquence jointe : Fréquence du couple de modalités (xi , yj)

fij = nij

n

Fréquence marginale : Fréquence de la modalité (xi)

fi. = ni.

n(resp. f.j = n.j

n pour (yj))

Variable Yy1 y2 . . . yj . . . ym Total

Variable X

x1 f11 f12 . . . f1j . . . f1m f1.

x2 f21 f22 . . . f2j . . . f2m f2.

......

... . . .... . . .

......

xi fi1 fi2 . . . fij . . . fim fi....

...... . . .

... . . ....

...xl fl1 fl2 . . . flj . . . flm fl.

Total f.1 f.2 . . . f.j . . . f.m 1Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 8 / 28

Page 13: Statistique descriptive bivariéecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/...Statistique descriptive bivariée Michaël Genin Université de Lille 2 EA 2694 - Santé

Variable qualitative / Variable qualitative Présentation des données

Présentation des données - Fréquences conditionnelles lignes

Fréquence conditionnelle ligne : Fréquence de la modalité yj parmi les individusprésentant la modalité xi

fj/i = nij

ni.

Variable Yy1 y2 . . . yj . . . ym Total

Variable X

x1 f1/1 f2/1 . . . fj/1 . . . fm/1 1x2 f1/2 f2/2 . . . fj/2 . . . fm/2 1...

...... . . .

... . . ....

...xi f1/i f2/j . . . fj/i . . . fm/i 1...

...... . . .

... . . ....

...xl f1/l f2/l . . . fj/l . . . fm/l 1

Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 9 / 28

Page 14: Statistique descriptive bivariéecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/...Statistique descriptive bivariée Michaël Genin Université de Lille 2 EA 2694 - Santé

Variable qualitative / Variable qualitative Présentation des données

Présentation des données - Fréquences conditionnelles colonnes

Fréquence conditionnelle colonne : Fréquence de la modalité xi parmi les individusprésentant la modalité yj

fi/j = nij

n.j

Variable Yy1 y2 . . . yj . . . ym

Variable X

x1 f1/1 f1/2 . . . f1/j . . . f1/mx2 f2/1 f2/2 . . . f2/j . . . f2/m...

...... . . .

... . . ....

xi fi/1 fj/2 . . . fi/j . . . fi/m...

...... . . .

... . . ....

xl fl/1 fl/2 . . . fl/j . . . fl/m

Total 1 1 . . . 1 . . . 1

Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 10 / 28

Page 15: Statistique descriptive bivariéecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/...Statistique descriptive bivariée Michaël Genin Université de Lille 2 EA 2694 - Santé

Variable qualitative / Variable qualitative Présentation des données

Présentation des données - ExempleCroisement du niveau de satisfaction et du sexe

Effec%fs                                                  %                                                        %ligne                          %colonne   Homme   Femme   total  

Mauvais  

30                                                        0,11                                                0.75                                                0.20  

10                                                              0.04                                                      0.25                                                      0.08  

40                                                              0,14  

Passable  

45                                                        0.16                                                0.69                                                  0.30  

20                                                            0.07                                                        0.31                                                      0.15  

65                                                            0.23  

Bon  

50                                                        0.18                                                  0.43                                                0.33  

65                                                            0.23                                                      0.57                                                      0.27  

115                                                        0.41  

Excellent  

25                                                        0.09                                                0.42                                                0.17  

35                                                            0.13                                                      0.58                                                      0.27  

60                                                              0.21  

Total  150                                                  0.54  

130                                                        0.46  

280                                                                  1  

Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 11 / 28

Page 16: Statistique descriptive bivariéecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/...Statistique descriptive bivariée Michaël Genin Université de Lille 2 EA 2694 - Santé

Variable qualitative / Variable qualitative Présentation des données

Présentation des données - Exemple

Croisement du niveau de satisfaction et du sexe

Effec%fs                                    %                                          %ligne              %colonne   Homme  

Mauvais  

30                                            0,11                                        0.75                                    0.20  

Effectifs  :  Parmi  280  individus,  30  hommes  ont  noté  «  mauvais  »  

%  :  Parmi  280  individus,  11%    sont  des  hommes  qui  ont  noté  «  mauvais  »  

%ligne  :  Parmi  40  individus  qui  ont  noté  «  mauvais  »,  75%  étaient  des  hommes  (30/40)  

%colonne  :  Parmi  150  hommes  ,20%  ont  noté  «  mauvais  »  (30/150)  

Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 12 / 28

Page 17: Statistique descriptive bivariéecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/...Statistique descriptive bivariée Michaël Genin Université de Lille 2 EA 2694 - Santé

Variable qualitative / Variable qualitative Représentations graphiques

Point étudié

1 Introduction

2 Variable qualitative / Variable qualitativePrésentation des donnéesReprésentations graphiques

3 Variable quantitative / Variable qualitative

4 Variable quantitative / Variable quantitative

Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 13 / 28

Page 18: Statistique descriptive bivariéecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/...Statistique descriptive bivariée Michaël Genin Université de Lille 2 EA 2694 - Santé

Variable qualitative / Variable qualitative Représentations graphiques

Représentations graphiques - Diagramme en barre groupé

30

45

50

25

10

20

65

35

0

10

20

30

40

50

60

70

Mauvais Passable Bon Excellent

EFFECTIFS

APPRÉCIATION

Répartition del'appréciation enfonction dusexe

Homme Femme

Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 14 / 28

Page 19: Statistique descriptive bivariéecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/...Statistique descriptive bivariée Michaël Genin Université de Lille 2 EA 2694 - Santé

Variable qualitative / Variable qualitative Représentations graphiques

Représentations graphiques - Diagramme en barre empilé

30

4550

25

10

20

65

35

0

20

40

60

80

100

120

140

Mauvais Passable Bon Excellent

EFFECTIFSCU

MULÉS

APPRÉCIATION

Répartition del'appréciation enfonction dusexe

Homme Femme

Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 15 / 28

Page 20: Statistique descriptive bivariéecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/...Statistique descriptive bivariée Michaël Genin Université de Lille 2 EA 2694 - Santé

Variable qualitative / Variable qualitative Représentations graphiques

Représentations graphiques - Diagramme en mosaïque

Répartition de l'appréciation en fonction du sexe

Appréciation

Sexe

Mauvais Passable Bon Excellent

Femme

Homme

Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 16 / 28

Page 21: Statistique descriptive bivariéecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/...Statistique descriptive bivariée Michaël Genin Université de Lille 2 EA 2694 - Santé

Variable quantitative / Variable qualitative

Point étudié

1 Introduction

2 Variable qualitative / Variable qualitative

3 Variable quantitative / Variable qualitativePrésentation des donnéesReprésentations graphiques

4 Variable quantitative / Variable quantitative

Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 17 / 28

Page 22: Statistique descriptive bivariéecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/...Statistique descriptive bivariée Michaël Genin Université de Lille 2 EA 2694 - Santé

Variable quantitative / Variable qualitative Présentation des données

Point étudié

1 Introduction

2 Variable qualitative / Variable qualitative

3 Variable quantitative / Variable qualitativePrésentation des donnéesReprésentations graphiques

4 Variable quantitative / Variable quantitative

Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 18 / 28

Page 23: Statistique descriptive bivariéecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/...Statistique descriptive bivariée Michaël Genin Université de Lille 2 EA 2694 - Santé

Variable quantitative / Variable qualitative Présentation des données

Présentation des données

ConsidéronsVariable quantitative : X ∈ R

Variable qualitative : Y = {y1, y2, . . . , ym}

Variable Y Moyenne Ecart-type

y1 xy1 sy1

y2 xy2 sy2...

......

ym xym sym

Variable Y Médiane Q1 Q3

y1 med(x)y1 Q1(y1) Q3(y1)y2 med(x)y2 Q1(y2) Q3(y2)...

......

...ym med(x)ym Q1(ym) Q3(ym)

Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 19 / 28

Page 24: Statistique descriptive bivariéecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/...Statistique descriptive bivariée Michaël Genin Université de Lille 2 EA 2694 - Santé

Variable quantitative / Variable qualitative Présentation des données

Présentation des données

Exemple : croisement de l’âge en fonction du sexe

Sexe Moyenne Ecart-typeHomme 35 12Femme 29 9

Sexe Médiane Q1 Q3

Homme 22 33 45Femme 21 28 38

Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 20 / 28

Page 25: Statistique descriptive bivariéecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/...Statistique descriptive bivariée Michaël Genin Université de Lille 2 EA 2694 - Santé

Variable quantitative / Variable qualitative Représentations graphiques

Point étudié

1 Introduction

2 Variable qualitative / Variable qualitative

3 Variable quantitative / Variable qualitativePrésentation des donnéesReprésentations graphiques

4 Variable quantitative / Variable quantitative

Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 21 / 28

Page 26: Statistique descriptive bivariéecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/...Statistique descriptive bivariée Michaël Genin Université de Lille 2 EA 2694 - Santé

Variable quantitative / Variable qualitative Représentations graphiques

Représentations graphiques - Boîtes à moustachesCroisement de l’âge et du sexe

Femme Homme

2025

3035

4045

50

Distribution de l'âge en fonction du sexe

Sexe

Age

en

anné

es

Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 22 / 28

Page 27: Statistique descriptive bivariéecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/...Statistique descriptive bivariée Michaël Genin Université de Lille 2 EA 2694 - Santé

Variable quantitative / Variable quantitative

Point étudié

1 Introduction

2 Variable qualitative / Variable qualitative

3 Variable quantitative / Variable qualitative

4 Variable quantitative / Variable quantitativeReprésentation graphiqueIndicateur statistique

Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 23 / 28

Page 28: Statistique descriptive bivariéecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/...Statistique descriptive bivariée Michaël Genin Université de Lille 2 EA 2694 - Santé

Variable quantitative / Variable quantitative Représentation graphique

Point étudié

1 Introduction

2 Variable qualitative / Variable qualitative

3 Variable quantitative / Variable qualitative

4 Variable quantitative / Variable quantitativeReprésentation graphiqueIndicateur statistique

Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 24 / 28

Page 29: Statistique descriptive bivariéecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/...Statistique descriptive bivariée Michaël Genin Université de Lille 2 EA 2694 - Santé

Variable quantitative / Variable quantitative Représentation graphique

Représentation graphique - Nuage de pointsCroisement de la taille et du poids

140 160 180 200

6070

8090

100

110

120

Croisement de la taille et du poids

Taille en cm

Poi

ds e

n K

g

Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 25 / 28

Page 30: Statistique descriptive bivariéecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/...Statistique descriptive bivariée Michaël Genin Université de Lille 2 EA 2694 - Santé

Variable quantitative / Variable quantitative Indicateur statistique

Point étudié

1 Introduction

2 Variable qualitative / Variable qualitative

3 Variable quantitative / Variable qualitative

4 Variable quantitative / Variable quantitativeReprésentation graphiqueIndicateur statistique

Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 26 / 28

Page 31: Statistique descriptive bivariéecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/...Statistique descriptive bivariée Michaël Genin Université de Lille 2 EA 2694 - Santé

Variable quantitative / Variable quantitative Indicateur statistique

Indicateur statistique - Coefficient de corrélation

Coefficient de corrélation linéaire de Pearson (N ⩾ 30 )

Mesure l’intensité du lien entre X et YCoefficient compris entre -1 et 1 (R ∈ [1, 1])Si R = 0 il n’y a pas de corrélation linéaire entre X et Y. Réciproquement, siR = |1|, il y a une corrélation linéaire parfaite entre X et Y

r = sxy

sx sy=

∑ni=1

∑nj=1(xi − x)(yi − y)√∑n

i=1(xi − x)2√∑n

i=1(yi − y)2

Attention : l’absence de relation linéaire entre deux variables ne permet de conclure àl’absence de relation ⇒ (exponentiel, puissance, . . . ) ⇒ Coefficient de corrélation deSpearman.

Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 27 / 28

Page 32: Statistique descriptive bivariéecerim.univ-lille2.fr/fileadmin/user_upload/statistiques/...Statistique descriptive bivariée Michaël Genin Université de Lille 2 EA 2694 - Santé

Variable quantitative / Variable quantitative Indicateur statistique

Indicateur statistique - Coefficient de corrélation

Croisement de la taille et du poids

140 160 180 200

6070

8090

100

110

120

Croisement de la taille et du poids

Taille en cm

Poi

ds e

n K

g

r = 0.68

Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 28 / 28