Laboratoire de Biostatistique et Informatique M edicale...
Transcript of Laboratoire de Biostatistique et Informatique M edicale...
Introduction Univarie Bivarie
Statistique descriptive
Pr. Nicolas MEYER
———————Laboratoire de Biostatistique et Informatique Medicale
Fac. de Medecine de Strasbourg———————
novembre 2010
Introduction Univarie Bivarie
Plan
1 Introduction
2 Statistique descriptive univarieeNotions generalesParametres de positionParametres de dispersion
3 Statistique descriptive bivariee
Introduction Univarie Bivarie
L’info medicale aleatoire du jour...
→ Site 20mn.fr
Et si faire attention a sa ligne, c’etait mauvais pour la sante ? Dansun rapport publie ce jeudi, l’Agence de securite sanitaire (Anses) apasse au crible 15 regimes, relate France Info. Et le resultat n’estpas brillant.
Que le regime soit detox, Dukan ou encore californien, l’Anses(Agence de securite sanitaire de l’alimentation, de l’environnementet du travail ) a souligne d’importants desequilibres, notamment enmacronutriments, en vitamines et en mineraux. En general, il yaurait trop de proteines, plus que les apports nutritionnelsconseilles (en particulier pour le regume Dukan).
Introduction Univarie Bivarie
Plan
1 Introduction
2 Statistique descriptive univariee
3 Statistique descriptive bivariee
Introduction Univarie Bivarie
Statistique descriptive
Les objectifs de la statistique descriptive sont de :
definir le ou les groupes etudies (population ou echantillon)
definir le codage des observations
definir la presentation des donnees : numerique et/ougraphique
reduire les donnees a quelques indicateurs statistiquessynthetiques
Introduction Univarie Bivarie
Statistique descriptive
La description des donnees
souvent la premiere approche dans la comprehension d’unphenomene
reduction des donnees a quelques indices numeriquespermettant de manipuler les donnees
permettra la formulation d’hypotheses qui pourront etreverifiees a l’aide de tests statistiques lors d’etudes organiseesulterieurement
d’ou une approche progressive du modele biologique oumedical
Introduction Univarie Bivarie
Definition du groupe etudie
Une etude statistique doit definir le groupe a etudier
en theorie → la population
en pratique → un echantillon
l’echantillon doit etre representatif de la population
pour pouvoir etendre les resultats obtenus sur l’echantillon ala population
car l’interet porte sur la population et pas sur un echantillonen particulier
description d’un echantillon → description de la population
Introduction Univarie Bivarie
Plan
1 Introduction
2 Statistique descriptive univarieeNotions generalesParametres de positionParametres de dispersion
3 Statistique descriptive bivariee
Introduction Univarie Bivarie
Generalites
Plan
1 Introduction
2 Statistique descriptive univarieeNotions generalesParametres de positionParametres de dispersion
3 Statistique descriptive bivariee
Introduction Univarie Bivarie
Generalites
Codage de l’information : type de variable
Une etude statistique ⇒ des (( mesures ))
valeur quantitative, mesurable par une unite physique :concentration, dosage, poids, taille, proportion, variationexprimee en pourcentage, quantite, duree de sejour, etc.
valeur qualitative, non mesurable par une unite physique :caracteristique du sujet (sexe, presence d’une maladie,antecedents medicaux, etc)
Introduction Univarie Bivarie
Generalites
Variable quantitative
Une variable quantitative est une mesure pouvant etre exprimeepar un nombre
valeur sur l’echelle des reels positifs : R+ : valeurs continuesstrictement positives
poids, taille, concentrations, etc
plus rarement valeur sur l’echelle des reels : R : valeurscontinues
variation de dosage, etc
valeur sur l’echelle des entiers positifs : N+ : valeurs discretes
nombre de cigarettes, duree de sejours, nombre d’enfants, etc.
Introduction Univarie Bivarie
Generalites
Variable qualitative
Elle traduit une mesure non-physique, une qualite, unecaracteristique, absence de la propriete d’additivite
variable qualitative binaire = binomiale = dichotomique : adeux classes, exclusives l’une de l’autre
present/absent, malade/sain, positif/negatif, etc
variable qualitative multinomiale = polychotomique : a plusde deux classes, dont il existe deux types :
variable multinomiale nominale : sans ordre naturel entre lesdifferentes modalites, comme groupes sanguins, genotypesvariants de VHC, etcvariable multinomiale ordinale : avec ordre naturel entre lesdifferentes modalites, comme stades de cancer, de progression,mais l’addition de deux modalites n’a pas de sens
Introduction Univarie Bivarie
Generalites
Recodage
Les donnees sont parfois recodees :
pour des variables polychotomiques : regroupement deplusieurs modalites ayant des petits effectifs
pour des variables quantitatives : recodage en variablequalitative a k classes.
Exemple : echelle visuelle analogique (EVA)
douleur evaluee par une echelle de 0 a 10
peut etre recodee en 4 classes : douleur nulle ou faible,moderee, severe, extreme.
si la categorie extreme presente des effectifs faibles →regrouper les troisiemes et quatriemes classes en une seule
une variable continue peut etre dichotomisee : testdiagnostique, comme la glycemie, dosage continu separe endeux classes de part et d’autre du seuil=1,10 g/L.
Introduction Univarie Bivarie
Generalites
Presentation numerique des donnees
Les donnees d’une serie statistique doivent etre resumees pour
pouvoir decrire rapidement de grandes series de valeurs
realiser des tests statistiques
→ Description des variables qualitatives puis des variablesquantitatives
Introduction Univarie Bivarie
Generalites
Description statistique des variables qualitatives
Soit une serie de valeurs qualitative :H ,F ,F ,F ,H ,F ,H ,F ,F ,F ,F ,H ,H ,F ,H ,H , . . . ,F
donner les effectifs de chaque modalite
donner les proportions (= frequences) de chaque modalite parrapport au total
combiner si besoin les proportions, notamment des proportionscumulees pour des variables ordinales (stade de cancer)
Introduction Univarie Bivarie
Generalites
Description statistique des variables qualitatives
La variable X prend les valeurs x1, x2, . . . , xn , n valeurs avec poccurences differentes
Occurence de X x1 x2 . . . xi . . . xp total
Effectifs n1 n2 . . . ni . . . np nFrequence f1 f2 . . . fi . . . fp 1
Et :
n =p∑
i=1
ni , fi =ni
n,
p∑i=1
fi = 1
Introduction Univarie Bivarie
Generalites
Presentation des valeurs
Le plus souvent, presentation par classes de valeurs, i.e. paroccurence, en donnant les effectifs de chaque occurence.
Exemple
• soit la serie de valeurs : 1,1,2,2,3,4,5,6,6,7,8,9,9,9,10.
• n = 15
• la liste des occurences : 1,2,3,4,5,6,7,8,9,10
• d’ou les frequences de chaque occurence : f1 = 2/15, f2 = 2/15,f3 = 1/15, etc.
Introduction Univarie Bivarie
Generalites
Presentation des valeurs
• Les donnees peuvent aussi etre presentees par classes :
• choisir trois classes : [0; 4[, [4; 8[, [8; +∞[.
• rappel des valeurs : 1,1,2,2,3,4,5,6,6,7,8,9,9,9,10, et n = 15
• sur ces donnees : n = 15 et 3 classes differentes, d’effectifs : 5, 5et 5.
Introduction Univarie Bivarie
Generalites
Exemple
> desql(BRACKETS)Effectifs Proportions
0 211 46.8891 239 53.111Total 450 100.000Non Manquants 450 100.000MANQUANTS 0 0.000
Introduction Univarie Bivarie
Generalites
> desql(CLANGLE)Effectifs Proportions Proportions cumulees
1 90 20.134 20.1342 197 44.072 64.2062.1 78 17.450 81.6562.2 37 8.277 98.9333 45 10.067 100.000Total 447 100.000Non Manquants 447 99.333MANQUANTS 3 0.667
• Notez le codage numerique pour une variable qualitative : lecodage utilise souvent des codes numeriques (mais sans en retenirla valeur) pour coder des variables qualitatives
Introduction Univarie Bivarie
Position
Plan
1 Introduction
2 Statistique descriptive univarieeNotions generalesParametres de positionParametres de dispersion
3 Statistique descriptive bivariee
Introduction Univarie Bivarie
Position
Statistique descriptive des variables quantitatives
Les variables continues sont decrites numeriquement par :
• des parametres de position
moyenne
percentiles, dont :
medianepremier (Q1) et troisieme quartile (Q3)percentiles pautres : tiertiles, deciles, etc
mode
mediale
minimum et maximum
Introduction Univarie Bivarie
Position
Statistique descriptive des variables quantitatives
Mais aussi :
• des parametres de dispersion
variance
ecart-type
ecart inter-quartile
etendue ou amplitude
coefficient de variation
Plus skewness et kurtosis, parametres d’etalement et d’asymetrie.
Introduction Univarie Bivarie
Position
Parametres de position
La moyenne (arithmetique)
somme des valeurs divisee par l’effectif de la serie
Soit sur un echantillon de taille n :
x =p∑
i=1
fixi =1n
p∑i=1
nixi =1n
n∑i=1
xi
• x1, . . . , xi , . . . , xn etant les n valeurs observees, x1, . . . , xi , . . . , xp
etant les p occurences observees avec n1, . . . ,ni , . . . ,np leseffectifs correspondants de ces occurences.
Introduction Univarie Bivarie
Position
Parametres de position
Exemple : calcul de la moyenne arithmetique pour les donneessuivantes : 6, 7, 7, 7, 8, 8, 8, 9, 9, 10 :
m = 0,1 · 6 + 0,3 · 7 + 0,3 · 8 + 0,2 · 9 + 0,1 · 10 = 7,9
• la moyenne est sensible aux valeurs extremes
• si on remplace le 10 par un 100 (frequent dans certains contextesmedicaux), alors m = 16,90
Introduction Univarie Bivarie
Position
Parametres de position
la mediane
notee x ou medx ou med(x ) : valeur telle que la moitie desobservations lui sont inferieures et donc la moitie lui sontsuperieures
Dans les distributions symetriques (loi de Gauss par ex.) lamediane = la moyenne.
Introduction Univarie Bivarie
Position
Parametres de position
(La mediane.../...)
Deux cas :
1 le nombre de valeurs est impair (n impair) → x = x(n+1)/2
ex. : si n = 15, (n + 1)/2 = 8 → la mediane est la huitiemevaleur de la serie :1,1,2,2,3,4,5,6,6,7,8,9,9,9,10 : x = 6
2 le nombre de valeurs est pair (n pair), tout nombre comprisentre (xn/2 et xn/2+1)/2 repond a la definition. On definitalors generalement la mediane par : → x = (xn/2 + xn/2+1)/2
si : 1,1,2,2,3,4,5,6,6,7,8,9, alors x = 4,5
Introduction Univarie Bivarie
Position
Parametres de position
le mode
Encore appelee valeur dominante : valeur observee de frequencemaximum.
le mode est la valeur la plus frequente mais de maniere relativeet pas absolue (donc pas forcement la majorite des valeurs)
il peut y avoir deux ou plusieurs modes :1,2,3,3,3,3,4,5,6,6,6,6,7,15 : modes = 3 et 6
lorsqu’une distribution est bimodale, on peut penser quel’echantillon est en realite issu de deux populations differentes
si toutes les valeurs sont differentes, autant de modes que devaleurs : 1,2,3,5,6,9,14,16 → chaque valeur = mode
Introduction Univarie Bivarie
Position
Parametres de position
Quartiles
Les trois quartiles divisent l’ensemble de la distribution en 4ensembles de meme taille (au moins approximativement)
Q1 → 25% des valeurs sont inferieures a Q1
Q2 = mediane → 50% des valeurs sont inferieures a Q2
Q3 → 75% des valeurs sont inferieures a Q3
En pratique, parfois difficile de les calculer quand les effectifs sontpetits.
Introduction Univarie Bivarie
Position
Parametres de position
Quantiles / Fractiles
Le quantile d’ordre k est la valeur qui separe la distribution en kclasses de meme effectifs (au moins approximativement) : deciles,quartiles, tiertiles, centiles, etc.
d’ou :
percentile
percentile p divise la distribution en deux groupes tel que p% desvaleurs soient situees sous p et (100− p%) des valeurs soientsituees au-dessus.
• Les quantiles sont pertinents surtout quand le nombre de valeursest suffisant pour les calculer de maniere precise (n > 100)
• Voir Box-plot / boıtes a moustaches
Introduction Univarie Bivarie
Dispersion
Plan
1 Introduction
2 Statistique descriptive univarieeNotions generalesParametres de positionParametres de dispersion
3 Statistique descriptive bivariee
Introduction Univarie Bivarie
Dispersion
Parametres de dispersion
Variance
C’est la moyenne arithmetique des carres des ecarts a la moyenne→ dispersion, etalement, variabilite des valeurs
• Dans une population, la variance est :
σ2 =1n
n∑i=1
(xi − µ)2
n; σ2 =
p∑i=1
fi(xi − µ)2
ou µ = moyenne de la population
• Les valeurs calculees (sur un echantillon) sont :
s2 =1n
n∑i=1
(xi − x )2
n; s2 =
p∑i=1
fi(xi − x )2
ou m = moyenne de l’echantillon
Introduction Univarie Bivarie
Dispersion
Parametres de dispersion
Ne pas confondre avec les valeurs estimees de la variance de lapopulation a partir de l’echantillon
formules ci-dessus : valides quand on decrit une population ouun echantillon
suppose correction quand estimation de la variance pour lapopulation a partir des donnees d’un echantillon
l’estimateur de la variance d’une population a partir d’unechantillon est :
σ2 =1
n − 1
n∑i=1
(xi − x )2
n
Introduction Univarie Bivarie
Dispersion
Parametres de dispersion
• la variance est elle aussi tres sensible aux valeurs extremes
• soit la serie de 9 valeurs suivante : 1,2,3,4,6,5,9,7,2.
• on trouve :
moyenne = 4,333
s2 =∑
(xi − 4,333)2/9 = 6.222σ2 =
∑(xi − 4,333)2/8 = 7
si 9 → 90, alors : x = 14.111, s2 = 725.4 et σ2 = 816.1
Introduction Univarie Bivarie
Dispersion
Parametres de dispersion
Ecart-type (standard error)
c’est la racine carre de la variance : σ =√σ2 ; s =
√s2
Selon les circonstances, utilisation de s ou s2
• memes avantages et inconvenients que la variance (sensibiliteaux valeurs extremes)
Introduction Univarie Bivarie
Dispersion
Parametres de dispersion
Etendue
= amplitude, w = xn − x1, ecart entre le maximum et le minimumde la serie
• quantifie l’etalement total des donnees, utile surtout pour verifierla validite des mesures et detecter d’eventuelles valeurs extremes.
• donne une premiere approximation de l’ecart-type car s 6 w/2
• basee uniquement sur les extremes, donc tres sensible a cesextremes
Introduction Univarie Bivarie
Dispersion
Parametres de dispersion
Ecart inter-quartiles
= Q3 - Q1. Indique les 50% de valeurs situees au centre de ladistribution.
• comme la mediane et les quantiles, tres robuste, i.e. tres peusensible aux donnees extremes et aux fortes variations d’une petiteproportion de valeurs. Par ex., pour modifier la valeur de lamediane, il faut modifier plus de 50% des valeurs de la serie.
• Utile lors de la realisation de graphiques type box-plot / boıte amoustaches
Introduction Univarie Bivarie
Dispersion
Parametres de dispersion
Coefficient de variation
cv = s/x .
• permet de comparer l’etalement de donnees situees dans desordres de grandeur differents : comparer la variabilite du poids deselephants et des souris, ou des adultes et des enfants.
Introduction Univarie Bivarie
Dispersion
Exemple 1
Etude extraction instrumentale HTP / CMCO
comprendre pourquoi taux d’extraction instrumentale tres differententre les deux maternites
Introduction Univarie Bivarie
Dispersion
> descr3(DOSES,Site)
Descriptif
DOSES Site = CMCO Site = HTP
Effectifs presents 1444.000 835.000 609.000
Proportions de presents 28.115 28.479 27.632
Effectifs manquants 3692.000 2097.000 1595.000
Proportions de manquants 71.885 71.521 72.368
Moyenne 6.597 6.366 6.915
Ecart-type 3.736 3.043 4.500
Variance 13.956 9.258 20.248
Erreur standard (s.e.m) 0.052 0.105 0.182
Err. Std (basee sur l’ANOVA) NA 0.129 0.151
Introduction Univarie Bivarie
Dispersion
> descr3(DOSES,Site)
Descriptif
DOSES Site = CMCO Site = HTP
Minimum 1.000 1.200 1.000
Maximum 22.000 18.000 22.000
Percentile 2,5 2.000 2.000 2.000
Percentile 5 2.000 2.000 2.000
Q1 4.000 4.000 4.000
Mediane 6.000 6.000 6.000
Q3 8.000 8.000 8.400
Percentile 95 12.000 12.000 17.200
Percentile 97,5 16.000 12.000 20.000
Ecart inter-quartiles 4.000 4.000 4.400
IC valeurs borne inf -0.727 0.393 -1.922
IC valeurs borne sup 13.921 12.338 15.752
IC moyenne borne inf 6.495 6.159 6.557
IC moyenne borne sup 6.699 6.572 7.273
IC moyenne borne inf (ANOVA) NA 6.112 6.619
IC moyenne borne sup (ANOVA) NA 6.619 7.211
Introduction Univarie Bivarie
Dispersion
Description des 1444 valeurs non-manquantes :
Triaplat
Eff. Eff. cum. Prop. Prop. cum Site = CMCO Site = HTP
1 2 2 0.14 0.14 0 2
1.2 14 16 0.97 1.11 3 11
2 172 188 11.91 13.02 109 63
2.4 24 212 1.66 14.68 3 21
3 16 228 1.11 15.79 4 12
3.4 1 229 0.07 15.86 0 1
3.6 12 241 0.83 16.69 3 9
3.7 1 242 0.07 16.76 0 1
4 290 532 20.08 36.84 175 115
4.2 1 533 0.07 36.91 0 1
4.4 1 534 0.07 36.98 0 1
4.8 30 564 2.08 39.06 3 27
5 9 573 0.62 39.68 1 8
5.2 1 574 0.07 39.75 0 1
5.6 1 575 0.07 39.82 0 1
6 310 885 21.47 61.29 214 96
6.2 1 886 0.07 61.36 0 1 .../...
Introduction Univarie Bivarie
Dispersion
Eff. Eff. cum. Prop. Prop. cum Site = CMCO Site = HTP
7 2 888 0.14 61.50 0 2
7.2 12 900 0.83 62.33 1 11
8 225 1125 15.58 77.91 155 70
8.4 4 1129 0.28 78.19 0 4
8.6 1 1130 0.07 78.25 0 1
9 1 1131 0.07 78.32 0 1
9.6 3 1134 0.21 78.53 0 3
10 128 1262 8.86 87.40 101 27
10.8 2 1264 0.14 87.53 0 2
11 1 1265 0.07 87.60 0 1
12 116 1381 8.03 95.64 46 70
14 21 1402 1.45 97.09 11 10
15 1 1403 0.07 97.16 1 0
16 9 1412 0.62 97.78 4 5
18 4 1416 0.28 98.06 1 3
19 1 1417 0.07 98.13 0 1
20 25 1442 1.73 99.86 0 25
22 2 1444 0.14 100.00 0 2
Introduction Univarie Bivarie
Dispersion
> descr3(BMI,Site,Tap=TRUE)
$Descriptif
BMI Site = CMCO Site = HTP
Effectifs presents 4736.000 2855.000 1881.000
Proportions de presents 92.212 97.374 85.345
Effectifs manquants 400.000 77.000 323.000
Proportions de manquants 7.788 2.626 14.655
Moyenne 23.431 23.354 23.546
Ecart-type 4.834 4.786 4.904
Variance 23.365 22.907 24.049
Erreur standard (s.e.m) 0.067 0.090 0.113
Err. Std (basee sur l’ANOVA) NA 0.090 0.111
Introduction Univarie Bivarie
Dispersion
> descr3(BMI,Site,Tap=TRUE)
$Descriptif
Minimum 14.000 14.000 15.000
Maximum 56.000 53.000 56.000
Percentile 2,5 18.000 18.000 17.000
Percentile 5 18.000 18.000 18.000
Q1 20.000 20.000 20.000
Mediane 22.000 22.000 22.000
Q3 25.000 25.000 25.000
Percentile 95 33.000 32.000 34.000
Percentile 97,5 36.000 36.000 36.000
Ecart inter-quartiles 5.000 5.000 5.000
IC valeurs borne inf 13.954 13.970 13.928
IC valeurs borne sup 32.907 32.739 33.164
IC moyenne borne inf 23.298 23.179 23.324
IC moyenne borne sup 23.563 23.530 23.768
IC moyenne borne inf (ANOVA) NA 23.177 23.328
IC moyenne borne sup (ANOVA) NA 23.532 23.764
Introduction Univarie Bivarie
Dispersion
$Triaplat
Eff. Eff. cum. Prop. Prop. cum Site = CMCO Site = HTP
14 1 1 0.02 0.02 1 0
15 3 4 0.06 0.08 0 3
16 25 29 0.53 0.61 9 16
17 83 112 1.75 2.36 53 30
18 237 349 5.00 7.37 147 90
19 445 794 9.40 16.77 272 173
20 554 1348 11.70 28.46 343 211
21 651 1999 13.75 42.21 404 247
22 522 2521 11.02 53.23 316 206
23 428 2949 9.04 62.27 261 167
24 364 3313 7.69 69.95 206 158
25 279 3592 5.89 75.84 164 115
26 215 3807 4.54 80.38 138 77
27 170 3977 3.59 83.97 98 72
28 147 4124 3.10 87.08 86 61
29 125 4249 2.64 89.72 79 46
30 93 4342 1.96 91.68 54 39
31 69 4411 1.46 93.14 44 25
32 70 4481 1.48 94.62 40 30
33 45 4526 0.95 95.57 25 20
34 32 4558 0.68 96.24 15 17
35 34 4592 0.72 96.96 14 20
36 35 4627 0.74 97.70 18 17
37 23 4650 0.49 98.18 14 9
38 23 4673 0.49 98.67 14 9
39 11 4684 0.23 98.90 7 4
40 10 4694 0.21 99.11 8 2
41 7 4701 0.15 99.26 4 3
42 4 4705 0.08 99.35 2 2 .../...
Introduction Univarie Bivarie
Dispersion
.../...
43 7 4712 0.15 99.49 3 4
44 4 4716 0.08 99.58 3 1
45 3 4719 0.06 99.64 2 1
46 1 4720 0.02 99.66 0 1
47 2 4722 0.04 99.70 2 0
48 2 4724 0.04 99.75 1 1
49 3 4727 0.06 99.81 2 1
50 2 4729 0.04 99.85 2 0
51 1 4730 0.02 99.87 1 0
52 3 4733 0.06 99.94 1 2
53 2 4735 0.04 99.98 2 0
56 1 4736 0.02 100.00 0 1
Introduction Univarie Bivarie
Dispersion
Exemple 2
Etude decollement brackets
trouver les elements cliniques (lies au patient et a la pose) associesau decollement de bracket (orthodontie)
Introduction Univarie Bivarie
Dispersion
> descr1(AGEPOSE,Tap=TRUE)Descriptif
AGEPOSEEffectifs presents 450.0000Proportions de presents % 100.0000Effectifs manquants 0.0000Proportions de manquants % 0.0000Moyenne 14.0489Ecart-type 5.9968Variance 35.9619Erreur standard (s.e.m) 0.2827Minimum 8.3000Maximum 58.7000
Introduction Univarie Bivarie
Dispersion
Percentile 2,5 10.1000Percentile 5 10.5000Q1 11.8000Mediane 12.7000Q3 14.1000Percentile 95 21.3500Percentile 97,5 36.4575Ecart inter-quartiles 2.3000IC valeurs borne inf 2.2636IC valeurs borne sup 25.8342IC moyenne borne inf 13.4927IC moyenne borne sup 14.6051
Introduction Univarie Bivarie
Plan
1 Introduction
2 Statistique descriptive univariee
3 Statistique descriptive bivariee
Introduction Univarie Bivarie
Variables conjointes
Recueil simultane de deux variables chez les memes sujets : deuxvariables X et Y
L’interet se porte le plus souvent sur la relation entre les deuxvariables, recherche de correlation qui n’implique pas un lien decausalite.
Introduction Univarie Bivarie
Notations
Soit deux series de valeurs X et Y ayant respectivement nx et ny
valeurs et xp et yq occurences differentes :
HHHHHHX
Yy1 . . . yi . . . yq Total
x1 n11 n1.
. . .xi nij ni .
. . .xp np.
Total n.1 n.j n.q n..
• case cij , d’effectif nij et de frequence relative fij = nij /n..
Introduction Univarie Bivarie
Description
• On a :
ni . =
q∑j=1
nij , n.j =
p∑i=1
nij
• Par ailleurs,p∑
i=1
ni . =
q∑j=1
n.j =
p∑i=1
q∑j=1
nij = n.. = n
• De plus,
fi . = ni ./n, f.j = n.j/n, fij = nij/n
Introduction Univarie Bivarie
Lignes : Site Colonnes : ANEST
aucune bloc ner generale peridura rachi rachiper Total
CMCO 544 1 23 2089 256 6 2919
18.64 0.03 0.79 71.57 8.77 0.21 100.00
47.72 100.00 37.70 60.71 55.05 75.00 57.06
10.63 0.02 0.45 40.83 5.00 0.12 57.06
HTP 596 0 38 1352 209 2 2197
27.13 -- 1.73 61.54 9.51 0.09 100.00
52.28 -- 62.30 39.29 44.95 25.00 42.94
11.65 -- 0.74 26.43 4.09 0.04 42.94
Total 1140 1 61 3441 465 8 5116
22.28 0.02 1.19 67.26 9.09 0.16 100.00
100.00 100.00 100.00 100.00 100.00 100.00 100.00
22.28 0.02 1.19 67.26 9.09 0.16 100.00
Introduction Univarie Bivarie
Distribution conditionnelle
• En ne considerant qu’une ligne du tableau, on decrit ladistribution en colonne conditionnelle a la ligne : distribution de yconditionnelle a x = xi .
• idem pour les lignes|colonnes.
• Definition des frequences conditionnelles :
fj |i = nij/ni . = fij/fi ., fi |j = nij/n.j = fij/f.j
On note que :
p∑i=1
fi |j = 1,
q∑j=1
fj |i = 1
Introduction Univarie Bivarie
Lignes : Site Colonnes : ANEST
aucune bloc ner generale peridura rachi rachiper Total
CMCO 544 1 23 2089 256 6 2919
18.64 0.03 0.79 71.57 8.77 0.21 100.00
47.72 100.00 37.70 60.71 55.05 75.00 57.06
10.63 0.02 0.45 40.83 5.00 0.12 57.06
HTP 596 0 38 1352 209 2 2197
27.13 -- 1.73 61.54 9.51 0.09 100.00
52.28 -- 62.30 39.29 44.95 25.00 42.94
11.65 -- 0.74 26.43 4.09 0.04 42.94
Total 1140 1 61 3441 465 8 5116
22.28 0.02 1.19 67.26 9.09 0.16 100.00
100.00 100.00 100.00 100.00 100.00 100.00 100.00
22.28 0.02 1.19 67.26 9.09 0.16 100.00
Introduction Univarie Bivarie
Distributions marginales
Ce sont les distributions d’une serie de valeurs lorsque l’on ne tientpas compte de l’autre serie :
• Distribution marginale des colonnes :
HHHHHHX
Yy1 . . . yi . . . yq Total
Total n.1 n.j n.q n..
Total f.1 f.j f.q f..
• et la meme chose (( a travers )) les colonnes pour la distributionmarginale des lignes.
Introduction Univarie Bivarie
Lignes : Site Colonnes : ANEST
aucune bloc ner generale peridura rachi rachiper Total
CMCO 544 1 23 2089 256 6 2919
18.64 0.03 0.79 71.57 8.77 0.21 100.00
47.72 100.00 37.70 60.71 55.05 75.00 57.06
10.63 0.02 0.45 40.83 5.00 0.12 57.06
HTP 596 0 38 1352 209 2 2197
27.13 -- 1.73 61.54 9.51 0.09 100.00
52.28 -- 62.30 39.29 44.95 25.00 42.94
11.65 -- 0.74 26.43 4.09 0.04 42.94
Total 1140 1 61 3441 465 8 5116
22.28 0.02 1.19 67.26 9.09 0.16 100.00
100.00 100.00 100.00 100.00 100.00 100.00 100.00
22.28 0.02 1.19 67.26 9.09 0.16 100.00
Introduction Univarie Bivarie
Notion de covariance
Covariance
Elle caracterise deux variables simultanement
cov(x ,y) =1n
n∑i=1
[(xi − x )(yj − y)]
cov(x ,y) =1n
p∑i=1
q∑j=1
[nij (xi − x )(yj − y)]
Introduction Univarie Bivarie
Notion de covariance
La covariance
est positive quand la relation entre X et Y est positive
negative quand la relation est negative
si X et Y sont lineairement independantes alorsCov(X ,Y ) = 0l’inverse n’est pas vrai : Cov(X ,Y ) = 0 n’⇒ pas absence delien entre X et Y
Introduction Univarie Bivarie
Coefficient de correlation lineaire
Le degre de liaison lineaire entre X et Y est etudie par lecoefficient de correlation lineaire note r.
r =cov(x ,y)
sx sy
encore note rxy ou r(x ,y)
• Le coefficient de correlation est compris entre -1 et +1.
• si r = 1 ou si r = −1, x et y sont parfaitement correles et lespoints sont alignes sur une droite.
Introduction Univarie Bivarie
Coefficient de correlation lineaire
• Si les variables X et Y sont lineairement independantes alorsr = 0.
• Si le coefficient de correlation r = 0 et que les variables X et Ysuivent une loi normale, alors elles sont lineairement independantes.
• mais si r = 0 cela n’implique pas l’absence de relation entre x ety → si f (x ) = x 2 : relation, mais non lineaire et r = 0.
Introduction Univarie Bivarie
Diagramme de dispersion ou de correlation
C’est le diagramme qui represente les couples de point (xi ,yj ). Ilpermet d’apprecier la liaison pouvant exister entre X et Y
Introduction Univarie Bivarie
Correlation : exemples
Remarques :
• si les points sont alignes sur une droite ascendante : r = 1
• et vice-versa si r = 1 ou si r = −1 les points sont alignes sur unedroite
• mais situation rarissime dans le monde bio-medical
• coefficient de determination : r2
• r2 : part de variabilite de y induite par x (en supposant relationdirectionnelle de x a y)
Introduction Univarie Bivarie
Independance statistique
On peut montrer que x et y sont statistiquement independantslorsque les distributions conditionnelles en y conditionnees par lesvaleurs xi de x sont identiques quel que soit l’indice i .
fij = fi . · f.j
Theoreme
Deux variables conjointes X et Y sont independantes si lesfrequences par classe sont egales au produits des frequencesmarginales.
Introduction Univarie Bivarie
Correlation : exemple
Quelques exemples (ex. maternites) :
• correlation gestite - parite : r = 0.821
• correlation gestite - IMC : r = 0.120
• correlation parite - IMC : r = 0.145
• correlation duree du travail - duree efforts expulsifs : r = 0.420
• correlation poids de naissance - pH au scalp : r = −0.007
• correlation duree gestation - hauteur uterine : r = 0.142
Introduction Univarie Bivarie
Notion de droite de regression
Une distribution conjointe peut etre obtenue de deux manieres :
• le couple de valeur (x , y) est recueilli pour chaque individu puisenregistre. Dans ce cas les valeurs prises par X et Y dependentuniquement de l’individu, on dit que ces valeurs sont aleatoires.
• le couple de valeur (x , y) est recueilli lors d’une experience danslaquelle on fixe (on controle) les valeurs de x et l’on recueille lavaleur de y ⇒ X est controle et Y est aleatoire.
Introduction Univarie Bivarie
Notion de droite de regression
Une distribution conjointe peut etre obtenue de deux manieres :
• le couple de valeur (x , y) est recueilli pour chaque individu puisenregistre. Dans ce cas les valeurs prises par X et Y dependentuniquement de l’individu, on dit que ces valeurs sont aleatoires.
• le couple de valeur (x , y) est recueilli lors d’une experience danslaquelle on fixe (on controle) les valeurs de x et l’on recueille lavaleur de y ⇒ X est controle et Y est aleatoire.
Introduction Univarie Bivarie
Notion de droite de regression
Exemples de variables de type controlees ou aleatoires :
Effort developpe - tension arterielle : Variable controlee -variable aleatoire
Masse de sucre absorbee - glycemie : V. controlee - V.aleatoire
Poids - Age : Variable aleatoire - variable aleatoire
• L’analyse du tableau de correlation ne sera pas la meme dans lesdeux situations.
.../...
Introduction Univarie Bivarie
Notion de droite de regression
.../... (Exemples de variables de type controlees ou aleatoires)
• Dans le cas X et Y aleatoires, le coefficient de correlationlineaire recherche la liaison entre X et Y
• description de la liaison mais mais pas de preuve de la relation decause a effet de x sur y
Introduction Univarie Bivarie
Notion de droite de regression
Lorsque Y est aleatoire et X controle : situation explicative desvaleurs prises par Y en fonction des valeurs prises par X
• tend a prouver la relation de cause a effet entre x et y
• la liaison entre X et Y sera obtenue par la determination de ladroite de regression.
• la droite qui passe au mieux dans le nuage de points seraobtenue a l’aide du (( critere des moindres carres ))
Introduction Univarie Bivarie
Notion de droite de regression
→ diagramme de dispersion des couples de valeurs (xi , yi), avec xi
en abscisse et yi en ordonnee.
• chercher la droite d’equation yd = (a · x + b) telle que la sommedes carres des distances Di entre les points yi experimentaux et lespoints yd ,i = (a · xi + b) de la droite des moindres carres al’abscisse xi soit minimum.
Introduction Univarie Bivarie
Notion de droite de regression
• A partir des N couples de valeurs (xi , yi) et d’une droite encore
inconnue yd = a · x + b → calculer n distances
Di = yi − yd ,i = yi − (a · xi + b)
• les inconnues sont les valeurs a et b, les autres grandeurs sontconnues.
Introduction Univarie Bivarie
Notion de droite de regression
On obtient a et b en minimisant la somme suivante (methode desmoindres carres) :
S =n∑
i=1
D2i =
n∑i=1
(yi − a · xi − b)2
Introduction Univarie Bivarie
Notion de droite de regression
on obtient y = ax + b : la droite passe par le point (x ,y).
• puis on obtient : a = pente de la droite =
a =cov(X ,Y )
σ2X
Puis on obtient b a partir de
b = y − ax
.
Introduction Univarie Bivarie
Notion de droite de regression
Remarque 1 : Lorsque Y est la variable controlee et X est lavariable aleatoire, on peut effectuer les memes developpements enpermutant X et Y .
La droite de regression de Y en X est en generale differente de ladroite de regression de X en Y .
Remarque 2 : Lorsque X et Y sont independants, la droite deregression de Y en X est une droite parallele a l’axe des X et ladroite de regression de X en Y est parallele a l’axe des Y .
Introduction Univarie Bivarie
Notion de droite de regression
x = 1,2,3,4,5,6,7,8,9,10
y = 2.1 4.3 5.1 8.5 10.3 11.5 13.5 17.3 17.9 20.5
cov(x ,y) = 18.78
var(x ) = σ2 = 9.166
a = cov(x ,y)/var(x ) = 2.048
b = −0.167
x = 5,5 y = 11,1
Introduction Univarie Bivarie
La citation du jour
(( Car le medecin etant un compendium des erreurs successives etcontradictoires des medecins, en appelant a soi les meilleursd’entre eux on a une grande chance d’implorer une verite qui serareconnue fausse quelques annees plus tard. De sorte que croire a lamedecine serait la supreme folie, si n’y pas croire n’en etait pas uneplus grande, car de cet amoncellement d’erreurs se sont degagees ala longue quelques verites. ))
M. ProustLe Cote de Guermantes