Laboratoire de Biostatistique et Informatique M edicale...

Introduction Univarie Bivarie

Statistique descriptive

Pr. Nicolas MEYER

———————Laboratoire de Biostatistique et Informatique Medicale

Fac. de Medecine de Strasbourg———————

novembre 2010


Plan

1 Introduction

2 Statistique descriptive univarieeNotions generalesParametres de positionParametres de dispersion

3 Statistique descriptive bivariee


L’info medicale aleatoire du jour...

→ Site 20mn.fr

Et si faire attention a sa ligne, c’etait mauvais pour la sante ? Dansun rapport publie ce jeudi, l’Agence de securite sanitaire (Anses) apasse au crible 15 regimes, relate France Info. Et le resultat n’estpas brillant.

Que le regime soit detox, Dukan ou encore californien, l’Anses(Agence de securite sanitaire de l’alimentation, de l’environnementet du travail ) a souligne d’importants desequilibres, notamment enmacronutriments, en vitamines et en mineraux. En general, il yaurait trop de proteines, plus que les apports nutritionnelsconseilles (en particulier pour le regume Dukan).


Plan

1 Introduction

2 Statistique descriptive univariee




Les objectifs de la statistique descriptive sont de :

definir le ou les groupes etudies (population ou echantillon)

definir le codage des observations

definir la presentation des donnees : numerique et/ougraphique

reduire les donnees a quelques indicateurs statistiquessynthetiques



La description des donnees

souvent la premiere approche dans la comprehension d’unphenomene

reduction des donnees a quelques indices numeriquespermettant de manipuler les donnees

permettra la formulation d’hypotheses qui pourront etreverifiees a l’aide de tests statistiques lors d’etudes organiseesulterieurement

d’ou une approche progressive du modele biologique oumedical


Definition du groupe etudie

Une etude statistique doit definir le groupe a etudier

en theorie → la population

en pratique → un echantillon

l’echantillon doit etre representatif de la population

pour pouvoir etendre les resultats obtenus sur l’echantillon ala population

car l’interet porte sur la population et pas sur un echantillonen particulier

description d’un echantillon → description de la population


Plan

1 Introduction




Generalites

Plan

1 Introduction




Generalites

Codage de l’information : type de variable

Une etude statistique ⇒ des (( mesures ))

valeur quantitative, mesurable par une unite physique :concentration, dosage, poids, taille, proportion, variationexprimee en pourcentage, quantite, duree de sejour, etc.

valeur qualitative, non mesurable par une unite physique :caracteristique du sujet (sexe, presence d’une maladie,antecedents medicaux, etc)


Generalites

Variable quantitative

Une variable quantitative est une mesure pouvant etre exprimeepar un nombre

valeur sur l’echelle des reels positifs : R+ : valeurs continuesstrictement positives

poids, taille, concentrations, etc

plus rarement valeur sur l’echelle des reels : R : valeurscontinues

variation de dosage, etc

valeur sur l’echelle des entiers positifs : N+ : valeurs discretes

nombre de cigarettes, duree de sejours, nombre d’enfants, etc.


Generalites

Variable qualitative

Elle traduit une mesure non-physique, une qualite, unecaracteristique, absence de la propriete d’additivite

variable qualitative binaire = binomiale = dichotomique : adeux classes, exclusives l’une de l’autre

present/absent, malade/sain, positif/negatif, etc

variable qualitative multinomiale = polychotomique : a plusde deux classes, dont il existe deux types :

variable multinomiale nominale : sans ordre naturel entre lesdifferentes modalites, comme groupes sanguins, genotypesvariants de VHC, etcvariable multinomiale ordinale : avec ordre naturel entre lesdifferentes modalites, comme stades de cancer, de progression,mais l’addition de deux modalites n’a pas de sens


Generalites

Recodage

Les donnees sont parfois recodees :

pour des variables polychotomiques : regroupement deplusieurs modalites ayant des petits effectifs

pour des variables quantitatives : recodage en variablequalitative a k classes.

Exemple : echelle visuelle analogique (EVA)

douleur evaluee par une echelle de 0 a 10

peut etre recodee en 4 classes : douleur nulle ou faible,moderee, severe, extreme.

si la categorie extreme presente des effectifs faibles →regrouper les troisiemes et quatriemes classes en une seule

une variable continue peut etre dichotomisee : testdiagnostique, comme la glycemie, dosage continu separe endeux classes de part et d’autre du seuil=1,10 g/L.


Generalites

Presentation numerique des donnees

Les donnees d’une serie statistique doivent etre resumees pour

pouvoir decrire rapidement de grandes series de valeurs

realiser des tests statistiques

→ Description des variables qualitatives puis des variablesquantitatives


Generalites

Description statistique des variables qualitatives

Soit une serie de valeurs qualitative :H ,F ,F ,F ,H ,F ,H ,F ,F ,F ,F ,H ,H ,F ,H ,H , . . . ,F

donner les effectifs de chaque modalite

donner les proportions (= frequences) de chaque modalite parrapport au total

combiner si besoin les proportions, notamment des proportionscumulees pour des variables ordinales (stade de cancer)


Generalites

Description statistique des variables qualitatives

La variable X prend les valeurs x1, x2, . . . , xn , n valeurs avec poccurences differentes

Occurence de X x1 x2 . . . xi . . . xp total

Effectifs n1 n2 . . . ni . . . np nFrequence f1 f2 . . . fi . . . fp 1

Et :

n =p∑

i=1

ni , fi =ni

n,

p∑i=1

fi = 1


Generalites

Presentation des valeurs

Le plus souvent, presentation par classes de valeurs, i.e. paroccurence, en donnant les effectifs de chaque occurence.

Exemple

• soit la serie de valeurs : 1,1,2,2,3,4,5,6,6,7,8,9,9,9,10.

• n = 15

• la liste des occurences : 1,2,3,4,5,6,7,8,9,10

• d’ou les frequences de chaque occurence : f1 = 2/15, f2 = 2/15,f3 = 1/15, etc.


Generalites

Presentation des valeurs

• Les donnees peuvent aussi etre presentees par classes :

• choisir trois classes : [0; 4[, [4; 8[, [8; +∞[.

• rappel des valeurs : 1,1,2,2,3,4,5,6,6,7,8,9,9,9,10, et n = 15

• sur ces donnees : n = 15 et 3 classes differentes, d’effectifs : 5, 5et 5.


Generalites

Exemple

> desql(BRACKETS)Effectifs Proportions

0 211 46.8891 239 53.111Total 450 100.000Non Manquants 450 100.000MANQUANTS 0 0.000


Generalites

> desql(CLANGLE)Effectifs Proportions Proportions cumulees

1 90 20.134 20.1342 197 44.072 64.2062.1 78 17.450 81.6562.2 37 8.277 98.9333 45 10.067 100.000Total 447 100.000Non Manquants 447 99.333MANQUANTS 3 0.667

• Notez le codage numerique pour une variable qualitative : lecodage utilise souvent des codes numeriques (mais sans en retenirla valeur) pour coder des variables qualitatives


Position

Plan

1 Introduction




Position

Statistique descriptive des variables quantitatives

Les variables continues sont decrites numeriquement par :

• des parametres de position

moyenne

percentiles, dont :

medianepremier (Q1) et troisieme quartile (Q3)percentiles pautres : tiertiles, deciles, etc

mode

mediale

minimum et maximum


Position

Statistique descriptive des variables quantitatives

Mais aussi :

• des parametres de dispersion

variance

ecart-type

ecart inter-quartile

etendue ou amplitude

coefficient de variation

Plus skewness et kurtosis, parametres d’etalement et d’asymetrie.


Position

Parametres de position

La moyenne (arithmetique)

somme des valeurs divisee par l’effectif de la serie

Soit sur un echantillon de taille n :

x =p∑

i=1

fixi =1n

p∑i=1

nixi =1n

n∑i=1

xi

• x1, . . . , xi , . . . , xn etant les n valeurs observees, x1, . . . , xi , . . . , xp

etant les p occurences observees avec n1, . . . ,ni , . . . ,np leseffectifs correspondants de ces occurences.


Position


Exemple : calcul de la moyenne arithmetique pour les donneessuivantes : 6, 7, 7, 7, 8, 8, 8, 9, 9, 10 :

m = 0,1 · 6 + 0,3 · 7 + 0,3 · 8 + 0,2 · 9 + 0,1 · 10 = 7,9

• la moyenne est sensible aux valeurs extremes

• si on remplace le 10 par un 100 (frequent dans certains contextesmedicaux), alors m = 16,90


Position


la mediane

notee x ou medx ou med(x ) : valeur telle que la moitie desobservations lui sont inferieures et donc la moitie lui sontsuperieures

Dans les distributions symetriques (loi de Gauss par ex.) lamediane = la moyenne.


Position


(La mediane.../...)

Deux cas :

1 le nombre de valeurs est impair (n impair) → x = x(n+1)/2

ex. : si n = 15, (n + 1)/2 = 8 → la mediane est la huitiemevaleur de la serie :1,1,2,2,3,4,5,6,6,7,8,9,9,9,10 : x = 6

2 le nombre de valeurs est pair (n pair), tout nombre comprisentre (xn/2 et xn/2+1)/2 repond a la definition. On definitalors generalement la mediane par : → x = (xn/2 + xn/2+1)/2

si : 1,1,2,2,3,4,5,6,6,7,8,9, alors x = 4,5


Position


le mode

Encore appelee valeur dominante : valeur observee de frequencemaximum.

le mode est la valeur la plus frequente mais de maniere relativeet pas absolue (donc pas forcement la majorite des valeurs)

il peut y avoir deux ou plusieurs modes :1,2,3,3,3,3,4,5,6,6,6,6,7,15 : modes = 3 et 6

lorsqu’une distribution est bimodale, on peut penser quel’echantillon est en realite issu de deux populations differentes

si toutes les valeurs sont differentes, autant de modes que devaleurs : 1,2,3,5,6,9,14,16 → chaque valeur = mode


Position


Quartiles

Les trois quartiles divisent l’ensemble de la distribution en 4ensembles de meme taille (au moins approximativement)

Q1 → 25% des valeurs sont inferieures a Q1

Q2 = mediane → 50% des valeurs sont inferieures a Q2

Q3 → 75% des valeurs sont inferieures a Q3

En pratique, parfois difficile de les calculer quand les effectifs sontpetits.


Position


Quantiles / Fractiles

Le quantile d’ordre k est la valeur qui separe la distribution en kclasses de meme effectifs (au moins approximativement) : deciles,quartiles, tiertiles, centiles, etc.

d’ou :

percentile

percentile p divise la distribution en deux groupes tel que p% desvaleurs soient situees sous p et (100− p%) des valeurs soientsituees au-dessus.

• Les quantiles sont pertinents surtout quand le nombre de valeursest suffisant pour les calculer de maniere precise (n > 100)

• Voir Box-plot / boıtes a moustaches


Dispersion

Plan

1 Introduction




Dispersion

Parametres de dispersion

Variance

C’est la moyenne arithmetique des carres des ecarts a la moyenne→ dispersion, etalement, variabilite des valeurs

• Dans une population, la variance est :

σ2 =1n

n∑i=1

(xi − µ)2

n; σ2 =

p∑i=1

fi(xi − µ)2

ou µ = moyenne de la population

• Les valeurs calculees (sur un echantillon) sont :

s2 =1n

n∑i=1

(xi − x )2

n; s2 =

p∑i=1

fi(xi − x )2

ou m = moyenne de l’echantillon


Dispersion


Ne pas confondre avec les valeurs estimees de la variance de lapopulation a partir de l’echantillon

formules ci-dessus : valides quand on decrit une population ouun echantillon

suppose correction quand estimation de la variance pour lapopulation a partir des donnees d’un echantillon

l’estimateur de la variance d’une population a partir d’unechantillon est :

σ2 =1

n − 1

n∑i=1

(xi − x )2

n


Dispersion


• la variance est elle aussi tres sensible aux valeurs extremes

• soit la serie de 9 valeurs suivante : 1,2,3,4,6,5,9,7,2.

• on trouve :

moyenne = 4,333

s2 =∑

(xi − 4,333)2/9 = 6.222σ2 =

∑(xi − 4,333)2/8 = 7

si 9 → 90, alors : x = 14.111, s2 = 725.4 et σ2 = 816.1


Dispersion


Ecart-type (standard error)

c’est la racine carre de la variance : σ =√σ2 ; s =

√s2

Selon les circonstances, utilisation de s ou s2

• memes avantages et inconvenients que la variance (sensibiliteaux valeurs extremes)


Dispersion


Etendue

= amplitude, w = xn − x1, ecart entre le maximum et le minimumde la serie

• quantifie l’etalement total des donnees, utile surtout pour verifierla validite des mesures et detecter d’eventuelles valeurs extremes.

• donne une premiere approximation de l’ecart-type car s 6 w/2

• basee uniquement sur les extremes, donc tres sensible a cesextremes


Dispersion


Ecart inter-quartiles

= Q3 - Q1. Indique les 50% de valeurs situees au centre de ladistribution.

• comme la mediane et les quantiles, tres robuste, i.e. tres peusensible aux donnees extremes et aux fortes variations d’une petiteproportion de valeurs. Par ex., pour modifier la valeur de lamediane, il faut modifier plus de 50% des valeurs de la serie.

• Utile lors de la realisation de graphiques type box-plot / boıte amoustaches


Dispersion


Coefficient de variation

cv = s/x .

• permet de comparer l’etalement de donnees situees dans desordres de grandeur differents : comparer la variabilite du poids deselephants et des souris, ou des adultes et des enfants.


Dispersion

Exemple 1

Etude extraction instrumentale HTP / CMCO

comprendre pourquoi taux d’extraction instrumentale tres differententre les deux maternites


Dispersion

> descr3(DOSES,Site)

Descriptif

DOSES Site = CMCO Site = HTP

Effectifs presents 1444.000 835.000 609.000

Proportions de presents 28.115 28.479 27.632

Effectifs manquants 3692.000 2097.000 1595.000

Proportions de manquants 71.885 71.521 72.368

Moyenne 6.597 6.366 6.915

Ecart-type 3.736 3.043 4.500

Variance 13.956 9.258 20.248

Erreur standard (s.e.m) 0.052 0.105 0.182

Err. Std (basee sur l’ANOVA) NA 0.129 0.151


Dispersion

> descr3(DOSES,Site)

Descriptif

DOSES Site = CMCO Site = HTP

Minimum 1.000 1.200 1.000

Maximum 22.000 18.000 22.000

Percentile 2,5 2.000 2.000 2.000

Percentile 5 2.000 2.000 2.000

Q1 4.000 4.000 4.000

Mediane 6.000 6.000 6.000

Q3 8.000 8.000 8.400

Percentile 95 12.000 12.000 17.200

Percentile 97,5 16.000 12.000 20.000

Ecart inter-quartiles 4.000 4.000 4.400

IC valeurs borne inf -0.727 0.393 -1.922

IC valeurs borne sup 13.921 12.338 15.752

IC moyenne borne inf 6.495 6.159 6.557

IC moyenne borne sup 6.699 6.572 7.273

IC moyenne borne inf (ANOVA) NA 6.112 6.619

IC moyenne borne sup (ANOVA) NA 6.619 7.211


Dispersion

Description des 1444 valeurs non-manquantes :

Triaplat

Eff. Eff. cum. Prop. Prop. cum Site = CMCO Site = HTP

1 2 2 0.14 0.14 0 2

1.2 14 16 0.97 1.11 3 11

2 172 188 11.91 13.02 109 63

2.4 24 212 1.66 14.68 3 21

3 16 228 1.11 15.79 4 12

3.4 1 229 0.07 15.86 0 1

3.6 12 241 0.83 16.69 3 9

3.7 1 242 0.07 16.76 0 1

4 290 532 20.08 36.84 175 115

4.2 1 533 0.07 36.91 0 1

4.4 1 534 0.07 36.98 0 1

4.8 30 564 2.08 39.06 3 27

5 9 573 0.62 39.68 1 8

5.2 1 574 0.07 39.75 0 1

5.6 1 575 0.07 39.82 0 1

6 310 885 21.47 61.29 214 96

6.2 1 886 0.07 61.36 0 1 .../...


Dispersion


7 2 888 0.14 61.50 0 2

7.2 12 900 0.83 62.33 1 11

8 225 1125 15.58 77.91 155 70

8.4 4 1129 0.28 78.19 0 4

8.6 1 1130 0.07 78.25 0 1

9 1 1131 0.07 78.32 0 1

9.6 3 1134 0.21 78.53 0 3

10 128 1262 8.86 87.40 101 27

10.8 2 1264 0.14 87.53 0 2

11 1 1265 0.07 87.60 0 1

12 116 1381 8.03 95.64 46 70

14 21 1402 1.45 97.09 11 10

15 1 1403 0.07 97.16 1 0

16 9 1412 0.62 97.78 4 5

18 4 1416 0.28 98.06 1 3

19 1 1417 0.07 98.13 0 1

20 25 1442 1.73 99.86 0 25

22 2 1444 0.14 100.00 0 2


Dispersion

> descr3(BMI,Site,Tap=TRUE)

$Descriptif

BMI Site = CMCO Site = HTP

Effectifs presents 4736.000 2855.000 1881.000

Proportions de presents 92.212 97.374 85.345

Effectifs manquants 400.000 77.000 323.000

Proportions de manquants 7.788 2.626 14.655

Moyenne 23.431 23.354 23.546

Ecart-type 4.834 4.786 4.904

Variance 23.365 22.907 24.049

Erreur standard (s.e.m) 0.067 0.090 0.113

Err. Std (basee sur l’ANOVA) NA 0.090 0.111


Dispersion

> descr3(BMI,Site,Tap=TRUE)

$Descriptif

Minimum 14.000 14.000 15.000

Maximum 56.000 53.000 56.000

Percentile 2,5 18.000 18.000 17.000

Percentile 5 18.000 18.000 18.000

Q1 20.000 20.000 20.000

Mediane 22.000 22.000 22.000

Q3 25.000 25.000 25.000

Percentile 95 33.000 32.000 34.000

Percentile 97,5 36.000 36.000 36.000

Ecart inter-quartiles 5.000 5.000 5.000

IC valeurs borne inf 13.954 13.970 13.928

IC valeurs borne sup 32.907 32.739 33.164

IC moyenne borne inf 23.298 23.179 23.324

IC moyenne borne sup 23.563 23.530 23.768

IC moyenne borne inf (ANOVA) NA 23.177 23.328

IC moyenne borne sup (ANOVA) NA 23.532 23.764


Dispersion

$Triaplat


14 1 1 0.02 0.02 1 0

15 3 4 0.06 0.08 0 3

16 25 29 0.53 0.61 9 16

17 83 112 1.75 2.36 53 30

18 237 349 5.00 7.37 147 90

19 445 794 9.40 16.77 272 173

20 554 1348 11.70 28.46 343 211

21 651 1999 13.75 42.21 404 247

22 522 2521 11.02 53.23 316 206

23 428 2949 9.04 62.27 261 167

24 364 3313 7.69 69.95 206 158

25 279 3592 5.89 75.84 164 115

26 215 3807 4.54 80.38 138 77

27 170 3977 3.59 83.97 98 72

28 147 4124 3.10 87.08 86 61

29 125 4249 2.64 89.72 79 46

30 93 4342 1.96 91.68 54 39

31 69 4411 1.46 93.14 44 25

32 70 4481 1.48 94.62 40 30

33 45 4526 0.95 95.57 25 20

34 32 4558 0.68 96.24 15 17

35 34 4592 0.72 96.96 14 20

36 35 4627 0.74 97.70 18 17

37 23 4650 0.49 98.18 14 9

38 23 4673 0.49 98.67 14 9

39 11 4684 0.23 98.90 7 4

40 10 4694 0.21 99.11 8 2

41 7 4701 0.15 99.26 4 3

42 4 4705 0.08 99.35 2 2 .../...


Dispersion

.../...

43 7 4712 0.15 99.49 3 4

44 4 4716 0.08 99.58 3 1

45 3 4719 0.06 99.64 2 1

46 1 4720 0.02 99.66 0 1

47 2 4722 0.04 99.70 2 0

48 2 4724 0.04 99.75 1 1

49 3 4727 0.06 99.81 2 1

50 2 4729 0.04 99.85 2 0

51 1 4730 0.02 99.87 1 0

52 3 4733 0.06 99.94 1 2

53 2 4735 0.04 99.98 2 0

56 1 4736 0.02 100.00 0 1


Dispersion

Exemple 2

Etude decollement brackets

trouver les elements cliniques (lies au patient et a la pose) associesau decollement de bracket (orthodontie)


Dispersion

> descr1(AGEPOSE,Tap=TRUE)Descriptif

AGEPOSEEffectifs presents 450.0000Proportions de presents % 100.0000Effectifs manquants 0.0000Proportions de manquants % 0.0000Moyenne 14.0489Ecart-type 5.9968Variance 35.9619Erreur standard (s.e.m) 0.2827Minimum 8.3000Maximum 58.7000


Dispersion

Percentile 2,5 10.1000Percentile 5 10.5000Q1 11.8000Mediane 12.7000Q3 14.1000Percentile 95 21.3500Percentile 97,5 36.4575Ecart inter-quartiles 2.3000IC valeurs borne inf 2.2636IC valeurs borne sup 25.8342IC moyenne borne inf 13.4927IC moyenne borne sup 14.6051


Plan

1 Introduction

2 Statistique descriptive univariee



Variables conjointes

Recueil simultane de deux variables chez les memes sujets : deuxvariables X et Y

L’interet se porte le plus souvent sur la relation entre les deuxvariables, recherche de correlation qui n’implique pas un lien decausalite.


Notations

Soit deux series de valeurs X et Y ayant respectivement nx et ny

valeurs et xp et yq occurences differentes :

HHHHHHX

Yy1 . . . yi . . . yq Total

x1 n11 n1.

. . .xi nij ni .

. . .xp np.

Total n.1 n.j n.q n..

• case cij , d’effectif nij et de frequence relative fij = nij /n..


Description

• On a :

ni . =

q∑j=1

nij , n.j =

p∑i=1

nij

• Par ailleurs,p∑

i=1

ni . =

q∑j=1

n.j =

p∑i=1

q∑j=1

nij = n.. = n

• De plus,

fi . = ni ./n, f.j = n.j/n, fij = nij/n


Lignes : Site Colonnes : ANEST

aucune bloc ner generale peridura rachi rachiper Total

CMCO 544 1 23 2089 256 6 2919

18.64 0.03 0.79 71.57 8.77 0.21 100.00

47.72 100.00 37.70 60.71 55.05 75.00 57.06

10.63 0.02 0.45 40.83 5.00 0.12 57.06

HTP 596 0 38 1352 209 2 2197

27.13 -- 1.73 61.54 9.51 0.09 100.00

52.28 -- 62.30 39.29 44.95 25.00 42.94

11.65 -- 0.74 26.43 4.09 0.04 42.94

Total 1140 1 61 3441 465 8 5116

22.28 0.02 1.19 67.26 9.09 0.16 100.00

100.00 100.00 100.00 100.00 100.00 100.00 100.00

22.28 0.02 1.19 67.26 9.09 0.16 100.00


Distribution conditionnelle

• En ne considerant qu’une ligne du tableau, on decrit ladistribution en colonne conditionnelle a la ligne : distribution de yconditionnelle a x = xi .

• idem pour les lignes|colonnes.

• Definition des frequences conditionnelles :

fj |i = nij/ni . = fij/fi ., fi |j = nij/n.j = fij/f.j

On note que :

p∑i=1

fi |j = 1,

q∑j=1

fj |i = 1




CMCO 544 1 23 2089 256 6 2919

18.64 0.03 0.79 71.57 8.77 0.21 100.00

47.72 100.00 37.70 60.71 55.05 75.00 57.06

10.63 0.02 0.45 40.83 5.00 0.12 57.06

HTP 596 0 38 1352 209 2 2197

27.13 -- 1.73 61.54 9.51 0.09 100.00

52.28 -- 62.30 39.29 44.95 25.00 42.94

11.65 -- 0.74 26.43 4.09 0.04 42.94

Total 1140 1 61 3441 465 8 5116

22.28 0.02 1.19 67.26 9.09 0.16 100.00

100.00 100.00 100.00 100.00 100.00 100.00 100.00

22.28 0.02 1.19 67.26 9.09 0.16 100.00


Distributions marginales

Ce sont les distributions d’une serie de valeurs lorsque l’on ne tientpas compte de l’autre serie :

• Distribution marginale des colonnes :

HHHHHHX

Yy1 . . . yi . . . yq Total

Total n.1 n.j n.q n..

Total f.1 f.j f.q f..

• et la meme chose (( a travers )) les colonnes pour la distributionmarginale des lignes.




CMCO 544 1 23 2089 256 6 2919

18.64 0.03 0.79 71.57 8.77 0.21 100.00

47.72 100.00 37.70 60.71 55.05 75.00 57.06

10.63 0.02 0.45 40.83 5.00 0.12 57.06

HTP 596 0 38 1352 209 2 2197

27.13 -- 1.73 61.54 9.51 0.09 100.00

52.28 -- 62.30 39.29 44.95 25.00 42.94

11.65 -- 0.74 26.43 4.09 0.04 42.94

Total 1140 1 61 3441 465 8 5116

22.28 0.02 1.19 67.26 9.09 0.16 100.00

100.00 100.00 100.00 100.00 100.00 100.00 100.00

22.28 0.02 1.19 67.26 9.09 0.16 100.00


Notion de covariance

Covariance

Elle caracterise deux variables simultanement

cov(x ,y) =1n

n∑i=1

[(xi − x )(yj − y)]

cov(x ,y) =1n

p∑i=1

q∑j=1

[nij (xi − x )(yj − y)]


Notion de covariance

La covariance

est positive quand la relation entre X et Y est positive

negative quand la relation est negative

si X et Y sont lineairement independantes alorsCov(X ,Y ) = 0l’inverse n’est pas vrai : Cov(X ,Y ) = 0 n’⇒ pas absence delien entre X et Y


Covariance : exemple

cov(x ,y) = 1,45


Covariance : exemple

cov(x ,y) = −1,20


Coefficient de correlation lineaire

Le degre de liaison lineaire entre X et Y est etudie par lecoefficient de correlation lineaire note r.

r =cov(x ,y)

sx sy

encore note rxy ou r(x ,y)

• Le coefficient de correlation est compris entre -1 et +1.

• si r = 1 ou si r = −1, x et y sont parfaitement correles et lespoints sont alignes sur une droite.


Coefficient de correlation lineaire

• Si les variables X et Y sont lineairement independantes alorsr = 0.

• Si le coefficient de correlation r = 0 et que les variables X et Ysuivent une loi normale, alors elles sont lineairement independantes.

• mais si r = 0 cela n’implique pas l’absence de relation entre x ety → si f (x ) = x 2 : relation, mais non lineaire et r = 0.


Diagramme de dispersion ou de correlation

C’est le diagramme qui represente les couples de point (xi ,yj ). Ilpermet d’apprecier la liaison pouvant exister entre X et Y


Correlation : exemples

r = 0,762



r = −0,456



Remarques :

• si les points sont alignes sur une droite ascendante : r = 1

• et vice-versa si r = 1 ou si r = −1 les points sont alignes sur unedroite

• mais situation rarissime dans le monde bio-medical

• coefficient de determination : r2

• r2 : part de variabilite de y induite par x (en supposant relationdirectionnelle de x a y)


Independance statistique

On peut montrer que x et y sont statistiquement independantslorsque les distributions conditionnelles en y conditionnees par lesvaleurs xi de x sont identiques quel que soit l’indice i .

fij = fi . · f.j

Theoreme

Deux variables conjointes X et Y sont independantes si lesfrequences par classe sont egales au produits des frequencesmarginales.


Correlation : exemple

Quelques exemples (ex. maternites) :

• correlation gestite - parite : r = 0.821

• correlation gestite - IMC : r = 0.120

• correlation parite - IMC : r = 0.145

• correlation duree du travail - duree efforts expulsifs : r = 0.420

• correlation poids de naissance - pH au scalp : r = −0.007

• correlation duree gestation - hauteur uterine : r = 0.142


Notion de droite de regression

Une distribution conjointe peut etre obtenue de deux manieres :

• le couple de valeur (x , y) est recueilli pour chaque individu puisenregistre. Dans ce cas les valeurs prises par X et Y dependentuniquement de l’individu, on dit que ces valeurs sont aleatoires.

• le couple de valeur (x , y) est recueilli lors d’une experience danslaquelle on fixe (on controle) les valeurs de x et l’on recueille lavaleur de y ⇒ X est controle et Y est aleatoire.



Exemples de variables de type controlees ou aleatoires :

Effort developpe - tension arterielle : Variable controlee -variable aleatoire

Masse de sucre absorbee - glycemie : V. controlee - V.aleatoire

Poids - Age : Variable aleatoire - variable aleatoire

• L’analyse du tableau de correlation ne sera pas la meme dans lesdeux situations.

.../...



.../... (Exemples de variables de type controlees ou aleatoires)

• Dans le cas X et Y aleatoires, le coefficient de correlationlineaire recherche la liaison entre X et Y

• description de la liaison mais mais pas de preuve de la relation decause a effet de x sur y



Lorsque Y est aleatoire et X controle : situation explicative desvaleurs prises par Y en fonction des valeurs prises par X

• tend a prouver la relation de cause a effet entre x et y

• la liaison entre X et Y sera obtenue par la determination de ladroite de regression.

• la droite qui passe au mieux dans le nuage de points seraobtenue a l’aide du (( critere des moindres carres ))



→ diagramme de dispersion des couples de valeurs (xi , yi), avec xi

en abscisse et yi en ordonnee.

• chercher la droite d’equation yd = (a · x + b) telle que la sommedes carres des distances Di entre les points yi experimentaux et lespoints yd ,i = (a · xi + b) de la droite des moindres carres al’abscisse xi soit minimum.



r = −0,456



• A partir des N couples de valeurs (xi , yi) et d’une droite encore

inconnue yd = a · x + b → calculer n distances

Di = yi − yd ,i = yi − (a · xi + b)

• les inconnues sont les valeurs a et b, les autres grandeurs sontconnues.



On obtient a et b en minimisant la somme suivante (methode desmoindres carres) :

S =n∑

i=1

D2i =

n∑i=1

(yi − a · xi − b)2



on obtient y = ax + b : la droite passe par le point (x ,y).

• puis on obtient : a = pente de la droite =

a =cov(X ,Y )

σ2X

Puis on obtient b a partir de

b = y − ax

.



Remarque 1 : Lorsque Y est la variable controlee et X est lavariable aleatoire, on peut effectuer les memes developpements enpermutant X et Y .

La droite de regression de Y en X est en generale differente de ladroite de regression de X en Y .

Remarque 2 : Lorsque X et Y sont independants, la droite deregression de Y en X est une droite parallele a l’axe des X et ladroite de regression de X en Y est parallele a l’axe des Y .



x = 1,2,3,4,5,6,7,8,9,10

y = 2.1 4.3 5.1 8.5 10.3 11.5 13.5 17.3 17.9 20.5

cov(x ,y) = 18.78

var(x ) = σ2 = 9.166

a = cov(x ,y)/var(x ) = 2.048

b = −0.167

x = 5,5 y = 11,1


La citation du jour

(( Car le medecin etant un compendium des erreurs successives etcontradictoires des medecins, en appelant a soi les meilleursd’entre eux on a une grande chance d’implorer une verite qui serareconnue fausse quelques annees plus tard. De sorte que croire a lamedecine serait la supreme folie, si n’y pas croire n’en etait pas uneplus grande, car de cet amoncellement d’erreurs se sont degagees ala longue quelques verites. ))

M. ProustLe Cote de Guermantes

Laboratoire de Biostatistique et Informatique M edicale...

Documents

Transcript of Laboratoire de Biostatistique et Informatique M edicale...