Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple.
-
Upload
francois-page -
Category
Documents
-
view
136 -
download
7
Transcript of Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple.
![Page 1: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple.](https://reader030.fdocuments.in/reader030/viewer/2022020713/551d9db4497959293b8d910b/html5/thumbnails/1.jpg)
Corrélation et régression linéaire simple
1. La corrélation
2. La régression linéaire simple
![Page 2: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple.](https://reader030.fdocuments.in/reader030/viewer/2022020713/551d9db4497959293b8d910b/html5/thumbnails/2.jpg)
Introduction
Etude de la relation entre deux variables quantitatives:
-description de l’association linéaire: corrélation, régression linéaire simple
- explication / prédiction d’une variable à partir de l’autre: modèle linéaire simpleX
Y
Nuage de points:
![Page 3: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple.](https://reader030.fdocuments.in/reader030/viewer/2022020713/551d9db4497959293b8d910b/html5/thumbnails/3.jpg)
La corrélation
Statistique descriptive de la relation entre X et Y: variation conjointe
1. La covariance
Dans l’échantillon:
cov(x, y) 1
nx iy i
i1
n
x y
Estimation pour la population:
cov(x, y) ˆ xy 1
n 1(x i
i1
n
x )(y i y )
cov(x,y) 1
n 1x iy i
i1
n
n
n 1x y
![Page 4: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple.](https://reader030.fdocuments.in/reader030/viewer/2022020713/551d9db4497959293b8d910b/html5/thumbnails/4.jpg)
Covariance et nuage de points
(x i x ) 0
x
y
(y i y ) 0Contribution > 0
> 0< 0
< 0
La corrélation
![Page 5: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple.](https://reader030.fdocuments.in/reader030/viewer/2022020713/551d9db4497959293b8d910b/html5/thumbnails/5.jpg)
2. Le coefficient de corrélation linéaire
« de Pearson »
Dans l’échantillon:
Estimation pour la population:
22yx
xyxy
ss
sr
ˆ xy rxy sxy
sx2sy
2
La corrélation
![Page 6: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple.](https://reader030.fdocuments.in/reader030/viewer/2022020713/551d9db4497959293b8d910b/html5/thumbnails/6.jpg)
2. Le coefficient de corrélation linéaire
X1
X2
r = 0.9
X2
r = 0.5
X2
r = 0
r = 0r = -0.5
Indice de covariance absolu: -1 ≤ r ≤ 1
La corrélation
r = -0.9
X2 X2 X2
![Page 7: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple.](https://reader030.fdocuments.in/reader030/viewer/2022020713/551d9db4497959293b8d910b/html5/thumbnails/7.jpg)
3. Conditions d’utilisation
La loi de probabilité du couple (X,Y) f(x,y)dxdy = P(x ≤ X ≤ x+dx, y ≤ Y ≤ y+dy)est une loi normale à deux dimensions: Notamment, pour chaque valeur de X, les valeurs de Y sont normalement distribuées et vice-versa.
r = 0.8r = 0
La corrélation
Normalité
![Page 8: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple.](https://reader030.fdocuments.in/reader030/viewer/2022020713/551d9db4497959293b8d910b/html5/thumbnails/8.jpg)
Homoscédasticité
La variance de Y est indépendante de X et vice-versa.
Y
X
Y
Homoscédasticité
Hétéroscédasticité
La corrélation
3. Conditions d’utilisation
![Page 9: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple.](https://reader030.fdocuments.in/reader030/viewer/2022020713/551d9db4497959293b8d910b/html5/thumbnails/9.jpg)
Linéarité
La relation est linéaire
Y
Linéarité
X
Y
Non-linéarité
X
La corrélation
3. Conditions d’utilisation
![Page 10: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple.](https://reader030.fdocuments.in/reader030/viewer/2022020713/551d9db4497959293b8d910b/html5/thumbnails/10.jpg)
Non respect des conditions d’utilisation
0 10 20 30 40 50AGE
20
30
40
50
60
FK
LNG
TH
0.5 1.0 1.5 2.0LAGE
1.3
1.4
1.5
1.6
1.7
1.8
LFK
L
Relation âge - longueur chez l’esturgeon: transformation log-log;Alternative: utiliser la corrélation non paramétrique
La corrélation
![Page 11: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple.](https://reader030.fdocuments.in/reader030/viewer/2022020713/551d9db4497959293b8d910b/html5/thumbnails/11.jpg)
4. Tests de la corrélation
a. Distribution d’échantillonnage du coefficient de corrélation linéaire
Lorsque les conditions d’utilisation (binormalité, homoscédasticité, linéarité) sont remplies,
sous Ho: = 0:
Attention, sous Ha: ≠ 0: distribution complexe
R n 2
1 R2: Tn 2 (Student)
La corrélation
![Page 12: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple.](https://reader030.fdocuments.in/reader030/viewer/2022020713/551d9db4497959293b8d910b/html5/thumbnails/12.jpg)
b. Test de = 0
H 0 : 0
H a : 0
Absence de relation linéaire (mais pas absence de relation y compris causale)
Sous Ho:
tobs r n 2
1 r2 tn 2,
Si H0 est rejetée: corrélation ≠ causalité
4. Tests de la corrélation
La corrélation
![Page 13: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple.](https://reader030.fdocuments.in/reader030/viewer/2022020713/551d9db4497959293b8d910b/html5/thumbnails/13.jpg)
La régression linéaire simple
Y
X
Description de la relation entre X et Y: « courbes de niveau » du nuage de points. Si (X,Y) suit une loi binormale: ellipses.
![Page 14: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple.](https://reader030.fdocuments.in/reader030/viewer/2022020713/551d9db4497959293b8d910b/html5/thumbnails/14.jpg)
Courbes de régression
Description de la relation: densité de probabilité de Y conditionnellement à X: Y
X
fxx0(y)dy P(y Y y dy / X x0)
Courbe de régression = E(Y/X) et E(X/Y)
Si (X,Y) binormale alors les courbes de régression sont des droites
E(Y/X)
E(X/Y)
- X et Y tiennent un rôle symétrique !- Plusieurs courbes possibles
La régression linéaire simple
![Page 15: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple.](https://reader030.fdocuments.in/reader030/viewer/2022020713/551d9db4497959293b8d910b/html5/thumbnails/15.jpg)
1. Le modèle
On suppose: y = f(x) = a + bx
Modèle: Yi = a + bXi + ei avec, pour X = xi, Yi : N(a+bxi, )
X = variable explicative (« indépendante »), contrôléeY = variable expliquée (dépendante ), aléatoire Y
X
Relation de causalité ≠ interdépendance
La régression linéaire simple
![Page 16: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple.](https://reader030.fdocuments.in/reader030/viewer/2022020713/551d9db4497959293b8d910b/html5/thumbnails/16.jpg)
2. L’estimation des paramètres
a? b?Méthode d’estimation: les moindres carrés:
Y
X
Mi
ei
M’i
xi
yi y = a+bx
ei = yi - (a + bxi)
ei2 minimale
ˆ y i
La régression linéaire simple
![Page 17: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple.](https://reader030.fdocuments.in/reader030/viewer/2022020713/551d9db4497959293b8d910b/html5/thumbnails/17.jpg)
Méthode des moindres carrés
On cherche le minimum de ),())((1
2 baEbxayn
iii
Ea
2(y i (a bx i))( 1) 0 (1)i1
n
E
b 2(y i (a bx i))( x i) 0 (2)
i1
n
2. L’estimation des paramètres
La régression linéaire simple
![Page 18: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple.](https://reader030.fdocuments.in/reader030/viewer/2022020713/551d9db4497959293b8d910b/html5/thumbnails/18.jpg)
(1) y i (a bx i)i1
n
i1
n
na b x i
i1
n
ny na nbx
a y bx
Méthode des moindres carrés
2. L’estimation des paramètres
La régression linéaire simple
![Page 19: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple.](https://reader030.fdocuments.in/reader030/viewer/2022020713/551d9db4497959293b8d910b/html5/thumbnails/19.jpg)
n(cov(x, y) x y ) (y bx )nx bn(sx2 x 2) 0
cov(x,y) bsx2
b cov(x,y)
sx2
Si y = a+bx alors
ˆ b cov(x,y)
sx2
et
ˆ a y bx
On peut alors prédire y pour x compris dans l’intervalle des
valeurs de l’échantillon:
ˆ y i ˆ a ˆ b x i
Méthode des moindres carrés
2. L’estimation des paramètres
La régression linéaire simple
![Page 20: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple.](https://reader030.fdocuments.in/reader030/viewer/2022020713/551d9db4497959293b8d910b/html5/thumbnails/20.jpg)
3. Qualité de l’ajustement
On a supposé: Yi = a + bXi + ei avec
pour X = xi, Yi : N(a+bxi, )
- distribution normale des erreurs- variance identique (homoscédasticité)- indépendance: - linéarité de la relation
cov(ei,e j ) 0
Test a posteriori : étude du nuage de points/ du graphe des résidus
La régression linéaire simple
![Page 21: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple.](https://reader030.fdocuments.in/reader030/viewer/2022020713/551d9db4497959293b8d910b/html5/thumbnails/21.jpg)
Normalité de l’erreur
Valeurs prédites
Ré
sid
us
Questions à se poser: structure de l’erreur?Valeurs extrêmes: ont-elles un sens biologique? Influencent-elles l’estimation des paramètres?
La régression linéaire simple
3. Qualité de l’ajustement
![Page 22: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple.](https://reader030.fdocuments.in/reader030/viewer/2022020713/551d9db4497959293b8d910b/html5/thumbnails/22.jpg)
Homoscédasticité
Ré
sid
us
Valeurs prédites
Possibilité de transformation: attention aux transformations ad hoc
La régression linéaire simple
3. Qualité de l’ajustement
![Page 23: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple.](https://reader030.fdocuments.in/reader030/viewer/2022020713/551d9db4497959293b8d910b/html5/thumbnails/23.jpg)
Indépendance entre erreurs, linéarité
Ré
sid
us
Ré
sid
us
Structure de l’erreur?
Relation non linéaire?
La régression linéaire simple
3. Qualité de l’ajustement
![Page 24: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple.](https://reader030.fdocuments.in/reader030/viewer/2022020713/551d9db4497959293b8d910b/html5/thumbnails/24.jpg)
Décomposition de la variation
Quelle part de la variabilité de Y est expliquée par la relation linéaire avec X?
Variabilité? Somme des Carrés des Ecarts SCE:
SCET (y i y )2
i1
n
nsy2
La régression linéaire simple
4. Coefficient de détermination
![Page 25: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple.](https://reader030.fdocuments.in/reader030/viewer/2022020713/551d9db4497959293b8d910b/html5/thumbnails/25.jpg)
SCE Totale SCE reg.lin. (Expliquée) SCE hors reg.lin. (erreur)
Y
Y
= +
( )Y Yii
N
1
2 ( )Y Yii
N
1
2 ( )Y Yii
N
i
1
2= +
Décomposition de la variation
La régression linéaire simple
4. Coefficient de détermination
![Page 26: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple.](https://reader030.fdocuments.in/reader030/viewer/2022020713/551d9db4497959293b8d910b/html5/thumbnails/26.jpg)
4. Coefficient de détermination
La décomposition de la SCE permet d’estimer la part de SCE de Y expliquée par la régression:
r2 SCE reg .lin.
SCET
Coefficient de détermination
Relation avec r?
0 ≤ r2 ≤ 1
La régression linéaire simple
![Page 27: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple.](https://reader030.fdocuments.in/reader030/viewer/2022020713/551d9db4497959293b8d910b/html5/thumbnails/27.jpg)
Relation entre r et r2
SCE reg .lin . ( ˆ y i y )2
i1
n
((a bx i) (a bx ))2
i1
n
b2 (x i x )2
i1
n
b2nsx2 b2SCEx
Donc
r2 b2nsx
2
nsy2 (
cov(x, y)
sx2 )2 sx
2
sy2
(cov(x, y))2
sx2sy
2 (r)2
En particulier, r = 0 <=> r2 = 0
4. Coefficient de détermination
La régression linéaire simple
![Page 28: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple.](https://reader030.fdocuments.in/reader030/viewer/2022020713/551d9db4497959293b8d910b/html5/thumbnails/28.jpg)
5. Tests
Test de la décomposition de la variation ou analyse de variance (ANOVA): H0 : 2 = 0
reg .lin.2
horsreg.lin.2
SCE reg .lin. /1
SCEhorsreg.lin. /(n 2): Fn 2
1
NB:
SCE reg .lin . /1
SCEhorsreg .lin . /(n 2)
r2SCET
(1 r2)SCET /(n 2)(
r n 2
1 r2)2
SCE reg .lin. /1
SCEhorsreg .lin. /(n 2): Fn 2
1
r n 2
1 r2: Tn 2numériquement
équivalent à
La régression linéaire simple
![Page 29: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple.](https://reader030.fdocuments.in/reader030/viewer/2022020713/551d9db4497959293b8d910b/html5/thumbnails/29.jpg)
Test sur la pente
Ho: b = 0
ˆ b ˆ s b
: Tn 2
Ici:
ˆ b ˆ s b
ˆ b
(1 r2)sy2
(n 2)sx2
: Tn 2
Principe des tests sur les paramètres:
NB:
ˆ b
(1 r2)sy2
(n 2)sx2
cov(x, y)
sx2
(n 2)sx2
(1 r2)sy2
r n 2
1 r2
Les tests de nullité de b, r et r2 sont numériquement équivalents
La régression linéaire simple
![Page 30: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple.](https://reader030.fdocuments.in/reader030/viewer/2022020713/551d9db4497959293b8d910b/html5/thumbnails/30.jpg)
Autres tests
- comparaison de la pente à une valeur non nulle
- comparaison de l’ordonnée à l’origine à une valeur quelconque
- comparaison de pentes
La régression linéaire simple
![Page 31: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple.](https://reader030.fdocuments.in/reader030/viewer/2022020713/551d9db4497959293b8d910b/html5/thumbnails/31.jpg)
Bilan
X et Y aléatoires X contrôlée, Y aléatoire
Y a-t-il un lien? CorrélationQuel lien? Régression
Explication de Y par X: Modèle linéaire simple
Question
Modèle(X,Y) binormal => linéarité des régressionsDy/x : a, bDx/y : c, d
Y = a + bx + e
Pour X = xi, Yi : N(a+bxi, )
La régression linéaire simple
![Page 32: Corrélation et régression linéaire simple 1.La corrélation 2.La régression linéaire simple.](https://reader030.fdocuments.in/reader030/viewer/2022020713/551d9db4497959293b8d910b/html5/thumbnails/32.jpg)
X et Y aléatoires X contrôlée, Y aléatoire
r: paramètre de la distribution de (X,Y)
R2 : part de variation de Y expliquée par X
Lien
Tests- test de -Tests sur les pentes b et d
- test de r2: ANOVA
r2(n 2)
1 r2 Fn 21
- test sur la pente
Bilan
La régression linéaire simple