La régression linéaire multiple - math.u-bordeaux.frmchave100p/wordpress/wp-content/upload… ·...

46
Plan La r´ egression lin´ eaire multiple - Chapitre V - Notes de cours Mod´ elisation Statistique L3 MIASHS - Universit´ e de Bordeaux - Chapitre V - L3 MIASHS- La r´ egression lin´ eaire multiple 1/46

Transcript of La régression linéaire multiple - math.u-bordeaux.frmchave100p/wordpress/wp-content/upload… ·...

Plan

La regression lineaire multiple

- Chapitre V -

Notes de cours

Modelisation Statistique

L3 MIASHS - Universite de Bordeaux

- Chapitre V - L3 MIASHS- La regression lineaire multiple 1/46

Plan

Plan

1 Ecriture du modele et estimation des parametres

2 Cas du modele gaussien

3 Coefficient de determination R2

4 Tests d’hypothese

5 Prevision d’une valeur future

6 Selection de variables

- Chapitre V - L3 MIASHS- La regression lineaire multiple 2/46

Ecriture du modele et estimation des parametresCas du modele gaussien

Coefficient de determination R2

Tests d’hypothesePrevision d’une valeur future

Selection de variables

Le modele de regression lineaire multipleEstimation de β et de σ2

Interpretation geometrique

Plan

1 Ecriture du modele et estimation des parametres

2 Cas du modele gaussien

3 Coefficient de determination R2

4 Tests d’hypothese

5 Prevision d’une valeur future

6 Selection de variables

- Chapitre V - L3 MIASHS- La regression lineaire multiple 3/46

Ecriture du modele et estimation des parametresCas du modele gaussien

Coefficient de determination R2

Tests d’hypothesePrevision d’une valeur future

Selection de variables

Le modele de regression lineaire multipleEstimation de β et de σ2

Interpretation geometrique

Premiere ecriture du modele

Le modele de regression lineaire multiple s’ecrit sous la forme :

Y = β0 +

p∑k=1

βkX(k) + ε (1)

- les p variables explicatives X (k) sont non aleatoires reelles,

- l’erreur ε est aleatoire,

- la variable a expliquer Y est donc aleatoire.

L’objectif : estimer les p + 1 parametres β0, . . . , βp.

- Chapitre V - L3 MIASHS- La regression lineaire multiple 4/46

Ecriture du modele et estimation des parametresCas du modele gaussien

Coefficient de determination R2

Tests d’hypothesePrevision d’une valeur future

Selection de variables

Le modele de regression lineaire multipleEstimation de β et de σ2

Interpretation geometrique

Seconde ecriture du modele

On se donne deux n-echantillons (Xn) et (Yn) qui ne sont pasmutuellement independants ou :

- (Xn) forme une suite de vecteurs de dimension p ≥ 1,

- Xi = (X(1)i , . . . ,X

(p)i ) est la i eme composante de (Xn).

Le modele s’ecrit alors :

Yi = β0 +

p∑k=1

βkX(k)i + εi i = 1, . . . , n. (2)

- Chapitre V - L3 MIASHS- La regression lineaire multiple 5/46

Ecriture du modele et estimation des parametresCas du modele gaussien

Coefficient de determination R2

Tests d’hypothesePrevision d’une valeur future

Selection de variables

Le modele de regression lineaire multipleEstimation de β et de σ2

Interpretation geometrique

Les hypotheses sont celles de la regression lineaire simple :

(1) E[εi ] = 0, ∀ i = 1, . . . , n : les erreurs sont centrees,

⇔ E[Yi ] = β0 +∑p

k=1 βkX(k)i .

(2) V(εi ) = σ2 , ∀ i = 1, . . . , n : la variance des erreurs estconstante, on parle d’homogeneite des variances ou encore d’homoscedasticite,⇔ V(Yi ) = σ2.Remarque : σ2 est un autre parametre inconnu a estimer.

(3) Cov(εi , ε`) = 0 , ∀ i 6= ` : les erreurs sont non correlees,⇔ Cov(Yi ,Y`) = 0.Remarque : Lorsqu’on ajoute une hypothese de normalite surles εi , les εi sont independants. (εn) est alors un bruit blancgaussien.

- Chapitre V - L3 MIASHS- La regression lineaire multiple 6/46

Ecriture du modele et estimation des parametresCas du modele gaussien

Coefficient de determination R2

Tests d’hypothesePrevision d’une valeur future

Selection de variables

Le modele de regression lineaire multipleEstimation de β et de σ2

Interpretation geometrique

Sous les hypotheses (1) a (3), l’estimateur des moindrescarrees de β = (β0, β1, . . . , βp)t aura de bonnes proprietes.

En ajoutant l’hypothese de normalite des erreurs, on pourradefinir l’estimateur du maximum de vraisemblance de β eteffectuer des tests sur la nullite des parametres.

En pratique, il conviendra de verifier si ces hypotheses sontverifiees.

- Chapitre V - L3 MIASHS- La regression lineaire multiple 7/46

Ecriture du modele et estimation des parametresCas du modele gaussien

Coefficient de determination R2

Tests d’hypothesePrevision d’une valeur future

Selection de variables

Le modele de regression lineaire multipleEstimation de β et de σ2

Interpretation geometrique

Ecriture matricielle du modele

Le modele (2) s’ecrit :Y = Xβ + ε (3)

ou

Y =

Y1

Y2

...Yn

, X =

1 X

(1)1 X

(2)1 . . . X

(p)1

1 X(1)2 X

(2)2 . . . X

(p)2

......

......

1 X(1)n X

(2)n . . . X

(p)n

, β =

β0

β1

...βp

, ε =

ε1

ε2

...εn

.

- Chapitre V - L3 MIASHS- La regression lineaire multiple 8/46

Ecriture du modele et estimation des parametresCas du modele gaussien

Coefficient de determination R2

Tests d’hypothesePrevision d’une valeur future

Selection de variables

Le modele de regression lineaire multipleEstimation de β et de σ2

Interpretation geometrique

Ecriture matricielle

Les 3 hypotheses precedentes peuvent alors s’ecrire sous la forme :

(1’) E(ε) = 0n ⇒ E(Y ) = Xβ ∈ Rn.

(2’) V(ε) = σ2In ⇒ V(Y ) = σ2In.

ou 0n est le vecteur nul de dimension n et In est la matrice identitede dimension n × n.On suppose en outre que

p + 1 < n,

rang(X ) = p + 1,

c’est-a-dire qu’il n’existe pas de liaison lineaire entre les X (k).

- Chapitre V - L3 MIASHS- La regression lineaire multiple 9/46

Ecriture du modele et estimation des parametresCas du modele gaussien

Coefficient de determination R2

Tests d’hypothesePrevision d’une valeur future

Selection de variables

Le modele de regression lineaire multipleEstimation de β et de σ2

Interpretation geometrique

Ecriture matricielle

Il est important de bien faire la difference entre

l’expression E(Yi ) = β0 +∑p

k=1 βkX(k)i (qui designe

l’esperance d’une variable aleatoire scalaire), et l’expressionE(Y ) = Xβ (qui designe l’esperance d’une variable aleatoirevectorielle) : on obtient dans un cas un scalaire, dans l’autrecas un vecteur de Rn.

l’expression V(Yi ) = σ2 (qui designe la variance d’une variablealeatoire scalaire), et l’expression V(Y ) = σ2In (qui designe lacovariance d’une variable aleatoire vectorielle) : on obtientdans un cas un scalaire (σ2), dans l’autre cas une matricecarree (σ2In) de dimension n × n.

- Chapitre V - L3 MIASHS- La regression lineaire multiple 10/46

Ecriture du modele et estimation des parametresCas du modele gaussien

Coefficient de determination R2

Tests d’hypothesePrevision d’une valeur future

Selection de variables

Le modele de regression lineaire multipleEstimation de β et de σ2

Interpretation geometrique

Estimateur des moindres carres de β

On cherche l’equation de la droite de regression en dimensionp + 1 pour laquelle les erreurs quadratiques (ε2

n) sont les plusfaibles. On cherche alors a minimiser

n∑i=1

ε2i =

n∑i=1

(Yi − β0 − β1X(1)i − β2X

(2)i − . . .− βpX (p)

i )2 = εtε

On remarque que ε = Y − Xβ, ce qui nous conduit a

εtε = (Y − Xβ)t(Y − Xβ)

= Y t Y − 2Y tXβ + βtX tXβ

- Chapitre V - L3 MIASHS- La regression lineaire multiple 11/46

Ecriture du modele et estimation des parametresCas du modele gaussien

Coefficient de determination R2

Tests d’hypothesePrevision d’une valeur future

Selection de variables

Le modele de regression lineaire multipleEstimation de β et de σ2

Interpretation geometrique

Estimateur des moindres carres de β

Ainsi, par derivation (vectorielle...) par rapport a β,

∂ εtε

∂β= −2X tY + 2X tXβ.

Chercher a annuler cette derivee revient a choisir l’estimateur β telque X tX β = X tY et donc

β = (X tX )−1 X tY . (4)

→ Exercice 1 (facile).

Cela nous contraint en outre a supposer que la matrice X tX dedimension (p + 1)× (p + 1) est bien inversible.

- Chapitre V - L3 MIASHS- La regression lineaire multiple 12/46

Ecriture du modele et estimation des parametresCas du modele gaussien

Coefficient de determination R2

Tests d’hypothesePrevision d’une valeur future

Selection de variables

Le modele de regression lineaire multipleEstimation de β et de σ2

Interpretation geometrique

Predictions et residus

Une fois que β a ete estime, nous pouvons reconstruire nosdonnees a l’aide de notre modelisation.On construit les predictions

Yi = β0 +

p∑k=1

βkX(k)i ou encore Y = X β,

et les residus

εi = Yi − Yi ou encore ε = Y − Y .

Remarque. Yi estime E(Yi ).

- Chapitre V - L3 MIASHS- La regression lineaire multiple 13/46

Ecriture du modele et estimation des parametresCas du modele gaussien

Coefficient de determination R2

Tests d’hypothesePrevision d’une valeur future

Selection de variables

Le modele de regression lineaire multipleEstimation de β et de σ2

Interpretation geometrique

Proprietes de β

Sous les hypotheses retenues, on peut montrer que :

E(β) = β

V(β) = σ2(X tX )−1

→ Exercice 2 (facile).

On peut egalement montrer que β est l’estimateur sans biais devariance minimale ou encore estimateur BLUE (Best LinearUnbiased Estimator).

- Chapitre V - L3 MIASHS- La regression lineaire multiple 14/46

Ecriture du modele et estimation des parametresCas du modele gaussien

Coefficient de determination R2

Tests d’hypothesePrevision d’une valeur future

Selection de variables

Le modele de regression lineaire multipleEstimation de β et de σ2

Interpretation geometrique

Estimation de σ2

Selon la strategie usuelle, on considere l’estimateur

σ2 =1

n − p − 1

n∑i=1

ε 2i =

t ε ε

n − p − 1

Sous les hypotheses retenues on peut montrer que :

E[σ 2] = σ2.

→ Exercice 3 (difficile).

- Chapitre V - L3 MIASHS- La regression lineaire multiple 15/46

Ecriture du modele et estimation des parametresCas du modele gaussien

Coefficient de determination R2

Tests d’hypothesePrevision d’une valeur future

Selection de variables

Le modele de regression lineaire multipleEstimation de β et de σ2

Interpretation geometrique

Estimation de σ2

→ On en deduit un estimateur sans biais de V(β) ;

V(β) = σ2(X tX )−1.

→ Pour debiaiser l’estimateur de σ2 nous retrouvons unenormalisation par n − p − 1 lorsque l’estimation concernep + 1 parametres.

- Chapitre V - L3 MIASHS- La regression lineaire multiple 16/46

Ecriture du modele et estimation des parametresCas du modele gaussien

Coefficient de determination R2

Tests d’hypothesePrevision d’une valeur future

Selection de variables

Le modele de regression lineaire multipleEstimation de β et de σ2

Interpretation geometrique

Interpretation geometrique

On munit l’espace Rn des variables de la metrique D = 1n In.

On note W le sous-espace de Rn de dimension p + 1 engendrepar les colonnes de X.

On montre alors que :

Y est la projection D-orthogonale de Y sur W .

→ La preuve est directe en ecrivant :

Y = PWY ,

avec PW = X (X tDX )−1X tD l’operateur de projection sur W .

- Chapitre V - L3 MIASHS- La regression lineaire multiple 17/46

Ecriture du modele et estimation des parametresCas du modele gaussien

Coefficient de determination R2

Tests d’hypothesePrevision d’une valeur future

Selection de variables

Cas du modele gaussien

Plan

1 Ecriture du modele et estimation des parametres

2 Cas du modele gaussien

3 Coefficient de determination R2

4 Tests d’hypothese

5 Prevision d’une valeur future

6 Selection de variables

- Chapitre V - L3 MIASHS- La regression lineaire multiple 18/46

Ecriture du modele et estimation des parametresCas du modele gaussien

Coefficient de determination R2

Tests d’hypothesePrevision d’une valeur future

Selection de variables

Cas du modele gaussien

Hypothese supplementaire

On ajoute l’hypothese de normalite des erreurs :εi ∼ N (0, σ2)⇒ Yi ∼ N (βXi , σ

2),

ou encore matriciellement :

(3’) ε ∼ N (0n, σ2In) ⇒ Y ∼ N (βX , σ2In).

Remarques.

Sous l’hypothese de normalite, V(ε) = V(Y ) = σ2In impliqueque le εi et les Yi sont independants.

Les hypotheses (1’), (2’) (3’) ⇒ (εn) est un bruit blanc de loiN (0, σ2).

- Chapitre V - L3 MIASHS- La regression lineaire multiple 19/46

Ecriture du modele et estimation des parametresCas du modele gaussien

Coefficient de determination R2

Tests d’hypothesePrevision d’une valeur future

Selection de variables

Cas du modele gaussien

Estimateurs du maximum de vraisemblance de β et de σ2

La fonction de vraisemblance est la densite conjointe des Yi noteeL(β, σ2). Les estimateurs β et σ2 qui maximisent L(β, σ2) sont :

β = (X tX )−1X tY = β

σ2 =1

n(Y − X β)t(y − X β) =

1

nεt ε 6= σ2

→ Exercice 4 (facile).

Remarque. σ2 est biaise.

- Chapitre V - L3 MIASHS- La regression lineaire multiple 20/46

Ecriture du modele et estimation des parametresCas du modele gaussien

Coefficient de determination R2

Tests d’hypothesePrevision d’une valeur future

Selection de variables

Cas du modele gaussien

Proprietes de β et σ2

Sous les hypotheses (1’), (2’) et (3’) on montre que :

1 β ∼ N(β, σ2(X tX )−1

)⇒ β ∼ N

(β, σ2(X tX )−1

).

2 n σ2

σ2 ∼ χ2 (n − p − 1) ⇒ (n − p − 1) σ2

σ2 ∼ χ2 (n − p − 1).

3 β et σ2 independants ⇒ β et σ2 independants.

→ Exercice 5 (difficile).

- Chapitre V - L3 MIASHS- La regression lineaire multiple 21/46

Ecriture du modele et estimation des parametresCas du modele gaussien

Coefficient de determination R2

Tests d’hypothesePrevision d’une valeur future

Selection de variables

DefinitionInterpretation

Plan

1 Ecriture du modele et estimation des parametres

2 Cas du modele gaussien

3 Coefficient de determination R2

4 Tests d’hypothese

5 Prevision d’une valeur future

6 Selection de variables

- Chapitre V - L3 MIASHS- La regression lineaire multiple 22/46

Ecriture du modele et estimation des parametresCas du modele gaussien

Coefficient de determination R2

Tests d’hypothesePrevision d’une valeur future

Selection de variables

DefinitionInterpretation

Definition

On definit R comme le coefficient de correlation lineaire entre lesYi et les Yi . Son carre s’interprete en terme de variance expliquee :

R2 =

∑ni=1(Yi − Yn)2∑ni=1(Yi − Yn)2

=SCE

SCT

= 1− SCR

SCT.

avec la decomposition :n∑

i=1

(Yi − Yn)2

︸ ︷︷ ︸SCT

=n∑

i=1

(Yi − Yn)2

︸ ︷︷ ︸SCR

+n∑

i=1

(Yi − Yn)2

︸ ︷︷ ︸SCE

Remarque. R2 = 1 ⇒ l’ajustement est parfait : ∀i , Yi = Yi .

- Chapitre V - L3 MIASHS- La regression lineaire multiple 23/46

Ecriture du modele et estimation des parametresCas du modele gaussien

Coefficient de determination R2

Tests d’hypothesePrevision d’une valeur future

Selection de variables

DefinitionInterpretation

Interpretation

→ Interpretation geometrique : R est le cosinus de l’angle formepar (Y − Y ) et (Y − Y ) ou Y = (Yn, . . . , Yn)t ∈ Rn.

→ Interpretation statistique : R2 peut etre utilise pour testerl’ajustement de Y par Y . On peut montrer que sousH0 : “β1 = . . . = βq = 0” (ou H0 : “R2 = 0”) :

Fn =SCE/p

SCR/(n − p − 1)=

R2/p

(1− R2)/(n − p − 1)∼ F (p, n−p−1)

→ Exercice 6 (facile).

⇒ On rejette H0 si Fn > fp, n−p−1, 1−α.

- Chapitre V - L3 MIASHS- La regression lineaire multiple 24/46

Ecriture du modele et estimation des parametresCas du modele gaussien

Coefficient de determination R2

Tests d’hypothesePrevision d’une valeur future

Selection de variables

Test de significativite du modeleTest de significativite d’un coefficient βkContribution jointe d’un ensemble de regresseurs

Plan

1 Ecriture du modele et estimation des parametres

2 Cas du modele gaussien

3 Coefficient de determination R2

4 Tests d’hypothese

5 Prevision d’une valeur future

6 Selection de variables

- Chapitre V - L3 MIASHS- La regression lineaire multiple 25/46

Ecriture du modele et estimation des parametresCas du modele gaussien

Coefficient de determination R2

Tests d’hypothesePrevision d’une valeur future

Selection de variables

Test de significativite du modeleTest de significativite d’un coefficient βkContribution jointe d’un ensemble de regresseurs

Test de significativite du modele

Nous avons vu que l’on peut utiliser la statistique de test

Fn =SCE/p

SCR/(n − p − 1)

pour tester l’hypothese

H0 : “β1 = . . . = βp = 0” contre H1 : “∃ j ∈ {1, . . . , p}, βj 6= 0”.

La zone de rejet associe a cette statistique est :

R = ]fp, n−p−1, 1−α, +∞[.

- Chapitre V - L3 MIASHS- La regression lineaire multiple 26/46

Ecriture du modele et estimation des parametresCas du modele gaussien

Coefficient de determination R2

Tests d’hypothesePrevision d’une valeur future

Selection de variables

Test de significativite du modeleTest de significativite d’un coefficient βkContribution jointe d’un ensemble de regresseurs

Test de significativite d’un coefficient βk

On veut tester

H0 : “βk = 0” contre H1 : “βk 6= 0”

→ construire une statistique de test dont on connaıt la loi sous H0.

On peut montrer que

βk − βkσ√ckk∼ t(n − p − 1)

ou c00, c11, . . . , cpp sont les elements diagonaux de (X tX )−1

→ Exercice 7

Remarque. V(βk) = σ2ckk .

- Chapitre V - L3 MIASHS- La regression lineaire multiple 27/46

Ecriture du modele et estimation des parametresCas du modele gaussien

Coefficient de determination R2

Tests d’hypothesePrevision d’une valeur future

Selection de variables

Test de significativite du modeleTest de significativite d’un coefficient βkContribution jointe d’un ensemble de regresseurs

Test de significativite d’un coefficient βk

On utilise donc la statistique de test

Tn =βk

σ√ckk

pour tester les hypotheses

H0 : “βk = 0” contre H1 : “βk 6= 0”

La zone de rejet associe a cette statistique est :

R = ]−∞, −tn−p−1, 1−α/2 [ ∪ ] tn−p−1, 1−α/2, +∞[.

- Chapitre V - L3 MIASHS- La regression lineaire multiple 28/46

Ecriture du modele et estimation des parametresCas du modele gaussien

Coefficient de determination R2

Tests d’hypothesePrevision d’une valeur future

Selection de variables

Test de significativite du modeleTest de significativite d’un coefficient βkContribution jointe d’un ensemble de regresseurs

Test de significativite d’un coefficient βk

Rejeter H0 signifie :

que la variable explicative X (k) joue un role dans le modele deregression, c’est-a-dire que X (k) apporte de l’informationquant a la reconstruction de Y ,

que le coefficient βk est significativement non nul,

que βk s’interprete comme le taux d’accroissement moyen deY en fonction d’une variation de X (k) lorsque tous les autresregresseurs X (1), . . . ,X (k−1),X (k+1), . . . ,X (p) restent fixes.

- Chapitre V - L3 MIASHS- La regression lineaire multiple 29/46

Ecriture du modele et estimation des parametresCas du modele gaussien

Coefficient de determination R2

Tests d’hypothesePrevision d’une valeur future

Selection de variables

Test de significativite du modeleTest de significativite d’un coefficient βkContribution jointe d’un ensemble de regresseurs

Contribution jointe d’un ensemble de regresseurs

On cherche a tester la nullite des q ≤ p premiers parametres :

H0 : “β1 = . . . = βq = 0” contre H1 : “∃ k ∈ {1, . . . , q}, βk 6= 0”.

Cela revient a comparer deux modeles :

le modele complet a p regresseurs (modele 1) pour lequel onevalue la somme des carres des residus SCR1,

le modele reduit a p− q regresseurs (modele 0) pour lequel onevalue la somme des carres des residus SCR0.

- Chapitre V - L3 MIASHS- La regression lineaire multiple 30/46

Ecriture du modele et estimation des parametresCas du modele gaussien

Coefficient de determination R2

Tests d’hypothesePrevision d’une valeur future

Selection de variables

Test de significativite du modeleTest de significativite d’un coefficient βkContribution jointe d’un ensemble de regresseurs

Contribution jointe d’un ensemble de regresseurs

On peut montrer que sous H0 :

(SCR0 − SCR1)/q

SCR1/(n − p − 1)∼ F (q, n − p − 1).

Nous en deduisons la zone de rejet associee a cette statistique detest :

R = ]fq, n−p−1, 1−α, +∞[.

Remarque. Ce test est utile pour faire de la modelisation pas apas et selectionner un ensemble optimal de regresseurs necessairesa la reconstruction de Y .

- Chapitre V - L3 MIASHS- La regression lineaire multiple 31/46

Ecriture du modele et estimation des parametresCas du modele gaussien

Coefficient de determination R2

Tests d’hypothesePrevision d’une valeur future

Selection de variables

Intervalle de predictionIntervalle de confiance

Plan

1 Ecriture du modele et estimation des parametres

2 Cas du modele gaussien

3 Coefficient de determination R2

4 Tests d’hypothese

5 Prevision d’une valeur future

6 Selection de variables

- Chapitre V - L3 MIASHS- La regression lineaire multiple 32/46

Ecriture du modele et estimation des parametresCas du modele gaussien

Coefficient de determination R2

Tests d’hypothesePrevision d’une valeur future

Selection de variables

Intervalle de predictionIntervalle de confiance

Prevision d’une valeur future

Objectif : prevoir a l’aide du modele la valeur de Y pour une

nouvelle observation notee (X(1)0 , . . . ,X

(p)0 ).

D’apres le modele, on a :

Y0 = X t0β + ε0,

ou X0 = (1,X(1)0 , . . . ,X

(p)0 )t ,

Deux possibilites :

Construire un intervalle qui contient la prediction Y0 = E(Y0)avec une probabilite 1− α (intervalle de prediction).

Construire un intervalle de confiance de E(Y0) de niveau1− α.

- Chapitre V - L3 MIASHS- La regression lineaire multiple 33/46

Ecriture du modele et estimation des parametresCas du modele gaussien

Coefficient de determination R2

Tests d’hypothesePrevision d’une valeur future

Selection de variables

Intervalle de predictionIntervalle de confiance

Intervalle de prediction

La prediction pour une nouvelle observation est donc :

Y0 = X t0 β.

On montre que

Y0 − Y0

σ√

1 + X t0 (X tX )−1X0

∼ T (n − p − 1).

→ Exercice 8.

On en deduit l’intervalle de prediction qui est :[Y0 ± tn−p−1,1−α/2 σ

√1 + X t

0 (X tX )−1X0

]- Chapitre V - L3 MIASHS- La regression lineaire multiple 34/46

Ecriture du modele et estimation des parametresCas du modele gaussien

Coefficient de determination R2

Tests d’hypothesePrevision d’une valeur future

Selection de variables

Intervalle de predictionIntervalle de confiance

Intervalle de confiance

On veut construire un intervalle de confiance du parametre

E (Y0) = X t0β

On sait que Y0 ∼ N (X t0β, σ

2X t0 (X tX )−1X0) dou

Y0 − X t0β

σ√X t

0 (X tX )−1X0

∼ T (n − p − 1).

On en deduit l’intervalle de confiance qui est :[Y0 ± tn−p−1,1−α/2 σ

√X t

0 (X tX )−1X0

]

- Chapitre V - L3 MIASHS- La regression lineaire multiple 35/46

Ecriture du modele et estimation des parametresCas du modele gaussien

Coefficient de determination R2

Tests d’hypothesePrevision d’une valeur future

Selection de variables

Les criteres de choixLes procedures de selection de variables

Plan

1 Ecriture du modele et estimation des parametres

2 Cas du modele gaussien

3 Coefficient de determination R2

4 Tests d’hypothese

5 Prevision d’une valeur future

6 Selection de variables

- Chapitre V - L3 MIASHS- La regression lineaire multiple 36/46

Ecriture du modele et estimation des parametresCas du modele gaussien

Coefficient de determination R2

Tests d’hypothesePrevision d’une valeur future

Selection de variables

Les criteres de choixLes procedures de selection de variables

Selection de variables

Objectif : Selectionner parmi les p variables explicatives, les q ≤ pvariables qui donnent le “meilleur” modele pour predire Y .

Il va donc falloir :

Definir un critere qui permet de comparer deux modelesn’ayant pas necessairement le meme nombre de variablesexplicatives.

Definir un procedure qui permet “d’optimiser” ce critere parmitous les modeles. On parle de procedure de choix de modele.

- Chapitre V - L3 MIASHS- La regression lineaire multiple 37/46

Ecriture du modele et estimation des parametresCas du modele gaussien

Coefficient de determination R2

Tests d’hypothesePrevision d’une valeur future

Selection de variables

Les criteres de choixLes procedures de selection de variables

Les criteres de choix

→ Le coefficient R2 = 1− SCRSCT

mesure l’ajustement du modele aux donnees,augmente lorsque le nombre de variables incluses dans lemodele augmente,permet de comparer des modeles ayant le meme nombre devariables

⇒ Ce critere ne peut pas etre utilise dans une procedure dechoix de modele.

- Chapitre V - L3 MIASHS- La regression lineaire multiple 38/46

Ecriture du modele et estimation des parametresCas du modele gaussien

Coefficient de determination R2

Tests d’hypothesePrevision d’une valeur future

Selection de variables

Les criteres de choixLes procedures de selection de variables

Les criteres de choix

→ Le coefficient R2ajuste = 1− SCR/(n−p−1)

SCT/(n−1)

Estime le R2population = 1− V(ε)

V(Y ) = 1− σ2

σ2Y

,

peut prendre des valeurs negatives,n’augmente pas forcement lorsque le nombre de variablesintroduites dans le modele augmente.

⇒ Ce critere peut etre utilise dans une procedure de choix demodele (a maximiser).

- Chapitre V - L3 MIASHS- La regression lineaire multiple 39/46

Ecriture du modele et estimation des parametresCas du modele gaussien

Coefficient de determination R2

Tests d’hypothesePrevision d’une valeur future

Selection de variables

Les criteres de choixLes procedures de selection de variables

Les criteres de choix

→ Le Cq de Mallows :

Cq =SCR0

SCR1/(n − p − 1)− n + 2(q + 1)

ou

SCR1 est evalue pour le modele complet a p variables,SCR0 est evalue pour le modele reduit a q variables.

⇒ Ce critere doit etre compare a q + 1 dans une procedure dechoix de modele.

- Chapitre V - L3 MIASHS- La regression lineaire multiple 40/46

Ecriture du modele et estimation des parametresCas du modele gaussien

Coefficient de determination R2

Tests d’hypothesePrevision d’une valeur future

Selection de variables

Les criteres de choixLes procedures de selection de variables

Les criteres de choix

→ Les criteres de vraisemblance penalisee :

AIC (Akaike Information Criterion)

AIC = −2 ln(L) + 2k ,

BIC (Bayesian Information Criterion) :

BIC = −2 ln(L) + k ln(n),

ou

L est la vraisemblance du modele estime (vraisemblancemaximisee),k est le nombre de parametres du modele.

- Chapitre V - L3 MIASHS- La regression lineaire multiple 41/46

Ecriture du modele et estimation des parametresCas du modele gaussien

Coefficient de determination R2

Tests d’hypothesePrevision d’une valeur future

Selection de variables

Les criteres de choixLes procedures de selection de variables

Les criteres de choix

→ Les criteres de AIC et BIC en regression multiple :

k = q + 1 (parametres β1, . . . , βq et σ),−2 ln(L) = n [ln(2πσ) + 1]

ou σ = SCRn souvent remplace par σ = SCR

n−p−1 .

→ Les criteres AIC et BIC peuvent alors etre simplifies :

AIC = n ln(SCR) + 2k BIC = n ln(SCR) + k ln(n)

AIC = n ln(σ) + 2k BIC = n ln(σ) + k ln(n)

⇒ Ces criteres doivent etre minimises dans une procedure dechoix de modele.

- Chapitre V - L3 MIASHS- La regression lineaire multiple 42/46

Ecriture du modele et estimation des parametresCas du modele gaussien

Coefficient de determination R2

Tests d’hypothesePrevision d’une valeur future

Selection de variables

Les criteres de choixLes procedures de selection de variables

Procedure exhaustive de selection de variables

Il s’agit d’evaluer avec l’un des criteres precedent tous les modelesde regression a q ≤ p variables et retenir le meilleur mais,

le nombre de modeles a q variables est Cqp = p!

q!(p−q)! ,

le nombre total de modeles a considerer est

p∑q=1

Cqp = 2p − 1.

↪→ Le nombre de modeles croıt exponentiellement avec p. Parexemple, si 30 variables sont a disposition, on devraitconsiderer 230 = 109 modeles...

↪→ Impossible en pratique des que p grandit.

- Chapitre V - L3 MIASHS- La regression lineaire multiple 43/46

Ecriture du modele et estimation des parametresCas du modele gaussien

Coefficient de determination R2

Tests d’hypothesePrevision d’une valeur future

Selection de variables

Les criteres de choixLes procedures de selection de variables

Procedure leaps and bounds

Procedure basee sur l’algorithme de Furnival et Wilson :

algorithme de type branch and bound,

permet de trouver, pour q fixe, le “meilleur” modele c’est adire le “meilleur” sous-ensemble de q variables.

Pour q fixe, on a :

minAIC ⇔ minBIC ⇔ maxR2 ⇔ maxR2ajuste ⇔ minSCR.

En pratique :

1 La procedure fournit le meilleur modele a 1, 2, . . . , p variables ,2 Choisir q ∈ {1, . . . , p} qui fournit le meilleur modele avec l’un

des criteres de choix (sauf R2 et SCR).

Remarque. Efficace mais limitee a une trentaine de variables.- Chapitre V - L3 MIASHS- La regression lineaire multiple 44/46

Ecriture du modele et estimation des parametresCas du modele gaussien

Coefficient de determination R2

Tests d’hypothesePrevision d’une valeur future

Selection de variables

Les criteres de choixLes procedures de selection de variables

Procedure pas a pas ascendante (forward stepwise)

1 On effectue p regressions lineaires simple et on selectionne lavariable qui donne le meilleur modele c’est a dire :

le modele qui maximise R2 ⇔ minimise SCR ...ou de maniere equivalente la variable qui a la p-value du testde contribution marginale la plus petite.

2 On effectue p − 1 regressions lineaires avec 2 variables explicativesen gardant celle selectionnee a l’etape 1 et on selectionne celle quiajoutee a la premiere :

apporte la plus grande augmentation du R2 ⇔ maximise lastatistique de Fisher du test de contribution jointe,ou de maniere equivalente a la p-value du test de contributionmarginale la plus petite (variable la plus significative).

3 On recommence jusqu’a ce qu’aucune variable significative ne puisse

etre ajoutee.

- Chapitre V - L3 MIASHS- La regression lineaire multiple 45/46

Ecriture du modele et estimation des parametresCas du modele gaussien

Coefficient de determination R2

Tests d’hypothesePrevision d’une valeur future

Selection de variables

Les criteres de choixLes procedures de selection de variables

Procedure pas a pas descendante (backward stepwise)

1 On effectue une regression lineaire multiple avec les p variablesexplicatives disponibles.

2 On effectue p − 1 regressions lineaires en supprimant une variable eton selectionne la variable qui :

apporte la plus grande diminuation du R2 ⇔ minimise lastatistique de Fisher du test de contribution jointe,ou de maniere equivalente a la p-value du test de contributionmarginale la plus grande (variable la moins significative).

3 On recommence jusqu’a ce qu’aucune variable non significative ne

puisse etre retiree.

- Chapitre V - L3 MIASHS- La regression lineaire multiple 46/46