Master 2: Econométrie 2 - Michel Beine 2...Master 2: Econometrie 2 – p. 2/227´ Plan du cours...

Master 2: Econométrie 2Partie 1

Michel BEINE

[email protected]

Universite du Luxembourg

Master 2: Econometrie 2 – p. 1/227

Manuel

La partie économétrique du cours est basé sur le livreIntroductory Econometrics, a Modern Approach(second edition) de Jeffrey M. Wooldridge, éditionThomson South-Western.

Sur le site web : http://www.swcollege.com/bef/wooldridge/... wooldridge2e/wooldridge2e.html

il y a des données nécessaires pour lesexercices et plusieurs liens intéressants.


Plan du cours (Partie 1 Économétrie 2)

Chapitre 1. Rappels économétriques .

Chapitre 2. Corrélation sérielle et hétéroscédasticité.

Chapitre 3. Méthodes simples de panel.

Chapitre 4. Méthodes avancées de panel.

Chapitre 5. Estimation par variables instrumentales.

Chapitre 6. Modèles à équations simultanées.


Rappels Structure des données


Structure des données

Il existe 3 types de données. Chaque type de données peutappeler des techniques économétriques particulières.

Données “Cross-section”.

Séries temporelles.

Données de Panel.


Données “Cross-section”

Échantillon d’individus, ménages, firmes, ..., pris à unpoint du temps donné.

Important: on peut souvent supposer que les obs. =échantillon aléatoire→ simplifie l’analyse.

Données très utilisées en économie et sciencessociales→ micro appliquée: marché du travail, financespubliques, organisation industrielle, économie spatiale,démographie, économie de la santé, etc.

Example: Wage1.wf1.


Séries temporelles

Séries chronologiques. Ex: PNB, importations, indicesde prix, etc.

Important: Rarement indépendantes au court du temps→ complexifie l’analyse.

Différentes fréquences: annuel, trimestriel, mensuel,hebdomadaire, journalier, intra-journalier.

Données très utilisées en macro-économie et enfinance.

Example: PRMINWGE.wf1.


Données de panel

Série temporelle pour chaque unité/individu.

Important: la même unité est observée plusieurs fois aucourt du temps.

Example: WAGEPAN.wf1.


Rappels Modèle de régression simple


Modèle de régression simple

Objectif: estimer un modèle du type

wage = β0 + β1educ + u. (1)

De manière générale:

y = β0 + β1x + u. (2)

→ (2) est supposé tenir sur la population d’intérêt.

u est le terme d’erreur (aléas) = facteurs non-observésautres que x qui affectent y.

u et x sont des variables aléatoires.

Interprétation Ceteris Paribus: Si ∆u = 0 (autresfacteurs inchangés)→ ∆y = β1∆x.



Pour estimer β0 et β1 et garder cette interprétation CP ilfaut faire certaines hypothèses.

E(u) = 0: normalisation→ on ne perd rien.

E(u|x) = E(u): pour toute valeur de x, la moyenne desu correspondantes est la même.→ implique la non-corrélation (linéaire). Ex:wage = β0 + β1educ + u→ E(abil|8) = E(abil|16).

En combinant ces 2 hypothèses:→ E(u|x) = E(u) = 0: hyp. moyenne cond. nulle.→ E(y|x) = β0 + β1x: fonction de régression de lapopulation.


Estimation deβ0 et β1

(xi, yi) : i = 1, . . . , n = échantillon aléatoire de taille n tiré dela population.

yi = β0 + β1xi + ui, ∀i.E(u) = 0→ E(y − β0 − β1x) = 0.

E(u|x) = 0→ Cov. nulle entre u et x→ E[(y − β0 − β1x)x] = 0.

Pour obtenir β0 et β1 on va résoudre ce système enremplaçant E(.) par son équivalant empirique1/n

∑ni=1(.).


Estimation deβ0 et β1

n−1n

∑

i=1

(yi − β0 − β1xi) = 0 (3)

n−1n

∑

i=1

[(yi − β0 − β1xi)xi] = 0 (4)

→ β0 = y − β1x (5)

→ β1 =

∑ni=1(xi − x)(yi − y)

∑ni=1(xi − x)2si > 0

. (6)

Estimation de β0 et β1 par la méthode des moments.


Moindres carrés ordinaires (MCO)

minb0,b1

∑ni=1(yi − b0 − b1xi)

2 → 2 équations “de premierordre”:

− 2n

∑

i=1

(yi − β0 − β1xi) = 0 (7)

−2n

∑

i=1

[(yi − β0 − β1xi)xi] = 0 (8)

→ β0 = y − β1x (9)

→ β1 =

∑ni=1(xi − x)(yi − y)

∑ni=1(xi − x)2 si > 0

. (10)

Estimation de β0 et β1 par la méthode des MCO donne lesmême β0 et β1.


Propriétés des estimateurs MCO

SLR=Simple Linear Regression.

SLR.1 y = β0 + β1x + u→ linéaire en les paramètres.

SLR.2 (xi, yi) : i = 1, . . . , n→ échantillon aléatoire detaille n tiré de la population.

SLR.3 E(u|x) = 0→ moyenne conditionnelle nulle.Permet de dériver les propriétés des MCOconditionnellement aux valeurs de xi dans notreéchantillon. Techniquement identique à supposer xi

fixes dans des échantillons répétés (pas très réaliste).

SLR.4∑n

i=1(xi − x)2 6= 0→ variation dans les x.

Théorème 2.1 : Sous les hypothèses SLR.1 - SLR.4,E(β0) = β0 et E(β1) = β1.



SLR.5 V ar(u|x) = σ2 → homoscédasticité.

Théorème 2.2 : Sous les hypothèses SLR.1 - SLR.5,

V ar(β0) =σ2n−1

∑ni=1 x2

i∑n

i=1(xi − x)2

V ar(β1) =σ2

∑ni=1(xi − x)2

Théorème 2.3 : Sous les hypothèses SLR.1 - SLR.5,E(σ2) = σ2, où σ2 = 1

n−2

∑ni=1 u2

i .


Rappels Modèle de régression multiple


Modèle de régression multiple

Objectif: estimer un modèle du type

wage = β0 + β1educ + β2exper + u. (11)

De manière générale:

y = β0 + β1x1 + . . . + βkxk + u. (12)

OLS: minb0,b1,...,bk

∑ni=1(yi − b0 − b1xi1 − . . .− bkxik)

2.


Modèle de régression multiple

Exemple: y = β0 + β1x1 + β2x2 + u.→ Comment obtenir β1 ?

Régresser x1 sur x2: x1 = α0 + α1x2.

Calculer r1 = x1 − x1.

β1 =n

i=1ri1yi

n

i=1r2

i1

.

β1 est bien l’effet net de x1 sur y, où net signifie aprèsavoir tenu compte de l’effet des autres variables.


Goodness-of-Fit

Il est possible de décomposer la variabilité observée sur y,c-à-d SST ≡∑n

i=1(yi − y)2, en 2 quantités:

SSE ≡∑n

i=1(yi − y)2: variabilité expliquée par lemodèle;

SSR ≡∑ni=1 u2

i : variabilité non -expliquée par lemodèle.

→ SST = SSE + SSR.On peut donc définir une mesure de “qualité” de larégression (GoF):R2 = SSE/SST compris entre 0 et 1.



MLR=Multiple Linear Regression.

MLR.1 y = β0 + β1x1 + . . . + βkxk + u→ linéaire en lesparamètres.

MLR.2 (x1i, . . . , xki, yi) : i = 1, . . . , n→ échantillonaléatoire de taille n tiré de la population.

MLR.3 E(u|x1, . . . , xk) = 0→ moyenne conditionnellenulle.

MLR.4∑n

i=1(xji − x)2 6= 0 ∀j = 1, . . . , k et pas derelation linéaire parfaite entre les xj → variation dansles xj et pas de collinéarité parfaite.

Théorème 3.1 : Sous les hypothèses MLR.1 - MLR.4 ,E(βj) = βk ∀j = 0, . . . , k.



MLR.5 V ar(u|x1, . . . , xk) = σ2 → homoscédasticité.

Théorème 3.2 : Sous les hypothèses MLR.1 - MLR.5 ,

V ar(βj) =σ2

(1−R2j )

∑ni=1(xij − xj)2

où R2j est le R2 de le régression de xj sur les autres x

(+ une constante).

Théorème 3.3 : Sous les hypothèses MLR.1 - MLR.5(appelées hypothèses de Gauss-Markov),E(σ2) = σ2, où σ2 = 1

n−k−1

∑ni=1 u2

i .

Théorème 3.4 où théorème de Gauss-Markov : Sousles hypothèses MLR.1 - MLR.5 , βj est BLUE,∀i = 0, . . . , k.


Rappels sur l’Inférence


Hypothèse de normalité

Pour faire de l’inférence statistique, il faut ajouter unehypothèse supplémentaire:

MLR.6 u ∼ N(0, σ2) et indépendant des xj → normalité.

Les hypothèses MLR.1 - MLR.6 sont appeléeshypothèses classiques du modèle linéaire (CLM) =Gauss-Markov + normalité.

CLM→ MCO à la variance minimale.

Comment justifier cette hypothèse de normalité desrésidus ?

Si u est la somme de beaucoup de facteursnon-observés différents, on peut appeler le théorèmecentral limite pour justifier la normalité.


Théorème Central Limite

Soit Y1, Y2, . . . , Yn un échantillon de variables aléatoiresde moyenne µ et de variance σ2.

→ Zn = Y n−µσ/

√n

suit asymptotiquement une distribution

N(0,1).

Si Y ∼ χ2(1), µ = 1 et σ2 = 2.


Inférence

Théorème 4.1 : Sous les hypothèses MLR.1 - MLR.6 ,βj ∼ N(βj , V ar(βj)), ∀i = 0, . . . , k, où

V ar(βj) = σ2

(1−R2

j )n

i=1(xij−xj)2

.

Exemple.

Théorème 4.2 : Sous les hypothèses MLR.1 - MLR.6 ,βj−βj

se(βj)∼ tn−k−1, ∀i = 0, . . . , k, où

se(βj) =√

V ar(βj) et σ2 est remplacé par σ2.

On peut donc tester H0 : βj = aj contreH1 : βj <, 6=, > aj.


P-valeur

P-valeur: “Quelle est le plus petit niveau designificativité auquel H0 serait rejeté”.

Comment la calculer? Prendre la t-stat et regarder àquel pourcentile elle correspond dans la distribution deStudent appropriée.

→ Rejeter H0 si la P-Valeur < au seuil fixé (ex: 5%).


Tests multiples de restrictions linéaires

Si H0 : βj = 0 pour j ∈ 0, 1, . . . , k. Ex: H0 : β1 = β2 = 0.

et H1 : H0 n’est pas vrai.

→ 1) Estimer le modèle non contraint.

→ 2) Estimer le modèle contraint.

→ 3) Calculer la statistique F ≡ (SSRc−SSRnc)/qSSRnc/(n−k−1) , où SSR

dénote la somme des carrés des résidus et les indices cet nc signifient respectivement contraint etnon-contraint.

Sous H0, F ∼ Fq,n−k−1, où F =Fisher.

Rejet H0, si F > cα, où c = Fαq,n−k−1.


Exercices récapitulatifs

Exercice 4.12.

Exercice 4.17.

Exercice 4.19.


Rappels propriétés asymptotiques des MCO: Chapitre 5


Propriétés exactes des MCO

Pour prouver le caractère non-biaisé et BLUE des MCOnous avons imposé des hypothèses assez fortes(MLR.1-MLR.5 ).

Idem pour effectuer de l’inférence statistique (MLR.6:normalité).

Ces propriétés sont vraies quel que soit la taille del’échantillon (∀n).

→ On parle dès lors de propriété exacte, d’échantillonfini, ou encore de petit échantillon.


Propriétés asymptotiques des MCO

Dans certains cas, le rejet de certaines hypothèses nesignifie pas que les MCO sont invalides.

Ex: non-normalité de u.

→ En effet, les MCO peuvent être encore valides engrand échantillon sous des hypothèses plus faibles.

→ Étudier les propriétés statistiques pour n grand =étudier les propriétés asymptotiques.

Nouveau concept: CONVERGENCE.



Pour rappel. Théorème 3.1 : Sous les hypothèsesMLR.1 - MLR.4 , E(βj) = βk ∀j = 0, . . . , k.

Pour rappel. MLR.3 E(u|x1, . . . , xk) = 0→ moyenneconditionnelle nulle.

On a vu que E(u|x1) = 0 implique Cov(u, x1) = 0.

Définition : plim = Limite en probabilité = valeur verslaquelle un estimateur converge lorsque la taille del’échantillon tend vers l’infini. Voir page 741.

Hors, il est possible de montrer que:

plim β1 = β1 +Cov(x1, u)

V ar(x1)

= β1, si Cov(u, x1) = 0.



→ Il est possible de relâcher MLR.3 pour prouver toutde même que les MCO sont convergents.

MLR.3’ E(u) = 0 et Cov(xj , u) = 0 ∀j = 1, . . . , k →moyenne nulle et correlation nulle.

→ Sous les hypothèses MLR.1 - MLR.2 - MLR.3’ -MLR.4, βj est un estimateur convergent de βj,∀j = 1, . . . , k.


Normalité asymptotique

La normalité ne joue aucun rôle dans le caractèrenon-biasés des MCO ni dans leur caractère BLUE.

Par contre, pour effectuer de l’inférence statistique nousavons supposé que u ∼ N(0, σ2) et donc que ladistribution de y|x1, . . . , xk est normale.

→ distribution symétrique autour de sa moyenne.

→ peut prendre des valeurs sur ℜ.

→ plus de 95% des observations sont comprises entre2 écart-types.


Normalité asymptotique

Devons nous abandonner les t-stats si u n’est pasnormalement distribué ?

Non: on fait appel au théorème central limite pourconclure que les MCO satisfont la normalitéasymptotique.

Si n grand, βj est approximativement N(βj , V ar(βj)).

Illustration via une Simulation de Monte-Carlo: Prg,Output n=2000,Output n=30.


Rappels Hétéroscédasticité: Chapitre 8


Conséquences de l’hétéroscédasticité

Une fois de plus l’hétéroscédasticité n’a pas d’influencesur le caractère non-biaisé ou convergent des MCO.

Par contre la formule traditionnelle de V ar(βj) donne unestimateur biaisé de la variance des estimateurs sil’hypothèse d’homoscédasticité est violée.

→ Inférence incorrecte si on utilise cette formule.

→ MCO ne sont plus “BLUE”.

Solution 1: Corriger cette formule→ Écart-typesrobustes à l’hétéroscédasticité (White, 1980).

Solution 2: Déterminer la source de cettehétéroscédasticité et la prendre en compte dansl’estimation→ Moindres Carrés Pondérés.


Corrélation sérielle et hétéroskedasticité: Chapitre 2


Section 1: Corrélation sérielle


Biais des MCO et autocorrélation

Supposons que yt = β0 + β1xt + ut.

Supposons que le terme d’erreur suit unAR(1) : ut = ρut−1 + et avec |ρ < 1| et et ∼ iid(0, σ2

e).

Chapitre 10: TS.1-TS.3→ MCO non-biaisés pourautant que x soit strictement exogène.

Chapitre 11: TS.1’-TS.3’ → MCO consistant pourautant que yt soit faiblement dépendant et E(ut|xt) = 0.

Rien n’est dit sur le fait que ut ne puisse pas suivre unAR(1).

Par contre les MCO ne sont plus BLUE car violation deTS.5 et TS.5’.


Efficience-Inférence des MCO

Estimation du modèle yt = β0 + β1xt + ut par MCO, oùut supposé iid(0, σ2) et pour simplifier x = 0.

Rappelons que ut suit en réalité un AR(1).

β1 = β1 + SST−1x

∑ni=1 xtut, où SSTx =

∑ni=1 x2

t .

V ar(β1) = SST−2x V ar(

n∑

i=1

xtut)

= SST−2x

n∑

i=1

x2t V ar(ut) + 2

n−1∑

t=1

n−t∑

j=1

xtxt+jE(utut+j)

=σ2

SSTx

+ 2σ2

SST 2x

n−1∑

t=1

n−t∑

j=1

ρjxtxt+j


Efficience-Inférence des MCO

La formule traditionnelle ignore le second terme.

Si ρ > 0→ on sous-estime V ar(β1).

Si ρ < 0→ on sur-estime V ar(β1).

Question: Supposons que ut = et + αet−1. Montrez quela formule traditionnelle pour calculer V ar(β1) estincorrecte si α 6= 0.


Tester la présence d’autocorrélation

Dans le modèle général:yt = β0 + β1xt1 + . . . + βkxtk + ut → comment tester laprésence de corrélation sérielle ?

Deux types de tests:

1. Tests basés sur l’hypothèse que X est strictementexogène: t-test ou DW.

2. Tests basés sur l’hypothèse que X n’est passtrictement exogène.


Si X est strictement exogène

Supposons que yt = β0 + β1xt + ut.

Nous voulons tester si le terme d’erreur suit unAR(1) : ut = ρut−1 + et avec |ρ < 1|.H0 : ρ = 0.

Développons tout d’abord un test valide quand n estgrand et quand X est strictement exogène.

Hypothèses supplémentaires disant en quelque sorteque et est iid :E(et|ut−1, ut−2, . . .) = 0 et V ar(et|ut−1) = V ar(et) = σ2

e .

Si les ut étaient observés on pourrait utiliser leThéorème 11.2 pour valider l’utilisation asymptotiquedes t-tests dans la régression ut = ρut−1 + et.

Que ce passe-t-il si on remplace ut par ut ? A noter queut dépend de β0 et de β1.

Grâce à l’hypothèse que X est strictement exogène, la


Marche à suivre pour le t-test

Estimer yt = β0 + β1xt + ut et obtenir ut.

Estimer ut = ρut−1 + et.

Utiliser un t-test pour tester H0 : ρ = 0 contreH1 : ρ <6=> 0.


Test de Durbin-Watson

Le test de Durbin-Watson est un autre test pour testerla corrélation sérielle d’ordre 1 sous l’hypothèse que Xest strictement exogène.

La statistique DW =n

t=2(ut−ut−1)

2

n

t=1u2

t

, où ut est le résidu

d’une régression du typeyt = β0 + β1x1t + . . . + βkxkt + ut.

Il est facile de montrer que DW ≈ 2(1− ρ).

Durbin et Watson (1951) ont dérivé la distribution deDW conditionnellement à X sous l’hypothèse que leshypothèses du modèle linéaire classique sont vérifiées(incluant la normalité).

La distribution de DW dépend de n, k, et du fait qu’on ainclut une constante ou pas.


Test de Durbin-Watson

Notons que∑n

t=2(ut − ut−1)2 =

∑nt=2 u2

t +∑n

t=2 u2t−1 − 2

∑nt=2 utut−1.

Si ρ = 1→ DW = 0.

Si ρ = −1→ DW = 4.

Si ρ = 0→ DW = 2.

H0 : ρ = 0 contre généralement H1 : ρ > 0.

Durbin et Watson (1951) reportent des valeurs critiquesinférieures dL et supérieures dU .

Si dL ≤ DW ≤ dU , on ne rejette pas H0.

La plupart des logiciels économétriques reportent DWmais pas les valeurs critiques.


Table de Durbin-Watson pour H1 : ρ > 0


Si X n’est pas strictement exogène

Durbin (1970 propose un autre test valable si X n’estpas strictement exogène, par exemple si le modèlecontient yt−1 comme variable explicative.

i) Estimer le modèle yt = β0 + β1xt1 + . . . + βkxtk + ut etobtenir ut, ∀t = 1, 2, . . . , n.

ii) Estimer le modèle ut = γ0 + γ1xt1 + . . .+ γkxtk + ρut−1,∀t = 2, 3, . . . , n et obtenir ρ ainsi que tρ.

iii) Utiliser tρ de la manière usuelle pour testerH0 : ρ = 0 contre H1 : ρ <6=> 0.

→ On régresse ut sur xt et ut−1 et donc on permet àchaque xtj d’être corrélé avec ut−1.

→ tρ a approximativement une distribution en t si n estgrand.


Tester un AR(q)

i) Estimer le modèle yt = β0 + β1xt1 + . . . + βkxtk + ut etobtenir ut, ∀t = 1, 2, . . . , n.

ii) Estimer le modèleut = γ0 + γ1xt1 + . . . + γkxtk + ρ1ut−1 + . . . + ρqut−q,∀t = q + 1, q + 2, . . . , n.

iii) Effectuer le F-test suivant H0 : ρ1 = . . . = ρq = 0contre H1 : un des ρj <6=> 0, ∀j = 1, . . . , q.

Si les xt sont supposés strictement exogènes, on peutles omettre dans les étapes i) et ii).

A noter que ces tests supposentV ar(ut|xt, ut−1, . . . , ut−q) = σ2. Il existe une version deces tests robuste à l’hétéroskedasticité comme on leverra plus loin.


Tester un AR(q)

Une alternative a F -test est d’utiliser un LagrangeMultiplier (LM) Test: LM = (n− q)R2

u,où R2

u est le R2 de la régressionut = γ0 + γ1xt1 + . . . + γkxtk + ρ1ut−1 + . . . + ρqut−q,∀t = q + 1, q + 2, . . . , n.

Sous H0, LM ∼ χ2q asymptotiquement.

Ce test est connu sous le nom de test deBreusch-Godfrey .

Il est test est disponible en Eviews (avec le F -test).

Exemple: Taux d’intérêt US obligataire à 3 mois.ci3t = α0 + α1ci3t−1.


Correction pour corrélation sérielle

Si on détecte de la corrélation sérielle, on peut modifierle modèle initial pour tenter d’obtenir un modèledynamiquement complet (ex: AR(1)→ AR(2)).

Dans certains cas nous ne sommes pas intéressé parmodéliser cette dynamique→ l’intérêt réside plutôtdans les autres variables incluses dans le modèle.

Mais l’inférence est compromise→ Que faire ?

→ Calculer des écart-types robustes à n’importe quelleforme de corrélation sérielle.


Écart-types robustes

Considérons le modèle yt = β0 + β1xt1 + . . . + βkxtk + ut,t = 1, . . . , n.

Comment obtenir un écart-type pour β1 robuste à lacorrélation sérielle ?

xt1 = δ0 + δ2xt2 . . . + δkxtk + rt, où E(rt) = 0 etCorr(rt, xtj) = 0, ∀j ≥ 2.

Il est possible de montrer que Avar(β1) =V ar( n

i=1rtut)

( n

i=1E(r2

t ))2 ,

où Avar dénote la variance asymptotique.

Sous l’hypothèse TS.5’, at ≡ rtut est non corrélésériellement et donc la formule traditionnelle de V ar(β1)

est valide. Par contre si TS.5’ ne tient pas, Avar(β1) doittenir compte de la corrélation entre at et as ∀t 6= s.



Newey et West (1987) et Wooldridge (1989) ont montréque Avar(β1) peut être estimé de la manière suivante.

i) Estimer par MCO yt = β0 + β1xt1 + . . . + βkxtk + ut,

t = 1, . . . , n. se(β1) dénote l’écart-type de β1 et σl’écart-type de ut.

ii) Estimer la régression auxiliaire:xt1 = δ0 + δ2xt2 . . . + δkxtk + rt.

iii) Calculer at = rtut, ∀t = 1, . . . , n.

iv) Pour une valuer g > 0 donnée, calculer:v =

∑nt=1 a2

t + 2∑g

h=1[1− h/(g + 1)](∑n

t=h+1 atat−h

)

.→ g contrôle la “quantité" de corrélation sérielle quenous permettons.



Ex: g = 1, v =∑n

t=1 a2t +

∑nt=2 atat−1.

v) L’écart-type robuste à la corrélation sérielle de β1 est:se∗(β1) = [se(β1)/σ

2]√

v.

On peut montrer que cet estimateur est aussi robuste àtoute forme d’hétéroskedasticité→ cas plus général dece qui est exposé au Chapitre 8.

Comment choisir g ?

La théorie nous dit que g doit croître avec n.


Choix deg

Certains travaux ont suggéré pour:- des données annuelles→ g = 1, 2;- des données trimestrielles→ g = 4, 8;- des données mensuelles→ g = 12, 24.

Newey et West (1987) recommandent de prendre lapartie entière de 4(n/100)2/9 → implémenté en Eviews.

Exemple: Taux d’intérêt US obligataire à 3 mois.ci3t = α0 + α1ci3t−1.


Section 2: Hétéroscédasticité


Hétéroscédasticité

Pour beaucoup de séries temporelles, l’hypothèse TS.4ou TS.4’ d’homoscédasticité est violée.

Exemple: Rendements journaliers du NYSE

→ n’affecte pas le caractère non-biaisé ou convergentdes MCO mais invalide l’inférence statistiquetraditionnelle.

Il existe deux manières d’aborder le problème lié àl’hétéroscédasticité.

i) Corriger les écart-types pour effectuer de l’inférencecorrectement.

ii) Modéliser la dynamique présente dans la variance.


Écart-types robustes à la White (1980)

White (1980) propose une méthode permettant derendre les écart-types robustes à toute formed’hétéroscédasticité.

→ offre une solution intéressante, pour autant quel’intérêt ne se porte que sur la modélisation de lamoyenne conditionnelle.

Eviews, ainsi que beaucoup d’autres logicielséconométriques, offre cette option.

Il est possible de montrer que la formule de White(1980) est un cas particulier de la formule de Newey etWest (1987) qui permet de tenir compte égalementd’une possible autocorrélation des résidus.

Exemple: AR(1) sur NYSE


Tester la présence d’hétéroscédasticité

Avant de modéliser la dynamique présente dans lavariance, il est judicieux de tester la présenced’hétéroscédasticité afin d’avoir une meilleure idée dela spécification à adopter.

Pour appliquer les tests présentés ci-dessous il fautsupposer que les résidus ut sont non corrélésériellement→ tester avant.

Test de Breusch-Pagan :u2

t = δ0 + δ1xt1 + . . . + δkxtk + vt; H0 : δ1 = . . . + δk = 0.

Pour utiliser un F -test, il faut que les écart-types desMCO soient valables et donct que vt satisfasse TS.4 ouTS.4’ et TS.5 ou TS.5’.

Exemple:AR(1) sur NYSE: Estimer u2

t = α0 + α1returnt−1 + etMaster 2: Econometrie 2 – p. 61/227

Modèles ARCH

Considérons un modèle simple: yt = β0 + β1zt + ut.

Une caractéristique largement admise des sériesfinancières à fréquence élevée est que la variance n’estpas constante au court du temps et qu’il existe desgrappes de volatilité.

→ Si la variance en t est grande, elle le seraprobablement demain et les jours qui suivent.

→ Si la variance en t est petite, elle le seraprobablement demain et les jours qui suivent.

Engle (1982) a proposé un modèle appelé ARCH:Autoregressive Conditional Heteroskedasticity.


Modèles ARCH

La caractéristique du modèle ARCH(1) est que:E(u2

t |ut−1, ut−2, . . .) = E(u2t |ut−1) = α0 + α1u

2t−1, alors

que E(u2t |ut−1, ut−2, . . .) = 0.

Les ut sont non corrélés sériellement alors que les u2t le

sont.

Conditions de positivité: E(u2t |ut−1) > 0, ∀t→ α0 > 0 et

α1 ≥ 0.

Si α1 = 0→ homoscédasticité.

→ on peut tester la présence d’effets ARCH enestimant ce modèle (sur ut), voir une version plusétendue (plus de retards).

On peut tester α1, . . . , αq = 0 en utilisant un LM−test ouF−test.


Chapitre 3: Pooling de données “cross-section” ouméthodes simples de données de panel:


Pooling

Une série “cross-section” (ou en coupes) constitue biensouvent un ensemble de données relatives à des unités(individus, firmes, etc.) interrogées à un moment donné.

Dans certains cas, l’enquête est répétée plusieurs foisdonnant lieu à des échantillons différents, représentatifsde la population.

La technique du pooling suppose que les différentséchantillons sont chaque fois tirés aléatoirement de lapopulation.

→ On n’observe pas nécessairement les mêmes unités.

→ On dispose de plusieurs échantillons indépendants.

→ Par conséquent, Corr(ut, us) = 0, ∀t 6= s et donc onpeut donc (sous réserve) empiler les enquêtes eteffectuer une analyse MCO traditionnelle.


Panel

Par contre, lorsqu’on observe la même unité au courtdu temps, on parle de données de panel oulongitudinales.

Par conséquent, on ne peut pas supposer que lesobservations sont indépendantes.

→ Un facteur non-observé (comme le QI) qui affecte lesalaire d’un individu en 1995 va également affecter sonsalaire en 2000 = hétérogénéité non observée.

→ Requiert des techniques particulières pour traiter ceproblème.

→ Empiler les échantillons et utiliser les MCO donnedes estimateurs biaisés.


Technique de pooling

Beaucoup d’enquêtes auprès des ménages sontrépétées au court du temps.

Vu que le taux d’attrition est souvent assez grand, onveille à interroger de nouvelles personnes pouraccroître l’échantillon.

→ On a alors des échantillons indépendants.

Pourquoi effectuer plusieurs enquêtes ?

→ Pour avoir plus d’observations et donc plus deprécision dans l’estimation des paramètres et desécarts-type.


Technique de pooling

→ Pour effectuer des tests nécessitant l’utilisationd’observations à différents moments du temps.Exemple : Pour tester l’efficacité d’une politiqueéconomique il faut des observations avant et après lamise en oeuvre de la politique.

Etude de cas : La base de données FERTIL1.wf1concerne l’étude de Sanders (1994) sur la fertilité auxUSA.

Fréquence : une enquête tous les 2 ans de 1972 à1984→ 7 vagues.

La question posée est “Comment évolue la fertilité aucourt du temps ?”→ après avoir contrôlé pour des facteurs tels queéducation, âge, race, région (à 16 ans), environnement(à 16 ans). Master 2: Econometrie 2 – p. 68/227

Variable dépendante : KIDS

Variable Coefficient Std. Error t-Statistic Prob.C -7.742457 3.051767 -2.537040 0.0113EDUC -0.128427 0.018349 -6.999272 0.0000AGE 0.532135 0.138386 3.845283 0.0001AGESQ -0.005804 0.001564 -3.710324 0.0002BLACK 1.075658 0.173536 6.198484 0.0000EAST 0.217324 0.132788 1.636626 0.1020NORTHCEN 0.363114 0.120897 3.003501 0.0027WEST 0.197603 0.166913 1.183867 0.2367FARM -0.052557 0.147190 -0.357072 0.7211OTHRURAL -0.162854 0.175442 -0.928248 0.3535TOWN 0.084353 0.124531 0.677367 0.4983SMCITY 0.211879 0.160296 1.321799 0.1865Y74 0.268183 0.172716 1.552737 0.1208Y76 -0.097379 0.179046 -0.543881 0.5866Y78 -0.068666 0.181684 -0.377945 0.7055Y80 -0.071305 0.182771 -0.390136 0.6965Y82 -0.522484 0.172436 -3.030016 0.0025Y84 -0.545166 0.174516 -3.123871 0.0018

R-squared 0.129512 Mean dependent var 2.743136Adjusted R-squared 0.116192 S.D. dependent var 1.653899S.E. of regression 1.554847 Akaike info criterion 3.736447Sum squared resid 2685.898 Schwarz criterion 3.816627Log likelihood -2091.224 F-statistic 9.723282Durbin-Watson stat 2.010694 Prob(F-statistic) 0.000000


Données de Panel à 2 périodes

Supposons maintenant que nous disposons desdonnées individuelles pour lesquelles un individu estobservé en t = 1 et t = 2.

Exemple : la base de donnée CRIME2 comprend desdonnées sur les taux de criminalité et de chômage pour46 villes américaines en 1982 et 1987.

Estimation pour l’année 1987 : Résultat.

Comment expliquer ce résultat ? ← Si chômageaugmente, le crime diminue.

Variables omises observables ? On pourrait contrôlerpour des facteurs tels que (la distribution de) l’âge,éducation, etc.


Données de Panel à 2 périodes

Variables omises non-observables ? On peut imaginerque certains de ces facteurs sont constants au court dutemps et certains varient au court du temps.

yit = β0 + δ0d2t + β1xit + ai + uit, t = 1, 2.

i→ unité et t→ temps.

d2t = 0 si t = 1 et d2t = 1 si t = 2→ intercept différentpour t = 1 ou 2.

ai capture tous les facteur non-observé affectant yit →effet non-observé ,fixe ou individuel.

Ce modèle s’appelle donc modèle à effet non-observéou à effet fixe.

uit est le terme d’erreur idiosyncratique ou variant dansle temps.


Exemple

crmrteit = β0 + δ0d87t + β1unemit + ai + uit, t = 1, 2.

ai reprend tous les autres facteurs affectant le taux decriminalité qui ne varient pas entre t = 1 et 2.

→ caractéristiques géographiques (localisations auxUSA).

→ caractéristiques démographiques (age, race,éducation, etc.) : à vérifier.

→ certaines villes peuvent avoir leurs propresméthodes pour comptabiliser les crimes.

Comment estimer β1 ?

Pooling ?


Pooling

yit = β0 + δ0d2t + β1xit + vit, t = 1, 2.

→ vit = ai + uit.

Pour estimer ce modèle par MCO il faut supposer queai est non corrélé avec xit sinon vit (erreur composé)serait corrélé avec xit.

Si ce n’est pas le cas les MCO donne lieu à un biaisd’hétérogénéité non observée.

→ Biais dû à l’omission d’une variable constante aucourt du temps.

Exemple : CRIME2.→ 92 observations: 46 villes et 2périodes.


Panel

Si ai est corrélé avec xit, la technique du pooling estdonc inappropriée.

Solution simple : estimer un modèle en différencepremière.

yi1 = β0 + β1xi1 + ai + ui1 (t = 1)

yi2 = (β0 + δ0) + β1xi2 + ai + ui2 (t = 2).

Par conséquent,

(yi2 − yi1) = δ0 + β1∆(xi2 − xi1) + (ui2 − ui1)

∆yi = δ0 + β1∆xi + ∆ui.


Panel

∆yi = δ0 + β1∆xi + ∆ui peut être estimé par MCO si leshypothèses traditionnelles sont validées.

En particulier, il faut que Corr(∆ui, ∆xi) = 0, ce qui estnaturellement vrai si Corr(uit, xit) = 0, ∀t = 1, 2.

Dans notre exemple Corr(∆ui, ∆unemi) = 0 ?

Faux si par exemple si l’effort d’application de la loi(∈ uit) augmente plus dans des villes où le taux dechômage diminue Corr(uit, unemit) < 0→ biais desMCO.

Important : on ne peut estimer par cette méthode l’effetde variables constantes au court du temps (zi).Exemple : Distance par rapport à la capitale→ ∆zi = 0.

Exemple : CRIME2.Master 2: Econometrie 2 – p. 75/227

Modèle en DP pourT > 2

yit = δ0 + δ2d2t + δ3d3t + β1xit1 + . . . + βkxitk + ai + uit,

où t = 1, 2 et 3→ 3N observations.

→ on a considéré ici 2 variables auxiliaires temporellesen plus de l’intercept.

Si Corr(ai, xitj) 6= 0 ∀j = 1, . . . , k → βj obtenu par MCOsur des données poolées sont biaisés et inconsistants.

→ utiliser les techniques de panel si Corr(xitj , uis) = 0

∀t, s et j, c-à-d si exogénéité stricte des xitj aprèscontrôle des effets fixes ai.

Pour éliminer ai on peut différencier les séries.Exemple : ∆yi2 = yi2 − yi1 et ∆yi3 = yi3 − yi2.


Modèle en DP pourT > 2

∆yit = δ2∆d2t + δ3∆d3t + β1∆xit1 + . . . + βk∆xitk + ∆uit,

où t = 2 et 3→ 2N observations.

→ Estimer le modèle par MCO sur les données pooléessi les autres hypothèses des MCO sont validées.

→ Il est important de vérifier que corr(∆uit, ∆xitj) = 0∀j = 1, . . . , k et t = 2, 3.

Notons que cette équation n’a pas d’intercept→ on nepeut pas calculer de R2.

Mais ∆d2t = 1 si t = 2 (−1 si t = 3) et ∆d3t = 1 si t = 3(0 si t = 2).

→ ∆yit = α0 + α3d3t + β1∆xit1 + . . . + βk∆xitk + ∆uit.


Panel Balancé

Idem si T > 3.

Si T est le même pour tous les individus→ on a unpanel balancé.

Si T > 2 il faut évidemment vérifier que ∆uit n’est pascorrélé sériellement.


Hypothèses de l’estimateur à DP

7 hypothèses sous-jacentes à l’estimation par DP :

FD.1 ∀i Le modèle s’écrit :yit = β1xit1 + β2xit2 + ... + βkxitk + ai + uit, t = 1, 2, ..., T.

FD.2 On dispose d’un échantillon aléatoire pour chaquedimension en coupes transversales (“cross-section”).

FD.3 E(uit|Xi, ai) = 0→ L’espérance conditionnelle duterme d’erreur est nulle ∀t⇒ E(∆uit|Xi) = 0 pourt = 2, . . . , T.

FD.4 Chaque variable explicative change dans le temps(au moins pour certains i) et il n’y a pas de relationlinéaire parfaite entre les variables explicatives.

FD.5 ∀t, V ar(∆uit|Xi) = V ar(∆uit) = σ2u.

FD.6 ∀t 6= s, Cov(∆uit, ∆uis|Xi) = 0.Master 2: Econometrie 2 – p. 79/227

Hypothèses de l’estimateur à DP

FD.7 (Hypothèse de normalité) : Conditionnellement àXi, les ∆uit sont indépendamment et identiquementdistribués suivant une N(0, σ2

u).

Sous les hypothèses FD.1-FD.6, l’estimateur par DPest BLUE (conditionnellement à X).

Sous les hypothèses FD.1-FD.7, l’estimateur DP estnormalement distribué.


Illustration

Cette illustration concerne l’effet de l’alcool au volant.

Quel est l’effet des taxes et des lois sur l’alcool auvolant sur la mortalité liée à un accident de voiture ?

Données sur mortalité liée à un accident de voiture,taxes sur l’alcool, lois sur l’alcool au volant et d’autresvariables concernant 48 états américains contigus.

Fréquence : Annuel de 1982 à 1988→ 7 années.

Modèle simple : FatalityRate = α0 + α1BeerTax + u,

où FatalityRate = nombre annuel de morts suite à unaccident de voiture par 10.000 personnes (aux USA)= 10000×mrall,

et BeerTax = taxe réelle sur un casier de bière.


MCO pour les années 1982 et 1988

0.25 0.50 0.75 1.00 1.25 1.50 1.75 2.00 2.25 2.50 2.75

2

3

4

Bear Tax (Dollars par caise en $1988)

Fata

lity

rate

(pa

r 10

.000

) 1982

FatalityRate = 2.01 + 0.15 BeraTax (0.15) (0.13)

0.25 0.50 0.75 1.00 1.25 1.50 1.75 2.00 2.25 2.50 2.75

2

3

4

Bear Tax (Dollars par caise en $1988)

Fata

lity

rate

(pa

r 10

.000

)

1988FatalityRate = 2.86 + 0.44 BeraTax (0.11) (0.13)


Eviews

- Workfile Eviews.- Programme Eviews.Code Eviews :

’ Equation OLS FatalityRate = alpha_0 + alpha_1 BeerTax + u for year 1982

smpl 1982 1982

states.ls(h) vfrall? c beertax?

freeze(eq_OLS_1982) states


Eviews

Dependent Variable: VFRALL?

Method: Pooled Least Squares

Sample: 1982 1982

Included observations: 1

Number of cross-sections used: 48

Total panel (balanced) observations: 48

White Heteroskedasticity-Consistent Standard Errors & Covariance

Variable Coefficient Std. Error t-Statistic Prob.

C 2.010381 0.149573 13.44082 0.0000

BEERTAX? 0.148460 0.132605 1.119565 0.2687

R-squared 0.013324 Mean dependent var 2.089106

Adjusted R-squared -0.008126 S.D. dependent var 0.667772

S.E. of regression 0.670480 Sum squared resid 20.67898

F-statistic 0.621164 Prob(F-statistic) 0.434658


Eviews



Sample: 1988 1988






C 1.859073 0.114612 16.22053 0.0000

BEERTAX? 0.438755 0.127865 3.431391 0.0013


Adjusted R-squared 0.115177 S.D. dependent var 0.521183




Modèle en différence première

- Ce résultat contre intuitif peut s’expliquer par le fait quecertaines variables omises sont corrélées avec BeerTax→estimateur biaisé.- Si ces variables sont constantes au court du temps, onpeut estimer un modèle de panel en différence première.- Exemple : attitudes culturelles vis-à-vis de l’alcool et de laconduite→ constant au court du temps (t) mais varie entreles états (i). Code Eviews :

’ Equation OLS on first difference for t=1982 and 1988 --> T=2

smpl 1982 1988

states.genr dbtax?=beertax?-beertax?(-6)

states.genr dvfrall?=vfrall?-vfrall?(-6)

states.ls(h) dvfrall? c dbtax?

freeze(eq_OLS_FD) states


Eviews

Dependent Variable: DVFRALL?


Sample(adjusted): 1988 1988

Included observations: 1 after adjusting endpoints





C -0.072037 0.065355 -1.102239 0.2761

DBTAX? -1.040973 0.355006 -2.932267 0.0052

R-squared 0.119194 Mean dependent var -0.019512





Méthodes de panel avancées: Chapitre 4


Objectif

Dans le chapitre précédent, nous avons vu l’approche dupooling ainsi qu’une méthode pour prendre en comptel’hétérogénéité non observée : differences premières.

Dans ce chapitre, 2 autres méthodes.

Estimation par effets fixes→ comme pour les premièresdifférences, cette méthode élimine les effets individuelsai avant estimation ainsi que l’effet des variablesconstantes dans le temps.

Estimation avec effets aléatoires si effet individuel noncorrélé avec les variables explicatives.

Ces 2 méthodes sont mises en oeuvre dans la plupartdes logiciels économétriques comme Eviews, Rats etPcGive.


Effets fixes

Transformation par différences premières élimine leseffets individuels ai.

Méthode alternative meilleure sous certaineshypothèses : transformation par effets fixes.

Modèle :

yit = β1xit + ai + uit, t = 1, 2, ..., T.

Pour chaque i, la moyenne temporelle des yit est :

yi = β1xi + ai + ui,

où yi = 1T

∑Ti=1 yit.


Effets fixes

Par conséquent,

yit − yi = β1(xit − xi) + (uit − ui), t = 1, 2, ..., T.

Ou encore,yit = β1xit + uit,

où yit = yit − yi est la valeur de y en déviation parrapport à sa moyenne temporelle.

La transformation par effets fixes est aussi appelétransformation within.

On peut remarquer que ai a disparu : on peut doncestimer le modèle yit = β1xit + uit par MCO poolés→ Estimateur à effets fixes ou estimateur within(estimateur EF).


Effets fixes

On peut généraliser ce modèle au cas multivarié :

yit = β1xit1 + β2xit2 + ... + βkxitk + ai + uit, t = 1, 2, ..., T.

Le modèle à EF correspondant est alors :

yit = β1xit1 + β2xit2 + ... + βkxitk + uit.

Ceci peut également s’estimer par MCO.

L’estimateur par effets fixes est non biaisé sousl’hypothèse de variables explicatives exogènes ou sousl’hypothèse que uit est non corrélé avec ces variablesexplicatives pour toutes les périodes (exogénéitéstricte).


Hypothèses de l’estimateur à EF

7 hypothèses sous-jacentes à l’estimation par EF :

FE.1 ∀i Le modèle s’écrit :yit = β1xit1 + β2xit2 + ... + βkxitk + ai + uit, t = 1, 2, ..., T.

FE.2 On dispose d’un échantillon aléatoire pour chaquedimension en coupes transversales (“cross-section”).

FE.3 E(uit|Xi, ai) = 0→ L’espérance conditionnelle duterme d’erreur est nulle ∀t.FE.4 Chaque variable explicative change dans le temps(au moins pour certains i) et il n’y a pas de relationlinéaire parfaite entre les variables explicatives.

FE.5 ∀t, V ar(uit|Xi, ai) = V ar(uit) = σ2u.

FE.6 ∀t 6= s, Cov(uit, uis|Xi, ai) = 0.


Hypothèses de l’estimateur à EF

FE.7 (Hypothèse de normalité) : Conditionnellement àXi et ai, les uit sont indépendamment et identiquementdistribués suivant une N(0, σ2

u).

Sous les hypothèses FE.1-FE.6, l’estimateur par EF estBLUE (conditionnellement à X et à ai). L’estimateur enpremière différence est donc moins précis du fait del’absence de l’hypothèse FE.6.

Sous les hypothèses FE.1-FE.7, l’estimateur EF estnormalement distribué BLUE (conditionnellement à X età ai).


Effets fixes : suite

L’estimateur de panel à effets fixes permet unecorrélation entre ai et les variables explicatives pourn’importe quelle période.

→ Comme l’estimateur élimine les ai, toute variableconstante dans le temps sera également éliminée :xit = 0 pour tout i et t si xit est constant dans le temps→ on ne peut pas inclure des variables constantesdans le temps.


Estimation par effets fixes : suite

Le nombre de degrés de liberté dans le modèle à effetsfixes est égal à NT −N − k = N(T − 1)− k → pourchaque i on perd 1 degré de liberté car on doit estimerxi.

On peut néanmoins introduire des variables constantesdans le temps qui vont interagir avec des variables quivarient dans le temps.

Exemple : impact de de l’éducation sur le salaire→ paspossible d’estimer le return car éducation constantedans le temps (en général); néanmoins, en multiplianteduc par le temps, on peut voir si le rendement del’éducation évolue dans le temps.


Régression par variable dummy

Idée de l’estimation par EF : le paramètre ai doit êtreestimé pour chaque i.

Pour T ≥ 2, une solution est de mettre une variabledummy pour chaque coupe transversale (chaque i).→ Régression par variable dummy→ mise en oeuvrelorsque N pas trop élevé.

Cette méthode donne exactement les même valeursestimées βj que l’estimation sur yit.

Avantage : le nombre de degrés de liberté correct estcalculé directement.


Estimation des effets individuels

L’estimation des valeurs estimées ai peut être d’unintérêt économique. On peut en effet étudier leurdistribution sur tous les i.

On peut calculer les ai après estimation par effets fixes: ai = yi − β1xi1 − ...− βkxik, i = 1, ..., N .

Attention, certains logiciels reportent l’intercept. Cetintercept reporté peut être la moyenne pour tous les ides ai → à ne pas confondre avec les ai.

Sous les hypothèses FE.1-FE.4, l’estimation des ai estnon biaisée. Néanmoins, pout T fixe , elle n’est pasconsistante quand N →∞. On obtient de meilleursestimateurs de ai avec T large.


Effets fixes vs. première différence

Les 2 méthodes permettent de traiter le problème del’hétérogénéité non observée. Laquelle choisir ?

Pour T = 2, les 2 méthodes donnent des résultatsstrictement identiques→ Estimateur en PD permetd’estimer aisément des écarts-type robustes àl’hétéroscédasticité.

Pour T ≥ 3, il faut comparer les estimateurs sur base deleur efficience relative (les 2 sont non biaisés sousFE.1-FE.4 et consistants).

⇒ Si les uit sont non autocorrélés (FE.6)→ l’estimateurEF est plus efficient.



⇒ Si les uit sont très autocorrélés (FE.6)→ l’estimateurPD est plus efficient.

A l’extrême, si les uit suivent une marche aléatoire,alors △uit sera non autocorrélé→ l’estimateur PD estpréférable.

Dans les cas intermédiaires (autocorrélation positivemais ρ < 1), il est préférable d’utiliser les 2 estimateurs.

Pour tester l’hypothèse de non autocorrélation, on peututiliser les △uit après estimation en PD.→ si non autocorrélation, estimateur PD meilleur;→ si autocorrélation négative importante, alorsestimateur EF préférable car l’estimateur PD crée del’autocorrélation par sur-différenciation.



Prudence dans l’utilisation de l’estimateur EF lorsque Npas très large (ex: N = 20) et T large (ex: T = 30).

En effet, sous FE.1-FE.7, la distribution de l’estimateurEF est correcte ∀ N et T .

Par contre, problème avec l’estimateur à EF si une deshypothèses violées et que N petit et T large.

Exemple : cas de racines unités→ l’estimateur PDrendra la série stationnaire.

Si non normalité, utiliser estimateur PD car FE.7 pasnécessaire.

Si hétéroscédasticité, on peut utiliser estimateur PDavec écarts-type robustes.



D’un autre côté, l’utilisation de l’estimateur à EF estmoins sensible à une violation de l’hypothèsed’exogénéité, surtout avec T large.

→ Si hypothèse d’exogénéité pose problème (exemple :variables dépendantes retardées), alors l’estimateur EFest préférable.

Pour conclure : choix non trivial entre méthodes EF etPD.


Illustration

- Revenons à l’exemple sur l’effet de l’alcool au volant.- Considérons maintenant les 7 vagues de données.Code Eviews :

’ Equation Fixed Effectssmpl 1982 1988states.ls(h,f) vfrall? c beertax?freeze(eq_OLS_EF) states


Illustration



Sample: 1982 1988






BEERTAX? -0.655874 0.188154 -3.485841 0.0006

Fixed Effects

_AL--C 3.477630 _AZ--C 2.909903 ... _WY--C 3.249126




F-statistic 56.96916 Durbin-Watson stat 1.286873

Prob(F-statistic) 0.000000


Effets fixes dans un panel non cylindré

Si pour certaines années, il y a des observationsmanquantes pour un nombre d’individus i, alors on a unpanel non balancé ou non cylindré.

Si panel non balancé, on peut utiliser l’estimateur à EFsous une condition cruciale.

Condition cruciale : la raison pour laquelle on a desobservations manquantes ne doit pas être corrélée auxuit → Ceci garantit l’existence d’un échantillon aléatoirepour chaque coupe (FE.2).

Exemple : panel de firmes pour étudier si le degré desyndicalisation affecte la profitabilité des firmes; sicertaines firmes absentes pour des raisons de faibleprofitabilité (faillites, fusions, acquisitions), alors FE.2est violée→ phénomène d’attrition→ estimateursbiaisés. Master 2: Econometrie 2 – p. 105/227

Estimation avec effets aléatoires

Modèle de base :yit = β1xit1 + β2xit2 + ... + βkxitk + ai + uit.

Avec les estimateurs EF ou PD, le but est d’éliminer lesai car ils sont sensés être corrélés avec les xitj.

Supposons maintenant queCov(xitj , ai) = 0, t = 1, 2, ..., T ; j = 1, 2, ..., k.

Dans ce cas l’estimateur à EF est non efficient et il estpréférable d’utiliser un estimateur à effets aléatoires(estimateur EA).


Hypothèses de l’estimation avec EA

3 hypothèses supplémentaires aux hypothèses FE.1, FE.2,FE.3, FE.5, FE.6 :

RE.3 La valeur attendue des ai étant donnés les Xi estconstante : E(ai|Xi) = β0.

RE.4 Il n’y a pas de relation linéaire parfaite entre lesvariables explicatives.

RE.5 La variance des ai est constante,conditionnellement aux Xi : V ar(ai|Xi) = σ2

a.


Estimation avec EA

Comment estimer les βj sous les hypothèses précédentes ?

Quid si on estime le modèle par MCO poolés ?

Ceci produit des estimateurs de βj consistants maisnon efficients car les erreurs seront autocorrélées.

Le modèle est en effet :yit = β0 + β1xit1 + β2xit2 + ... + βkxitk + νit,avec νit = ai + uit.

Exemple : T = 2→ ν11 = a1 + u11 et ν12 = a1 + u12.Donc Corr(νi1, νi2) 6= 0 de part la présence de ai dansles 2 termes.

A cause des ai, les νit sont donc autocorrélés :Cov(νit, νis) = σ2

a

σ2a+σ2

u> 0, t 6= s, avec σ2

a = V ar(ai) et

σ2u = V ar(uit).


Estimation avec EA

Comme Cov(νit, νis) 6= 0, l’estimation par MCO poolésdonnent des estimateurs inefficients (écarts-typebiaisés) et des statistiques en t invalides.

Le modèle doit être estimé par Moindres carrésgénéralisés (MCG).

Les MCG impliquent une transformation du modèle quiélimine cette autocorrélation :

yit − λyi = β0(1− λ) + β1(xit1 − λxi1) + β2(xit2 − λxi2)

+ ... + (βkxitk − λxik) + (νit − λνi).

On peut montrer (non démontré ici) que :

λ = 1− [ σ2

u

σ2u+Tσ2

a]1

2 .


Estimation avec EA

L’estimateur à EA est simplement l’estimateur MCOpoolé du modèle sur yit − λyi.

On voit que selon les valeurs de σ2u et de σ2

a, 0 ≤ λ ≤ 1→ données quasi en déviation par rapport à leurmoyenne→ l’estimateur à EA est basé sur un modèledans lequel on soustrait une fraction de la moyennetemporelle de chaque variable.

Pour λ = 0, on retrouve les MCO poolés.

Pour λ = 1, on retrouve l’estimateur EF.

Comme on ne retranche plus la totalité de la moyenne,on peut inclure dans le modèle à EA des variablesconstantes dans le temps.


Estimation par MCG “faisable” (FGLS)

λ est inconnu→ il faut l’estimer : MCG faisables.

λ = 1−[

1

1+Tσ2

a

σ2u

]1

2

.

Ceci requiert donc de trouver les estimateur de σ2a et de

σ2u → basés sur modèle de départ estimé par MCO

poolés.

σ2a = [NT (T −1)/2− (k +1)]−1

∑Ni=1

∑T−1t=1

∑Ts=t+1(νitνis),

où νit sont les résidus du modèle MCO poolé.

On peut alors calculer : σ2u = σ2

ν − σ2a où σ2

ν est le carréde l’erreur de régression du modèle de base.

Lorsque l’on utilise λ à la place de λ, on obtientl’estimateur à effets aléatoires.


Propriétés de l’estimateur à EA

Sous les hypothèses FE.1, FE.2, RE.3, RE.4, RE.5,FE.6, l’estimateur EA est consistant si N >> pour Tfixe. De plus, l’estimateur EA est approximativementnominalement distribué pour N grand et les écarts-typestandards sont valides.

Pour N petit et T large, les propriétés sont beaucoupmoins connues→ prudence.


Effets fixes vs. effets aléatoires

Le choix entre EF et EA réside dans la nature perçuedes ai.

Si on ne peut pas considérer que les ai sont le resultatde tirages aléatoires dans une population, alors on doitles considérer comme des paramètres fixes à estimer→ estimateur à effets fixes.

Exemple : données portant sur les provinces d’un pays.

Sinon, il faut évaluer si les ai sont corrélés ou non avecles xit. Si non corrélés→ estimateur à effets aléatoires.

Pour évaluer le degré de corrélation, on peut comparerles valeurs estimées par EF et EA→ idée du testd’Hausman(1978) (pas vu ici).


Illustration: équation de salaire

On estime une équation de salaire pour des hommes.

On considère 7 variables explicatives :

- 3 facteurs constants dans le temps :educ, black, hispan.

- 4 facteurs variables dans le temps :exper, exper2,married, union.

Néanmoins, exper s’accroît de 1 chaque année→ nonvariable en DP.

On envisage 3 méthodes : MCO poolés, EF, EA.


Résultats d’estimation

Var Expl Pool EA EFeduc 0.091 0.092 -

(0.005) (0.011)black -0.139 -0.139 -

(0.024) (0.048)hispan 0.016 0.022 -

(0.021) (0.043)exper 0.067 0.106 -

(0.014) (0.015)exper2 -0.0024 -0.0047 -0.0052

(0.0008) (0.0007) (0.0007)married 0.108 0.064 0.047

(0.016) (0.017) (0.018)Union 0.182 0.106 0.080

(0.017) (0.018) (0.019)


Commentaires

Il n’est pas possible d’inclure les 4 premières variablesdans le modèle à effets fixes.

Pour les 4 premières variables, les coefficients sontsimilaires entre Pool et EA.

Néanmoins, les écarts-type sont différents : l’estimateurdes MCO poolés donnent des écarts-type biaisés car ilignore l’autocorrélation (positive).

Pour les variables variables dans le temps, on observedes coefficients assez différents entre MCO poolésd’une part et EA et EF d’autre part.

λ = 0.643→ l’estimateur EA est plus proche del’estimateur EF que du MCO poolé.


Chapitre 5: Estimation par variables instrumentales etdoubles moindres carres


Utilisation des variables instrumentales

L’utilisation de la méthode des variables instrumentales (VI)se justifie dans différents contextes

Variables explicatives endogènes.

Problème d’erreurs de mesures sur certaines variables.Ex : revenu déclaré.

Problème d’omission de variables explicativesappropriées.


Variables explicatives endogènes

Dans ce contexte, l’utilisation de VI donne lieu à unenouvelle méthode d’estimation : les doubles moindrescarrés.

Méthode très populaire, notamment pour estimermodèles macroéconomiques à plusieurs équations.

Des exemples spécifiques seront developpés dans lechapitre 16: modèles à équations simultanées.

Exemple: Relation entre le taux de meurtre et taille desforces de polices. Le taux de meurtre dépend de lataille des forces de polices et la taille des forces depolices dépend du taux de meurtre : problème desimultanéité .


Erreurs de mesure

Problème d’erreurs de mesures sur certaines variablesexplicatives.

Exemple : revenu déclaré


Omission de variables explicatives

Omission de variables explicatives appropriées mène àun biais d’estimation des coefficients de régression.

Ce biais peut être éliminé si l’on dispose de variablesproxy. Quid si pas de proxy.

Dans un contexte de données de panel, élimination dubiais par différenciation si variable omise estindépendante du temps.

Quid si la variable omise dépend du temps ou si l’intérêtse porte sur des variables qui ne varient pas dans letemps (éliminées par différentiation) ?


Illustration: variables omises


Exemple: relation salaire-éducation

Le vrai modèle de régression est :

wage = β0 + β1educ + β2abil + e.

Problème : on n’observe pas abil (compétence).

On peut utiliser le QI comme variable proxy de abil →Quid si indisponible ?

Si on ignore abil → Le modèle de régression devient :

wage = β0 + β1educ + u.

→ u englobe abil → si abil est corrélé avec educ, violel’hypothèse SLR.3 E(u|x) = 0→ biais dans l’estimationde β1.



Le modèle de régression s’écrit :

y = β0 + β1x + u.

A cause de l’omission de certaines variables :

Cov(x, u) 6= 0 (13)

→ les MCO donnent des estimateurs biaisés

Idée des VI : utiliser une information additionnelle sousla forme d’une variable observable z qui remplit 2conditions:

Condition 1: Cov(z, u) = 0.

Condition 2: Cov(z, x) 6= 0.


Conditions 1 des VI

Condition 1 . Dans la population,

Cov(z, u) = 0.

z est dite exogène dans le modèle de régression.

Dans le contexte d’omission des variables,z n’a pasd’effet partiel sur y conditionnellement à x et u.

Il est impossible de tester cette hypothèse→ faire appelà la théorique économique.


Conditions 2 des VI

Condition 2 .Cov(z, x) 6= 0.

z est corrélée avec la variable explicative x

On peut tester cette hypothèse :

x = π0 + π1z + ν.

Comme π1 = Cov(z, x)/V ar(z), condition 2 tient ssi onrejette l’hypothèse H0 : π1 = 0 contre hypothèsealternative H1 : π1 6= 0.


Exemples et contre-exemples de VI

Revenons à la relation salaire-education;

Regardons quelques candidats de VI pour educ.→Trouver z tel que Cov(z, abil) = 0 et Cov(z, educ) 6= 0.

Derniers numéros de sécurité sociale de l’individu:Condition 1 OK; Condition 2 non remplie.

QI : Condition 2 OK mais Condition 1 violée car QIcorrélé avec abil et donc u.


Exemples et contre-exemples de VI

Education de la mère: Condition 2 OK (les parentséduqués ont plus de chance d’avoir des enfantséduqués) ; Condition 1 moins évidente car corrélationcompétence-éducation de la mère pas claire→ Voir lathéorie économique.

Nombre de frères et soeurs pendant l’enfance:condition 2 OK car souvent beaucoup de frères etsoeurs corrélés avec niveau d’éducation faible;condition 1 vraissemblable.


Estimation et Inférence par la méthode des variablesinstrumentales


Estimateurs des VI

Si l’on dispose d’une bonne VI, on peut estimer de manièreconsistente l’équation y = β0 + β1x + u..

Les 2 conditions des VI permettent d’identifier β1,c’est-à-dire d’écrire β1 en termes de moments desvariables observables:Cov(z, y) = Cov(z, β0 + β1x + u) =β1Cov(z, x) + Cov(z, u).

Voir pp. 712-713 pour les propriétés de calcul descovariances.

Si Cov(z, u) = 0, alors β1 = Cov(z,y)Cov(z,x) qui existe ssi

Cov(z, x) 6= 0.


Estimateurs des VI

L’estimateur par VI de β1:

β1 =

∑ni=1(zi − z)(yi − y)

∑ni=1(zi − z)(xi − x)

.

Remarque : si x = z (cas de x exogène) , alors onretrouve l’estimateur des MCO. Dans ce cas,x est sonpropre instrument.

L’estimateur de l’intercept est simplement: β0 = y − β1y.

Sous les conditions 1 et 2, plim(β1) = β1 → β1 estconvergent.


Inférence avec les estimateurs des VI

Les estimateurs VI sont comme les estimateurs MCOasymptotiquement distribués normalement. Pour fairede l’inférence, on a donc besoin d’un estimateur de lavariance de β0 et β1.

On fait l’hypothèse d’homoscédasticité :E(u2|z) = V ar(u) = σ2.

Sous conditions 1 et 2 des VI et cette hypothèse, alorsla variance asymptotique de β1 est égale à σ2

nσ2xρ2

x,zoù

ρxz est la corrélation entre x et z.

Un estimateur consistent de σ2 peut s’obtenir commepour les MCO par : σ2 = 1

n−2

∑ni=1 u2

i .


Inférence avec les Estimateurs des VI

La variance asymptotique de β1 peut également s’écrire: σ2

SCTxR2x,z

où SCTx =∑n

i=1 x2i .

Ceci permet de comparer avec la varianceasymptotique de β1 estimé par MCO qui est pour rappel: σ2

SCTx.

On voit que plus R2x,z (R2 de la régression de Xi sur Zi)

est faible (instruments faibles), plus la précision del’estimateur des VI est faible.

Comme R2x,z < 1 , la variance des estimateurs VI et des

DMC est toujours plus élevée que celle des MCO : lecoût de l’estimation des VI se paye en termes deprécision de l’estimateur.


Illustration

Regardons ce que l’estimation par VI donne dans le cas dela relation salaire-education(ex 15.1) pour les hommes

MCO sur log(wage) = β0 + β1educ + u.

Exemple: wage2.wf1 .

Endogénéité du niveau d’éducation pose problème.

On peut utiliser l’éducation du père comme VI de educ

Cette variable remplit la condition 2 des VI : unerégression de educ sur fathereduc montre unecorrélation positive et significative.

L’estimation par VI donne un impact plus faible (0.059vs 0.109) et des écart-types plus élevés que ceuxobtenus par MCO (0.035 vs 0.014): on perd lasignificativité de l’éducation.


Propriétés des VI avec instruments faibles

Instruments faibles = VI pour lesquelles corrélationentre x et z est faible→ conséquences non désirables.

Rappel pour les MCO :

plim β1 = β1 +Cov(x, u)

V ar(x)

= β1 + Corr(x, u)σu

σx

= β1, si Corr(x, u) = 0.

Pour les VI :

plim β1 = β1 +

[

Corr(z, u)

Corr(z, x)

(

σu

σx

)]

. (14)


Propriétés des VI avec instruments faibles

Si Corr(z, x) est faible, une faible corrélation entre z et udonne lieu à un estimateur largement inconsistent .

Et ce, même si Corr(z, u) est faible.

En termes de consistence, les VI sont préférables auxMCO ssi Corr(z,u)

Corr(z,x) < Corr(x, u).

→ Même en cas d’endogénéité, les MCO peuvent êtrepréférables : tout dépend de la corrélation entre la VI etx.


Illustration

Relation entre le poids du bébé à la naissance et lenombre de cigarettes fumées par la mère.

Exemple: BWGHT.wf1 .

Problème : le nombre de cigarettes peut être corréléavec des facteurs de santé non observés dans larégression→ corrélation entre x et u.

Idée de VI : prix des cigarettes dans la régiond’habitation : faiblement corrélé avec le nombre decigarettes (effet positif et non significatif): instrumentfaible.

: résultat de la régression par VI : effet du nombre decigarette positif sur le poids du bébé m is non significatifcar écart-type très élevé.

Instruments faibles (non valables)→ biais d’estimationimportant .


Estimation par VI en régression multiple


régression multiple

Exemple : log(wage) = β0 + β1educ + β2exper + u.

y1 = β0 + β1y2 + β2z1 + u1 → Equation structurelle→objet : estimation des βj.

y1: variable dépendante ou endogène → log(wage)

y2: variable explicative endogène (corrélée avec u1)→ educ

z1: variable explicative exogène (non corrélée avec u1)→ exper.

E(u1) = 0, Corr(u1, z1) = 0 mais Corr(u1, y2) 6= 0

Si estimation par MCO: tous les βj seront biaisés.



z1 ne peut pas servir d’instrument pour y2 → recourt àz2, une VI.

Hypothèses cruciales: E(u1) = 0, Cov(z1, u1) = 0,Cov(z2, u1) = 0⇒ E(z1, u1) = E(z2, u2) = 0.

Approche par la méthode des moments

n∑

i=1

(yi1 − β0 − β1yi2 − β2zi1) = 0

n∑

i=1

zi1(yi1 − β0 − β1yi2 − β2zi1) = 0

n∑

i=1

zi2(yi1 − β0 − β1yi2 − β2zi1) = 0.



3 équations linéaires pour 3 inconnues (β0,β1,β2).

si z2 = y2 (y2 exogène), on retrouve les conditions dupremier ordre des MCO

La variable instrumentale z2 doit êtreconditionnellement corrélée avec y2 :

y2 = π0 + π1z1 + π2z2 + ν2.

Il s’agit d’un exemple d’équation en forme réduite : lavariable endogène est exprimée exclusivement entermes de variables exogènes.

La condition d’identification (généralisation de lacondition 2 vue précédemment) est :π2 6= 0.


Exemple de régression multiple

Lien éducation-salaire : 5 variables exogènes→expérience, expérience au carré, dummy pour noir,dummy pour zone urbaine et dummy pour état du sud.

Exemple: CARD.raw .

Une VI candidate pour educ: dummy pour habitationproche d’une école (nearc4).

Vérification de la condition 2 (condition d’identification)par une régression de educ sur nearc4 et les 5 autresvariables exogènes→ coefficient de nearc4 positif etsignificatif : condition 2 remplie pour VI.

L’estimation par VI donne un impact plus élevé del’éducation sur le salaire que les MCO (0.132 vs 0.075)mais une plus grande incertitude (0.055 vs 0.003).


Doubles Moindres Carrés


Variable explicative endogène unique

Soit le modèle de régression : y1 = β0 + β1y2 + β2z1 + u.

On dispose de 2 variables exogènes exclues : z2 et z3

→ 2 restrictions d’exclusion.

Si z2 et z3 sont corrélées avec y2, on dispose de 2 VIpotentielles.

Dans ce cas, on va choisir la combinaison linéaire desvariables exogènes z1,z2,z3 la plus corrélée avec y2 →y∗2.


Variable explicative endogène unique

Soit l’équation en forme réduite :y2 = π0 + π1z1 + π2z2 + π3z3 + ν2.

Les hypothèses sont les suivantes: E(ν2) = 0,Cov(z1, ν2) = 0,Cov(z2, ν2) = 0 et Cov(z3, ν2) = 0.

On trouve y∗2 à partir de y∗2 = π0 + π1z1 + π2z2 + π3z3.

La condition d’identification devient : π1 6= 0 ou π2 6= 0Cette condition peut s’évaluer en testant H0:π1 = 0 etπ2 = 0 à l’aide d’un F-test.


Les doubles moindres carrés (DMC)

La méthode des DMC met en oeuvre ce qu’on vient de voirà travers 2 étapes.

Étape 1 : On estime la meilleure combinaison linéairedes VI en régressant par MCO y2 sur z1,z2 et z3 →y2 = π0 + π1z1 + π2z2 + π3z3.

Étape 2 : on utilise y2 comme instrument de y2. Latroisième condition des moments devient :

n∑

i=1

yi2(yi1 − β0 − β1yi2 − β2zi1) = 0. (15)

L’étape 2 implique donc simplement d’utiliser y2 obtenuen première étape comme régresseur :y1 = β0 + β1y2 + β2z1 + ν2.


Illustration des DMC

Reprenons l’exemple de la relation salaire-éducation.

On dispose de l’équation structurelle :

log(wage) = β0 + β1educ + β2exper + β3exper2 + u1.

exper et exper2 sont non corrélés avec u1.

On va utiliser l’éducation des parents comme VI :fatheduc et motheduc.

L’equation en forme réduite s’écrit donc : educ =

π0 + π1exper + π2exper2 + π3motheduc + π4fatheduc + ν2.

La condition d’identification requiert donc : π3 6= 0 ouπ4 6= 0, ce qui peut se tester par un test classique en F.


Illustration des DMC

Exemple: Rendements de l’education pour les femmesactives

MROZ.raw .

Le test en F à partir de l’équation en forme réduitedonne une valeur de 55.40, ce qui correspond à unep-value de .0000→ instruments qui satisfont lacondition 2.

La régression dans la forme structurelle par DMCdonne un rendement de l’éducation (des femmes)(coefficient β1) de 0.061 et à peine significatif(gonflement de l’écart-type 0.031).


Extensions liées aux VI


Variables endogènes multiples

Cas de plusieurs variables endogènes exemple : y2 ety3: y1 = β0 + β1y2 + β2y3 + β3z1 + β4z2 + u1 où z1 et z2

sont des variables exogènes.

Condition nécessaire d’identification = Conditiond’ordre ou de rang : On a besoin d’au moins autant devariables exogènes exogènes exclues (de l’équationstructurelle) que de variables endogènes présentes(dans l’équation structurelle).

Dans l’exemple, l’identification requiert 2 variablesexogènes z3 et z4 qui doivent être significatives dansl’équation en forme réduite.


Erreurs de mesure sur variables

Vrai modèle de régression: y1 = β0 + β1x∗1 + β2x2 + u où

x∗1 est observé avec erreur→ on n’observe que x1:

x∗1 = x1 + e

y1 = β0 + β1x1 + β2x2 + (u− β1e1)→ Ceci crée unproblème d’endogénéité : corrélation entre x1 et leterme d’erreur (u− β1e1)→ MCO biaisés.

Solution: trouver une VI pour x1. Dans le cas desproblèmes de mesure, idée est de trouver une variablez1 corrélée avec x∗

1 mais dont l’erreur de mesure estnon corrélée avec e1.


Erreurs de mesure sur variables

Exemples

salaire annuel reporté par travailleurs (erreurs demesure) : VI = salaire reporté par l’employeur.

Revenu annuel d’un ménage : VI = niveau annuel del’épargne du ménage.

Niveau d’éducation reporté par les travailleurs : VI=nombre d’années d’éducation reporté par frère jumeauou soeur jumelle.


Test d’endogénéité

y1 = β0 + β1y2 + β2z1 + β3z2 + u1 → Supposons que z1 etz2 sont des variables exogènes et z3 et z4 variablesexclues.

Comment tester si y2 est endogène ?

Test d’Hausman (1978) basé sur la comparaison entrevaleurs estimées par MCO et par DMC.

Pour voir si différences sont significatives, procédure en3 étapes.


Test d’endogénéité d’Hausman

Étape 1 : estimation de la forme réduite :y∗2 = π0 + π1z1 + π2z2 + π3z3 + π4z4 + ν2.

Si problème d’endogénéité, ν2 est corrélé avec u1 et y1

→ Étape 2 : on récupère le résidu ν2 , contrepartieobservable de ν2.

Étape 3 : On estime par MCOy1 = β0 + β1y1 + β2z1 + β3z2 + δ1ν2 + error et on teste parun test en t H0 : δ1 = 0; On conclut à l’endogénéité dey2 si rejet de H0.


Exemple de test d’endogénéité

On récupère le résidu ν2 de l’equation : educ =

π0 + π1exper + π2exper2 + π3motheduc + π4fatheduc + ν2.

On inclut ν2 dans l’équation structurelle :log(wage) = β0 + β1educ + β2exper + β3exper2 + δ1ν2 + u1.

Le test en t de H0 : δ1 = 0 est égale à 1.67→ Evidencelimitée d’endogénéité de educ→ doute→ Il estpréférable d’utiliser conjointement MCO et DMC.


Test de suridentification

De manière générale, on ne peut pas tester la condition1 des VI càd Cov(z, u) = 0.

Néanmoins une exception importante : lorsque l’ondispose d’au moins 1 restriction de suridentifcation.

Le nombre de restrictions de suridentification = nombred’instruments excédentaires par rapport au nombre devariables endogènes.

Exemple : y1 = β0 + β1y2 + β2z1 + β3z2 + u1. Si ondispose de 2 VI z3 et z4, on dispose d’1 condition desuridentification.



Pourquoi est-ce possible ? on peut estimer les β avecune VI, récupérer les résidus et tester la corrélation parrapport à l’autre VI→ pas possible si on ne dispose qued’une seule VI.

3 étapes.

Étape 1 :Estimer l’équation structurelle par VI etrécupérer les résidus u1.

Étape 2 : Régresser sur toutes les variables exogèneset récupérer le R-carré R2

1.

Sous hypothèse de non corrélation entre les VI et u1

(validité de la condition 2), nR21 est distribué suivant une

loi du χ2q ou q est le nombre de condition de

suridentification.Master 2: Econometrie 2 – p. 157/227


Étape 3 : Si nR21 excède la valeur critique (à 5% par

exemple), on rejette la validité de la condition 2 et onconclut qu’au moins une des 2 VI n’est pas exogène.

Rendements de l’education pour femmes actives. Enrégressant le résidu des DMC u1 sur exper etexper2,motheduc et fatheduc, on obtient R2

1 = .0009→nR2

1 = 428(0.0009) = .3852 qui est faible par rapport àune distribution en χ2

1 (p− valeur = .535)→ L’éducationdes parents satisfont au test de suridentification.


Chapitre 6: Modèles à équations simultanées


Simultanéité

Dans le chapitre précédent, nous avons vu 2 raisonsprincipales d’utilisation de la méthode des variablesinstrumentales (VI.

1) Problème d’erreurs de mesure.

2) Problème d’omission de variables explicativesappropriées.

→ Dans chaque cas, le problème donne lieu à unproblème d’endogénéité.

Dans ce chapitre, on va étudier en détails une autreraison importante: le problème de simultanéité .


Simultanéité

Le problème de simultanéité: Une ou plusieursvariables explicatives sont déterminées conjointementavec la variable dépendante, par exemple à travers unerelation d’équilibre.

Les problèmes de simultanéité se posent parexcellence dans les modèles à équations simultanées(MES).

→ La méthode d’estimation des VI et des DMCs’applique pour estimer les modèles à équationssimultanées alors que l’estimation par MCO génèredes estimateurs biaisés→ biais de simulatnéité .


Caractéristique des MES

Exemple de MES: Offre et demande de travail.

Equation d’offre de travail: hs = α1w + β1z1 + u1.

Equation structurelle avec hs = offre de travail,w =salaire et z1 = facteurs exogènes.

Problème : La condition ceteris paribus n’est pasrespectée→ les variation de w ne sont pas exogènescar w est un salaire observé à l’équilibre (demande detravail=offre de travail).


Caractéristique des MES

Equation de demande de travail: hd = α2w + β2z2 + u2.

Equation structurelle avec hd = demande de travail,w =salaire et z2 facteurs exogènes (de la demande).

A l’équilibre, pour chaque individu i, on a : hid = his.

On obtient alors un MES:

his = α1wi + β1zi1 + ui1

hid = α2wi + β2zi2 + ui2.

→ MES à 2 équations dans leur forme structurelle; hi etwi sont des variables endogènes;zi1 et zi2 sont desvariables exogènes.


Autres exemples de MES

Relation taux de meurtre et taille des forces de polices.

Equation explicative des meurtres par ville:murdpc = α1polpc + β10 + β11incpc + u1

murdpc = Taux de meurtre par habitant;polpc =nombrede policiers par habitant; incpc:revenu par habitant.

Equation explicative du nombre de policiers :polpc = α2murdpc + β20 + autresfacteurs + u2.

polpc et murdpc sont 2 variables endogènes d’un MES à2 équations.


Biais de simultanéité

L’utilisation des MCO pour estimer les équationsstructurelles d’un MES donne lieu à un biais.

Soit un MES à 2 équations:

y1 = α1y2 + β1z1 + u1

y2 = α2y1 + β2z2 + u2.

Trouvons la forme réduite de y2 :y2 = α2(α1y2 + β1z1 + u1) + u2.

Ceci se réécrit comme :

y2 = π21z1 + π22z2 + ν2,

avec π21 = α1β1

1−α2α1; π22 = β2

1−α2α1; ν2 = α2u1+u2

1−α2α1.



On peut estimer par MCO de manière consistente cetteforme réduite car z1 et z2 sont exogènes et donc noncorrélés avec u1 et u2 et donc ν2.

L’estimation de la forme structurelle par MCO donnelieu à un estimateur biaisé.

Exemple :équation y1 = α1y2 + β1z1 + u1 → y2 estcorrélé avec u1

Pourquoi? y2 = f(ν2 = α2u1+u2

1−α2α1).

Plus formellement :Cov(y2, u1) = Cov(ν2, u1) = [ α2

1−α2α1]E(u2

1) = [ α2

1−α2α1]σ2

1

Si α2 6= 0 (cas d’un MES), alors MCO biaisés.



Rappels : plim α1 = α1 + Cov(y2,u1)V ar(y2)

.

Le biais (asymptotique) de simultanéité aura le mêmesigne que la covariance entre ν2 et u1.

Le biais de simulatnéité dépend des paramètres α2 etα1.

Exemple : si α2 > 0 et α2α1 < 1, alors le biaisasymptotique sera positif→ l’effet de y2 sera surestimé.


Identification d’un MES à 2 équations

Considérons le cas d’un MES à 2 équations.

y1 = β10 + α1y2 + β1z1 + u1

y2 = β20 + α2y1 + β2z2 + u2

Les variables z1 et z2 représentent un ensemble derespectivement k1 et k2 variables exogènes (avec unepossible intersection entre les 2):z1β1 = β11z11 + β12z12 + ... + β1k1

z1k1

z2β2 = β21z21 + β22z22 + ... + β2k2z2k2

.


Identification d’un MES à 2 équations

La présence ou non de ces variables zi va permettre dedéfinir des restrictions d’exclusion qui permettront dedéfinir la condition d’identification (condition d’ordre) dechaque équation.

Condition de rang pour l’identification d’une équationstructurelle : La première équation dans un MES à 2équations est identifiée ssi la seconde équation contientau moins une variable exogène (avec un coefficient β2i

non nul) qui est exclu de la première équation.


Exemples d’identification

Modèle de demande et d’offre.

Equation d’offre : q = α1p + β1z1 + u1 → α1 = élasticitéde la quantité offerte par rapport au prix p

Equation de demande: q = α2p + u2 → α2= élasticité dela quantité demandée par rapport au prix p.

Dans ce MES, l’offre n’est pas identifiée; la demandeest identifiée.



Modèle : offre de travail des femmes mariées→ 2équations structurelles

Equation d’offre de travail (heures travaillées) :hours = α1log(wage) + β10 + β11educ + β12age +β13kidslt6 + β14nwifeinc + u1 ; kidslt6 =nombred’enfants <6ans;nwifeinc =revenu non salarial de lafemme mariée.

Equation de salaire: log(wage) =

α2hours + β20 + β21educ + β22exper + β23exper2 + u2.

A partir des équations structurelles, la conditiond’identification de l’équation d’offre de travail : β22 6= 0ou β23 6= 0.



L’identification requiert :β12 6= 0 ou β13 6= 0 ou β14 6= 0.

On peut évaluer cela aussi en terme de forme réduite :log(wage) = π20 + π21educ + π22kidslt6 + π23nwifeinc +

π24age + π25exper + π26exper2 + ν2.

→ L’identification de l’équation de salaire requiert :π25 6= 0 ou π26 6= 0. Pourquoi ?


Estimation par DMC

L’estimation par DMC peut se faire pour une équationidentifiée.

Dans ce cas, les VI sont simplement les variablesexogènes de l’autre équation.

Exemple : Offre de travail des femmes mariées.


MES à plus 2 équations

Considérons le cas d’un MES à 3 équations

y1 = α12y2 + α13y3 + β11z1 + u1

y2 = α21y1 + β21z1 + β22z2 + β23z3 + u2

y3 = α32y2 + β31z1 + β32z2 + β33z3 + β34z4 + u3.

Les conditions d’identification sont des conditionsnécessaire mais non suffisantes→ Il n’est pas facile dedéterminer les équations identifiées mais plus facile dedéterminer les équations non identifiées .

Equation explicative de y3 est clairement non identifiéecar il n’y a pas de restrictions d’exclusion.



Condition d’ordre pour l’identification :Une équationdans un MES respecte la condition d’ordre pourl’identification si le nombre de variables exogènesexclues de l’équation est plus grand ou égal au nombrede variables explicatives endogènes de l’équation

La condition d’ordre est une condition nécessaire maisnon suffisante→ conditions suffisantes plus difficiles àdéterminer



La seconde équation(y2 = α21y1 + β21z1 + β22z2 + β23z3 + u2) est identifiée ssiβ34 6= 0. Dans ce cas, l’équation est juste identifiée caron a 1 variable endogène explicative (y1) et 1 VI (z4)→L’identification d’une équation dépend de la valeur desparamètres des autres équations.

La première équation est sur-identifiée car on disposede 3 VI (z1, z2, z3) pour 2 variables endogènes (y2, y3).


MES en séries temporelles

Exemple type : Modèle keynésien en économie fermée

Ct = β0 + β1(Yt − Tt) + β2rt + ut1

It = γ0 + γ1rt + ut2

Yt ≡ Ct + It + Gt.

Tt =taxes, rt =taux d’intérêt, It =Investissement,Gt =dépenses publiques.

3 équations pour 3 variables endogènes : Ct, It et Yt.

Troisième équation est une identité.

Si rt est exogène, alors la seconde équation peuts’estimer par MCO.

La première équation (Consommation) doit s’estimerpar DMC (Yt endogène), 3 instruments : (Tt, Gt et rt).



Le modèle keynésien est aujourd’hui peu estimé pour 2raisons.

1. On a besoin d’hypothèses d’exogénéité qui sontdiscutables→ rt n’est pas exogène; pour l’estimationpar DMC, Tt et Gt doivent être exogènes, ce qui n’estpas garanti.

2. Le modèle est statique→ irréaliste.

Quid si on met de la dynamique ?It = γ0 + γ1rt + γ2Yt−1 + ut2.



Peut-on considérer Yt−1 comme exogène ?

Oui (si ut2 non autocorrélé) : Yt−1 est une variable diteprédéterminée→ si rt est exogène, l’équation peut êtreestimée par MCO.

Puisque Yt−1 est exogène, il peut également êtreconsidéré comme un instrument potentiel.


MES en séries temporelles: exemple

relation consommation-revenu: test de l’hypothèse durevenu permannent gct = β0 + β1gyt + β2r3t + ut.

gct est le taux de croissance de la consommation→variable I(0).

gyt est le taux de croissance de la consommation→variable I(0).

r3t est le taux d’intérêt réel à 3 mois→ variable I(0).

gct et gyt sont mutuellement dépendentes→simultanéité→ estimation par DMC.


MES en séries temporelles: exemple

L’hypothèse du revenu permanent (HRP) implique:

1. β0 = β1 = 0.

2. ut est non autocorrélé.

Instruments valides : valeurs retardées de gct, gyt et r3t.

→ estimation par DMC montre que HRP est rejetée(H0 : β1 = 0 rejetée).

Régresser ut sur ut−1 → Rejet de H0 : processus AR(1).


Master 2: Econométrie 2 - Michel Beine 2...Master 2: Econometrie 2 – p. 2/227´ Plan du cours...

Documents

Transcript of Master 2: Econométrie 2 - Michel Beine 2...Master 2: Econometrie 2 – p. 2/227´ Plan du cours...