modelisation statistique insa toulous

download modelisation statistique insa toulous

of 81

description

modelisation statistique insa toulous

Transcript of modelisation statistique insa toulous

  • PUBLICATIONS DU LABORATOIREDE

    STATISTIQUE ET PROBABILITES

    Pratique de lamodelisation Statistique

    PHILIPPE BESSE

    Version janvier 2003 mises a` jour : www.lsp.ups-tlse.fr/Besse

    Laboratoire de Statistique et Probabilites UMR CNRS C5583Universite Paul Sabatier 31062 Toulouse cedex 4.

  • 2

  • Table des matie`res

    Introduction 5

    1 Regression lineaire simple 71 Mode`le . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

    2.1 Inference . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 Qualite dajustement, prediction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 Nuage de points, transformations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

    4.1 Estimation de la densite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104.2 Regression non-parametrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

    5 Influence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115.1 Effet levier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125.2 Residus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125.3 Diagnostics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

    6 Graphe des residus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

    2 Regression lineaire multiple 171 Mode`le . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

    2.1 Estimation par M.C. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.2 Proprietes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.3 Sommes des carres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192.4 Coefficient de determination . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

    3 Inferences dans le cas gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193.1 Inference sur les coefficients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193.2 Inference sur le mode`le . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203.3 Inference sur un mode`le reduit . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203.4 Ellipsode de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203.5 Prevision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

    4 Selection de variables, choix de mode`le . . . . . . . . . . . . . . . . . . . . . . . . . . . 214.1 Crite`res . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

    3

  • 4 TABLE DES MATI `ERES

    4.2 Algorithmes de selection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235 Multi-colinearite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

    5.1 Diagnostics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245.2 Regression ridge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255.3 Regression sur composantes principales . . . . . . . . . . . . . . . . . . . . . . . 255.4 Mode`les curvilineaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

    6 Influence, residus, validation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266.1 Effet levier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266.2 Residus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266.3 Mesures dinfluence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266.4 Regression partielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276.5 Graphes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

    7 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277.1 Les donnees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277.2 Resultat du mode`le complet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

    8 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

    3 Analyses de variance et covariance 351 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352 Mode`le a` un facteur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

    2.1 Mode`les . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362.2 Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 372.3 Comparaisons multiples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 382.4 Homogeneite de la variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 382.5 Tests non parametriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

    3 Mode`le a` deux facteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 393.1 Mode`le complet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 393.2 Interaction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 403.3 Mode`les de regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413.4 Strategie de test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

    4 Proble`mes specifiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434.1 Facteur bloc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434.2 Plan sans repetition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434.3 Plans desequilibres, incomplets . . . . . . . . . . . . . . . . . . . . . . . . . . . 434.4 Mode`les a` plus de deux facteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . 444.5 Facteurs hierarchises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

    5 Analyse de covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 445.1 Mode`le . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455.2 Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455.3 Cas general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

    6 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 466.1 Les donnees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

  • TABLE DES MATI `ERES 5

    6.2 Analyse de variance a` un facteur . . . . . . . . . . . . . . . . . . . . . . . . . . . 466.3 Mode`le a` deux facteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 486.4 Analyse de covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

    7 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

    4 Mode`les de denombrement 551 Odds et odds ratio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 552 Regression logistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

    2.1 Type de donnees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 562.2 Mode`le binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

    3 Mode`le log-lineaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 573.1 Types de donnees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 573.2 Distributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 583.3 Mode`les a` 2 variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 593.4 Mode`le a` trois variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

    4 Choix de mode`le . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 614.1 Recherche pas a` pas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 614.2 Validation croisee . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

    5 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 625.1 Mode`le binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 625.2 Mode`le poissonien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

    6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

    5 Introduction au mode`le lineaire generalise 711 Composantes des mode`les . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

    1.1 Distribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 711.2 Predicteur lineaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 721.3 Lien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 721.4 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

    2 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 732.1 Expression des moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 732.2 Equations de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 742.3 Fonction lien canonique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

    3 Qualite dajustement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 753.1 Deviance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 753.2 Test de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

    4 Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 754.1 Rapport de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 764.2 Test de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

    5 Diagnostics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 765.1 Effet levier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 765.2 Residus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 765.3 Mesure dinfluence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

  • 6 TABLE DES MATI `ERES

    6 Complements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 786.1 Sur-dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 786.2 Variable offset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

    7 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

  • Introduction

    La Statistique a plusieurs objets : descriptif ou exploratoire, decisionnel (tests), modelisation selon quelon cherche a` representer des structures des donnees, confirmer ou expliciter un mode`le theorique ou encoreprevoir. Ce cours sinteresse au the`me de la modelisation et plus particulie`rement aux methodes lineaireset a` celles qui se rame`nent au cas lineaire. Il se limite donc a` lexpose des methodes dites parametriquesdans lesquelles interviennent des combinaisons lineaires des variables dites explicatives. Celles-ci visentdonc a` lestimation dun nombre generalement restreint de parame`tres intervenant dans cette combinai-son mais sans aborder les techniques specifiques a` letude des series chronologiques. Les methodes non-parametriques elementaires (loess, noyaux, splines) seront introduites dans le cas unidimensionnel.

    Le cadre general de ce cours conside`re donc les observations dune variable aleatoire Y dite reponse,exoge`ne, dependante qui doit etre expliquee (modelisee) par les mesures effectuees sur p variables ditesexplicatives, de controle, endoge`nes, dependantes, regresseurs. Ces variables peuvent etre quantitatives ouqualitatives, ce crite`re determinant le type de methode ou de mode`le a` mettre en uvre : regression lineaire,analyse de variance et covariance, regression logistique, mode`le log-lineaire.

    Compte tenu du temps limite et de la variete des outils mis en jeu nous avons fait le choix dinsis-ter sur la pratique des methodes considerees ainsi que sur la comprehension des sorties proposees parun logiciel (SAS/STAT) et de leurs limites plutot que sur les fondements theoriques. Ce cours sinspirelargement dune presentation anglo-saxonne de la Statistique, du particulier vers le general, dont descomplements sont a` rechercher dans la bibliographie citee en reference. On montre donc comment utiliserles proprietes des mode`les statistiques pour le traitement des donnees tandis que certains des aspects plusmathematiques (demonstrations) sont lobjet dexercices. Neanmoins, le dernier chapitre introduit au cadretheorique general incluant toutes les methodes considerees : le mode`le lineaire generalise.

    En theorie, on peut distinguer deux approches : avec ou sans hypothe`se probabiliste sur la distribu-tion des observations ou des erreurs qui est, le plus souvent, lhypothe`se de normalite. En pratique, cettehypothe`se nest gue`re prouvable, les tests effectues sur les residus estimes sont peu puissants. Cette hy-pothe`se est neanmoins implicitement utilisee par les logiciels qui produisent systematiquement les resultatsde tests. Plus rigoureusement, ces resultats sont justifies par les proprietes des distributions asymptotiquesdes estimateurs, proprietes qui ne sont pas developpees dans ce cours. En consequence, du moment que lesechantillons sont de taille raisonnable, hypothe`se on non de normalite, les distributions des estimateurs etdonc les statistiques de test sont considerees comme valides.

    En revanche, dautres aspects des hypothe`ses, inherentes aux methodes developpees et qui, en pratique,conditionnent fortement la qualite des estimations, doivent etre evalues avec soin : linearite, colinearite,homoscedasticite, points influents ou atypiques (outliers). Les differents diagnostics ainsi que le proble`medu choix des variables explicatives, cest-a`-dire du choix de mode`le, sont plus particulie`rement decrits.

    Dans la mesure du possible, nous avons respecte une certaine uniformisation des notations. Des ca-racte`res majuscules X , Y designent des variables aleatoires, des caracte`res gras minuscules designent desvecteurs : yi est la ie`me observation de Y rangee dans le vecteur y, un chapeau designe un predicteur : yi,les caracte`res gras majuscules sont des matrices, un caracte`re grec () est un parame`tre (qui est une variablealeatoire) dont lestimation est designee par la lettre latine correspondante (b).

    Enfin, ce support de cours est et restera longtemps en chantier, les mises a` jour successives ainsi que dessujets de travaux pratiques sont disponibles a` partir de lURL :

    www-sv.cict.fr/lsp/Besse.

    7

  • 8 TABLE DES MATI `ERES

  • Chapitre 1

    Regression lineaire simple

    Ce chapitre elementaire permet dintroduire simplement certains concepts clefs : mode`le, estimations,tests, diagnostics, qui seront ensuite declines dans des cadres plus generaux. Il vient en complement duncours traditionnel de Statistique de niveau bac+3 sur lestimation et les tests.

    1 Mode`leOn note Y la variable aleatoire reelle a` expliquer et X la variable explicative (deterministe) ou effet fixe

    ou facteur controle. Le mode`le revient a` supposer, quen moyenne, E(Y ), est une fonction affine de X .

    E(Y ) = f(X) = 0 + 1X.

    Remarque : Nous supposerons pour simplifier queX est deterministe. Dans le cas contraire,X aleatoire,le mode`le secrit alors conditionnellement aux observations de X : E(Y |X = x) = 0 + 1x et conduitaux memes estimations.

    Pour une sequence dobservations aleatoires identiquement distribuees {(yi, xi)i = 1, . . . , n} (n > 2,et les xi non tous egaux), le mode`le secrit avec les observations :

    yi = 0 + 1xi + ui i = 1, . . . , n

    ou sous la forme matricielle : y1...

    yn

    =1 x1..

    .

    .

    .

    .

    1 xn

    [01]+

    u1...

    un

    ,y = X + u

    ou` le vecteur u contient les erreurs.Les hypothe`ses relatives a` ce mode`le sont les suivantes :

    i. la distribution de lerreur u est independante de X ou X est fixe,

    ii. lerreur est centree et de variance constante (homoscedasticite) :

    i = 1, . . . , n E(ui) = 0, Var(ui) = 2u.

    iii. 0 et 1 sont constants, pas de rupture du mode`le.

    iv. Hypothe`se complementaire pour les inferences : u N (0, 2uIp).

    9

  • 10 Chapitre 1. Regression lineaire simple

    2 EstimationLestimation des parame`tres 0, 1, 2 est obtenue en maximisant la vraisemblance, sous lhypothe`se

    que les erreurs sont gaussiennes, ou encore par minimisation de la somme des carres des ecarts entre obser-vations et mode`le (moindres carres). Pour un jeu de donnees {(xi, yi)i = 1 . . . , n}, le crite`re des moindrescarres secrit :

    min0,1

    ni=1

    (yi 0 1xi)2.

    On pose :

    x =1n

    ni=1

    xi, y =1n

    ni=1

    yi,

    s2x =1

    n 1ni=1

    (xi x)2, s2y =1

    n 1ni=1

    (yi y)2,

    sxy =1

    n 1ni=1

    (xi x)(yi y), r = sxysxsy

    ;

    Les moindres carres sont obtenus par :

    b1 =sxys2x

    ,

    b0 = y b1x.

    On montre que ce sont des estimateurs sans biais et de variance minimum parmi les estimateurs fonctionslineaires des yi (resp. parmi tous les estimateurs dans le cas gaussien). `A chaque valeur de X correspond lavaleur estimee (ou predite, ajustee) de Y :

    yi = b0 + b1xi,

    les residus calcules ou estimes sont :ei = yi yi.

    La variance 2u est estimee par la variation residuelle :

    s2 =1

    n 2ni=1

    e2i .

    2.1 InferenceLes estimateurs b0 et b1 sont des variables aleatoires reelles de matrice de covariance :

    2u

    [1n +

    x2

    (n1)s2x x

    (n1)s2x x(n1)s2x1

    (n1)s2x

    ]

    qui est estimee en remplacant 2u par son estimation s2. Sous lhypothe`se que les residus sont gaussiens, onmontre que

    (n 2)s22u

    2(n2)et donc que les statistiques

    (b0 0)/

    s

    (1n+

    x2

    (n 1)s2x

    )1/2et (b1 1)

    /s

    (1

    (n 1)s2x

    )1/2

  • 3. Qualite dajustement, prediction 11

    suivent des lois de Student a` (n 2) degres de liberte. Ceci permet de tester lhypothe`se de nullite dun deces parame`tres ainsi que de construire les intervalles de confiance :

    b0 t/2;(n2)s(1n+

    x2

    (n 1)s2x

    )1/2,

    b1 t/2;(n2)s(

    1(n 1)s2x

    )1/2.

    Attention : une inference conjointe sur 0 et 1 ne peut etre obtenue en considerant separement les inter-valles de confiance. La region de confiance est en effet une ellipse dequation :

    n(b0 0)2 + 2(b0 0)(b1 1)ni=1

    xi + (b1 1)2ni=1

    x2i = 2s2F;2,(n2)

    qui est inclue dans le rectangle defini par les intervalles. Un grande part des valeurs du couple (0, 1) estdonc exclue de la region de confiance et ce dautant plus que b0 et b1 sont correles.

    3 Qualite dajustement, predictionIl est dusage de decomposer les sommes de carres des ecarts a` la moyenne sous la forme ci-dessous ;

    les notations sont celles de la plupart des logiciels :

    Total sum of squares SST = (n 1)s2y,Regression sum of squares SSR = (n 1) s

    2xy

    s2x,

    Error sum of squares SSE = (n 2)s2,et on verifie : SST = SSR + SSE.

    On appelle coefficient de determination la quantite

    R2 = r2 =s2xys2xs

    2y

    = 1 n 2n 1

    s2

    s2y=

    SSRSST

    qui exprime le rapport entre la variance expliquee par le mode`le et la variance totale.Sous lhypothe`se : 1 = 0, la statistique

    (n 2) R2

    1R2 = (n 2)SSRSSE

    suit une distribution de Fisher F1,(n2). Cette statistique est le carre de la statistique de Student correspon-dant a` la meme hypothe`se.

    Connaissant une valeur x0, on definit deux intervalles de confiance de prediction a` partir de la valeurpredite y0 = b0 + b1x0. Le premier encadre E(Y ) sachant X = x0 ; le deuxie`me, qui encadre y0 est plusgrand car il tient compte de la variance totale : 2u + Var(y0) :

    y0 t/2;(n2)s(1n+

    (x0 x)2(n 1)s2x

    )1/2,

    y0 t/2;(n2)s(1 +

    1n+

    (x0 x)2(n 1)s2x

    )1/2.

    Les logiciels proposent egalement une bande de confiance entre deux arcs dhyperboles pour la droitede regression. `A chaque point (b0, b1) de lellipse de confiance de (0, 1) correspond une droite dequationy = b0 + b1x. Toutes ces droites sont comprises entre les bornes :

    y sF1,(n2)

    (1n+

    (x x)2(n 1)s2x

    )1/2.

  • 12 Chapitre 1. Regression lineaire simple

    Ceci signifie que cette bande recouvre la vraie ligne avec une probabilite 1 . Elle est plus grande quecelle associee aux intervalles de confiance des E(Y ).

    Attention : la prediction par intervalle nest justifiee que pour des observations appartenant a` la popu-lation echantillonnee et a` condition que les hypothe`ses : linearite, erreurs i.i.d., (normalite), soient valides.Eviter les extrapolations.

    4 Nuage de points, transformationsToute tentative de modelisation necessite une etude descriptive prealable afin de sassurer, au moins

    graphiquement, de la validite des hypothe`ses considerees. Ceci passei. par une etude uni-variee de chaque distribution pour detecter des dissymetries ou encore des valeurs

    atypiques (outliers) : botes a` moustaches, histogrammes, estimation non-parametrique de la densite,ii. puis par une representation du nuage de points dans le repe`re (X,Y ) et une regression non-parametrique

    afin de deceler une eventuelle liaison non-lineaire entre les variables. Attention, meme si elle est forte,une liaison non-lineaire, par exemple de type quadratique entre X et Y , peut conduire neanmoins aun coefficient de correlation lineaire tre`s faible.

    Dans les deux cas, en cas de proble`mes, le reme`de consiste souvent a` rechercher des transformationsdes variables permettant de rendre les distributions symetriques, de banaliser les points atypiques et derendre lineaire la relation. La qualite de lestimation dune distribution par un histogramme depend beau-coup du decoupage en classe. Malheureusement, plutot que de fournir des classes deffectifs egaux et doncde mieux repartir limprecision, les logiciels utilisent des classes damplitudes egales et tracent donc deshistogrammes parfois peu representatifs. Ces 20 dernie`res annees, a` la suite du developpement des moyensde calcul, sont apparues des methodes destimation dites fonctionnelles ou non-parametriques qui proposentdestimer la distribution dune variable ou la relation entre deux variables par une fonction construite pointpar point (noyaux) ou dans une base de fonctions splines. Ces estimations sont simples a` calculer (pourlordinateur) mais necessitent le choix dun parame`tre dit de lissage. Les demonstrations du caracte`re op-timal de ces estimations fonctionnelles, liee a` loptimalite du choix de la valeur du parame`tre de lissage,font appel a` des outils theoriques plus sophistiquees sortant du cadre de ce cours (Eubank 1988, Silverman1986).

    Nous resumons ci-dessous les techniques non-parametriques, simples et efficaces dans ce genre desituation, trop rarement enseignees dans un cours de statistique descriptive, mais deja` presentes dans certainslogiciels (SAS/INSIGHT).4.1 Estimation de la densite

    Lestimation de la densite par la methode du noyau se met sous la forme generale :

    g(x) =1n

    ni=1

    K

    (x xi

    )ou` est le parame`tre de lissage optimisee par une procedure automatique qui minimise une approximationde lerreur quadratique moyenne integree (MISE : norme dans lespace L2) ;K est une fonction symetrique,positive, concave, appelee noyau dont la forme precise importe peu. Cest souvent la fonction densite de laloi gaussienne :

    K(t) =12pi

    exp(t2/2)qui posse`de de bonnes proprietes de regularite. Le principe consiste simplement a` associer a` chaque obser-vation un element de densite de la forme du noyau K et a` sommer tous ces elements. Un histogrammeest une version particulie`re destimation dans laquelle lelement de densite est un petit rectangle dansla classe de lobservation.

    4.2 Regression non-parametriqueOn conside`re un mode`le de regression de la forme

    yi = f(xi) + i

  • 5. Influence 13

    ou` les erreurs sont centrees et la fonction f est supposee regulie`re : existence de derivees jusqua` un certainordre. Dans ce contexte, de nombreux estimateurs de f ont ete proposes. Ils conduisent souvent a` desresultats assez voisins, le point le plus sensible etant le choix de .

    Spline

    Le lissage spline elementaire consiste a` rechercher, dans lespace des fonctions continument differentiableset avec une derivee seconde de carre integrable, le minimum dun crite`re combinant ajustement des obser-vations et regularite de la solution :

    f = argminf

    1n

    ni=1

    (yi f(xi))2 + +

    (f (x))2dx.

    On montre que lon obtient une fonction polynomiale (de degre 3) par morceaux. La valeur optimale duparame`tre de lissage est fixee par validation croisee generalisee (GCV).Noyau

    La regression non-parametrique par la methode du noyau consiste a` calculer une moyenne pondereeautour de chaque observation. La ponderation est fixee par une fonction K du meme type que celle utiliseepour lestimation de la densite.

    f(x) =ni=1

    K(xxi

    )xin

    j=1K(xxj

    ) .Loess

    Lestimateur precedent est susceptible de biais meme dans le cas simple de points alignes. Une adapta-tion propose de calculer, plutot quune moyenne locale ponderee, une regression lineaire ou meme quadra-tique locale. On parle alors de lisseur polynomial local.

    transformationsDans le cas ou` des proble`mes (distribution, non-linearite) ont ete identifies, letape suivante consiste

    a` rechercher des transformations elementaires (logarithme, puissance) des variables susceptibles de lesresoudre. Ceci ame`ne a` etudier les mode`les des exemples suivants :

    Y = 0 + 1 lnXlnY = 0 + 1X ou Y = abX avec 0 = ln a et 1 = ln blnY = 0 + 1 lnX ou Y = aX1 avec 0 = ln aY = 0 + 1(1/X)Y = 0 + 1X1/2

    Y = 0 + 1X2 ou, plus generalement,Y = 0 + 1X

    . . .

    5 InfluenceLe crite`re des moindres carres, comme la vraisemblance appliquee a` une distribution gaussienne dou-

    teuse, est tre`s sensible a` des observations atypiques, hors norme (outliers) cest-a`-dire qui presentent desvaleurs trop singulie`res. Letude descriptive initiale permet sans doute deja` den reperer mais cest insuffi-sant. Un diagnostic doit etre etabli dans le cadre specifique du mode`le recherche afin didentifier les obser-vations influentes cest-a`-dire celles dont une faible variation du couple (xi, yi) induisent une modificationimportante des caracteristiques du mode`le.

    Ces observations reperees, il ny a pas de reme`de universel : supprimer un valeur aberrante, corriger uneerreur de mesure, construire une estimation robuste (en norme L1), ne rien faire. . . , cela depend du contexteet doit etre negocie avec le commanditaire de letude.

  • 14 Chapitre 1. Regression lineaire simple

    5.1 Effet levierUne premie`re indication est donnee par leloignement de xi par rapport a` la moyenne x. En effet,

    ecrivons les predicteurs yi comme combinaisons lineaires des observations (cf. exo 3) :

    yi = b0 + b1xi =n

    j=1

    hijyj avec hij =1n+

    (xi x)(xj x)nj=1(xj x)2

    ;

    en notant H la matrice (hat matrix) des hij ceci sexprime encore matriciellement :

    y = Hy.

    Les elements diagonaux hii de cette matrice mesurent ainsi limpact ou limportance du role que joue yidans lestimation de yi.

    5.2 ResidusDifferents types de residus sont definis afin daffiner leurs proprietes.

    Residus : ei = yi yiResidusi : e(i)i = yi y(i)i = ei1hii

    ou` y(i)i est la prevision de yi calculee sans la ie`me observation (xi, yi). On note

    PRESS =ni=1

    e2(i)i (predicted residual sum of squares)

    la somme des carres de ces residus.Residus standardises : Meme si lhypothe`se dhomoscedasticite est verifiee, ceux-ci nont pas la meme

    variance : E(ei) = 0 et Var(ei) = 2u(1 hii). Il est donc dusage den calculer des versionsstandardisees afin de les rendre comparables :

    ri =ei

    s1 hii

    .

    Residus studentises : La standardisation (interne) depend de ei dans le calcul de s estimation de Var(ei).Une estimation non biaisee de cette variance est basee sur

    s2(i) =[(n 2)s2 e

    2i

    1 hii

    ]/(n 3)

    qui ne tient pas compte de la ie`me observation. On definit alors les residus studentises par :

    ti =ei

    s(i)1 hii

    .

    Sous hypothe`se de normalite, on montre que ces residus suivent une loi de Student a` (n 3) degresde liberte.

    Il est ainsi possible de construire un test afin tester la presence dune observation atypique ou de plusieursen utilisant linegalite de Bonferroni. Plus concre`tement, en pratique, les residus studentises sont comparesaux bornes 2.5.3 Diagnostics

    Les deux crite`res precedents contribuent a` deceler des observations potentie`lement influentes par leureloignement a` x ou la taille des residus. Ces informations sont synthetisees dans des crite`res evaluantdirectement linfluence dune observation sur certains parame`tres : les predictions yi, les parame`tres b0, b1,le determinant de la matrice de covariance des estimateurs. Tous ces indicateurs proposent de comparer unparame`tre estime sans la ie`me observation et ce meme parame`tre estime avec toutes les observations.

  • 6. Graphe des residus 15

    Le plus couramment utilise est la distance de Cook :

    Di =

    nj=1(y(i)j yj)2

    2s2=

    hii2(1 hii)r

    2i pour i = 1, . . . , n

    qui mesure donc linfluence dune observation sur lensemble des previsions en prenant en compte effetlevier et importance des residus.

    La strategie de detection consiste le plus souvent a` reperer les points atypiques en comparant les dis-tances de Cook avec la valeur 1 puis a` expliquer cette influence en considerant, pour ces observations, leurresidu ainsi que leur effet levier.

    6 Graphe des residusLe nuage des points (xi, yi) assorti dun lissage permet de detecter une eventuelle relation non-lineaire

    entre les variables. Dautres hypothe`ses doivent etre validees : lhomoscedasticite par un graphique des residus studentises ou non : (xi, ti) afin de reperer des formes

    suspectes de ce nuage qui devrait se repartir uniformement de part et dautre de laxe des abscisses, eventuellement la normalite des residus en etudiant leur distribution, lautocorrelation des residus dans le cas, par exemple, ou` la variable explicative est le temps.

    Une transformation des variables ou une modelisation specifique a` une serie chronologique (SARIMA)permet, dans les situations favorables, de resoudre les difficultes evoquees.

    7 ExemplePour 47 immeubles dappartements locatifs dune grande ville americaine, les donnees (Jobson, 1991)

    fournissent le revenu net en fonction du nombre dappartements. Les tableaux ci-dessous sont desextraits des resultats fournis par la procedure reg du module SAS/STAT. Cette procedure gene`re beaucoupdautres resultats comme les matrices XX (crossproducts), XDX (model crossproducts) et son inverse,matrices des variances et correlations des estimateurs.

    proc reg data=sasuser.suitinco all;model revenu=nbappart /dw Influence cli clm;output out=hubout h=lev p=pred r=res student=resstu ;run;

    Descriptive StatisticsVariables Sum Mean Uncorrected SS Variance Std DeviationINTERCEP 47 1 47 0 0NBAPPART 1942 41.319148936 157970 1689.7437558 41.106492866REVENU 4336086 92257.148936 947699637616 11905754472 109113.49354Correlation : 0.8856

    Analysis of VarianceSum of Mean

    Source DF Squares Square F Value Prob>F(1)

    Model 1 429511948724 (2) 429511948724 (5) 163.585 (7) 0.0001 (8)Error 45 118152756990 (3) 2625616822 (6)C Total 46 547664705714 (4)

    Root MSE 51240.77304 (9) R-square 0.7843 (12)Dep Mean 92257.14894 (10) Adj R-sq 0.7795C.V. 55.54125 (11)

  • 16 Chapitre 1. Regression lineaire simple

    (1) degres de liberte de la loi de Fisher du test global (H0 : 1 = 0)(2) SSR(3) SSE ou deviance(4) SST=SSE+SSR(5) SSR/DF(6) s2 =MSE=SSE/DF est lestimation de 2u(7) Statistique F du test de Fisher du mode`le global(8) P (fp;np1 > F ) ; H0 est rejetee au niveau si P < (9) s =racine de MSE(10) moyenne empirique de la variable a` expliquee(11) Coefficient de variation 100 (9)/(10) sans echelle ni dimension(12) Coefficient de determination R2 ou carre du coefficient de correlation.

    Parameter EstimatesParameter Standard T for H0:

    Variable DF Estimate Error Parameter=0 Prob > |T|(1) (2) (3) (4)

    INTERCEP 1 -4872.015285 10655.276212 -0.457 0.6497NBAPPART 1 2350.705828 183.79188506 12.790 0.0001

    (1) estimations des parame`tres (bj)(2) ecarts-types de ces estimations (sbj )(3) statistique T du test de Student de H0 : bj = 0 ((bj 0)/sbj )(4) P (tnp1 > T ) ; H0 est rejetee au niveau si P <

    Connaissant les fractiles de la loi de Student : t0,975;45 = 2, 015, on construit facilement des intervallesde confiance des estimateurs, ici au niveau 5% : [bj t0,975;n2sbj ; bj + t0,975;n2sbj ].

    Dep Var Predict Std Err Lower95 Upper95 Lower95 Upper95 Std Err StudentObs REVENU Value Predict Mean Mean Predict Predict Resid. Resid. Resid.

    (1) (2) (3) (4) (5) (6) (7) (8) (9) (10)1 119202 131469 8078.5 115198 147740 26989.9 235948 -12266.9 50599.9 -0.242...

    23 345608 239601 13732. 211943 267260 132755 346448 106007 49366.3 2.14724 350633 324227 19616. 284717 363736 213718 434735 26406.2 47337.2 0.55825 226375 98559. 7490.4 83472. 113646 -5742.0 202860 127816 50690.3 2.52226 247203 178483 10065. 158210 198756 73306.5 283660 68720.0 50242.4 1.36827 28519. 157327 9041.4 139116 175537 52528.2 262125 -128808 50436.7 -2.5528 154278 347734 21327. 304779 390689 235947 459521 -193456 46591.4 -4.1529 157332 140872 8385.2 123983 157760 36294.8 245449 16460.3 50550.0 0.32630 171305 197289 11104. 174924 219653 91689.0 302888 -25983.7 50023.1 -0.52...

    Cooks Hat Diag Cov INTERCEP NBAPPARTObs -2-1-0 1 2 D Rstudent H Ratio Dffits Dfbetas Dfbetas

    (11) (12) (13) (14) (15) (15) (15) (15)1 | | | 0.001 -0.2399 0.0249 1.0698 -0.0383 -0.0145 -0.0145

    ...

    23 | |**** | 0.178 2.2413 0.0718 0.9078 0.6235 -0.1347 0.523024 | |* | 0.027 0.5535 0.1466 1.2087 0.2294 -0.0898 0.212125 | |***** | 0.069 2.6906 0.0214 0.7881 0.3976 0.2597 0.026226 | |** | 0.038 1.3815 0.0386 0.9994 0.2768 0.0120 0.185427 | *****| | 0.105 -2.7310 0.0311 0.7893 -0.4896 -0.0876 -0.275528 |******| | 1.806 -5.2275 0.1732 0.4814 -2.3929 1.0090 -2.241129 | | | 0.001 0.3224 0.0268 1.0697 0.0535 0.0162 0.024230 | *| | 0.007 -0.5152 0.0470 1.0844 -0.1144 0.0063 -0.0846...

  • 8. Exercices 17

    FIG. 1.1 Graphe des residus et nuage de points de la regression du revenu en fonction du nombre dap-partements.

    (1) variable a` expliquer yi(2) valeur ajustee yi(3) ecart-type de cette estimationsyi(4)et (5) Intervalle de confiance pour lestimation de E(yi)(6) et (7) Intervalle de confiance pour lestimation de yi(8) residus calcules ei = yi yi(9) ecarts-types de ces estimations(10) residus standardises (ou studentises internes) ri(11) reperage graphique des residus standardises : = 0.5.(12) Distance de Cook(13) residus studentises (externes) ti(14) Termes diagonaux de la matrice chapeau H(15) autres indicateurs dinfluence

    Les observations 28 et 16 seraient a` inspecter avec attention. Certaines, dont la 28, presentent une valeurobservee hors de lintervalle de prediction.

    Le graphique des residus sont presentes dans la figure 1.1. Il montre clairement que lhypothe`se dho-moscedasticite nest pas satisfaite. Une autre modelisation faisant intervenir une transformation des va-riables serait necessaire. Ainsi la modelisation du logarithme du revenu en fonction du logarithme dunombre dappartements representee par la figure 1.2 est nettement plus satisfaisante. Une etude descrip-tive prealable des distributions aurait permis de conduire a` ce choix.

    8 ExercicesExo 1

    Optimiser les moindres carres de la section 2 pour retrouver les estimations des parame`tres du mode`lede regression simple.

    Exo 2Avec les notations precedentes relatives a` la regression lineaire simple de Y sur X a` partir des observa-

    tions (xi, yi), montrer que

    i. le coefficient de correlation r2 =SSR/SST,

    ii. SST = SSE + SSR,

  • 18 Chapitre 1. Regression lineaire simple

    FIG. 1.2 Graphe des residus et nuage de points de la regression (lineaire et non parametrique) du loga-rithme du revenu en fonction du logarithme du nombre dappartements.

    iii. s2 = n1n2s2y(1 r2).

    Exo 3on conside`re la regression lineaire simple de Y sur X a` partir des observations (xi, yi).i. Montrer que yi se met sous la forme

    yi =n

    j=1

    hijyj avec hij =1n+

    (xi x)(xj x)ni=1(xi x)2

    .

    ii. PosonsX = [1x] la matrice (n2) contenant une colonne de 1 et le vecteur colonne des xi. CalculerXX, (XX)1 et la matrice H de projection orthogonale dans IRn sur le sous-espace engendre parles colonnes de X.

    iii. Calculer le terme general de cette matrice H, en deduire que le vecteur y est obtenu par projectionpar H de y.

    iv. Calculer la covariance des yi.

    Exo 4Dans le cadre de la regression simple, on conside`re les quantites x, y, s2x, s2y, sxy ainsi que celles x(i), y(i), s2x(i), s2y(i), sxy(i),

    calculees sans la ie`me observation.i. Montrer que

    s2x =n 2n 1s

    2x(i) +

    1n(x(i) xi)2

    sxy =n 2n 1sxy(i) +

    1n(x(i) xi)(y(i) yi).

    ii. En deduire les expressions de sxy(i) et s2x(i) en fonction de x, y, s2x, s2y, sxy .

  • Chapitre 2

    Regression lineaire multiple

    Le mode`le de regression lineaire multiple est loutil statistique le plus habituellement mis en uvre pourletude de donnees multidimensionnelles. Cas particulier de mode`le lineaire, il constitue la generalisationnaturelle de la regression simple.

    1 Mode`leUne variable quantitative Y dite a` expliquer (ou encore, reponse, exoge`ne, dependante) est mise en

    relation avec p variables quantitatives X1, . . . , Xp dites explicatives (ou encore de controle, endoge`nes,independantes, regresseurs).

    Les donnees sont supposees provenir de lobservation dun echantillon statistique de taille n (n > p+1)de IR(p+1) :

    (x1i , . . . , xji , . . . , x

    pi , yi) i = 1, . . . , n.

    Lecriture du mode`le lineaire dans cette situation conduit a` supposer que lesperance de Y appartientau sous-espace de IRn engendre par {1, X1, . . . , Xp} ou` 1 designe le vecteur de IRn constitue de 1 .Cest-a`-dire que les (p+ 1) variables aleatoires verifient :

    yi = 0 + 1x1i + 2x2i + + pxpi + ui i = 1, 2, . . . , n

    avec les hypothe`ses suivantes :i. Les ui sont des termes derreur, dune variable U , non observes, independants et identiquement dis-

    tribues ; E(ui) = 0, V ar(U) = 2uI.ii. Les termes xj sont supposes deterministes (facteurs controles) ou bien lerreur U est independante

    de la distribution conjointe de X1, . . . , Xp. On ecrit dans ce dernier cas que :E(Y |X1, . . . , Xp) = 0 + 1X1 + 2X2 + + pXp et V ar(Y |X1, . . . , Xp) = 2u.

    iii. Les parame`tres inconnus 0, . . . , p sont supposes constants.iv. En option, pour letude specifique des lois des estimateurs, une quatrie`me hypothe`se conside`re la

    normalite de la variable derreur U (N (0, 2uI)). Les ui sont alors i.i.d. de loi N (0, 2u).Les donnees sont rangees dans une matrice X(n (p + 1)) de terme general xji , dont la premie`re

    colonne contient le vecteur 1 (xi0 = 1), et dans un vecteur Y de terme general yi. En notant les vecteursu = [u1 up] et = [01 p], le mode`le secrit matriciellement :

    y = X + u.

    2 EstimationConditionnellement a` la connaissance des valeurs des Xj , les parame`tres inconnus du mode`le : le vec-

    teur et 2u (parame`tre de nuisance), sont estimes par minimisation du crite`re des moindres carres (M.C.)

    19

  • 20 Chapitre 2. Regression lineaire multiple

    ou encore, en supposant (iv), par maximisation de la vraisemblance (M.V.). Les estimateurs ont alors lesmemes expressions, lhypothe`se de normalite et lutilisation de la vraisemblance conferant a` ces derniersdes proprietes complementaires.

    2.1 Estimation par M.C.Lexpression a` minimiser sur IRp+1 secrit :

    ni=1

    (yi 0 1x1i 2x2i pxpi )2 = y X2

    = (y X)(y X)= yy 2Xy + XX.

    Par derivation matricielle de la dernie`re equation on obtient les equations normales :

    Xy XX = 0dont la solution correspond bien a` un minimum car la matrice hessienne 2XX est semi definie-positive.

    Nous faisons lhypothe`se supplementaire que la matrice XX est inversible, cest-a`-dire que la matriceX est de rang (p + 1) et donc quil nexiste pas de colinearite entre ses colonnes. En pratique, si cettehypothe`se nest pas verifiee, il suffit de supprimer des colonnes de X et donc des variables du mode`le. Desdiagnostics de colinearite et des aides au choix des variables seront explicites plus loin.

    Alors, lestimation des parame`tres j est donnee par :

    b = (XX)1Xy

    et les valeurs ajustees (ou estimees, predites) de y ont pour expression :y = Xb = X(XX)1Xy = Hy

    ou` H = X(XX)1X est appelee hat matrix ; elle met un chapeau a` y. Geometriquement, cest lamatrice de projection orthogonale dans IRn sur le sous-espace Vect(X) engendre par les vecteurs colonnesde X.

    On notee = y y = y Xb = (IH)y

    le vecteur des residus ; cest la projection de y sur le sous-espace orthogonal de Vect(X) dans IRn.2.2 Proprietes

    Les estimateurs des M.C. b0, b1, . . . , bp sont des estimateurs sans biais : E(b) = , et, parmi les estima-teurs sans biais fonctions lineaires des yi, ils sont de variance minimum (propriete de Gauss-Markov) ; ilssont donc BLUE : best linear unbiaised estimators. Sous hypothe`se de normalite, les estimateurs du M.V.,qui concident avec ceux des moindres carres, sont uniformement meilleurs ; ils sont efficaces cest-a`-direque leur matrice de covariance atteint la borne inferieure de Cramer-Rao.

    On montre que la matrice de covariance des estimateurs se met sous la forme

    E[(b )(b )] = 2u(XX)1,celle des predicteurs est

    E[(y X)(y X)] = 2uHet celle des estimateurs des residus est

    E[(e u)((e u))] = 2u(IH)tandis quun estimateur sans biais de 2u est fourni par :

    s2 =e2

    n p 1 =y X2n p 1 =

    SSEn p 1 .

    Ainsi, les termes s2hii sont des estimations des variances des predicteurs yi.

  • 3. Inferences dans le cas gaussien 21

    2.3 Sommes des carresSSE est la somme des carres des residus (sum of squared errors),

    SSE = y y2 = e2 .

    On definit egalement la somme totale des carres (total sum of squares) parSST = y y12 = yy ny2

    et la somme des carres de la regression (regression sum of squares) parSSR = y y12 = yy ny2 = yHy ny2 = bXy ny2.

    On verifie alors : SST = SSR + SSE.

    2.4 Coefficient de determinationOn appelle coefficient de determination le rapport

    R2 =SSRSST

    qui est donc la part de variation de Y expliquee par le mode`le de regression. Geometriquement, cest unrapport de carres de longueur de deux vecteurs. Cest donc le cosinus carre de langle entre ces vecteurs : yet sa projection y sur Vect(X).

    Attention, dans le cas extreme ou` n = (p + 1), cest-a`-dire si le nombre de variables explicatives estgrand comparativement au nombre dobservations, R2 = 1. Ou encore, il est geometriquement facile devoir que lajout de variables explicatives ne peut que faire crotre le coefficient de determination.

    La quantite R est appelee coefficient de correlation multiple entre Y et les variables explicatives, cestle coefficient de correlation usuel entre y et sa prediction (ou projection) y.

    3 Inferences dans le cas gaussienEn principe, lhypothe`se optionnelle (iv) de normalite des erreurs est necessaire pour cette section. En

    pratique, des resultats asymptotiques, donc valides pour de grands echantillons, ainsi que des etudes desimulation, montrent que cette hypothe`se nest pas celle dont la violation est la plus penalisante pour lafiabilite des mode`les.

    3.1 Inference sur les coefficientsPour chaque coefficient j on montre que la statistique

    bj jbj

    ou` 2bj , variance de bj est le jie`me terme diagonal de la matrice s2(XX)1, suit une loi de Student a`

    (n p 1) degres de liberte. Cette statistique est donc utilisee pour tester une hypothe`se H0 : j = a oupour construire un intervalle de confiance de niveau 100(1 )% :

    bj t/2;(np1)bj .

    Attention, cette statistique concerne un coefficient et ne permet pas dinferer conjointement (cf. 3.4)sur dautres coefficients car ils sont correles entre eux ; de plus elle depend des absences ou presences desautres variables Xk dans le mode`le. Par exemple, dans le cas particulier de deux variables X1 et X2 tre`scorrelees, chaque variable, en labsence de lautre, peut apparatre avec un coefficient significativementdifferent de 0 ; mais, si les deux sont presentes dans le mode`le, elles peuvent chacune apparatre avec descoefficients insignifiants.

  • 22 Chapitre 2. Regression lineaire multiple

    De facon plus generale, si c designe un vecteur non nul de (p + 1) constantes reelles, il est possiblede tester la valeur dune combinaison lineaire cb des parame`tres en considerant lhypothe`se nulle H0 :cb = a ; a connu. Sous H0, la statistique

    cb a(s2c(XX)1c)1/2

    suit une loi de Student a` (n p 1) degres de liberte.3.2 Inference sur le mode`le

    Le mode`le peut etre teste globalement. Sous lhypothe`se nulle H0 : 1 = 2 = . . . = p = 0, lastatistique

    SSR/pSSE/(n p 1) =

    MSRMSE

    suit une loi de Fisher avec p et (n p 1) degres de liberte. Les resultats sont habituellement presentesdans un tableau danalyse de la variance sous la forme suivante :

    Source devariation d.d.l.

    Sommedescarres

    Variance F

    Regression p SSR MSR=SSR/p MSR/MSEErreur n p 1 SSE MSE=SSE/(n p 1)Total n 1 SST

    3.3 Inference sur un mode`le reduitLe test precedent ame`ne a` rejeter H0 de`s que lune des variables Xj est liee a` Y . Il est donc dun interet

    limite. Il est souvent plus utile de tester un mode`le reduit cest-a`-dire dans lequel certains coefficientssont nuls (a` lexception du terme constant) contre le mode`le complet avec toutes les variables. En ayanteventuellement reordonne les variables, on conside`re lhypothe`se nulle H0 : 1 = 2 = . . . = q =0, q < p.

    Notons respectivement SSRq, SSEq, R2q les sommes de carres et le coefficient de determination dumode`le reduit a` (p q) variables. Sous H0, la statistique

    (SSR SSRq)/qSSE/(n p 1) =

    (R2 R2q)/q(1R2)/(n p 1)

    suit une loi de Fisher a` q et (n p 1) degres de liberte.Dans le cas particulier ou` q = 1 (j = 0), la F -statistique est alors le carre de la t-statistique de

    linference sur un parame`tre et conduit donc au meme test.

    3.4 Ellipsode de confianceLes estimateurs des coefficients j etant correles, la recherche dune region de confiance de niveau

    100(1 )% pour tous les coefficients conduit a` considerer lellipsode decrit par(b )XX(b ) (p+ 1)s2F;p+1,(np1).

    Plus generalement, un ellipsode de confiance conjoint a` q combinaisons lineaires T est donne par(TbT)[T(XX)1T]1(TbT) qs2F;q,(np1)

    ou` T(q (p+ 1)) est une matrice de rang q de constantes fixees.En application, etant donnes une matrice T et un vecteur a, un test de lhypothe`se H0 : T = a est

    obtenu en considerant la statistique

    (Tb a)[T(XX)1T]1(Tb a)/qs2

    qui suit sous H0 une loi de Fisher a` q et (n p 1) degres de liberte.

  • 4. Selection de variables, choix de mode`le 23

    3.5 PrevisionConnaissant les valeurs des variables Xj pour une nouvelle observation : x0 = [x10, x20, . . . , x

    p0] appar-

    tenant au domaine dans lequel lhypothe`se de linearite reste valide, une prevision, notee y0 de Y ou E(Y )est donnee par :

    y0 = b0 + b1x10 + + bpxp0.Les intervalles de confiance des previsions de Y et E(Y ), pour une valeur x0 IRp et en posant v0 =(1|bmx0) IRp+1, sont respectivement

    y0 t/2;(np1)s(1 + v0(XX)1v0)1/2,y0 t/2;(np1)s(v0(XX)1v0)1/2.

    Enfin, un intervalle de confiance de niveau 100(1)% recouvrant globalement la surface de regressionest donne par

    y0 [(p+ 1)F;(p+1),(np1)]1/2s(v0(XX)1v0)1/2.Il peut etre utilise pour definir un intervalle conjoint a` plusieurs predictions.

    4 Selection de variables, choix de mode`leDe facon un peu schematique, on peut associer la pratique de la modelisation statistique a` trois objectifs

    qui peuvent eventuellement etre poursuivis en complementarite.Descriptif : Il vise a` rechercher de facon exploratoire les liaisons entre Y et dautres variables, potentiel-

    lement explicatives, Xj qui peuvent etre nombreuses afin, par exemple den selectionner un sous-ensemble. `A cette strategie, a` laquelle peuvent contribuer des Analyses en Composantes Principales,correspond des algorithmes de recherche (pas a` pas) moins performants mais economiques en tempsde calcul si p est grand.Attention, si n est petit, et la recherche suffisamment longue avec beaucoup de variables explicatives,il sera toujours possible de trouver un bon mode`le expliquant y ; cest leffet data mining dans lesmode`les econometriques.

    Explicatif : Le deuxie`me objectif est sous-tendu par une connaissance a priori du domaine concerne etdont des resultats theoriques peuvent vouloir etre confirmes, infirmes ou precises par lestimationdes parame`tres. Dans ce cas, les resultats inferentiels precedents permettent de construire le bon testconduisant a` la prise de decision recherchee. Utilisees hors de ce contexte, les statistiques de testnont plus alors quune valeur indicative au meme titre que dautres crite`res plus empiriques.

    Predictif : Dans le troisie`me cas, laccent est mis sur la qualite des estimateurs et des predicteurs quidoivent, par exemple, minimiser une erreur quadratique moyenne. Ceci conduit a` rechercher desmode`les parcimonieux cest-a`-dire avec un nombre volontairement restreint de variables explicatives.Le meilleur mode`le ainsi obtenu peut donner des estimateurs lege`rement biaises au profit duncompromis pour une variance plus faible. Un bon mode`le nest donc plus celui qui explique le mieuxles donnees au sens dune deviance (SSE) minimale (ou dun R2 max) au prix dun nombre importantde variables pouvant introduire des colinearites. Le bon mode`le est celui qui conduit aux predictionsles plus fiables.

    4.1 Crite`resDe nombreux crite`res de choix de mode`le sont presentes dans la litterature sur la regression lineaire mul-

    tiple. Citons le crite`re dinformation dAkake (AIC), celui bayesien de Sawa (BIC), lerreur quadratiquemoyenne de prediction (cas gaussien). . . . Ils sont equivalents lorsque le nombre de variables a` selectionner,ou niveau du mode`le, est fixe. Le choix du crite`re est determinant lorsquil sagit de comparer des mode`lesde niveaux differents. Certains crite`res se rame`nent, dans le cas gaussien, a` lutilisation dune expressionpenalisee de la fonction de vraisemblance afin de favoriser des mode`les parcimonieux. En pratique, les plusutilises ou ceux generalement fournis par les logiciels sont les suivants.

  • 24 Chapitre 2. Regression lineaire multiple

    Statistique du F de Fisher

    Ce crite`re, justifie dans le cas explicatif est aussi utilise a` titre indicatif pour comparer des sequences demode`les embotes. La statistique partielle de Fisher est

    (SSR SSRq)/qSSE/(n p 1) =

    (R2 R2q)(1R2)

    n p 1q

    dans laquelle lindice q designe les expressions concernant le mode`le reduit avec (p q) variables explica-tives. On conside`re alors que si laccroissement (R2 R2q) est suffisamment grand :

    R2 R2q >q(1R2)(n p 1)F;q,(np1),

    lajout des q variables au mode`le est justifie.R2 et R2 ajuste

    Le coefficient de determination R2 = 1SSE/SST, directement lie a` la deviance (SSE) est aussi unindice de qualite mais qui a la propriete detre monotone croissant en fonction du nombre de variables. Ilne peut donc servir qua` comparer deux mode`les de meme niveau cest-a`-dire avec le meme nombre devariables.

    En revanche, le R2 ajuste :

    R2 = 1 n 1n p 1(1R

    2) = 1 SSE/(n p 1)SST/(n 1) .

    dans lequel le rapport SSE/SST est remplace par un rapport des estimations sans biais des quantites 2u et2y introduit une penalisation liee au nombre de parame`tres a` estimer.

    Ce coefficient sexprime encore par

    1 (n 1)MSESSTainsi dans la comparaison de deux mode`les partageant la meme SST, on observe que R2 > R2j si et seule-ment si MSE

  • 4. Selection de variables, choix de mode`le 25

    PRESS de Allen

    On designe par y(i) la prediction de yi calculee sans tenir compte de la ie`me observation (yi, x1i , . . . , xpi ),

    la somme des erreurs quadratiques de prediction (PRESS) est definie par

    PRESS =ni=1

    (yi y(i))2

    et permet de comparer les capacites predictives de deux mode`les.

    4.2 Algorithmes de selectionLorsque p est grand, il nest pas raisonnable de penser explorer les 2p mode`les possibles afin de

    selectionner le meilleur au sens de lun des crite`res ci-dessus. Differentes strategies sont donc proposeesqui doivent etre choisies en fonction de lobjectif recherche et des moyens de calcul disponibles ! Troistypes dalgorithmes sont resumes ci-dessous par ordre croissant de temps de calcul necessaire cest-a`-direpar nombre croissant de mode`les consideres parmi les 2p et donc par capacite croissante doptimalite. Ondonne pour chaque algorithme loption selection a` utiliser dans la procedure REG de SAS.

    Pas a` pas

    Selection (forward) `A chaque pas, une variable est ajoutee au mode`le. Cest celle dont la valeur p (probvalue)associee a` la statistique partielle du test de Fisher qui compare les deux mode`les est minimum.La procedure sarrete lorsque toutes les variables sont introduites ou lorsque p reste plus grandequune valeur seuil fixee par defaut a` 0, 50.

    Elimination (backward) Lalgorithme demarre cette fois du mode`le complet. `A chaque etape, la variableassociee a` la plus grande valeur p est eliminee du mode`le. La procedure sarrete lorsque les variablesrestant dans le mode`le ont des valeurs p plus petites quun seuil fixe par defaut a` 0, 10.

    Mixte (stepwise) Cet algorithme introduit une etape delimination de variable apre`s chaque etape deselection afin de retirer du mode`le deventuels variables qui seraient devenues moins indispensablesdu fait de la presence de celles nouvellement introduites.

    Par echange

    Maximisation de R2 (maxr) Cet algorithme tente de trouver le meilleur mode`le pour chaque niveau cest-a`-dire pour chaque nombre de variables explicatives. `A chaque niveau il commence par selectionnerune variable complementaire qui rend laccroissement de R2 maximum. Puis il regarde tous lesechanges possibles entre une variable presente dans le mode`le et une exterieure et execute celuiqui fournit laccroissement maximum ; ceci est itere tant que le R2 croit.

    Minimisation de R2 (minr) Il sagit du meme algorithme que le precedent sauf que la procedure dechangefait appel au couple de variables associe au plus petit accroissement du R2. Lobjectif est ainsi dex-plorer plus de mode`les que dans le cas precedent et donc, eventuellement, de tomber sur un meilleuroptimum.

    Remarque Pour tous ces algorithmes de selection ou dechange, il est important de completer les com-paraisons des differentes solutions retenues a` laide de crite`res globaux (Cp ou PRESS).Global

    Lalgorithme de Furnival et Wilson est utilise pour comparer tous les mode`les possibles en cherchant a`optimiser lun des crite`res : R2, R2 ajuste, ou Cp de Mallow (rsquare, adjrsq, cp) choisi par luti-lisateur. Par souci deconomie, cet algorithme evite de considerer des mode`les de certaines sous-branches delarborescence dont on peut savoir a priori quils ne sont pas competitifs. En general les logiciels executantcet algorithme affichent le (best=1) ou les meilleurs mode`les de chaque niveau.

  • 26 Chapitre 2. Regression lineaire multiple

    5 Multi-colineariteLestimation des parame`tres ainsi que celle de leur ecart-type (standard error) necessite le calcul expli-

    cite de la matrice (XX)1. Dans le cas dit mal conditionne ou` le determinant de la matrice XX nestque lege`rement different de 0, les resultats conduiront a` des estimateurs de variances importantes et meme,eventuellement, a` des proble`mes de precision numerique. Il sagit donc de diagnostiquer ces situationscritiques puis dy remedier. Dans les cas descriptif ou predictif on supprime des variables a` laide desprocedures de choix de mode`le mais, pour un objectif explicatif necessitant toutes les variables, dautressolutions doivent etre envisagees : algorithme de resolution des equations normales par transformationsorthogonales (procedure orthoreg de SAS) sans calcul explicite de linverse pour limiter les proble`mesnumeriques, regression biaisee (ridge), regression sur composantes principales.5.1 Diagnostics

    Notons X la matrice des donnees observees, cest-a`-dire X privee de la premie`re colonne 1 et donton a retranche a` chaque ligne le vecteur moyen x = 1/n

    ni=1 xi, S la matrice diagonale contenant les

    ecarts-types empiriques des variables Xj et enfin R la matrice des correlations :

    R =1

    (n 1)S1XXS1.

    Facteur dinflation de la variance (VIF)Avec ces notations, la matrice de covariance des estimateurs des coefficients (1, . . . , p) secrit :

    2un 1(X

    X)1 =2u

    n 1SR1S.

    On montre alors que chaque element diagonal sexprime comme

    Vj =1

    1R2jou` R2j designe le coefficient de determination de la regression de la variable Xj sur les autres variables ;Rj est alors un coefficient de correlation multiple, cest le cosinus de langle dans IRn entre Xj et le sous-espace vectoriel engendre par les variables {X1, . . . , Xj1, Xj+1, . . . , Xp}. Plus Xj est lineairementproche de ces variables et plus Rj est proche de 1 et donc plus la variance de lestimateur de j est elevee ;Vj est appele facteur dinflation de la variance (VIF). Evidemment, cette variance est minimum lorsque Xjest orthogonal au sous-espace engendre par les autres variables.

    Le simple examen de la matrice R permet de relever des correlations dangereuses de variables deux a`deux mais est insuffisant pour detecter des correlations plus complexes ou multi-colinearites. Cest donclinverse de cette matrice quil faut considerer en calculant les Vj ou encore les valeurs (1 R2j ) qui sontappelees tolerances.

    Conditionnement

    On note 1, . . . , p les valeurs propres de la matrice R rangees par ordre decroissant. Le determinantde R est egal au produit des valeurs propres. Ainsi, des proble`mes numeriques, ou de variances excessivesapparaissent de`s que les dernie`res valeurs propres sont relativement trop petites.

    On appelle indice de conditionnement le rapport

    = 1/p

    de la plus grande sur la plus petite valeur propre.En pratique, si < 100 on conside`re quil ny a pas de proble`me. Celui-ci devient seve`re pour >

    1000. Cet indice de conditionnement donne un apercu global des proble`mes de colinearite tandis que lesVIF, les tolerances ou encore letude des vecteurs propres associes au plus petites valeurs propres permettentdidentifier les variables les plus problematiques.

  • 5. Multi-colinearite 27

    Remarque : Lorsque le mode`le est calcule avec un terme constant, la colonne 1 joue le role dune variableet peut considerablement augmenter les proble`mes de multi-colinearite. La matrice R est alors remplaceepar la matrice T = diag(XX)1/2XXdiag(XX)1/2 dans les discussions precedentes.

    5.2 Regression ridgeAyant diagnostique un proble`me mal conditionne mais desirant conserver toutes les variables, il est

    possible dameliorer les proprietes numeriques et la variance des estimations en considerant un estimateurlege`rement biaise des parame`tres. Lestimateur ridge introduisant une regularisation est donne par

    bR = (XX+ kI)1Xy,

    qui a pour effet de decaler de la valeur k toutes les valeurs propres de la matrice a` inverser et, plus parti-culie`rement, les plus petites qui refle`tent la colinearite. On montre que lerreur quadratique moyenne surlestimation des parame`tres se met sous la forme :

    MSE(bR) = 2up

    j=1

    j(j + k)2

    + k2(XX+ kI)1.

    La difficulte est alors de trouver une valeur de k minimisant la quantite ci-dessus. Des methodes de re-echantillonnage (jackknife, bootstrap) peuvent etre mises en uvre mais celles-ci sont couteuses en tempsde calcul. Une valeur heuristique de k peut etre fixee en considerant le graphique des parame`tres en fonctionde k. Elle est choisie dans la zone ou` les valeurs absolues des parame`tres commencent a` se stabiliser.

    5.3 Regression sur composantes principalesLAnalyse en Composantes Principales est, entre autre, la recherche de p variables dites principales qui

    sont des combinaisons lineaires des variables initiales de variance maximale sous une contrainte dortho-gonalite. En designant par V la matrice des vecteurs propres de la matrice des correlations R ranges danslordre decroissant des valeurs propres, les valeurs prises par ces variables principales sont obtenues dansla matrice des composantes principales

    C = (X 1x)V.

    Elles ont chacune pour variance la valeur propre j associee. Le sous-espace engendre par ces variablesprincipales est le meme que celui engendre par les variables initiales. Il est donc geometriquement equivalentde regresser Y sur les colonnes deC que sur celles de X. Les proble`mes de colinearite sont alors resolus ensupprimant les variables principales de plus faibles variances cest-a`-dire associees aux plus petites valeurspropres.

    La solution obtenue presente ainsi de meilleures qualites predictives mais, les coefficients de la regressionsappliquant aux composantes principales, un calcul complementaire est necessaire afin devaluer et din-terpreter les effets de chacune des variables initiales.

    5.4 Mode`les curvilineairesEn cas dinvalidation de lhypothe`se de linearite, il peut etre interessant de considerer des mode`les

    polynomiaux, tre`s classiques pour decrire des phenome`nes physiques, de la forme

    Y = 0 + + jXj + + klXkX l + + jXj2

    qui sont encore appeles surfaces de reponse. Ces mode`les sont faciles a` etudier dans le cadre lineaire, ilsuffit dajouter des nouvelles variables constituees des produits ou des carres des variables explicativesinitiales. Les choix : presence ou non dune interaction entre deux variables, presence ou non dun termequadratique se traitent alors avec les memes outils que ceux des choix de variable mais en integrant unecontrainte lors de la lecture des resultats : ne pas considerer des mode`les incluant des termes quadratiquesdont les composants lineaires auraient ete exclus ou encore, ne pas supprimer dun mode`le une variabledun effet lineaire si elle intervient dans un terme quadratique.

  • 28 Chapitre 2. Regression lineaire multiple

    La procedure rsreg de SAS est plus particulie`rement adaptee aux mode`les quadratiques. Elle ne com-porte pas de procedure de choix de mode`le mais fournit des aides et diagnostics sur lajustement de lasurface ainsi que sur la recherche des points optimaux.

    Attention : Ce type de mode`le accrot considerablement les risques de colinearite, il est peu recommandede considerer des termes cubiques.

    6 Influence, residus, validationAvant toute tentative de modelisation complexe, il est imperatif davoir conduit des analyses uni et bi-

    variees afin didentifier des proble`mes sur les distributions de chacune des variables : dissymetrie, valeursatypiques (outliers) ou sur les liaisons des variables prises deux par deux : non-linearite. Ces preliminairesacquis, des aides ou diagnostics associes a` la regression lineaire multiple permettent de detecter des viola-tions dhypothe`ses (homoscedasticite, linearite) ou des points influents dans ce contexte multidimensionnel.6.1 Effet levier

    Comme toute methode quadratique, lestimation des parame`tres est tre`s sensible a` la presence de pointsextremes susceptibles de perturber gravement les resultats. `A partir de lequation de prediction : y = Hyon remarque quune observation i est influente si le terme correspondant hii de la diagonale deH est grand.

    On ecrit encore :

    H =11

    n+ X(XX)1X

    et

    hii =1n+ (xi x)(XX)1(xi x) = 1

    n+

    pj=1

    (vj(xi x)

    j

    )2

    ou` les j ,vj sont respectivement les valeurs et vecteurs propres de la matrice XX. Ainsi, plus une ob-servation est eloignee du barycentre, et ce dans la direction dun vecteur propre associe a` une petite valeurpropre, et plus cette observation a un effet levier important.

    6.2 ResidusNous designons comme precedemment par b(i), y(i), e(i), et

    s2(i) =e(i)e(i)n p 2

    les estimations realisees sans la ie`me observation. Les expressions

    e = (IH)y,r = diag[s2(1 hii)]1/2e,t = diag[s2(i)(1 hii)]1/2e

    definissent respectivement les residus calcules, les residus standardises (chacun divise par lestimation delecart-type) et les residus studentises dans lesquels lestimation de 2u ne fait pas intervenir la ie`me obser-vation.

    De trop grands residus sont aussi des signaux dalerte. Par exemple, un residu studentise de valeurabsolue plus grande que 2 peut reveler un proble`me.

    6.3 Mesures dinfluenceLeffet levier peut apparatre pour des observations dont les valeurs prises par les variables explicatives

    sont elevees (observation loin du barycentre x). De grands residus signalent plutot des valeurs atypiquesde la variable a` expliquer. Les deux diagnostics precedents sont combines dans des mesures synthetiques

  • 7. Exemple 29

    proposees par differents auteurs. Les plus utilisees sont

    Di =1

    s2(p+ 1)(y y(i))(y y(i)) =

    [hii

    1 hii

    ]r2i

    (p+ 1), (2.1)

    DFFITSi =1

    s(i)hii

    (yi y(i)i) =[

    hii1 hii

    ]1/2ti. (2.2)

    La premie`re, notee Cooks D conclut a` une influence de lobservation i lorsque la valeur de Di depasse 1.Dautres mesures moins frequemment utilisees sont proposees dans les logiciels. Certaines conside`rent

    les ecarts entre lestimation dun parame`tre bi et son estimation sans la ie`me observation, une autre lerapport des determinants des matrices de covariance des estimateurs des parame`tres calculees avec et sansla ie`me observation. . .

    6.4 Regression partielleUn mode`le de regression multiple est une technique lineaire. Il est raisonnable de sinterroger sur la

    pertinence du caracte`re lineaire de la contribution dune variable explicative a` lajustement du mode`le. Cecipeut etre realise en considerant une regression partielle.

    On calcule alors deux regressions : la regression de Y sur les variables X1, . . . , Xj1, Xj+1, . . . , Xp, dans laquelle la je`me variable est

    omise, soit ry(j) le vecteur des residus obtenus. La regression de Xj sur les variables X1, . . . , Xj1, Xj+1, . . . , Xp. Soit rx(j) le vecteur des residus

    obtenus.La comparaison des residus par un graphe (nuage de points ry(j) rx(j)) permet alors de representer lanature de la liaison entre Xj et Y conditionnellement aux autres variables explicatives du mode`le.

    6.5 GraphesDifferents graphiques permettent finalement de controler le bien fonde des hypothe`ses de linearite,

    dhomoscedasticite, eventuellement de normalite des residus. Le premier conside`re le nuage de points des residus studentises croises avec les valeurs predites. Les

    points doivent etre uniformement repartis entre les bornes 2 et +2 et ne pas presenter de formessuspectes.

    Le deuxie`me croise les valeurs observees de Y avec les valeurs predites. Il illustre le coefficient dedetermination R qui est aussi la correlation lineaire simple entre y et y. Les points doivent salignerautour de la premie`re bissectrice. Il peut etre complete par lintervalle de confiance des yi ou celui deleurs moyennes.

    La qualite, en terme de linearite, de lapport de chaque variable est etudiee par des regressions par-tielles. Chaque graphe de residus peut etre complete par une estimation fonctionnelle ou regressionnon-parametrique (loess, noyau, spline) afin den facilite la lecture.

    Le dernier trace la droite de Henri (Normal QQplot) des residus dont le caracte`re lineaire de larepresentation donne une idee de la normalite de la distribution.

    7 Exemple7.1 Les donnees

    Elles sont extraites de Jobson (1991) et decrivent les resultats comptables de 40 entreprises du RoyaumeUni.

  • 30 Chapitre 2. Regression lineaire multiple

    Descriptif des 13 variables (en anglais pour eviter des traductions erronees) :

    RETCAP Return on capital employedWCFTDT Ratio of working capital flow to total debtLOGSALE Log to base 10 of total salesLOGASST Log to base 10 of total assetsCURRAT Current ratioQUIKRAT Quick ratioNFATAST Ratio of net fixed assets to total assetsFATTOT Gross sixed assets to total assetsPAYOUT Payout ratioWCFTCL Ratio of working capital flow to total current liabilitiesGEARRAT Gearing ratio (debt-equity ratio)CAPINT Capital intensity (ratio of total sales to total assets)INVTAST Ratio of total inventories to total assets

    7.2 Resultat du mode`le completLa procedure SAS/REG est utilisee dans le programme suivant. La plupart des options sont actives afin

    de fournir la plupart des resultats meme si certains sont redondants ou peu utiles.

    options linesize=110 pagesize=30 nodate nonumber;title;proc reg data=sasuser.ukcomp1 all;model RETCAP = WCFTCL WCFTDT GEARRAT LOGSALE LOGASST

    NFATAST CAPINT FATTOT INVTAST PAYOUT QUIKRAT CURRAT/dw covb Influence cli clm tol vif collin R P;

    output out=resout h=lev p=pred r=res student=resstu ;run;

    Les resultats ne sont pas listes de facon exhaustive, les matrices et tableaux trop volumineux et peusignificatifs ont ete tronques.

    Descriptive StatisticsVariables Sum Mean Uncorrected SS Variance Std DeviationINTERCEP 40 1 40 0 0WCFTCL 10.29 0.25725 6.4339 0.0970973718 0.3116045118WCFTDT 9.04 0.226 4.9052 0.0733887179 0.2709035215...

    CURRAT 72.41 1.81025 279.0039 3.7929153205 1.9475408392RETCAP 5.71 0.14275 1.5233 0.0181589103 0.1347550009

    Uncorrected Sums of squares and CrossproductsUSSCP INTERCEP WCFTCL WCFTDT GEARRAT LOGSALE LOGASST NFATASTINTERCEP 40 10.29 9.04 12.2 173.7 174.81 13.46WCFTCL 10.29 6.4339 5.4926 1.5997 40.8722 46.2433 3.5523WCFTDT 9.04 5.4926 4.9052 1.3972 34.4091 39.8937 2.9568...

    CURRAT 72.41 35.222 33.248 16.3188 265.2051 314.449 20.4126RETCAP 5.71 2.0009 1.6226 1.5391 26.3636 25.379 1.6199

    CorrelationCORR WCFTCL WCFTDT GEARRAT LOGSALE LOGASST NFATAST CAPINTWCFTCL 1.0000 0.9620 -0.5520 -0.3100 0.1829 0.0383 -0.2376WCFTDT 0.9620 1.0000 -0.5611 -0.4533 0.0639 -0.0418 -0.2516GEARRAT -0.5520 -0.5611 1.0000 0.2502 0.0387 -0.0668 0.2532...

    CURRAT 0.7011 0.8205 -0.3309 -0.6406 -0.0460 -0.2698 -0.3530RETCAP 0.3249 0.2333 -0.1679 0.2948 0.1411 -0.2974 0.3096

  • 7. Exemple 31

    La matrice des correlations montre des valeurs elevees, on peut deja sattendre a` des proble`mes decolinearite.

    Model Crossproducts XX XY YYXX INTERCEP WCFTCL WCFTDT GEARRAT LOGSALE LOGASST NFATASTINTERCEP 40 10.29 9.04 12.2 173.7 174.81 13.46WCFTCL 10.29 6.4339 5.4926 1.5997 40.8722 46.2433 3.5523WCFTDT 9.04 5.4926 4.9052 1.3972 34.4091 39.8937 2.9568...

    XX Inverse, Parameter Estimates, and SSEINTERCEP WCFTCL WCFTDT GEARRAT LOGSALE LOGASST NFATAST

    INTERCEP 3.2385537 1.3028641 -1.570579 -0.05877 0.3001809 -0.826512 -0.238509WCFTCL 1.3028641 7.0714100 -9.955073 -0.54391 -0.007877 -0.292412 -0.233915WCFTDT -1.570579 -9.955073 15.968504 1.582975 0.0112826 0.3138925 0.149976...

    Analysis of VarianceSum of Mean

    Source DF Squares Square F Value Prob>F(1)

    Model 12 0.55868 (2) 0.04656 (5) 8.408 (7) 0.0001 (8)Error 27 0.14951 (3) 0.00554 (6)C Total 39 0.70820 (4)

    Root MSE 0.07441 (9) R-square 0.7889 (12)Dep Mean 0.14275 (10) Adj R-sq 0.6951 (13)C.V. 52.12940 (11)

    (1) degres de liberte de la loi de Fisher du test global(2) SSR(3) SSE ou deviance(4) SST=SSE+SSR(5) SSR/DF(6) s2 =MSE=SSE/DF est lestimation de 2u(7) Statistique F du test de Fisher du mode`le global(8) P (fp;np1 > F ) ; H0 est rejetee au niveau si P < (9) s =racine de MSE(10) moyenne empirique de la variable a` expliquee(11) Coefficient de variation 100 (9)/(10)(12) Coefficient de determination R2(13) Coefficient de determination ajuste R2

    Parameter EstimatesParameter Standard T for H0: Variance

    Variable DF Estimate Error Parameter=0 Prob>|T| Tolerance Inflation(1) (2) (3) (4) (5) (6)

    INTERCEP 1 0.188072 0.13391661 1.404 0.1716 . 0.00000000WCFTCL 1 0.215130 0.19788455 1.087 0.2866 0.03734409 26.77799793WCFTDT 1 0.305557 0.29736579 1.028 0.3133 0.02187972 45.70441500GEARRAT 1 -0.040436 0.07677092 -0.527 0.6027 0.45778579 2.18442778LOGSALE 1 0.118440 0.03611612 3.279 0.0029 0.10629382 9.40788501LOGASST 1 -0.076960 0.04517414 -1.704 0.0999 0.21200778 4.71680805NFATAST 1 -0.369977 0.13739742 -2.693 0.0120 0.20214372 4.94697537CAPINT 1 -0.014138 0.02338316 -0.605 0.5505 0.37587215 2.66047911FATTOT 1 -0.100986 0.08764238 -1.152 0.2593 0.23929677 4.17891139INVTAST 1 0.250562 0.18586858 1.348 0.1888 0.13770716 7.26178633PAYOUT 1 -0.018839 0.01769456 -1.065 0.2965 0.84271960 1.18663431QUIKRAT 1 0.176709 0.09162882 1.929 0.0644 0.00408524 244.78377222CURRAT 1 -0.223281 0.08773480 -2.545 0.0170 0.00486336 205.61923071

  • 32 Chapitre 2. Regression lineaire multiple

    (1) estimations des parame`tres (bj)(2) ecarts-types de ces estimations (sbj )(3) statistique T du test de Student de H0 : bj = 0(4) P (tnp1 > T ) ; H0 est rejetee au niveau si P < (5) 1R2(j)(6) VIF=1/(1R2(j))

    Ces resultats soulignent les proble`mes de colinearites. De grands VIF sont associes a` de grands ecart-types des estimations des parame`tres. Dautre part les nombreux tests de Student non significatifs renforcentlidee que trop de variables sont presentes dans le mode`le.

    Covariance of EstimatesCOVB INTERCEP WCFTCL WCFTDT GEARRAT LOGSALE LOGASST NFATASTINTERCEP 0.0179336 0.0072146 -0.008697 -0.000325 0.0016622 -0.004576 -0.001320WCFTCL 0.0072146 0.039158 -0.055126 -0.003011 -0.000043 -0.00161 -0.00129WCFTDT -0.008697 -0.055126 0.0884264 0.0087658 0.0000624 0.0017381 0.0008305...

    Collinearity DiagnosticsCondition

    Eigenvalue Index

    8.76623 1.000002.22300 1.985800.68583 3.575180.56330 3.944890.31680 5.260360.18140 6.951730.12716 8.302910.08451 10.184790.02761 17.820070.01338 25.597120.00730 34.663380.00223 62.636820.00125 83.83978

    Valeurs propres de XX et indice de conditionnement egal au rapport1/j . Les grandes valeurs (> 10) insistent

    encore sur le mauvais conditionnement de la matrice a` inverser.

    Dep Var Predict Std Err Lower95 Upper95 Lower95 Upper95 Std Err StudentObs RETCAP Value Predict Mean Mean Predict Predict Residual Residual Residual

    (1) (2) (3) (4) (5) (6) (7) (8) (9) (10)1 0.2600 0.2716 0.053 0.1625 0.3808 0.0839 0.4593 -0.0116 0.052 -0.2232 0.5700 0.3690 0.039 0.2882 0.4497 0.1962 0.5417 0.2010 0.063 3.1833 0.0900 0.00897 0.063 -0.1205 0.1385 -0.1912 0.2092 0.0810 0.039 2.0554 0.3200 0.2335 0.021 0.1903 0.2768 0.0748 0.3922 0.0865 0.071 1.2125 0.1700 0.1164 0.046 0.0215 0.2113 -0.0634 0.2961 0.0536 0.058 0.9206 0.2400 0.2542 0.033 0.1864 0.3219 0.0871 0.4212 -0.0142 0.067 -0.213...

    Cooks Hat Diag Cov INTERCEP WCFTCL WCFTDTObs -2-1-0 1 2 D Rstudent H Ratio Dffits Dfbetas Dfbetas Dfbetas

    (11) (12) (13) (14) (15) (15) (15) (15) (15)1 | | | 0.004 -0.2194 0.5109 3.2603 -0.2242 0.0299 0.0632 -0.09112 | |******| 0.302 3.9515 0.2795 0.0050 2.4611 0.9316 -0.3621 0.37053 | |**** | 0.832 2.1955 0.7192 0.6375 3.5134 0.5543 2.1916 -2.02414 | |** | 0.010 1.2228 0.0803 0.8585 0.3613 -0.0132 -0.0835 0.12075 | |* | 0.041 0.9175 0.3864 1.7591 0.7280 -0.0386 0.0906 0.00606 | | | 0.001 -0.2088 0.1969 1.9898 -0.1034 0.0189 -0.0203 0.024315 | ***| | 0.150 -1.9223 0.3666 0.4583 -1.4623 -0.2063 0.3056 -0.623116 | |*** | 3.471 1.6394 0.9469 8.5643 6.9237 -0.9398 0.2393 -0.232317 | | | 0.000 0.1401 0.1264 1.8514 0.0533 0.0223 0.0090 -0.011320 | ***| | 0.054 -1.9588 0.1677 0.3278 -0.8794 -0.0360 -0.3302 0.407621 | ****| | 4.970 -2.2389 0.9367 2.6093 -8.6143 -1.2162 0.1768 -0.1422

    ...

  • 7. Exemple 33

    (1) variable a` expliquer yi(2) valeur ajustee yi(3) ecart-type de cette estimationsyi(4)et (5) Intervalle de confiance pour lestimation de E(yi)(6) et (7) Intervalle de confiance pour lestimation de yi(8) residus calcules ei(9) ecarts-types de ces estimations(10) residus standardises (ou studentises internes) ri(11) reperage graphique des residus standardises : = 0.5.(12) Distance de Cook(13) residus studentises (externes) ti(14) Termes diagonaux de la matrice chapeau H(15) autres indicateurs dinfluence

    Seules les observations 16 et 21 seraient a` inspecter avec attention.

    Sum of Residuals 0Sum of Squared Residuals 0.1495 (SSE)Predicted Resid SS (Press) 1.0190 (PRESS)

    Selection du mode`leParmi les trois types dalgorithmes et les differents crite`res de choix, une des facons les plus efficaces

    consistent a` choisir les options du programme ci-dessous. Tous les mode`les (parmi les plus interessantsselon lalgorithme de Furnival et Wilson) sont consideres. Seul le meilleur pour chaque niveau, cest-a`-direpour chaque valeur p du nombre de variables explicatives sont donnes. Il est alors facile de choisir celuiminimisant lun des crite`res globaux (Cp ou BIC ou . . . ).options linesize=110 pagesize=30 nodate nonumber;title;proc reg data=sasuser.ukcomp2 ;model RETCAP = WCFTCL WCFTDT GEARRAT LOGSALE LOGASST

    NFATAST CAPINT FATTOT INVTAST PAYOUT QUIKRAT CURRAT/ selection=rsquare cp rsquare bic best=1;

    run;

    N = 40 Regression Models for Dependent Variable: RETCAPR-square Adjusted C(p) BIC Variables in Model

    In R-square1 0.1055 0.0819 78.3930 -163.26 WCFTCL2 0.3406 0.3050 50.3232 -173.72 WCFTDT QUIKRAT3 0.6154 0.5833 17.1815 -191.14 WCFTCL NFATAST CURRAT4 0.7207 0.6888 5.7146 -199.20 WCFTDT LOGSALE NFATAST CURRAT5 0.7317 0.6923 6.3047 -198.05 WCFTDT LOGSALE NFATAST QUIKRAT CURRAT6 0.7483 0.7025 6.1878 -197.25 WCFTDT LOGSALE NFATAST INVTAST QUIKRAT CURRAT7 0.7600 0.7075 6.6916 -195.77 WCFTDT LOGSALE LOGASST NFATAST FATTOT QUIKRAT CURRAT8 0.7692 0.7097 7.5072 -193.87 WCFTDT LOGSALE LOGASST NFATAST FATTOT INVTAST QUIKRAT CURRAT9 0.7760 0.7088 8.6415 -191.59 WCFTCL WCFTDT LOGSALE LOGASST NFATAST FATTOT INVTAST QUIKRAT

    CURRAT10 0.7830 0.7082 9.7448 -189.15 WCFTCL WCFTDT LOGSALE LOGASST NFATAST FATTOT INVTAST PAYOUT

    QUIKRAT CURRAT11 0.7867 0.7029 11.2774 -186.40 WCFTCL WCFTDT LOGSALE LOGASST NFATAST CAPINT FATTOT INVTAST

    PAYOUT QUIKRAT CURRAT12 0.7888 0.6950 13.0000 -183.51 WCFTCL WCFTDT GEARRAT LOGSALE LOGASST NFATAST CAPINT FATTOT

    INVTAST PAYOUT QUIKRAT CURRAT

    Dans cet example, Cp et BIC se comportent de la meme facon. Avec peu de variables, le mode`le esttrop biaise. Ils atteignent un minimum pour un mode`le a` 4 variables explicatives puis croissent de nouveauselon la premie`re bissectrice. La maximisation du R2 ajuste conduirait a` une solution beaucoup moinsparcimonieuse. On note par ailleurs que lalgorithme remplace WCFTCL par WCFTDT. Un algorithme parselection ne peut pas aboutir a` la solution optimale retenue.

  • 34 Chapitre 2. Regression lineaire multiple

    Resultats du mode`le reduitproc reg data=sasuser.ukcomp1 all;model RETCAP = WCFTDT NFATAST LOGSALE CURRAT

    /dw Influence cli clm tol vif collin r p ;output out=resout h=lev p=pred r=res student=resstu ;plot (student. r.)*p.;plot p.*retcap;run;

    Analysis of VarianceSum of Mean

    Source DF Squares Square F Value Prob>FModel 4 0.51043 0.12761 22.583 0.0001Error 35 0.19777 0.00565C Total 39 0.70820

    Root MSE 0.07517 R-square 0.7207Dep Mean 0.14275 Adj R-sq 0.6888C.V. 52.65889

    Parameter EstimatesParameter Standard T for H0: Variance

    Variable DF Estimate Error Parameter=0 Prob > |T| Tolerance InflationINTERCEP 1 0.024204 0.07970848 0.304 0.7632 . 0.00000000WCFTDT 1 0.611885 0.08257125 7.410 0.0001 0.28956358 3.45347296NFATAST 1 -0.474448 0.07015433 -6.763 0.0001 0.79119995 1.26390301LOGSALE 1 0.060962 0.01606877 3.794 0.0006 0.54792736 1.82505944CURRAT 1 -0.068949 0.01321091 -5.219 0.0001 0.21887292 4.56886122

    Collinearity DiagnosticsCondition Var Prop Var Prop Var Prop Var Prop Var Prop

    Number Eigenvalue Index INTERCEP WCFTDT NFATAST LOGSALE CURRAT1 3.86169 1.00000 0.0014 0.0076 0.0098 0.0016 0.00522 0.87647 2.09904 0.0014 0.0608 0.0355 0.0046 0.04273 0.17128 4.74821 0.0206 0.1731 0.5177 0.0170 0.06674 0.07821 7.02670 0.0026 0.7201 0.4369 0.0388 0.54815 0.01235 17.68485 0.9741 0.0384 0.0000 0.9381 0.3373

    Cooks Hat Diag Cov INTERCEP WCFTDT NFATASTObs -2-1-0 1 2 D Rstudent H Ratio Dffits Dfbetas Dfbetas Dfbetas15 | ***| | 0.211 -1.9115 0.2372 0.9096 -1.0659 -0.0240 -0.8161 -0.307516 | |* | 1.554 0.9919 0.8876 8.9162 2.7871 0.0320 -0.0746 0.146917 | | | 0.001 0.3866 0.0460 1.1854 0.0849 0.0348 -0.0430 0.0256Sum of Residuals 0Sum of Squared Residuals 0.1978 (Par rapport au mode`le complet, la deviance augmentePredicted Resid SS (Press) 0.3529 mais PRESS diminue tre`s sensiblement)

    8 ExercicesExo 1

    Nous supposons verifiees les hypothe`ses relatives au mode`le de regression lineaire multiple pour lesobservations (yi, x1i , . . . , xni ) des variables statistiques Y,X1, . . . , Xp.

    i. Calculer les moments (esperance et variance) des estimateurs b, y et e de ,y et u. Calculer E(ee).ii. Montrer que

    (y Xb)(y Xb) = y(IH)y (2.3)yy = yHy (2.4)yy = yy + (y Xb)(y Xb). (2.5)

    En deduire que : SST=SSE+SSR.

  • 8. Exercices 35

    Exo 2Pour simplifier les calculs, on suppose dans cet exercice que les variables sont centrees (x = 0, y = 0)

    et on sinteresse a` la regression sans terme constant (0 = 0). On admettra le resultat suivant du calcul parbloc de linverse B dune matrice carree regulie`re A :

    B11 = [A11 A12A122 A21]1.

    i. Montrer que le coefficient de determination verifie : r2 = y2

    y2 .

    ii. Soit r1 le vecteur contenant les coefficients de correlation lineaire empirique entre X1 et chacunedes variables X2, . . . , Xp, R(1) la matrice des correlations des X2, . . . , Xp et R la matrice decorrelations de toutes les variables Xj . On note egalement r2(1) le coefficient de determination dela regression de la variable X1 sur les variables X2, . . . , Xp. Montrer que r2(1) = r1R

    1(1)r1.

    iii. En deduire que [R1]11 = 11r2(1) .

    iv. Commentaire pour les autres variables et lindicateur de colinearite.

    Exo 3On reprend les notations usuelles de la regression lineaire multiple et on designe par xn la dernie`re ligne

    de X et par X(n) la matrice (n 1) (p+ 1) privee de cette dernie`re ligne.i. Montrer que XX = X(n)X(n) + xnx

    n.

    ii. Soit A une matrice symetrique regulie`re et b, c deux vecteurs a` (p + 1) composantes. Montrer quelinverse de la matrice A+ bc est la matrice A1 A1bcA11+bA1c

    iii. Trouver lexpression de hnn dans la decomposition suivante :

    [X(n)X(n)]1 = (XX)1 +

    11 hnn (X

    X)1xnxn(XX)1.

    iv. Montrer que X(n)y(n) = Xy xnyn. Montrer ensuite que

    b(n) = b 11 hnn (XX)1xn(yn xnb).

    Discuter de limpact sur b de la suppression de lobservation n.v. Montrer que la distance de Cook

    Dn =1

    (p+ 1)s2(b(n) b)XX(b(n) b)

    se met sous la forme :Dn =

    hnn1 hnn

    e2n(p+ 1)s2(1 hnn) .

    Exo 4Lobjet de cet exercice est de construire un indicateur permettant de comparer des mode`les pour leurs

    qualites predictives. On conside`re un premier mode`le complet (avec toutes les variables) suppose vrai :y = X + u, E(y) = X Vect(X1, . . . ,Xp), rang(X) = p, u N (0, 2In). (2.6)

    Un deuxie`me mode`le est un sous-mode`le du precedent et donc lege`rement faux. La matrice Z de ce mode`leest supposee de plein rang (q + 1) < (p+ 1) et contient donc un sous-ensemble des colonnes de X. Ainsi,E(y) = X nappartient pas necessairement a` lespace vectoriel engendre par les colonnes de Z. On note0 les parame`tres les moins mauvais pour le 2e`me mode`le. Ils sont obtenus par la projection de X surVect(Z1, . . . ,Zq) :

    Z0 = Z(ZZ)1ZX.

    On note enfin a les parame`tres du 2e`me mode`le estimes par les moindres carres.

  • 36 Chapitre 2. Regression lineaire multiple

    i. Montrer que E(a) = 0.ii. On note y = Za la prevision de y par le 2e`me mode`le. Montrer que trace(Var(y))= 2(q + 1).

    iii. Soit Ep = Ey X2 lerreur quadratique moyenne de prediction pour le 2e`me mode`le. Montrerque

    Ep = X Z02 + 2(q + 1)qui se decompose donc en le carre du biais plus la variance.Suggestion : Calculer Ey Z0 + Z0 X2.

    iv. Soit SSEq = y y2 la somme des carres des residus du 2e`me mode`le. Montrer que

    E(SSEq) = X Z02 + 2(n q 1).

    Suggestion : Noter que y y = y y E(y y) + E(y y).v. Le proble`me est destimer Ep. On estime sans biais 2 par s2 = SSE/(n p 1). Montrer que

    Ep = SSEq (n 2q 2)s2

    est un estimateur sans biais de Ep cest-a`-dire que E(Ep) = Ep.vi. Le Cp de Mallows est une version standardisee de lerreur de prevision : Cp = SSEqs2 (n 2q 2).

    Dans lhypothe`se ou` le sous-mode`le est exact :X = Z0, montrer qualors le (Cp) est proche deq+1. On acceptera pour meilleur un mode`le biaise a` condition quil induise une baisse significativede la variance et ainsi de lerreur quadratique moyenne de prevision.

    vii. Dans lexemple ci-dessous, calculer le Cp de Mallows du sous-mode`le.modele pert = Tlumin lumin Txgn xgn Txy xy xa xb

    Model 8 1007.62105 125.95263 229.845 0.0001Error 180 98.63792 0.54799C Total 188 1106.25897

    modele pert = lumin Txgn xy xa xbModel 5 1007.11132 201.42226 371.772 0.0001Error 183 99.14764 0.54179C Total 188 1106.25897

  • Chapitre 3

    Analyses de variance et covariance

    1 IntroductionLes techniques dites danalyse de variance sont des outils entrant dans le cadre general du mode`le

    lineaire et ou` une variable quantitative est expliquee par une ou plusieurs variables qualitatives. Lobjec-tif essentiel est alors de comparer les moyennes empiriques de la variable quantitative observees pourdifferentes categories dunites statistiques. Ces categories sont definies par lobservation des variables qua-litatives ou facteurs prenant differentes modalites ou encore de variables quantitatives decoupees en classesou niveaux. Une combinaison de niveaux definit une cellule, groupe ou traitement.

    Il sagit donc de savoir si un facteur ou une combinaison de facteurs (interaction) a un effet sur la variablequantitative en vue, par exemple, de determiner des conditions optimales de production ou de fabrication,une dose optimale de medicaments. . . . Ces techniques apparaissent aussi comme des cas particuliers dela regression lineaire multiple en associant a` chaque modalite une variable indicatrice (dummy variable)et en cherchant a` expliquer une variable quantitative par ces variables indicatrices. Lappellation analysede variance vient de ce que les tests statistiques sont batis sur des comparaisons de sommes de carres devariations.

    Lanalyse de variance est souvent utilisee pour analyser des donnees issue dune planification dexperienceau cours de laquelle lexperimentateur a la possibilite de controler a priori les niveaux des facteurs avecpour objectif dobtenir le maximum de precision au moindre cout. Ceci conduit en particulier a` construiredes facteurs orthogonaux deux a` deux (variables explicatives non lineairement correlees) afin de minimiserla variance des estimateurs (cf. chapitre precedent). On distingue le cas particulier important ou` les cellulesont le meme effectif, on parle alors de plan orthogonal ou equirepete ou equilibre (balanced), qui conduita` des simplifications importa