reg multiple
TRANSCRIPT
-
7/29/2019 Reg Multiple
1/106
ECO 4272 : Introduction a leconometrieNotes sur la Regression Multiple
Steve Ambler
Departement des sciences economiques
Ecole des sciences de la gestion
Universite du Quebec a Montreal
c2013 : Steve Ambler
Hiver 2013
Ces notes sont en cours de developpement. Jai besoin de vos commentaires et de vos suggestions pour
les ameliorer. Vous pouvez me faire part de vos commentaires en personne ou en envoyant un message [email protected].
1
mailto:[email protected]:[email protected]:[email protected] -
7/29/2019 Reg Multiple
2/106
Table des matieres
1 Introduction 5
2 Biais du a une variable omise 5
2.1 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3 Modele de regression multiple 10
3.1 Specification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.2 Specification matricielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.3 Hypotheses de base du modele . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.4 Estimateur MCO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.5 Quelques exemples simples des regles de differentiation . . . . . . . . . . . . . . . 16
3.6 Approche non matricielle au probleme de minimisation . . . . . . . . . . . . . . . 18
4 Proprietes de lestimateur MCO 21
4.1 Proprietes algebriques de lestimateur MCO . . . . . . . . . . . . . . . . . . . . . 21
4.2 Ecart type de la regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.3 Mesures dajustement statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.3.1 Le R2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.3.2 Le R2 ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.4 Proprietes statistiques : absence de biais . . . . . . . . . . . . . . . . . . . . . . . 27
4.5 Petite note : theoreme de Slutsky . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.6 Proprietes statistiques : convergence . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.7 Petite note sur les covariances en notation matricielle . . . . . . . . . . . . . . . . 33
4.8 Proprietes statistiques : distribution en grand echantillon . . . . . . . . . . . . . . 34
4.8.1 Cas homoscedastique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5 Variance echantillonnale de 37
5.1 Cas homoscedastique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2
-
7/29/2019 Reg Multiple
3/106
5.2 Homoscedasticite versus Heteroscedasticite . . . . . . . . . . . . . . . . . . . . . 40
6 Efficience de lestimateur MCO sous lhomoscedasticite 41
6.1 Preuve du theoreme Gauss-Markov . . . . . . . . . . . . . . . . . . . . . . . . . . 42
7 Biais du a des variables omises (bis) 44
8 Tests dhypotheses et ensembles de confiance 52
8.1 Tests dhypotheses simples par rapport a un seul coefficient . . . . . . . . . . . . . 52
8.2 Tests dhypotheses simples par rapport a une combinaison lineaire de coefficients . 54
8.3 Pourquoi les tests sequentiels ne sont pas valides . . . . . . . . . . . . . . . . . . 55
8.4 Tests dhypotheses jointes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
8.5 Que faire lorsque nest pas disponible ? . . . . . . . . . . . . . . . . . . . . . . 59
8.6 Une seule restriction comme un cas special . . . . . . . . . . . . . . . . . . . . . 60
8.7 Significativite de la regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
8.8 Tests dhypothese en presence dhomoscedasticite . . . . . . . . . . . . . . . . . . 65
8.9 Test de significativite de la regression dans le cas homoscedastique . . . . . . . . . 73
8.10 Tests exacts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
8.11 Ensembles de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
9 Multicollinearite 76
9.1 Multicollinearite parfaite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
9.2 Multicollinearite imparfaite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
9.3 Trucs pratiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
10 Un Exemple 82
11 Un Autre Exemple 87
12 Concepts a retenir 104
3
-
7/29/2019 Reg Multiple
4/106
13 References 105
4
-
7/29/2019 Reg Multiple
5/106
1 Introduction
Dans ce chapitre sur le modele de regression multiple, il y a presque rien de fondamentalement
nouveau par rapport au modele de regression simple. Une lecture de la table des matieres de ces
notes servira a vous convaincre que ce sont les memes sujets qui reviennent. Cest comme si on
allait reapprendre la matiere sur le modele de regression simple mais en notation matricielle. Cest
donc une bonne occasion de faire de la revision, surtout en ce qui concerne les proprietes de
lestimateur MCO. A peu pres le seul aspect novateur (a part la notation matricielle elle-meme)
sera lidee de tester des hypotheses jointes (et une notion qui y est tres reliee, celle des ensembles
de confiance). 1
Une fois cette notation apprise, toutes les derivations algebriques concernant les proprietes
algebriques de lestimateur MCO et les proprietes statistiques de lestimateur MCO sont plus sim-
ples en notation matricielle quen notation de sommations. Jespere vous convaincre de ce principe
avant de terminer notre etude sur le modele de regression multiple.
2 Biais du a une variable omise
On peut motiver le modele de regression multiple en montrant que, si nous voulons analyser
limpact dune variable explicative sur une variable dependante et si nous omettons une ou des
variables qui ont un impact sur la variable dependante, notre estime de limpact de la variable
explicative dinteret sera en general biaise, dans la mesure ou la correlation entre cette variable
omise ou ces variables omises et la variable explicative du modele est non nulle.
Cela veut dire que, meme si nous ne nous interessons pas particulierement a limpact de ces
variables omises, il faut neanmoins en tenir compte dans notre regression afin dobtenir un estime
non biaise de limpact de notre variable dinteret (pour utiliser lexemple empirique du manuel,
limpact de la taille moyenne des classes sur le rendement scolaire).
1. Le concept de tester une hypothese simple qui porte sur une combinaison de coefficients est nouveau aussi,
mais nous allons montrer comment transformer le modele de regression multiple pour traiter ce cas comme un test
dune hypothese nulle qui porte sur un seul coefficient. Voir la sous-section 8.2.
5
-
7/29/2019 Reg Multiple
6/106
On sait a partir de notre etude du modele de regression simple, que lestimateur du coefficient
de pente 1 est egal a :
1 = 1 +1n
ni=1
Xi X
ui
1n
n
i=1 Xi X2 .
Maintenant, on modifie nos hypotheses statistiques par rapport au modele de regression simple
etudie dans le dernier chapitre. On nimpose plus que lesperance (conditionnelle a la valeur ob-
servee Xi) soit egale a zero. Maintenant, on a :
1
n
ni=1
Xi X
ui
p Cov (u , X) = Corr (u , X) uX,
et
1
n
ni=1
Xi X
2 p 2X.Donc, par le theoreme de Slutsky (voir la section (4.5) ci-dessous), ce qui nous permet detudier
separement les proprietes en grand echantillon du numerateur et du denominateur du deuxieme
terme dans lexpression pour la valeur de notre estimateur 1, on a :
1p
1 +
Corr (u , X) uX
2X
= 1 + Corr (u , X)u
X.
Lestimateur nest plus convergent. Il y a un biais, meme asymptotiquement (lorsque le nombre
dobservations tend vers linfini). Le signe du biais depend du signe de la correlation entre la
variable explicative Xi et le terme derreur ui.
Notez que dans ce cas, les hypotheses de base du modele ne sont pas respectees. La variable
omise, qui est incluse dans le terme derreur du modele, est correlee avec la variable explicative du
modele X. Autrement dit, lhypothese
E (ui|X = Xi) = 0
ne tient plus. Dans le cadre dune etude empirique, il faut evaluer la plausibilite de cette hypothese
6
-
7/29/2019 Reg Multiple
7/106
avec les donnees quon a. Sil y a une variable dans la banque de donnees qui en principe pourrait
affecter la variable dependante de letude et qui risque detre correlee avec une variable qui est
incluse comme variable explicative dans le modele, il y a probablement un probleme de variable
omise. 2
Une solution possible est dinclure les variables omises explicitement comme variables ex-
plicatives additionnelles dans le modele de regression. Le modele de regression simple devient un
modele de regression multiple. Nous verrons dans la section suivante la specification du modele
de regression multiple et les hypotheses standard qui permettront, comme dans le modele de
regression simple, de demontrer certaines proprietes souhaitables de lestimateur MCO des co-
efficients.
2.1 Exemple
Nous pouvons etre encore plus explicites. Supposons que le vrai modele est donne par
Yi = 0 + 1X1i + 2X2i + ui
tandis que le modele estime est
Yi = 0 + 1X1i + ui
ou
ui 2X2i + ui.
Le terme derreur du modele estime incorpore la variable omise X2i avec le vrai terme derreur ui.
Nous avons
1 =1nn
i=1X1i X1 Yi Y
1n
ni=1
X1i X1
22. Dans des cours plus avances, vous allez apprendre des facons formelles de tester labsence de correlation entre
les variables explicatives du modele et le terme derreur. Voir par exemple McFadden (2002). Sans ces m ethodologies
avancees, il faut se fier a la logique et a son intuition.
7
-
7/29/2019 Reg Multiple
8/106
=1n
ni=1
X1i X1
0 + 1X1i + 2X2i + ui 0 1X1 2X2 u
1n
ni=1
X1i X1
2= 1
1n
n
i=1
X1i X1
2
1
nni=1 X1i X12+ 2
1n
n
i=1
X1i X1
X2i X2
1nni=1 X1i X12+
1n
ni=1
X1i X1
(ui u)
1n
ni=1
X1i X1
2= 1 + 2
1n
ni=1
X1i X1
X2i X2
1n
ni=1
X1i X1
2 + 1nni=1
X1i X1
(ui u)1n
ni=1
X1i X1
2 .Calculant lesperance de 1, nous obtenons
E1 = 1 + 2E 1nni=1 X1i X1 X2i X21n
ni=1
X1i X12
+E
+
1n
ni=1
X1i X1
E ((ui u) |X11, X12, . . . , X 1n)
1n
ni=1
X1i X1
2
= 1 + 2E
1n
ni=1
X1i X1
X2i X2
1n
ni=1
X1i X1
2
par la loi des esperances iterees. En general,
E
1n
ni=1
X1i X1
X2i X2
1n
ni=1
X1i X1
2
= 0.
Lestimateur est biaise, le biais etant donne par la valeur de lesperance dans lequation precedente.
Nous pouvons dire plus que cela, au moins asymptotiquement (lorsque la taille de lechantillon
n tend vers linfini). Lexpression
1
n
ni=1
X1i X1
X2i X2
est tout simplement (ou presque) la covariance echantillonnale entre X1 et X2. (Cest different par
8
-
7/29/2019 Reg Multiple
9/106
un facteur de n/(n 1) qui est presquegal a un si n est grand.) Lexpression
1
n
ni=1
X1i X1
2
est tout simplement (ou presque) la variance echantillonnale de X1. Si les deux expressions sont
des estimateurs convergents de leurs equivalents dans la population, nous avons :
1
n
ni=1
X1i X1
X2i X2
p Cov (X1 , X2)et
1
n
n
i=1X1i X12 p Var (X1) .
Par le theoreme de Slutsky (voir la section 4.5 ci-dessous), nous avons
1p 1 + 2 Cov (X1 , X2)
Var (X1)
La difference entre 1 et sa vraie valeur est approximativement egale a la vraie valeur de 2 fois le
ratio de la covariance entre X1 et X2 et la variance de X2. Si on connat au moins le signe de 2 et
de la covariance, on peut predire le signe de cet ecart. Aussi, nous savons que
Cov (X1 , X2)
Var (X1)
est la valeur (asymptotique) du coefficient de pente dune regression ou X2 est la variable
dependante et X1 est la variable explicative.
9
-
7/29/2019 Reg Multiple
10/106
3 Modele de regression multiple
3.1 Specification
Yi = 0 + X1i1 + X2i2 + . . . + Xkik + ui. (1)
Chaque variable explicative porte deux indices inferieurs. Le premier fait reference a son iden-
tite. Le deuxieme fait reference a lunite dobservation (ou periode dans le cas de series
chronologiques). Cette convention suit la convention du manuel. On suppose un echantillon de
n observations.
3.2 Specification matricielle
Y = X+ U,
ou
Y
Y1 Y2 . . . Y n
,
X
1 X11 X21 . . . X k1
1 X12 X22 . . . X k2...
......
. . ....
1 X1n X2n . . . X kn
,
0 1 2 . . . k
,
U
u1 u2 . . . un
.
donc, Y est un vecteur colonne de dimensions n 1, X est une matrice de dimensions n (k + 1), est un vecteur colonne de dimensions (k + 1) 1, et U est un vecteur colonne de dimensions
10
-
7/29/2019 Reg Multiple
11/106
n 1. Le modele contient une constante 0 et par convention la premiere colonne de X contientun vecteur de valeurs egales a un.
Notez que la convention concernant les indices inferieurs associes aux variables explicatives
du modele (qui, repetons-le, suit la notation du chapitre 6 du manuel), qui stipule que Xij est la
j-ieme observation de la i-ieme variable explicative, nest pas strictement conforme avec la nota-
tion conventionnelle de lalgebre lineaire ou des matrices. Soit Xune matrice de dimensions k l.En algebre lineaire on peut faire reference a un element de la matrice X par le biais dindices
inferieurs. La convention est que Xij est lelement dans li-ieme rangee et la j-ieme colonne.
Donc, il sagit dun mariage malheureux entre deux notations qui sont incompatibles. Dans ces
notes, la notation Xij fera reference par defaut a la specification du modele dans lequation (1).
Lorsque je veux utiliser la notation conventionnelle de lalgebre lineaire, je vais lecrire explicite-
ment. 3
Pour linstant, il ne sagit que de la notation. Lavantage dintroduire cette notation est la sim-
plification de lalgebre. Nous verrons de quoi il sagit lors de la d erivation de lestimateur MCO. 4
Avant de deriver lestimateur MCO, nous allons nous pencher dans la sous-section suivante sur les
hypotheses statistiques derriere le modele de regression multiple.
3.3 Hypotheses de base du modele
Les hypotheses sont les equivalents des hypotheses de base du modele de regression simple du
chapitre 4.
Voir lencadre Key Concept 18.1 a la page 707 du manuel.
1. E (ui
|Xi) = 0. Cette hypothese est reliee a la preuve que lestimateur MCO de est un
estimateur non biaise.
2. (Xi , Yi) i.i.d. Cette hypothese est reliee a la preuve que lestimateur MCO de est un
3. Si vous soupconnez quil y a des incoherences de notation, je vous prie de bien vouloir me les signaler.
4. Toutes les preuves que nous allons voir (absence de biais de lestimateur MCO, proprietes echantillonnales de
lestimateur, etc., sont beaucoup plus faciles a montrer en notation matricielle quen utilisant des sommations. Jespere
que vous allez finir par etre convaincus de ce principe.
11
-
7/29/2019 Reg Multiple
12/106
estimateur convergent.
3. Xi et ui ont des quatriemes moments non nuls et finis. Cette hypothese est aussi reliee a la
preuve que lestimateur MCO de est un estimateur convergent.
4. X est de rang plein en colonnes. Cela revient a dire quil ny a pas une colonne de la matrice
X qui peut etre exprimee comme une combinaison lineaire exacte des autres colonnes de la
matrice. Une des consequences de cette hypothese sera que la matrice (XX) (qui est une
matrice carree par construction) sera une matrice de rang plein (k+1), et donc il sera possible
de calculer son inverse (XX)1. Cet inverse (voir ci-dessous) fait partie de la definition de
lestimateur MCO de . Donc, sans cette hypothese, lestimateur MCO de ne sera meme
pas bien defini.
5. Var (ui|Xi) = 2u.
6. La distribution de ui conditionnelle a la valeur de Xi suit une loi normale.
Les quatre premieres hypotheses sont les hypotheses retenues par defaut. Nous naurons besoin
des deux dernieres hypotheses que pour des cas speciaux. Lavant derniere hypothese sapplique
seulement dans le cas special derreurs homoscedastiques. Si nous sommes prets a supposer des
erreurs homoscedastiques, nous obtiendrons une version plus simple de la matrice de variance-
covariance des estimateurs MCO. Cette simplification correspond a ce que nous avons vu dans le
cadre du modele de regression simple dans le cas homoscedastique. La derniere hypothese sap-
plique seulement comme condition suffisante (avec les autres) pour demontrer le theoreme Gauss-
Markov. Ce theoreme, dont on a deja vu une version dans le contexte du modele de regression
simple, dit que lestimateur MCO de est lestimateur lineaire non biaise avec la variance la plus
petite (donc est lestimateur lineaire non biaise le plus efficient). Le terme consacre en anglais estlestimateur BLUE (Best Linear Unbiased Estimator).
12
-
7/29/2019 Reg Multiple
13/106
3.4 Estimateur MCO
Nous voulons choisir les valeurs des elements de qui minimisent la somme des residus carres.
Pourquoi lestimateur MCO et non un autre type destimateur ? La justification se trouve plus loin,
dans la section 6 de ces notes. On peut montrer que sous les hypotheses de base du modele et sous
lhomoscedasticite et la normalite des erreurs, lestimateur MCO est lestimateur le plus efficient
dans la classe destimateurs lineaires (une fonction lineaire des observations Yi) et non biaises).
Cest le theoreme, celebre dans lhistoire de la pensee en statistique et en econometrie, Gauss-
Markov. Il y a dautres estimateurs aussi que lon pourrait inventer qui satisfont un ou plusieurs
des criteres souhaitables (absence de biais, convergence, etc.) meme sils sont moins efficients.
Le probleme peut secrire comme
min
UU.
Simple, non ? Remplacons U par sa definition. Le probleme devient :
min
(Y X) (Y X) ,
ce qui est equivalent a :
min
(YY XY YX+ XX) .
Vous devez etre parfaitement a laise avec cette multiplication matricielle. On applique les memes
regles que pour la multiplication de scalaires en faisant bien attention a lorientation (est-ce quelles
sont transposees ou non ?) des matrices.
Derivant par rapport a , nous obtenons :
XY XY + XX+ (XX) = 0.
Notez aussi que le 0 du cote droit est implicitement un vecteur de zeros. Lexpression du
13
-
7/29/2019 Reg Multiple
14/106
cote gauche est de dimensions (k + 1) 1 et donc lexpression du cote droit doit etre conforme.Lorsquil ny a pas dambigute entre scalaire et vecteur nous allons utiliser cette notation. Pour
denoter explicitement un vecteur de zeros au lieu dun scalaire lorsquil pourrait y avoir ambigute,
nous utiliserons 0 ou le nombre de colonnes sera defini selon le contexte : si nous voulons etre
encore plus explicites concernant les dimensions du vecteur nous allons utiliser 0m pour denoter
un vecteur de zeros de dimensions m 1. Ceci nous donne
XX = XY.
Cet ensemble dequations sappelle communement les equations normales de lestimation
MCO. Notez quil y a (k + 1) equations. Les inconnus sont les valeurs des coefficients, dont il y
a (k + 1). Les equations sont des fonctions lineaires des coefficients. Si la matrice (XX) est de
rang plein (voir la discussion plus loin sur la multicollinearite parfaite) nous pouvons linverser
afin dobtenir
(XX)1
XX = (XX)1
XY.
Nous avons
(XX)1 XX = I = ,
ou I est la matrice didentite de dimensions (k + 1) (k + 1),
I
1 0 0 . . . 0
0 1 0 . . . 0
0 0 1 . . . 0
.
.....
.
.. . . ....
0 0 0 . . . 1
,
et donc
= (XX)1 XY.
14
-
7/29/2019 Reg Multiple
15/106
Jai ecrit un chapeau sur pour indiquer quil sagit de notre estimateur MCO. Simple, non ? Cest
la premiere fois que nous voyons une application de la differentiation de matrices dans le cours.
Ce sera dailleurs presque la derniere fois. Rappelez-vous la page D-4 du document que je vous
ai donne a lire (je donne la reference exacte encore une fois a la fin de ces notes), specifiquement
lencadre en bas de la page :
y yx
Ax A
x
A A
xx 2x
xAx Ax + Ax
Etudiez bien la condition du premier ordre pour etre sur a 100% de comprendre comment on
lobtient en appliquant ces regles. Notez bien aussi que, pour les fins de notre differentiation, il y
a une fonction (la somme des residus carres) de k + 1 variables explicatives qui sont les elements
de .
Notez bien que le calcul de implique linversion dune matrice de dimensions (k+1)(k+1).Dans le cas general (ou k > 3), nous savons que nous ne pouvons pas obtenir une expression
algebrique pour cette matrice inversee. Resoudre ce probleme equivaut (ou presque) a trouver
les racines dun polynome dordre k + 1, et il y a un theoreme qui dit ceci est impossible en
general (algebriquement) pour des polynomes dordre 5 et plus. La solution algebrique pour un
polynome dordre 4 setale sur plusieurs pages, et elle nest pas dune grande utilite pratique. Si
nous voulions ecrire la solution pour avec k > 3 avec une notation de sommations, ca serait plus
quaffreux, ca serait carrement impossible. Il y a des moyens de contourner ce probleme, mais ce
sont des moyens qui datent davant lepoque dordinateurs personnels puissants. De nos jours, nous
pouvons toujours demander a lordinateur dinverser nos matrices (XX), utilisant des algorithmes
numeriques puissants et efficaces.
15
-
7/29/2019 Reg Multiple
16/106
3.5 Quelques exemples simples des regles de differentiation
Pour illustrer le fonctionnement de ces regles de differentiation, prenons quelques exemples
concrets tres simples. Dabord, supposons que
y =
A1 A2
x1x2
= A1x1 + A2x2.
La fonction y dans ce cas-ci est une seule fonction (un scalaire donc). Il y a deux arguments de la
fonction (x1 et x2) et donc deux derivees partielles distinctes. Par convention, on ecrit les derivees
partielles en colonne :
y
x
yx1y
x2.
Nous constatons que
y
x1= A1
et y
x2= A2.
Donc,
y
x=
A1A2
= A,ce qui est conforme a la premiere regle du tableau.
Maintenant, supposons que
y =
A11 A12A21 A22
x1
x2
16
-
7/29/2019 Reg Multiple
17/106
=
A11x1 + A12x2A21x1 + A22x2
y1
y2
Maintenant, y est composee de deux fonctions, definies par les deux rangees de lexpression ci-
dessus. Il y a deux fonctions avec deux arguments chacune (x1 et x2), et donc on a un total de
quatre derivees partielles. Nous avons
y1x1
= A11,
y1x2
= A12,
y2x1
= A21,
et
y2x2
= A22.
Par convention, on ecrit ces quatre derivees en notation matricielle comme
y1x1
y2x1
y1x2
y2x2
.
Donc, la convention revient a aligner toutes les derivees de la meme fonction dans la meme
colonne, et toutes les derivees par rapport au meme argument dans la meme rangee. Dans notre
cas, nous avons y1x1 y2x1y1x2
y2x2
= A11 A21
A12 A22
= A,et encore une fois la premiere regle du tableau est respectee.
Maintenant, supposons que
y =
x1 x2
A11 A12A21 A22
x1
x2
17
-
7/29/2019 Reg Multiple
18/106
=
x1A11 + x2A21 x1A12 + x2A22
x1x2
= A11x1
2 + A21x1x2 + A12x1x2 + A22x22.
Cette fois-ci la fonction y est scalaire. Il y a deux derivees partielles possibles. Nous avons
y
x1= 2A11x1 + A21x2 + A12x2
et
y
x2= 2A22x2 + A21x1 + A12x1.
Ecrivant ces resultats en notation matricielle nous avons yx1y
x2
= A11A12
A21A22
x1
x2
+ A11A21
A12A22
x1
x2
= Ax + Ax,ce qui est conforme a la quatrieme regle du tableau.
Pour des cas plus compliques (plusieurs fonctions, plusieurs arguments), les expressions non
matricielles peuvent devenir assez longues et assez compliquees. Ces regles de differentiation ma-
tricielle permettent de tenir compte automatiquement et systematiquement (sans oublier des ter-
mes !) de toutes les derivees partielles possibles. Elles permettent aussi decrire toutes les derivees
partielles dans une notation tres compacte.
3.6 Approche non matricielle au probleme de minimisation
Le modele de regression multiple peut secrire en notation non matricielle comme suit :
Yi = 0 + X1i1 + X2i2 + . . . + Xkik + ui.
18
-
7/29/2019 Reg Multiple
19/106
On veut minimiser la somme des residus au carre. Le probleme peut secrire comme suit :
min0,1,...,k
ni=1
(Yi 0 X1i1 X2i2 . . . Xkik)2 .
Les conditions du premier ordre pour minimiser cette fonction sont les suivantes (bien sur, il y a
k + 1 conditions dur premier ordre pusiquil y a k + 1 variables de choix pour minimiser notre
fonction (la somme des residus au carre) :
0 : 0 = 2n
i=1
(Yi 0 X1i1 . . . Xkik) ;
1 : 0 = 2n
i=1
X1i (Yi 0 X1i1 . . . Xkik) ;
2 : 0 = 2n
i=1
X2i (Yi 0 X1i1 . . . Xkik) ;
. . .
k : 0 = 2n
i=1
Xki (Yi 0 X1i1 . . . Xkik) .
Il sagit dun systeme de k + 1 equations en k + 1 inconnus (les s). Nous pouvons reecrire le
systeme comme suit :n
i=1
Yi =n
i=1
(0 + X1i1 + . . . + Xkik) ;
ni=1
X1iYi =n
i=1
X1i (0 + X1i1 + . . . + Xkik) ;
n
i=1 X2iYi =n
i=1 X2i (0 + X1i1 + . . . + Xkik) ;. . .
ni=1
XkiYi =n
i=1
Xki (0 + X1i1 + . . . + Xkik) .
19
-
7/29/2019 Reg Multiple
20/106
Nous pouvons maintenant convertir ses equations en notation matricielle :
1 . . . 1
Y1...
Yn
= 1 . . . 1 X;
X11 . . . X 1k
Y1...
Yn
=
X11 . . . X 1k
X;
...
X11 . . . X kn
Y1...
Yn
=
Xk1 . . . X kn
X,
ou jai ecrit un chapeau sur pour indiquer quil sagit dun systeme dequations dont la solution
nous donne nos estimateurs moindres carres ordinaires. Soyez sur de comprendre ce passage a la
notation matricielle. Maintenant, en empilant les k + 1 equations les unes pardessus les autres,
nous avons tout de suite
1 . . . 1
X11 . . . X 1n
X21 . . . X 2n...
......
Xk1 . . . X kn
Y1...
Yn
=
1 . . . 1
X11 . . . X 1n
X21 . . . X 2n...
......
Xk1 . . . X kn
X
XY = XX
= (XX)1XY.
Nous retrouvons la meme solution en notation matricielle (ce qui nest point surprenant).
20
-
7/29/2019 Reg Multiple
21/106
4 Proprietes de lestimateur MCO
4.1 Proprietes algebriques de lestimateur MCO
Comme dans le chapitre 4, nous allons montrer que lestimateur a des proprietes algebriques
qui doivent tenir independamment des hypotheses statistiques concernant les variables (explica-
tives et dependante) du modele. Ces proprietes doivent tenir pour nimporte quel echantillon de
donnees Nous utiliserons les resultats de cette section par la suite pour deriver certaines des pro-
prietes statistiques de lestimateur MCO. Nous avons, directement a partir des CPOs,
XX = XY
X
X Y
= 0
X
Y X
= 0.
Entre parentheses, nous avons un vecteur de dimensions n 1 qui nous donne les residus de laregression (variable dependante moins la valeur predite de la variable dependante donnee par X).
Autrement dit,
Y X U .Donc, nous avons :
XU = 0,ou Uest le vecteur de residus de la regression. Les residus sont orthogonaux aux variables explica-tives. Par definition, deux vecteurs Z1 et Z2 de dimensions n 1 sont orthogonaux si et seulementsi
Z1Z2 = 0
Cela veut dire que chaque variable explicative (chaque colonne de la matrice X) est orthogonale
aux residus de la regression. Ce resultat est une generalisation du resultat dans le chapitre sur la
21
-
7/29/2019 Reg Multiple
22/106
regression simple de lorthogonalite entre la seule variable explicative (a part la constante) et les
residus. Cest une generalisation, mais la preuve est beaucoup plus succincte que celle quon a vue
dans le chapitre sur la regression simple. Encore un avantage de la notation matricielle.
Nous avons vu dans le chapitre sur le modele de regression simple que lorthogonalite est reliee
a linterpretation geometrique de la methode de MCO. Estimer un modele par MCO revient a
projeter la variable dependante dans lespace traverse par la variable explicative (ou les variables
explicatives dans le cas de la regression multiple). La Figure 1 ci-dessous reprend le graphique
que nous avons vu dans le chapitre precedent. Cest donc pour le cas ou il y a deux variables
explicatives. La ligne de regression est considere comme un vecteur. La ligne pointillee sur le
graphique est un vecteur dont la longueur egale la valeur de ui a ce point. Il forme un angle droit
par rapport a la ligne de regression, dou le terme orthogonal .
Figure 1
Notez que, par convention, la premiere colonne de X represente la constante et donc contient
un vecteur de valeurs egales a un. Si nous denotons cette premiere colonne par X1 (notez que nous
utilisons ici une notation dalgebre lineaire), nous avons tout de suite
X1U = n
i=1
ui = 0.
Donc, la somme des residus est egale a zero, comme dans le modele de regression simple.
Definissons
Y X,
22
-
7/29/2019 Reg Multiple
23/106
le vecteur de valeurs predites de la variable dependante. Nous avons
Y
U =
X(XX)
1XY
U
= YX(XX)1
XU = 0.Les valeurs predites de la variable dependante sont orthogonales aux residus.
Finalement, nous avons
X
Y Y
= X
X(XX)
1XY Y
= XX(XX)
1XY XY = XY XY = 0.
Puisque la premiere colonne de X est un vecteur de valeurs unitaires, une consequence directe
de ce resultat est que la moyenne echantillonnale des valeurs predites est egale a la moyenne
echantillonnale de la variable dependante elle-meme. Autrement dit :
1
n
n
i=1 Yi =1
n
n
i=1 Y Y ,un resultat semblable a ce que nous avons vu dans le chapitre sur la regression simple.
4.2 Ecart type de la regression
On definit
SER su,
ou
s2u 1
n k 1n
i=1
u2i =SSR
n k 1 ,
23
-
7/29/2019 Reg Multiple
24/106
et donc SSR est la somme des residus au carre. On divise par (n k 1) afin dobtenir un estimenon biaise de la variance de lerreur dans lequation de regression lorsque celle-ci est constante. 5 Je
sais que jinsiste beaucoup la-dessus, mais les demonstrations algebriques dans cette section sont
beaucoup plus courtes que leurs equivalents dans le chapitre precedent. Cest dans ce sens que je
dis que lutilisation de la notation matricielle dans le contexte du modele de regression multiple
simplifie enormement lanalyse. Sil fallait deriver les memes proprietes sans avoir recours aux
matrices, les demonstrations setaleraient sur plusieurs pages.
4.3 Mesures dajustement statistique
4.3.1 Le R2
La mesure R2 est definie de la meme facon que dans le cas du modele de regression simple :
R2 =ESS
TSS= 1 SSR
TSS,
ou on definit
ESS
n
i=1 Yi Y2
,
ou Y est la moyenne echantillonnale des Yi, et
TSS n
i=1
Yi Y
2Nous avons suppose implicitement ici que
TSS = SSR + ESS.
En fait, il faut demontrer ce resultat, comme nous avons fait dans le chapitre sur le modele de
5. Ici on suppose implicitement des erreurs homoscedastiques, ou a variance constante. Sinon il nest pas logique
de parler de la variance de lerreur.
24
-
7/29/2019 Reg Multiple
25/106
regression simple. Nous avons
YY =
X+
U
X+
U
= XX+ XU + UX+ UU= XX+ UU
YY + UU = YY + SSR.Nous avons utilise pour passer a lavant derniere ligne de cette sequence dequations le resultat que
XU = 0. Nous avons presque montre le resultat voulu en quatre lignes, mais nous avonsTSS (Y Y) (Y Y)
= YY YY YY + YY
ou Y est un vecteur de constantes avec chaque valeur egale a Y, et nous avons
ESS Y Y Y YYY YY YY + YY.
Donc, nous devons montrer que
Y
Y = Y
Y
Y
n
i=1 Yi = Yn
i=1 Yi 1
n
ni=1
Yi =1
n
ni=1
Yi = Y ,
ce qui doit etre le cas puisque nous avons montre parmi les proprietes algebriques de lestimateur
MCO que la moyenne echantillonnale des valeurs predites de la variable dependante doit etre egale
25
-
7/29/2019 Reg Multiple
26/106
a la moyenne echantillonnale de la variable dependante elle-meme. Donc, nous venons de montrer
que
TSS = ESS + SSR.
Sachant que Y Y + U, une facon plus succincte de le faire est comme suit :TSS = (Y Y) (Y Y)
=
Y + U Y Y + U Y=
Y Y
+
U
Y Y
+
U
=
Y Y Y Y+ Y YU + U Y Y+ UU=
Y Y
Y Y
+ UU ESS + SSR,
puisque nous avons montre auparavant que Y
U = 0 et
YU = n
i=1
Y Ui = Yn
i=1
Ui = 0.
4.3.2 Le R2 ajuste
On peut montrer mathematiquement que le fait de rajouter une variable explicative addition-
nelle a un modele de regression multiple ne peut que faire augmenter son R2. 6
De cette facon, nous pouvons toujours ameliorer lajustement statistique dune regression
en ajoutant des variables explicatives. En fait, si nous avons autant de variables explicatives que
dobservations ((k + 1) = n), il est possible datteindre un ajustement statistique parfait . Il
6. Si vous etes a laise avec les principes de base de loptimisation sous contrainte, ce resultat est evident. Les-
timateur MCO est la solution a un probleme de minimisation. Si on minimise la somme des residus carres sujet a la
contrainte quun des coefficients est egal a zero (on enleve la variable du modele), et puis on minimise la somme des
residus carres en ne pas imposant cette contrainte, la somme des r esidus carres doit etre au moins aussi petite dans le
dernier cas, puisque nous relachons une des contraintes du probleme de minimisation.
26
-
7/29/2019 Reg Multiple
27/106
faudrait trouver la solution a
0 = U = Y X
Y = X.
Nous avons n equations et n inconnus. Dans la mesure ou Xest de rang plein (rang n), nous avons
= X1Y.
Donc, un R2 eleve nest pas toujours et partout une bonne chose.
Puisque lajustement mesure par le R2 ne peut quaugmenter quand on ajoute des variables
explicatives, il serait bien davoir une autre mesure qui penalise la mesure par un facteur lorsquon
ajoute des variables explicatives. Le R2 ajuste, denote par R2 est une telle mesure. Voici sa
definition :
R2 1 n 1n k 1
SSR
TSS= 1 s
2u
s2Y.
On peut souligner trois proprietes du R2.
1. Puisque n1nk1
> 1, on sait que R2 < R2.
2. Le fait dajouter une variable explicative supplementaire a deux effets sur R2. Dune part, la
somme des residus carres SSR doit baisser, ce qui fait augmenter R2. Dautre part, le facteur
n1nk1
augmente, ce qui fait diminuer R2.
3. Il est possible que R2 soit negatif.
4.4 Proprietes statistiques : absence de biais
Toutes les proprietes (algebriques) de lestimateur MCO que nous avons montrees jusqua
maintenant tiennent independamment des hypotheses statistiques de la section (3.3). La seule hy-
pothese que nous avons utilise pour deriver les proprietes algebriques est celle du rang plein en
colonnes de X et donc de la possibilite de calculer (XX)1.
27
-
7/29/2019 Reg Multiple
28/106
Pour montrer labsence de biais, nous utilisons la strategie habituelle. Nous remplacons Y
dans la definition de lestimateur par sa definition (X+ U), nous simplifions, et finalement nous
calculons la valeur esperee de lestimateur en utilisant la loi des esperances iterees.
Nous avons :
= (XX)1XY
= (XX)1X(X+ U)
= + (XX)1XU
E
= + E
(XX)1XU
= + E (XX)1XE (U|X) = .La derniere egalite depend de la loi des esperances iterees.
Je ne sais pas si vous etes daccord, mais je crois que la demonstration de labsence de biais
dans le cas du modele de regression multiple est beaucoup plus simple que dans le cas du modele de
regression simple, a cause de lutilisation de la notation matricielle. La preuve secrit sur quelques
lignes seulement est elle est assez transparente.
4.5 Petite note : theoreme de Slutsky
Pour deriver la convergence de lestimateur et pour deriver sa distribution en grand
echantillon, nous allons devoir faire appel au theoreme de Slutsky.
Lenonce du theoreme se trouve dans le manuel a la page 685. Il est utile, sinon tres utile, sinon
archi utile. Il dit essentiellement que si une variable aleatoire converge en probabilite a quelque
chose, une fonction continue de la variable aleatoire converge a la meme fonction de ce a quoi
converge la variable aleatoire.
Un enonce un peu plus general du theoreme se trouve a Wikipedia ( Slutskys Theorem ).
Autrement dit, si
Xnp X,
28
-
7/29/2019 Reg Multiple
29/106
alors
h (Xn)p h(X).
Les conditions qui doivent tenir pour que le theoreme tienne sont explicitees dans larticle chez
Wikipedia.
Pourquoi est-ce que ce theoreme est si utile ? Si on veut analyser le comportement en grand
echantillon dun estimateur, on peut analyser le comportement de ses composantes, sachant que
(sous certaines conditions), si les composantes convergent en probabilite a quelque chose, et si
lestimateur est une fonction des composantes, lestimateur converge en probabilite a cette fonc-
tion. De facon informelle, si
Zn = f(Xn, Yn) ,
et si Xnp X et Yn p Y, alors
Znp f(X, Y).
Voir lequation (17.9) pour un enonce un peu plus general. Si anp a ou a est une constante et
si Snd S, alors
an + Snd
a + S,
anSnd aS,
et si a = 0,Snan
d Sa
.
Le fait de pouvoir travailler avec des morceaux individuels de nos estimateurs nous facilite
grandement la vie. Notez que la manipulation algebrique des limites de probabilite est beaucoup
plus simple que la manipulation algebrique des esperances. Nous savons quen general,
E (XY) = E(X)E(Y),
29
-
7/29/2019 Reg Multiple
30/106
sauf dans le cas de variables aleatoires independantes, et nous savons quen general,
Ef(X) = f(E(X)) ,
sauf dans le cas ou fest une fonction lineaire (le cas du fameux encadre 2.3 qui nous dit entre autres
que lesperance dune fonction lineaire de variables aleatoires est egale a la fonction lineaire des
esperances des variables aleatoires).
4.6 Proprietes statistiques : convergence
= (XX)1XY
= (XX)1X(X+ U)
= + (XX)1XU
=
(XX)
n
1
(XU)
n
Nous avons divise et multiplie par le scalaire n afin de pouvoir parler de convergence en probabilite.(XX)
nest une matrice dont lelement i, j est donne par
XiXjn
=1
n
nl=1
Xi1,lXj1,l.
Du cote gauche on utilise la notation matricielle standard. Du cote droit, on utilise la notation
du manuel pour le modele de regression multiple. Notez encore une fois linversion des indices
inferieurs entre la notation matricielle standard et la notation du modele de regression multiple
utilise dans le livre. Dans lieme colonne de la matrice, on retrouve les observations sur la variable
explicative i 1. Par une des hypotheses du modele de regression multiple, nous avons
limn
XiXjn
= E (XiXj) .
30
-
7/29/2019 Reg Multiple
31/106
Ceci veut dire quil y a convergence en probabilite vers lesperance de XiXj . Donc,
(XX)n
con-
verge en probabilite a Qx, qui est definie comme
Qx EXX
n .Cest donc une matrice des deuxiemes moments des variables explicatives. Notez que ce nest pas
une matrice variance-covariance des variables explicatives puisque nous ne soustrayons pas les
moyennes. 7 Une des hypotheses du modele est que la matrice (XX) est inversible (absence de
multicollinearite complete). Si cest le cas, XX satisfait les conditions du theoreme de Slutsky,
et donc la limite de probabilite de linverse de la matrice est linverse de la limite de probabilite.
Donc, le premier terme converge en probabilite a
(Qx)1
Le deuxieme terme converge en probabilite a zero. Je ne vais pas faire la preuve formelle de cet
enonce. Par contre, nous avons deja vu que son esperance est nulle :
E(XU)n
= E(XE (U|X))n
= 0.Sa variance est donnee par
Var
(XU)
n
=
1
n
2Var (XU) .
Il sagit de la variance dun vecteur de dimensions (k + 1) 1. Si on considere lieme colonne de7. Nous pouvons en general faire une distinction entre lenieme moment brut dune variable aleatoire Ydonne par
E (Yn) et lenieme moment centre donne par E ((Y E(Y))n). Revoir le chapitre sur la theorie des probabilites pourun rappel. La covariance entre deux variables aleatoires X et Y, E ((Y E(Y)) (X E(X))), est donc un momentcentre, et notre Qx est un moment brut.
31
-
7/29/2019 Reg Multiple
32/106
la matrice X, nous avons
Var
1
nXi
U
= 1n2
Var (Xi
U)
=
1
n
2Var
nl=1
Xi1,lUl
=
1
n
2 nl=1
Var (Xi1,lUl) .
Definissons Xi1,lUl Vi,l. Nous avons
Var 1n
XiU
=
1
n
2 nl=1
Var (Vi,l)
=
1
n
2nVar (Vi)
= 1nVar (Vi) .Nous avons fait des hypotheses de quatrieme moments finis et dobservations i.i.d., et donc la
variance Var (Vi) est finie et constante. Nous avons
limn
1
nVar (Vi)
= 0.
Avec une esperance de zero et une variance qui tend vers zero, on a (presque) la preuve de la
convergence :
(XU)
n
p 0.
Les hypotheses du theoreme de Slutsky sont satisfaites, donc la limite de probabilite du produit
32
-
7/29/2019 Reg Multiple
33/106
est le produit des limites de probabilite. Donc, nous avons :
p 0.
4.7 Petite note sur les covariances en notation matricielle
En guise de preparation pour la sous-section suivante, on va se pencher dans cette sous-section
sur comment ecrire des covariances en notation matricielle. Prenons un vecteur de k variables
aleatoires Y de dimensions k 1. Nous pouvons ecrire les esperances de toutes les variablesaleatoires en notation matricielle tout simplement comme :
E(Y).
Considerons maintenant la matrice suivante :
(Y E(Y)) (Y E(Y)) .
Cette matrice est de dimensionsk k
. Lelement dans li-ieme rangee et la j-ieme colonne de cette
matrice est :
(Yi E (Yi)) (Yj E (Yj)) .
Par definition,
E ((Yi E (Yi)) (Yj E (Yj)))
nous donne la covariance entre les variables aleatoires Yi et Yj . Dans le cas ou i = j, nous avons
par definition la variance de Yi.
Donc, la matrice suivante :
E
(Y E(Y)) (Y E(Y)) ,
33
-
7/29/2019 Reg Multiple
34/106
est une matrice qui contient toutes les variances des variables aleatoires dans Y (le long de la
diagonale) et toutes les covariances possibles entre les variables aleatoires dans Y. En fait, puisque
Cov (Yi, Yj) = Cov (Yj, Yi) ,
la matrice est symetrique, avec lelement i, j egal a lelement j, i. Donc, nous pouvons ecrire de
facon succincte toutes les variances et covariances possibles entre les variables aleatoires regroupes
dans un vecteur Y.
4.8 Proprietes statistiques : distribution en grand echantillon
Cette section est un peu ardue. Son but est de developper une expression pour la matrice
variance-covariance de lestimateur , et de contraster la variance robuste (lorsque on ne fait
pas dhypothese particuliere concernant lhomoscedasticite) avec la variance en presence dho-
moscedasticite. Dans votre travail pratique de tous les jours deconometres, vos logiciels (comme
R, STATA ou GRETL) vont faire les calculs developpes dans cette sous-section automatiquement.
Par contre, si jamais vous voulez utiliser un logiciel comme MATLAB ou Excel ou la matrice
variance-covariance robuste nest pas calculee automatiquement, vous allez pouvoir programmer
son calcul vous-memes.
Nous voulons travailler avec une expression dont la variance ne diminue pas vers zero lorsque
n . Donc, au lieu de travailler avec
, qui converge vers une constante (convergence
en probabilite), nous avons :
n
= (XX)n
1(XU)n .
Le dernier terme, au lieu de converger a une constante, a maintenant une variance qui ne decrot
pas avec n. Nous avons donc quelque chose qui va converger en distribution, et non quelque chose
qui va converger en probabilite vers un vecteur de constantes.
34
-
7/29/2019 Reg Multiple
35/106
Nous avons deja vu dans la sous-section sur labsence de biais que
E
= 0.
Donc, une expression qui nous donne la matrice de variance-covariance de
n
est donneepar :
E
n
Notez bien la multiplication de
par
n. Dans le modele de regression simple, nous avons
vu que la variance de lestimateur 1 decrot au rythme 1/n et donc tend vers zero lorsque n tend
vers linfini. Nous voulons travailler avec une variable aleatoire (plutot un vecteur de variablesaleatoires) qui reste une variable aleatoire meme lorsque la taille de lechantillon tend vers linfini.
Pour cette raison, nous multiplions par
n, ce qui nous laissera avec une variance qui ne tend pas
vers zero et, dautre part, reste finie lorsque n tend vers linfini.
Pour evaluer la matrice variance-covariance de
n
, nous devons examiner le com-
portement en grand echantillon de
(XX)n
1(XU)n(XX)
n1(XU)
n
=
(XX)
n
1
(XU)n
(XU)
n
(XX)
n
1
.
Nous avons deja vu que(XX)
n
1
converge en probabilite a (Qx)1
. Donc, nous devons nous
pencher sur le comportement de
(XU)n
(XU)n
.
(XU) est un vecteur de dimensions (k + 1) 1, puisque X est de dimensions n (k + 1) et U
35
-
7/29/2019 Reg Multiple
36/106
est de dimensions n 1. Nous avons :
(XU) =n
i=1
ui
X1iui
X2iui...
Xkiui
ni=1
Vi.
Par hypothese, selon le Key Concept 18.1 , les Vi sont i.i.d. Cela veut dire que
1
n
n
i=1 Viconverge en probabilite a un vecteur de zeros, et que (par une version du theoreme de la limite
centrale),
1n
ni=1
Vi
converge en distribution a un vecteur de variables normales dont la moyenne est zero (on sait cela
puisque nous avons montre labsence de biais) et dont la variance est donnee par :
E (ViVi) V.
Donc, nous pouvons encore une fois invoquer le theoreme de Slutsky pour dire que
n
d N0k+1 , Qx1VQx1 ,ou nous utilisons 0k+1 pour denoter un vecteur de zeros de dimensions (k + 1) 1.
36
-
7/29/2019 Reg Multiple
37/106
4.8.1 Cas homoscedastique
Dans le cas homoscedastique, la variance de ui est constante et independante des Xi. Formelle-
ment, nous pouvons ecrire :
E (U U) = 2uIn.
Nous avons : (XU)
n
(XU)
n
=
XU UX
n
p E
1
n2uX
InX
= E
1
n2uX
X
= 2uQx.
Donc, lexpression pour la variance de
n
se simplifie beaucoup. Nous avons :
n
d N0k+1 , 2uQx1QxQx1 = N0k+1 , 2uQx1 .
5 Variance echantillonnale de
Comme dhabitude, notre derivation de la distribution en grand echantillon de n depend de quantites que nous ne connaissons pas, par exemple de
Qx E
XX
n
.
Il est (presque) toujours le cas que nous ne connaissons pas les vrais moments (moyennes, vari-
ances, moments bruts voir la note de bas de page a la page 15) de nos variables aleatoires.
Que faire alors si nous voulons developper une expression pour la variance de notre estimateur
, basee sur des quantites que nous pouvons mesurer ? Nous suivons la strategie habituelle, que
nous avons deja utilisee a maintes reprises, de remplacer les moments non connus de la population
37
-
7/29/2019 Reg Multiple
38/106
par des estimateurs convergents. Donc, nous remplacons Qx par :
Qx (XX)
n.
Nous remplacons V par :
V 1n k 1
ni=1
XiXi (ui)
2 ,
ou Xi est lieme rangee de la matrice X.8 Comme dhabitude, nous divisons par (n k 1)
ici et non par n afin dobtenir un estime non biaise. Nous nallons pas montrer explicitement que
cette expression est un estimateur convergent de V, mais nous aurions pu le faire. Nous pouvons
finalement ecrire :
N
,1
n
Qx1
v
Qx1
N
,
.
Jutilise ici la notation pour capter lidee que suit une distribution qui est approxima-tivement normale. Notez que cest encore le theoreme de Slutsky qui nous permet de dire que si
nous avons un produit de trois estimateurs convergents, la limite en probabilite (ou dans ce cas-ci
la limite en distribution) du produit est le produit de la limite en probabilit e des trois termes.
Tout bon logiciel de regression, comme R, STATA ou GRETL, calcule la matrice variance-
covariance de automatiquement. Mais attention ! Il sagit de la matrice variance-covariance ro-
buste (ou la variance du terme derreur ui nest pas forcement constante et independante des Xi). Il
faut en general verifier dans la documentation du logiciel sil calcule par defaut la matrice robuste
ou la matrice qui impose une hypothese dhomoscedasticite (sous-section suivante). Si loption
par defaut est la matrice variance-covariance sous lhypothese dhomoscedasticite, il faut specifier
dans le code de son programme le calcul de la matrice robuste.
Habituellement, loutput du logiciel de regression ne donne pas la matrice variance-covariance
8. Jutilise la notation matricielle standard ici. Stock et Watson a la page 699 du manuel definissentXi comme un
vecteur colonne, ce qui nest pas conforme a la notation matricielle standard. Pourquoi introduire encore une autre
incoherence entre la notation standard et la leur ?
38
-
7/29/2019 Reg Multiple
39/106
au complet, mais se limite plutot a donner lecart type robuste associe a chaque coefficient in-
dividuel. Lecart type de i est la racine carree de li-ieme element diagonal de . Par contre,
le logiciel a besoin de la matrice variance-covariance au complet lorsquil sagit deffectuer un
test dhypotheses jointes. Nous nous pencherons sur cette question dans la derni ere section de ces
notes.
5.1 Cas homoscedastique
Encore une fois, nous suivons la strategie general de remplacer les moments inconnus par des
estimateurs convergents. Un estimateur convergent de 2u est donne par :
s2u 1
n k 1n
i=1
u2i .
Nous avons deja rencontre lestimateur convergent de Qx :
Qx (XX)
n.
Donc, nous avons le resultat suivant :
N
,1
ns2u
Qx1
N
,
,
ou jutilise pour denoter la matrice variance-covariance dans le cas special de lho-
moscedasticite.
Cet estimateur de la matrice variance-covariance est tres facile a programmer si vous devez le
faire. En notation MATLAB, si X est la matrice contenant les observations sur les variables
explicatives et si Uhat est le vecteur de residus de la regression, nous avons :
Sigmahat = (Uhat) Uhat inv(XX)/(n k 1); .
39
-
7/29/2019 Reg Multiple
40/106
5.2 Homoscedasticite versus Heteroscedasticite
Suivant la philosophie du livre de Stock et Watson, nous avons mis laccent sur le cal-
cul decarts types pour nos coefficients estimes qui sont robustes a la presence derreurs
heteroscedastiques. Jaccepte completement largument de Stock et Watson que les donnees que
nous utilisons la plupart du temps pour estimer nos modeles econometriques nont pas les erreurs
homoscedastiques.
Par contre, on peut se poser la question suivante : y a-t-il des facons de detecter la presence de
lheteroscedasticite ? La reponse est Oui , mais le livre de Stock et Watson est totalement muet
a cet egard. Commencons par une methode informelle ou graphique.
Il sagit de regarder un graphique avec les residus de lequation estimee sur laxe vertical et une
des variables explicatives du modele sur laxe horizontal. Si la grandeur absolue des residus varie
systematiquement avec la variable explicative, cest un signe de la presence de lheteroscedasticite.
On peut aussi regarder un graphique ou on mesure les residus au carre sur laxe vertical. Si les
points on une pente non nulle evidente (positive ou negative), cest un signe de la presence de
lheteroscedasticite. Si cest le cas, il est fortement conseille deffecteur un ou plusieurs tests
formels.
1. Larticle Wikipedia qui sintitule Heteroscedasticity est une bonne introduction au sujet.
2. Le test Goldfeld-Quandt.
3. Le test Breusch-Pagan. On regresse les residus au carre sur les variables explicatives du
modele. Il y a un bon article sur Wikipedia qui explique le test.
4. Le test de White. Cest peut-etre le test le plus frequemment utilise. Leconometre qui la
developpe a aussi propose la version robuste de la matrice variance-covariance que lon
presente dans le manuel. Pour effectuer le test, on utilise les residus au carre comme la vari-
able dependante dans une regression multiple (quon appelle une regression auxiliaire ),
ou les variables explicatives sont les variables explicatives du modele original, tous les co-
produits possibles des variables explicatives, et les variables explicatives au carre. White a
40
-
7/29/2019 Reg Multiple
41/106
montre que la statistique R2 de cette regression suit (en grand echantillon) une distribution
2 avec un nombre de degres de liberte egal au nombre de variables explicatives dans la
regression auxiliaire moins un. Il y a un article sur ce test chez Wikipedia, mais il est moins
complet que larticle sur le test Breusch-Pagan.
5. Le test de Glesjer.
Voir larticle Heteroscedasticity chez Wikipedia pour plus de details sur les tests differents
et pour des renvois.
Bon nombre de logiciels econometriques modernes effectuent le test de White, ou un ou
plusieurs des autres tests lors de lestimation dun modele de regression multiple, soit automa-
tiquement soit en specifiant une option simple.
En presence dheteroscedasticite, si sa forme est connue (si on connat comment depend la
variance de lerreur en fonction des variables explicatives du modele), il y a des estimateurs plus
efficients des coefficients du modele. Il sagit de lestimateur moindres carres generalises ( Gen-
eralized Least Squares en anglais). Nous navons pas le temps detudier cet estimateur dans ce
cours. Il fait partie des sujets etudies dans le cours ECO5272.
6 Efficience de lestimateur MCO sous lhomoscedasticite
Sous les hypotheses de base du modele de regression multiple, et dans le cas de lho-
moscedasticite, on peut montrer que lestimateur MCO a une variance au moins aussi petite que
nimporte quel autre estimateur lineaire (en Y) et non biaise. Cest le theoreme Gauss-Markov.
Dans le cas dun vecteur de parametres, il faut comprendre variance au moins aussi petite
que dans le sens suivant. Si est nimporte quel estimateur lineaire et non biaise de , il faut
que
Var
c
Var
c
pour toute combinaison lineaire c. Ici, c est un vecteur de constantes de dimensions (k + 1) 1et donc cest un scalaire. Il y a une preuve du theoreme dans lannexe 18.5 du manuel.
41
-
7/29/2019 Reg Multiple
42/106
Le theoreme Gauss-Markov explique limportance de lestimateur MCO dans lhistoire de
leconometrie et de la statistique.
Tel quindique a la fin de la section precedente, il est possible, si on connat la forme de
lheteroscedasticite (comment elle est reliee aux variables explicatives du modele), lestimateur
MCG (moindres carres generalises) sera typiquement plus efficient que lestimateur MCO.
6.1 Preuve du theoreme Gauss-Markov
Je reprends ici une preuve relativement simple tiree de larticle Wikipedia sur le Theoreme
Gauss-Markov. Il est tres important de noter que pour les fins de cette preuve, les variables ex-
plicatives X sont considerees comme etant fixes ou non stochastiques.
Soit = CY un autre estimateur lineaire de . 9 On suppose que C peut etre ecrite comme
(XX)1X + D, ou D est une matrice non nulle de dimensions (k + 1) n. Notre but est demontrer que sa variance doit etre au moins aussi elevee que celle de , lestimateur MCO.
Lesperance de est donnee par
E (CY) = E (XX)1X + D (X+ U)
=
(XX)1X + D
X+ E
(XX)1X + D
U
= + DX+ E
(XX)1X + D
E (U|X)= + DX,
ou nous avons utilise la loi des projections iterees. Nous voulons prouver que a la plus petite
variance parmi tous les estimateurs lineaires non biaises. Pour que notre estimateur soit non biaise,
il faut que
DX = 0.
Calculons maintenant sa variance. Il sagit de la variance conditionnelle (etant donne les valeurs
9. Il faut aussi prendre les elements de Ccomme etant fixes ou non stochastiques.
42
-
7/29/2019 Reg Multiple
43/106
de D et de X). Nous avons
Var (CY|X, D) = CVar(Y|X, D)C
= CVar(U|X)C
= 2
CC
= 2
(XX)1X + D
(XX)1X + D
= 2
(XX)1XX(XX)1 + (XX)1XD + DX(XX)1 + DD
= 2 (XX)1 + DD
= 2(XX)1 + 2
DD
puisquil faut que DX = 0 si notre estimateur est non biaise.
La matrice DD est une matrice positive semi-definie. Nous avons
Var Var = 2DD
Var
c
Var
c
= 2cDDc 0,
la derniere inegalite etant la definition meme dune matrice positive semi-definie. Ce qui fut a
demontrer.
43
-
7/29/2019 Reg Multiple
44/106
7 Biais du a des variables omises (bis)
Montrer le biais qui provient de variables omises est beaucoup plus facile en notation ma-
tricielle quavec des sommations. Supposons que le vrai modele peut etre ecrit comme :
Y =
X1X2
12
+ U X11 + U .
Ici, X1 et X2 ont linterpretation de sous-matrices et 1 et 2 ont linterpetation de sous-vecteurs.
Donc, la derniere equation indique nous avons, de facon erronee, regroupe des variables ex-
plicatives du modele avec le terme derreur.
Si nous estimons le modele errone, nous avons :
1 = (X
1X1)1(X1Y) = (X
1X1)1(X1(X+ U))
= (X1X1)1X1 X1 X2
1
2 + U= (X1X1)
1X1X11 + (X
1X1)1X1X22 + (X
1X1)1X1U
= 1 + (X
1X1)1X1X22 + (X
1X1)1X1U
Nous avons :
E1 = 1 + E (X1X1)1X1X22+ E (X1X1)1X1E (U|X)= 1 + E
(X1X1)
1X1X22
= 1 + E
(X1X1)1X1X2
2.
44
-
7/29/2019 Reg Multiple
45/106
Interpretation : le biais depend de X1X2, la matrice de comouvements bruts entre les elements de
X1 et les elements de X2 ainsi que des vraies valeurs des coefficients 2.
Notez que
(X
1X1)1
X
1X2
serait tout simplement la matrice de coefficients obtenus si on regressait chaque variable dans
X2 sur X1. Cest essentiellement la formule dun estimateur MCO, mais cest une generalisation
puisque X2 est une matrice et non un vecteur.
Vous devriez verifier que lexpression developpee pour le biais au debut du chapitre 6 du
manuel est tout simplement un cas special de cette expression.
Afin de mieux cerner le concept de biais du a des variables omises, je developpe dans lencadre
le sujet du modele de regression partitionne qui suit.
Regression partitionnee
Pour de plus amples renseignements, voir Pollock (2007). Reprenons le modele de
regession multiple en faisant la distinction entre le sous-ensemble de variables explicatives
X1 et le sous-ensemble X2.
Y =
X1X2
12
+ U= X11 + X22 + U.
Au lieu de regrouper les variables X2 avec le terme derreur comme nous avons fait dans la
section precedente, nous allons regarder explicitement comment notre estime MCO de 1, soit
1, est affecte par 2. Rappelons ce que nous avons appele les equations normales lorsque
45
-
7/29/2019 Reg Multiple
46/106
nous avons trouve la solution pour lestimateur MCO pour le modele de regression multiple :
XX = XY.
Nous pouvons ecrire ces equations commme deux sous-ensembles dequations :
X1X11 + X
1X22 = X
1Y
et
X2X11 + X
2X22 = X
2Y.
Du premier de ces 2 ensembles dequations, nous avons
X1X11 = X
1 (Y X22)
1 = (X1X1)1 X1
Y X22
.
Nous devons maintenant trouver une solution pour 2. Multiplions le premier sous-ensemble
par X2X1 (X
1X1)1
pour obtenir
X2X11 + X
2X1 (X
1X1)1
X1X22 = X
2X1 (X
1X1)1
X1Y.
Maintenant, soustrayons cette equation du deuxieme sous-ensemble dequations, obtenant
ainsi
X
2X22 X
2X1 (X
1X1)
1
X
1X22 = X
2Y X
2X1 (X
1X1)
1
X
1Y.
X2X2 X2X1 (X1X1)1 X1X2
2 =
X2 X2X1 (X1X1)1 X1
Y.
Definissons
P1 X1 (X1X1)1 X1.
46
-
7/29/2019 Reg Multiple
47/106
Nous pouvons ecrire
(X2 (I P1) X2) 2 = X2 (I P1) Y
ou I est la matrice identite conformable a P1, et donc
2 = (X
2 (I P1) X2)1 X2 (I P1) Y.
Notez que nous avons suivi une methodologie semblable a celle dans le chapitre sur le modele
de regression simple. Nous avons trouve une solution pour 1 en fonction de 2, et ensuite
nous avons elimine 1 dans la solution pour 2 par substitution.
Ces solutions permettent de reinterpreter lestimateur MCO comme un estimateur en deux
etapes. Considerons dabord la regression de la variable Y sur X1 seulement. Si on appelle les
coefficients estimes 1, nous avons
1 (X1X1)1 X1Y,
Y = X11 = X1 (X
1X1)1
X1Y
les valeurs predites de Y sur la base de cette regression, et
U Y X1 (X1X1)1 X1Y =
I X1 (X1X1)1 X1
Y
le vecteur de residus de cette regression. Considerons maintenant la regression des variables
X2 sur les X1. Appelons les coefficients . Nous avons
(X1X1)1 X1X2.
Notez quil sagit dune matrice de coefficients estimes puisquil y a tout un vecteur de vari-
ables dependantes au lieu dune seule. Appelons X2 les valeurs predites des variables X2. Nous
47
-
7/29/2019 Reg Multiple
48/106
avons
X2 = X1 = X1 (X
1X1)1
X1X2,
etU X2 X1 (X1X1)1 X1X2
=
I X1 (X1X1)1 X1
X2
= (I P1) X2
la matrice de residus de ces regressions. (Il y a autant de colonnes dans U que dans X2.)
Maintenant, considerons la regression de U sur U. Appelons le vecteur de coefficients
estimes . Nous avons
=
UU1
UU .
Nous avons
UU = X2
I X1 (X1X1)1 X1
I X1 (X1X1)1 X1
X2
= X2 (I P1) (I P1) X2
= X2 (I P1) X2
puisque
(I P1) (I P1)
= (I
P1) .
Vous pouvez verifiez cette egalite facilement. Notez quune matrice Z qui a la propriete que
ZZ = Z est appelee une matrice idempotente. Donc, finalement nous avons
= (X2 (I P1) X2)1 X2 (I P1) Y.
48
-
7/29/2019 Reg Multiple
49/106
Mais ceci nest rien dautre que la solution que nous avions trouv ee pour 2.
En regressant Y sur X1 et X2 sur X1, on purge leffet des X1 sur la variable dependante
Y et sur les autres variables explicatives X2. Avec la regression de U sur U, on estime leffet
des X2 (purgees de linfluence des X1) sur Y (purgee aussi de linfluence des X1). Mais cest
exactement ce que fait lestimation MCO lorsquon inclut les deux sous-ensembles de variables
explicatives dans le modele en meme temps. Ce resultat sappelle le theoreme Frisch-Waugh-
Lovell. Pour de plus amples renseignements, voir Lovell (2010).
Supposons maintenant que notre modele de regression est sans constante. Nous pouvons
toujours reecrire le modele de regression lineaire de la facon suivante :
Y = X+ U
Y = X+ U
Y Y = X X + U U .Si, comme dhabitude, la premiere colonne contient une constante, elle va disparatre de ce
systeme dequations et nous aurons
Y = X+ U
ou
Y Y Y ,
X X X
et
U U U
et ou X peut etre redefinie comme une matrice n k puisque sa premiere colonne est une
49
-
7/29/2019 Reg Multiple
50/106
colonne de zeros. Autrement dit, il est toujours possible de reecrire le modele de regression
lineaire sans une constante en exprimant toutes les variables (explicatives et dependante)
comme des deviations par rapport a leurs moyennes echantillonnales.
Donc, supposons que notre modele est effectivement sans constante. Quest-ce qui ar-
rive lorsque la correlation echantillonnale entre X1 et X2 est zero ? Dans ce cas, nous avons
X1X2 = 0, puisque les variables dans X1 et X2 sont mesurees en deviations par rapport a leurs
moyennes echantillonnales. Autrement dit, X1 et X2 sont orthogonales. Nous avons dans ce
cas particulier
= (XX)1
XY
=
X1X1 X1X2X2X1 X
2X2
1 X1
X2
Y
=
X1X1 00 X2X2
1 X1
X2
Y
= (X
1X1)1 0
0 (X2X2)1 X
1
X2 Y
=
(X1X1)1 X1Y(X2X2)
1 X2Y
.On aurait pu montrer le meme resultat a partir des solutions developpees ici pour 1 et 2.
Faisons-le ici. Nous avons
1 = (X
1X1)1
X1
Y X22
= (X1X1)1
X1Y (X1X1)1 X1X22
= (X1X1)1
X1Y
50
-
7/29/2019 Reg Multiple
51/106
dans le cas de lorthogonalite. Dans le cas de 2, nous avons
2 = (X
2 (I
P1) X2)
1X2 (I
P1) Y
=
X2X2 X2X1 (X1X1)1 X1X21
X2Y X2X1 (X1X1)1 X1Y
= (X2X2)1
X2Y
dans le cas de lorthogonalite. Dans le cas general (lorsque X1 et X2 ne sont pas orthogonales),
les solutions ne sont evidemment pas aussi simples.
Ceci veut dire que, dans le cas de lorthogonalite, on peut estimer un modele de regression(avec Y comme variable dependante) contenant seulement les variables X1, seulement les
variables X2, ou avec toutes les variables ensemble, et on va obtenir exactement les memes
valeurs pour les coefficients estimes. Le theoreme Frisch-Waugh-Lovell est assez remarquable.
Nous pouvons aussi reinterpreter ces resultats a la lumiere de ce que nous avons trouve
concernant le biais du a des variables omises. Dans le cas de lorthogonalite, X1X2 = 0 et il
ny a pas de biais. On peut regresser Y sur seulement X1 ou sur seulement X2 et il ny a pas
de biais. On obtient des estimateurs non biaises.
On peut aussi reinterpreter tout ceci en termes geometriques. Voir Davidson et MacKinnon
(1999) pour plus de details.
Tel que note par Pollock (2007), les couts relies au biais du a des variables omises dependent
des buts de notre modelisation. Si parmi les variables X1 il y a des variables qui seront utilisees
comme des instruments de politique economique, il est tres important dobtenir des estimes non
biaises de leur impact. Si ce qui nous interessent est surtout la prediction de lesperance de Y
conditionnelle aux valeurs des X, labsence de biais est moins importante.
51
-
7/29/2019 Reg Multiple
52/106
8 Tests dhypotheses et ensembles de confiance
Tel quindique dans lintroduction, le seul element vraiment novateur est le test dhypotheses
jointes. Sinon, on peut effectuer des tests dhypotheses simples de la meme maniere que dans le
cas de la regression simple.
8.1 Tests dhypotheses simples par rapport a un seul coefficient
Il ny a strictement aucun changement par rapport a la facon de tester une hypothese simple
dans le cadre du modele de regression simple. La statistique t de base, pour nimporte quel test,
peut secrire :
t = i H0i
si,
ou H0i est la valeur du coefficient i sous lhypothese nulle, i est la valeur du coefficient obtenue
lors de lestimation, et si est un estime convergent de lecart type de lestime du coefficient. Dans
le cas de la regression multiple, cest la racine carree de li-ieme element diagonal de (cas
heteroscedastique) ou (cas homoscedastique).
Toute la discussion du chapitre 4 concernant lesp-values et les taux de significativite marginaux
sapplique. La statistique t suit approximativement une loi normale centree reduite (si, bien sur,
lechantillon est suffisamment grand).
Dans le cas dune hypothese alternative a deux extremites (bilaterale), une grande valeur ab-
solue de la statistique t (peu importe son signe) constitue de levidence contre H0. Soit (|ta|)la valeur de la distribution normale cumulee pour moins la valeur absolue de la valeur calculee de
la statistique t. Nous avons :
(|ta|) = Pr (t |ta|)
= Pr
t
i H0isi
= Pr
t si i H0i .
52
-
7/29/2019 Reg Multiple
53/106
Dans le cas ou i H0i > 0 ceci est egal a
Pr
t si
i H0i
= Pr
t si H0i i
= Pr
i H0i t si
,
qui est donc egale a la probabilite dobtenir une valeur au moins aussi petite quune valeur qui est
inferieure a H0i par t fois son ecart type. Dans le cas ou i H0i < 0 ceci est egal a
Prt si i H0i = Pr
i H0i + t si
,
qui est donc egale a la probabilite dobtenir une valeur au moins aussi grande quune valeur qui est
superieure a H0i par t fois son ecart type.
Tout cela revient a dire que la p-value du test avec hypothese alternative bilaterale est donnee
par 2 (|ta
|).Le cas de tests avec hypothese alternative unilaterale est semblable. Lanalyse des tests dhy-
pothese presentee dans le chapitre sur le modele de regression simple est pertinente. Dans le cas
ou on a
H0 : i = H0i
et
H1 : i > H0i ,
la p-value du test est donnee par
p = Pr
z > tact
= 1 tact .
53
-
7/29/2019 Reg Multiple
54/106
Dans le cas ou on a
H0 : i = H0i
et
H1 : i < H0i ,
la p-value du test est donnee par
p = Pr
z < tact
=
tact
.
8.2 Tests dhypotheses simples par rapport a une combinaison lineaire de
coefficients
Souvent, il est possible de tester une telle restriction en estimant une version transformee du
modele. Nous illustrons lidee avec un exemple. Reprenons le modele de regression multiple de
base en notation non matricielle :
Yi = 0 + X1i1 + X2i2 + . . . + Xkik + ui.
Supposons que nous voulons tester la restriction suivante :
H0 : 1 + 2 = 1,
contre lhypothese alternative
H1 : 1 + 2
= 1.
Considerons la version suivante du modele, qui est equivalente a la version originale :
Yi = 0 + X1i(1 + 2) + (X2i X1i) 2 + . . . + Xkik + ui.
54
-
7/29/2019 Reg Multiple
55/106
Lequivalence vient du fait que nous avons tout simplement ajoute et soustrait le meme terme
X1i2. Nous pouvons reecrire le modele de la facon suivante :
Yi = 0 + X1i1 + Zi2 + . . . + Xkik + ui,
ou Zi X2i X1i et 1 1 + 2. Maintenant, tester lhypothese H0 : 1 + 2 = 1 revienta tester lhypothese H0 : 1 = 1. La methodologie a suivre est identique a celle etudiee dans le
cadre du modele de regression simple.
Effectuer ce test utilisant un logiciel de regression comme R, STATA ou GRETL revient a creer
la variable Z et a estimer lequation transformee par MCO. Rien nempeche bien sur dutiliser les
ecarts types robustes pour effectuer le test.
8.3 Pourquoi les tests sequentiels ne sont pas valides
Supposons que nous voulons tester lhypothese jointe suivante :
H0 : 1 = 2 = 0.
Lhypothese nulle dit que les deux coefficients sont nuls. Lhypothese alternative naturelle dans ce
contexte est que au moins un des deux coefficients est non nul :
H1 : i, i = 1, 2 tel que i = 0.
Pourquoi pas tout simplement tester les deux hypotheses de facon sequentielle, ou les statistiques
t donnees par :
t1 =1 H01
s1,
et ensuite
t2 =2 H02
s2.
55
-
7/29/2019 Reg Multiple
56/106
Le probleme avec cette idee est quil sagit de distributions de probabilite jointes. Supposons pour
simplifier que les deux coefficients estimes sont independamment distribues lun par rapport a
lautre. Dans les deux cas, on ne rejetterait pas lhypothese nulle a un niveau de significativite
marginal de 5% si |t1| < 1.96 et |t2| < 1.96 si notre echantillon est suffisamment grand (pourque les statistiques soient distribuees approximativement selon une loi normale). Avec ce taux de
significativite marginal et etant donnee lindependance, la probabilite dobtenir au moins un rejet
en effectuant deux tests si les hypotheses nulles sont vraies serait egale a 1 0.952. (Pourquoi ?)Il faudrait au moins ajuster le niveau de significativite marginal pour tenir compte de ce fait. Si les
deux coefficients estimes ne sont pas independants, cet ajustement serait encore plus complique.
Lidee derriere les tests dhypothese jointes developpes ci-dessous est precisement de tenir compte
du fait que les coefficients sont tires dune distribution de probabilite jointe.
Notez que lannexe (7.1) du livre decrit une facon dajuster les niveaux de significativite
marginaux pour tenir compte de la correlation non nulle entre les coefficients. Cette methodologie
peut etre utile dans certains cas, notamment lorsquon lit les resultats de regressions rapportes
dans des articles publies ou des cahiers de recherche. Dans la plupart des cas on rapporte les ecarts
types associes aux coefficients individuels, mais on ne rapporte pas la matrice variance-covariance
complete des coefficients estimes (ce dont on aurait besoin pour calculer les statistiques definies
dans la sous-section suivante). En suivant cette methodologie le lecteur peut effectuer des tests
dhypotheses jointes meme sil na pas acces a la matrice variance-covariance complete des coef-
ficients estimes.
8.4 Tests dhypotheses jointes
Tel quindique dans lintroduction a ces notes, je vais mettre laccent ici sur lapproche ma-
tricielle, qui est beaucoup plus generale et, je crois, plus simple a comprendre.
Pour commencer a saisir en quoi consiste cette methodologie, reprenons lexemple de la sous-
56
-
7/29/2019 Reg Multiple
57/106
section precedente. Lhypothese nulle a tester est :
H0 : 1 + 2 = 1,
Nous pouvons ecrire cette hypothese sous forme matricielle de la facon suivante :
0 1 1 0 . . . 0
0
1
2
3.
..
k
= 1
Ceci est de la forme :
R = r,
ou R est une matrice de constantes et r est un vecteur de constantes. Dans ce cas particulier, ou il y
a une seule restriction portant sur une combinaison lineaire de coefficients, R est en fait un vecteur
et r est un scalaire. Mais, dans le cas general, R ainsi que r auront le meme nombre de rangees que
le nombre de restrictions.
Prenons un cas plus concret, un cas ou le nombre de variables explicatives (a part la constante)
est plus grand que deux. Comment tester lhypothese nulle jointe
H0 : 1 = 2 = 0
contre lhypothese alternative
i, i = 1, 2 tel que i = 0.
57
-
7/29/2019 Reg Multiple
58/106
Sous forme matricielle, nous pouvons ecrire : H0 :
0 1 0 0 . . . 00 0 1 0 . . . 0
0
1
2
3...
k
=
00
.
On peut montrer que la statistique suivante obeit, en grand echantillon et sous H0, a une loi
Fq, (revisez la sous-section sur cette distribution a la page 44 du manuel ou dans les notes decours) :
F
R r
RR
1
R r
/q,
ou qest le nombre de restrictions que lon veut tester, et ou est la matrice variance-covariance
de lestime . Dans lexemple que nous venons detudier, q = 2. Autrement dit,
Fd
Fq,.
Puisque la convergence est asymptotique (lorsque le nombre dobservations tend vers linfini), le
deuxieme indice inferieur indique un nombre de degres de liberte infini.
Largument pourquoi la statistique F converge en distribution a une loi Fq, se trouve a la page
714 du manuel. Largument est tres succinct (pour ne pas dire tres dense). Je vous invite a le lire
mais, bien sur, il ne faut pas le retenir pour les fins de lexamen final. Un argument plus simple,
pour le cas de 2 restrictions, se trouve a la page 228.
Comme dhabitude, le manuel met laccent sur le cas ou lechantillon est suffisamment grand
pour parler de convergence approximative en probabilite et/ou en distribution. Pour que nos
statistiques F suivent une loi F meme en petit echantillon, il faudrait pouvoir les exprimer
comme des ratios de variables aleatoires 2 meme en petit echantillon (voir la page 44), et donc
58
-
7/29/2019 Reg Multiple
59/106
il faudrait supposer la normalite des erreurs (il faut aussi supposer lhomoscedasticite). Dans la
mesure ou ceci est rarement plausible dans des contextes appliques, il est mieux de se tourner vers
linference asymptotique si nous avons suffisamment dobservations.
La loi F depend de deux parametres. Typiquement on parle dune variable aleatoire qui obeit
a une loi Fm,n, ou le parametre m fait reference au nombre de restrictions imposees, et n fait
reference au nombre de degres de liberte (nombre dobservations moins nombre de parametres
estimes). Notez en consultant les Tables 5A, 5B et 5C dans le manuel les petits ecarts entre les
valeurs critiques lorsque n = 120 et lorsque n .La plupart des logiciels de regression, dont R, STATA et GRETL, offrent a lutilisateur la possi-
bilite de specifier les equivalents de R et r afin de tester des hypotheses jointes quelconques.
8.5 Que faire lorsque
nest pas disponible ?
Il y a des situations ou on na pas toute la matrice variance-covariance des parametres estimes
a sa disposition. Par exemple, quand on lit des articles publies qui resument les resultats de les-
timation dun modele de regression multiple, il est souvent le cas quon rapporte les ecarts types
associes aux coefficients individuels, mais non les covariances entre les coefficients estim es.
Il est possible de contourner ce probleme en utilisant la correction de Bonferroni , qui
tient compte de la simultaneite lorsque on fait un test dhypotheses jointes. Notez que cette
methodologie donne des tests qui sont moins puissants (qui ont une probabilite moins elevee de
rejeter lhypothese nulle lorsquelle est fausse) que si on utilise la matrice pour effectuer le test.
Ce que fait la correction est de donner la bonne p-value de tests sequentiels (la bonne probabilite
de rejeter les hypotheses nulles jointes lorsquelles sont vraies).
Le test de Bonferroni permet de tester des hypotheses jointes sur la base des statistiques t
pour les hypotheses individuelles. Il faut choisir la valeur critique afin detre sur que la prob-
abilite de rejeter lhypothese nulle jointe ne depasse pas la probabilite de la rejeter si on tient
compte de la non-independance entre les hypotheses faisant partie de lhypothese jointe.
59
-
7/29/2019 Reg Multiple
60/106
On rejette lhypothese nulle si on rejette au moins une des hypotheses individuelles. Dans
le cas dune hypothese jointe qui comporte deux hypotheses simples, appelons A levenement
que nous rejetons la premiere des deux hypotheses, et B levenement que nous rejetons la
deuxieme hypothese simple. Nous savons que
Pr (A B) Pr (A) + Pr (B) ,
ou le symbole indique lunion des deux evenements, autrement dit levenement que A seproduit, ou que B se produit, ou que les deux se produisent. Si on choisit des p-values iden-
tiques pour les deux tests des hypotheses individuelles, on va choisir des p-values tel que leur
somme soit egale a la p-value desiree du test joint. Par exemple, si on veut etre sur de ne pas
rejeter lhypothese nulle jointe plus que 5% du temps lorsquelle est vraie, on va choisir des
p-values de 2.5% pour chacune des tests individuels.
Le test Bonferroni est tres consevateur. Son but est de minimiser la probabilite de rejeter les
hypotheses jointes si elles sont vraies. En general, il fait augmenter la probabilite daccepter les
hypotheses lorsquelles sont fausses. Ainsi, il na pas beaucoup de puissance (definie comme
la probabilite de rejeter une hypothese lorsquelle est fausse). Il y a des techniques pour aug-
menter la puissance du test lorsquon doit tester une hypothese jointe avec une sequence de
tests dhypotheses simples. Voir Simes (1986).
Pour de plus amples renseignements concernant cette methodologie, consultez lannexe 7.1
au Chapitre 7 du manuel.
8.6 Une seule restriction comme un cas special
On peut montrer dans le cas dune seule restriction portant sur un coefficient (q = 1), la statis-
tique F est le carre de la statistique t. Ceci revient a dire par contre que nous ne pouvons pas
faire la distinction entre une statistique t qui serait grande en valeur absolue et negative et une
60
-
7/29/2019 Reg Multiple
61/106
statistique t grande en valeur absolue et positive. Cela veut dire quil ny aurait pas de difference
entre les resultats avec une statistique F et une statistique t si lhypothese alternative est une hy-
pothese alternative a deux extremites, mais nous ne pouvons pas vraiment tester lhypothese nulle
contre lhypothese alternative H1 : i < i ou ce ne sont que les grandes valeurs negatives de la
statistique t qui nous amenent a rejeter lhypothese nulle.
Pour montrer lequivalence entre la statistique F et le carre de la statistique t dans un cas
simple, prenons lexemple de lhypothese nulle H0 : 1 = 0. Dans ce cas, nous pouvons ecrire la
restriction sous forme matricielle comme
0 1 0 . . . 0
0
1
2...
k
= 1 = 0.
Dans ce casR
r
prend la forme de la statistique calculee (la valeur estimee de 1
) moins
sa valeur sous lhypothese nulle, ou tout simplement le numerateur de la statistique t que lon
utiliserait pour tester lhypothese. Nous avons dans ce cas
F =
1 0
0 1 0 . . . 0
0
1
0
...
0
1
1 0
.
61
-
7/29/2019 Reg Multiple
62/106
On peut facilement verifier que dans ce cas-ci (vous devriez le faire sur papier pour etre sur)
0 1 0 . . . 0
0
1
0
...
0
= s21
,
lelement (scalaire) sur la diagonale de qui correspond a lestimateur convergent de la variance
de 1. Donc, nous avons
F = 1 0s1 2
= t2.
La statistique F est effectivement le carre de la statistique t quon utiliserait pour effectuer le test.
On peut aussi considerer un deuxieme exemple pour montrer ce que donne la formule generale
lorsquil ny a quune seule restriction testee. Considerons lhypothese nulle suivante :
H0 : 1 + 2 = 1,
qui peut etre ecrite sous forme matricelle comme
0 1 1 0 . . . 0
0
1
2
3...
k
= 1 + 2 = 1.
Encore une fois, R r prend la forme de la statistique calculee (1 + 2) moins sa valeur sous
62
-
7/29/2019 Reg Multiple
63/106
lhypothese nulle. Nous avons dans ce cas
F =
1 + 2 1
0 1 1 0 . . . 0
0
11
0
...
0
1
1 + 2 1
.
On peut verifier (encore u