reg multiple

7/29/2019 Reg Multiple

1/106

ECO 4272 : Introduction a leconometrieNotes sur la Regression Multiple

Steve Ambler

Departement des sciences economiques

Ecole des sciences de la gestion

Universite du Quebec a Montreal

c2013 : Steve Ambler

Hiver 2013

Ces notes sont en cours de developpement. Jai besoin de vos commentaires et de vos suggestions pour

les ameliorer. Vous pouvez me faire part de vos commentaires en personne ou en envoyant un message [email protected].

1
mailto:[email protected]:[email protected]:[email protected]


2/106

Table des matieres

1 Introduction 5

2 Biais du a une variable omise 5

2.1 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

3 Modele de regression multiple 10

3.1 Specification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

3.2 Specification matricielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

3.3 Hypotheses de base du modele . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

3.4 Estimateur MCO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3.5 Quelques exemples simples des regles de differentiation . . . . . . . . . . . . . . . 16

3.6 Approche non matricielle au probleme de minimisation . . . . . . . . . . . . . . . 18

4 Proprietes de lestimateur MCO 21

4.1 Proprietes algebriques de lestimateur MCO . . . . . . . . . . . . . . . . . . . . . 21

4.2 Ecart type de la regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

4.3 Mesures dajustement statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

4.3.1 Le R2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

4.3.2 Le R2 ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

4.4 Proprietes statistiques : absence de biais . . . . . . . . . . . . . . . . . . . . . . . 27

4.5 Petite note : theoreme de Slutsky . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

4.6 Proprietes statistiques : convergence . . . . . . . . . . . . . . . . . . . . . . . . . 30

4.7 Petite note sur les covariances en notation matricielle . . . . . . . . . . . . . . . . 33

4.8 Proprietes statistiques : distribution en grand echantillon . . . . . . . . . . . . . . 34

4.8.1 Cas homoscedastique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

5 Variance echantillonnale de 37

5.1 Cas homoscedastique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

2


3/106

5.2 Homoscedasticite versus Heteroscedasticite . . . . . . . . . . . . . . . . . . . . . 40

6 Efficience de lestimateur MCO sous lhomoscedasticite 41

6.1 Preuve du theoreme Gauss-Markov . . . . . . . . . . . . . . . . . . . . . . . . . . 42

7 Biais du a des variables omises (bis) 44

8 Tests dhypotheses et ensembles de confiance 52

8.1 Tests dhypotheses simples par rapport a un seul coefficient . . . . . . . . . . . . . 52

8.2 Tests dhypotheses simples par rapport a une combinaison lineaire de coefficients . 54

8.3 Pourquoi les tests sequentiels ne sont pas valides . . . . . . . . . . . . . . . . . . 55

8.4 Tests dhypotheses jointes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

8.5 Que faire lorsque nest pas disponible ? . . . . . . . . . . . . . . . . . . . . . . 59

8.6 Une seule restriction comme un cas special . . . . . . . . . . . . . . . . . . . . . 60

8.7 Significativite de la regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

8.8 Tests dhypothese en presence dhomoscedasticite . . . . . . . . . . . . . . . . . . 65

8.9 Test de significativite de la regression dans le cas homoscedastique . . . . . . . . . 73

8.10 Tests exacts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

8.11 Ensembles de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

9 Multicollinearite 76

9.1 Multicollinearite parfaite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

9.2 Multicollinearite imparfaite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

9.3 Trucs pratiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

10 Un Exemple 82

11 Un Autre Exemple 87

12 Concepts a retenir 104

3


4/106

13 References 105

4


5/106

1 Introduction

Dans ce chapitre sur le modele de regression multiple, il y a presque rien de fondamentalement

nouveau par rapport au modele de regression simple. Une lecture de la table des matieres de ces

notes servira a vous convaincre que ce sont les memes sujets qui reviennent. Cest comme si on

allait reapprendre la matiere sur le modele de regression simple mais en notation matricielle. Cest

donc une bonne occasion de faire de la revision, surtout en ce qui concerne les proprietes de

lestimateur MCO. A peu pres le seul aspect novateur (a part la notation matricielle elle-meme)

sera lidee de tester des hypotheses jointes (et une notion qui y est tres reliee, celle des ensembles

de confiance). 1

Une fois cette notation apprise, toutes les derivations algebriques concernant les proprietes

algebriques de lestimateur MCO et les proprietes statistiques de lestimateur MCO sont plus sim-

ples en notation matricielle quen notation de sommations. Jespere vous convaincre de ce principe

avant de terminer notre etude sur le modele de regression multiple.

2 Biais du a une variable omise

On peut motiver le modele de regression multiple en montrant que, si nous voulons analyser

limpact dune variable explicative sur une variable dependante et si nous omettons une ou des

variables qui ont un impact sur la variable dependante, notre estime de limpact de la variable

explicative dinteret sera en general biaise, dans la mesure ou la correlation entre cette variable

omise ou ces variables omises et la variable explicative du modele est non nulle.

Cela veut dire que, meme si nous ne nous interessons pas particulierement a limpact de ces

variables omises, il faut neanmoins en tenir compte dans notre regression afin dobtenir un estime

non biaise de limpact de notre variable dinteret (pour utiliser lexemple empirique du manuel,

limpact de la taille moyenne des classes sur le rendement scolaire).

1. Le concept de tester une hypothese simple qui porte sur une combinaison de coefficients est nouveau aussi,

mais nous allons montrer comment transformer le modele de regression multiple pour traiter ce cas comme un test

dune hypothese nulle qui porte sur un seul coefficient. Voir la sous-section 8.2.

5


6/106

On sait a partir de notre etude du modele de regression simple, que lestimateur du coefficient

de pente 1 est egal a :

1 = 1 +1n

ni=1

Xi X

ui

1n

n

i=1 Xi X2 .

Maintenant, on modifie nos hypotheses statistiques par rapport au modele de regression simple

etudie dans le dernier chapitre. On nimpose plus que lesperance (conditionnelle a la valeur ob-

servee Xi) soit egale a zero. Maintenant, on a :

1

n

ni=1

Xi X

ui

p Cov (u , X) = Corr (u , X) uX,

et

1

n

ni=1

Xi X

2 p 2X.Donc, par le theoreme de Slutsky (voir la section (4.5) ci-dessous), ce qui nous permet detudier

separement les proprietes en grand echantillon du numerateur et du denominateur du deuxieme

terme dans lexpression pour la valeur de notre estimateur 1, on a :

1p

1 +

Corr (u , X) uX

2X

= 1 + Corr (u , X)u

X.

Lestimateur nest plus convergent. Il y a un biais, meme asymptotiquement (lorsque le nombre

dobservations tend vers linfini). Le signe du biais depend du signe de la correlation entre la

variable explicative Xi et le terme derreur ui.

Notez que dans ce cas, les hypotheses de base du modele ne sont pas respectees. La variable

omise, qui est incluse dans le terme derreur du modele, est correlee avec la variable explicative du

modele X. Autrement dit, lhypothese

E (ui|X = Xi) = 0

ne tient plus. Dans le cadre dune etude empirique, il faut evaluer la plausibilite de cette hypothese

6


7/106

avec les donnees quon a. Sil y a une variable dans la banque de donnees qui en principe pourrait

affecter la variable dependante de letude et qui risque detre correlee avec une variable qui est

incluse comme variable explicative dans le modele, il y a probablement un probleme de variable

omise. 2

Une solution possible est dinclure les variables omises explicitement comme variables ex-

plicatives additionnelles dans le modele de regression. Le modele de regression simple devient un

modele de regression multiple. Nous verrons dans la section suivante la specification du modele

de regression multiple et les hypotheses standard qui permettront, comme dans le modele de

regression simple, de demontrer certaines proprietes souhaitables de lestimateur MCO des co-

efficients.

2.1 Exemple

Nous pouvons etre encore plus explicites. Supposons que le vrai modele est donne par

Yi = 0 + 1X1i + 2X2i + ui

tandis que le modele estime est

Yi = 0 + 1X1i + ui

ou

ui 2X2i + ui.

Le terme derreur du modele estime incorpore la variable omise X2i avec le vrai terme derreur ui.

Nous avons

1 =1nn

i=1X1i X1 Yi Y

1n

ni=1

X1i X1

22. Dans des cours plus avances, vous allez apprendre des facons formelles de tester labsence de correlation entre

les variables explicatives du modele et le terme derreur. Voir par exemple McFadden (2002). Sans ces m ethodologies

avancees, il faut se fier a la logique et a son intuition.

7


8/106

=1n

ni=1

X1i X1

0 + 1X1i + 2X2i + ui 0 1X1 2X2 u

1n

ni=1

X1i X1

2= 1

1n

n

i=1

X1i X1

2

1

nni=1 X1i X12+ 2

1n

n

i=1

X1i X1

X2i X2

1nni=1 X1i X12+

1n

ni=1

X1i X1

(ui u)

1n

ni=1

X1i X1

2= 1 + 2

1n

ni=1

X1i X1

X2i X2

1n

ni=1

X1i X1

2 + 1nni=1

X1i X1

(ui u)1n

ni=1

X1i X1

2 .Calculant lesperance de 1, nous obtenons

E1 = 1 + 2E 1nni=1 X1i X1 X2i X21n

ni=1

X1i X12

+E

+

1n

ni=1

X1i X1

E ((ui u) |X11, X12, . . . , X 1n)

1n

ni=1

X1i X1

2

= 1 + 2E

1n

ni=1

X1i X1

X2i X2

1n

ni=1

X1i X1

2

par la loi des esperances iterees. En general,

E

1n

ni=1

X1i X1

X2i X2

1n

ni=1

X1i X1

2

= 0.

Lestimateur est biaise, le biais etant donne par la valeur de lesperance dans lequation precedente.

Nous pouvons dire plus que cela, au moins asymptotiquement (lorsque la taille de lechantillon

n tend vers linfini). Lexpression

1

n

ni=1

X1i X1

X2i X2

est tout simplement (ou presque) la covariance echantillonnale entre X1 et X2. (Cest different par

8


9/106

un facteur de n/(n 1) qui est presquegal a un si n est grand.) Lexpression

1

n

ni=1

X1i X1

2

est tout simplement (ou presque) la variance echantillonnale de X1. Si les deux expressions sont

des estimateurs convergents de leurs equivalents dans la population, nous avons :

1

n

ni=1

X1i X1

X2i X2

p Cov (X1 , X2)et

1

n

n

i=1X1i X12 p Var (X1) .

Par le theoreme de Slutsky (voir la section 4.5 ci-dessous), nous avons

1p 1 + 2 Cov (X1 , X2)

Var (X1)

La difference entre 1 et sa vraie valeur est approximativement egale a la vraie valeur de 2 fois le

ratio de la covariance entre X1 et X2 et la variance de X2. Si on connat au moins le signe de 2 et

de la covariance, on peut predire le signe de cet ecart. Aussi, nous savons que

Cov (X1 , X2)

Var (X1)

est la valeur (asymptotique) du coefficient de pente dune regression ou X2 est la variable

dependante et X1 est la variable explicative.

9


10/106

3 Modele de regression multiple

3.1 Specification

Yi = 0 + X1i1 + X2i2 + . . . + Xkik + ui. (1)

Chaque variable explicative porte deux indices inferieurs. Le premier fait reference a son iden-

tite. Le deuxieme fait reference a lunite dobservation (ou periode dans le cas de series

chronologiques). Cette convention suit la convention du manuel. On suppose un echantillon de

n observations.

3.2 Specification matricielle

Y = X+ U,

ou

Y

Y1 Y2 . . . Y n

,

X

1 X11 X21 . . . X k1

1 X12 X22 . . . X k2...

......

. . ....

1 X1n X2n . . . X kn

,

0 1 2 . . . k

,

U

u1 u2 . . . un

.

donc, Y est un vecteur colonne de dimensions n 1, X est une matrice de dimensions n (k + 1), est un vecteur colonne de dimensions (k + 1) 1, et U est un vecteur colonne de dimensions

10


11/106

n 1. Le modele contient une constante 0 et par convention la premiere colonne de X contientun vecteur de valeurs egales a un.

Notez que la convention concernant les indices inferieurs associes aux variables explicatives

du modele (qui, repetons-le, suit la notation du chapitre 6 du manuel), qui stipule que Xij est la

j-ieme observation de la i-ieme variable explicative, nest pas strictement conforme avec la nota-

tion conventionnelle de lalgebre lineaire ou des matrices. Soit Xune matrice de dimensions k l.En algebre lineaire on peut faire reference a un element de la matrice X par le biais dindices

inferieurs. La convention est que Xij est lelement dans li-ieme rangee et la j-ieme colonne.

Donc, il sagit dun mariage malheureux entre deux notations qui sont incompatibles. Dans ces

notes, la notation Xij fera reference par defaut a la specification du modele dans lequation (1).

Lorsque je veux utiliser la notation conventionnelle de lalgebre lineaire, je vais lecrire explicite-

ment. 3

Pour linstant, il ne sagit que de la notation. Lavantage dintroduire cette notation est la sim-

plification de lalgebre. Nous verrons de quoi il sagit lors de la d erivation de lestimateur MCO. 4

Avant de deriver lestimateur MCO, nous allons nous pencher dans la sous-section suivante sur les

hypotheses statistiques derriere le modele de regression multiple.

3.3 Hypotheses de base du modele

Les hypotheses sont les equivalents des hypotheses de base du modele de regression simple du

chapitre 4.

Voir lencadre Key Concept 18.1 a la page 707 du manuel.

1. E (ui

|Xi) = 0. Cette hypothese est reliee a la preuve que lestimateur MCO de est un

estimateur non biaise.

2. (Xi , Yi) i.i.d. Cette hypothese est reliee a la preuve que lestimateur MCO de est un

3. Si vous soupconnez quil y a des incoherences de notation, je vous prie de bien vouloir me les signaler.

4. Toutes les preuves que nous allons voir (absence de biais de lestimateur MCO, proprietes echantillonnales de

lestimateur, etc., sont beaucoup plus faciles a montrer en notation matricielle quen utilisant des sommations. Jespere

que vous allez finir par etre convaincus de ce principe.

11


12/106

estimateur convergent.

3. Xi et ui ont des quatriemes moments non nuls et finis. Cette hypothese est aussi reliee a la

preuve que lestimateur MCO de est un estimateur convergent.

4. X est de rang plein en colonnes. Cela revient a dire quil ny a pas une colonne de la matrice

X qui peut etre exprimee comme une combinaison lineaire exacte des autres colonnes de la

matrice. Une des consequences de cette hypothese sera que la matrice (XX) (qui est une

matrice carree par construction) sera une matrice de rang plein (k+1), et donc il sera possible

de calculer son inverse (XX)1. Cet inverse (voir ci-dessous) fait partie de la definition de

lestimateur MCO de . Donc, sans cette hypothese, lestimateur MCO de ne sera meme

pas bien defini.

5. Var (ui|Xi) = 2u.

6. La distribution de ui conditionnelle a la valeur de Xi suit une loi normale.

Les quatre premieres hypotheses sont les hypotheses retenues par defaut. Nous naurons besoin

des deux dernieres hypotheses que pour des cas speciaux. Lavant derniere hypothese sapplique

seulement dans le cas special derreurs homoscedastiques. Si nous sommes prets a supposer des

erreurs homoscedastiques, nous obtiendrons une version plus simple de la matrice de variance-

covariance des estimateurs MCO. Cette simplification correspond a ce que nous avons vu dans le

cadre du modele de regression simple dans le cas homoscedastique. La derniere hypothese sap-

plique seulement comme condition suffisante (avec les autres) pour demontrer le theoreme Gauss-

Markov. Ce theoreme, dont on a deja vu une version dans le contexte du modele de regression

simple, dit que lestimateur MCO de est lestimateur lineaire non biaise avec la variance la plus

petite (donc est lestimateur lineaire non biaise le plus efficient). Le terme consacre en anglais estlestimateur BLUE (Best Linear Unbiased Estimator).

12


13/106

3.4 Estimateur MCO

Nous voulons choisir les valeurs des elements de qui minimisent la somme des residus carres.

Pourquoi lestimateur MCO et non un autre type destimateur ? La justification se trouve plus loin,

dans la section 6 de ces notes. On peut montrer que sous les hypotheses de base du modele et sous

lhomoscedasticite et la normalite des erreurs, lestimateur MCO est lestimateur le plus efficient

dans la classe destimateurs lineaires (une fonction lineaire des observations Yi) et non biaises).

Cest le theoreme, celebre dans lhistoire de la pensee en statistique et en econometrie, Gauss-

Markov. Il y a dautres estimateurs aussi que lon pourrait inventer qui satisfont un ou plusieurs

des criteres souhaitables (absence de biais, convergence, etc.) meme sils sont moins efficients.

Le probleme peut secrire comme

min

UU.

Simple, non ? Remplacons U par sa definition. Le probleme devient :

min

(Y X) (Y X) ,

ce qui est equivalent a :

min

(YY XY YX+ XX) .

Vous devez etre parfaitement a laise avec cette multiplication matricielle. On applique les memes

regles que pour la multiplication de scalaires en faisant bien attention a lorientation (est-ce quelles

sont transposees ou non ?) des matrices.

Derivant par rapport a , nous obtenons :

XY XY + XX+ (XX) = 0.

Notez aussi que le 0 du cote droit est implicitement un vecteur de zeros. Lexpression du

13


14/106

cote gauche est de dimensions (k + 1) 1 et donc lexpression du cote droit doit etre conforme.Lorsquil ny a pas dambigute entre scalaire et vecteur nous allons utiliser cette notation. Pour

denoter explicitement un vecteur de zeros au lieu dun scalaire lorsquil pourrait y avoir ambigute,

nous utiliserons 0 ou le nombre de colonnes sera defini selon le contexte : si nous voulons etre

encore plus explicites concernant les dimensions du vecteur nous allons utiliser 0m pour denoter

un vecteur de zeros de dimensions m 1. Ceci nous donne

XX = XY.

Cet ensemble dequations sappelle communement les equations normales de lestimation

MCO. Notez quil y a (k + 1) equations. Les inconnus sont les valeurs des coefficients, dont il y

a (k + 1). Les equations sont des fonctions lineaires des coefficients. Si la matrice (XX) est de

rang plein (voir la discussion plus loin sur la multicollinearite parfaite) nous pouvons linverser

afin dobtenir

(XX)1

XX = (XX)1

XY.

Nous avons

(XX)1 XX = I = ,

ou I est la matrice didentite de dimensions (k + 1) (k + 1),

I

1 0 0 . . . 0

0 1 0 . . . 0

0 0 1 . . . 0

.

.....

.

.. . . ....

0 0 0 . . . 1

,

et donc

= (XX)1 XY.

14


15/106

Jai ecrit un chapeau sur pour indiquer quil sagit de notre estimateur MCO. Simple, non ? Cest

la premiere fois que nous voyons une application de la differentiation de matrices dans le cours.

Ce sera dailleurs presque la derniere fois. Rappelez-vous la page D-4 du document que je vous

ai donne a lire (je donne la reference exacte encore une fois a la fin de ces notes), specifiquement

lencadre en bas de la page :

y yx

Ax A

x

A A

xx 2x

xAx Ax + Ax

Etudiez bien la condition du premier ordre pour etre sur a 100% de comprendre comment on

lobtient en appliquant ces regles. Notez bien aussi que, pour les fins de notre differentiation, il y

a une fonction (la somme des residus carres) de k + 1 variables explicatives qui sont les elements

de .

Notez bien que le calcul de implique linversion dune matrice de dimensions (k+1)(k+1).Dans le cas general (ou k > 3), nous savons que nous ne pouvons pas obtenir une expression

algebrique pour cette matrice inversee. Resoudre ce probleme equivaut (ou presque) a trouver

les racines dun polynome dordre k + 1, et il y a un theoreme qui dit ceci est impossible en

general (algebriquement) pour des polynomes dordre 5 et plus. La solution algebrique pour un

polynome dordre 4 setale sur plusieurs pages, et elle nest pas dune grande utilite pratique. Si

nous voulions ecrire la solution pour avec k > 3 avec une notation de sommations, ca serait plus

quaffreux, ca serait carrement impossible. Il y a des moyens de contourner ce probleme, mais ce

sont des moyens qui datent davant lepoque dordinateurs personnels puissants. De nos jours, nous

pouvons toujours demander a lordinateur dinverser nos matrices (XX), utilisant des algorithmes

numeriques puissants et efficaces.

15


16/106

3.5 Quelques exemples simples des regles de differentiation

Pour illustrer le fonctionnement de ces regles de differentiation, prenons quelques exemples

concrets tres simples. Dabord, supposons que

y =

A1 A2

x1x2

= A1x1 + A2x2.

La fonction y dans ce cas-ci est une seule fonction (un scalaire donc). Il y a deux arguments de la

fonction (x1 et x2) et donc deux derivees partielles distinctes. Par convention, on ecrit les derivees

partielles en colonne :

y

x

yx1y

x2.

Nous constatons que

y

x1= A1

et y

x2= A2.

Donc,

y

x=

A1A2

= A,ce qui est conforme a la premiere regle du tableau.

Maintenant, supposons que

y =

A11 A12A21 A22

x1

x2

16


17/106

=

A11x1 + A12x2A21x1 + A22x2

y1

y2

Maintenant, y est composee de deux fonctions, definies par les deux rangees de lexpression ci-

dessus. Il y a deux fonctions avec deux arguments chacune (x1 et x2), et donc on a un total de

quatre derivees partielles. Nous avons

y1x1

= A11,

y1x2

= A12,

y2x1

= A21,

et

y2x2

= A22.

Par convention, on ecrit ces quatre derivees en notation matricielle comme

y1x1

y2x1

y1x2

y2x2

.

Donc, la convention revient a aligner toutes les derivees de la meme fonction dans la meme

colonne, et toutes les derivees par rapport au meme argument dans la meme rangee. Dans notre

cas, nous avons y1x1 y2x1y1x2

y2x2

= A11 A21

A12 A22

= A,et encore une fois la premiere regle du tableau est respectee.

Maintenant, supposons que

y =

x1 x2

A11 A12A21 A22

x1

x2

17


18/106

=

x1A11 + x2A21 x1A12 + x2A22

x1x2

= A11x1

2 + A21x1x2 + A12x1x2 + A22x22.

Cette fois-ci la fonction y est scalaire. Il y a deux derivees partielles possibles. Nous avons

y

x1= 2A11x1 + A21x2 + A12x2

et

y

x2= 2A22x2 + A21x1 + A12x1.

Ecrivant ces resultats en notation matricielle nous avons yx1y

x2

= A11A12

A21A22

x1

x2

+ A11A21

A12A22

x1

x2

= Ax + Ax,ce qui est conforme a la quatrieme regle du tableau.

Pour des cas plus compliques (plusieurs fonctions, plusieurs arguments), les expressions non

matricielles peuvent devenir assez longues et assez compliquees. Ces regles de differentiation ma-

tricielle permettent de tenir compte automatiquement et systematiquement (sans oublier des ter-

mes !) de toutes les derivees partielles possibles. Elles permettent aussi decrire toutes les derivees

partielles dans une notation tres compacte.

3.6 Approche non matricielle au probleme de minimisation

Le modele de regression multiple peut secrire en notation non matricielle comme suit :

Yi = 0 + X1i1 + X2i2 + . . . + Xkik + ui.

18


19/106

On veut minimiser la somme des residus au carre. Le probleme peut secrire comme suit :

min0,1,...,k

ni=1

(Yi 0 X1i1 X2i2 . . . Xkik)2 .

Les conditions du premier ordre pour minimiser cette fonction sont les suivantes (bien sur, il y a

k + 1 conditions dur premier ordre pusiquil y a k + 1 variables de choix pour minimiser notre

fonction (la somme des residus au carre) :

0 : 0 = 2n

i=1

(Yi 0 X1i1 . . . Xkik) ;

1 : 0 = 2n

i=1

X1i (Yi 0 X1i1 . . . Xkik) ;

2 : 0 = 2n

i=1

X2i (Yi 0 X1i1 . . . Xkik) ;

. . .

k : 0 = 2n

i=1

Xki (Yi 0 X1i1 . . . Xkik) .

Il sagit dun systeme de k + 1 equations en k + 1 inconnus (les s). Nous pouvons reecrire le

systeme comme suit :n

i=1

Yi =n

i=1

(0 + X1i1 + . . . + Xkik) ;

ni=1

X1iYi =n

i=1

X1i (0 + X1i1 + . . . + Xkik) ;

n

i=1 X2iYi =n

i=1 X2i (0 + X1i1 + . . . + Xkik) ;. . .

ni=1

XkiYi =n

i=1

Xki (0 + X1i1 + . . . + Xkik) .

19


20/106

Nous pouvons maintenant convertir ses equations en notation matricielle :

1 . . . 1

Y1...

Yn

= 1 . . . 1 X;

X11 . . . X 1k

Y1...

Yn

=

X11 . . . X 1k

X;

...

X11 . . . X kn

Y1...

Yn

=

Xk1 . . . X kn

X,

ou jai ecrit un chapeau sur pour indiquer quil sagit dun systeme dequations dont la solution

nous donne nos estimateurs moindres carres ordinaires. Soyez sur de comprendre ce passage a la

notation matricielle. Maintenant, en empilant les k + 1 equations les unes pardessus les autres,

nous avons tout de suite

1 . . . 1

X11 . . . X 1n

X21 . . . X 2n...

......

Xk1 . . . X kn

Y1...

Yn

=

1 . . . 1

X11 . . . X 1n

X21 . . . X 2n...

......

Xk1 . . . X kn

X

XY = XX

= (XX)1XY.

Nous retrouvons la meme solution en notation matricielle (ce qui nest point surprenant).

20


21/106

4 Proprietes de lestimateur MCO

4.1 Proprietes algebriques de lestimateur MCO

Comme dans le chapitre 4, nous allons montrer que lestimateur a des proprietes algebriques

qui doivent tenir independamment des hypotheses statistiques concernant les variables (explica-

tives et dependante) du modele. Ces proprietes doivent tenir pour nimporte quel echantillon de

donnees Nous utiliserons les resultats de cette section par la suite pour deriver certaines des pro-

prietes statistiques de lestimateur MCO. Nous avons, directement a partir des CPOs,

XX = XY

X

X Y

= 0

X

Y X

= 0.

Entre parentheses, nous avons un vecteur de dimensions n 1 qui nous donne les residus de laregression (variable dependante moins la valeur predite de la variable dependante donnee par X).

Autrement dit,

Y X U .Donc, nous avons :

XU = 0,ou Uest le vecteur de residus de la regression. Les residus sont orthogonaux aux variables explica-tives. Par definition, deux vecteurs Z1 et Z2 de dimensions n 1 sont orthogonaux si et seulementsi

Z1Z2 = 0

Cela veut dire que chaque variable explicative (chaque colonne de la matrice X) est orthogonale

aux residus de la regression. Ce resultat est une generalisation du resultat dans le chapitre sur la

21


22/106

regression simple de lorthogonalite entre la seule variable explicative (a part la constante) et les

residus. Cest une generalisation, mais la preuve est beaucoup plus succincte que celle quon a vue

dans le chapitre sur la regression simple. Encore un avantage de la notation matricielle.

Nous avons vu dans le chapitre sur le modele de regression simple que lorthogonalite est reliee

a linterpretation geometrique de la methode de MCO. Estimer un modele par MCO revient a

projeter la variable dependante dans lespace traverse par la variable explicative (ou les variables

explicatives dans le cas de la regression multiple). La Figure 1 ci-dessous reprend le graphique

que nous avons vu dans le chapitre precedent. Cest donc pour le cas ou il y a deux variables

explicatives. La ligne de regression est considere comme un vecteur. La ligne pointillee sur le

graphique est un vecteur dont la longueur egale la valeur de ui a ce point. Il forme un angle droit

par rapport a la ligne de regression, dou le terme orthogonal .

Figure 1

Notez que, par convention, la premiere colonne de X represente la constante et donc contient

un vecteur de valeurs egales a un. Si nous denotons cette premiere colonne par X1 (notez que nous

utilisons ici une notation dalgebre lineaire), nous avons tout de suite

X1U = n

i=1

ui = 0.

Donc, la somme des residus est egale a zero, comme dans le modele de regression simple.

Definissons

Y X,

22


23/106

le vecteur de valeurs predites de la variable dependante. Nous avons

Y

U =

X(XX)

1XY

U

= YX(XX)1

XU = 0.Les valeurs predites de la variable dependante sont orthogonales aux residus.

Finalement, nous avons

X

Y Y

= X

X(XX)

1XY Y

= XX(XX)

1XY XY = XY XY = 0.

Puisque la premiere colonne de X est un vecteur de valeurs unitaires, une consequence directe

de ce resultat est que la moyenne echantillonnale des valeurs predites est egale a la moyenne

echantillonnale de la variable dependante elle-meme. Autrement dit :

1

n

n

i=1 Yi =1

n

n

i=1 Y Y ,un resultat semblable a ce que nous avons vu dans le chapitre sur la regression simple.

4.2 Ecart type de la regression

On definit

SER su,

ou

s2u 1

n k 1n

i=1

u2i =SSR

n k 1 ,

23


24/106

et donc SSR est la somme des residus au carre. On divise par (n k 1) afin dobtenir un estimenon biaise de la variance de lerreur dans lequation de regression lorsque celle-ci est constante. 5 Je

sais que jinsiste beaucoup la-dessus, mais les demonstrations algebriques dans cette section sont

beaucoup plus courtes que leurs equivalents dans le chapitre precedent. Cest dans ce sens que je

dis que lutilisation de la notation matricielle dans le contexte du modele de regression multiple

simplifie enormement lanalyse. Sil fallait deriver les memes proprietes sans avoir recours aux

matrices, les demonstrations setaleraient sur plusieurs pages.

4.3 Mesures dajustement statistique

4.3.1 Le R2

La mesure R2 est definie de la meme facon que dans le cas du modele de regression simple :

R2 =ESS

TSS= 1 SSR

TSS,

ou on definit

ESS

n

i=1 Yi Y2

,

ou Y est la moyenne echantillonnale des Yi, et

TSS n

i=1

Yi Y

2Nous avons suppose implicitement ici que

TSS = SSR + ESS.

En fait, il faut demontrer ce resultat, comme nous avons fait dans le chapitre sur le modele de

5. Ici on suppose implicitement des erreurs homoscedastiques, ou a variance constante. Sinon il nest pas logique

de parler de la variance de lerreur.

24


25/106

regression simple. Nous avons

YY =

X+

U

X+

U

= XX+ XU + UX+ UU= XX+ UU

YY + UU = YY + SSR.Nous avons utilise pour passer a lavant derniere ligne de cette sequence dequations le resultat que

XU = 0. Nous avons presque montre le resultat voulu en quatre lignes, mais nous avonsTSS (Y Y) (Y Y)

= YY YY YY + YY

ou Y est un vecteur de constantes avec chaque valeur egale a Y, et nous avons

ESS Y Y Y YYY YY YY + YY.

Donc, nous devons montrer que

Y

Y = Y

Y

Y

n

i=1 Yi = Yn

i=1 Yi 1

n

ni=1

Yi =1

n

ni=1

Yi = Y ,

ce qui doit etre le cas puisque nous avons montre parmi les proprietes algebriques de lestimateur

MCO que la moyenne echantillonnale des valeurs predites de la variable dependante doit etre egale

25


26/106

a la moyenne echantillonnale de la variable dependante elle-meme. Donc, nous venons de montrer

que

TSS = ESS + SSR.

Sachant que Y Y + U, une facon plus succincte de le faire est comme suit :TSS = (Y Y) (Y Y)

=

Y + U Y Y + U Y=

Y Y

+

U

Y Y

+

U

=

Y Y Y Y+ Y YU + U Y Y+ UU=

Y Y

Y Y

+ UU ESS + SSR,

puisque nous avons montre auparavant que Y

U = 0 et

YU = n

i=1

Y Ui = Yn

i=1

Ui = 0.

4.3.2 Le R2 ajuste

On peut montrer mathematiquement que le fait de rajouter une variable explicative addition-

nelle a un modele de regression multiple ne peut que faire augmenter son R2. 6

De cette facon, nous pouvons toujours ameliorer lajustement statistique dune regression

en ajoutant des variables explicatives. En fait, si nous avons autant de variables explicatives que

dobservations ((k + 1) = n), il est possible datteindre un ajustement statistique parfait . Il

6. Si vous etes a laise avec les principes de base de loptimisation sous contrainte, ce resultat est evident. Les-

timateur MCO est la solution a un probleme de minimisation. Si on minimise la somme des residus carres sujet a la

contrainte quun des coefficients est egal a zero (on enleve la variable du modele), et puis on minimise la somme des

residus carres en ne pas imposant cette contrainte, la somme des r esidus carres doit etre au moins aussi petite dans le

dernier cas, puisque nous relachons une des contraintes du probleme de minimisation.

26


27/106

faudrait trouver la solution a

0 = U = Y X

Y = X.

Nous avons n equations et n inconnus. Dans la mesure ou Xest de rang plein (rang n), nous avons

= X1Y.

Donc, un R2 eleve nest pas toujours et partout une bonne chose.

Puisque lajustement mesure par le R2 ne peut quaugmenter quand on ajoute des variables

explicatives, il serait bien davoir une autre mesure qui penalise la mesure par un facteur lorsquon

ajoute des variables explicatives. Le R2 ajuste, denote par R2 est une telle mesure. Voici sa

definition :

R2 1 n 1n k 1

SSR

TSS= 1 s

2u

s2Y.

On peut souligner trois proprietes du R2.

1. Puisque n1nk1

> 1, on sait que R2 < R2.

2. Le fait dajouter une variable explicative supplementaire a deux effets sur R2. Dune part, la

somme des residus carres SSR doit baisser, ce qui fait augmenter R2. Dautre part, le facteur

n1nk1

augmente, ce qui fait diminuer R2.

3. Il est possible que R2 soit negatif.

4.4 Proprietes statistiques : absence de biais

Toutes les proprietes (algebriques) de lestimateur MCO que nous avons montrees jusqua

maintenant tiennent independamment des hypotheses statistiques de la section (3.3). La seule hy-

pothese que nous avons utilise pour deriver les proprietes algebriques est celle du rang plein en

colonnes de X et donc de la possibilite de calculer (XX)1.

27


28/106

Pour montrer labsence de biais, nous utilisons la strategie habituelle. Nous remplacons Y

dans la definition de lestimateur par sa definition (X+ U), nous simplifions, et finalement nous

calculons la valeur esperee de lestimateur en utilisant la loi des esperances iterees.

Nous avons :

= (XX)1XY

= (XX)1X(X+ U)

= + (XX)1XU

E

= + E

(XX)1XU

= + E (XX)1XE (U|X) = .La derniere egalite depend de la loi des esperances iterees.

Je ne sais pas si vous etes daccord, mais je crois que la demonstration de labsence de biais

dans le cas du modele de regression multiple est beaucoup plus simple que dans le cas du modele de

regression simple, a cause de lutilisation de la notation matricielle. La preuve secrit sur quelques

lignes seulement est elle est assez transparente.

4.5 Petite note : theoreme de Slutsky

Pour deriver la convergence de lestimateur et pour deriver sa distribution en grand

echantillon, nous allons devoir faire appel au theoreme de Slutsky.

Lenonce du theoreme se trouve dans le manuel a la page 685. Il est utile, sinon tres utile, sinon

archi utile. Il dit essentiellement que si une variable aleatoire converge en probabilite a quelque

chose, une fonction continue de la variable aleatoire converge a la meme fonction de ce a quoi

converge la variable aleatoire.

Un enonce un peu plus general du theoreme se trouve a Wikipedia ( Slutskys Theorem ).

Autrement dit, si

Xnp X,

28


29/106

alors

h (Xn)p h(X).

Les conditions qui doivent tenir pour que le theoreme tienne sont explicitees dans larticle chez

Wikipedia.

Pourquoi est-ce que ce theoreme est si utile ? Si on veut analyser le comportement en grand

echantillon dun estimateur, on peut analyser le comportement de ses composantes, sachant que

(sous certaines conditions), si les composantes convergent en probabilite a quelque chose, et si

lestimateur est une fonction des composantes, lestimateur converge en probabilite a cette fonc-

tion. De facon informelle, si

Zn = f(Xn, Yn) ,

et si Xnp X et Yn p Y, alors

Znp f(X, Y).

Voir lequation (17.9) pour un enonce un peu plus general. Si anp a ou a est une constante et

si Snd S, alors

an + Snd

a + S,

anSnd aS,

et si a = 0,Snan

d Sa

.

Le fait de pouvoir travailler avec des morceaux individuels de nos estimateurs nous facilite

grandement la vie. Notez que la manipulation algebrique des limites de probabilite est beaucoup

plus simple que la manipulation algebrique des esperances. Nous savons quen general,

E (XY) = E(X)E(Y),

29


30/106

sauf dans le cas de variables aleatoires independantes, et nous savons quen general,

Ef(X) = f(E(X)) ,

sauf dans le cas ou fest une fonction lineaire (le cas du fameux encadre 2.3 qui nous dit entre autres

que lesperance dune fonction lineaire de variables aleatoires est egale a la fonction lineaire des

esperances des variables aleatoires).

4.6 Proprietes statistiques : convergence

= (XX)1XY

= (XX)1X(X+ U)

= + (XX)1XU

=

(XX)

n

1

(XU)

n

Nous avons divise et multiplie par le scalaire n afin de pouvoir parler de convergence en probabilite.(XX)

nest une matrice dont lelement i, j est donne par

XiXjn

=1

n

nl=1

Xi1,lXj1,l.

Du cote gauche on utilise la notation matricielle standard. Du cote droit, on utilise la notation

du manuel pour le modele de regression multiple. Notez encore une fois linversion des indices

inferieurs entre la notation matricielle standard et la notation du modele de regression multiple

utilise dans le livre. Dans lieme colonne de la matrice, on retrouve les observations sur la variable

explicative i 1. Par une des hypotheses du modele de regression multiple, nous avons

limn

XiXjn

= E (XiXj) .

30


31/106

Ceci veut dire quil y a convergence en probabilite vers lesperance de XiXj . Donc,

(XX)n

con-

verge en probabilite a Qx, qui est definie comme

Qx EXX

n .Cest donc une matrice des deuxiemes moments des variables explicatives. Notez que ce nest pas

une matrice variance-covariance des variables explicatives puisque nous ne soustrayons pas les

moyennes. 7 Une des hypotheses du modele est que la matrice (XX) est inversible (absence de

multicollinearite complete). Si cest le cas, XX satisfait les conditions du theoreme de Slutsky,

et donc la limite de probabilite de linverse de la matrice est linverse de la limite de probabilite.

Donc, le premier terme converge en probabilite a

(Qx)1

Le deuxieme terme converge en probabilite a zero. Je ne vais pas faire la preuve formelle de cet

enonce. Par contre, nous avons deja vu que son esperance est nulle :

E(XU)n

= E(XE (U|X))n

= 0.Sa variance est donnee par

Var

(XU)

n

=

1

n

2Var (XU) .

Il sagit de la variance dun vecteur de dimensions (k + 1) 1. Si on considere lieme colonne de7. Nous pouvons en general faire une distinction entre lenieme moment brut dune variable aleatoire Ydonne par

E (Yn) et lenieme moment centre donne par E ((Y E(Y))n). Revoir le chapitre sur la theorie des probabilites pourun rappel. La covariance entre deux variables aleatoires X et Y, E ((Y E(Y)) (X E(X))), est donc un momentcentre, et notre Qx est un moment brut.

31


32/106

la matrice X, nous avons

Var

1

nXi

U

= 1n2

Var (Xi

U)

=

1

n

2Var

nl=1

Xi1,lUl

=

1

n

2 nl=1

Var (Xi1,lUl) .

Definissons Xi1,lUl Vi,l. Nous avons

Var 1n

XiU

=

1

n

2 nl=1

Var (Vi,l)

=

1

n

2nVar (Vi)

= 1nVar (Vi) .Nous avons fait des hypotheses de quatrieme moments finis et dobservations i.i.d., et donc la

variance Var (Vi) est finie et constante. Nous avons

limn

1

nVar (Vi)

= 0.

Avec une esperance de zero et une variance qui tend vers zero, on a (presque) la preuve de la

convergence :

(XU)

n

p 0.

Les hypotheses du theoreme de Slutsky sont satisfaites, donc la limite de probabilite du produit

32


33/106

est le produit des limites de probabilite. Donc, nous avons :

p 0.

4.7 Petite note sur les covariances en notation matricielle

En guise de preparation pour la sous-section suivante, on va se pencher dans cette sous-section

sur comment ecrire des covariances en notation matricielle. Prenons un vecteur de k variables

aleatoires Y de dimensions k 1. Nous pouvons ecrire les esperances de toutes les variablesaleatoires en notation matricielle tout simplement comme :

E(Y).

Considerons maintenant la matrice suivante :

(Y E(Y)) (Y E(Y)) .

Cette matrice est de dimensionsk k

. Lelement dans li-ieme rangee et la j-ieme colonne de cette

matrice est :

(Yi E (Yi)) (Yj E (Yj)) .

Par definition,

E ((Yi E (Yi)) (Yj E (Yj)))

nous donne la covariance entre les variables aleatoires Yi et Yj . Dans le cas ou i = j, nous avons

par definition la variance de Yi.

Donc, la matrice suivante :

E

(Y E(Y)) (Y E(Y)) ,

33


34/106

est une matrice qui contient toutes les variances des variables aleatoires dans Y (le long de la

diagonale) et toutes les covariances possibles entre les variables aleatoires dans Y. En fait, puisque

Cov (Yi, Yj) = Cov (Yj, Yi) ,

la matrice est symetrique, avec lelement i, j egal a lelement j, i. Donc, nous pouvons ecrire de

facon succincte toutes les variances et covariances possibles entre les variables aleatoires regroupes

dans un vecteur Y.

4.8 Proprietes statistiques : distribution en grand echantillon

Cette section est un peu ardue. Son but est de developper une expression pour la matrice

variance-covariance de lestimateur , et de contraster la variance robuste (lorsque on ne fait

pas dhypothese particuliere concernant lhomoscedasticite) avec la variance en presence dho-

moscedasticite. Dans votre travail pratique de tous les jours deconometres, vos logiciels (comme

R, STATA ou GRETL) vont faire les calculs developpes dans cette sous-section automatiquement.

Par contre, si jamais vous voulez utiliser un logiciel comme MATLAB ou Excel ou la matrice

variance-covariance robuste nest pas calculee automatiquement, vous allez pouvoir programmer

son calcul vous-memes.

Nous voulons travailler avec une expression dont la variance ne diminue pas vers zero lorsque

n . Donc, au lieu de travailler avec

, qui converge vers une constante (convergence

en probabilite), nous avons :

n

= (XX)n

1(XU)n .

Le dernier terme, au lieu de converger a une constante, a maintenant une variance qui ne decrot

pas avec n. Nous avons donc quelque chose qui va converger en distribution, et non quelque chose

qui va converger en probabilite vers un vecteur de constantes.

34


35/106

Nous avons deja vu dans la sous-section sur labsence de biais que

E

= 0.

Donc, une expression qui nous donne la matrice de variance-covariance de

n

est donneepar :

E

n

Notez bien la multiplication de

par

n. Dans le modele de regression simple, nous avons

vu que la variance de lestimateur 1 decrot au rythme 1/n et donc tend vers zero lorsque n tend

vers linfini. Nous voulons travailler avec une variable aleatoire (plutot un vecteur de variablesaleatoires) qui reste une variable aleatoire meme lorsque la taille de lechantillon tend vers linfini.

Pour cette raison, nous multiplions par

n, ce qui nous laissera avec une variance qui ne tend pas

vers zero et, dautre part, reste finie lorsque n tend vers linfini.

Pour evaluer la matrice variance-covariance de

n

, nous devons examiner le com-

portement en grand echantillon de

(XX)n

1(XU)n(XX)

n1(XU)

n

=

(XX)

n

1

(XU)n

(XU)

n

(XX)

n

1

.

Nous avons deja vu que(XX)

n

1

converge en probabilite a (Qx)1

. Donc, nous devons nous

pencher sur le comportement de

(XU)n

(XU)n

.

(XU) est un vecteur de dimensions (k + 1) 1, puisque X est de dimensions n (k + 1) et U

35


36/106

est de dimensions n 1. Nous avons :

(XU) =n

i=1

ui

X1iui

X2iui...

Xkiui

ni=1

Vi.

Par hypothese, selon le Key Concept 18.1 , les Vi sont i.i.d. Cela veut dire que

1

n

n

i=1 Viconverge en probabilite a un vecteur de zeros, et que (par une version du theoreme de la limite

centrale),

1n

ni=1

Vi

converge en distribution a un vecteur de variables normales dont la moyenne est zero (on sait cela

puisque nous avons montre labsence de biais) et dont la variance est donnee par :

E (ViVi) V.

Donc, nous pouvons encore une fois invoquer le theoreme de Slutsky pour dire que

n

d N0k+1 , Qx1VQx1 ,ou nous utilisons 0k+1 pour denoter un vecteur de zeros de dimensions (k + 1) 1.

36


37/106

4.8.1 Cas homoscedastique

Dans le cas homoscedastique, la variance de ui est constante et independante des Xi. Formelle-

ment, nous pouvons ecrire :

E (U U) = 2uIn.

Nous avons : (XU)

n

(XU)

n

=

XU UX

n

p E

1

n2uX

InX

= E

1

n2uX

X

= 2uQx.

Donc, lexpression pour la variance de

n

se simplifie beaucoup. Nous avons :

n

d N0k+1 , 2uQx1QxQx1 = N0k+1 , 2uQx1 .

5 Variance echantillonnale de

Comme dhabitude, notre derivation de la distribution en grand echantillon de n depend de quantites que nous ne connaissons pas, par exemple de

Qx E

XX

n

.

Il est (presque) toujours le cas que nous ne connaissons pas les vrais moments (moyennes, vari-

ances, moments bruts voir la note de bas de page a la page 15) de nos variables aleatoires.

Que faire alors si nous voulons developper une expression pour la variance de notre estimateur

, basee sur des quantites que nous pouvons mesurer ? Nous suivons la strategie habituelle, que

nous avons deja utilisee a maintes reprises, de remplacer les moments non connus de la population

37


38/106

par des estimateurs convergents. Donc, nous remplacons Qx par :

Qx (XX)

n.

Nous remplacons V par :

V 1n k 1

ni=1

XiXi (ui)

2 ,

ou Xi est lieme rangee de la matrice X.8 Comme dhabitude, nous divisons par (n k 1)

ici et non par n afin dobtenir un estime non biaise. Nous nallons pas montrer explicitement que

cette expression est un estimateur convergent de V, mais nous aurions pu le faire. Nous pouvons

finalement ecrire :

N

,1

n

Qx1

v

Qx1

N

,

.

Jutilise ici la notation pour capter lidee que suit une distribution qui est approxima-tivement normale. Notez que cest encore le theoreme de Slutsky qui nous permet de dire que si

nous avons un produit de trois estimateurs convergents, la limite en probabilite (ou dans ce cas-ci

la limite en distribution) du produit est le produit de la limite en probabilit e des trois termes.

Tout bon logiciel de regression, comme R, STATA ou GRETL, calcule la matrice variance-

covariance de automatiquement. Mais attention ! Il sagit de la matrice variance-covariance ro-

buste (ou la variance du terme derreur ui nest pas forcement constante et independante des Xi). Il

faut en general verifier dans la documentation du logiciel sil calcule par defaut la matrice robuste

ou la matrice qui impose une hypothese dhomoscedasticite (sous-section suivante). Si loption

par defaut est la matrice variance-covariance sous lhypothese dhomoscedasticite, il faut specifier

dans le code de son programme le calcul de la matrice robuste.

Habituellement, loutput du logiciel de regression ne donne pas la matrice variance-covariance

8. Jutilise la notation matricielle standard ici. Stock et Watson a la page 699 du manuel definissentXi comme un

vecteur colonne, ce qui nest pas conforme a la notation matricielle standard. Pourquoi introduire encore une autre

incoherence entre la notation standard et la leur ?

38


39/106

au complet, mais se limite plutot a donner lecart type robuste associe a chaque coefficient in-

dividuel. Lecart type de i est la racine carree de li-ieme element diagonal de . Par contre,

le logiciel a besoin de la matrice variance-covariance au complet lorsquil sagit deffectuer un

test dhypotheses jointes. Nous nous pencherons sur cette question dans la derni ere section de ces

notes.

5.1 Cas homoscedastique

Encore une fois, nous suivons la strategie general de remplacer les moments inconnus par des

estimateurs convergents. Un estimateur convergent de 2u est donne par :

s2u 1

n k 1n

i=1

u2i .

Nous avons deja rencontre lestimateur convergent de Qx :

Qx (XX)

n.

Donc, nous avons le resultat suivant :

N

,1

ns2u

Qx1

N

,

,

ou jutilise pour denoter la matrice variance-covariance dans le cas special de lho-

moscedasticite.

Cet estimateur de la matrice variance-covariance est tres facile a programmer si vous devez le

faire. En notation MATLAB, si X est la matrice contenant les observations sur les variables

explicatives et si Uhat est le vecteur de residus de la regression, nous avons :

Sigmahat = (Uhat) Uhat inv(XX)/(n k 1); .

39


40/106

5.2 Homoscedasticite versus Heteroscedasticite

Suivant la philosophie du livre de Stock et Watson, nous avons mis laccent sur le cal-

cul decarts types pour nos coefficients estimes qui sont robustes a la presence derreurs

heteroscedastiques. Jaccepte completement largument de Stock et Watson que les donnees que

nous utilisons la plupart du temps pour estimer nos modeles econometriques nont pas les erreurs

homoscedastiques.

Par contre, on peut se poser la question suivante : y a-t-il des facons de detecter la presence de

lheteroscedasticite ? La reponse est Oui , mais le livre de Stock et Watson est totalement muet

a cet egard. Commencons par une methode informelle ou graphique.

Il sagit de regarder un graphique avec les residus de lequation estimee sur laxe vertical et une

des variables explicatives du modele sur laxe horizontal. Si la grandeur absolue des residus varie

systematiquement avec la variable explicative, cest un signe de la presence de lheteroscedasticite.

On peut aussi regarder un graphique ou on mesure les residus au carre sur laxe vertical. Si les

points on une pente non nulle evidente (positive ou negative), cest un signe de la presence de

lheteroscedasticite. Si cest le cas, il est fortement conseille deffecteur un ou plusieurs tests

formels.

1. Larticle Wikipedia qui sintitule Heteroscedasticity est une bonne introduction au sujet.

2. Le test Goldfeld-Quandt.

3. Le test Breusch-Pagan. On regresse les residus au carre sur les variables explicatives du

modele. Il y a un bon article sur Wikipedia qui explique le test.

4. Le test de White. Cest peut-etre le test le plus frequemment utilise. Leconometre qui la

developpe a aussi propose la version robuste de la matrice variance-covariance que lon

presente dans le manuel. Pour effectuer le test, on utilise les residus au carre comme la vari-

able dependante dans une regression multiple (quon appelle une regression auxiliaire ),

ou les variables explicatives sont les variables explicatives du modele original, tous les co-

produits possibles des variables explicatives, et les variables explicatives au carre. White a

40


41/106

montre que la statistique R2 de cette regression suit (en grand echantillon) une distribution

2 avec un nombre de degres de liberte egal au nombre de variables explicatives dans la

regression auxiliaire moins un. Il y a un article sur ce test chez Wikipedia, mais il est moins

complet que larticle sur le test Breusch-Pagan.

5. Le test de Glesjer.

Voir larticle Heteroscedasticity chez Wikipedia pour plus de details sur les tests differents

et pour des renvois.

Bon nombre de logiciels econometriques modernes effectuent le test de White, ou un ou

plusieurs des autres tests lors de lestimation dun modele de regression multiple, soit automa-

tiquement soit en specifiant une option simple.

En presence dheteroscedasticite, si sa forme est connue (si on connat comment depend la

variance de lerreur en fonction des variables explicatives du modele), il y a des estimateurs plus

efficients des coefficients du modele. Il sagit de lestimateur moindres carres generalises ( Gen-

eralized Least Squares en anglais). Nous navons pas le temps detudier cet estimateur dans ce

cours. Il fait partie des sujets etudies dans le cours ECO5272.

6 Efficience de lestimateur MCO sous lhomoscedasticite

Sous les hypotheses de base du modele de regression multiple, et dans le cas de lho-

moscedasticite, on peut montrer que lestimateur MCO a une variance au moins aussi petite que

nimporte quel autre estimateur lineaire (en Y) et non biaise. Cest le theoreme Gauss-Markov.

Dans le cas dun vecteur de parametres, il faut comprendre variance au moins aussi petite

que dans le sens suivant. Si est nimporte quel estimateur lineaire et non biaise de , il faut

que

Var

c

Var

c

pour toute combinaison lineaire c. Ici, c est un vecteur de constantes de dimensions (k + 1) 1et donc cest un scalaire. Il y a une preuve du theoreme dans lannexe 18.5 du manuel.

41


42/106

Le theoreme Gauss-Markov explique limportance de lestimateur MCO dans lhistoire de

leconometrie et de la statistique.

Tel quindique a la fin de la section precedente, il est possible, si on connat la forme de

lheteroscedasticite (comment elle est reliee aux variables explicatives du modele), lestimateur

MCG (moindres carres generalises) sera typiquement plus efficient que lestimateur MCO.

6.1 Preuve du theoreme Gauss-Markov

Je reprends ici une preuve relativement simple tiree de larticle Wikipedia sur le Theoreme

Gauss-Markov. Il est tres important de noter que pour les fins de cette preuve, les variables ex-

plicatives X sont considerees comme etant fixes ou non stochastiques.

Soit = CY un autre estimateur lineaire de . 9 On suppose que C peut etre ecrite comme

(XX)1X + D, ou D est une matrice non nulle de dimensions (k + 1) n. Notre but est demontrer que sa variance doit etre au moins aussi elevee que celle de , lestimateur MCO.

Lesperance de est donnee par

E (CY) = E (XX)1X + D (X+ U)

=

(XX)1X + D

X+ E

(XX)1X + D

U

= + DX+ E

(XX)1X + D

E (U|X)= + DX,

ou nous avons utilise la loi des projections iterees. Nous voulons prouver que a la plus petite

variance parmi tous les estimateurs lineaires non biaises. Pour que notre estimateur soit non biaise,

il faut que

DX = 0.

Calculons maintenant sa variance. Il sagit de la variance conditionnelle (etant donne les valeurs

9. Il faut aussi prendre les elements de Ccomme etant fixes ou non stochastiques.

42


43/106

de D et de X). Nous avons

Var (CY|X, D) = CVar(Y|X, D)C

= CVar(U|X)C

= 2

CC

= 2

(XX)1X + D

(XX)1X + D

= 2

(XX)1XX(XX)1 + (XX)1XD + DX(XX)1 + DD

= 2 (XX)1 + DD

= 2(XX)1 + 2

DD

puisquil faut que DX = 0 si notre estimateur est non biaise.

La matrice DD est une matrice positive semi-definie. Nous avons

Var Var = 2DD

Var

c

Var

c

= 2cDDc 0,

la derniere inegalite etant la definition meme dune matrice positive semi-definie. Ce qui fut a

demontrer.

43


44/106

7 Biais du a des variables omises (bis)

Montrer le biais qui provient de variables omises est beaucoup plus facile en notation ma-

tricielle quavec des sommations. Supposons que le vrai modele peut etre ecrit comme :

Y =

X1X2

12

+ U X11 + U .

Ici, X1 et X2 ont linterpretation de sous-matrices et 1 et 2 ont linterpetation de sous-vecteurs.

Donc, la derniere equation indique nous avons, de facon erronee, regroupe des variables ex-

plicatives du modele avec le terme derreur.

Si nous estimons le modele errone, nous avons :

1 = (X

1X1)1(X1Y) = (X

1X1)1(X1(X+ U))

= (X1X1)1X1 X1 X2

1

2 + U= (X1X1)

1X1X11 + (X

1X1)1X1X22 + (X

1X1)1X1U

= 1 + (X

1X1)1X1X22 + (X

1X1)1X1U

Nous avons :

E1 = 1 + E (X1X1)1X1X22+ E (X1X1)1X1E (U|X)= 1 + E

(X1X1)

1X1X22

= 1 + E

(X1X1)1X1X2

2.

44


45/106

Interpretation : le biais depend de X1X2, la matrice de comouvements bruts entre les elements de

X1 et les elements de X2 ainsi que des vraies valeurs des coefficients 2.

Notez que

(X

1X1)1

X

1X2

serait tout simplement la matrice de coefficients obtenus si on regressait chaque variable dans

X2 sur X1. Cest essentiellement la formule dun estimateur MCO, mais cest une generalisation

puisque X2 est une matrice et non un vecteur.

Vous devriez verifier que lexpression developpee pour le biais au debut du chapitre 6 du

manuel est tout simplement un cas special de cette expression.

Afin de mieux cerner le concept de biais du a des variables omises, je developpe dans lencadre

le sujet du modele de regression partitionne qui suit.

Regression partitionnee

Pour de plus amples renseignements, voir Pollock (2007). Reprenons le modele de

regession multiple en faisant la distinction entre le sous-ensemble de variables explicatives

X1 et le sous-ensemble X2.

Y =

X1X2

12

+ U= X11 + X22 + U.

Au lieu de regrouper les variables X2 avec le terme derreur comme nous avons fait dans la

section precedente, nous allons regarder explicitement comment notre estime MCO de 1, soit

1, est affecte par 2. Rappelons ce que nous avons appele les equations normales lorsque

45


46/106

nous avons trouve la solution pour lestimateur MCO pour le modele de regression multiple :

XX = XY.

Nous pouvons ecrire ces equations commme deux sous-ensembles dequations :

X1X11 + X

1X22 = X

1Y

et

X2X11 + X

2X22 = X

2Y.

Du premier de ces 2 ensembles dequations, nous avons

X1X11 = X

1 (Y X22)

1 = (X1X1)1 X1

Y X22

.

Nous devons maintenant trouver une solution pour 2. Multiplions le premier sous-ensemble

par X2X1 (X

1X1)1

pour obtenir

X2X11 + X

2X1 (X

1X1)1

X1X22 = X

2X1 (X

1X1)1

X1Y.

Maintenant, soustrayons cette equation du deuxieme sous-ensemble dequations, obtenant

ainsi

X

2X22 X

2X1 (X

1X1)

1

X

1X22 = X

2Y X

2X1 (X

1X1)

1

X

1Y.

X2X2 X2X1 (X1X1)1 X1X2

2 =

X2 X2X1 (X1X1)1 X1

Y.

Definissons

P1 X1 (X1X1)1 X1.

46


47/106

Nous pouvons ecrire

(X2 (I P1) X2) 2 = X2 (I P1) Y

ou I est la matrice identite conformable a P1, et donc

2 = (X

2 (I P1) X2)1 X2 (I P1) Y.

Notez que nous avons suivi une methodologie semblable a celle dans le chapitre sur le modele

de regression simple. Nous avons trouve une solution pour 1 en fonction de 2, et ensuite

nous avons elimine 1 dans la solution pour 2 par substitution.

Ces solutions permettent de reinterpreter lestimateur MCO comme un estimateur en deux

etapes. Considerons dabord la regression de la variable Y sur X1 seulement. Si on appelle les

coefficients estimes 1, nous avons

1 (X1X1)1 X1Y,

Y = X11 = X1 (X

1X1)1

X1Y

les valeurs predites de Y sur la base de cette regression, et

U Y X1 (X1X1)1 X1Y =

I X1 (X1X1)1 X1

Y

le vecteur de residus de cette regression. Considerons maintenant la regression des variables

X2 sur les X1. Appelons les coefficients . Nous avons

(X1X1)1 X1X2.

Notez quil sagit dune matrice de coefficients estimes puisquil y a tout un vecteur de vari-

ables dependantes au lieu dune seule. Appelons X2 les valeurs predites des variables X2. Nous

47


48/106

avons

X2 = X1 = X1 (X

1X1)1

X1X2,

etU X2 X1 (X1X1)1 X1X2

=

I X1 (X1X1)1 X1

X2

= (I P1) X2

la matrice de residus de ces regressions. (Il y a autant de colonnes dans U que dans X2.)

Maintenant, considerons la regression de U sur U. Appelons le vecteur de coefficients

estimes . Nous avons

=

UU1

UU .

Nous avons

UU = X2

I X1 (X1X1)1 X1

I X1 (X1X1)1 X1

X2

= X2 (I P1) (I P1) X2

= X2 (I P1) X2

puisque

(I P1) (I P1)

= (I

P1) .

Vous pouvez verifiez cette egalite facilement. Notez quune matrice Z qui a la propriete que

ZZ = Z est appelee une matrice idempotente. Donc, finalement nous avons

= (X2 (I P1) X2)1 X2 (I P1) Y.

48


49/106

Mais ceci nest rien dautre que la solution que nous avions trouv ee pour 2.

En regressant Y sur X1 et X2 sur X1, on purge leffet des X1 sur la variable dependante

Y et sur les autres variables explicatives X2. Avec la regression de U sur U, on estime leffet

des X2 (purgees de linfluence des X1) sur Y (purgee aussi de linfluence des X1). Mais cest

exactement ce que fait lestimation MCO lorsquon inclut les deux sous-ensembles de variables

explicatives dans le modele en meme temps. Ce resultat sappelle le theoreme Frisch-Waugh-

Lovell. Pour de plus amples renseignements, voir Lovell (2010).

Supposons maintenant que notre modele de regression est sans constante. Nous pouvons

toujours reecrire le modele de regression lineaire de la facon suivante :

Y = X+ U

Y = X+ U

Y Y = X X + U U .Si, comme dhabitude, la premiere colonne contient une constante, elle va disparatre de ce

systeme dequations et nous aurons

Y = X+ U

ou

Y Y Y ,

X X X

et

U U U

et ou X peut etre redefinie comme une matrice n k puisque sa premiere colonne est une

49


50/106

colonne de zeros. Autrement dit, il est toujours possible de reecrire le modele de regression

lineaire sans une constante en exprimant toutes les variables (explicatives et dependante)

comme des deviations par rapport a leurs moyennes echantillonnales.

Donc, supposons que notre modele est effectivement sans constante. Quest-ce qui ar-

rive lorsque la correlation echantillonnale entre X1 et X2 est zero ? Dans ce cas, nous avons

X1X2 = 0, puisque les variables dans X1 et X2 sont mesurees en deviations par rapport a leurs

moyennes echantillonnales. Autrement dit, X1 et X2 sont orthogonales. Nous avons dans ce

cas particulier

= (XX)1

XY

=

X1X1 X1X2X2X1 X

2X2

1 X1

X2

Y

=

X1X1 00 X2X2

1 X1

X2

Y

= (X

1X1)1 0

0 (X2X2)1 X

1

X2 Y

=

(X1X1)1 X1Y(X2X2)

1 X2Y

.On aurait pu montrer le meme resultat a partir des solutions developpees ici pour 1 et 2.

Faisons-le ici. Nous avons

1 = (X

1X1)1

X1

Y X22

= (X1X1)1

X1Y (X1X1)1 X1X22

= (X1X1)1

X1Y

50


51/106

dans le cas de lorthogonalite. Dans le cas de 2, nous avons

2 = (X

2 (I

P1) X2)

1X2 (I

P1) Y

=

X2X2 X2X1 (X1X1)1 X1X21

X2Y X2X1 (X1X1)1 X1Y

= (X2X2)1

X2Y

dans le cas de lorthogonalite. Dans le cas general (lorsque X1 et X2 ne sont pas orthogonales),

les solutions ne sont evidemment pas aussi simples.

Ceci veut dire que, dans le cas de lorthogonalite, on peut estimer un modele de regression(avec Y comme variable dependante) contenant seulement les variables X1, seulement les

variables X2, ou avec toutes les variables ensemble, et on va obtenir exactement les memes

valeurs pour les coefficients estimes. Le theoreme Frisch-Waugh-Lovell est assez remarquable.

Nous pouvons aussi reinterpreter ces resultats a la lumiere de ce que nous avons trouve

concernant le biais du a des variables omises. Dans le cas de lorthogonalite, X1X2 = 0 et il

ny a pas de biais. On peut regresser Y sur seulement X1 ou sur seulement X2 et il ny a pas

de biais. On obtient des estimateurs non biaises.

On peut aussi reinterpreter tout ceci en termes geometriques. Voir Davidson et MacKinnon

(1999) pour plus de details.

Tel que note par Pollock (2007), les couts relies au biais du a des variables omises dependent

des buts de notre modelisation. Si parmi les variables X1 il y a des variables qui seront utilisees

comme des instruments de politique economique, il est tres important dobtenir des estimes non

biaises de leur impact. Si ce qui nous interessent est surtout la prediction de lesperance de Y

conditionnelle aux valeurs des X, labsence de biais est moins importante.

51


52/106

8 Tests dhypotheses et ensembles de confiance

Tel quindique dans lintroduction, le seul element vraiment novateur est le test dhypotheses

jointes. Sinon, on peut effectuer des tests dhypotheses simples de la meme maniere que dans le

cas de la regression simple.

8.1 Tests dhypotheses simples par rapport a un seul coefficient

Il ny a strictement aucun changement par rapport a la facon de tester une hypothese simple

dans le cadre du modele de regression simple. La statistique t de base, pour nimporte quel test,

peut secrire :

t = i H0i

si,

ou H0i est la valeur du coefficient i sous lhypothese nulle, i est la valeur du coefficient obtenue

lors de lestimation, et si est un estime convergent de lecart type de lestime du coefficient. Dans

le cas de la regression multiple, cest la racine carree de li-ieme element diagonal de (cas

heteroscedastique) ou (cas homoscedastique).

Toute la discussion du chapitre 4 concernant lesp-values et les taux de significativite marginaux

sapplique. La statistique t suit approximativement une loi normale centree reduite (si, bien sur,

lechantillon est suffisamment grand).

Dans le cas dune hypothese alternative a deux extremites (bilaterale), une grande valeur ab-

solue de la statistique t (peu importe son signe) constitue de levidence contre H0. Soit (|ta|)la valeur de la distribution normale cumulee pour moins la valeur absolue de la valeur calculee de

la statistique t. Nous avons :

(|ta|) = Pr (t |ta|)

= Pr

t

i H0isi

= Pr

t si i H0i .

52


53/106

Dans le cas ou i H0i > 0 ceci est egal a

Pr

t si

i H0i

= Pr

t si H0i i

= Pr

i H0i t si

,

qui est donc egale a la probabilite dobtenir une valeur au moins aussi petite quune valeur qui est

inferieure a H0i par t fois son ecart type. Dans le cas ou i H0i < 0 ceci est egal a

Prt si i H0i = Pr

i H0i + t si

,

qui est donc egale a la probabilite dobtenir une valeur au moins aussi grande quune valeur qui est

superieure a H0i par t fois son ecart type.

Tout cela revient a dire que la p-value du test avec hypothese alternative bilaterale est donnee

par 2 (|ta

|).Le cas de tests avec hypothese alternative unilaterale est semblable. Lanalyse des tests dhy-

pothese presentee dans le chapitre sur le modele de regression simple est pertinente. Dans le cas

ou on a

H0 : i = H0i

et

H1 : i > H0i ,

la p-value du test est donnee par

p = Pr

z > tact

= 1 tact .

53


54/106

Dans le cas ou on a

H0 : i = H0i

et

H1 : i < H0i ,

la p-value du test est donnee par

p = Pr

z < tact

=

tact

.

8.2 Tests dhypotheses simples par rapport a une combinaison lineaire de

coefficients

Souvent, il est possible de tester une telle restriction en estimant une version transformee du

modele. Nous illustrons lidee avec un exemple. Reprenons le modele de regression multiple de

base en notation non matricielle :

Yi = 0 + X1i1 + X2i2 + . . . + Xkik + ui.

Supposons que nous voulons tester la restriction suivante :

H0 : 1 + 2 = 1,

contre lhypothese alternative

H1 : 1 + 2

= 1.

Considerons la version suivante du modele, qui est equivalente a la version originale :

Yi = 0 + X1i(1 + 2) + (X2i X1i) 2 + . . . + Xkik + ui.

54


55/106

Lequivalence vient du fait que nous avons tout simplement ajoute et soustrait le meme terme

X1i2. Nous pouvons reecrire le modele de la facon suivante :

Yi = 0 + X1i1 + Zi2 + . . . + Xkik + ui,

ou Zi X2i X1i et 1 1 + 2. Maintenant, tester lhypothese H0 : 1 + 2 = 1 revienta tester lhypothese H0 : 1 = 1. La methodologie a suivre est identique a celle etudiee dans le

cadre du modele de regression simple.

Effectuer ce test utilisant un logiciel de regression comme R, STATA ou GRETL revient a creer

la variable Z et a estimer lequation transformee par MCO. Rien nempeche bien sur dutiliser les

ecarts types robustes pour effectuer le test.

8.3 Pourquoi les tests sequentiels ne sont pas valides

Supposons que nous voulons tester lhypothese jointe suivante :

H0 : 1 = 2 = 0.

Lhypothese nulle dit que les deux coefficients sont nuls. Lhypothese alternative naturelle dans ce

contexte est que au moins un des deux coefficients est non nul :

H1 : i, i = 1, 2 tel que i = 0.

Pourquoi pas tout simplement tester les deux hypotheses de facon sequentielle, ou les statistiques

t donnees par :

t1 =1 H01

s1,

et ensuite

t2 =2 H02

s2.

55


56/106

Le probleme avec cette idee est quil sagit de distributions de probabilite jointes. Supposons pour

simplifier que les deux coefficients estimes sont independamment distribues lun par rapport a

lautre. Dans les deux cas, on ne rejetterait pas lhypothese nulle a un niveau de significativite

marginal de 5% si |t1| < 1.96 et |t2| < 1.96 si notre echantillon est suffisamment grand (pourque les statistiques soient distribuees approximativement selon une loi normale). Avec ce taux de

significativite marginal et etant donnee lindependance, la probabilite dobtenir au moins un rejet

en effectuant deux tests si les hypotheses nulles sont vraies serait egale a 1 0.952. (Pourquoi ?)Il faudrait au moins ajuster le niveau de significativite marginal pour tenir compte de ce fait. Si les

deux coefficients estimes ne sont pas independants, cet ajustement serait encore plus complique.

Lidee derriere les tests dhypothese jointes developpes ci-dessous est precisement de tenir compte

du fait que les coefficients sont tires dune distribution de probabilite jointe.

Notez que lannexe (7.1) du livre decrit une facon dajuster les niveaux de significativite

marginaux pour tenir compte de la correlation non nulle entre les coefficients. Cette methodologie

peut etre utile dans certains cas, notamment lorsquon lit les resultats de regressions rapportes

dans des articles publies ou des cahiers de recherche. Dans la plupart des cas on rapporte les ecarts

types associes aux coefficients individuels, mais on ne rapporte pas la matrice variance-covariance

complete des coefficients estimes (ce dont on aurait besoin pour calculer les statistiques definies

dans la sous-section suivante). En suivant cette methodologie le lecteur peut effectuer des tests

dhypotheses jointes meme sil na pas acces a la matrice variance-covariance complete des coef-

ficients estimes.

8.4 Tests dhypotheses jointes

Tel quindique dans lintroduction a ces notes, je vais mettre laccent ici sur lapproche ma-

tricielle, qui est beaucoup plus generale et, je crois, plus simple a comprendre.

Pour commencer a saisir en quoi consiste cette methodologie, reprenons lexemple de la sous-

56


57/106

section precedente. Lhypothese nulle a tester est :

H0 : 1 + 2 = 1,

Nous pouvons ecrire cette hypothese sous forme matricielle de la facon suivante :

0 1 1 0 . . . 0

0

1

2

3.

..

k

= 1

Ceci est de la forme :

R = r,

ou R est une matrice de constantes et r est un vecteur de constantes. Dans ce cas particulier, ou il y

a une seule restriction portant sur une combinaison lineaire de coefficients, R est en fait un vecteur

et r est un scalaire. Mais, dans le cas general, R ainsi que r auront le meme nombre de rangees que

le nombre de restrictions.

Prenons un cas plus concret, un cas ou le nombre de variables explicatives (a part la constante)

est plus grand que deux. Comment tester lhypothese nulle jointe

H0 : 1 = 2 = 0

contre lhypothese alternative

i, i = 1, 2 tel que i = 0.

57


58/106

Sous forme matricielle, nous pouvons ecrire : H0 :

0 1 0 0 . . . 00 0 1 0 . . . 0

0

1

2

3...

k

=

00

.

On peut montrer que la statistique suivante obeit, en grand echantillon et sous H0, a une loi

Fq, (revisez la sous-section sur cette distribution a la page 44 du manuel ou dans les notes decours) :

F

R r

RR

1

R r

/q,

ou qest le nombre de restrictions que lon veut tester, et ou est la matrice variance-covariance

de lestime . Dans lexemple que nous venons detudier, q = 2. Autrement dit,

Fd

Fq,.

Puisque la convergence est asymptotique (lorsque le nombre dobservations tend vers linfini), le

deuxieme indice inferieur indique un nombre de degres de liberte infini.

Largument pourquoi la statistique F converge en distribution a une loi Fq, se trouve a la page

714 du manuel. Largument est tres succinct (pour ne pas dire tres dense). Je vous invite a le lire

mais, bien sur, il ne faut pas le retenir pour les fins de lexamen final. Un argument plus simple,

pour le cas de 2 restrictions, se trouve a la page 228.

Comme dhabitude, le manuel met laccent sur le cas ou lechantillon est suffisamment grand

pour parler de convergence approximative en probabilite et/ou en distribution. Pour que nos

statistiques F suivent une loi F meme en petit echantillon, il faudrait pouvoir les exprimer

comme des ratios de variables aleatoires 2 meme en petit echantillon (voir la page 44), et donc

58


59/106

il faudrait supposer la normalite des erreurs (il faut aussi supposer lhomoscedasticite). Dans la

mesure ou ceci est rarement plausible dans des contextes appliques, il est mieux de se tourner vers

linference asymptotique si nous avons suffisamment dobservations.

La loi F depend de deux parametres. Typiquement on parle dune variable aleatoire qui obeit

a une loi Fm,n, ou le parametre m fait reference au nombre de restrictions imposees, et n fait

reference au nombre de degres de liberte (nombre dobservations moins nombre de parametres

estimes). Notez en consultant les Tables 5A, 5B et 5C dans le manuel les petits ecarts entre les

valeurs critiques lorsque n = 120 et lorsque n .La plupart des logiciels de regression, dont R, STATA et GRETL, offrent a lutilisateur la possi-

bilite de specifier les equivalents de R et r afin de tester des hypotheses jointes quelconques.

8.5 Que faire lorsque

nest pas disponible ?

Il y a des situations ou on na pas toute la matrice variance-covariance des parametres estimes

a sa disposition. Par exemple, quand on lit des articles publies qui resument les resultats de les-

timation dun modele de regression multiple, il est souvent le cas quon rapporte les ecarts types

associes aux coefficients individuels, mais non les covariances entre les coefficients estim es.

Il est possible de contourner ce probleme en utilisant la correction de Bonferroni , qui

tient compte de la simultaneite lorsque on fait un test dhypotheses jointes. Notez que cette

methodologie donne des tests qui sont moins puissants (qui ont une probabilite moins elevee de

rejeter lhypothese nulle lorsquelle est fausse) que si on utilise la matrice pour effectuer le test.

Ce que fait la correction est de donner la bonne p-value de tests sequentiels (la bonne probabilite

de rejeter les hypotheses nulles jointes lorsquelles sont vraies).

Le test de Bonferroni permet de tester des hypotheses jointes sur la base des statistiques t

pour les hypotheses individuelles. Il faut choisir la valeur critique afin detre sur que la prob-

abilite de rejeter lhypothese nulle jointe ne depasse pas la probabilite de la rejeter si on tient

compte de la non-independance entre les hypotheses faisant partie de lhypothese jointe.

59


60/106

On rejette lhypothese nulle si on rejette au moins une des hypotheses individuelles. Dans

le cas dune hypothese jointe qui comporte deux hypotheses simples, appelons A levenement

que nous rejetons la premiere des deux hypotheses, et B levenement que nous rejetons la

deuxieme hypothese simple. Nous savons que

Pr (A B) Pr (A) + Pr (B) ,

ou le symbole indique lunion des deux evenements, autrement dit levenement que A seproduit, ou que B se produit, ou que les deux se produisent. Si on choisit des p-values iden-

tiques pour les deux tests des hypotheses individuelles, on va choisir des p-values tel que leur

somme soit egale a la p-value desiree du test joint. Par exemple, si on veut etre sur de ne pas

rejeter lhypothese nulle jointe plus que 5% du temps lorsquelle est vraie, on va choisir des

p-values de 2.5% pour chacune des tests individuels.

Le test Bonferroni est tres consevateur. Son but est de minimiser la probabilite de rejeter les

hypotheses jointes si elles sont vraies. En general, il fait augmenter la probabilite daccepter les

hypotheses lorsquelles sont fausses. Ainsi, il na pas beaucoup de puissance (definie comme

la probabilite de rejeter une hypothese lorsquelle est fausse). Il y a des techniques pour aug-

menter la puissance du test lorsquon doit tester une hypothese jointe avec une sequence de

tests dhypotheses simples. Voir Simes (1986).

Pour de plus amples renseignements concernant cette methodologie, consultez lannexe 7.1

au Chapitre 7 du manuel.

8.6 Une seule restriction comme un cas special

On peut montrer dans le cas dune seule restriction portant sur un coefficient (q = 1), la statis-

tique F est le carre de la statistique t. Ceci revient a dire par contre que nous ne pouvons pas

faire la distinction entre une statistique t qui serait grande en valeur absolue et negative et une

60


61/106

statistique t grande en valeur absolue et positive. Cela veut dire quil ny aurait pas de difference

entre les resultats avec une statistique F et une statistique t si lhypothese alternative est une hy-

pothese alternative a deux extremites, mais nous ne pouvons pas vraiment tester lhypothese nulle

contre lhypothese alternative H1 : i < i ou ce ne sont que les grandes valeurs negatives de la

statistique t qui nous amenent a rejeter lhypothese nulle.

Pour montrer lequivalence entre la statistique F et le carre de la statistique t dans un cas

simple, prenons lexemple de lhypothese nulle H0 : 1 = 0. Dans ce cas, nous pouvons ecrire la

restriction sous forme matricielle comme

0 1 0 . . . 0

0

1

2...

k

= 1 = 0.

Dans ce casR

r

prend la forme de la statistique calculee (la valeur estimee de 1

) moins

sa valeur sous lhypothese nulle, ou tout simplement le numerateur de la statistique t que lon

utiliserait pour tester lhypothese. Nous avons dans ce cas

F =

1 0

0 1 0 . . . 0

0

1

0

...

0

1

1 0

.

61


62/106

On peut facilement verifier que dans ce cas-ci (vous devriez le faire sur papier pour etre sur)

0 1 0 . . . 0

0

1

0

...

0

= s21

,

lelement (scalaire) sur la diagonale de qui correspond a lestimateur convergent de la variance

de 1. Donc, nous avons

F = 1 0s1 2

= t2.

La statistique F est effectivement le carre de la statistique t quon utiliserait pour effectuer le test.

On peut aussi considerer un deuxieme exemple pour montrer ce que donne la formule generale

lorsquil ny a quune seule restriction testee. Considerons lhypothese nulle suivante :

H0 : 1 + 2 = 1,

qui peut etre ecrite sous forme matricelle comme

0 1 1 0 . . . 0

0

1

2

3...

k

= 1 + 2 = 1.

Encore une fois, R r prend la forme de la statistique calculee (1 + 2) moins sa valeur sous

62


63/106

lhypothese nulle. Nous avons dans ce cas

F =

1 + 2 1

0 1 1 0 . . . 0

0

11

0

...

0

1

1 + 2 1

.

On peut verifier (encore u

reg multiple

Documents