Download - Regresión lineal múltiple
Modelo general de regresión lineal múltiple
Variables
• Y: – Variable dependiente
– Variable endógena
– Variable explicada
• Xj:– Variables exógenas
– Variables independientes
– Variables explicativas
Sólo una Al menos una
Ejemplo de ilustración
Ejemplo de ilustración
• Y: Ingresos del supermercado• X1: Habitantes del municipio del
supermercado• X2: Superficie del supermercado (m2)
21, XXfY
Tabla de datosIngresos (Y) Habitantes (X1) Superficie (X2)
198 70 21
209 35 26
197 55 14
156 25 10
85 28 12
187 43 20
43 15 5
211 33 28
120 23 9
62 4 6
176 45 10
117 20 8
273 56 36
Modelo de regresión linealEjemplo de ilustración
• Deseamos explicar los ingresos del supermercado (Y), mediante la población del municipio (X1) y la superficie del supermercado (X2).
• Si la relación existente entre las variables fuera de tipo lineal utilizaríamos la siguiente expresión:
2211 iii xβxβαy
Modelo de regresión lineal (II)Ejemplo de ilustración
• Pero la relación entre las variables no es necesariamente perfecta. Por ese motivo añadimos un elemento aleatorio a cada observación:
iiii εxβxβαy 2211
ni 1 donde
Modelo de regresión lineal (III)Ejemplo de ilustración
iiii εxβxβαy 2211
ni 1 donde
Renta de los habitantesMedio rural o urbano...Edad promedio de los habitantes
Variables que no hemos considerado
iiii εxβxβαy 2211
Modelo de regresión lineal (IV) Ejemplo de ilustración
• Es el término constante del modelo y es desconocido.
• Son los coeficientes desconocidos de la combinación lineal.
• Es el i-ésimo término de error (desconocido)
iiii εxβxβαy 2211
Modelo de regresión lineal (V)Ejemplo de ilustración
• Es el término constante del modelo y es desconocido.
• Son los coeficientes desconocidos de la combinación lineal.
• Es el i-ésimo término de error (desconocido)
Modelo de regresión lineal (VI)Ejemplo de ilustración
iiii εxβxβαy 2211
• Es el término constante del modelo y es desconocido.
• Son los coeficientes desconocidos de la combinación lineal.
• Es el i-ésimo término de error (desconocido)
Modelo de regresión lineal (VII)Ejemplo de ilustración
1321
221
121
3656273
...
2635209
2170198
• Este sistema de ecuaciónes:– Consta de 13 ecuaciones y 16 incógnitas.– Tiene infinitas soluciones.
• Podemos asignar valores arbitrarios a cualesquiera tres incógnitas y calcular las demás.
• Así lo haremos:– Nuestro objetivo es que los valores de las
incógnitas sean lo más pequeños posible.– Determinaremos cuáles son los valores más
adecuados de los coeficientes del modelo para alcanzar este objetivo.
– Llamaremos residuos a los valores que toman las incógnitas en la solución del sistema de ecuaciones.
2211 b, βba, βα
Especificación del modeloEjemplo de ilustración
i
i
ii e
• Dicho de otro modo:
– queremos encontrar valores concretos para las incógnitas a los que llamaremos
– Estos valores concretos consiguen que los valores de las incógnitas sean lo más pequeños posible.
21 y β α, β
Especificación del modelo(II)Ejemplo de ilustración
iie
21 y b a, b
Especificación del modelo(III)Ejemplo de ilustración
• Para minimizar los residuos de manera global emplearemos la siguiente expresión:
• Es decir, debemos encontrar los valores de los coeficientes que minimizan la suma de los cuadrados de los residuos.• A este criterio se le llama de los “mínimos cuadrados”. 2min ie
Especificación del modelo(IV)Ejemplo de ilustración
221
221
221
3656273
...
2635209
2170198
bba
bba
bba
Deseamos minimizar esta suma
n
iiii xbxbayMin
1
22211
Especificación del modelo (V)Ejemplo de ilustración
• Por tanto, la solución del sistema de ecuaciones será la siguiente:– Las incógnitas tomarán los
valores . Estos valores consiguen que los valores de las icógnitas sean lo más pequeños posible.
– Las incógnitas tomarán los valores
21 y β α, β
21 y b a, b
iie
i2211 iiii xbxbaye
Modelo de ajuste linealEjemplo de ilustración
• Después de calcular los valores de los parámetros de la combinación lineal, podremos construir el modelo de ajuste lineal:
• Los valores calculados para la variable dependiente mediante el modelo de ajuste lineal serán los llamados valores estimados.
2211ˆ iii xbxbay
Modelo de ajuste lineal (II)Ejemplo de ilustración
• A la diferencia entre los valores observados y los valores estimados para la variable dependiente los llamamos residuos:
2211ˆ iiiiii xbxbayyye
¡Cuidado!
• Es muy importante distinguir los residuos de los errores:– Los errores son cantidades desconocidas y aleatorias. Miden el
efecto de las variables que no hemos tomado en cuenta.
– Los residuos, por el contrario, son valores conocidos. Miden las diferencias entre los valores observados y los valores estimados de la variable dependiente.
2211 iiii xβxβαyε
2211 iiii xbxbaye
Estimación de los parámetrosEjemplo de ilustración
• Recordemos:
– Queremos encontrar unos valores concretos para las incógnitas .
– Estas estimaciones consiguen que los valores concretos de las incógnitas -a los que llamamos - sean lo más pequeños posible.
21 y β α, β
iie
21 y b a, b
n
iiii xbxbayMin
1
22211
Estimación de los parámetros (II)Ejemplo de ilustración
0
ˆ 2
a
yy ii
0
ˆ
1
2
b
yy ii
0
ˆ
2
2
b
yy ii
iii yxbxbna 2211
iiiiii yxxxbxbxa 12122111
iiiiii yxxbxxbxa 22222112
Ecuaciones normales(3 ecuaciones, 3 incógnitas)
Estimación de los parámetros (III)Ejemplo de ilustración
ii
ii
i
iii
iii
ii
yx
yx
y
b
b
a
xxxx
xxxx
xxn
i
i
2
1
2
12
212
212
1
21
2
1
ii
ii
i
iii
iii
ii
yx
yx
y
xxxx
xxxx
xxn
b
b
a
i
i
2
1
1
2212
212
1
21
2
1
2
1
• Empleando matrices:
Estimación de los parámetros (IV)Ejemplo de ilustración
38769
82495
2034
43438452205
845219828452
20545213
2
1
b
b
a
• En nuestro ejemplo de ilustración:
245,4
496,1
502,37
38769
82495
2034
43438452205
845219828452
205452131
2
1
b
b
a
21 XXY 245,4496,1502,37ˆ
Caso general
Modelo de regresión linealCaso general
• Cuando tenemos más de dos variables explicativas:
• Empleando matrices:
,...,ni
εxβxβxβαy iikkiii
1con
...2211
εXXX1Y k21 k ...21
nk
k
k
n
x
x
x
...2
1
1,kX
Modelo de regresión lineal (II)Caso general
n
n
y
y
y
...2
1
1,Y
1
21
11
1, ...
n
n
x
x
x
1X
n
n
...2
1
1,ε
1
...
1
1
1,n1
Modelo de regresión lineal (III)Caso general
• Podemos expresar el modelo de regresión lineal de un modo más sencillo:
εXβY Modelo de regresión linealn ecuacionesn+k+1 incógnitas
Modelo de regresión lineal (IV)Caso general
nknn
k
k
kn
xxx
xxx
xxx
...1
...............
...1
...1
21
22221
11211
1,X
n
n
...2
1
1,ε
n
n
y
y
y
...2
1
1,Y
k
k
...1
1,1β
kk bβb, βba, βα ,...,2211
– Nuestro objetivo es conseguir que los valores de las incógnitas sean lo más pequeños posible.
– Buscaremos los valores de los coeficientes del modelo que resulten los más adecuados de cara a cumplir con el objetivo planteado.
– A los valores que en la solución del sistema de ecuaciones toman las inógnitas los llamaremos residuos.
Especificación del modeloCaso general
i
i
ii e
• Expresado de otro modo:
– Deseamos encontrar un vector , que es un valor concreto del vector .
– Este vector concreto consigue que los valores de las incógnitas sean lo más pequeños posible.
Especificación del modelo (II)Caso general
ie
Bβ
Bi
Esepecificación del modelo (III)Caso general
• Por lo tanto, la solución del sistema de ecuaciones será la siguiente:– El vector tomará el valor . Este valor
del vector consigue que el valor del vector sea mínimo.
– El vector tomará el valor
β B
εe
ε XBYe
β
Especificación del modelo (IV)Caso general
• Para minimizar los residuos de manera global emplearemos la siguiente expresión:
• Es decir, tenemos que encontrar los valores de los coeficientes del modelo que hacen mínima la suma de los cuadrados de los residuos.• A este criterio se le da el nombre de “criterio de los mínimos cuadrados”.
XBY'XBY
ee'
min
minmin 2ie
Modelo de ajuste linealCaso general
• Cuando tenemos más de dos variables explicativas:
• Empleando matrices:
1con
...ˆ 2211
,...,ni
xbxbxbay ikkiii
k21 XXX1Y kbbba ...ˆ21
Modelo de ajuste lineal (II)Caso general
• Podemos expresar el modelo de ajuste lineal de una forma más sencilla:
XBY ˆ Modelo de ajuste lineal
Modelo de ajuste lineal (III)Caso general
n
n
y
y
y
ˆ
...
ˆ
ˆ
ˆ 2
1
1,Y
k
k
b
b
a
...1
1,1B
nknn
k
k
kn
xxx
xxx
xxx
...1
...............
...1
...1
21
22221
11211
1,X
Modelo de ajuste lineal (IV)Caso general
• El valor estimado de la variable dependiente para un individuo será el siguiente:
• Con:
BXXY ii 'ˆ
ik
i
i
x
x
x
...
1
2
1iX
Estimación de los parámetrosCaso general
• Recordemos:
– Queremos encontrar un vector de valores concretos para el vector .
– Este vector debe ser tal que minimice
globalmente los residuos.
βB
B
XB)(YXB)'(Yee' minminmin 2ie
Estimación de los parámetros (II)Caso general
XBX'YX'B
222
ie
XBX'B'YX'B'YY' 22ie
• Teniendo en cuenta que:
• Derivando respecto a B:
Estimación de los parámetros (III)Caso general
YX'XBX'
YX'XX'B 1
• Igualando la derivada a cero:
• Si la matriz es no singular:XX'
Estimación de los parámetros (IV)Caso general
• ¿La solución que se ha encontrado consigue minimizar la SCR?
• Supongamos que es otra solución. Entonces: BBXeBXXBXBYBXYe
~~~~
BBXeBBXee'e' ~~~~
BBXX''BBeX''BBBBXe'ee'e'e~~~~~~
BBXX''BBeX''BBee'e'e~~~
2~~
2~~~~~~~ BBXee'BBX'BBXee'BBXX''BBee'e'e
ee'e'e ~~
B~
Datos centrados
Modelo de ajusteDatos centrados
• Cuando las variables explicativas toman sus respectivos valores promedio el valor estimado para la variable dependiente es su media:
• Es decir, el hiperplano del modelo de ajuste pasa por la media de las variables.
YXY ˆ
kk xbxbxbay ...2211
Modelo de ajuste (II)Datos centrados
• Por lo tanto podemos escribir el modelo de ajuste lineal de otro modo:
• O empleando matrices:
1con
...222111
,...,ni
exxbxxbxxbyy ikikkiii
eBXY ~~
Modelo de ajuste (III)Datos centrados
• Con:
knknn
kk
kk
kn
xxxxxx
xxxxxx
xxxxxx
...
............
...
...
~
2211
2222121
1212111
,X
n
n
e
e
e
...2
1
1,e
yy
yy
yy
n
n ...~ 2
1
1,Y
k
k
b
b
b
...2
1
1,B
Estimación de los parámetrosDatos centrados
• Recordemos:
– Para encontrar el vector debemos minimizar de manera global los residuos.
B
B)XY(B)'XY(ee'~~~~
minminmin 2 ie
Estimación de los parámetros (II)Datos centrados
BX'XY'XB
~~2
~~2
2
ie
BX'XB'Y'XB'Y'Y~~~~
2~~2 ie
• Teniendo en cuenta que:
• Dervando respecto a B:
• Igualando a cero la derivada anterior:
• Si la matriz es no singular:
Estimación de los parámetros (III)Datos centrados
Y'XBX'X~~~~
Y'XX'XB1 ~~~~
X'X~~
Modelo de ajuste linealDatos centrados
• Si trabajamos con datos centrados:
• y:
Y'XX'XB~~~~ 1
BXY~~̂
Modelo de ajuste lineal (II)Datos centrados
• Con:
yy
yy
yy
n
n
ˆ
...
ˆ
ˆ
~̂ 2
1
1,Y
k
k
b
b
b
...2
1
1,B
knknn
kk
kk
kn
xxxxxx
xxxxxx
xxxxxx
...
............
...
...
~
2211
2222121
1212111
,X
Modelo de ajuste lineal (III)Datos centrados
• Para obtener el término constante utilizaremos la siguiente expresión:
• Por lo tanto:
kk xbxbxbay ...2211
kk xbxbxbya ...2211
Datos centrados
• Trabajar con datos centrados supone una gran ventaja:– Con datos originales, la dimensión de es
(k+1, k+1).– Con datos centrados, la dimensión de es
(k,k).
• Por lo tanto, el cálculo de la matriz inversa es más sencillo en el caso de la matriz .
XX'
X'X~~
X'X~~
Matriz de varianzas y covarianzas
Matriz de varianzas y covarianzas
n
xx
n
xxxx
n
xxxx
n
xxxx
n
xx
n
xxxx
n
xxxx
n
xxxx
n
xx
n
ikik
n
iikik
n
iikik
n
ikiki
n
ii
n
iii
n
ikiki
n
iii
n
ii
1
2
122
111
122
1
222
11122
111
12211
1
211
...
............
...
...
XXV
Matriz de varianzas y covarianzas
kkk
k
k
VarCovCov
CovVarCov
CovCovVar
XX,XX,X
X,XXX,X
X,XX,XX
V
111
XX
...
............
...
...
21
2212
2
Matriz de varianzas y covarianzas
n
ikik
n
iikik
n
iikik
n
ikiki
n
ii
n
iii
n
ikiki
n
iii
n
ii
xxxxxxxxxx
xxxxxxxxxx
xxxxxxxxxx
1
2
122
111
122
1
222
11122
111
12211
1
211
...
............
...
...
~~X'X
XXVX'X n~~
Modelo de ajuste linealMatriz de varianzas y covarianzas
XYXXXYXX VVVVY'XX'XB 111 ~~~~ nn
XYXX VVB 1
Modelo de ajusteDatos centrados
YY1XY
1X'XX'X1
YX'XX'X1XB1XY
1
1
'1ˆ
tantoloPor
''
demostrar puede se como Pero,
'1
'1ˆ
n
nn