tema3
TRANSCRIPT
-
Tema 3. Modelo de regresion simple
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 1
-
Introduccion
Objetivo del modelo de regresion simple:
Explicar el comportamiento de una variable cuantitativa de interesY (consumo de gasolina de un coche hbrido, temperatura delagua marina) como funcion de otra variable cuantitativa Xobservable (velocidad del vehculo en ciudad, profundidad a la quese observa la temperatura del agua).
Y = variable respuesta, endogena o dependiente
X = regresor, predictor, variable explicativa, exogena oindependiente
Estudiaremos principalmente el modelo de regresion lineal simple,en el que se expresa Y como funcion lineal de X .
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 2
-
El modelo
Diseno fijo y aleatorio
En el diseno aleatorio tomamos una muestra (x1, y1), . . . , (xn, yn)de una poblacion (X ,Y ) donde X es una variable aleatoria (losvalores observados de X no estan prefijados de antemano).
(X ,Y ) =(Estatura en cm,Peso en kg) de un estudianteuniversitario elegido al azar.
(X ,Y ) =(Nivel de un cierto contaminante,Mortalidad) en unaciudad elegida al azar.
En este caso el modelo de regresion establece una expresion para lafuncion de regresion E (Y |X = x).
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 3
-
Ejemplo 3.1: Se desea estudiar la relacion entre la anchura X (enmm.) y la longitud Y (en mm.) de la concha del Patelloidapygmaea, una lapa pegada a las rocas a lo largo de las costasprotegidas en el area Indo-Pacfica. Se observan los datos:
X Y X Y X Y X Y
0.9 3.1 1.9 5.0 2.1 5.6 2.3 5.81.5 3.6 1.9 5.3 2.1 5.7 2.3 6.21.6 4.3 1.9 5.7 2.1 5.8 2.3 6.31.7 4.7 2.0 4.4 2.2 5.2 2.3 6.41.7 5.5 2.0 5.2 2.2 5.3 2.4 6.41.8 5.7 2.0 5.3 2.2 5.6 2.4 6.31.8 5.2 2.1 5.4 2.2 5.8 2.7 6.3
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 4
-
En el diseno fijo prefijamos unos valores x1, . . . , xn de la variableX . Para cada xi tomamos una o varias observaciones de Y .
(X ,Y ) =(profundidad en m. del agua marina,temperatura en oCdel agua a esa profundidad)
xi 100 200 500 1000 1500 2000
yi 22 20 12 6 5 4
El modelo de regresion en este caso establece una expresion paraE (Yi ), el valor esperado de Y cuando el valor prefijado de X es xi .
Si todos los xi estan a la misma distancia entre s se trata de undiseno fijo equiespaciado.
El tratamiento estadstico de ambos disenos es parecido, aunque lanotacion sea diferente. A menudo, por simplicidad, utilizaremos lanotacion del diseno fijo aunque el diseno del experimento seaaleatorio.
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 5
-
El modelo de regresion lineal simple
Diseno fijo: Diseno aleatorio:Yi = 0 + 1xi + Ui (Y |X = xi ) = 0 + 1xi + Ui
donde 0 y 1 son respectivamente la ordenada en el origen y lapendiente de la recta de regresion. Ui es un termino deperturbacion o error experimental.
Interpretacion de los parametros de la regresion:
0 representa el valor medio de la respuesta Y cuando la variableexplicativa X vale 0.
1 representa la variacion que experimenta en media la respuestaY cuando la variable explicativa X aumenta en una unidad.
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 6
-
Hipotesis basicas del modelo:
a) E (Ui ) = 0, para cada i = 1, . . . , n.
b) Var(Ui ) = 2, para cada i = 1, . . . , n.
c) E (UiUj) = 0 , para todo i 6= j .d) Ui Normal, para todo i .Ademas en el diseno aleatorio supondremos que X1, . . . ,Xn sonindependientes.
Hipotesis equivalentes para diseno fijo:
Y1, . . . ,Yn son observaciones independientes, con
Yi N(0 + 1xi , 2).Hipotesis equivalentes para diseno aleatorio:
(X1,Y1), . . . , (Xn,Yn) son independientes, con
Y |X = xi N(0 + 1xi , 2).Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 7
-
Las hipotesis basicas se verifican mediante analisis de los residuos.Sin embargo, como la hipotesis de linealidad E (Yi ) = 0 + 1xi esfundamental, el primer paso siempre debe ser un analisis grafico delos datos, por ejemplo, un diagrama de dispersion de y frente a x .
Ejemplo 3.1 (cont.):
0.5 1 1.5 2 2.5 33
3.5
4
4.5
5
5.5
6
6.5
Anchura de la concha
Long
itud
de la
conc
ha
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 8
-
Ejemplo 3.2: En 1990 y 1991 se examinaron percas y muestras deagua de 53 lagos de Florida para estudiar los factores ambientalesrelacionados con la contaminacion por mercurio que exhiben dichospeces. En las muestras se midio, por ej., la alcalinidad del agua(mg/l de carbonato calcico). El diagrama de dispersion representalos valores medios de alcalinidad frente a la concentracion mediade mercurio (pp. por millon) para los 53 lagos.
0 20 40 60 80 100 120 1400
0.2
0.4
0.6
0.8
1
1.2
1.4
Nivel de mercurio
Alca
linida
d
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 9
-
Ejemplo 3.2 (cont.):Lago Alcalinidad Mercurio Lago Alcalinidad MercurioAlligator 5.9 1.23 Lochloosa 55.4 0.34Annie 3.5 1.33 Louisa 3.9 0.84Apopka 116.0 0.04 Miccasukee 5.5 0.50Blue Cypress 39.4 0.44 Minneola 6.3 0.34Brick 2.5 1.20 Monroe 67.0 0.28Bryant 19.6 0.27 Newmans 28.8 0.34Cherry 5.2 0.48 Ocean Pond 5.8 0.87Crescent 71.4 0.19 Ocheese Pond 4.5 0.56Deer Point 26.4 0.83 Okeechobee 119.1 0.17Dias 4.8 0.81 Orange 25.4 0.18Dorr 6.6 0.71 Panasoffkee 106.5 0.19Down 16.5 0.50 Parker 53.0 0.04Eaton 25.4 0.49 Placid 8.5 0.49East Tohopekaliga 7.1 1.16 Puzzle 87.6 1.10Farm-13 128.0 0.05 Rodman 114.0 0.16George 83.7 0.15 Rousseau 97.5 0.10Griffin 108.5 0.19 Sampson 11.8 0.48Harney 61.3 0.77 Shipp 66.5 0.21Hart 6.4 1.08 Talquin 16.0 0.86Hatchineha 31.0 0.98 Tarpon 5.0 0.52Iamonia 7.5 0.63 Tohopekaliga 25.6 0.65Istokpoga 17.3 0.56 Trafford 81.5 0.27Jackson 12.6 0.41 Trout 1.2 0.94Josephine 7.0 0.73 Tsala Apopka 34.0 0.40Kingsley 10.5 0.34 Weir 15.5 0.43Kissimmee 30.0 0.59 Wildcat 17.3 0.25
Yale 71.8 0.27
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 10
-
Ejemplo 3.3 (cont.):
3.2 3.4 3.6 3.8 4
1
0.8
0.6
0.4
0.2
0
x
y
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 11
-
Estimacion de los parametros del modelo
Sea (x1, y1), . . . , (xn, yn) la muestra observada de (X ,Y ).Estimamos los parametros 0 y 1 de la recta de regresionmediante el metodo de mnimos cuadrados. El objetivo esminimizar la suma de los residuos al cuadrado VNE =
ni=1 e
2i ,
donde ei = yi yi e yi = 0 + 1xi . Cada residuo ei es ladistancia en vertical entre el (xi , yi ) observado y (xi , yi ).
1.5 1 0.5 0 0.5 11
0
1
2
3
4
5
x
y
(xi,yi)
ei
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 12
-
VNE
0= 2
ni=1
(yi 0 1xi ) = 0n
i=1
yi = n0 + 1
ni=1
xi
VNE
1= 2
ni=1
xi (yi 0 1xi ) = 0n
i=1
xiyi = 0
ni=1
xi + 1
ni=1
x2i
Entonces 1 =covxy
vxdonde
covxy =1
n
ni=1
(xi x)(yi y) = 1n
ni=1
xiyi x y
vx =1
n
ni=1
(xix)2 = 1n
ni=1
x2i x2 x =1
n
ni=1
xi y =1
n
ni=1
yi
Ademas y = 0 + 1x 0 = y 1x
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 13
-
Ejemplo 3.1 (cont.):
0.5 1 1.5 2 2.5 33
3.5
4
4.5
5
5.5
6
6.5
Anchura de la concha
Long
itud d
e la c
onch
a
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 14
-
Otra expresion de la recta de regresion es el modelo endesviaciones a la media
y y = 1(x x).
Su utilizacion es recomendable cuando 0 no es interpretable.
Ejemplo 3.1 (cont.):
El modelo en desviaciones a la media nos recuerda que la relacionlineal entre X e Y se debe estudiar solo en un entorno de (x , y).
No debemos extrapolar las conclusiones extradas de la regresionfuera del rango de las observaciones utilizadas para construir elmodelo.
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 15
-
Los residuos ei , i = 1, . . . , n, tienen n 2 grados de libertad, puesverifican las ecuaciones de restriccion
ni=1
ei = 0n
i=1
eixi = 0.
Definimos la varianza residual como
s2R =1
n 2n
i=1
e2i .
Mide la variabilidad de los datos (xi , yi ), i = 1, . . . , n, respecto a larecta de regresion estimada.
Observacion: Se verifica quen
i=1
e2i = n(vy 21vx),
siendo vy =1
n
ni=1
(yi y)2 = 1n
ni=1
y 2i y 2.
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 16
-
Ejemplo 3.1 (cont.):
Residuos
-0.0577 -0.1540 0.0467 -0.1525-0.7555 0.1460 0.1467 0.2475-0.2551 0.5460 0.2467 0.3475-0.0548 -0.9537 -0.5529 0.44750.7452 -0.1537 -0.4529 0.24780.7456 -0.0537 -0.1529 0.14780.2456 -0.1533 0.0471 -0.4510
s2R =
vy = s2R =
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 17
-
Inferencia sobre los parametros del modelo
Propiedades de los estimadores de los parametros
Bajo la hipotesis de normalidad
1 1sR
1nvx
tn2 IC1(1) =(1 tn2,/2 sR
1
nvx
)
0 0sR
1n
(1 + x
2
vx
) tn2 IC1(0) =
(0 tn2,/2 sR
1
n
(1 +
x2
vx
))
(n 2)s2R2
2n2 IC1(2) =(
(n 2)s2R2n2,/2
,(n 2)s2R2n2,1/2
)Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 18
-
Ejemplo 3.1 (cont.):
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 19
-
El contraste de la regresion
H0 : 1 = 0 (no hay relacion lineal entre X e Y )
H1 : 1 6= 0
A nivel de significacion la region de rechazo de este contraste es
R =
{|1| > tn2,/2 sR
1
nvx
}= {0 / IC1(1)}.
Ejemplo 3.1 (cont.):
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 20
-
Planteemos este mismo contraste desde un punto de vista querelaciona la regresion y analisis de la varianza.
La variabilidad total de Y viene dada por
VT =n
i=1
(yi y)2 = n vy = VE + VNE,
donde VE y VNE son independientes,
VE =n
i=1
(yi y)2 = 21nvx
denota la variabilidad explicada por el modelo de regresion lineal y
VNE =n
i=1
e2i
denota la variabilidad residual.Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 21
-
Tabla ADEVA para regresion lineal simple:
FV SC gl Varianzas F
Explicada porregresor
VE 1 VE F =VE
s2RResidual VNE n 2 s2R
Total VT n 1Si H0 : 1 = 0 es cierta tenemos que
F =VE
s2R F1,n2
Por tanto, la region de rechazo de H0 : 1 = 0 a nivel designificacion es
R = {F > F1,n2,}.Observacion: Esta region de rechazo y la de la pagina 20 sonequivalentes.
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 22
-
Ejemplo 3.1 (cont.):
Valores previstos
3.1577 5.1540 5.5533 5.95254.3555 5.1540 5.5533 5.95254.5551 5.1540 5.5533 5.95254.7548 5.3537 5.7529 5.95254.7548 5.3537 5.7529 6.15224.9544 5.3537 5.7529 6.15224.9544 5.5533 5.7529 6.7510
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 23
-
Observacion: Contrastar H0 : 1 = 0 frente a H1 : 1 6= 0significa que, aceptando que existe una relacion lineal entre X e Y ,analizamos si una recta horizontal (1 = 0) representa mejor losdatos que otra de pendiente no nula (1 6= 0). Pero aceptar H0 nosignifica que no exista ningun tipo de relacion funcional entre X eY , ni que estas sean independientes.
Ejemplo 3.4:
1 0.5 0 0.5 10.5
0
0.5
1
x
y
Y = X2 + U, IC0.90(1)=(0.10,0.29)
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 24
-
Los coeficientes de correlacion y determinacion
Para evaluar el grado de ajuste de una recta de regresion podemosutilizar el coeficiente de determinacion
R2 =VE
VT=
ni=1(yi y)2ni=1(yi y)2
=21vx
vy=
(covxy
vxvy
)2= (rxy )
2,
siendorxy =
covxyvxvy
.
el coeficiente de correlacion lineal de Pearson entre x e y .
Si la relacion entre x e y es marcadamente lineal, entonces R2 y|rxy | seran muy proximos a 1. Si no existe relacion lineal entre lasvariables entonces R2 y rxy seran proximos a cero.
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 25
-
46
Coeficiente de determinaciCoeficiente de determinacin n RR2 2
Valoracin de cunto se ajustan los puntos a la recta
El El COEFICIENTE DE DETERMINACICOEFICIENTE DE DETERMINACINN es la proporcies la proporcin de n de variabilidad explicada por la regresivariabilidad explicada por la regresinn
RR22 = SCE /SCT= SCE /SCT
En REGRESIREGRESIN SIMPLEN SIMPLE el COEFICIENTE DE DETERMINACICOEFICIENTE DE DETERMINACINN coincide con el COEFICIENTE DE CORRELACICOEFICIENTE DE CORRELACIN AL CUADRADON AL CUADRADO
R =
47
Coeficiente de determinaciCoeficiente de determinacin n RR22
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 26
-
Ejemplo 3.1 (cont.):
Observemos tambien que
R2 = 1 VNEVT
= 1 (n 2)s2R
nvy.
La ventaja del coeficiente de determinacion frente al coeficiente decorrelacion es que la definicion de R2 es perfectamentegeneralizable a cualquier modelo lineal. Esto es muy util en elcontexto de regresion multiple (Tema 4).
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 27
-
Estimacion y prediccion
Un modelo de regresion sirve para estimar E (Y |X = x0) y parapredecir futuros valores de Y para un valor x0 de X .
Los problemas de estimacion y prediccion son distintos, aunque lasexpresiones matematicas que aparecen en su resolucion son casiiguales. En el primero intentamos obtener un estimador deE (Y |X = x0) = 0 + 1x0, que es un numero fijo aunquedesconocido.
En el problema de prediccion de Y0 = Y |X = x0 estamosinteresados en conocer, para un valor x0 fijo de X , el valorcorrespondiente de Y . Y |X = x0 es una variable aleatoria.Al final estimaremos E (Y |X = x0) y predeciremosY0 = Y |X = x0 mediante el mismo valor, y = 0 + 1x0, pero elerror de estimacion y el de prediccion son distintos.
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 28
-
Estimacion de la media condicionada
Queremos estimar E (Y0) = E (Y |X = x0) = 0 + 1x0, el valorpromedio de la respuesta cuando X = x0.
Un estimador razonable es
y0 = 0 + 1x0 = y + 1(x0 x).
Se trata de un estimador centrado: E (y0) = E (Y |X = x0).Ademas
IC1(E (Y0)) =
y0 tn2,/2 sR
1
n+
(x0 x)2n vx
.
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 29
-
Ejemplo 3.1 (cont.): Estimar la longitud esperada de la conchade Patelloida pygmaea cuando la anchura es de 1.4 mm. Calcularun intervalo de confianza al 90% para la estimacion.
Estimar la longitud esperada de la concha de Patelloida pygmaeacuando la anchura es de 2.0 mm. Calcular un intervalo deconfianza al 90% para la estimacion.
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 30
-
Ejemplo 3.1 (cont.):
0.5 1 1.5 2 2.5 32
3
4
5
6
7
Anchura de la concha
Long
itud d
e la c
onch
aBanda de confianza al 90% para E(Y|X=x0)
min xi max xi
Interpolacin
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 31
-
Prediccion de la respuesta
En el problema de prediccion deseamos prever Y0 = (Y |X = x0),la respuesta cuando la variable independiente es igual a x0.
Si conocieramos E (Y |X = x0) podramos utilizar esta esperanzacomo prediccion de Y0 = (Y |X = x0). Entonces ya tenemos unaprimera fuente de error debido a la propia variabilidad deY |X = x0 en torno a su media.Ademas, como E (Y |X = x0) es desconocida, la estimamosmediante y0 = 0 + 1x0: segunda fuente de error en la prediccion.Por tanto, finalmente predecimos Y |X = x0 mediante y0.Un intervalo de confianza para la prediccion de Y |X = x0 es
IC1(Y0) =
y0 tn2,/2 sR
1 +1
n+
(x0 x)2n vx
.Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 32
-
Ejemplo 3.1 (cont.): Predecir la longitud de la concha dePatelloida pygmaea cuando la anchura es de 1.4 mm. Calcular unintervalo de confianza al 90% para la prediccion.
Predecir la longitud de la concha de Patelloida pygmaea cuando laanchura es de 2.0 mm. Calcular un intervalo de confianza al 90%para la prediccion.
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 33
-
Ejemplo 3.1 (cont.):
0.5 1 1.5 2 2.5 32
3
4
5
6
7
Anchura de la concha
Long
itud
de la
con
cha
Bandas de confianza al 90% para E(Y|X=x0) y para Y|X=x0
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 34
-
Diagnosis del modelo
Verificamos las hipotesis basicas del modelo mediante analisis delos residuos.
Ejemplo 3.5 (Anscombe 1973): Cuatro conjuntos de datos
1
x y10 8.04
8 6.9513 7.58
9 8.8111 8.3314 9.96
6 7.244 4.26
12 10.847 4.825 5.68
2
x y10 9.14
8 8.1413 8.74
9 8.7711 9.2614 8.10
6 6.134 3.10
12 9.137 7.265 4.74
3
x y10 7.46
8 6.7713 12.74
9 7.1111 7.8114 8.84
6 6.084 5.39
12 8.157 6.425 5.73
4
x y8 6.588 5.768 7.718 8.848 8.478 7.048 5.25
19 12.508 5.568 7.918 6.89
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 35
-
La recta de regresion lineal de Y sobre X es en los cuatro casosy = 3 + 0.5x . Tambien son iguales la VE, la VNE, s2R = 1.52, elestadstico t del contraste H0 : 1 = 0 y la correlacion. Parece quelas cuatro situaciones son identicas. Pero al estudiar el grafico delos residuos ei frente a los valores previstos yi
Prediccion CONJUNTO 1 DE DATOS
1110987654
Residuo
2
0
-2
Prediccion CONJUNTO 2 DE DATOS
1110987654
Residuo
2.0
0.0
-2.0
Prediccion CONJUNTO 3 DE DATOS
1110987654
Residuo
4
0
-4
Prediccion CONJUNTO 4 DE DATOS
131211109876
Residuo
2
0
-2
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 36
-
Hipotesis de linealidad: E (Yi ) = 0 + 1xi
Establece que, en el rango de valores observados, el valor esperadode la respuesta Y es una funcion lineal de la variable independienteX . Solo tiene sentido contrastar la hipotesis en dicho rango.
Comprobaremos la linealidad mediante el grafico de dispersion deY frente a X y mediante el grafico de los residuos ei frente a losvalores previstos yi .Ejemplo 3.6:
X
1.0.8.6.4.20.0
y
3.0
2.5
2.0
1.5
1.0
.5
Predicci n
3.53.02.52.01.51.0
Residuos
.3
.2
.1
.0
-.1
-.2
-.3
-.4
-.5
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 37
-
Ejemplo 3.1 (cont.):
3 4 5 6 71
0.5
0
0.5
1
Valor previsto de Y
Res
iduo
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 38
-
Ejemplo 3.2 (cont.): Regresion de Y = Nivel de contaminacionpor mercurio de un pez del lago sobre X = Alcalinidad del lago
0 0.2 0.4 0.6 0.80.5
0
0.5
1
Valor previsto de Y
Res
iduo
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 39
-
Si no se verifica la hipotesis de linealidad entonces estaremosutilizando un modelo inadecuado para describir el valor esperadode Y en funcion de X . Esto conduce a malas predicciones.
Ejemplo 3.2 (cont.):
0 20 40 60 80 100 120 1400
0.2
0.4
0.6
0.8
1
1.2
1.4
Alcalinidad
Con
cent
raci
n d
e m
ercu
rio
Una solucion habitual a la ausencia de linealidad es transformar lavariable X mediante una funcion g y/o la variable Y mediante unafuncion f de manera que entre g(X ) y f (Y ) s sea razonablesuponer una relacion lineal.
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 40
-
Hipotesis de homocedasticidad: Var(Ui ) = 2 para todo i
Si esta hipotesis no se verifica entonces los intervalos de confianzapara 0 y 1 son incorrectos, pues las varianzas de 0 y 1 noestan bien estimadas.
Para estudiar la posible heterocedasticidad de los datos es utilrepresentar los residuos ei frente a las predicciones yi o frente a xi .As vemos si la variabilidad de los residuos crece o decrece con losvalores de X .
Ademas, si concluimos que las observaciones son heterocedasticas,el grafico nos sugiere que pauta de variacion siguen y algunaposible transformacion de las variables X e Y que linealice larelacion.
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 41
-
22
Grfico de los residuos ei
En abcisas los valores de xi (edades en aos)
En ordenadas los residuos ei sin tipificar
es este un valor anmalo?
23
RESIDUOS RESIDUOS VALORES PRONOSTICADOSVALORES PRONOSTICADOSse cumplen las hipse cumplen las hiptesis del modelo?tesis del modelo?
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 42
-
Hipotesis de normalidad: Ui Normal para todo iEsta hipotesis es necesaria para calcular las distribuciones de i . Sino se verifica, entonces no son validos ni los intervalos deconfianza para 0 y 1 ni el contraste de la regresion.
Para comprobar la normalidad graficamente utilizamos unhistograma o un diagrama de cajas y un grafico probabilsticonormal o un Q-Q plot de los residuos estandarizados.
El residuo ei estandarizado se define como ei =ei
sR
1 hisiendo
1
n hi = 1
n
(1 +
(xi x)2vx
) 1
una cantidad que mide el efecto palanca del punto (xi , yi ). Losresiduos estandarizados siguen aproximadamente una distribucionN(0,1).
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 43
-
Ejemplo 3.1 (cont.): Histograma de los residuos estandarizados ydensidad N(0,1)
2 1 0 10
0.1
0.2
0.3
0.4
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 44
-
Ejemplo 3.2 (cont.): Histograma de los residuos estandarizados ydensidad N(0,1)
1 0.5 0 0.5 1 1.5 20
0.1
0.2
0.3
0.4
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 45
-
Tambien podemos hacer un contraste (como el deKolmogorov-Smirnov) de la bondad de ajuste de los residuosestandarizados a la distribucion gaussiana.
El problema para utilizar este tipo de contrastes es que los residuosno son observaciones independientes, aunque si n es grande esto sepuede obviar.
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 46
-
Transformacion de los datos
Cuando falla la hipotesis de linealidad y quiza tambien la dehomocedasticidad y/o normalidad, una solucion sencilla y muyutilizada es transformar una o las dos variables X e Y .
El objetivo es que se verifiquen las hipotesis del modelo deregresion simple para la relacion entre las variables transformadas:
f (Yi ) = 0 + 1xi + Ui , con Ui N(0, 2),
o bien
f (Yi ) = 0 + 1g(xi ) + Ui , con Ui N(0, 2),
o bien
Yi = 0 + 1g(xi ) + Ui , con Ui N(0, 2).
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 47
-
Para decidir si transformamos X , Y o ambas variables, tendremosen cuenta si solo falla la hipotesis de linealidad o, por el contrario,las residuos dejan de verificar alguna de las otras hipotesis.
Si solo falla la linealidad, conviene transformar solo X porque estono afecta a las propiedades de las perturbaciones. En cambio, silos residuos muestran heterocedasticidad o no normalidad,conviene transformar al menos Y para intentar resolver todos losproblemas simultaneamente.
A continuacion presentamos algunos ejemplos de relaciones nolineales, pero linealizables.
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 48
-
Transformacion logartmica:Si Y ' Ke1X , entonces log Y = 0 + 1X .
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 55
0
5
10
15
20
25
30
35
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 49
-
Transformacion doble logartmica:Si Y ' KX 1 entonces log(Y ) ' log K + 1 log X = 0 + 1 log X .
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 55
0
5
10
15
20
25
1 < 1
1 > 1
0.5 1 1.5 2 2.5 3 3.5 4 4.5 50.2
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1 > 0 1 < 0
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 50
-
Transformacion inversa:Si Y ' 0 + 1
X, entonces Y ' 0 + 1X1.
0.5 1 1.5 2 2.5 3 3.5 4 4.5 50
1
2
3
4
5
6
7
0
0.5 1 1.5 2 2.5 3 3.5 4 4.5 55
6
7
8
9
10
11
12
0
1 < 0 1 > 0
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 51
-
Si Y ' Ke1X , con 1 > 0, entonces log Y = 0 + 1X1.
0 2 4 6 8 10 12 14 16 18 200.5
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
K
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 52
-
Ejemplo 3.2 (cont.):
0 20 40 60 80 100 120 1404
3
2
1
0
1
x
log(
y)
0 1 2 3 4 54
3
2
1
0
1
log(x)
log(
y)
0 0.2 0.4 0.6 0.8 14
3
2
1
0
1
1/x
log(
y)
0 0.2 0.4 0.6 0.8 10
0.2
0.4
0.6
0.8
1
1.2
1.4
1/x
y
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 53
-
Ejemplo 3.2 (cont.):
2 1.5 1 0.5 0 0.52
1
0
1
2
Valor previsto de log(Y)
Resid
uos
esta
ndar
izado
s
Regresion de log(Y) sobre log(X)
2.5 2 1.5 1 0.5 0
2
1
0
1
2
Valor previsto de log(Y)Re
siduo
esta
ndar
izado
Regresin de log(Y) frente a X
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 54
-
Ejemplo 3.7: Peso del cerebro (en g) en funcion del peso corporal(en kg) para 62 especies de mamferos (Fuente: Allison &Sacchetti 1976, Science)
0 2000 4000 6000 80000
1000
2000
3000
4000
5000
6000
Peso cuerpo (en kg)
Peso
cer
ebro
(en g
)
Elefante africano
Elefante asitico
Humano
5 0 5 10
2
0
2
4
6
8
10
Log(Peso cuerpo)
Log(
Peso
cere
bro)
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 55
-
Ejemplo 3.8: Tasa de paro por sexo en 1999 para los pases de laUnion Europea.
Mujeres Hombres Mujeres Hombres
Alemania 9.30 8.30 Irlanda 5.50 5.80Austria 4.50 3.30 Italia 15.60 8.70Belgica 10.70 7.80 Luxemburgo 3.30 1.70Espana 23.00 11.20 Portugal 5.20 3.90Finlandia 10.70 9.80 Dinamarca 6.00 4.50Francia 13.30 9.60 Reino Unido 5.30 6.70Grecia 17.80 7.50 Suecia 7.10 7.20Pases Bajos 4.70 2.30
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 56
-
Ejemplo 3.8 (cont.): 1/Y = 0.2975 0.0236X
2 4 6 8 10 12
5
10
15
20
25
Tasa de paro hombres UE 1999
Tasa
de
paro
muje
res U
E 19
99
0 5 10 156
4
2
0
2
4
6
8
Valor previsto de Y
Resid
uo
2 4 6 8 10 120
0.05
0.1
0.15
0.2
0.25
0.3
0.35
Tasa de paro hombres UE 1999
1/(Ta
sa de
paro
mujer
es U
E 199
9)
0 0.1 0.2 0.3
0.06
0.04
0.02
0
0.02
0.04
0.06
Valor previsto de 1/Y
Res
iduo
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 57
-
Interpretacion del coeficiente de regresion
En el modelo Y = 0 + 1x + U el coeficiente 1 representa elincremento que experimenta la respuesta Y cuando la variableexplicativa x aumenta en una unidad.
En el modelo log Y = 0 + 1x + U el coeficiente 1 se interpretacomo el incremento relativo o porcentual que experimenta larespuesta Y cuando la variable x aumenta en una unidad.
Si utilizamos el modelo Y = 0 + 1 log x + U, 1 representa elincremento de la respuesta Y cuando x aumenta en un 1%.
En el modelo log Y = 0 + 1 log x + U, 1 es aproximadamente elincremento relativo de y cuando x aumenta en un 1%. Estemodelo es frecuentemente empleado en el contexto economico,donde a 1 se le denomina elasticidad.
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 58