regresion lineal multiple

Upload: jorge-saldarriaga

Post on 07-Jan-2016

213 views

Category:

Documents


0 download

DESCRIPTION

documento

TRANSCRIPT

REGRESION LINEAL MULTIPLE

REGRESION LINEAL MULTIPLEEn la regresin lineal mltiple tratamos de determinar la relacin existente entre la variable dependiente (Y) y dos o ms variables independientes ( X1, X2, X3, ..., XK ) tambin llamadas variables regresoras.

En este caso la variable dependiente se ve afectada por los cambios que se le hagan a las variables independientes en conjunto.

La relacin entre las variables regresoras y la variable dependiente se establece mediante el modelo general de regresin lineal mltiple:

donde 0, 1, 2, ..., k son los parmetros del modelo ( se tienen k variables independientes y p parmetros ).

En este caso 0 representa la ordenada en el origen, es decir, el punto donde el hiperplano corta al aje Y (al haber ms de dos variables independientes la relacin queda representada por medio de un hiperplano).

En general i representa la contribucin de cambio esperado en Y por cada incremento unitario en X1Por comodidad en la simplicidad de las operaciones, emplearemos en esta ocasin slo dos variables independientes

Al utilizar dos variables independientes, el modelo general de regresin lineal mltiple queda representado por:

donde:

0 representa el punto donde el plano corta al eje Y (ahora la relacin entre las dos variables independientes y Y est representada por un plano).

1 representa el cambio esperado en Y por cada incremento unitario en X1, siempre y cuando X2 permanezca constante.

2 representa el cambio esperado en Y por cada incremento unitario en X2, siempre y cuando X1 permanezca constante.

La figura siguiente muestra la relacin entre las variables independientes y Y.

ESTIMACION DE PARAMETROSPara encontrar los estimadores de los parmetros del modelo, partiremos de una muestra aleatoria de tamao n para valores de X1, X2 y Y:

X1iX2iYi

X11X21Y1

X12X22Y2

X13X23Y3

.

.

..

.

.

.

.

.

X1nX2nYn

Al utilizar una muestra aleatoria para estimar los parmetros, incurriremos en un error en la estimacin. Debemos agregar dicho error al modelo de regresin lineal mltiple:

donde es un error aleatorio con media 0 y varianza 2.

Cada una de las observaciones de Y se puede representar mediante el modelo anterior:

Si utilizamos el enfoque de vectores y matrices, las observaciones de Y quedarn representadas mediante:

donde:

El mtodo a utilizar en la estimacin de los parmetros del modelo es el mtodo de mnimos cuadrados. Dicho mtodo consiste en minimizar la funcin de mnimos cuadrados.

La funcin de mnimos cuadrados est dada por la letra L y es igual a la suma de todos los errores elevados al cuadrado:

Si multiplicamos la transpuesta del vector por el mismo vector obtendremos la suma de los errores elevados al cuadrado:

la funcin de mnimos cuadrados quedar como:

ahora bien, si de la ecuacin vectorial del modelo de regresin anterior despejamos el error:

sustituyndolo en L:

Al realizar las operaciones anteriores y simplificando se llega a lo siguiente:

Derivando la funcin anterior con respecto de , evaluando para e igualando a cero:

despejando :

donde:

De esta manera, el modelo de regresin lineal mltiple ajustado queda definido por:

PRUEBAS DE HIPOTESIS EN LA REGRESION LINEAL MULTIPLEPRUEBA DE SIGNIFICANCIALa prueba de significancia del modelo nos permite determinar estadsticamente si las variables independientes (en conjunto) tienen efecto o no sobre la variable dependiente.

Para realizar esta prueba se requiere descomponer la suma total de cuadrados, representada por Syy, en dos componentes: SSR y SSESyy = SSR + SSE

Donde:

Syy es la suma total de cuadrados

SSR es la suma de cuadrados de la regresin

SSE es la suma de cuadrados del error

Las ecuaciones apropiadas para calcular las expresiones anteriores son:

Partimos de las hiptesis:

Utilizamos la tabla de anlisis de varianza:

Fuente de VariacinSuma de cuadradosGrados

de libertadMedia de cuadradosEstadstico de prueba

RegresinSSRk

ErrorSSEn p

TotalSyyn 1

El estadstico de prueba F0 tiene una distribucin F (Fisher) con v1 = k y v2 = n p grados de libertad en el numerador y el denominador, respectivamente.

En este caso, si el estadstico de prueba es mayor que el valor de tablas F, k, n p, se rechaza la hiptesis nula; concluiremos que la variable independiente est relacionada con al menos una de las variables independientes.PRUEBAS SOBRE COEFICIENTES INDIVIDUALESEn la prueba de significancia determinamos si existe o no relacin entre la variable dependiente y las variables independientes en conjunto, es decir, no se puede determinar la relacin entre Y y cada una de las variables independientes.

Se pueden realizar pruebas individuales para analizar la relacin entre la variable dependiente y cada una de las variables independientes.

Partimos de las hiptesis siguientes:

para j = 1, 2, ..., k

el estadstico de prueba apropiado es:

donde es el valor de la diagonal principal de la matriz inversa ( (XX)-1 ):

El estadstico de prueba t0 anterior sigue una distribucin t-student con v = n p grados de libertad.

Entonces, si el valor absoluto del estadstico de prueba es mayor que el valor de tablas t/2, n p, se rechaza la hiptesis nula. Como conclusin diremos que la variable independiente Y s est relacionada con la variable independiente Xj.

INTERVALOS DE CONFIANZA EN LA REGRESION LINEAL MULTIPLEINTERVALOS DE CONFIANZA PARA LOS PARAMETROS DEL MODELOSe pueden tambin estimar los parmetros del modelo mediante intervalos de confianza.

Para cualquier parmetro, el intervalo de confianza de (1 ) 100% est dado por la siguiente expresin:

para j = 0, 1, 2, ..., kEn cuanto a las conclusiones de los resultados obtenidos en los intervalos de confianza se aplica un criterio semejante al empleado en la regresin lineal simple.

Como 0 indica un punto donde el plano cortar al eje Y, la conclusin del intervalo correspondiente no debe presentar problema alguno a la hora del planteamiento.

Algo diferente resulta a la hora de concluir los intervalos de confianza para los dems parmetros:

Siempre y cuando j 0, las conclusiones para cualquier intervalo de confianza, de acuerdo al resultado obtenido, sern las siguientes:Si el intervalo de confianza para j resulta , concluiremos que por cada incremento en Xj la variable dependiente disminuir, en promedio, por lo menos b y a lo mucho a veces; siempre y cuando las dems variables independientes permanezcan constantes.Si el intervalo de confianza para j resulta , concluiremos que por cada incremento en Xj la variable dependiente aumentar, en promedio, por lo menos a y a lo mucho b veces; siempre y cuando las dems variables independientes permanezcan constantes.

Ahora bien, Si el intervalo de confianza para j resulta , no se puede afirmar que Xj tenga efecto sobre la variable dependiente.

INTERVALOS DE CONFIANZA PARA LA RESPUESTA MEDIA Y PARA UNA OBSERVACION FUTURA.Como vimos anteriormente, el modelo de regresin lineal mltiple nos permite establecer la relacin entre la variable dependiente (Y) con ms de una variables independientes (X1, X2, ..., Xk).

Tambin podemos utilizar el modelo de regresin para encontrar el valor estimado de Y cuando X1 = X1, 0 y X2 = X2,0 (cuando hay dos variables independientes en el modelo). Basta introducir los valores correspondientes de las variables independientes en el modelo:

En forma matricial:

donde

Entonces, el intervalo de confianza de (1 ) 100% para el valor esperado de Y est dado por la expresin:

El intervalo de confianza de (1 a) 100% para una observacin futura de Y est dado por:

COEFICIENTE DE DETERMINACION MULTIPLEEl coeficiente de determinacin mltiple nos permite expresar la cantidad de la variabilidad presente en las observaciones de Y que se explica mediante el modelo de regresin lineal mltiple, cuando se utilizan la variables independientes, en conjunto, como variables regresoras.

El coeficiente de determinacin mltiple se representa mediante R2. Toma valores entre 0 y 1. Entre ms se acerque a 1 el modelo es adecuado, ya que la mayor cantidad en la variabilidad de los datos se explica mediante el modelo. A medida que el coeficiente se aproxime a cero el modelo deja de ser adecuado, ya que cantidad de la variabilidad explicada mediante el modelo es pobre.

El coeficiente de determinacin mltiple se expresa como un porcentaje y se calcula mediante la siguiente expresin:

EJERCICIOA fin de ejemplificar los temas anteriormente vistos, analizaremos el siguiente problema:

El dueo de un restaurante de hamburguesas en la ciudad de Mxico desea determinar la interrelacin entre la introduccin de aderezos importados y las utilidades que recibe.Utilidades70401008030100

Demanda de catsup nacional213213

Demanda de catsup importada506575304535

Con esta informacin determinaremos lo siguiente:

1.- La ecuacin de regresin lineal mltiple.

2.- La prueba de significancia del modelo. = 0.05

3.- Intervalos de confianza del 95 % para los parmetros del modelo.

4.- Intervalos de confianza del 90 % para la utilidad esperada y la futura cuando la demanda de catsup nacional sea de 4 y la de catsup importada de 50.

5.- El coeficiente de determinacin mltiple.De acuerdo al enunciado del ejercicio, Y representa a las utilidades, X1 representa a la demanda de catsup nacional y X2 representa a la demanda de catsup importada.

El objetivo principal es establecer si las dos variables independientes tienen efecto o no sobre las utilidades del restaurante, a fin de establecer diferencias entre las dos. Es decir, si es indiferente cual de las dos variables utilizar en el proceso.

A fin de solucionar cada uno de los incisos del ejercicio, empezaremos calculando las sumatorias de los valores de X1, X2 y Y.

n =6X1X2 =600

X1 =12Y =420

X12 =28Y2 =33800

X2 =300X1Y =970

X22 =16500SX2Y =20850

Puesto que entonces:

de aqu, entonces, el modelo de regresin lineal mltiple solicitado en el inciso 1 es:

a partir del modelo anterior, podemos concluir lo siguiente:

El plano de regresin cortar al eje Y en y = 10.

Por cada incremento en la demanda de catsup nacional, las utilidades se incrementarn 32.5 veces, en promedio; siempre y cuando la demanda de catsup importada permanezca constante.

Por cada incremento en la demanda de catsup importada, las utilidades disminuirn 0.1 veces, en promedio; siempre y cuando la demanda de catsup nacional permanezca constante.

Para realizar la prueba de significancia en el inciso 2, calcularemos primero los valores de Syy, SSR y SSE:

Planteamos las hiptesis:

el nivel de significancia de la prueba es de 0.05.

Realizando la tabla de anlisis de varianza:

Fuente de VariacinSuma de cuadradosGrados

de libertadMedia de cuadradosEstadstico de prueba

Regresin42402

Error1603

Total44005

El valor de tablas de la distribucin F con = 0.05, v1 = 2 y v2 = 3 grados de libertad en el numerador y el denominador, respectivamente, es 9.55.

Al comparar el estadstico de prueba contra el valor de tablas vemos que F0 es mayor que F, 2, 3; rechazamos la hiptesis nula. Por lo tanto, podemos afirmar que las utilidades del restaurante estn significativamente relacionadas con la demanda de catsup nacional con la demanda de catsup importada con ambas.

A fin de determinar exactamente con cuales variables se relaciona la variable Y, realizaremos pruebas de hiptesis sobre coeficientes individuales.

Para determinar si la demanda de catsup nacional tiene efecto o no sobre las utilidades, planteamos los siguiente.

el estadstico de prueba es:

El valor de tablas de la distribucin t-student con = 0.025 y v = 3 grados de libertad es 3.182.

Comparando el valor absoluto del estadstico de prueba con el valor de las tablas, notamos que t0 es mayor que t, 3 por lo que rechazamos la hiptesis nula. Concluiremos entonces que la demanda de catsup nacional s tiene efecto significativo sobre las utilidades del restaurante.

La siguiente prueba de hiptesis nos permitir determinar si la demanda de catsup importada tiene o no efecto sobre las utilidades:

el estadstico de prueba es:

El valor de tablas de la distribucin t-student con = 0.025 y v = 3 grados de libertad es 3.182.

Al comparar el valor absoluto del estadstico de prueba con el valor de las tablas, vemos que t0 es menor que t, 3 por lo que no se puede rechazar la hiptesis nula. Lo anterior nos lleva a concluir que no existen los elementos suficientes para afirmar que la demanda de catsup importada tenga efecto sobre las utilidades del restaurante.

En el inciso 3 se pide calcular intervalos de confianza del 95 % para los parmetros del modelo (0, 1 y 2)

Como el intervalo de confianza es del 95 %, el valor de es igual a 0.05.

El valor de tablas de la distribucin t-student con 0.025 y 3 grados de libertad es de 3.182

El intervalo de confianza del 95% para 0 queda de la siguiente manera:

Como conclusin, se afirmar con un 95% de certeza que la ordenada en el origen ser por los menos -29.1154 y a lo mucho 49.1154. Este es el rango de valores por donde cortar el plano al eje Y.

El intervalo de confianza del 95% para 1 lo calculamos de la siguiente manera:

Como los dos valores del intervalo resultaron positivos, se puede afirmar con un 95% de certeza que por cada incremento en la demanda de catsup nacional, las utilidades se incrementarn por lo menos 20.8809 y a lo mucho 44.1190 veces, en promedio; siempre y cuando la demanda de catsup importada permanezca constante.

Por ltimo, para calcular el intervalo de confianza del 95 % para 2:

En el resultado anterior se tienen un valor negativo y uno positivo a la izquierda y a la derecha, respectivamente; simplemente no se puede afirmar que la demanda de catsup importada tenga efecto sobre las utilidades.

En el inciso 4 se requiere calcular intervalos de confianza del 90% para la respuesta media y para una observacin futura de la utilidad del restaurante cuando la demanda de castup nacional es de 4 y la de catsup importada sea de 50.

Aqu el intervalo de confianza solicitado es de 90%, por lo que el valor de ser igual a 0.10

El valor de tablas de la distribucin t-student con 0.05 y 3 grados de libertad es: 2.353.

Primero se tiene que calcular la utilidad estimada cuando X1 = 4 y X2 = 50.

En forma matricial:

Cuando la demanda de catsup nacional sea de 4 y la demanda de catsup importada sea de 50, las utilidades esperadas del restaurante sern de 135 unidades.

El intervalo de confianza del 90% para la utilidad esperada est dado por:

Se puede afirmar con un 90% de certeza que cuando la demanda de catsup nacional sea de 4 y la de catsup importada sea de 50, la utilidad esperada del restaurante ser por lo menos 116.45 y a lo mucho 153.55 unidades.

El intervalo de confianza del 90 % para la observacin futura de la utilidad del restaurante bajo las mismas condiciones de X1 y X2 est dado por:

Se puede Afirmar con un 90% de certeza que cuando la demanda de catsup nacional sea de 4 y la de catsup importada de 50, la utilidad del restaurante ser por lo menos 109.7139 y a lo mucho 160.2861 unidades.

Por ltimo, en el inciso 5 se pide calcular e interpretar el coeficiente de determinacin mltiple:

esto indica que el 96.36 % de la variabilidad de la utilidad del restaurante se explica mediante el modelo de regresin lineal mltiple:

cuando se utilizan la demanda de catsup nacional y la demanda de catsup importada como variables regresoras.

A continuacin se muestran los resultados del ejercicio anterior calculados en una hoja de clculo diseada para resolver los problemas de regresin lineal mltiple (con 2 variables independientes).

X1

X2

Y

Jorge Saldarriaga

_2147483647.unknown

_2147483646.unknown

_2147483645.unknown

_2147483644.unknown

_2147483643.unknown

_2147483642.unknown

_2147483641.unknown

_2147483640.unknown

_2147483639.unknown

_2147483638.unknown

_2147483637.unknown

_2147483636.unknown

_2147483635.unknown

_2147483634.unknown

_2147483633.unknown

_2147483632.unknown

_2147483631.unknown

_2147483630.unknown

_2147483629.unknown

_2147483628.unknown

_2147483627.unknown

_2147483626.unknown

_2147483625.unknown

_2147483624.unknown

_2147483623.unknown

_2147483622.unknown

_2147483621.unknown

_2147483620.unknown

_2147483619.unknown

_2147483618.unknown

_2147483617.unknown

_2147483616.unknown

_2147483615.unknown

_2147483614.unknown

_2147483613.unknown

_2147483612.unknown

_2147483611.unknown

_2147483610.unknown

_2147483609.unknown

_2147483608.unknown

_2147483607.unknown

_2147483606.unknown

_2147483605.unknown

_2147483604.unknown

_2147483603.unknown

_2147483602.unknown

_2147483601.unknown

_2147483600.unknown

_2147483599.unknown

_2147483598.unknown

_2147483597.unknown

_2147483596.unknown

_2147483595.unknown

_2147483594.unknown

_2147483593.unknown

_2147483592.unknown

_2147483591.unknown

_2147483590.unknown

_2147483589.unknown

_2147483588.unknown

_2147483587.unknown

_2147483586.unknown

_2147483585.unknown

_2147483584.unknown

_2147483583.unknown

_2147483582.unknown

_2147483581.unknown