módulo 5

64
Módulo 5 Análisis de Regresión y Series de Tiempo

Upload: kenyon-mccarty

Post on 04-Jan-2016

38 views

Category:

Documents


1 download

DESCRIPTION

Módulo 5. Análisis de Regresión y Series de Tiempo. MÓDULO. ANÁLISIS DE REGRESIÓN Y SERIES DE TIEMPO. MODELO LINEAL GENERALIZADO. SERIES DE TIEMPO. INTRODUCCIÓN. EJEMPLO. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Módulo 5

Módulo 5

Análisis de Regresión y

Series de Tiempo

Page 2: Módulo 5

MÓDULOANÁLISIS DE

REGRESIÓN Y SERIES DE TIEMPO

MODELO LINEAL GENERALIZADO SERIES DE TIEMPO

Page 3: Módulo 5

INTRODUCCIÓN

Variable de Interés Variable Explicativa

Ventas Tiempo de promoción en T.V.

Accidentes Medidas preventivas implementadas.

Accidentes en carretera Velocidad, longitud y condiciones de la carretera.

Personas que desarrollan una enfermedad

Edad, sexo, ocupación y hábitos.

Tiempo de vida de una persona

Edad, sexo, ocupación y hábitos.

Page 4: Módulo 5

EJEMPLOEn cierta compañía, la prima de un seguro temporal con un plazo de 5 años y una suma asegurada de $300,000 en mujeres con edades comprendidas entre 50 y 70 años cumplidos, es la siguiente:

Page 5: Módulo 5

EJEMPLO

¿Qué efecto tiene la edad en el monto de la prima que se debe pagar?

Edad Prima50 1,14651 1,25452 1,39253 1,53954 1,70755 1,89656 2,07357 2,26258 2,45459 2,62260 2,79361 2,99762 3,19263 3,46864 3,83465 4,24566 4,75567 5,32568 5,91669 6,54370 7,197 Fuente: AMIS

* Prima anual total

Page 6: Módulo 5

EJEMPLO

Fuente : AMIS

0

1,000

2,000

3,000

4,000

5,000

6,000

7,000

8,000

50 55 60 65 70

Prim

a

Edad

Monto de la prima por edad

Page 7: Módulo 5

EJEMPLO

0

1,000

2,000

3,000

4,000

5,000

6,000

7,000

8,000

50 55 60 65 70

Prim

a

Edad

Monto de la prima por edad

Prima = 496.35 + 277.08* Años transcurridos a partir de 50

Por cada año de edad que una mujer supere los 50, el costo de la prima aumentará en $277.

Page 8: Módulo 5

EJEMPLO Edad Prima Estimación Diferencia50 1,146 496 65051 1,254 773 48152 1,392 1,051 34153 1,539 1,328 21154 1,707 1,605 10255 1,896 1,882 1456 2,073 2,159 -8657 2,262 2,436 -17458 2,454 2,713 -25959 2,622 2,990 -36860 2,793 3,267 -47461 2,997 3,544 -54762 3,192 3,821 -62963 3,468 4,098 -63064 3,834 4,375 -54165 4,245 4,653 -40866 4,755 4,930 -17567 5,325 5,207 11868 5,916 5,484 43269 6,543 5,761 78270 7,197 6,038 1,159

Page 9: Módulo 5

MODELO LINEAL GENERAL

Page 10: Módulo 5

MODELO LINEAL GENERAL

Parte determinística

Parte aleatoria

• La parte funcional es conocida pero contiene parámetros desconocidos• Es una función lineal de parámetros desconocidos

• Es una variable aleatoria no observable

Variable dependiente

Page 11: Módulo 5

Y = β0 + β1X + ε

Observación

Parte fija Parte aleatoria (determinista) (error)

MODELO ESTADÍSTICO LINEAL SIMPLE

Page 12: Módulo 5

y

x

Yi = β0 – ß1 xi + ei

Diferencia entre observado y estimado

MODELO ESTADÍSTICO LINEAL SIMPLE

Page 13: Módulo 5

y

x

¿Cuántas líneas se pueden trazar?

MODELO ESTADÍSTICO LINEAL SIMPLE

Page 14: Módulo 5

MODELO ESTADÍSTICO LINEAL SIMPLE

Características del Modelo Lineal:

• Sean Y una variable respuesta o dependiente,• x una variable explicativa o independiente,

ambas variables observables.

• β0 y β1 dos parámetros desconocidos donde β0

es el punto donde la recta intercepta al eje de las y β1es la pendiente de la recta.

• ε el error es una variable aleatoria.

Page 15: Módulo 5

MÍNIMOS CUADRADOS

Para determinar los valores estimados de β0 y β1 utilizamos el método de mínimos cuadrados o suma de los cuadrados de los errores.

(n ∑xiyi - ∑xi ∑yi )

n ∑xi2 – (∑xi)2

β0 = y - β1 x

Λ

Λ

β1 =

Λ

Page 16: Módulo 5

Ejemplos

Un hotel en la periferia obtiene su ingreso bruto de la renta de sus instalaciones y de su restaurante. Los propietarios tienen interés en la relación entre el número de habitaciones ocupadas por noche y el ingreso por día en el restaurante. En la siguiente tabla se presenta una muestra de 25 días (de lunes a jueves) del año pasado que indica el ingreso del restaurante y el número de habitaciones ocupadas.

Page 17: Módulo 5

EjemplosDía Ingreso Habitaciones

Ocupadas1 1,452 232 1,361 473 1,426 214 1,470 395 1,456 376 1,430 297 1,354 238 1,442 449 1,394 4510 1,459 1611 1,399 3012 1,458 4213 1,537 5414 1,425 2715 1,445 3416 1,439 1517 1,348 1918 1,450 3819 1,431 4420 1,446 4721 1,485 4322 1,405 3823 1,461 5124 1,490 6125 1,426 39

Page 18: Módulo 5

Ejemplos

¿Considera que el ingreso del restaurante se incrementa conforme aumenta el número de habitaciones ocupadas? Justifique su respuesta.

Page 19: Módulo 5

Ejemplos

1,300

1,350

1,400

1,450

1,500

1,550

0 10 20 30 40 50 60 70

Ingr

eso

Habitaciones

Page 20: Módulo 5

EjemplosHabitaciones

OcupadasIngreso xy x2

23 1,452 33,396 529 47 1,361 63,967 2,209 21 1,426 29,946 441 39 1,470 57,330 1,521 37 1,456 53,872 1,369 29 1,430 41,470 841 23 1,354 31,142 529 44 1,442 63,448 1,936 45 1,394 62,730 2,025 16 1,459 23,344 256 30 1,399 41,970 900 42 1,458 61,236 1,764 54 1,537 82,998 2,916 27 1,425 38,475 729 34 1,445 49,130 1,156 15 1,439 21,585 225 19 1,348 25,612 361 38 1,450 55,100 1,444 44 1,431 62,964 1,936 47 1,446 67,962 2,209 43 1,485 63,855 1,849 38 1,405 53,390 1,444 51 1,461 74,511 2,601 61 1,490 90,890 3,721 39 1,426 55,614 1,521

906 35,889 1,305,937 36,432

Page 21: Módulo 5

Ejemplos

Ingreso = 1,381.99 + 1.48 * Habitaciones

Page 22: Módulo 5

PrácticaEn el archivo que se les proporcionó contiene registros de algunos indicadores a nivel nacional, realice lo siguiente.

1.Determine que efecto tiene en la confianza del consumidor el precio del dólar, la inflación y el desempleo urbano.2.Determine que variables tienen impacto en la cartera vencida de la banca comercial.3.Exponer tus resultados al grupo.

Page 23: Módulo 5

Indicadores

R2 : Coeficiente de determinación

Esta medida nos indica la proporción de variación que explica el modelo lineal

totaliaciónlicadaiación

R var

exp var2

Page 24: Módulo 5

Propiedades de R2

• R2 toma valores entre 0 y 1• Conforme R2 se vaya aproximando a 1, significa que el modelo lineal explica mejor la situación.• Conforme R2 se vaya aproximando a 0 significa que el modelo lineal no es adecuado para explicar la información.

Page 25: Módulo 5

Observación

Un coeficiente de determinación diferente de cero no significa que haya relación lineal entre las variables. Por ejemplo, R2 = 0.5 sólo nos dice que el 50% de la varianza de las observaciones queda explicado por el modelo lineal.

Page 26: Módulo 5

Fórmula

Page 27: Módulo 5

Ejemplo

Calcular el coeficiente de determinación R2 .

Page 28: Módulo 5

Ejemplo

Page 29: Módulo 5

Indicadores

Aplicando la fórmula:

El modelo lineal explica el 56.2% de la información

Page 30: Módulo 5

Correlación. r

Dos variables X e Y tienen una relación positiva si a medida que se incrementa los valores de una de las variables se incrementa los valores de la otra. De manera análoga, se dice que X e Y tienen una relación negativa si a medida que decrecen los valores de una de las variables se incrementa los valores de la otra.

Page 31: Módulo 5

IndicadoresEl coeficiente de correlación se caracteriza por tomar valores entre -1 y 1, de manera que:

• r = 1 o r = -1 cuando haya una asociación lineal exacta entre las variables (en el primer caso positiva y en el segundo, negativa).

Page 32: Módulo 5

32

Interpretación del coeficiente de correlación

Page 33: Módulo 5

Indicadores

Page 34: Módulo 5

Indicadores

Page 35: Módulo 5

Ejemplo

Page 36: Módulo 5

Ejemplo

El resultado es r = 0.7495

Page 37: Módulo 5

Relación entre r y R2

R2 = r2

r*r 0.561704893R^2 0.561704893

En nuestro ejemplo:

Page 38: Módulo 5

PrácticaEnriquezca el análisis de las series proporcionadas considerando el coeficiente de correlación y de determinación.

En el caso del índice de confianza del consumidor, ¿Qué variables explicativas se encuentran menos correlacionadas?

En el caso de la cartera vencida ¿ Qué variables explicativas tienen mayor correlación?

Exponga sus resultados al grupo

Page 39: Módulo 5

Significancia

Si en el modelo de regresión lineal la pendiente es cero, entonces la variable X no tiene ningún efecto sobre la variable Y. En este caso diremos que X no es una variable explicativa del modelo.En este apartado haremos un contraste de hipótesis sobre la pendiente de la recta de regresión para saber si podemos afirmar o no que éste es igual a cero.

Page 40: Módulo 5

Significancia

Se establece las hipótesis nula y alternativa y se contrasta:• Hipótesis nula: H0: b1 = 0, es decir, la variable X no es explicativa.• Hipótesis alternativa: H1: b1 <> 0, es decir, la variable X es explicativa.

No rechazar la hipótesis nula significa que no se puede considerar el parámetrob1 significativamente diferente de cero. Es decir, la variable X no tiene influenciasobre la variable Y y, por tanto, no existe una relación lineal entre las dos variables.

Page 41: Módulo 5

Significancia

E(β1) = β1 σ2 β1 = σ2

SCx

Λ

ΛΛ

Z = β1 - β1 σ

β1

β1 - β1

σ/√SCx=

Λ

β1 - β1 σ/√SCx

Λ

=t = s

Λ

√SCx β1 - β1

El estimador de la pendiente tiene las siguientes características

Λ

Valor esperado

Varianza del estimador

Estadístico de prueba

Muestral

Page 42: Módulo 5

SignificanciaResultado de la prueba

Zona de rechazo

Si el valor de la prueba cae en la zona de rechazo se rechaza Ho, es decir β1 es significativa por lo que x si es una variable explicativa.

2.5%

Page 43: Módulo 5

Ejercicios

Analizar la información

Page 44: Módulo 5

Ejercicios

Page 45: Módulo 5

EjerciciosA continuación se proporciona información de la tasa de mortalidad por 100,000 habitantes y la temperatura media anual de 13 ciudades. Analice la información

Page 46: Módulo 5

Cálculo en Excel

Variables consideradas: y =ICC ; x = INPC

Resumen

Estadísticas de la regresiónCoeficiente de correlación múltiple 0.47386479Coeficiente de determinación R^2 0.22454784R^2 ajustado 0.21671499Error típico 7.70056653Observaciones 101

ANÁLISIS DE VARIANZA

Grados de libertad

Suma de cuadrados

Promedio de los

cuadrados FValor crítico

de FRegresión 1 1699.94327 1699.94327 28.66745068 5.5792E-07Residuos 99 5870.57376 59.2987248Total 100 7570.51703

Coeficientes Error típico Estadístico t Probabilidad Inferior 95%Superior

95%Inferior 95.0%

Superior 95.0%

Intercepción 139.171693 7.41880257 18.7593203 2.30169E-34 124.45118 153.892207 124.45118 153.892207Variable X 1 -0.34597021 0.06461661 -5.35419935 5.57918E-07 -0.47418358 -0.21775684 -0.47418358 -0.21775684

Page 47: Módulo 5

Usos del modelo

• Una vez que se está conforme con el modelo, se puede emplear para predecir los valores de y.

• El modelo permite realizar predicciones de tipo Puntual y por Intervalos.

Page 48: Módulo 5

• Ejemplo– El precio de venta de un vehículo con respecto a su

kilometraje es descrito por el siguiente modelo:

Donde y es el precio de venta y x el kilometraje

Predicción Puntual

Se refiere a realizar una estimación de un valor específico de y dado un dato de x

xy 0623.17067ˆ

Page 49: Módulo 5

49

– El precio de venta de un vehículo con 40,000 Kms. es:

Se estima que un vehículo con 40.000 kms se venderá en $14,575.

575,14ˆ

)000,40(0623.17067ˆ

0623.17067ˆ

y

y

xy

Predicción Puntual

Page 50: Módulo 5

Estimación por Intervalos

50

• Se pueden usar dos intervalos para estimar en que rango caerá el valor real.

– Intervalo de Predicción: calcula un rango de valores donde es posible que se encuentre y para un valor dado de x

2

2

2/ )(

)(11ˆˆ

xx

xx

nSty

i

ge

x

yn

y1

y2

Rango para y, Dominio dado un valor específico de x

.

.

.

Page 51: Módulo 5

Estimación por Intervalos

51

– Intervalo de Confianza: estima el valor esperado de y dado un valor de x (linea recta)

2

2

2/ )(

)(1ˆˆxx

xx

nSty

i

ge

x

yn

y1

y2

Valor esperado de y, dado un valor específico de x

Page 52: Módulo 5

Límites

52

• De las ecuaciones se observa que las bandas hiperbólicas

de predicción siempre están por fuera de las de confianza.Intervalos de Confianza y Predicción

-3

-2

-1

0

1

2

3

4

5

6

7

1 2 3 4 5

Lim Inf

Lim Sup.

Yest.

Lim Inf

Lim Sup.

Confianza

Predicción

Page 53: Módulo 5

Ejemplo

53

– Obtener una estimación por intervalos para el precio de ventas de un vehículo con 40,000 kms. Con una confiabilidad del 95%:

Caso I, para un vehículo en específico

Caso II para el precio promedio del vehículo

Page 54: Módulo 5

Caso I

54

• Solución

– Un Intervalo de Predicción da el precio estimado para un vehículo de 40,000 kms

2

2

2 )(

)(11ˆˆ

xx

xx

nsty

i

g

605575.14000.340.309.4

)009.36000.40(100

11)1,303(984,1)]40000(0623.0067.17[

2

t0,025,98

Aproximadamente

Page 55: Módulo 5

Caso II

55

– Un Intervalo de Confianza da la estimación del precio promedio de un vehículo con 40.000 Kms.

2

2

2 )(

)(1ˆˆ

xx

xx

nsty

i

g

645,14

505,14

70575,14000.340.309.4

)009.36000.40(100

1)1,303(984,1)]40000(0623,0067.17[

2

LS

LI

Page 56: Módulo 5

Residuos

Page 57: Módulo 5

Análisis de Residuos

57

• Este análisis se lleva a cabo con la intención de corroborar lo siguiente:

– Que el error se distribuye normalmente.– Que la varianza del error es constante para

todos los valores de x.– Los errores son independentes entre sí.

Page 58: Módulo 5

Residuos

Page 59: Módulo 5

ResiduosRe

sidu

os

No se aprecia independencia ya que se visualiza un patrón.

Page 60: Módulo 5

ResiduosPatrones característicos que el modelo no cumple con los supuestos, es decir la varianza no es constante.

Page 61: Módulo 5

ResiduosEl supuesto de normalidad se puede verificar con un gráfico normal.

Page 62: Módulo 5

Outlier

62

Valores Alejados (Outliers)• Un “outlier” es una observación (rara o excepcional) que

normalmente es pequeña o grande.• Cuando se observa un “outlier” se necesita investigar

distintas posibilidades:– Hubo un error al registrar el valor.– El punto no pertenece a la muestra.– La observación es válida.

• Los “Outliers” se identifican en el diagrama de dispersión.• Se puede sospechar que una observación es un outlier si

su |residuo estandarizado| > 2

Page 63: Módulo 5

Outlier

63

+

+

+

++ +

+ + ++

+

+

+

+

+

+

+

El outlier causa un desplamien- to en la línea de regresión

… pero, algunos outliers pueden ser muy influyentes

++++++++++

Un outlier Una observación influyente

Page 64: Módulo 5

Práctica

64

Un banco a lo largo del tiempo ha dado a sus créditos un cierto porcentaje de descuento, conforme a la normativa se estimó que el que se debió haber dado es diferente, por lo que la autoridad desea homologarlos.

Determine una regla utilizando análisis de regresión.