regresión simple.. consideramos dos variables x e y, que medimos conjuntamente: xy...

22
Regresión Simple.

Upload: paulino-cazares

Post on 22-Jan-2016

213 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Regresión Simple.. Consideramos dos variables X e Y, que medimos conjuntamente: XY x1x2…xnx1x2…xn y1y2…yny1y2…yn Observaciones Por ejemplo: X=distancia

Regresión Simple.

Page 2: Regresión Simple.. Consideramos dos variables X e Y, que medimos conjuntamente: XY x1x2…xnx1x2…xn y1y2…yny1y2…yn Observaciones Por ejemplo: X=distancia

Consideramos dos variables X e Y, que medimos conjuntamente:

X Y

x1

x2

xn

y1

y2

yn

Observaciones

Por ejemplo: X=distancia a una planta industrial, Y=contaminación por cierto elemento, peso y altura,nivel de CO2 en una ciudad y nº de habitantes, etc.

Page 3: Regresión Simple.. Consideramos dos variables X e Y, que medimos conjuntamente: XY x1x2…xnx1x2…xn y1y2…yny1y2…yn Observaciones Por ejemplo: X=distancia

Decimos que entre X e Y existe una relación funcional, si existe una función f tal que

Y = f(X)

Lineal: Y = a + bX Cuadrática: Y = a + bX + cX2

Exponencial: Y = a.bX Cúbica: Y = a + bX + cX + dX3

Page 4: Regresión Simple.. Consideramos dos variables X e Y, que medimos conjuntamente: XY x1x2…xnx1x2…xn y1y2…yny1y2…yn Observaciones Por ejemplo: X=distancia

Sin embargo, cuando trabajamos con variables estadísticas, la situación que se da es…

Page 5: Regresión Simple.. Consideramos dos variables X e Y, que medimos conjuntamente: XY x1x2…xnx1x2…xn y1y2…yny1y2…yn Observaciones Por ejemplo: X=distancia

En los casos anteriores decimos que entre las variablesX e Y existe correlación (ó que X e Y son variables correladas). El tipo de correlación tiene que ver con el tipo de función que ajusta bien la relación entre X e Y:

Lineal Cuadrática

Exponencial Cúbica

Page 6: Regresión Simple.. Consideramos dos variables X e Y, que medimos conjuntamente: XY x1x2…xnx1x2…xn y1y2…yny1y2…yn Observaciones Por ejemplo: X=distancia

Si no hay ninguna función que pueda aproximar la relación entre X e Y, decimos que son variables Incorreladas (es decir, entre ellas no hay una relación estadística significativa). Por ejemplo…

0 100 200 300 4000

3

6

9

12

15

Page 7: Regresión Simple.. Consideramos dos variables X e Y, que medimos conjuntamente: XY x1x2…xnx1x2…xn y1y2…yny1y2…yn Observaciones Por ejemplo: X=distancia

Dadas dos variables X e Y (continuas),

- ¿Están linealmente correlacionadas? Supone evaluar la idoneidad de un modelo

del tipo Y = a + bX para predecir la variable Y a partir de la variable X…

Page 8: Regresión Simple.. Consideramos dos variables X e Y, que medimos conjuntamente: XY x1x2…xnx1x2…xn y1y2…yny1y2…yn Observaciones Por ejemplo: X=distancia

Dadas dos variables X e Y (continuas),

- ¿Funciona bien algún otro tipo de correlación (cuadrática, cúbica, exponencial, …)?

Este es el problema de la regresión simple.

(Se habla de regresión lineal, cuadrática, exponencial…Nosotros nos centraremos en el modelo más común, que es el lineal)

Page 9: Regresión Simple.. Consideramos dos variables X e Y, que medimos conjuntamente: XY x1x2…xnx1x2…xn y1y2…yny1y2…yn Observaciones Por ejemplo: X=distancia

REGRESION LINEAL: (descripción intuitiva) ¿Tiene sentido decir que, aproximadamente,

Y = a + bX ?

0 100 200 300 4000

20

40

60

80

100

120

Un primer criterio “natural” consiste en representar la nube de puntos ó diagrama de dispersión…

Page 10: Regresión Simple.. Consideramos dos variables X e Y, que medimos conjuntamente: XY x1x2…xnx1x2…xn y1y2…yny1y2…yn Observaciones Por ejemplo: X=distancia

Si la nube de puntos sugiere la existencia de correlaciónlineal, tiene sentido buscar cuál es la recta que “mejor” aproxima la nube de puntos (recta de regresión)

0 100 200 300 4000

20

40

60

80

100

120

Y = a + bX

b: pendientea: ordenada en el origen

Corr. directa o positiva: b>0; corr. inversa o negativa: b<0(si b=0 se entiende que no hay correlación lineal)

Page 11: Regresión Simple.. Consideramos dos variables X e Y, que medimos conjuntamente: XY x1x2…xnx1x2…xn y1y2…yny1y2…yn Observaciones Por ejemplo: X=distancia

0 100 200 300 4000

20

40

60

80

100

120

iy :valor real

- Sirve para hacer predicciones sobre y (conocido x).- Residuo de cada observación: diferencia entre el valor real, y el valor predicho. - La recta de regresión se obtiene por el método de mínimos cuadrados: es aquella que hace mínima la suma de los cuadrados de los residuos).

Page 12: Regresión Simple.. Consideramos dos variables X e Y, que medimos conjuntamente: XY x1x2…xnx1x2…xn y1y2…yny1y2…yn Observaciones Por ejemplo: X=distancia

0 100 200 300 4000

20

40

60

80

100

120

iy

Valor predicho: ii bxay ˆ

Page 13: Regresión Simple.. Consideramos dos variables X e Y, que medimos conjuntamente: XY x1x2…xnx1x2…xn y1y2…yny1y2…yn Observaciones Por ejemplo: X=distancia

0 100 200 300 4000

20

40

60

80

100

120

iy

Valor predicho: ii bxay ˆ

Residuo: diferenciaentre el valor realy el valor predicho

Page 14: Regresión Simple.. Consideramos dos variables X e Y, que medimos conjuntamente: XY x1x2…xnx1x2…xn y1y2…yny1y2…yn Observaciones Por ejemplo: X=distancia

bXaY

xbya

Media marginal de Y

Media marginal de X

2x

xy

S

Sb

Varianza marginalde X

Covarianza

Ecuación de la recta de regresión y/x:

Page 15: Regresión Simple.. Consideramos dos variables X e Y, que medimos conjuntamente: XY x1x2…xnx1x2…xn y1y2…yny1y2…yn Observaciones Por ejemplo: X=distancia

Coeficiente de correlación lineal de Pearson.

yx

xy

SS

S

• Siempre está entre -1 y 1.• Su signo coincide con el de la covarianza.• Cuanto más cerca está de 1, en valor absoluto, más fuerte es la correlación lineal.• Si es igual a 0, no hay correlación lineal (puede haberla de otro tipo).

Page 16: Regresión Simple.. Consideramos dos variables X e Y, que medimos conjuntamente: XY x1x2…xnx1x2…xn y1y2…yny1y2…yn Observaciones Por ejemplo: X=distancia

Coeficiente de correlación lineal de Pearson.

yx

xy

SS

S

-0.9-1 -0.5 0 0.5 0.9 1

Débil - Débil +

Moderada - Moderada +

Fuerte - Fuerte +(Fuente: Susan Milton,p.412)

Page 17: Regresión Simple.. Consideramos dos variables X e Y, que medimos conjuntamente: XY x1x2…xnx1x2…xn y1y2…yny1y2…yn Observaciones Por ejemplo: X=distancia

¿Basta con esto para evaluar la bondad del modelo? NO!!

Ejemplos de ANSCOMBE: cuatro conjuntos de datos, todos con el mismo coeficiente de correlación (0.8164), pero “muy distintos”…

Page 18: Regresión Simple.. Consideramos dos variables X e Y, que medimos conjuntamente: XY x1x2…xnx1x2…xn y1y2…yny1y2…yn Observaciones Por ejemplo: X=distancia

x1 y1 x2 y2 x3 y3 x4 y4

10 8,04 10 9,14 10 7,46 8 6,58

8 6,95 8 8,14 8 6,77 8 5,76

13 7,58 13 8,74 13 12,74 8 7,71

9 8,81 9 8,77 9 7,11 8 8,84

11 8,33 11 9,26 11 7,81 8 8,47

14 9,96 14 8,1 14 8,84 8 7,04

6 7,24 6 6,13 6 6,08 8 5,25

4 4,26 4 3,1 4 5,39 19 12,5

12 10,84 12 9,13 12 8,15 8 5,56

7 4,82 7 7,26 7 6,42 8 7,91

5 5,68 5 4,74 5 5,73 8 6,89

Page 19: Regresión Simple.. Consideramos dos variables X e Y, que medimos conjuntamente: XY x1x2…xnx1x2…xn y1y2…yny1y2…yn Observaciones Por ejemplo: X=distancia

Gráfico del Modelo Ajustado

x1

y1

4 6 8 10 12 144,2

6,2

8,2

10,2

12,2

Razonable…

Page 20: Regresión Simple.. Consideramos dos variables X e Y, que medimos conjuntamente: XY x1x2…xnx1x2…xn y1y2…yny1y2…yn Observaciones Por ejemplo: X=distancia

Gráfico del Modelo Ajustado

x2

y2

4 6 8 10 12 143,1

5,1

7,1

9,1

11,1

No hay linealidad…

Page 21: Regresión Simple.. Consideramos dos variables X e Y, que medimos conjuntamente: XY x1x2…xnx1x2…xn y1y2…yny1y2…yn Observaciones Por ejemplo: X=distancia

Gráfico del Modelo Ajustado

x3

y3

4 6 8 10 12 145,3

7,3

9,3

11,3

13,3

Residuos atípicos… ¿errores, o algo más?

Page 22: Regresión Simple.. Consideramos dos variables X e Y, que medimos conjuntamente: XY x1x2…xnx1x2…xn y1y2…yny1y2…yn Observaciones Por ejemplo: X=distancia

Gráfico del Modelo Ajustado

x4

y4

8 10 12 14 16 18 205,2

7,2

9,2

11,2

13,2

Un solo punto determina la recta…