miles, j. & shervin, m. (2011). applyng regression & correlation. a guide for students and...

46
Supuestos en el análisis de regresión Miles , J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage. Chap. 4. Parte 1. Supuestos para distribuciones univariadas

Upload: gregorio-valverde-vidal

Post on 25-Jan-2016

213 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage. Chap. 4. Parte 1. Supuestos para

Supuestos en el análisis de regresión

Miles , J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage. Chap. 4.

Parte 1. Supuestos para distribuciones univariadas

Page 2: Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage. Chap. 4. Parte 1. Supuestos para

En realidad, ¿qué nos dicen los datos?

¿La técnica de análisis es la más apropiada a la luz de nuestro propósito?

Ver críticamente el análisis y considerar las ocasiones en que los resultados pueden ser erróneos.

¿Cuáles son los supuestos que subyacen al análisis de regresión?

¿Por qué es necesario cumplirlos?

¿Qué ocurre cuando se violan?

Introducción

Page 3: Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage. Chap. 4. Parte 1. Supuestos para

I. Supuestos sobre el nivel de medición

II. Supuestos sobre los datos

A. En distribuciones univariadas

1. Distribución normal Puntajes extremos (outliers) Sesgo y curtosis

2. Detección de la no-normalidad2.1 Métodos gráficos

Histogramas Cajas y bigotes Gráficas de probabilidad

Supuestos enel análisis de regresión

2.2 Métodos numéricos Sesgo y curtosis Puntajes extremos (outliers)

Puntajes Z Estadísticos de influencia Estadísticos de influencia

estandarizados3. Tratamiento de la no-normalidad

Puntajes extremos (outliers) Efectos del sesgo y de la

curtosis Transformaciones del sesgo y

la curtosis

B. En distribuciones multivariadas

Page 4: Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage. Chap. 4. Parte 1. Supuestos para

I. Supuestos sobre

el nivel de medición

Page 5: Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage. Chap. 4. Parte 1. Supuestos para

Escalas de medición:

I. Supuestos sobre

el nivel de medición

Datos continuos, cuantitativos o cardinales

Datos categóricos

El número de unidades

¿Qué significa

el número asignado a una persona respecto

de un atributo

?

La categoría o grupo al que pertenece

El orden o rango que le corresponde en un grupo

Las unidades con cero absoluto

Page 6: Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage. Chap. 4. Parte 1. Supuestos para

En el contexto de regresión (conservador):

1. La variable independiente debe ser medida en una escala de intervalo o de razón, aunque es posible recodificarla para convertirla en una escala categórica.

2. La variable dependiente debe ser medida en una escala de intervalo o de razón.

I. Supuestos sobre

el nivel de medición

Page 7: Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage. Chap. 4. Parte 1. Supuestos para

En el contexto de regresión (liberal):

1. En psicología es muy difícil lograr el nivel de medición intervalar y casi imposible el de razón.

2. En lugar de preguntar: ¿La variable está medidaen una escala intervalar?

Mientras más opciones de respuesta se tengan, más similar será el tamaño de las unidades.

Sugerencia: 7 opciones

I. Supuestos sobre

el nivel de medición

…se debería preguntar:¿Qué tan cercana se encuentra la variable a una escala intervalar?

Page 8: Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage. Chap. 4. Parte 1. Supuestos para

II. Supuestos sobre

los datos

A. En distribuciones

univariadas

Page 9: Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage. Chap. 4. Parte 1. Supuestos para

Supuestos sobre la distribución de la variable

independiente y de los residuos

Si no se satisfacen, las conclusiones serán incorrectas.

La distribución normal es una fundamental en estadística.

Debe haber una distribución normal para el cálculo de la desviación estándar y el error estándar.

II. Supuestos sobre los datos

Page 10: Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage. Chap. 4. Parte 1. Supuestos para

II. Supuestos sobre los datos

Page 11: Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage. Chap. 4. Parte 1. Supuestos para

El análisis de regresión asume que los residuales

están distribuidos normalmente. La media es un modelo razonable. Con la media y

su error estándar ya se tiene una aproximación.

No es una distribución normal cuando…1. Los datos incluyen algunos puntajes extremos

(altos y bajos) comparados con el resto: outliers.2. La forma de la distribución no parece curva

normal.

Distribución normal

Page 12: Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage. Chap. 4. Parte 1. Supuestos para

Elemento de los datos que es

significativamente diferente a los otros datos del grupo, o un elemento que parece implicar un patrón que es inconsistente con el grueso de la evidencia de datos.

Afecta la media.

Outliers

Page 13: Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage. Chap. 4. Parte 1. Supuestos para

Los outliers son calificaciones que caen fuera del rango de datos de calificaciones que se esperaría tener.

En el caso de tener un outlier en un conjunto de datos, la media podría no ser un buen modelo.

Valores atípicos y la media

Columna1 Columna2Persona Salario Técnico 10 400Técnico 11 300Técnico 12 900Profesor 1 13 200Profesor 2 14 600Profesor 3 15 800Profesor 4 15 500Profesor 5 16 100Profesor 17 000Profesor titular 22 700Profesor titular 23 500Profesor titular 24 600Jefe de departamento 28 900

17 400

Columna1 Columna2Persona Salario Técnico 10 400Técnico 11 300Técnico 12 900Profesor 1 13 200Profesor 2 14 600Profesor 3 15 800Profesor4 15 500Profesor 5 250 600Profesor 17 000Profesor titular 22 700Profesor titular 23 500Profesor titular 24 600Jefe de departamento 28 900

35 500

Outlier

Ejemplo:

Page 14: Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage. Chap. 4. Parte 1. Supuestos para

1) Sesgo

2) Curtosis

Sesgo y curtosis

Aún sin outliers, la distribución se puede alejar de la normalidad de dos formas:

Page 15: Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage. Chap. 4. Parte 1. Supuestos para

El sesgo ocurre si los datos no están distribuidos

normalmente.

Suele ocurrir cuando hay un “efecto de piso” o un “efecto de techo”.

Sesgo

Efecto de piso: hay un valor

mínimoen los datos

(sesgo positivo).

Efecto de techo: no es posible puntuar

más allá de cierto límite superior (sesgo

negativo).

Page 16: Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage. Chap. 4. Parte 1. Supuestos para

Si la distribución es simétrica, pero no tiene la

forma de una distribución normal, exhibe curtosis.

Con curtosis hay menos problema para la estimación de la regresión.

Tres tipos de distribución: Normal Leptocúrtica (curtosis positiva) Platicúrtica (curtosis negativa)

Curtosis

Page 17: Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage. Chap. 4. Parte 1. Supuestos para

Detección de lano-normalidad

Métodos gráficos

Page 18: Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage. Chap. 4. Parte 1. Supuestos para

Un histograma es la forma más fácil de definir una

distribución normal.

Puede ser dibujado por un gráfico de barras o de líneas.

Es fácil detectar el sesgo, la curtosis y los outliers en los histogramas.

Detección de la no-normalidad Histograma

Page 19: Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage. Chap. 4. Parte 1. Supuestos para

Cuando se tienen histogramas de poblaciones pequeñas es difícil determinar si éstas siguen una distribución normal, por eso existen otros métodos.

n = 20

Page 20: Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage. Chap. 4. Parte 1. Supuestos para

Detección de la no-normalidad Cajas y bigotes

Page 21: Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage. Chap. 4. Parte 1. Supuestos para

Debido a que el diagrama de caja resume la información y remueve algunos obstáculos es mas fácil utilizar un diagrama de caja que un histograma.

Page 22: Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage. Chap. 4. Parte 1. Supuestos para

Una ventaja sobre el histograma es cuando se tienen muestras pequeñas, ya que permite ver con mayor claridad la normalidad de los datos.

n = 20

Page 23: Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage. Chap. 4. Parte 1. Supuestos para

Es un método más matemático para comparar los

datos con una distribución normal.

Se sabe (por cálculos o por tablas) el tipo de puntajes que se esperarían si los datos estuvieran distribuidos normalmente.

Es posible utilizar estainformación para compararlos datos obtenidos.

Detección de la no-normalidad Gráfico de

probabilidad

SPSS: Analizar→Estadísticos descriptivos

→ Gráficos PP

Page 24: Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage. Chap. 4. Parte 1. Supuestos para

Gráfico de probabilidad

Si los datos obtenidos igualan a la distribución calculada de datos, entonces se distribuyen de forma normal.

En ese caso, los puntos deberán caer a lo largo de una línea recta. Si la distribución no es normal, los puntos caerán fuera de la

diagonal.

Page 25: Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage. Chap. 4. Parte 1. Supuestos para

Gráfico de probabilidad

Page 26: Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage. Chap. 4. Parte 1. Supuestos para

Detección de lano-normalidad

Métodos numéricos

Page 27: Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage. Chap. 4. Parte 1. Supuestos para

Sesgo y curtosis normales = 0; fuera de la normalidad:

valores por arriba o debajo de 0.

Métodos: Fisher (SPSS) y Pearson (STATA) .

Error estándar del sesgo y la curtosis: evalúa si difieren significativamente de la población.

La distribución en cuestión difiere de una distribución normal cuando el índice es dos veces mayor que el error estándar.

Influye el tamaño de la muestra.

Precaución: no estamos interesados en saber si la distribución difiere significativamente de una distribución normal, sino en saber qué tan sesgada se encuentra.

Detección de sesgo y curtosis

Page 28: Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage. Chap. 4. Parte 1. Supuestos para

Sesgo < 1.0 → poco problema.

Sesgo > 1.0 < 2.0 → puede haber un efecto en los parámetros calculados, pero es adecuado.

Sesgo > 2.0 → considerarse de cuidado.

Page 29: Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage. Chap. 4. Parte 1. Supuestos para

Detección de outliers

Puntajes Z

El sesgo y la curtosis no detectan outliers.

Page 30: Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage. Chap. 4. Parte 1. Supuestos para

En una distribución normal es raro encontrar puntajes Z > 3.

Page 31: Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage. Chap. 4. Parte 1. Supuestos para

Detección de outliers

Puntaje Z eliminado• La media es afectada porque considera los

outliers en su cálculo.

• Alternativa: utilizar la media y la desviación estándar de cada uno de los datos, eliminado el puntaje en cuestión.

• Una vez calculados la desviación estándar y la media, se calcula Z para el puntaje de interés.

• Se repite el proceso con cada uno de los valores.

Page 32: Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage. Chap. 4. Parte 1. Supuestos para
Page 33: Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage. Chap. 4. Parte 1. Supuestos para

Rara vez se usa en distribuciones univariadas para detectar un outlier.

Se usa para evaluar el efecto de un dato particular sobre el modelo (la media).

Detección de outliers

Estadístico de influencia

Page 34: Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage. Chap. 4. Parte 1. Supuestos para

1. Calcular el parámetro, tomando en cuenta todos los datos, por ej., la media.

2. Recalcularlo quietando el outlier.

3. Calcular las diferencias entre los resultados con y sin el outlier.

Detección de outliers

Cálculo del estadístico de influencia

Page 35: Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage. Chap. 4. Parte 1. Supuestos para

Permite hacer comparaciones, sin el problema de la métrica empleada.

Permite interpretar de forma mas fácil el cambio esperado.

Detección de outliers

Estadístico de influencia estandarizados

Page 36: Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage. Chap. 4. Parte 1. Supuestos para

1. Calcular el parámetro, por ej., la media.

2. Calcular puntajes Z

3. Recalcularlo quietando el outlier.

4. Calcular las diferencias entre los resultados con y sin el outlier.

Detección de outliers

Estadístico de influencia estandarizados

Page 37: Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage. Chap. 4. Parte 1. Supuestos para
Page 38: Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage. Chap. 4. Parte 1. Supuestos para

Tratamiento de lano-normalidad

Page 39: Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage. Chap. 4. Parte 1. Supuestos para

Si la distribución no es normal, el método de

mínimos de cuadrados será inexacto.

El modelo de regresión no tiene una prueba no paramétrica alterna.

Se puede tratar de adecuar la información para su análisis.

Efectos de la no-normalidad

Page 40: Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage. Chap. 4. Parte 1. Supuestos para

Outliers: ¿por qué? ¿errores de captura?

Arte: saber si quitarlos o no, pero TODO debe reportarse.

Regresar y revisar la teoría y los instrumentos de medición, para ver si son apropiadas. Si son parte del proceso no se deben quitar.

Puede deberse a un error en el equipo de medición, de captura –regresar y verificar; si no se puede encontrar el valor, eliminarlo y continuar.

Ouliers

Page 41: Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage. Chap. 4. Parte 1. Supuestos para

Quedan dos opciones, no del todo

satisfactorias Correr el análisis con el outlier siendo conscientes

de sus efectos en los parámetros estimados. Eliminar el outlier, cuantos sean necesarios

(modelar la mayoría de los datos)

Analizar dos veces la información, una vez con los outliers y otra sin ellos, presentando un reporte con los aspectos principales de los resultados.

Ouliers

Page 42: Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage. Chap. 4. Parte 1. Supuestos para

Efectos de sesgo

La media podría ser un estimador parcial, debido a la distancia de los puntos respecto de la media.

En una distribución con sesgo negativo hay un sesgo hacia abajo.

En una distribución con sesgo positivo hay un sesgo hacia arriba.

El sesgo positivo es más común (hay límites bajos, no así altos; v. gr., depresión, tiempo).

Sesgo y curtosis

Page 43: Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage. Chap. 4. Parte 1. Supuestos para

Efectos de la curtosis

Puede haber un error estándar de la media muy pequeño o muy grande; sólo es correcto cuando la distribución es normal. 1er. efecto: el estimado parece no ser tan

adecuado (error tipo II); el error estándar será muy grande.

2° efecto: el error estándar puede ser muy pequeño y parecer que los estimados son significativos cuando no lo son (error tipo I).

Sesgo y curtosis

Page 44: Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage. Chap. 4. Parte 1. Supuestos para

Alternativa:

Realizar transformaciones, transformar una distribución que no está distribuida normalmente para hacerla ajustarse a una distribución normal.

Una transformación es un cálculo que se hace para todos los valores al mismo tiempo.

Transformación logarítmica: Se utiliza comúnmente para cambiar el sesgo positivo.

Transformaciones

Page 45: Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage. Chap. 4. Parte 1. Supuestos para

Se toma el logaritmo de cada valor y se utiliza el

resultado (los logaritmos de la datos originales) como una nueva variable en el nuevo cálculo.

Se genera un nuevo histograma. Tanto el gráfico como la tabla muestran que los datos tienen una distribución más simétrica.

La media se calcula a partir de los logaritmos de los puntajes crudos. Por lo que es necesario transformar este valor al puntaje crudo de la escala.

Si la distribución está sesgada negativamente, cada valor puede elevarse al cuadrado.

Transformaciones

Page 46: Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage. Chap. 4. Parte 1. Supuestos para