miles, j. & shervin, m. (2011). applyng regression & correlation. a guide for students and...
Post on 25-Jan-2016
213 Views
Preview:
TRANSCRIPT
Supuestos en el análisis de regresión
Miles , J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage. Chap. 4.
Parte 1. Supuestos para distribuciones univariadas
En realidad, ¿qué nos dicen los datos?
¿La técnica de análisis es la más apropiada a la luz de nuestro propósito?
Ver críticamente el análisis y considerar las ocasiones en que los resultados pueden ser erróneos.
¿Cuáles son los supuestos que subyacen al análisis de regresión?
¿Por qué es necesario cumplirlos?
¿Qué ocurre cuando se violan?
Introducción
I. Supuestos sobre el nivel de medición
II. Supuestos sobre los datos
A. En distribuciones univariadas
1. Distribución normal Puntajes extremos (outliers) Sesgo y curtosis
2. Detección de la no-normalidad2.1 Métodos gráficos
Histogramas Cajas y bigotes Gráficas de probabilidad
Supuestos enel análisis de regresión
2.2 Métodos numéricos Sesgo y curtosis Puntajes extremos (outliers)
Puntajes Z Estadísticos de influencia Estadísticos de influencia
estandarizados3. Tratamiento de la no-normalidad
Puntajes extremos (outliers) Efectos del sesgo y de la
curtosis Transformaciones del sesgo y
la curtosis
B. En distribuciones multivariadas
I. Supuestos sobre
el nivel de medición
Escalas de medición:
I. Supuestos sobre
el nivel de medición
Datos continuos, cuantitativos o cardinales
Datos categóricos
El número de unidades
¿Qué significa
el número asignado a una persona respecto
de un atributo
?
La categoría o grupo al que pertenece
El orden o rango que le corresponde en un grupo
Las unidades con cero absoluto
En el contexto de regresión (conservador):
1. La variable independiente debe ser medida en una escala de intervalo o de razón, aunque es posible recodificarla para convertirla en una escala categórica.
2. La variable dependiente debe ser medida en una escala de intervalo o de razón.
I. Supuestos sobre
el nivel de medición
En el contexto de regresión (liberal):
1. En psicología es muy difícil lograr el nivel de medición intervalar y casi imposible el de razón.
2. En lugar de preguntar: ¿La variable está medidaen una escala intervalar?
Mientras más opciones de respuesta se tengan, más similar será el tamaño de las unidades.
Sugerencia: 7 opciones
I. Supuestos sobre
el nivel de medición
…se debería preguntar:¿Qué tan cercana se encuentra la variable a una escala intervalar?
II. Supuestos sobre
los datos
A. En distribuciones
univariadas
Supuestos sobre la distribución de la variable
independiente y de los residuos
Si no se satisfacen, las conclusiones serán incorrectas.
La distribución normal es una fundamental en estadística.
Debe haber una distribución normal para el cálculo de la desviación estándar y el error estándar.
II. Supuestos sobre los datos
II. Supuestos sobre los datos
El análisis de regresión asume que los residuales
están distribuidos normalmente. La media es un modelo razonable. Con la media y
su error estándar ya se tiene una aproximación.
No es una distribución normal cuando…1. Los datos incluyen algunos puntajes extremos
(altos y bajos) comparados con el resto: outliers.2. La forma de la distribución no parece curva
normal.
Distribución normal
Elemento de los datos que es
significativamente diferente a los otros datos del grupo, o un elemento que parece implicar un patrón que es inconsistente con el grueso de la evidencia de datos.
Afecta la media.
Outliers
Los outliers son calificaciones que caen fuera del rango de datos de calificaciones que se esperaría tener.
En el caso de tener un outlier en un conjunto de datos, la media podría no ser un buen modelo.
Valores atípicos y la media
Columna1 Columna2Persona Salario Técnico 10 400Técnico 11 300Técnico 12 900Profesor 1 13 200Profesor 2 14 600Profesor 3 15 800Profesor 4 15 500Profesor 5 16 100Profesor 17 000Profesor titular 22 700Profesor titular 23 500Profesor titular 24 600Jefe de departamento 28 900
17 400
Columna1 Columna2Persona Salario Técnico 10 400Técnico 11 300Técnico 12 900Profesor 1 13 200Profesor 2 14 600Profesor 3 15 800Profesor4 15 500Profesor 5 250 600Profesor 17 000Profesor titular 22 700Profesor titular 23 500Profesor titular 24 600Jefe de departamento 28 900
35 500
Outlier
Ejemplo:
1) Sesgo
2) Curtosis
Sesgo y curtosis
Aún sin outliers, la distribución se puede alejar de la normalidad de dos formas:
El sesgo ocurre si los datos no están distribuidos
normalmente.
Suele ocurrir cuando hay un “efecto de piso” o un “efecto de techo”.
Sesgo
Efecto de piso: hay un valor
mínimoen los datos
(sesgo positivo).
Efecto de techo: no es posible puntuar
más allá de cierto límite superior (sesgo
negativo).
Si la distribución es simétrica, pero no tiene la
forma de una distribución normal, exhibe curtosis.
Con curtosis hay menos problema para la estimación de la regresión.
Tres tipos de distribución: Normal Leptocúrtica (curtosis positiva) Platicúrtica (curtosis negativa)
Curtosis
Detección de lano-normalidad
Métodos gráficos
Un histograma es la forma más fácil de definir una
distribución normal.
Puede ser dibujado por un gráfico de barras o de líneas.
Es fácil detectar el sesgo, la curtosis y los outliers en los histogramas.
Detección de la no-normalidad Histograma
Cuando se tienen histogramas de poblaciones pequeñas es difícil determinar si éstas siguen una distribución normal, por eso existen otros métodos.
n = 20
Detección de la no-normalidad Cajas y bigotes
Debido a que el diagrama de caja resume la información y remueve algunos obstáculos es mas fácil utilizar un diagrama de caja que un histograma.
Una ventaja sobre el histograma es cuando se tienen muestras pequeñas, ya que permite ver con mayor claridad la normalidad de los datos.
n = 20
Es un método más matemático para comparar los
datos con una distribución normal.
Se sabe (por cálculos o por tablas) el tipo de puntajes que se esperarían si los datos estuvieran distribuidos normalmente.
Es posible utilizar estainformación para compararlos datos obtenidos.
Detección de la no-normalidad Gráfico de
probabilidad
SPSS: Analizar→Estadísticos descriptivos
→ Gráficos PP
Gráfico de probabilidad
Si los datos obtenidos igualan a la distribución calculada de datos, entonces se distribuyen de forma normal.
En ese caso, los puntos deberán caer a lo largo de una línea recta. Si la distribución no es normal, los puntos caerán fuera de la
diagonal.
Gráfico de probabilidad
Detección de lano-normalidad
Métodos numéricos
Sesgo y curtosis normales = 0; fuera de la normalidad:
valores por arriba o debajo de 0.
Métodos: Fisher (SPSS) y Pearson (STATA) .
Error estándar del sesgo y la curtosis: evalúa si difieren significativamente de la población.
La distribución en cuestión difiere de una distribución normal cuando el índice es dos veces mayor que el error estándar.
Influye el tamaño de la muestra.
Precaución: no estamos interesados en saber si la distribución difiere significativamente de una distribución normal, sino en saber qué tan sesgada se encuentra.
Detección de sesgo y curtosis
Sesgo < 1.0 → poco problema.
Sesgo > 1.0 < 2.0 → puede haber un efecto en los parámetros calculados, pero es adecuado.
Sesgo > 2.0 → considerarse de cuidado.
Detección de outliers
Puntajes Z
El sesgo y la curtosis no detectan outliers.
En una distribución normal es raro encontrar puntajes Z > 3.
Detección de outliers
Puntaje Z eliminado• La media es afectada porque considera los
outliers en su cálculo.
• Alternativa: utilizar la media y la desviación estándar de cada uno de los datos, eliminado el puntaje en cuestión.
• Una vez calculados la desviación estándar y la media, se calcula Z para el puntaje de interés.
• Se repite el proceso con cada uno de los valores.
Rara vez se usa en distribuciones univariadas para detectar un outlier.
Se usa para evaluar el efecto de un dato particular sobre el modelo (la media).
Detección de outliers
Estadístico de influencia
1. Calcular el parámetro, tomando en cuenta todos los datos, por ej., la media.
2. Recalcularlo quietando el outlier.
3. Calcular las diferencias entre los resultados con y sin el outlier.
Detección de outliers
Cálculo del estadístico de influencia
Permite hacer comparaciones, sin el problema de la métrica empleada.
Permite interpretar de forma mas fácil el cambio esperado.
Detección de outliers
Estadístico de influencia estandarizados
1. Calcular el parámetro, por ej., la media.
2. Calcular puntajes Z
3. Recalcularlo quietando el outlier.
4. Calcular las diferencias entre los resultados con y sin el outlier.
Detección de outliers
Estadístico de influencia estandarizados
Tratamiento de lano-normalidad
Si la distribución no es normal, el método de
mínimos de cuadrados será inexacto.
El modelo de regresión no tiene una prueba no paramétrica alterna.
Se puede tratar de adecuar la información para su análisis.
Efectos de la no-normalidad
Outliers: ¿por qué? ¿errores de captura?
Arte: saber si quitarlos o no, pero TODO debe reportarse.
Regresar y revisar la teoría y los instrumentos de medición, para ver si son apropiadas. Si son parte del proceso no se deben quitar.
Puede deberse a un error en el equipo de medición, de captura –regresar y verificar; si no se puede encontrar el valor, eliminarlo y continuar.
Ouliers
Quedan dos opciones, no del todo
satisfactorias Correr el análisis con el outlier siendo conscientes
de sus efectos en los parámetros estimados. Eliminar el outlier, cuantos sean necesarios
(modelar la mayoría de los datos)
Analizar dos veces la información, una vez con los outliers y otra sin ellos, presentando un reporte con los aspectos principales de los resultados.
Ouliers
Efectos de sesgo
La media podría ser un estimador parcial, debido a la distancia de los puntos respecto de la media.
En una distribución con sesgo negativo hay un sesgo hacia abajo.
En una distribución con sesgo positivo hay un sesgo hacia arriba.
El sesgo positivo es más común (hay límites bajos, no así altos; v. gr., depresión, tiempo).
Sesgo y curtosis
Efectos de la curtosis
Puede haber un error estándar de la media muy pequeño o muy grande; sólo es correcto cuando la distribución es normal. 1er. efecto: el estimado parece no ser tan
adecuado (error tipo II); el error estándar será muy grande.
2° efecto: el error estándar puede ser muy pequeño y parecer que los estimados son significativos cuando no lo son (error tipo I).
Sesgo y curtosis
Alternativa:
Realizar transformaciones, transformar una distribución que no está distribuida normalmente para hacerla ajustarse a una distribución normal.
Una transformación es un cálculo que se hace para todos los valores al mismo tiempo.
Transformación logarítmica: Se utiliza comúnmente para cambiar el sesgo positivo.
Transformaciones
Se toma el logaritmo de cada valor y se utiliza el
resultado (los logaritmos de la datos originales) como una nueva variable en el nuevo cálculo.
Se genera un nuevo histograma. Tanto el gráfico como la tabla muestran que los datos tienen una distribución más simétrica.
La media se calcula a partir de los logaritmos de los puntajes crudos. Por lo que es necesario transformar este valor al puntaje crudo de la escala.
Si la distribución está sesgada negativamente, cada valor puede elevarse al cuadrado.
Transformaciones
top related