miles, j. & shervin, m. (2011). applyng regression & correlation. a guide for students and...

Supuestos en el análisis de regresión

Miles , J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage. Chap. 4.

Parte 1. Supuestos para distribuciones univariadas

En realidad, ¿qué nos dicen los datos?

¿La técnica de análisis es la más apropiada a la luz de nuestro propósito?

Ver críticamente el análisis y considerar las ocasiones en que los resultados pueden ser erróneos.

¿Cuáles son los supuestos que subyacen al análisis de regresión?

¿Por qué es necesario cumplirlos?

¿Qué ocurre cuando se violan?

Introducción

I. Supuestos sobre el nivel de medición

II. Supuestos sobre los datos

A. En distribuciones univariadas

1. Distribución normal Puntajes extremos (outliers) Sesgo y curtosis

2. Detección de la no-normalidad2.1 Métodos gráficos

Histogramas Cajas y bigotes Gráficas de probabilidad

Supuestos enel análisis de regresión

2.2 Métodos numéricos Sesgo y curtosis Puntajes extremos (outliers)

Puntajes Z Estadísticos de influencia Estadísticos de influencia

estandarizados3. Tratamiento de la no-normalidad

Puntajes extremos (outliers) Efectos del sesgo y de la

curtosis Transformaciones del sesgo y

la curtosis

B. En distribuciones multivariadas

I. Supuestos sobre

el nivel de medición

Escalas de medición:

I. Supuestos sobre


Datos continuos, cuantitativos o cardinales

Datos categóricos

El número de unidades

¿Qué significa

el número asignado a una persona respecto

de un atributo

?

La categoría o grupo al que pertenece

El orden o rango que le corresponde en un grupo

Las unidades con cero absoluto

En el contexto de regresión (conservador):

1. La variable independiente debe ser medida en una escala de intervalo o de razón, aunque es posible recodificarla para convertirla en una escala categórica.

2. La variable dependiente debe ser medida en una escala de intervalo o de razón.

I. Supuestos sobre


En el contexto de regresión (liberal):

1. En psicología es muy difícil lograr el nivel de medición intervalar y casi imposible el de razón.

2. En lugar de preguntar: ¿La variable está medidaen una escala intervalar?

Mientras más opciones de respuesta se tengan, más similar será el tamaño de las unidades.

Sugerencia: 7 opciones

I. Supuestos sobre


…se debería preguntar:¿Qué tan cercana se encuentra la variable a una escala intervalar?

II. Supuestos sobre

los datos

A. En distribuciones

univariadas

Supuestos sobre la distribución de la variable

independiente y de los residuos

Si no se satisfacen, las conclusiones serán incorrectas.

La distribución normal es una fundamental en estadística.

Debe haber una distribución normal para el cálculo de la desviación estándar y el error estándar.


El análisis de regresión asume que los residuales

están distribuidos normalmente. La media es un modelo razonable. Con la media y

su error estándar ya se tiene una aproximación.

No es una distribución normal cuando…1. Los datos incluyen algunos puntajes extremos

(altos y bajos) comparados con el resto: outliers.2. La forma de la distribución no parece curva

normal.

Distribución normal

Elemento de los datos que es

significativamente diferente a los otros datos del grupo, o un elemento que parece implicar un patrón que es inconsistente con el grueso de la evidencia de datos.

Afecta la media.

Outliers

Los outliers son calificaciones que caen fuera del rango de datos de calificaciones que se esperaría tener.

En el caso de tener un outlier en un conjunto de datos, la media podría no ser un buen modelo.

Valores atípicos y la media

Columna1 Columna2Persona Salario Técnico 10 400Técnico 11 300Técnico 12 900Profesor 1 13 200Profesor 2 14 600Profesor 3 15 800Profesor 4 15 500Profesor 5 16 100Profesor 17 000Profesor titular 22 700Profesor titular 23 500Profesor titular 24 600Jefe de departamento 28 900

17 400

Columna1 Columna2Persona Salario Técnico 10 400Técnico 11 300Técnico 12 900Profesor 1 13 200Profesor 2 14 600Profesor 3 15 800Profesor4 15 500Profesor 5 250 600Profesor 17 000Profesor titular 22 700Profesor titular 23 500Profesor titular 24 600Jefe de departamento 28 900

35 500

Outlier

Ejemplo:

1) Sesgo

2) Curtosis

Sesgo y curtosis

Aún sin outliers, la distribución se puede alejar de la normalidad de dos formas:

El sesgo ocurre si los datos no están distribuidos

normalmente.

Suele ocurrir cuando hay un “efecto de piso” o un “efecto de techo”.

Sesgo

Efecto de piso: hay un valor

mínimoen los datos

(sesgo positivo).

Efecto de techo: no es posible puntuar

más allá de cierto límite superior (sesgo

negativo).

Si la distribución es simétrica, pero no tiene la

forma de una distribución normal, exhibe curtosis.

Con curtosis hay menos problema para la estimación de la regresión.

Tres tipos de distribución: Normal Leptocúrtica (curtosis positiva) Platicúrtica (curtosis negativa)

Curtosis

Detección de lano-normalidad

Métodos gráficos

Un histograma es la forma más fácil de definir una

distribución normal.

Puede ser dibujado por un gráfico de barras o de líneas.

Es fácil detectar el sesgo, la curtosis y los outliers en los histogramas.

Detección de la no-normalidad Histograma

Cuando se tienen histogramas de poblaciones pequeñas es difícil determinar si éstas siguen una distribución normal, por eso existen otros métodos.

n = 20

Detección de la no-normalidad Cajas y bigotes

Debido a que el diagrama de caja resume la información y remueve algunos obstáculos es mas fácil utilizar un diagrama de caja que un histograma.

Una ventaja sobre el histograma es cuando se tienen muestras pequeñas, ya que permite ver con mayor claridad la normalidad de los datos.

n = 20

Es un método más matemático para comparar los

datos con una distribución normal.

Se sabe (por cálculos o por tablas) el tipo de puntajes que se esperarían si los datos estuvieran distribuidos normalmente.

Es posible utilizar estainformación para compararlos datos obtenidos.

Detección de la no-normalidad Gráfico de

probabilidad

SPSS: Analizar→Estadísticos descriptivos

→ Gráficos PP

Gráfico de probabilidad

Si los datos obtenidos igualan a la distribución calculada de datos, entonces se distribuyen de forma normal.

En ese caso, los puntos deberán caer a lo largo de una línea recta. Si la distribución no es normal, los puntos caerán fuera de la

diagonal.

Gráfico de probabilidad

Detección de lano-normalidad

Métodos numéricos

Sesgo y curtosis normales = 0; fuera de la normalidad:

valores por arriba o debajo de 0.

Métodos: Fisher (SPSS) y Pearson (STATA) .

Error estándar del sesgo y la curtosis: evalúa si difieren significativamente de la población.

La distribución en cuestión difiere de una distribución normal cuando el índice es dos veces mayor que el error estándar.

Influye el tamaño de la muestra.

Precaución: no estamos interesados en saber si la distribución difiere significativamente de una distribución normal, sino en saber qué tan sesgada se encuentra.

Detección de sesgo y curtosis

Sesgo < 1.0 → poco problema.

Sesgo > 1.0 < 2.0 → puede haber un efecto en los parámetros calculados, pero es adecuado.

Sesgo > 2.0 → considerarse de cuidado.

Detección de outliers

Puntajes Z

El sesgo y la curtosis no detectan outliers.

En una distribución normal es raro encontrar puntajes Z > 3.


Puntaje Z eliminado• La media es afectada porque considera los

outliers en su cálculo.

• Alternativa: utilizar la media y la desviación estándar de cada uno de los datos, eliminado el puntaje en cuestión.

• Una vez calculados la desviación estándar y la media, se calcula Z para el puntaje de interés.

• Se repite el proceso con cada uno de los valores.

Rara vez se usa en distribuciones univariadas para detectar un outlier.

Se usa para evaluar el efecto de un dato particular sobre el modelo (la media).


Estadístico de influencia

1. Calcular el parámetro, tomando en cuenta todos los datos, por ej., la media.

2. Recalcularlo quietando el outlier.

3. Calcular las diferencias entre los resultados con y sin el outlier.


Cálculo del estadístico de influencia

Permite hacer comparaciones, sin el problema de la métrica empleada.

Permite interpretar de forma mas fácil el cambio esperado.


Estadístico de influencia estandarizados

1. Calcular el parámetro, por ej., la media.

2. Calcular puntajes Z

3. Recalcularlo quietando el outlier.

4. Calcular las diferencias entre los resultados con y sin el outlier.


Estadístico de influencia estandarizados

Tratamiento de lano-normalidad

Si la distribución no es normal, el método de

mínimos de cuadrados será inexacto.

El modelo de regresión no tiene una prueba no paramétrica alterna.

Se puede tratar de adecuar la información para su análisis.

Efectos de la no-normalidad

Outliers: ¿por qué? ¿errores de captura?

Arte: saber si quitarlos o no, pero TODO debe reportarse.

Regresar y revisar la teoría y los instrumentos de medición, para ver si son apropiadas. Si son parte del proceso no se deben quitar.

Puede deberse a un error en el equipo de medición, de captura –regresar y verificar; si no se puede encontrar el valor, eliminarlo y continuar.

Ouliers

Quedan dos opciones, no del todo

satisfactorias Correr el análisis con el outlier siendo conscientes

de sus efectos en los parámetros estimados. Eliminar el outlier, cuantos sean necesarios

(modelar la mayoría de los datos)

Analizar dos veces la información, una vez con los outliers y otra sin ellos, presentando un reporte con los aspectos principales de los resultados.

Ouliers

Efectos de sesgo

La media podría ser un estimador parcial, debido a la distancia de los puntos respecto de la media.

En una distribución con sesgo negativo hay un sesgo hacia abajo.

En una distribución con sesgo positivo hay un sesgo hacia arriba.

El sesgo positivo es más común (hay límites bajos, no así altos; v. gr., depresión, tiempo).

Sesgo y curtosis

Efectos de la curtosis

Puede haber un error estándar de la media muy pequeño o muy grande; sólo es correcto cuando la distribución es normal. 1er. efecto: el estimado parece no ser tan

adecuado (error tipo II); el error estándar será muy grande.

2° efecto: el error estándar puede ser muy pequeño y parecer que los estimados son significativos cuando no lo son (error tipo I).

Sesgo y curtosis

Alternativa:

Realizar transformaciones, transformar una distribución que no está distribuida normalmente para hacerla ajustarse a una distribución normal.

Una transformación es un cálculo que se hace para todos los valores al mismo tiempo.

Transformación logarítmica: Se utiliza comúnmente para cambiar el sesgo positivo.

Transformaciones

Se toma el logaritmo de cada valor y se utiliza el

resultado (los logaritmos de la datos originales) como una nueva variable en el nuevo cálculo.

Se genera un nuevo histograma. Tanto el gráfico como la tabla muestran que los datos tienen una distribución más simétrica.

La media se calcula a partir de los logaritmos de los puntajes crudos. Por lo que es necesario transformar este valor al puntaje crudo de la escala.

Si la distribución está sesgada negativamente, cada valor puede elevarse al cuadrado.

Transformaciones

miles, j. & shervin, m. (2011). applyng regression & correlation. a guide for students and...

Documents

the self supuestos

nivel de medicin intervalar

nivel de medicin ii

distribucin normalelemento

escala intervalar

variable independiente

anlisis de regresinmiles

tcnica de anlisis