diagnosis de la regresion

Universidade de Vigo

Elementos de diagnosis, interpretación y análisis

Diagnosis en el modelo de regresión l ineal normal

θ

Log L(θ

Log L(θ∗)

Log L

A

B(θ0)

Log L(θ0

)

) Β

Α

θ∗θ0



Justif icación del tema

Hasta ahora hemos considerado que las principales suposiciones del modelo se verificaban, y en consecuencia, los estimadores MCO eran los más eficientes.

Sin embargo, cuando trabajamos con datos reales, no siempre es esto cierto, y necesitamos algún instrumento que nos permita ver que suposiciones son válidas y cuales no.



Fuentes de elaboración de modelos

La fundamentación teórica, esto es, de la teoría económica o de la empresa. Depende de cada problema concreto

La metodología: El análisis de datos o elementosestadísticos de diagnosis. Común a muchos problemas



Fallos en el modelo

Un modelo puede fallar por dos tipos de causas: El modelo está mal especificado, es decir alguna suposición de

partida no se verifica. Existen datos que provienen de otra población y contaminan el

modelo. Cuando el modelo obtenido no se ve afectado por cambios en

las suposiciones o los datos se dice que es robusto. Por tanto existen dos tipos de robustez Respecto a los datos Respecto a las suposiciones

La diagnosis nos permite determinar el grado de robustez del modelo.



Necesidad de la diagnosis

A continuación se van a exponer de modo gráfico cuatro modelos cuyos resultados de la regresión son casi equivalentes aparentemente.

El coeficiente de determinación vale en todos los casos 0,985 y los coeficientes estimados son muy similares.

Variable NameEstimated Coefficient

Caso1 X 0.84 CONSTANT 19.15Caso2 X 0.80 CONSTANT 19.87Caso3 X 0.90 CONSTANT 18.08Caso4 X 0.80 CONSTANT 20.00



Ejemplo del efecto de la forma de la nube de puntos

1 2

34


Residuos



Interpretación

(1) modelo bien especif icado (2) for ma funcional mal especif icada: imponemos

una relac ión l ineal que en la real idad no existe (3) hay un valor influyente que cambia la

dirección de la recta y que, además, es at ípico (4) tenemos un valor de compor tamiento

influyente, pero no atípico



Elementos para analizar un modelo

11/05/10

Eso nos indica que no solo se deben examinar la salida sino también diagnosticar el modelo.

Los elementos que se deben tener en cuenta a la hora de la diagnosis son:1º El comportamiento de los datos.2º El efecto de ese comportamiento sobre las suposiciones.



El compor tamiento de los datos

Los datos marcan si el modelo con el que se trabaja es válido o no.

De modo complementario, el modelo ayuda a ver si los datos son coherentes con el comportamiento esperado o no, existe por tanto un proceso de retroalimentación entre datos y modelo, por lo que en la practica hay que buscar un equilibrio entre ambos.



Proceso de diagnosis de un modelo

1. Se empieza con un modelo, se estima y se analiza si existen datos extraños al modelo, suponiendo válidas todas las suposiciones.

2. En caso de datos extraños se eliminan esos (o se corrigen) y se revisa el modelo de nuevo.

3. Si alguna suposición falla, se corrige y se vuelve a revisar el modelo corregido.

4. Ese proceso se repite hasta que haya una adecuación conveniente entre modelo y datos.

Eso exige analizar los factores que afectan al Eso exige analizar los factores que afectan al comportamiento de los datoscomportamiento de los datos



Factores que afectan a los datos

11/05/10

A los datos que tengan un comportamiento muy distinto del resto se les conoce como valores at ípicos, extraños o anómalos.

Un valor no es atípico siempre, sino que depende del entorno donde se estudie:

1. El contexto del análisis 2. La muestra considerada 3. La forma funcional del modelo 4. Las variables incluidas en el modelo



Valores atípicos o anómalos

11/05/10

X

Y* *

*

*

**

* **

Rregresióncurvilinea

Regresión lineal

Valor atípico bajo la regresión lineal pero no en

la curvilinea

A

B



Elementos de Diagnosis

Gráficos Medidas basadas en los residuos Test de hipótesis

El orden de análisis es1. Gráf icos 2. Estadíst icos y anál is i s de los res iduos3. Test de hipótes is

Se vieron en la asignatura de estadística y sólo haremos un breve comentario y con mas

detalle los estudiaremos a medida que los utilicemos


Instrumentos gráficos que permiten evaluar la calidad del modelo

Gráficos para la diagnosis



Ruido Blanco

Sucesión de variables aleatorias independientes: Media cero Varianza constante Simétrica independencia

0

+

-

ei

0

+

-

e

*

*

**

*

*

*

*

*

*

* **

*

*

**

*

* *

*

**

X

El modelo bien especificado tiene residuos que se comportan El modelo bien especificado tiene residuos que se comportan como un ruido blanco.como un ruido blanco.



Compor tamiento de los residuos

Las perturbaciones del MRLN deberían comportarse como un ruido blanco, puesto que son independientes e igualmente distribuidas con media 0 y simétricas.

Los residuos de la regresión son aproximaciones a las perturbaciones y aunque no son independientes ni con varianza constante son bastante cercanos a ese comportamiento, por lo que suponemos que bajo todas las suposiciones del modelo deberían comportarse casi como ruido blanco.

En todos los gráficos donde se representen los residuos respecto a alguna variable, estos deben verificar que bajo las suposiciones del MRLN debería ser cercanos a un ruido blanco.



Gráficos de residuos Por tanto, los residuos debe verificar:

E(e)=0;

los residuos deben oscilar alrededor del 0, no deben presentar ninguna forma funcional

Var(e)= constante aproximadamente. Los residuos deben dispersarse de forma homogénea, estar comprendidos entre dos bandas

Independencia: Los residuos no deben presentar relaciones entre ellos, formas graficas encadenadas.

Normalidad Los residuos deben estar cercanos al 0, simétricos a cada lado y las bandas no muy alejadas

del 0 (alrededor de dos veces la desviación estándar).

Eso significa que cualquier forma en que se aleje de esas características existe un fallo de alguna suposición.

La variable independiente nos dice algo sobre ese fallo.


Gráfico resumen de calidad del modelo

5.8 6.6 7.3 8.02 8.77 .9.4

E

-0.5

0

0.5

0.9

*

*

*

*

*

*

*

*

*

*

*

*

*

*

***

Y ^

Residuos respecto a valores estimados



Conceptos asociados al gráfico

Este gráfico representa los residuos frente a los valores estimados de la variable dependiente.

Los residuos deben verificar las condiciones del ruido blanco. La variable independiente en este caso es el valor estimado de la

dependiente, por tanto recoge los posibles efectos de esta variable sobre el comportamiento de los residuos. Esa variable contiene información sobre:

La variable dependiente, puesto que es la mejor aproximación lineal en función de las independientes Las variables independientes, puesto que todas intervienen en la estimación.

Eso significa que nos da información sobre como influyen tanto la variable dependiente como las independientes sobre los residuos. En ese sentido se habla de resumen de la calidad del modelo puesto que integra todos los componentes de este.



Interpretación del gráfico

Se observa si existe: Linealidad,

no se debe observar ninguna forma funcional. La media es constante e igual a cero en todos los casos

Normalidad Los datos se distribuyen de forma simétrica y más concentrados alrededor del

0. Homocedasticidad

La varianza es constante, dispersión igual para todos la serie. Estabilidad

No se producen cambios repentinos de la serie de residuos Independencia

No se observan relaciones entre residuos o grupos de residuos en la evolución de los datos


Gráf ico de residuos respecto a valores predichos en la empresa XUMA

-0.4

-0.2

0

0.2

0.4

0.6

0.8

11.5 12 12.5 13 13.5 14 14.5 15 15.5 16 16.5

E

YE

SHAZAM PLOTE

Valor atípico



Tipos de Gráficos De los residuos

Se representan los residuos respecto a algunas variables que dan información especifica del fallo de alguna suposición. Cada tipo específico se estudiará en la correspondiente suposición.

De los residuos al cuadrado Se representan los residuos al cuadrado respecto a algunas variables que dan

información especifica del fallo de la heterocedasticidad. Se estudiarán en esa suposición.

Gráficos de regresión parcial Miden el efecto que tendría en la regresión el añadir una nueva variable

independiente. Se estudiarán a continuación.

Gráficos de probabilidad y de distribución Miden la forma de la distribución de los residuos. Se estudiarán con la

normalidad.


Ejemplos de Gráficos de los residuos

Y0

+

-

^t

0

+

-

et

**

* * **

**

* ** * *

**

*

* **

*

LA 6. 7 8 9. 10

**

**

*

*

**

*

*

*

*

*

**

***E

.

.0

.

.

-0.5

0,5

1

Respecto a la variable estimada

Respecto a variables exógenas

Respecto a residuos retardados

0

+

-

e t

e t-1*

** *

**

*

**

**

**

*

***

*

***


Ejemplos de Gráficos de los residuos al cuadrado

Respecto a la variable estimada Respecto a variables exógenas

Y^

0

+

-

^

t0

+

-

et

*

**

* *

*

*

***

* * *

*

*

*

**

*

*2

LA

6. 7 8 9. 10

**

*

*

*

**

*

*

*

*

*

*

*

**

*

*

E2

.

.

0

.

.

0.5

1

*

*

*

*

*

**

*

*

*

*

*

*

*

*

*

*

*

* *


Ejemplos de Gráficos de probabil idad y distribuciones

Grafico de probabilidad respecto a una normal

Histograma

Universidade de VigoGráficos de regresión parcial

EA -1. 7 -.9 -.2 .5 1.3 2.5

E

-12 2.

- 6

-4

5

114

* *

**

*

**

*

**

*

*

*

*

*

*

** * **

Este gráfico nos indica el efecto que tendría en la regresión el añadir la variable Xj la última. La pendiente de la línea de regresión en el gráfico nos da el coeficiente de regresión parcial.



Método de construcción

Trata de medir el efecto directo de una variable independiente sobre la dependiente una vez eliminado el efecto de todas las demás variables independientes, es decir su coeficiente de regresión parcial.

De ahí que primero haya que quitar los efectos de todas las independientes tanto sobre la dependiente como sobre la otra independiente.

Por lo tanto el método de construcción es el siguiente:m Se calcula e(j) el residuo de la regresión de y respecto a todas las

variables menos Xj;

X Se calcula u(j) el residuo de la regresión de Xj respecto a las otras independientes.

o Se representa e(j) respecto a u(j).


Gráf ico de regresión parcial en XUMA de VAB sobre inversiones

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

-4 -3 -2 -1 0 1 2 3 4 5

E1

E21

SHAZAM PLOTE1

Corte en la pendiente y un valor extraño


Gráfico de regresión parcial en la relación desigualdad de la renta respecto a democratización

1

2

3

4

5

6

7

8

9

10

10 20 30 40 50 60 70 80 90

INEQ

TURNOUT

INEQ Valor

especial. Posible

influyente

Forma no lineal posiblemente por el valor influyente

Pendiente que mide el efecto directo de la democratización

sobre la desigualdad

Ejercicio 1.1


El conocimiento de los residuos para evaluar gráficos y elementos de diagnosis

Análisis de residuos



Residuos de Mínimos Cuadrados Ordinarios

Definicióne=Y-Xb

Propiedades e=My Siguen leyes normales N(0,σ2M) Son ortogonales a los regresores Xe=0 (T-k-1)S2/σ2 sigue una χ2 con T-k-1 grados de libertad



Efecto de una suposición sobre el modelo estimado

Un modelo mal especificado no verifica alguna de las suposiciones de partida. Por ejemplo si el modelo es cuadrático en vez de lineal, los

residuos dependerán de la variable independiente al cuadrado, en vez de tener media 0.

Los residuos siguen leyes normales N(αx2,σ2M) Por tanto su forma no será centrada en el 0


Efectos de una observación sobre el modelo estimado

Todo valor tiene un efecto sobre la estimación del modelo:

Unos afectan más y otros menos.

Los que cambian mucho el modelo se denominan influyentes

Esa influencia puede deberse a las variables independientes o a la dependiente

Las diferentes medias de influencia buscan también la causa

11/05/10

regresión sin i

regresión con i

i cambia algo la recta de regresión

x

y

Universidade de VigoEfecto de un en punto

regresión sin i

regresión con i

x

y

Cuanto mas cerca del centro esta el punto menos efecto tiene

La distancia la centro afecta

en la variable independiente

La distancia a la recta afecta en la

variable dependiente



Medidas basadas en los residuos

Medidas de influencia debidas a las variables independientes Distancia de Mahalanobis Niveles de influencia

Medidas de influencia debidas a la variable dependiente: Residuos estandarizados Residuos estudentizados- Valores

atípicos Residuos predichos

Medidas de influencia conjunta DFFITS DFBETAS COVRATIO

Valores potencialmente influyentes

Valores atípicos

Valores influyentes



Efectos de los diferentes t ipos de puntos sobre la regresión

Se va a analizar el efecto de los valores potencialmente influyentes según su distancia a la media en el espacio de variables independientes:

2. Valores cercanos a la media3. Valores intermedios4. Valores alejados de la media



Observaciones no alejadas de la media

11/05/10

x

y

"i" no atipicox

y

"i" atipico

regresión con i

regresión sin i

regresión con i

regresión sin i

"i"

Difícilmente son influyentes



Observaciones intermedias

11/05/10

x

y

"i" no atipico, no influyente

x

y

"i" atipico

influyente

regresión con i

regresión sin i

regresión con i

regresión sin i

"i"

Son influyentes si son atípicos



Observaciones alejadas de la media

11/05/10

regresión sin i

regresión con i

i no influyente

x

y

"i" no influyente

regresión sin iregresión con i

x

y

"i" influyente

i influyente

Normalmente son influyentes aunque no sean atípicosEjercicio 1.2


Medidas de influencia a priori



Distancia de Mahalanobis

Mide la distancia en un espacio multidimensional entre un punto cualquiera y el centro. Para facilitar los cálculos utilizo la distancia al cuadrado

Tiene en cuenta las posibles interrelaciones y la diferente dispersión de la variables del espacio.

Se define como

Siendo x la media y S la matriz de varianzas covarianzas de todas las variables x que intervienen en el espacio.

)()'(),( 12 xxSxxxxDDM tttt −−== −

Interpretación geométrica

Centro del espacio

Punto del que se quiere

conocer la distancia

Espacio bidimensional originalEspacio bidimensional transformado

Punto del que se quiere

conocer la distancia

Centro del espacio

Distancia euclidea

Distancia de Mahalanobis



Ejemplo

Sea el centro en el (1,1); el punto que se busca el (2,3) y la matriz de covarianzas

La distancia euclidea es

La distancia de Mahalanobis es

=

15

52A

541)1

1

3

2()'

1

1

3

2(1 =+=

−

−

=tD

4782609,0)1

1

3

2(

15

52)'

1

1

3

2(2

1

=

−

−

=

−

tD



Propiedades

1. Tiene en cuenta no sólo el valor medio sino también su discrepancia y la covarianza de las variables

2. Representa (explica) las gamas de aceptabilidad (la discrepancia) entre variables

3. Compensa interacciones (la covarianza) entre variables 4. No tiene dimensiones 5. Si las variables son distribuidas normalmente puede ser convertida a

probabilidades que usan la función de densidad χ2.

Esto nos permite aproximar su media por el número de dimensiones y su varianza por dos veces ese numero.



Niveles de influencia

• Estudian el efecto de la variable dependiente sobre su predicción, diciéndonos el grado de influencia que tiene sobre ésta.

• Miden el efecto que la observación Yt tiene sobre su predicción

ˆ Y t = hts

s=1

T

∑ Ys

∂ ˆ Y t∂ Y t

= h t t = h t .



Propiedades

El valor predicho se puede descomponer como un promedio ponderado de esa observación y del valor predicho sin ella.

Si el número total de observaciones es T, el nivel de influencia está acotado por los valores 1/T y 1.

Si DMt nos mide la distancia de Mahalanobis de la observación t-ésima, entonces

Al aumentar el nivel de influencia disminuye la varianza del error

h t =1+ DMt

T



Ley de distribución de los niveles de Influencia

El valor medio de los niveles de influencia será:

T

k

T

hh

T

ttt 11 +==

∑=

∑=

−=T

1t

2t

2h )hh(

T1

S

Su varianza viene dada por

que coincide con la varianza de la distancia de Mahalanobis.Ejercicio 1.3


Medidas que indican si un punto tiene un comportamiento muy diferente del resto

Medidas de extrañeza



Estudentizados (externamente estudentizados)

se les denomina externamente estudentizados porque no incluyen el propio valor al hacer la estimación de la varianza residual.

• Se definen como los residuos divididos, cada uno, por su desviación estándar eliminada la observación correspondiente

• siendo

ttR

tt

hs

es

−=

1)(

∑≠−−

=tsstR e

kTs 22

)( 2

1



Propiedades de los residuos estudentizados

Los residuos estudentizados siguen aproximadamente una t de Student con T-k-2 grados de libertad

Miden el error de cada observación independientemente de las unidades de medida de las variables



Estandarizados (internamente estudentizados)

se les denomina internamente estudentizados porque incluyen el propio valor al hacer la estimación de la varianza residual.

tr =

e t

RS 1 − th

• Se definen como los residuos divididos, cada uno, por su desviación estándar



Propiedades de los residuos estandarizados

Los residuos estandarizados son asintóticamente normales tipificados AN(0,1)

No se conoce su ley de distribución exacta, pues falla la independencia

Miden el error de cada observación independientemente de las unidades de medida de las variables



Residuos predichos

Se definen como la distancia entre el valor observado y el valor estimado haciendo uso de todas las observaciones menos la que corresponde a ese residuo.

ˆ Y t( t ) = ′ X t( t )b(t )

e t( t) =Y t−Y t( t)

donde



Propiedades Residuos Predichos (1)

1. El residuo predicho también se puede escribir como

El residuo predicho siempre es mayor que el residuo, porque ht es siempre positiva.

Si el residuo es alto quiere decir que el valor se estimaría mal a partir de las demás observaciones, y por lo tanto, el residuo predicho sería alto. En otro caso sería una buena estimación.

e t ( t ) =e t

1− ht



Propiedades Residuos Predichos (2)

Cuanto mayor sea el valor ht mayor es el residuo predicho. Como ht nos mide el nivel de influencia de Yt sobre su predicción entonces cuanta más influencia tenga una observación más difícil es predecirla a partir del resto de los valores de la muestra.

Si todos los residuos de predicción son pequeños entonces su suma también lo será y por tanto nos servirá de ayuda para hacer una validación de la calidad del modelo.



Comparación entre los distintos tipos de medidas

Existe una relación directa entre los distintos tipos de residuos, de tal forma que todos ellos dan una información complementaria.

Cuanto mayor es uno de ellos mayor son los demás, aunque la influencia de los puntos afecta a su definición.

La relación entre los residuos estudentizados, los estandarizados y los residuos predichos estandarizados depende de la varianza residual estimada sin la observación y del nivel de influencia.

La relación entre los residuos estudentizados y los residuos estandarizados depende de la varianza residual estimada sin la observación y con ella.



Comparaciones entre residuos.

)1()( tttt hee −=

t

ttt

h

Sre

−=

1)(

ttt

ttt

tt

ttt r

S

S

S

he

hS

et

)()(

)(

)(

)(

1

1=

−=

−=

S

he

hS

he

hS

er

ttt

t

ttt

t

tt

−=

−

−=

−=

1

1

)1(

1

)()(


Indican si un valor afecta a la estimación del modelo

Medidas de influencia a posteriori



Medidas de la robustez del modelo a los datos

Existen varias medidas que nos ayudan a evaluar el grado de robustez de un modelo a los datos, o sea hasta que punto existe influencia de un dato sobre el comportamiento global del modelo.

En general nos interesa el efecto que una observación tiene sobre: Los estimadores de los coeficientes La predicción de la variable dependiente Los estimadores de la varianza de las perturbaciones

Definiremos un estadístico para cada uno de esos aspectos.



Medidas de robustez de los coeficientes estimados

11/05/10

DFBETAS Se define para cada uno de los coeficientes estimados bj como la

distancia entre el coeficiente calculado incluyendo el punto y sin incluirlo estandarizado

( )jjtR

tjjtj aS

bbDFBETA

)(

)(

ˆ−

=



Medidas de robustez de los valores estimados de la dependiente

11/05/10

DFFITS (Distancia al valor predicho estandarizado) Mide el grado de influencia sobre los valores estimados de eliminar

la observación t , y en este sentido nos da una medida global de la influencia a posteriori.

ttR

ttt

tt

ttt

hS

yy

h

bXbXDFFITS

)(

)(

)(

)(

ˆˆˆ

ˆ

−=

′−′=

σ



Medidas de robustez de los estimadores de la varianza

11/05/10

COVRATIO (Razón entre los determinantes de las varianzas de los estimadores) Mide el grado de influencia sobre la matriz de varianza-covarianza

de los estimadores de los coeficientes como consecuencia de eliminar la observación t, y en este sentido nos da una medida de la influencia a posteriori sobre la estimación de la varianza.

2 1( ) ( ) ( )

2 1

det[ ( ' ) ]

det[ ( ' ) ]i i i

i

s X XCOVRATIO

s X X

−

−=

Ejercicio 1.4


Valores especiales en la regresión



Valores especiales en la regresión

Existen dos tipos de valores que pueden afectar al modelo: Los valores atípicos que afectan al comportamiento

de la variable dependiente sobre la estimación Los valores influyentes que afectan a la estimación

del modelo bien a los coeficientes, bien los valores estimados de la dependiente o bien a las varianzas.


Definición de valor atípico

El concepto de valor atípico se inserta dentro del conjunto de datos con el que se trabaja: Se define valor atípico individual al nivel α si

verifica que

Se define valor atípico conjunto al nivel α si verifica que

2, 2t T ke t α

∗− −

>

2, / 2t T k Te t α∗

− −>Principio de Bonferroni


Universidade de VigoValor atípico al nivel α

11/05/10

4

2

0

- 2

- 41 2 3 4 5 6 7 8 9 101112131415161718192021222324

Residuos Estudentizados



Efectos de los valores atípicos

Afectan a la distribución de los datos. En muestras pequeñas sesgan la estimación. Pueden generar un efecto sobre los parámetros si también

son influyentes. Aumentan el error de la estimación, generando ineficiencia

en los estimadores de los coeficientes y sesgo en el estimador de la varianza.



Valores influyentes

Son los que afectan a la estimación de los parámetros produciendo un importante sesgo en sus valores.

Puede afectar a los estimadores de coeficientes, al estimador de la varianza o a ambos.

Cuando sólo afecta a la varianza pero no a los coeficientes tiene menos importancia para la estimación del modelo.

No todos los puntos influyentes son atípicos ni viceversa.



Características de un punto influyente en los coeficientes

11/05/10

1.Modifica el vector b de los parámetros estimados.2.Modifica el vector de predicción.3.Hace que la predicción del punto influyente sea muy buena

cuando se incluye en el modelo y muy mala cuando se excluye.


Evaluación de las medidas de Robustez

Medida Estadístico VC Bajo VC Alto

Influencia global DFFITS 2(p/T)1/2 p1/2

Influencia en los estimadores

DFBETAS 2/T1/2 1

Influencia en la varianza COVRATIO 3(k+1)/T

11/05/10

Se utiliza el valor absoluto de

COVRATIO-1 para realizar la comparación



Relación entre valores atípicos e influyentes

Se demuestra que existe una relación directa entre valores atípicos e influyentes, puesto que

1t

tt

hDFFITS e

h∗=

−

Valor influyente

Valor potencial-

mente influyente

Valor Atípico



Soluciones a posibles valores atípicos o influyentes

11/05/10

Eliminar los puntos si realmente no presentan ningún interés.

Crear una variable ficticia (DUMMY) que trate de medir el efecto del punto sobre el modelo y que lo caracterice como punto especial proveniente de otra población.

Dichas variables se explicarán en el tema siguiente.

Ejercicio 1.5


Una aproximación intuitiva

Test de hipótesis



Test de hipótesis

Tratan de comprobar si una determinada hipótesis es aceptable o no por unos determinados datos bajo una serie de suposiciones previas.

Son la clave de la demostración empírica científica y por ello son necesarios en las ciencias sociales.

Nos vamos a centrar en los test de significación que son aquellos en los que se define un nivel de significación, es decir una cota de la probabilidad de elegir la hipótesis alternativa cuando se supone que esa es falsa. De este modo se facilita la construcción del test (Lema de Neyman Pearson).



Test de signif icación

En todos los test de significación se tienen en cuenta los siguientes aspectos:

1. Definir modelo de análisis e indicar suposiciones del test2. Definir hipótesis nula y alternativa 3. Fijar el nivel de significación4. Estadístico de la prueba5. Ley de distribución del estadístico6. Regla de decisión

Comentamos cada uno de esos elementos brevemente,



Modelo y suposiciones

Para poder contrastar una determinada hipótesis es necesario presuponer un cierto comportamiento de los datos, puesto que el proceso de generación de estos siempre está determinado por los factores que los condicionan. Cuando ese modelo está determinado por un número finito de

parámetros, se dice paramétrico. En otro caso es no paramétrico.

Estas suposiciones son previas, eso quiere decir que no se contrastan en el test y por consiguiente los resultados de ese test están condicionados a la validez de las suposiciones. Cuando el fallo de esas suposiciones inhabilitan totalmente el

test se dice que es poco robusto, en otro caso se dice que es robusto.



Hipótesis

En todos los test de significación se contrastan dos hipótesis: la nula y la alternativa. La hipótesis nula es aquella que se presupone inicialmente y los datos deben

comprobar si se rechaza o no hay argumentos suficientes para ello. Eso indica que es una hipótesis conservadora en el sentido que se mantiene mientras no se demuestre lo contrario.

La hipótesis alternativa es la que tienen valor probatorio en el sentido de que dice que los datos rechazan claramente la hipótesis nula. Indica cual es la línea de fallo de la hipótesis nula y por consiguiente la que le da capacidad de discriminación al test. Por ese motivo es importante elegir bien la hipótesis alternativa para tener más capacidad de rechazar cuando haya que hacerlo. Esto es lo que se denomina potencia del test.

Normalmente la hipótesis nula es un caso particular de la alternativa. En ese caso el test se denomina anidado. En otro caso es no anidado.

En el caso de contraste de suposiciones, la hipótesis nula siempre va a ser que las suposiciones del MRLN se verifican y la alternativa será el fallo de cada suposición.



El nivel de signif icación

Indica un limite a la probabilidad de cometer un error de tipo I. Para ello debemos definir previamente los diferentes tipos de errores, tal como se hace en la tabla siguiente, según sea cierta o no determinada hipótesis.

La idea es buscar la mínima probabilidad de cometer un error de tipo II, una vez fijado un límite a la probabilidad de cometer un error de tipo de I.

La elección del nivel de significación es subjetiva, por lo que se suele elegir entre el 5% o el 10% en ciencias sociales, mientras que en las naturales se suele optar por el 1% o el 5%.

H0 es c ierta H1 es c iertaDecido aceptar H0

BIEN ERROR I I

Decido aceptar H1

ERROR I BIEN



Estadístico de prueba

Consiste en formalizar la idea intuitiva del test, plasmando en una función de los datos muestrales (estadístico) que nos dé información sobre como discriminar entre cada una de las hipótesis.

Normalmente este estadístico tiene un comportamiento bajo la hipótesis nula y otro bajo la alternativa y su resultado nos va a permitir decidirnos por una u otra de las dos hipótesis según con cual sea mas coherente.

Para definirlo es conveniente conocer cual es la idea intuitiva del test, es decir, la forma en la que comparamos las hipótesis con los datos en el test.



Ley de distribución del estadístico

Para elaborar las reglas de decisión del test es conveniente conocer cual es la ley que sigue el estadístico de prueba bajo la hipótesis nula.

Dicha ley se determina a partir de las suposiciones de partida y debe ser independiente de las hipótesis o por lo menos conocida si la hipótesis nula se verifica.

A partir de esa ley de distribución se pueden definir dos regiones en el espacio muestral: la región de aceptación que es aquella en la que se espera que

caiga el estadístico cuando la hipótesis nula es cierta el resto de los valores muestrales que será la región de rechazo



Regla de decisión

Una vez determinada la ley simplemente se construye la regla de decisión que siempre suele ser del mismo tipo: Si el estadístico muestral cae en la región de aceptación se

acepta la hipótesis nula, en caso contrario se rechaza.

La región de rechazo nos indica aquellos valores muestrales que hacen improbable (con una probabilidad menor que el nivel de significación) que sea cierta la hipótesis nula. Es decir, si la hipótesis nula fuera cierta la probabilidad que ocurra lo que ocurrió o algo mas distante es prácticamente cero, por consiguiente supongo que la hipótesis nula no es consistente con los datos, esto significa que la rechazo.

Ejercicio 1.6

diagnosis de la regresion

Education