unidad 5 estadistica 2

24
INSTITUTO TECNOLÓGICO SUPERIOR DE LA SIERRA NEGRA DE AJALPAN MARÍA R. LÓPEZ HERNÁNDEZ UNIDAD 5 ESTADÍSTICA NO PARAMÉTRICA ESTADÍSTICA II INGENIERÍA EN ADMINISTRACIÓN 4° SEMESTRE

Upload: maria-lopez-hernandez

Post on 25-Jun-2015

2.896 views

Category:

Documents


6 download

DESCRIPTION

profe aqui esta mi unidad 5 haber si esta bien

TRANSCRIPT

Page 1: Unidad 5 estadistica 2

INSTITUTO TECNOLÓGICO SUPERIOR DE LA SIERRA NEGRA DE AJALPAN

MARÍA R. LÓPEZ HERNÁNDEZ

UNIDAD 5 ESTADÍSTICA NO PARAMÉTRICA

ESTADÍSTICA II

INGENIERÍA EN ADMINISTRACIÓN

4° SEMESTRE

Estadística no paramétrica.

Page 2: Unidad 5 estadistica 2

5.1 Escala de medición

5.2 Métodos estadísticos contra no paramétricos

5.3 Prueba de corridas para aleatoriedad

5.4 Una muestra: prueba de signos

5.5 Una muestra: prueba de Wilcoxon

5.6 Dos muestras: prueba de Mann-Whitney

5.7 Observaciones pareadas: prueba de signos

5.8 Observaciones pareadas prueba de Wilcoxon

5.9 Varias muestras independientes: prueba de Krauskal-Wallis

5.10 Software de aplicación

ESTADÍSTICA NO PARAMÉTRICA.

La estadística no paramétrica es una rama de la estadística que estudia las pruebas y modelos estadísticos cuya distribución subyacente no se ajusta a los llamados criterios paramétricos. Su distribución no puede ser definida a priori (se utilizan para distinguir entre dos tipos de conocimiento: el conocimiento a

Page 3: Unidad 5 estadistica 2

priori es aquel que, en algún sentido importante, es independiente de la experiencia; mientras que el conocimiento a posteriori es aquel que, en algún sentido importante, depende de la experiencia.), pues son los datos observados los que la determinan. La utilización de estos métodos se hace recomendable cuando no se puede asumir que los datos se ajusten a una distribución conocida, cuando el nivel de medida empleado no sea, como mínimo, de intervalo.

5.1 ESCALA DE MEDICIÓN

Existen diversas definiciones del término "medición", pero estas dependen de los diferentes puntos de vista que se puedan tener al abordar el problema de la cuantificación y el proceso mismo de la construcción de una escala o instrumento de medición. En general, se entiende por medición la asignación de números a elementos u objetos para representar o cuantificar una propiedad. El problema básico está dado por la asignación un numeral que represente la magnitud de la característica que queremos medir y que dicho números pueden analizarse por manipulaciones de acuerdo a ciertas reglas. Por medio de la medición, los atributos de nuestras percepciones se transforman en entidades conocidas y manejables llamadas "números". Es evidente que el mundo resultaría caótico si no pudiéramos medir nada. En este caso cabría

Page 4: Unidad 5 estadistica 2

preguntarse de que le serviría la físico saber que el hierro tiene una alta temperatura de fusión.

5.2 Métodos estadísticos contra no paramétricos

Escala Nominal:

La escala de medida nominal, puede considerarse la escala de nivel más bajo, y consiste en la asignación, puramente arbitraria de números o símbolos a cada una de las diferentes categorías en las cuales podemos dividir el carácter que observamos, sin que puedan establecerse relaciones entre dichas categorías, a no ser el de que cada elemento pueda pertenecer a una y solo una de estas categorías.

Se trata de agrupar objetos en clases, de modo que todos los que pertenezcan a la misma sean equivalentes respecto del atributo o propiedad en estudio, después de lo cual se asignan nombres a tales clases, y el hecho de que a veces, en lugar de denominaciones, se le atribuyan números, puede ser una de las razones por las cuales se le conoce como "medidas nominales".

Por ejemplo, podemos estar interesados en clasificar los estudiantes de la UNESR Núcleo San Carlos de acuerdos a la carrera que cursan.

Carrera Número asignada a la categoría

Educación 1

Administración 2

Page 5: Unidad 5 estadistica 2

Se ha de tener presente que los números asignados a cada categoría sirven única y exclusivamente para identificar la categoría y no poseen propiedades cuantitativas.

Escala Ordinal:

En caso de que puedan detectarse diversos grados de un atributo o propiedad de un objeto, la medida ordinal es la indicada, puesto que entonces puede recurrirse a la propiedad de "orden" de los números asignándolo a los objetos en estudio de modo que, si la cifra asignada al objeto A es mayor que la de B, puede inferirse que A posee un mayor grado de atributo que B.

La asignación de números a las distintas categorías no puede ser completamente arbitraria, debe hacerse atendiendo al orden existente entre éstas.

Los caracteres que posee una escala de medida ordinal permiten, por el hecho mismo de poder ordenar todas sus categorías, el cálculo de las medidas estadísticas de posición, como por ejemplo la mediana.

Escalas de intervalos iguales:

Page 6: Unidad 5 estadistica 2

La escala de intervalos iguales, está caracterizada por una unidad de medida común y constante que asigna un número igual al número de unidades equivalentes a la de la magnitud que posea el elemento observado. Es importante destacar que el punto cero en las escalas de intervalos iguales es arbitrario, y no refleja en ningún momento ausencia de la magnitud que estamos midiendo. Esta escala, además de poseer las características de la escala ordinal, encontramos que la asignación de los números a los elemento es tan precisa que podemos determinar la magnitud de los intervalos (distancia) entre todos los elementos de la escala. Sin lugar a dudas, podemos decir que la escala de intervalos es la primera escala verdaderamente cuantitativa y a los caracteres que posean esta escala de medida pueden calculársele todas las medidas estadísticas a excepción del coeficiente de variación.

Escala de coeficientes o Razones:

El nivel de medida más elevado es el de cocientes o razones, y se diferencia de las escalas de intervalos iguales únicamente por poseer un punto cero propio como origen; es decir que el valor cero de esta escala significa ausencia de la magnitud que estamos midiendo. Si se observa una carencia total de propiedad, se dispone de una unidad de medida para el efecto. A iguales diferencias entre los números asignados corresponden iguales diferencias en el grado de atributo presente en el objeto de estudio. Además, siendo que cero ya no es arbitrario, sino un valor

Page 7: Unidad 5 estadistica 2

absoluto, podemos decir que A. Tiene dos, tres o cuatro veces la magnitud de la propiedad presente en B.

5.3 PRUEBA DE CORRIDAS PARA ALEATORIEDAD

Una corrida es una serie de observaciones similares. La prueba de corridas se usa para probar la aleatoriedad de una serie de observaciones cuando cada observación puede ser asignada a una de dos categorías.

Ejemplo. En relación con una muestra aleatoria de n = 10 individuos, supongamos que cuando se les clasifica por sexo la secuencia de observaciones es: M, M, M, M, F, F, F, F, M, M. Estos datos contienen tres corridas, o series de elementos semejantes.

Respecto de datos numéricos, un medio para obtener el esquema requerido de dos categorías es clasificar cada observación según si es superior o inferior a la mediana del grupo. En general, mucho menos corridas o mucho más corridas que las que serían de esperar al azar resultarían en el rechazo de la hipótesis nula de que la secuencia de observaciones es una secuencia aleatoria.

El número de corridas de elementos semejantes se determina de acuerdo con los datos muéstrales, con el uso del símbolo R para designar el número de corridas observadas. Si n1 equivale al número de elementos muestreados de un tipo y n2 al número de elementos muestreados del segundo tipo, la media y el error estándar asociados con la distribución de muestreo de

Page 8: Unidad 5 estadistica 2

la estadística de prueba R cuando la secuencia es aleatoria son

Sin, n1 > 20 o n2 > 20, la distribución de muestreo de r aproxima la distribución normal. Por lo tanto, en estas circunstancias la estadística R puede convertirse a la estadística de prueba z.

5.4 UNA MUESTRA: PRUEBA DE SIGNOS

La prueba de los signos puede utilizarse para probar una hipótesis nula referente al valor de la medida de la población. En consecuencia, es el equivalente no paramétrico a la prueba de una hipótesis referente al valor de la medida de la población. Es necesario que los valores de la muestra aleatoria se encuentren al menos en la escala ordinal, aunque no se requiere de supuestos acerca de la forma de la distribución de la población.

Las hipótesis nula y alternativa pueden aludir ya sea a una prueba bilateral o unilateral. Si Med denota la mediana de la población y Med0 designa al valor hipotético, las hipótesis nulas y alternativa para una prueba de dos extremos son:

H0: Med=Med0

H1: Med≠Med0

Se aplica un signo de más a cada valor muestra observada mayor que el valor hipotético de la mediana

Page 9: Unidad 5 estadistica 2

y un signo de menos a cada valor menor que el valor hipotético de la mediana. Si un valor maestral es exactamente igual a la mediana hipotética, no se le aplica ningún signo, con lo que el tamaño de muestra efectivo se reduce. Si la hipótesis nula sobre el valor de la mediana es cierta, el número de signos de más debería ser aproximadamente igual al número de signos de menos. O, para decirlo de otra manera, la proporción de signos de más debe ser de alrededor de 0.50. Por consiguiente, la hipótesis nula que se prueba en una prueba bilaterales H0: π=0.50, donde π es la proporción de la población de los signos de más o de menos. Así, una hipótesis referente al valor de la mediana se prueba en realidad como una hipótesis sobre π. Si la muestra es grande, se puede hacer uso de la distribución normal.

5.5 UNA MUESTRA: PRUEBA DE WILCOXON

La prueba de Wilcoxon puede usarse para probar una hipótesis nula referente al valor de la medida de la población. Pero dado que la prueba Wilcoxon considera la magnitud de la diferencia entre cada valor muestral y el valor hipotético de la mediana, es una prueba más sensible que la prueba de los signos.

Sea X una variable aleatoria continua. Podemos plantear cierta hipótesis sobre la mediana de dicha variable en la población, por ejemplo, M=M0. Extraigamos una muestra de tamaño m y averigüemos las diferencias Di = X - M0. Consideremos únicamente la n diferencias no nulas (n “m). Atribuyamos un rango

Page 10: Unidad 5 estadistica 2

u orden (0i) a cada diferencia según su magnitud sin tener en cuenta el signo. Sumemos por un lado los 0+i, rangos correspondientes a diferencias positivas y por otro lado los 0-i, rangos correspondientes a diferencias negativas. La suma de los órdenes de diferencias positivas sería igual a la suma de los órdenes de diferencias negativas, caso que la mediana fuera el valor propuesto M0. En las muestras, siendo M0 el valor de la verdadera mediana, aparecerán por azar ciertas discrepancias, pero si la suma de los rangos de un ciclo es considerablemente mayor que la suma de los rangos de otro signo, nos hará concebir serias dudas sobre la veracidad de M0. La prueba de Wilcoxon va a permitir contrastar la hipótesis de que una muestra aleatoria procede de una población con mediana M0. Además, bajo el supuesto de simetría este contraste se puede referir a la media, E(X). Esta prueba es mucho más sensible y poderosa que la prueba de los signos; como se puede apreciar utiliza más información, pues no solo tiene en cuenta si las diferencias son positivas o negativas, sino también su magnitud. El contraste de Wilcoxon puede ser utilizado para comparar datos por parejas. Supongamos que la distribución de las diferencias es simétrica, y nuestro propósito es contrastar la hipótesis nula de que dicha distribución está centrada en 0. Eliminando aquellos pares para los cuales la diferencia es 0 se calculan los rangos en orden creciente de magnitud de los valores absolutos de las restantes diferencias. Se calculan las sumas de los rangos positivos y negativos, y la menor de estas sumas es el estadístico de Wilcoxon. La hipótesis nula será rechazada si T es menor o igual que el valor correspondiente. Cuando n≥25 y la hipótesis nula es cierta, la estadística t tiene una distribución

Page 11: Unidad 5 estadistica 2

aproximadamente normal. La media y el error estándar asociados con esta distribución de muestreo son, respectivamente: µ_T=(N(N+1))/4 σ_T=√ ((N(N+1) (2N+1))/24) En el caso de una muestra relativamente grande la prueba puede realizarse usando la distribución normal de probabilidad y calculando la estadística de prueba z, de la siguiente manera: Z= (T-µ_R)/σ_T.

5.6 DOS MUESTRAS: PRUEBA DE MANN-WHITNEY

La prueba de Mann-Whitney se emplea en aquellos casos en los que deseamos contrastar si existen diferencias entre las poblaciones de donde se extraen dos muestras, que han de ser aleatorias e independientes. La utilidad de esta prueba es la misma que la de la prueba t, pero no parte de supuestos y puede ser aplicada a datos medidos en escala ordinal.

El procedimiento es el siguiente:

1. Hipótesis:

Hipótesis nula: No existen diferencias entre los dos grupos.

Hipótesis alternativa: Hay diferencias entre los dos grupos.

2. Estadístico de contraste:

Page 12: Unidad 5 estadistica 2

En este caso, el estadístico a emplear se denomina U de Mann-Whitney, que se calcula siguiendo estos pasos:

a) Se procede a ordenar las puntuaciones de las dos muestras como si fueran una sola.

b) A cada una de ellas se le asigna un rango.

c) Se calcula el estadístico T, a partir de la suma de los rangos de la muestra de menor tamaño.

d) Teniendo T, se calcula U:

Donde U = n1n2 + n1 (n1 + 1)/2 - T

Donde n1 es el número de sujetos de la muestra de menor tamaño, y n2 el de la muestra mayor.

3. Como en el caso anterior, el valor observado es comparado con valores tabulados.

En dicha tabla encontramos la probabilidad asociada a cada valor del estadístico para una prueba unilateral. Si nuestro contraste es bilateral, sólo tendremos que multiplicar por dos el valor tabular correspondiente a una cola.

5.7 OBSERVACIONES PAREADAS: PRUEBA DE SIGNOS

También se puede utilizar la prueba de signo para

probar la hipótesis nula para observaciones pareadas. Aquí se reemplaza cada diferencia, di, con un signo más o menos dependiendo si la diferencia ajustada, di-d0, es positiva o negativa. A lo largo de esta sección suponemos que las poblaciones

Page 13: Unidad 5 estadistica 2

son simétricas. Sin embargo, aun si las poblaciones son asimétricas se puede llevar a cabo el mismo procedimiento de prueba, pero las hipótesis se refieren a las medianas poblacionales en lugar de las medias.

Ejemplo:

1. Una compañía de taxis trata de decidir si el uso de llantas radiales en lugar de llantas regulares con cinturón mejora la economía de combustible. Se equipan 16 automóviles con llantas radiales y se manejan por un recorrido de prueba establecido. Sin cambiar de conductores, se equipan los mismos autos con llantas regulares con cinturón y se manejan una vez más por el recorrido de prueba. Se registra el consumo de gasolina, en kilómetros por litro, de la siguiente manera:

Automóvil Llantas radiales Llantas con cinturón

1 4.2 4.1

2 4.7 4.9

3 6.6 6.2

4 7.0 6.9

5 6.7 6.8

6 4.5 4.4

7 5.7 5.7

8 6.0 5.8

9 7.4 6.9

10 4.9 4.9

Page 14: Unidad 5 estadistica 2

11 6.1 6.0

12 5.2 4.9

13 5.7 5.3

14 6.9 6.5

15 6.8 7.1

16 4.9 4.8

¿Se puede concluir en el nivel de significancia de 0.05 que los autos equipados con llantas radiales obtienen mejores economías de combustible que los equipados con llantas regulares con cinturón?

Solución:

Regla de decisión:

Si zR 1.645 no se rechaza Ho.

Page 15: Unidad 5 estadistica 2

Si zR> 1.645 se rechaza Ho.

Se procede ha realizar las diferencias entre de los kilómetros por litro entre llantas radiales y con cinturón:

Automóvil

Llantas radiales

Llantas con cinturón

d

1 4.2 4.1 +

2 4.7 4.9 -

3 6.6 6.2 +

4 7.0 6.9 +

5 6.7 6.8 -

6 4.5 4.4 +

7 5.7 5.7 0

8 6.0 5.8 +

9 7.4 6.9 +

10 4.9 4.9 0

11 6.1 6.0 +

12 5.2 4.9 +

Page 16: Unidad 5 estadistica 2

13 5.7 5.3 +

14 6.9 6.5 +

15 6.8 7.1 -

16 4.9 4.8 +

Al observar las diferencias se ve que sólo existe una n=14, ya que se descartan los valores de cero. Se tiene r+ = 11

Decisión y conclusión:

Como 2.14 es mayor a 1.645 se rechaza H0 y se concluye

con un = 0.05 que las llantas radiales mejoran la economía de combustible.

5.8 OBSERVACIONES PAREADAS PRUEBA DE WILCOXON

Se puede notar que la prueba de signo utiliza sólo los signos más y menos de las diferencias entre las observaciones y 0 en el caso de una muestra, o los signos más y menos de las diferencias entro los pares de observaciones en el caso de la muestra pareada, pero no toma en consideración la magnitud de estas diferencias. Una prueba que utiliza dirección y magnitud, propuesta en 1945 por Frank Wilcoxon, se llama ahora comúnmente prueba de rango con signo de Wilcoxon. Esta prueba se aplica en el caso de una distribución continua simétrica. Bajo esta condición se

Page 17: Unidad 5 estadistica 2

puede probar la hipótesis nula 0. Primero se resta de cada valor muestral y se descarta todas las

diferencias iguales a cero. Se asigna un rango de 1 a la diferencia absoluta más pequeña, un rango de 2 a la siguiente más pequeña, y así sucesivamente. Cuando el valor absoluto de dos o más diferencias es el mismo, se asigna a cada uno el promedio de los rangos que se asignarían si las diferencias se distinguieran. Por ejemplo, si la quinta y sexta diferencia son iguales en valor absoluto, a cada una se le asignaría un rango de 5.5. Si la hipótesis 0 es verdadera, el total de los rangos que corresponden a las diferencias positivas debe ser casi igual al total de los rangos que corresponden a las diferencias negativas. Se representan esos totales como w+ y w-, respectivamente. Se designa el menor de w+ y w- con w.

Al seleccionar muestras repetidas esperaríamos que variaran w+ y w-, y por tanto w. De esta manera se puede considerar a w+ y w-, y w como valores de las correspondientes variables aleatorias W+, W-, y W. La hipótesis nula 0 se puede rechazar a favor de la alternativa 0 sólo si w+ es pequeña y w- es grande. Del mismo modo, la alternativa 0 se puede aceptar sólo si w+ es grande y w- es pequeña. Para una alternativa bilateral se puede rechazar H0 a favor de H1

si w+ o w- y por tanto w son suficientemente pequeñas. No importa cuál hipótesis alternativa puede ser, rechazar la hipótesis nula cuando el valor de la estadística apropiada W+, W-, o W es suficientemente pequeño.

Ejemplos:

Page 18: Unidad 5 estadistica 2

1. Los siguientes datos representan el número de horas que un compensador opera antes de requerir una recarga: 1.5, 2.2, 0.9, 1.3, 2.0, 1.6, 1.8, 1.5, 2.0, 1.2 y 1.7. Utilice la prueba de rango con signo para probar la hipótesis en el nivel de significancia de 0.05 que este compensador particular opera con una media de 1.8 horas antes de requerir una recarga.

Solución:

H0;

H1;

Se procederá a efectuar las diferencias y a poner rango con signo a los datos.

Dato di = dato - 1.8

Rangos

1.5 -0.3 5.5

2.2 0.4 7

0.9 -0.9 10

1.3 -0.5 8

2.0 0.2 3

1.6 -0.2 3

1.8 0 Se anula

1.5 -0.3 5.5

2.0 0.2 3

1.2 -0.6 9

Page 19: Unidad 5 estadistica 2

1.7 -0.1 1

Regla de decisión:

Para una n = 10, después de descartar la medición que es igual a 1.8, la tabla A.16 muestra que la región crítica es w 8.

Cálculos:

w+ = 7 + 3 + 3 = 13

w- = 5.5 + 10 + 8 + 3 + 5.5 + 9 + 1 = 42

Por lo que w = 13 (menor entre w+ y w-).

Decisión y Conclusión:

Como 13 no es menor que 8, no se rechaza H0 y se

concluye con un = 0.05 que el tiempo promedio de operación no es significativamente diferente de 1.8 horas.

5.9 VARIAS MUESTRAS INDEPENDIENTES: PRUEBA DE KRAUSKAL-WALLIS

Esta prueba estadística de análisis de varianza de entrada simple de Kruskal-Wallis es una extensión de la prueba de U Mann-Whitney, en razón de que se usan rangos para su aplicación; por otra parte, este procedimiento se emplea cuando el modelo experimental contiene más de dos muestras independientes.

Page 20: Unidad 5 estadistica 2

Dicha prueba se define matemáticamente de la forma siguiente:

Dónde:H = valor estadístico de la prueba de Kruskal-Wallis.N = tamaño total de la muestra.Rc2 = sumatoria de los rangos elevados al cuadrado.ni = tamaño de la muestra de cada grupo.L = ajuste dado por el ajuste de ligas o empates de los rangos.

El ajuste L se calcula de la manera siguiente:

Dónde:Li = valor de número de empates de un rango.N = tamaño total de la muestra.