análisis de datos categoricos

8
ANALISIS DE DATOS CATEGORICOS ANÁLISIS DE DATOS CATEGORICOS ESCALAS DE MEDIDA CATEGORICAS Los datos categóricos son datos que provienen de resultados de eperi!entos en que sus resultados se !iden en escalas categóri Medir en una escala categórica consiste en o#servar el resultad un eperi!ento $ asignarle una clase o categor%a& de entre un n'!ero (nito de clases posi#les" Esta escala es no nu!)rica& $ ser categórica ordinal& es decir& sus categor%as tienen un orde natural& o en caso contrario la escala es categórica no!inal" E*EM+LO ," -na encuesta reveló las opiniones de un grupo de personas respecto de !a$ores li!itaciones en la venta de ar!as .uego" Entre otras& se !idieron las siguientes dos varia#les/ - grado de restricción esperado por el encuestado& en la venta de ar!as de .uego" La otra es el nivel educacional del encuestado" La varia#le grado de restricción esperado tiene los valores/ a0 Muc1o !2s restringida& #0 !oderada!ente !2s restringida& c0 tal co!o est2 d0 !oderada!ente !enos restringida& e0 !uc1o !enos restringida" La varia#le nivel educacional tiene los valores/ a0 3asta 45 62sico& #0 #2sico co!pleto& c0 1asta segundo !edio& d0 !edio co!pleto& e0 estudios universitarios inco!pletos& .0 titulado universitario El tipo de an2lisis que se suele 1acer con datos categóricos co en deter!inar el tipo de asociación eistente entre pares de varia#les& lo que se deno!ina cru7ar las varia#les" Las posi#il son& que no 1a$a asociación alguna& en tal caso se dice que las varia#les son independientes& o que 1a$a di.erentes grados de asociación" En el caso de independencia entre dos varia#les& el valor que t una de ellas no predispone el valor de la otra" En el E8e!plo , ser que el grado de restricción esperado sea independiente de l varia#le& nivel educacional" Es decir& cualquiera sea su nivel educacional& la pro#a#ilidad de que opine que la venta de ar!as de#iera ser !uc1o !2s restringida& es la !is!a" Lo !is!o ocurri con las otras categor%as"

Upload: pablo-richard-ramos

Post on 05-Nov-2015

7 views

Category:

Documents


0 download

DESCRIPTION

analisis de datos categoricos

TRANSCRIPT

ANALISIS DE DATOS CATEGORICOS

5 DE SETIEMBRE DEL 2011ANALISIS DE DATOS CATEGORICOS

ANLISIS DE DATOS CATEGORICOSESCALAS DE MEDIDA CATEGORICAS

Los datos categricos son datos que provienen de resultados de experimentos en que sus resultados se miden en escalas categricas. Medir en una escala categrica consiste en observar el resultado de un experimento y asignarle una clase o categora, de entre un nmero finito de clases posibles. Esta escala es no numrica, y puede ser categrica ordinal, es decir, sus categoras tienen un orden natural, o en caso contrario la escala es categrica nominal.EJEMPLO 1. Una encuesta revel las opiniones de un grupo de personas respecto de mayores limitaciones en la venta de armas de fuego. Entre otras, se midieron las siguientes dos variables: Una es el grado de restriccin esperado por el encuestado, en la venta de armas de fuego. La otra es el nivel educacional del encuestado.La variable grado de restriccin esperado tiene los valores:a) Mucho ms restringida,b) moderadamente ms restringida,c) tal como estd) moderadamente menos restringida,e) mucho menos restringida.La variable nivel educacional tiene los valores:a) Hasta 4 Bsico,b) bsico completo,c) hasta segundo medio,d) medio completo,e) estudios universitarios incompletos,f) titulado universitarioEl tipo de anlisis que se suele hacer con datos categricos consiste en determinar el tipo de asociacin existente entre pares de variables, lo que se denomina cruzar las variables. Las posibilidades son, que no haya asociacin alguna, en tal caso se dice que las variables son independientes, o que haya diferentes grados de asociacin.En el caso de independencia entre dos variables, el valor que tome una de ellas no predispone el valor de la otra. En el Ejemplo 1, podra ser que el grado de restriccin esperado sea independiente de la otra variable, nivel educacional. Es decir, cualquiera sea su nivel educacional, la probabilidad de que opine que la venta de armas debiera ser mucho ms restringida, es la misma. Lo mismo ocurrir con las otras categoras.Si dos variables no son independientes, estn asociadas, y el grado de asociacin no es nico. Puede haber diversos grados de asociacin. Si hay asociacin, quiere decir que algunos valores de una de las variables predispones a que la otra variable tome ciertos valores de la otra variable, ms que otros. Esta predisposicin es mayor cuanto mayor es el grado de asociacin.EJEMPLO 2. Se hizo un estudio de nios de 10 a 12 aos, consistente en experimentar la efectividad de dos mtodos de higiene bucal en la prevencin de caries, el mtodo A y el mtodoB. Despus de un ao, se observ el desarrollo de caries. El resultado observado se clasific en tres categoras: Bajo, moderado, alto.Si los nios con el tratamiento A tienden a tener desarrollo de caries moderado o alto, mientras que los nios con tratamiento B tienden a tener bajo desarrollo de caries, entonces hay un cierto grado de asociacin.

TABLAS DE CONTINGENCIA

El primer paso en el cruce de dos variables categricas, para medir el grado de asociacin entre ellas, es construir una tabla de contingencia, que consta de un cuadro en que una de las variables se representa en el lado izquierdo, y la otra en la parte superior, cada una con todos sus respectivos valores. El cuadro contiene, en cada casilla, el conteo del nmero de casos en cada una de las combinaciones de valores de ambas variables.Adems, se muestran los totales verticales (por columnas) en la parte inferior, y los totales horizontales (por filas), en el lado derecho. Estas, por aparecer en los mrgenes, se denominan frecuencias marginales.En el extremo inferior derecho, se muestra el total de casos, N, que corresponde a la suma de las frecuencias marginales fila, o a la suma de las frecuencias columna, que son iguales.EJEMPLO 3. Supngase que en el Ejemplo 2, participaron en el estudio un total de 200 nios.Con los resultados obtenidos, se construy la siguiente tabla de contingencia:

Podemos observar que al tratamiento A le corresponden ms casos con desarrollo de caries moderado y alto, mientras que al tratamiento B le corresponden ms casos de bajo desarrollo de caries.En la tabla se muestran las sumas por columnas, que son las frecuencias distintos grados de desarrollo de caries, y los totales por filas, que son las frecuencias de nios con cada uno de los dos tipos de tratamientos. La suma de los totales, tanto por fila como por columna, es iguales a 200, el total de casos.

EL ESTADSTICO JI-CUADRADO COMO MEDIDA DE ASOCIACIN

Como primer pas en el clculo de una medida del grado de asociacin entre las dos variables, se debe construir una tabla de frecuencias esperadas, que es una tabla que muestra las frecuencias que habra si fuera cierto que ambas variables son independientes. En tal caso, las proporciones en las casillas de todas las filas (o columnas) son proporcionales. En contraste con la tabla de contingencia, que tambin toma el nombre de tabla de frecuencias observadas. La tabla de frecuencias esperadas se construye de la siguiente forma; la frecuencia esperada eij de la casilla correspondiente a la fila i y a la columna j, est dada por la frmula

Si calculamos las frecuencias marginales de la tabla de frecuencias esperadas, sumando las filas y las columnas, se podr observar que son iguales a las frecuencias marginales de la tabla de frecuencias observadas.Si ambas variables son independientes, las tablas de frecuencias esperadas y observadas sern parecidas. Si difieren, entonces hay asociacin entre la variable fila y la variable columna.Mientras ms difieren las dos tablas, mayor ser el grado de asociacin entre las variables.EJEMPLO 4. Se calcular la tabla de frecuencias esperadas, a partir de la tabla de frecuencias observadas del Ejemplo 3, sobre el estudio de prevencin de caries.

Esta tabla se construye multiplicando las frecuencias de la fila y la columna respectiva, y dividiendo por el total. De esta forma, la frecuencia esperada correspondiente al tratamiento A y al desarrollo de caries bajo, es igual a 92x82/200 = 37.72. As se construye toda la tabla, que da los siguientes valores, redondeados a un decimal:

PRUEBAS DE HIPTESIS DE INDEPENDENCIACon el estadstico ji-cuadrado se pueden efectuar pruebas de hiptesis para confirmar si hay asociacin entre las dos variables que se estn cruzando. Esta prueba se denomina prueba jicuadrado.Las hiptesis que se van a poner a prueba son:H0: Hay independencia entre las variables.H1: No hay independencia.

Para hacer la prueba, se debe comparar el estadstico con el valor obtenido de la Tabla Ji cuadrado correspondiente. Para obtener el valor de tabla, se calcula el parmetro grados de libertad, que es el producto (nmero de filas 1)*(nmero de columnas1)

Este valor se busca en la fila correspondiente de la tabla ji-cuadrado, que se muestra ms adelante. Si el estadstico ji-cuadrado es mayor que el valor de la tabla, se rechaza la hiptesis H0, y por lo tanto, se concluye que no hay independencia entre las dos variables. Si no es mayor, se asume que no hay evidencia muestral para rechazar esa hiptesis, por lo tanto se asume que si hay independencia entre las variables.

Siempre que se hace una prueba de hiptesis, es posible rechazar errneamente la hiptesis de independencia, siendo que es verdadera. Se puede cuantificar la probabilidad de cometer este tipo de error. Esta probabilidad se denomina nivel de significacin de la prueba. No es posible eliminar la probabilidad de este error, pero se espera que sea pequea.La tabla siguiente corresponde a un nivel de significacin de 0.05 (probabilidad de rechazar errneamente la hiptesis H0). Hay tablas ms completas, que entregan otras probabilidades de rechazar H0 errneamente, sin embargo, el valor mayormente aceptado es 0.05 o 5%.

Una precaucin que se debe tomar con las pruebas ji-cuadrado es que frecuencia esperada en cada casilla sea de a lo menos 5. En caso contrario, el estadstico ji-cuadrado se estar distorsionado, y el nivel de significacin no ser el correcto.

EJEMPLO 8. En el caso del desarrollo de caries, Ejemplo 6, los grados de libertad son 1*2 = 2. La tabla nos da el valor 5.992. Vemos que el valor del estadstico ji-cuadrado de 74.46, ms grande con el valor de tabla, por lo tanto rechazamos la hiptesis de independencia, y concluimos que hay asociacin entre ambas variables, el tipo de tratamiento y el grado de desarrollo de caries.En el caso del grado de restriccin de armas esperado y el nivel educacional, el estadstico jicuadrado es de 25.02, con 4*5 = 20 grados de libertad. La tabla nos entrega un valor de 31.41, por lo tanto no se rechaza la hiptesis de independencia. Se acepta que las variables grado de restriccin esperado en la venta de armas, y nivel educacional, son independientes. Una de las variables no es condicionante de la otra.

OTRAS MEDIDAS DE ASOCIACIN

Como alternativa a efectuar una prueba ji-cuadrado, se puede simplemente cuantificar el grado de asociacin, utilizando alguna medida de asociacin adecuada. O puede servir como complemento a la prueba, que slo concluye si hay o no asociacin, pero no dice cunta asociacin.Se dispone de tres medidas, todas basadas en el estadstico ji-cuadrado.La primera medida de asociacin es el coeficiente , definido como en que N es el total de observaciones. El coeficiente es mayor que 0, y aunque es mucho menor que el estadstico ji-cuadrado, no est acotado superiormente. Puede ser mayor que uno.

Otra medida de asociacin es el coeficiente de contingencia, que se define como

Este coeficiente toma valores entre 0 y 1, sin embargo nunca alcanza el valor 1. Su mximo depende del nmero de filas y columnas. Por ejemplo, en tablas de 4 filas por 4 columnas, su valor mximo es de 0.87.Por ltimo, est el coeficiente V de Cramer, en que k es el mnimo entre el nmero de filas y el nmero de columnas. Este coeficiente est acotado entre 0 y 1, y puede alcanzar ambas cotas, por lo tanto es el mejor de las medidas de asociacin, por ser ms fcil de interpretar.

Si hay dos filas o dos columnas, los coeficientes y V de Cramer son iguales.EJEMPLO 7. Calcularemos los tres ndices para los datos del estudio de prevencin de caries en nios, a partir del estadstico ji-cuadrado calculado en el Ejemplo 6:

Coeficiente

Coeficiente de contingencia

Coeficiente V de Cramer

En este caso hay dos filas, por eso coinciden los coeficientes y V de Cramer. Recordar que esta ltima toma valores entre 0 y 1, por lo tanto el valor 0.612 se ve suficientemente grande como para concluir que hay asociacin entre las variables tratamiento y desarrollo de caries. Recordar que la prueba de hiptesis dio como resultado que no hay independencia entre las variables.

Bibliografia: E. Rubio Calvo, T. Martnez Terrer y otros, Bioestad stica. Coleccion Monografas Didacticas, Universidad de Zaragoza, Zaragoza, 1992.

E. Sanchez Font, F. Rus Daz, Gua para la Asignatura de Bioestadstica (EAC). Secretariado de Publicaciones de la Universidad de Malaga, Malaga, 1990.

1