comparación entre el análisis de correspondencia simple y...

Post on 20-Sep-2018

212 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

XXV Simposio Internacional de Estadística 2015Armenia-Quindio, Colombia, 5 al 8 de agosto de 2015

Comparación entre el análisis de correspondencia simple y elanálisis canónico de correspondencia: aplicación en salud pública

Comparison of simple correspondence analysis and canonical correspondence analysis:application in public health

Estefanía Guevara1,a, Melba Vertel1,b, Daniel Támara1,c

1Grupo de Investigación Estadística y Modelamiento Matemático Aplicado a Calidad Educativa,Universidad de Sucre, Sincelejo, Colombia

Resumen

El principal objetivo de este trabajo es comparar metodológicamente el análisis de corresponden-cias simples (ACS) y el análisis canónico de correspondencias (ACC) aplicado a tablas de frecuencias.Se presenta esta metodología de análisis con una aplicación en salud pública a partir del trabajo deIriarte et al. (2012). Para ejecutar las técnicas estadísticas se utiliza el software R (R DevelopmentCore Team 2007) y los paquetes ade4 (Chessel & Dufour 2007) y FactoClass (Pardo & Del Campo2007).

Palabras clave: Análisis de datos multivariado, análisis de correspondencias simple, análisis canó-nico de correspondencias, salud pública.

Abstract

The main objective of this work is to compare methodologically the simple correspondence analysis(SCA) and the canonical correspondence analysis (CCA) applied to frequency tables. This methodo-logy is presented with an application in public health from the work of Iriarte et al. (2012).To runthe statistical techniques the software is used R (R Development Core Team 2007) and packages ade4(Chessel & Dufour 2007) and FactoClass (Pardo & Del Campo 2007).

Key words: Analysis of multivariate data, simple correspondence analysis, canonical correspondenceanalysis, public health.

1. Introducción

La aplicación de la Estadística es hoy por hoy una herramienta fundamental en el análisis, conclusionesy recomendaciones de la investigación científica. Es frecuente que en el análisis estadístico se utilicen sólolos métodos de la estadística descriptiva univariada (análisis y representación de datos en forma numéricay gráfica), conformándose el investigador (aparentemente) con la simple descripción a través de análisis unío bi-dimensional, si bien es necesario hacerlo porque permite un primer acercamiento a las característicasde la información, muchas veces, como se ha podido constatar en diferentes publicaciones no son siemprelas más adecuadas para la solución de los problemas propuestos, ni para lograr los objetivos planteados

aEstudiante maestría en ciencias-matemática aplicada. Universidad Nacional de Colombia sede Manizales. E-mail: ej-guevarab@unal.edu.co

bMagister en Ciencias-Estadística. Universidad Nacional de Colombia sede Bogotá; profesora titular Universidad deSucre. E-mail: melba.vertel@unisucre.edu.co

cEstudiante maestría en ciencias-matemática aplicada. Universidad Nacional de Colombia sede Manizales. E-mail: deta-maral@unal.edu.co

1

2 Estefanía Guevara, Melba Vertel & Daniel Támara

en dichas investigaciones. Los métodos descriptivos univariados y bivariados forman parte de los cursosy textos de estadística o métodos cuantitativos de los programas académicos de las diferentes disciplinas,aunque son los métodos multivariado de datos (Cabarcas & Pardo 2001) los que hacen posible tener encuenta la interrelación entre múltiples variables.

El objeto de estudio en este trabajo es el análisis de tablas de frecuencias, resultado del volumencreciente de datos de presencia-ausencia, conteos o porcentajes de fenómenos económicos, sociales, natu-rales, psicológicos, geográficos, históricos o políticos para extraer conocimiento y que sirvan de apoyo a latoma de decisiones, lo cual se convierte en un problema y en una oportunidad que requiere la definicióne implementación de técnicas de análisis de datos y reconocimiento de patrones. Para analizar tablasde frecuencias (tablas de contingencia, ausencia-presencia, conteos, porcentajes), el método descriptivomultivariado más útil en ciencias aplicadas es el análisis de correspondencias simple (ACS) (Hill 1974;Pardo & Cabarcas 2001), el cual busca la mejor representación simultánea de dos conjuntos, constituidospor las filas y columnas de una tabla de frecuencias, a través de una reducción de dimensión que permitaaislar el ruido para examinar las relaciones existentes entre las variables (Fernández 2002; Vertel & Pardo2010). El ACS se puede ver como la aplicación simultánea de dos análisis en componentes principales(ACP). En el ACS se pueden utilizar variables suplementarias para analizar objetivos preestablecidos,al igual que en un ACP sobre los ejes factoriales se pueden proyectar filas y columnas que no hayanparticipado en el análisis.

Puede ocurrir que queramos que el resultado del ACS esté relacionado con variables externas, quetengan un papel activo en la definición de los resultados de la tabla de frecuencias. La técnica multivariadaque nos ayuda a hacer esto es el Análisis Canónico de Correspondencias (ACC) propuesta por Ter-Braak(1986), utilizada frecuentemente en ecología para estudiar la influencia de las condiciones del medioambiente en la distribución de especies de flora y fauna (Birks & Austin 1994, Pavoine et al. 2003, Vertel& Pardo, 2010). En estos casos, al llevar a cabo el ACS buscaríamos los sub-espacios que mejor expliquenlos datos de la tabla de frecuencias, pero con la condición de que estos se hallen relacionados con lasvariables externas (cuantitativas o cualitativas).

El principal objetivo de este trabajo es comparar metodológicamente el ACS y el ACC aplicado atablas de frecuencias relacionadas con salud pública.

2. Comparación entre el ACS y ACC en tablas de frecuencias:aplicación en salud pública

La ilustración y comparación de los métodos ACS y ACC en el área de salud pública se realiza medianteel trabajo de Iriarte et al. (2012). Tal investigación busca detectar de una muestra de 226 roedores(Mus Musculus, Ratus Norvegicus y R. Rattus) cuáles poseían la bacteria Leptospira spp causante de laLeptospirosis (enfermedad transmitida de animales a humanos). Las bases de datos que se considerantienen la forma [T Z], donde T es una tabla de frecuencias cuyas entradas están expresadas en términosabsolutos o en porcentaje y Z es una tabla de variables continuas de datos cuantitativos. En este caso, latablaT de frecuencias cruza 10 filas correspondientes a zonas del municipio de Sincelejo con característicasde los roedores (especie, sexo, madures, número de infectados) y la tabla Z cruza las mismas filas conalgunos rasgos físicos de tales animales (peso, lonto, cola, oreja).

2.1. Aplicación ACS en Salud Pública

En el ACS de la tabla de frecuencias T se obtuvo una inercia total de 0.0753 representada en un77.1% por los dos primeros valores propios. Del plano factorial del ACS(T) (Figura 1) se nota que elsegundo eje separa las dos especies menos encontradas, Rattus Norvegicus (presente mayoritariamente enla comuna 3) y R. Rattus (presente principalmente en la comuna 2 y mercado).

En cuanto al ACP(Z), los dos primeros valores propios representan en un 87.9% la inercia total,siendo esta de 8 (Figura 2). Se destaca que todas las variables, a excepción de promedio oreja macho,

XXV Simposio de Estadística (2015)

Comparación entre el ACS y el ACP: aplicación en salud pública 3

Figura 1: Plano factorial del ACS(T)

tienen una gran contribución en la representación de los datos en el plano factorial; las comunas 2, 3 y 5tiene una buena calidad de representación.

Figura 2: Plano factorial y círculo de correlaciones del ACP(Z)

2.2. Aplicación ACC en Salud Pública

La inercia asociada al ACC(T,Z) (Figura 3) es de 0.0611 y está soportada en un 81.4% en los dosprimeros ejes y por tanto hay una buena representación de la relación entre las variables de estudio. Seresalta que las comunas en donde se presenta mayor cantidad de la especie Ratus Norvegicus, variable demayor contribución, son las 2 y 3, mismas en donde las variables continuas tienen altos porcentajes.

Figura 3: Plano factorial y círculo de correlaciones del ACC(T,Z)

XXV Simposio de Estadística (2015)

4 Estefanía Guevara, Melba Vertel & Daniel Támara

2.3. ACS vs ACC: Aplicación en Salud Pública

El plano factorial del ACC representa el 81.4% de las variables y el ACS el 77.1%, es decir, el ACCrepresenta mejor las variables originales.

Conclusiones

Como resultado de aplicar el análisis de correspondencias simple (ACS) y el análisis canónico decorrespondencias (ACC) a bases de datos relacionadas con salud pública (leptospira), se concluye que elsegundo método representa mejor las variables originales dentro de un plano factorial. Así mismo, porel hecho de describir la dependencia entre las frecuencias y las variables continuas, el ACC permite unamejor interpretación de los datos.

Bibliografía

[1] Birks. H., Austin, H. (1994). An annotated bibliography of canonical correspondence analysis and re-lated constrained ordination methods (1986- 1991), Technical report, Botanical Institute, Norway.All-Gaten 41, N-5007 Bergen, Bunch, K.J., Heneghan.

[2] Cabarcas G. & Pardo C.-E. (2001), ‘Métodos estadísticos multivariados en investigación social’,Cursillo, Simposio de Estadística - Santa Marta. Universidad Nacional. Departamento de Estadística.

[3] Chessel D. & Dufour AB. (2007). “The ade4-package: implementing the duality diagram for ecolo-gists”.Journal of Statistical software 22(4): 1-20. Paris.

[4] Fernández P. (2002). El uso del Análisis de Correspondencia Simple (ACS) como ayuda en la in-terpretación del dato en arqueología. Un caso de estudio. Boletín Antropológico. Año 20, No 55.Mayo-Agosto 2002, ISSN: 1325-2610. Universidad de Los Andes. Mérida. pp. 687- 713.

[5] Hill M. (1974) Correspondence analysis: A neglected multivariate method. Applied Statistics - Jour-nal of the Royal Statistical Society Series C 23: 340-354.

[6] Iriarte I., Madera R., Blanco P., Castellar A., Vertel M. (2012). “Seroprevalencia a leptospira spp.patógena en roedores del área urbana de la ciudad de Sincelejo – Sucre”. En: ‘Memorias: XXIISimposio de Estadística’ UNAL. Facultad de Ciencias. Departamento de Estadística, Bucaramanga.

[7] Pardo C-E. & Del Campo P. (2007), ’Combinación de métodos factoriales y de análisis de conglo-merados en R: el paquete FactoClass’, Revista Colombiana de Estadística 30.

[8] Pavoine S., Dufour A., Chessel D. (2003). “Canonical correspondence analysis, a standard in ecology”,in M. Greenacre & E. J. Blasius, eds, ‘CARME 2003: International Conference on CorrespondenceAnalysis and Related Methods’, pp. 63–64.

[9] Ter-Braak C. (1986). ‘Canonical correspondence analysis: A new technique for multivariate directgradient analysis’, Ecology 67(5).

[10] Vertel M. & Pardo C-E. (2010). ‘Comparación entre el análisis canónico de correspondencias y elanálisis factorial múltiple en tablas de frecuenciasvariables continuas’, Master’s thesis, UniversidadNacional de Colombia, sede Bogotá.

XXV Simposio de Estadística (2015)

top related