análisis estadístico multivariante de un conjunto de datos

76
Análisis estadístico multivariante de un conjunto de datos biológicos experimentales Autor: Evaristo Pérez Rial Máster en Estadística Aplicada. Curso 2013-2014. Departamento de Estadística e I.O. Universidad de Granada Tutor: Ramón Gutiérrez Sánchez

Upload: others

Post on 13-Jan-2022

5 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Análisis estadístico multivariante de un conjunto de datos

Análisis estadístico multivariante de un conjunto de datos

biológicos experimentales

Autor: Evaristo Pérez Rial

Máster en Estadística Aplicada. Curso 2013-2014.

Departamento de Estadística e I.O.

Universidad de Granada

Tutor: Ramón Gutiérrez Sánchez

Page 2: Análisis estadístico multivariante de un conjunto de datos
Page 3: Análisis estadístico multivariante de un conjunto de datos

ÍNDICE

Pág. 1. Introducción. ................................................................................................................... 1

2. Planteamiento del problema. .......................................................................................... 3

2.1. Situación general...................................................................................................... 4

2.1.1. La dieta. ............................................................................................................ 4

2.1.2. La densidad de cultivo. .................................................................................... 5

2.1.3. La temperatura. ............................................................................................... 5

2.2. Objetivos, variables, desarrollo experimental......................................................... 6

2.2.1. Objetivos y variables de estudio. ..................................................................... 6

2.2.2. Diseño experimental. ........................................................................................ 7

2.2.3. Obtención de datos. .......................................................................................... 7

3. Estudio estadístico. .......................................................................................................... 9

3.1. Estudio descriptivo de las variables. ....................................................................... 9

3.1.1. Variables independientes: Dieta, Tª y Densidad de cultivo. ............................ 9

3.1.2. Variable dependiente: Deformes. .................................................................... 9

3.1.3. Variable dependiente: Supervivencia. ........................................................... 10

3.1.4. Variable dependiente: Peso final. .................................................................. 11

3.2. Regresión lineal. ..................................................................................................... 11

3.2.1. Introducción. ........................................................................................................ 11

3.2.2. Contrastación de las variables. ............................................................................ 12

3.2.3. Estimación del modelo. ........................................................................................ 13

3.2.4. Método de selección de variables. ........................................................................ 15

3.2.5. Resultados. ........................................................................................................... 15

3.2.6. Supuestos del modelo de regresión. ............................................................... 18

3.2.6.1. Linealidad. .............................................................................................. 18

3.2.6.2. Independencia......................................................................................... 19

3.2.6.3. Homocedasticidad. ................................................................................. 19

3.2.6.4. Normalidad. ............................................................................................ 20

3.2.6.5. No colinealidad. ...................................................................................... 22

3.3. Regresión logística. ................................................................................................ 23

3.3.1. Estimación del modelo. .................................................................................. 25

3.3.2. Bondad de ajuste y efecto de las variables explicativas................................. 30

Page 4: Análisis estadístico multivariante de un conjunto de datos

3.3.3. Validación del modelo. ................................................................................... 32

3.4. ANOVA. ................................................................................................................. 34

3.4.1. ANOVAs de un factor. ................................................................................... 35

3.4.1.1. Deformes frente a Dieta. ......................................................................... 36

3.4.1.2. Deformes frente a Tª. .............................................................................. 38

3.4.1.3. Deformes frente a densidad de cultivo. .................................................. 39

3.4.1.4. Supervivencia frente a Dieta. ................................................................. 41

3.4.1.5. Supervivencia frente a Tª. ...................................................................... 43

3.4.1.6. Supervivencia frente a Densidad de cultivo. .......................................... 44

3.4.1.7. Peso final frente a Dieta. ........................................................................ 45

3.4.1.8. Peso final frente a Tª. ............................................................................. 47

3.4.1.9. Peso final frente a densidad de cultivo. .................................................. 49

3.4.2. ANOVAs de dos factores................................................................................ 50

3.4.2.1. Deformes frente a Dieta y Tª. ................................................................. 51

3.4.2.2. Resto de ANOVAs de dos factores. ........................................................ 52

3.4.2.3. Peso final frente a Dieta y Tª. ................................................................. 54

4. Conclusiones. ................................................................................................................. 57

Apéndice I. Tabla de datos. ..................................................................................................... 61

Apéndice II. Sintaxis utilizadas en SPSS. ................................................................................ 63

Apéndice III. Funciones y Script de la regresión logística en R. ............................................... 68

Referencias bibliográficas. ...................................................................................................... 72

Page 5: Análisis estadístico multivariante de un conjunto de datos

1

1. Introducción.

Los métodos estadísticos se han convertido en una herramienta básica para todos aquellos

profesionales o investigadores que han de manejar datos y obtener conclusiones a partir de ellos.

Por este motivo, la estadística ha irrumpido con fuerza en los más diversos campos del

conocimiento.

La acuicultura es una biotecnología dirigida al cultivo de plantas y animales en un sistema

acuático para el aprovechamiento humano o repoblación. Este sistema, integra factores como la

infraestructura (tipo de estanque), el ambiente (características del agua y el clima), los

organismos (comportamiento, reproducción, relaciones inter e intra específicas, etc.), los flujos

energéticos (insumos como el alimento y las descargas) y al acuicultor (técnicas de manejo,

recursos económicos, etc.). La interacción de las variables asociadas a cada uno de éstos,

determina los procesos que se dan durante el cultivo.

El grado de control de estos procesos que se desarrollan dentro del sistema, difiere con respecto

al tipo de cultivo, y en la medida que crece la inversión económica se requiere mayor seguridad

de que las técnicas sean eficientes y concluyan en lo que inicialmente fue proyectado. En este

sentido, la evaluación y desarrollo de las tecnologías de producción con base a los

conocimientos adquiridos mediante el método científico, permite proponer modelos que evalúen

y simulen con certeza los procesos que rigen los cultivos y de esta forma avanzar en un campo

todavía con mucho margen de conocimiento.

Para los investigadores de cualquier rama de la ciencia es indispensable tener una adecuada

formación en estadística para poder diseñar sus experimentos científicos, analizar e interpretar

los datos correctamente y presentar de una forma apropiada sus descubrimientos. Sin embargo,

la mayoría de los científicos e investigadores dedicados a la acuicultura tienen un conocimiento

limitado sobre estadística.

La investigación en agricultura y ganadería está relativamente bien establecida, y existen libros

de estadística específica para estas disciplinas. Sin embargo, muchos investigadores acuícolas

tienen que utilizar ese material bibliográfico o buscar expertos en sus departamentos de

estadística para que les ayuden a diseñar sus experimentos y analizar los datos obtenidos. El

problema radica en que estos especialistas estadísticos carecen, en muchas ocasiones, de la

necesaria formación en acuicultura o incluso biología. Un estadístico no puede sugerir con toda

confianza un diseño experimental, su análisis e interpretación de los datos cuando pueden darse

situaciones específicas que desconoce durante el desarrollo del cultivo.

A pesar de esta situación, los investigadores han de enfrentarse a retos de cierta complejidad,

como puede ser una presentación o una publicación, careciendo de las herramientas adecuadas

para abordarlos con garantías. A menudo no se publican muchos de los experimentos realizados,

con el consiguiente desperdicio de fondos y recursos utilizados en esa investigación.

Por otro lado, los investigadores pueden malinterpretar los resultados y publicar o presentar

unos trabajos que desorientarán a sus lectores. Una simple recomendación o conclusión errónea

puede tener un efecto multiplicador cuando es citada en otros artículos, llegando esa

información a un gran número de colegas en el campo. Esto se debe a que es prácticamente

imposible ejercer un control total sobre la calidad de todos los artículos publicados, ya que para

ello se requerirían especialistas con la adecuada formación en estadística y la disciplina sobre la

que verse la publicación.

Page 6: Análisis estadístico multivariante de un conjunto de datos

2

Se cree que todo esto ha influido en el ritmo del desarrollo de la acuicultura; si no se publican

resultados de provecho, estos no podrán ser aplicados en la industria, con el enorme coste y

retraso tecnológico que esto supone.

Page 7: Análisis estadístico multivariante de un conjunto de datos

3

2. Planteamiento del problema.

La mayoría de las problemas esqueléticos y pigmentarios de los peces aparecen durante las fases

larvaria y juvenil, es decir, durante un corto periodo de tiempo donde diversos procesos

biológicos influyen en el correcto desarrollo y metamorfosis del animal. En general, las larvas

de peces marinos eclosionan en un estudio de desarrollo poco avanzado si lo comparamos con

los vertebrados superiores, lo que implica que la secuencia del desarrollo de, por ejemplo, el

sistema esquelético y musculatura asociada es de vital importancia en esta fase para que el pez

adulto goce de buen aspecto y salud. Esta particularidad representa una notable ventaja a la hora

de estudiar el papel que juegan distintos factores bióticos y abióticos sobre el patrón normal de

formación del esqueleto. Las deformidades esqueléticas pueden ser causadas por diversos

motivos, siendo la nutrición uno de los más importantes, aunque otros factores como la

densidad de cultivo o la temperatura favorecen también la aparición de estos problemas.

Desde el punto de vista empresarial, el sector de la acuicultura ha sufrido una gran expansión y

desarrollo en los últimos años, resultando en algunos casos en una alta competencia entre las

empresas acuícolas, una sobreproducción de determinadas especies y por consiguiente, una

reducción en el precio de mercado. Estos hechos han forzado a la industria a reducir sus costes

de producción, mejorando la eficiencia del proceso productivo. En este sentido, las

deformaciones esqueléticas y su incidencia son uno de los principales factores que afectan a los

costes de producción de peces marinos, pues tienen un efecto directo sobre el crecimiento,

supervivencia y morfología externa de los animales.

Las pérdidas económicas asociadas a las deformidades esqueléticas se concentran en dos

puntos: en los criaderos de peces, disminuyendo la supervivencia larvaria y crecimiento de los

peces malformados; y durante el engorde, donde estos peces deformes que alcanzan la edad

adulta tienen que ser descartados o vendidos a precios muy inferiores que muchas veces no

cubren los gastos de producción. Alrededor del 30% de las larvas de peces marinos producidas

en criaderos comerciales pueden presentar malformaciones esqueléticas de diversa magnitud.

Dichas deformaciones representan una importante pérdida económica para el acuicultor y una

reducción considerable en la imagen de calidad del producto final si éste es comercializado.

Además, sólo el 15% de las larvas cultivadas llegan a estado juvenil por lo que parece

importante incidir tanto en mejorar las condiciones generales de cultivo para aumentar su

supervivencia como identificar los factores que actúan sobre la aparición de deformidades y

disminuir así su porcentaje en la producción total.

Parece necesario, entonces, avanzar en el conocimiento de los factores principales que

favorecen la aparición de deformidades en las fases tempranas de desarrollo de los peces. A

pesar de ello, no ha sido hasta hace unos 15 años cuando se ha empezado a mostrar interés sobre

el origen de dichas malformaciones esqueléticas en peces marinos. Bajo esta perspectiva se

plantea el estudio que intentará demostrar si la dieta, la temperatura y la densidad de cultivo

afectan sobre el porcentaje de individuos deformes de una especie de pez marino durante su fase

de cultivo larvario.

Page 8: Análisis estadístico multivariante de un conjunto de datos

4

2.1. Situación general.

Tras la eclosión, las larvas de peces marinos todavía no han desarrollado en su totalidad la

mayoría de órganos y sistemas internos por lo que sufren una rápida e intensa diferenciación y

transformación hasta adquirir las características morfológicas y fisiológicas del juvenil al final

de la etapa larvaria. Varios factores pueden influir en este desarrollo harmónico de la larva

pudiendo afectar a su viabilidad y calidad. En condiciones naturales, dichas larvas perecerían

pues la selección natural impediría su crecimiento y desarrollo, sin embargo, bajo las

condiciones que se dan en los criaderos comerciales, estos animales tienen mayores

probabilidades de sobrevivir, ya sea por la ausencia de depredadores naturales, la elevada

disponibilidad de alimento o el control estricto de los parámetros ambientales que regulan su

crecimiento y desarrollo.

Las principales malformaciones esqueléticas observadas en larvas y juveniles de peces afectan a

diferentes regiones del cuerpo del animal, y en particular a la cabeza, columna vertebral y cola.

Las anomalías más frecuentes afectan al desarrollo de la mandíbula, formación del opérculo y

deformaciones y compresiones de los cuerpos vertebrales, generando peces con bocas poco

funcionales, animales sin opérculo branquial, aparición de columnas vertebrales escolióticas,

lordóticas y/o cifoticas y fusión de distintos elementos esqueléticos que conforman el complejo

caudal (cola).

La aparición de malformaciones esqueléticas está íntimamente relacionada con los procesos de

formación, proliferación, diferenciación y desarrollo del esqueleto del animal , afectando no

sólo la apariencia externa del ejemplar, sino también su crecimiento, supervivencia,

locomoción, ingesta del alimento y vulnerabilidad a patógenos y condiciones de cultivo

adversas. Factores abióticos como la temperatura de cultivo, intensidad lumínica, salinidad, pH

del agua u oxígeno disuelto; y bióticos como los desequilibrios nutricionales, la densidad de

cultivo o traumatismos derivados del manejo de las larvas pueden afectar sobre los procesos

anteriormente citados, y dar como resultado el desarrollo de deformaciones esqueléticas. Se

tendrán en cuenta para este estudio los tres factores que se cree son los más influyentes en la

aparición de deformidades esqueléticas en peces de agua salada: la dieta, la temperatura y la

densidad de cultivo.

2.1.1. La dieta.

Muchos estudios actuales han demostrados la existencia de una marcada relación entre la

alimentación y la aparición de malformaciones esqueléticas en larvas de peces marinos. Así, el

número de larvas con deformaciones puede reducirse considerablemente mediante el desarrollo

de una dieta ajustada a los requerimientos nutricionales de la especie y de su estadio de

desarrollo concreto. En relación a esto, uno de los factores más determinantes es la cantidad de

lípidos presentes en la dieta y más concretamente los porcentajes de ciertos ácidos grasos

poliinsaturados (PUFAS). Dos de los más importantes son el ácido eicosapentanoico (EPA) y el

ácido docosahexanoico (DHA). Ambos intervienen en funciones fisiológicas muy importantes

entre las que se incluyen crecimiento, supervivencia y desarrollo de la larva a nivel neural,

muscular y esquelético. No sólo la presencia de estos dos compuestos es necesaria, sino que sus

porcentajes dentro de la dieta deben mantenerse dentro de unos límites mínimos y máximos

para no volverse tóxicos.

Page 9: Análisis estadístico multivariante de un conjunto de datos

5

En los criaderos de peces los alimentos suministrados a las larvas garantizan la presencia de

niveles óptimos de EPA en la dieta, mientras que no ocurre lo mismo con el DHA cuyos valores

son bajos. Tradicionalmente se han usado diferentes especies de microalgas marinas ricas en

este compuesto para aumentar la concentración de DHA y obtener mejores rendimientos de los

cultivos. Sólo se han podido elevar verdaderamente los niveles de DHA en las dietas de las

larvas con la aparición de los enriquecedores comerciales que ofrecen diferentes perfiles

nutritivos en función de la edad y la especie que se quiera cultivar.

Para este experimento, se ha tomado como control una dieta tradicional en la que el ratio

DHA/EPA se mantienen en 0,15 y se ha comparado con otras dos en las que se han utilizado

dos enriquecedores comerciales que aumentan este ratio hasta 0,5 y 1,2 respectivamente,

manteniendo constantes los niveles de EPA.

2.1.2. La densidad de cultivo.

En los inicios de la acuicultura predominaban los sistemas de producción a bajas densidades de

cultivo (semiintensivos) donde se obtenía un bajo rendimiento y unos peces de gran calidad, con

características muy parecidas a los salvajes. Debido a la gran inversión que sería necesario

acometer para aumentar la producción se ha ido evolucionando hacia sistemas más intensivos,

donde las densidades de cultivo son mucho mayores y los controles sobre las condiciones del

proceso productivo son muy estrictos para evitar mortalidades, enfermedades o cualquier otro

problema. Incrementar el número de larvas por litro ofrece la posibilidad de producir en una

misma instalación una cantidad mucho mayor de alevines sin tener que invertir en nuevas

instalaciones.

Sin embargo, a medida que aumentamos la cantidad de larvas en nuestros cultivos pueden

aparecer problemas como estrés, competencia por el espacio, enfermedades, canibalismo,

ralentización del crecimiento o aparición de deformidades. En este sentido, algunos trabajos

sugieran que los sistemas de cultivo intensivos afectan de manera pronunciada en el desarrollo

de ciertas deformidades esqueléticas si los comparamos con sistemas semiintensivos.

En base a todo esto se medirá la respuesta de las larvas a tres densidades de cultivo diferentes

que serán 10 (control), 20 y 40 larvas/litro.

2.1.3. La temperatura.

Factores ambientales como la luz, temperatura, salinidad, oxígeno disuelto, etc. tienen un efecto

directo sobre el desarrollo normal de la larva, y por tanto, ligeras desviaciones sobre el rango

óptimo de cualquiera de los parámetros ambientales anteriormente citados, puede resultar en un

desarrollo anormal del individuo, derivando en la aparición de deformidades. Recientemente, se

ha puesto en evidencia el papel que juega la temperatura en el desarrollo de deformaciones

esqueléticas, problemas que se originan por el asincronismo que existe entre el desarrollo de la

musculatura y del esqueleto (teoría del mecanostato). Es decir, un incremento de la temperatura

del agua superior a los niveles óptimos de la especie resulta en un mayor crecimiento y

desarrollo de la musculatura del tronco, llegando a comprimir y deformar los cuerpos

vertebrales de la larva, todavía no osificados en su totalidad, y originando por consiguiente

animales con columnas vertebrales lordóticas.

Page 10: Análisis estadístico multivariante de un conjunto de datos

6

Normalmente, todas las especies de peces tienen una temperatura control de crecimiento que

vendría dada por los valores más habituales que se dan en el medio marino durante su época de

eclosión y crecimiento. En torno a esta temperatura existe un rango hacia arriba y hacia abajo en

el que el individuo puede sobrevivir y crecer. Las empresas de acuicultura buscan subir en la

medida de lo posible la temperatura en sus cultivos larvarios para acelerar el crecimiento

buscando producir el mayor número de lotes posibles en sus instalaciones. Descubrir cuál es la

temperatura máxima a la que podemos aumentar nuestros cultivos sin afectar la calidad larvaria

es determinante para incrementar el rendimiento y disminuir costes.

En nuestro caso, para una especie de espárido que crece en el Atlántico, tenemos una

temperatura control de crecimiento de 16º C y se comparará con otros dos niveles mayores que

serán 19º C y 22º C.

2.2. Objetivos, variables, desarrollo experimental.

Un experimento diseñado es una prueba o serie de pruebas en las cuales se inducen cambios

deliberados en las variables de entrada de un proceso o sistema, de manera que sea posible

observar e identificar las causas de los cambios en la respuesta de salida.

Para poder analizar un experimento de manera correcta, es necesario que se tenga una idea clara

sobre el problema que se va a estudiar, el modo de la recolección de datos y su análisis.

Debemos elegir tanto los factores y niveles sobre los que variará el experimento como

seleccionar la respuesta o variable dependiente adecuada, de forma que la medición de ésta

pueda realmente proveer información relevante sobre el proceso estudiado.

2.2.1. Objetivos y variables de estudio.

El objetivo principal de este trabajo es, mediante las herramientas y conocimientos estadísticos

adquiridos durante la realización del máster, analizar los datos obtenidos en esta experiencia e

intentar dar respuesta a una serie de preguntas:

¿En qué modo afecta la dieta, temperatura y densidad sobre el porcentaje de

larvas deformes presentes en el cultivo?

¿Sería posible obtener algún modelo que prediga el porcentaje de individuos

deformes en función de estas tres variables?

Efectos de las tres variables sobre la supervivencia.

¿Bajo qué condiciones obtenemos un mejor crecimiento en peso de las larvas?

El conjunto de variables con las que vamos a trabajar se dividen de forma general en dos

grupos: tres variables independientes con tres niveles cada una (Dieta, Tª y Densidad) y cuatro

dependientes sobre las que esperamos observar el efecto de la variación sistemática de las

primeras.

La Dieta es una variable cuantitativa continua cuyos niveles codifican la proporción DHA/EPA

presente en el alimento que suministramos a las larvas. El valor control (0,15) vendrá

representado por niveles que venían siendo utilizados de forma habitual en acuicultura antes de

la aparición de los enriquecedores comerciales. Sólo con la llegada de estos productos se ha

podido conseguido subir esta relación DHA/EPA hasta rangos más altos y proporcionar así una

alimentación más balanceada. El enriquecedor 1 completa la dieta hasta una proporción

Page 11: Análisis estadístico multivariante de un conjunto de datos

7

DHA/EPA de 0,5; mientras que el 2 lo hace hasta 1,20. De esta manera, estos tres serán nuestros

niveles de estudio de este primer factor.

La temperatura es otra variable cuantitativa continua que tomará los valores de 16ºC, 19ºC y

22ºC. Los datos obtenidos en el medio marino sobre la especie a estudio indican que, para la

época reproductiva y la localización geográfica, sus larvas se desarrollan a una temperatura

media de 16ºC. Por lo tanto, este será nuestro nivel control y se valorarán temperaturas mayores

(19ºC y 22ºC) porque en los criaderos de peces es necesario subir este parámetro durante las

fases tempranas de desarrollo para acelerar el crecimiento y aumentar la producción.

La densidad de cultivo representa también una variable cuantitativa continua con valores

prefijados de 10, 20 y 40 larvas/litro. En la actualidad, los sistemas de producción de peces se

han vuelto más intensivos y las densidades de trabajo han ido aumentando. Es por este motivo

por lo que se ha decidido valorar estas tres opciones por ser las más habituales en los criaderos

de peces.

Nuestras cuatro variables dependientes (%Deformes, %Supervivencia, Longitud y Peso final)

son, al igual que las demás, variables cuantitativas continuas cuyos valores variarán

sistemáticamente en función de las independientes. El peso final es una medida del paso seco de

las larvas al final del experimento. Sus valores serán expresados en mg. Los datos de longitud se

darán en mm. Debido a los objetivos marcados en este trabajo sólo se valorará el efecto sobre

tres de estas variables dependientes: %Deformes, %Supervivencia y Peso final.

2.2.2. Diseño experimental.

Para medir el efecto de la Dieta, la Tª y la Densidad de cultivo se diseñó un experimento con 36

réplicas, una para cada una de las 27 combinaciones de los niveles de las tres variables

independientes, más 9 unidades de reserva que acogerían las réplicas más susceptibles de

obtener datos anómalos. Estarían compuestos por tanques de 125 litros y agua de mar filtrada.

Una vez preparados, de forma aleatoria se escogería el tratamiento que recibiría cada unidad

experimental y una vez acondicionados, serían trasladadas a cada tanque el número de larvas

correspondiente. Su edad sería de 5 días de vida al inicio de la experiencia y ésta tendrá una

duración de 60 días. Todas las demás variables (salinidad, luz, oxígeno, etc.) se mantuvieron

constantes para todos los tanques.

Cuando se habla de un estudio con tres factores, cada uno de los cuales tiene tres niveles

estamos hablando de un diseño factorial 33 . Al tener sólo 27 unidades experimentales sólo

dispondremos de una réplica de cada una de ellas.

2.2.3. Obtención de datos.

Todas las larvas partían de un único lote mantenidas en un tanque de 10000 litros. Antes de ser

trasladadas a cada una de las unidades experimentales fueron muestreadas y se obtuvieron la

talla (mm) y el peso seco (mg) medios al comienzo del experimento. Otros dos muestreos

tuvieron lugar a días 30 y 60 en cada una de las réplicas obteniendo en este último caso los

datos finales de talla y peso. Finalmente la talla final no será valorada en este trabajo.

Cada días se sifonó el fondo de los tanques y se hizo recuento de peces muertos. Todos los

valores fueron anotados en estadillos y al final de la experiencia se estimó el porcentaje de

Page 12: Análisis estadístico multivariante de un conjunto de datos

8

supervivencia como: % 100n m

Supervivencian

, siendo n el número de peces al

comienzo y m el total de muertos al finalizar la prueba en cada unidad experimental.

Pasados los 60 días de experimento, se cogieron tres muestras representativas de 100 peces de

cada tanque y se identificaron los que poseían algún tipo de deformidad esquelética. El

%Deformes (D1) para cada tratamiento fue estimado como la media aritmética de esos tres

valores. Los no deformes fueron identificados con las siglas D0. Finalmente todos los datos

obtenidos fueron anotados en la tabla que aparece en el Apéndice I.

Page 13: Análisis estadístico multivariante de un conjunto de datos

9

3. Estudio estadístico.

3.1. Estudio descriptivo de las variables.

Independientemente de la complejidad de los datos disponibles y del procedimiento estadístico

que se tenga intención de utilizar, una exploración de los datos previa al inicio de cualquier

análisis posee importantes ventajas. Permite identificar posibles errores como datos mal

introducidos, valores extremos que se alejan demasiado del resto, pautas extrañas en los datos

(valores que se repiten demasiado o que no aparecen nunca) o variabilidad no esperada entre

otras cosas.

3.1.1. Variables independientes: Dieta, Tª y Densidad de cultivo.

Estas tres variables están definidas por el experimentador y cada una de ellas consta de tres

niveles con valores fijos. El análisis descriptivo para todas ellas se muestra en la siguiente tabla.

Al ser el número de unidades experimentales tantas como posibles combinaciones de los

factores de las tres variables (3x3x3=27) observamos que el número de casos es el mismo para

las tres (27). El rango indica la diferencia entre el valor mayor y menor de los tres niveles. La

curva que representa los valores de la Tª es perfectamente simétrica, mientras que las otras dos

v.i. tienen una ligera asimetría positiva. La curtosis negativa indica, además, que todas las

distribuciones son platicúrticas (baja concentración de valores entorno al eje central de la

distribución).

3.1.2. Variable dependiente: Deformes.

La primera tabla muestra el número de casos y si alguno ha sido excluido del análisis.

A continuación aparece el cuadro con los estadísticos descriptivos clásicos: media, mediana,

varianza, desviación típica, rango, índices de asimetría y curtosis. También ofrece la media

recortada al 5 por ciento y la amplitud intercuartílica, que refleja la distancia existente entre los

cuartiles 1 y 3.

Page 14: Análisis estadístico multivariante de un conjunto de datos

10

La diferencia entre el valor mínimo y máximo es bastante grande, por lo que puede sugerir que

alguna variable independiente afecte significativamente sobre el porcentaje de larvas deformes.

Por los niveles de asimetría y curtosis podríamos decir que la distribución generada es

ligeramente leptocúrtica con leve asimetría positiva.

La salida ofrece también los límites del intervalo de confianza para la media pudiendo estimar,

con una confianza del 95 por ciento, que el porcentaje medio de larvas deformes se encuentra

entre 13,3115% y 16,037%.

3.1.3. Variable dependiente: Supervivencia.

En primer lugar comprobamos en la tabla resumen del procesamiento de datos que todos han

sido incorporados en el análisis y no se ha perdido ninguno.

Comprobamos ahora la salida de los estadísticos descriptivos. La media recortada al 5% puede

ser un buen indicativo de datos extremos. Cuando existe alguno, su valor suele alejarse del de la

media normal. Podemos observar que son prácticamente iguales por lo que no deben existir

datos extremos.

El intervalo de confianza para la media indica que podemos estimar que el porcentaje medio de

superviventes, con una confianza del 95 por ciento, está entre el 27,7363% y el 34,4489%.

Page 15: Análisis estadístico multivariante de un conjunto de datos

11

3.1.4. Variable dependiente: Peso final.

La tabla de procesamiento de los casos indica, que al igual que en los casos anteriores, todos

han sido introducidos correctamente y se tendrán en cuenta en los análisis.

Si observamos la tabla descriptivos se pueden extraer algunas conclusiones diferentes a las

variables anteriores. En primer lugar, la media y la mediana tiene valores muy diferentes si lo

comparamos con los casos ya vistos. Todo esto unido al valor del estadístico de asimetría

sugiere que la distribución generada por estos datos es claramente asimétrica positiva y además

mesocúrtica (debido al valor de curtosis próximo a cero).

Además, la diferencia en porcentaje entre el valor mínimo y el máximo es el mayor de las tres

variables dependientes estudiadas por lo que esta diferencia podría ser debida al efecto

significativo de una o varias de las variables independientes.

Finalmente podemos estimar, con una confianza del 95 por ciento, que el peso medio final de

las larvas se encuentra entre los 3,45455 mg y los 5,97782 mg.

3.2. Regresión lineal.

3.2.1. Introducción.

El análisis de regresión lineal es una técnica estadística utilizada para estudiar la relación entre

variables cuantitativas. Tanto en el caso de dos variables (regresión simple) como en el de más

de dos variables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

cuantificar la relación entre una variable llamada dependiente o criterio Y y una o más

variables llamadas independientes o predictoras 1 2, ,... kX X X , así como para desarrollar una

ecuación lineal con fines predictivos. Además, el análisis de regresión lleva asociados una serie

de procedimientos de diagnóstico (análisis de los residuos, puntos de influencia) que informan

Page 16: Análisis estadístico multivariante de un conjunto de datos

12

sobre la estabilidad e idoneidad del análisis y que proporcionan pistas sobre cómo

perfeccionarlo.

El procedimiento implica, básicamente, obtener la ecuación mínimo-cuadrática que mejor

expresa la relación entre la variable dependiente y la(s) variable(s) predictora(s) y estimar

mediante el coeficiente de determinación la calidad de la ecuación de regresión obtenida. Estos

dos pasos deben ir acompañados de un chequeo del cumplimiento de las condiciones o

supuestos que garantizan la validez del procedimiento regresivo.

3.2.2. Contrastación de las variables.

Para nuestro conjunto de datos intentaremos definir un modelo de RLM que explique la relación

entre sufrir deformidades esqueléticas (variable dependiente) en función de la dieta, la

temperatura y la densidad de cultivo (variables independientes). Antes de iniciar el proceso

debemos averiguar si existe una relación lineal entre cada una de las variables independientes

con la dependiente. Con la ayuda del programa SPSS, realizamos un gráfico de dispersión

simple para cada una de las variables independientes respecto a la dependiente. Es importante

que exista una tendencia lineal entre ellas porque si esto no ocurriera no tendría sentido iniciar

el proceso de regresión lineal. Las gráficas obtenidas se muestran a continuación.

Vemos que debido a la naturaleza de nuestros datos las variables explicativas sólo toman tres

datos concretos en cada caso y es por este motivo que la respuesta tenga que agruparse

solamente sobre cada uno de ellos. Debido a esto, no se genera una nube de puntos sino unos

conjuntos concretos en torno a cada una de las categorías de las variables independientes. Aun

así, se observa una tendencia bastante marcada entre porcentaje de deformes y dieta, mientras

que respecto a las otras dos variables no es tan clara.

Dieta

1,201,000,800,600,400,200,00

Po

rce

nta

jeD

efo

rme

s

35,0

30,0

25,0

20,0

15,0

10,0

5,0

Sq r lineal =

0,606

22,021,020,019,018,017,016,0

Po

rce

nta

jeD

efo

rme

s

35,0

30,0

25,0

20,0

15,0

10,0

5,0

Sq r lineal =

0,104

Densidad

40,035,030,025,020,015,010,0

Po

rcen

taje

Defo

rmes

35,0

30,0

25,0

20,0

15,0

10,0

5,0

Sq r lineal =

0,219

Page 17: Análisis estadístico multivariante de un conjunto de datos

13

Otra de las premisas que se deben cumplir es la de normalidad de todas las variables a estudio.

Para corroborarlo utilizaremos las gráficas de normalidad y los estadísticos de Kolmogorov-

Smirnov (K-S) y Shapiro-Wilk (S-W).

Vemos que gráficamente los puntos se acomodan bastante bien a la recta de referencia en las

tres variables. Además, los estadísticos de K-S y S-W muestran valores significativos para las

tres variables por lo que podemos afirmar que siguen una distribución normal. A continuación

buscaremos el modelo que mejor se ajuste a nuestros datos.

3.2.3. Estimación del modelo.

Partiendo de la ecuación del modelo de regresión lineal:

0 1 1 2 2 ... k kY X X X

De acuerdo con este modelo o ecuación, la variable dependiente Y se interpreta como una

combinación lineal de un conjunto de k variables independientes kX , cada una de las cuales

va acompañada de un coeficiente k que indica el peso relativo de esa variable en la

ecuación. La ecuación incluye además una constante 0 y un componente aleatorio (los

residuos: ) que recoge todo lo que las variables independientes no son capaces de explicar.

Este modelo, al igual que cualquier otro modelo estadístico, se basa en una serie de supuestos

(linealidad, independencia, normalidad, homocedasticidad y no-colinealidad) que estudiaremos

en detalle más adelante.

La ecuación de regresión mínimo-cuadrática se construye estimando los valores de los

coeficientes beta del modelo de regresión. Estas estimaciones se obtienen intentando hacer que

Valor observado

1,21,00,80,60,40,20,0

No

rmal esp

era

do

1,0

0,5

0,0

-0,5

-1,0

Gráfico Q-Q normal de Dieta

Valor observado

22212019181716

No

rma

l e

sp

era

do

1,0

0,5

0,0

-0,5

-1,0

Gráfico Q-Q normal de Tª

Valor observado

40353025201510

No

rmal esp

era

do

1,0

0,5

0,0

-0,5

-1,0

Gráfico Q-Q normal de Densidad

Page 18: Análisis estadístico multivariante de un conjunto de datos

14

las diferencias al cuadrado entre los valores observados Y y los pronosticados Y sean

mínimas:

0 1 1 2 2ˆ ˆ ˆ ˆˆ ... k kY X X X

Existen diferentes criterios estadísticos para seleccionar variables en un modelo de regresión.

Algunos de estos criterios son: el valor del coeficiente de correlación múltiple 2R (corregido o

sin corregir), el valor del coeficiente de correlación parcial entre cada variable independiente y

la dependiente, el grado de reducción que se obtiene en el error típico de los residuos al

incorporar una variable, etc. De una u otra forma, todos ellos coinciden en intentar maximizar el

ajuste del modelo de regresión utilizando el mínimo número posible de variables.

Los métodos por pasos que incluye SPSS basan la selección de variables en dos criterios

estadísticos:

Criterio de significación. De acuerdo con este criterio, sólo se incorporan al modelo de

regresión aquellas variables que contribuyen de forma significativa al ajuste del modelo. La

contribución individual de una variable se establece contrastando, a partir del coeficiente de

correlación parcial, la hipótesis de independencia entre esa variable y la variable dependiente.

Para decidir si se mantiene o rechaza esa hipótesis de independencia, el programa incluye dos

criterios de significación:

Probabilidad de F . Una variable pasa a formar parte del modelo de regresión si el nivel

crítico asociado a su coeficiente de correlación parcial al contrastar la hipótesis de

independencia es menor que 0,05 (probabilidad de entrada). Y queda fuera del modelo

de regresión si ese nivel crítico es mayor que 0,10 (probabilidad de salida).

Valor de F . Una variable pasa a formar parte del modelo de regresión si el valor del

estadístico F utilizado para contrastar la hipótesis de independencia es mayor que 3,84

(valor de entrada). Y queda fuera del modelo si el valor del estadístico F es menor que

2,71 (valor de salida).

Criterio de tolerancia. Superado el criterio de significación, una variable sólo pasa a formar

parte del modelo si su nivel de tolerancia es mayor que el nivel establecido por defecto y si,

además, aun correspondiéndole un coeficiente de correlación parcial significativamente distinto

de cero, su incorporación al modelo hace que alguna de las variables previamente seleccionadas

pase a tener un nivel de tolerancia por debajo del nivel establecido por defecto.

Una forma muy intuitiva de comprender y valorar el efecto resultante de aplicar estos criterios

de selección consiste en observar el cambio que se va produciendo en el coeficiente de

determinación 2R a medida que se van incorporando (o eliminando) variables al modelo.

Podemos definir este cambio como 2 2 2

cambio iR R R , donde 2

iR se refiere al coeficiente de

determinación obtenido con todas las variables independientes excepto la i-ésima. Un cambio

grande en 2R indica que esa variable contribuye de forma importante a explicar lo que ocurre

con la variable dependiente. Estas opciones permiten obtener el valor de 2

cambioR resultante de la

incorporación de cada variable independiente, el valor del estadístico F al contrastar la

Page 19: Análisis estadístico multivariante de un conjunto de datos

15

hipótesis de que el valor poblacional de 2

cambioR es cero, y el nivel crítico asociado al estadístico

F .

3.2.4. Método de selección de variables.

Existen diferentes métodos para seleccionar las variables independientes que debe incluir un

modelo de regresión, pero los que mayor aceptación han recibido son los métodos de selección

por pasos (stepwise). Con estos métodos, se selecciona en primer lugar la mejor variable

(siempre de acuerdo con algún criterio estadístico); a continuación, la mejor de las restantes y

así sucesivamente hasta que ya no quedan variables que cumplan los criterios de selección.

En nuestro análisis utilizaremos el método por pasos sucesivos. Este método comienza

seleccionando, en el primer paso, la variable independiente que, además de superar los criterios

de entrada, tiene una correlación mayor (en valor absoluto) con la variable dependiente. A

continuación, selecciona la variable independiente que, además de superar los criterios de

entrada, posee el coeficiente de correlación parcial más alto (en valor absoluto). Cada vez que se

incorpora una nueva variable al modelo, las variables previamente seleccionadas son evaluadas

nuevamente para determinar si siguen cumpliendo o no los criterios de salida. Si alguna variable

seleccionada cumple los criterios de salida, es eliminada del modelo. El proceso se detiene

cuando no quedan variables que superen los criterios de entrada y las variables seleccionadas no

cumplen los criterios de salida.

3.2.5. Resultados.

Tomando D como el porcentaje de larvas deformes, E la dieta enriquecida suministrada, C la

densidad o concentración de cultivo y T la temperatura; tras lo expuesto anteriormente, nuestro

modelo general de partida sería del estilo:

0 1 2 3ˆ ˆ ˆ ˆD E C T

La siguiente tabla ofrece un resumen del modelo final al que se ha llegado. En la columna

“Modelo” se indica que fueron necesarios tres pasos para construir el modelo de regresión. En el

primero de ellos se ha seleccionado la variable Dieta, en el segundo, Densidad y en el tercero Tª.

En ninguno de los pasos se ha eliminado ninguna de las variables previamente seleccionada.

También se informa sobre el método de selección utilizado (Por pasos) y sobre los criterios de

entrada/ salida: una variable es incorporada al modelo si su coeficiente de regresión parcial es

significativamente distinto de cero al 5 % y, una vez seleccionada, sólo es eliminada si con la

Page 20: Análisis estadístico multivariante de un conjunto de datos

16

incorporación de otra u otras variables en un paso posterior su coeficiente de regresión parcial

deja de ser significativamente distinto de cero al 10 %.

La siguiente salida que ofrece el programa es el resumen del modelo. La tabla recoge el valor y

el cambio experimentado por 2R en cada paso, y el estadístico F y su significación. El

estadístico F permite contrastar la hipótesis de que el cambio en 2R vale cero en la población.

Al seleccionar la primera variable (Modelo 1), el valor de 2R es 0,606. Lógicamente, en el

primer paso, 2 2

cambioR R . Al contrastar la hipótesis de que el valor poblacional de 2

cambioR es

cero se obtiene un estadístico F de 38,498 que, con 1 y 25 grados de libertad, tiene una

probabilidad asociada de 0,000. Puesto que este valor es menor que 0,05, podemos afirmar que

la proporción de varianza explicada por la variable Dieta (la variable seleccionada en el primer

paso) es significativamente distinta de cero. En el segundo paso (Modelo 2), el valor de 2R

aumenta hasta 0,811, lo que supone un cambio de 0,205. La tabla muestra el valor del

estadístico F (30,195) obtenido al contrastar la hipótesis de que el valor poblacional de 2

cambioR es cero, y su significación (0,000). El valor del nivel crítico nos permite afirmar que la

variable Densidad (la variable incorporada al modelo en el segundo paso) contribuye

significativamente a explicar lo que ocurre con la variable dependiente.

En el tercer y último paso (Modelo 3), 2R toma un valor de 0,920, lo cual supone un

incremento de 0,109. Se trata de un incremento pequeño, pero al evaluar su significación se

obtiene un estadístico F de 33,714 y un nivel crítico de 0,000, lo cual nos está indicando que la

variable Tª (variable incorporada en el tercer paso), también contribuye de forma significativa a

explicar la presencia de peces deformes. Las tres variables en conjunto consiguen explicar el

93% 2 0,929R de la variabilidad observada en la variable dependiente, por lo que el ajuste

del modelo es bueno. Para visualizar gráficamente la bondad de ajuste representamos en un

diagrama de dispersión los valores exactos frente a los predichos por el modelo.

La figura que viene a continuación es la tabla resumen del ANOVA.

Page 21: Análisis estadístico multivariante de un conjunto de datos

17

Contiene el valor del estadístico F obtenido al contrastar la hipótesis de que el valor

poblacional de 2R en cada paso es cero. Ahora no se evalúa el cambio que se va produciendo

en el valor de 2R de un paso a otro, sino el valor de 2R en cada paso. Lógicamente, si 2R es

significativamente distinta de cero en el primer paso, también lo será en los pasos sucesivos. La

significación (0,000) indica, como ya habíamos sugerido anteriormente, que las variables

explicativas guardan relación lineal con la variable dependiente en los tres modelos, por lo que

el análisis de regresión tiene sentido.

La siguiente tabla contiene los coeficientes de regresión parcial de las variables incluidas en el

modelo, es decir, la información necesaria para construir la ecuación de regresión en cada paso

(excluyendo el término constante). Las primeras columnas recogen el valor de los coeficientes

de regresión parcial (B) y su error típico. A continuación aparecen los coeficientes de regresión

parcial estandarizados (Beta), los cuales proporcionan una idea acerca de la importancia relativa

de cada variable dentro de la ecuación. Las dos siguientes columnas muestran el estadístico t y

el nivel crítico (Sig) obtenidos al contrastar las hipótesis de que los coeficientes de regresión

parcial valen cero en la población. Un nivel crítico por debajo de 0,05 indica que la variable

contribuye significativamente a mejorar la calidad del modelo de regresión.

A la vista de estos datos podemos asegurar que la variable que más afecta sobre el porcentaje de

peces deformes es la Dieta (Beta=0,779), seguida de la Densidad (0,468) y en último lugar la Tª

(0,322). Además, podemos comprobar que la relación entre la dieta y la presencia de individuos

deformes es negativa, por lo que un aumento en la relación DHA/EPA provoca que disminuyan

los valores de la variable respuesta. Con las otras dos variables ocurre lo contrario.

Debido a que la .Sig del término constante es 0,831 0,05 puede ser eliminado del

modelo ya que no es significativamente diferente de cero. A partir de los valores obtenidos en el

modelo tres podemos construir nuestro modelo final de regresión ajustado.

Page 22: Análisis estadístico multivariante de un conjunto de datos

18

ˆ 12,063 0,254 0,889D E C T

Por último, la tabla “Variables excluidas” muestra los coeficientes de regresión parcial de las

variables no seleccionadas para formar parte de la ecuación de regresión en cada paso. La

información que contiene esta tabla permite conocer en detalle por qué unas variables han sido

seleccionadas y otras no. En el primer paso se ha seleccionado la variable Dieta porque es la que

más alto correlaciona, en valor absoluto, con la variable dependiente. En ese primer paso,

todavía están fuera del modelo el resto de variables independientes.

La columna Beta dentro contiene el valor que tomaría el coeficiente de regresión estandarizado

de una variable en el caso de que fuera seleccionada en el siguiente paso. Las columnas t y

.Sig nos informan sobre si ese valor que adoptaría el coeficiente de regresión de una variable

en el caso de ser incorporada al modelo sería o no significativamente distinto de cero.

Vemos que, en el primer paso, hay dos variables todavía no seleccionadas (Tª y Densidad)

cuyos coeficientes de regresión poseen niveles críticos por debajo de 0,05 (criterio de entrada).

Entre ellas, la que posee un coeficiente de correlación parcial mayor en valor absoluto

(Densidad = 0,746) y, además, un nivel de tolerancia por encima de 0,001 (tolerancia mínima

establecida por defecto), es la variable que ha sido seleccionada en el segundo paso. En el

segundo paso todavía quedan fuera de la ecuación una variable cuyo coeficiente de regresión

sería significativo en caso de ser seleccionadas: Tª. En el tercer paso ha sido seleccionada esta

última variable y el proceso se detiene porque no hay más variables que puedan incorporarse al

modelo.

3.2.6. Supuestos del modelo de regresión.

Los supuestos de un modelo estadístico se refieren a una serie de condiciones que deben darse

para garantizar la validez del modelo. Al efectuar aplicaciones prácticas del modelo de

regresión, nos veremos en la necesidad de examinar que todos ellos se cumplan. Lo

comprobamos a continuación.

3.2.6.1. Linealidad.

La ecuación de regresión adopta una forma particular. En concreto, la variable dependiente es la

suma de un conjunto de elementos: el origen de la recta, una combinación lineal de variables

independientes o predictoras y los residuos. El incumplimiento del supuesto de linealidad suele

denominarse error de especificación. Algunos ejemplos son: omisión de variables

independientes importantes, inclusión de variables independientes irrelevantes, no linealidad (la

relación entre las variables independientes y la dependiente no es lineal), parámetros cambiantes

(los parámetros no permanecen constantes durante el tiempo que dura la recogida de datos), no

Page 23: Análisis estadístico multivariante de un conjunto de datos

19

aditividad (el efecto de alguna variable independiente es sensible a los niveles de alguna otra

variable independiente), etc.

Sobre el cumplimiento de este primer supuesto puede obtenerse información a partir de una

inspección del diagrama de dispersión: si tenemos intención de utilizar el modelo de regresión

lineal, lo razonable es que la relación entre la variable dependiente y las independientes sea de

tipo lineal. En el apartado de contrastación de las variables ya hemos abordado este tema,

llegando a la conclusión que existe tendencia lineal entre cada una de las variables explicativas

y la variable dependiente. Esta relación lineal es más marcada entre la variable dieta y la

variable dependiente.

3.2.6.2. Independencia.

Los residuos son independientes entre sí, es decir, los residuos constituyen una variable

aleatoria (recordemos que los residuos son las diferencias entre los valores observados y los

pronosticados). Es frecuente encontrarse con residuos autocorrelacionados cuando se trabaja

con series temporales.

El verdadero interés de los residuos hay que buscarlo en el hecho de que el análisis de los

mismos nos proporciona información crucial sobre el cumplimiento de varios supuestos del

modelo de regresión lineal: independencia, homocedasticidad, normalidad y linealidad.

Uno de los supuestos básicos del modelo de regresión lineal es el de independencia entre los

residuos. El estadístico de Durbin-Watson (D-W) proporciona información sobre el grado de

independencia existente entre ellos:

2

1

2

2

1

n

i i

i

n

i

i

e e

D W

e

donde ie se refiere a los residuos.

El estadístico D-W oscila entre 0 y 4, y toma el valor 2 cuando los residuos son independientes.

Los valores menores que 2 indican autocorrelación positiva y los mayores que 2 autocorrelación

negativa. Podemos asumir independencia entre los residuos cuando D-W toma valores entre 1,5

y 2,5. El valor de este estadístico ya ha sido calculado y aparece en la tabla del “Resumen del

modelo” vista anteriormente.

Puesto que el valor D-W=2,314 se encuentra entre el intervalo indicado y podemos asumir, por

lo tanto, que los residuos son independientes.

3.2.6.3. Homocedasticidad.

Para cada valor de la variable independiente (o combinación de valores de las variables

independientes), la varianza de los residuos es constante.

El procedimiento regresión lineal dispone de una serie de gráficos que permiten, entre otras

cosas, obtener información sobre el grado de cumplimiento de los supuestos de

Page 24: Análisis estadístico multivariante de un conjunto de datos

20

homocedasticidad y normalidad de los residuos. Hay, entre otras, dos variables cuyo diagrama

de dispersión informa sobre el supuesto de homocedasticidad o igualdad de varianzas:

ZPRED (pronósticos típificados). Pronósticos divididos por su desviación típica. Son

pronósticos transformados en puntuaciones z (con media 0 y desviación típica 1).

ZRESID (residuos típificados). Residuos divididos por su desviación típica. El tamaño de cada

residuo tipificado indica el número de desviaciones típicas que se aleja de su media, de modo

que, si están normalmente distribuidos (cosa que asumimos en el análisis de regresión), el 95 %

de estos residuos se encontrará en el rango (-1,96; +1,96), lo cual permite identificar fácilmente

casos con residuos grandes.

El supuesto de igualdad de varianzas implica que la variación de los residuos debe ser uniforme

en todo el rango de valores pronosticados. O, lo que es lo mismo, que el tamaño de los residuos

es independiente del tamaño de los pronósticos, de donde se desprende que el diagrama de

dispersión no debe mostrar ninguna pauta de asociación entre los pronósticos y los residuos.

Como se puede observar, la gráfica ZRESID-ZPRED de nuestro problema no muestra una pauta

clara de aumento o disminución de los residuos por lo que admitimos la hipótesis de

homocedasticidad.

3.2.6.4. Normalidad.

Para cada valor de la variable independiente (o combinación de valores de las variables

independientes), los residuos se distribuyen normalmente con media cero.

Sobre estas líneas se muestra el histograma de los residuos tipificados con una curva normal

superpuesta. La curva se construye tomando una media de 0 y una desviación típica de 1, es

Page 25: Análisis estadístico multivariante de un conjunto de datos

21

decir, la misma media y la misma desviación típica que los residuos tipificados. En el

histograma de la figura podemos observar que la distribución de los residuos se adapta bastante

bien a la distribución normal.

Otra herramienta para asegurar la normalidad de los residuos es el gráfico de probabilidad

normalidad. En el eje de abscisas está representada la probabilidad acumulada que corresponde

a cada residuo tipificado. El de ordenadas representa la probabilidad acumulada teórica que

corresponde a cada puntuación típica en una curva normal con media 0 y desviación típica 1.

Cuando los residuos se distribuyen normalmente, la nube de puntos se encuentra alineada sobre

la diagonal del gráfico. En este caso parece que los datos no están totalmente alineados con la

diagonal, por lo que no podemos aventurarnos a ofrecer una conclusión de garantías.

Como las herramientas anteriores no nos han permitido emitir un juicio sobre la normalidad

utilizaremos los gráficos con pruebas de normalidad para los residuos estandarizados. Esta

opción permite obtener dos gráficos de normalidad (Q-Q normal y Q-Q normal sin tendencia)

junto con dos pruebas de significación: Kolmogorov-Smirnov (K-S) y Shapiro-Wilk (S-W). En

primer lugar, debemos guardar en el menú de la regresión lineal los residuos tipificados como

una nueva variable. De esta forma podemos someterlos a las pruebas de normalidad descritas

anteriormente mediante la opción “Explorar” del menú de SPSS.

El gráfico Q-Q normal muestra un ajuste bastante bueno de los datos sobre la línea de

referencia, sin embargo podemos observar que existe un valor que se escapa un poco de esta

tendencia. En el otro gráfico no observamos que los datos se distribuyan siguiendo ningún

Page 26: Análisis estadístico multivariante de un conjunto de datos

22

criterio o tendencia y se reparten bastante homogéneamentre a ambos lados de la recta de valor

cero. También se puede observar la presencia de ese dato alejado de los demás.

A continuación se muestran los estadísticos de Kolmogorov-Smirnov y de Shapiro-Wilk

acompañados de sus correspondientes niveles críticos.

Ambos permiten contrastar la hipótesis nula de que los residuos tienen una distribución normal.

Rechazaremos la hipótesis de normalidad cuando el nivel crítico .Sig sea menor que el nivel

de significación establecido 0,05 . Los residuos tienen asociados niveles críticos

mayores que 0,05 para los dos estadísticos, lo que debe llevarnos a concluir que los residuos

siguen una distribución normal.

3.2.6.5. No colinealidad.

No existe relación lineal exacta entre ninguna de las variables independientes. El

incumplimiento de este supuesto da origen a colinealidad o multicolinealidad.

Existe colinealidad perfecta cuando una de las variables independientes se relaciona de forma

perfectamente lineal con una o más del resto de variables independientes de la ecuación.

Hablamos de colinealidad parcial o, simplemente, colinealidad, cuando entre las variables

independientes de una ecuación existen correlaciones altas. Existen diferentes formas de

diagnosticar la presencia de colinealidad y para ayudar a detectarla vamos a hacer uso de

algunos estadísticos como los índices de condición del modelo y los factores de inflación de la

varianza (FIV).

Para los índices de condición debemos identificar aquellos que superen el umbral 30. Para estos

índices, detectar las variables con proporciones de la varianza por encima del 90%. Habrá

multicolinealidad si ocurre con dos o más coeficientes. Para nuestro caso vemos que se cumplen

los criterios porque ningún índice de condición del modelo 3 supera el límite estipulado.

Page 27: Análisis estadístico multivariante de un conjunto de datos

23

Para el FIV debemos buscar valores superiores a 10. Vemos en la tabla que ninguno es mayor

de 1. Por lo tanto, no se violan las hipótesis de no multicolinealidad y podemos afirmar que no

existe colinealidad entre ninguna de nuestras tres variables independientes.

Una vez finalizado el proceso regresivo, podemos concluir que el modelo generado incluye a las

tres variables explicativas valoradas y carece de constante:

ˆ 12,063 0,254 0,889D E C T

El mayor efecto en la predicción del porcentaje de larvas con deformidades esqueléticas D es

el asociado a la variable Dieta E con un 77,9%, mientras que las variables Densidad C y

Temperatura T tienen un efecto más moderado aunque destacado del 46,8% y 32,2%

respectivamente.

Todos los supuestos de validez del modelo se han cumplido sin excepciones; además, el valor

de 2 0,92corregidoR indica que el ajuste a nuestros datos ha sido muy bueno y la diferencia tan

pequeña entre 2 2 0,009cambioR R certifica la validación de los resultados.

3.3. Regresión logística.

Para intentar predecir la probabilidad de padecer deformidad (D) esquelética en función de la

dieta, la temperatura y la densidad de cultivo larvaria se ha optado por un ajuste mediante

modelo logit de respuesta binomial con variables explicativas categóricas tratando nuestras tres

variables explicativas como factores cualitativos y utilizando el método parcial de codificación

respecto a la primera categoría.

Todas las variables a estudio serán tratadas como variables cualitativas: la dieta tiene 3

categorías (0,15, 0,5 y 1,2), la temperatura otras 3 categorías (16, 19 y 22), la densidad de

cultivo otras 3 categorías (10, 20 y 40) y la variable respuesta 2 categorías (presentar una

deformidad esquelética y no presentarla). Cada variable ha de repetir sus categorías de tal

manera que se obtengan todas las combinaciones posibles de categorías de las variables

disponibles. Como tenemos 3 variables explicativas con 3 categorías cada una el número

máximo de combinaciones será de 27.

En función de lo anterior, se ha creado un archivo texto con todos los datos llamado

Deformes.txt (ver Apéndice I) donde las categorías de las variables independientes se han

recodificado para transformarlas en cualitativas, de forma que:

Dieta (0,15, 0,5 y 1,2) equivale a (E0, E1 y E2), que representaría una dieta control sin

enriquecimiento (E0), otra con el enriquecedor 1 (E1) y otra con el 2 (E2) .

Temperatura de cultivo (16, 19, 22) equivale a (T16, T19, T22).

Page 28: Análisis estadístico multivariante de un conjunto de datos

24

Densidad de cultivo (10, 20 y 40) equivale a (d10, d20 y d40).

Variable respuesta (presentar deformidad y no presentarla) seguiría siendo D1 y D0

respectivamente.

Las 27 combinaciones se muestran a continuación en formato de datos agrupados.

Dieta Tª Dens D1 D0

E0 T16 d10 17 83

E0 T16 d20 19 81

E0 T16 d40 24 76

E0 T19 d10 19 81

E0 T19 d20 17 83

E0 T19 d40 27 73

E0 T22 d10 20 80

E0 T22 d20 22 78

E0 T22 d40 34 66

E1 T16 d10 11 89

E1 T16 d20 12 88

E1 T16 d40 18 82

E1 T19 d10 15 85

E1 T19 d20 16 84

E1 T19 d40 19 81

E1 T22 d10 17 83

E1 T22 d20 17 83

E1 T22 d40 26 74

E2 T16 d10 5 95

E2 T16 d20 7 93

E2 T16 d40 10 90

E2 T19 d10 5 95

E2 T19 d20 9 91

E2 T19 d40 12 88

E2 T22 d10 10 90

E2 T22 d20 10 90

E2 T22 d40 15 85

En esta tabla de frecuencias podemos ver el porcentaje de peces deformes (D1) y no deformes

(D0) que contiene cada una de las 27 combinaciones. Los datos han sido separados mediante

espacios (sep=” “) y las columnas tienen el nombre de las variables (header=T). Esto es

importante para leer correctamente los datos desde R. La salida que ofrece el programa se

muestra a continuación.

Page 29: Análisis estadístico multivariante de un conjunto de datos

25

El método parcial de codificación de las variables del diseño consiste en elegir una categoría de

referencia de modo que todas las variables del diseño asignan el valor 0 a esa categoría de

referencia. Asociada a cada una de las restantes categorías se define una variable del diseño

binaria que toma el valor 1 para su categoría asociada y el valor 0 para todas las demás. El

método parcial de codificación es el que considera por defecto R tomando siempre como

categoría de referencia la primera. Podemos corroborarlo con la orden contrast() que, por

ejemplo, para la variable dieta obtendría la siguiente salida.

3.3.1. Estimación del modelo.

Consideremos ahora tres variables explicativas categóricas 1: ,... IA A A con variables del diseño

asociadas 2 1,..., , : ,...,A A

I JX X B B B con variables del diseño 2 ,...,B B

JX X y 1: ,..., KC C C con

variables del diseño 2 ,...,C C

KX X . Si la probabilidad de respuesta Y=1 (padecer deformidad

esquelética) en cada combinación de niveles de las tres variables cualitativas es

1/ , ,i j k ijkP Y A A B B C C p

Page 30: Análisis estadístico multivariante de un conjunto de datos

26

el modelo de regresión logística se construye de la siguiente forma tomando como variables

explicativas las 3I J K variables del diseño:

Utilizando la definición binaria de las variables de diseño del método parcial se obtiene la

siguiente expresión para el modelo de regresión logística:

111 0

1 0

1 0

1 0

0

2,...,

2,...,

2,...,

2,..., ; 2,..., ; 2,...,

A

i i

B

j j

C

k k

A B C

ijk i j k

L

L i I

L j J

L k K

L i I j J k K

que puede expresarse de forma global como

0 1,..., ; 1,..., ; 1,...,A B C

ijk i j kL i I j J k K

bajo la restricción 1 1 1 0A B C .

Partiendo de nuestras tres variables explicativas categóricas como son la dieta (E), la

temperatura (T) y la densidad de cultivo (C), con variables del diseño asociadas

2 3 2 3 2 3, ; , ,E E T T C CX X X X y X X respectivamente para cada una de ellas, la fórmula general de

nuestro modelo será:

0 2 2 3 3 2 2 3 3 2 2 3 3ln1

ijk E E E E T T T T C C C C

ijk i i i i i i

ijk

pL X X X X X X

p

Siendo 1/ , , 1,2,3 ; 1,2,3 ; 1,2,3ijk i j kp P D E E T T C C i j k se

simplifica como sigue en base a la definición de variables del diseño del método parcial

0 1,2,3 ; 1,2,3 ; 1,2,3E T C

ijk i j kL i j k

bajo la restricción 1 1 1 0E T C .

Para comprobar cual o cuales de nuestras variables deben entrar realmente en nuestro modelo

para que se ajuste bien a nuestros datos, realizamos la selección de variables explicativas

0

2 2 2

ln 1,..., ; 1,..., ; 1,...,1

I J Kijk A A B B C C

ijk m im m jm m km

m m mijk

pL X X X i I j J k K

p

Page 31: Análisis estadístico multivariante de un conjunto de datos

27

mediante selección paso a paso (stepwise en R) utilizando la orden step. A continuación se

muestra la salida generada por el programa.

El paso inicial del programa es a partir del modelo que sólo tiene el parámetro constante. En

esta salida se muestra el valor del criterio de información de Akaike (AIC) del modelo constante

(212,28). A continuación aparece una lista de todas las variables que es posible seleccionar para

su inclusión en el modelo en este paso. Junto a cada variable aparecen sus grados de libertad

(Df), la deviance del modelo que resulta de añadir al modelo constante ésta variable y el AIC

del modelo que resulta de añadir al modelo constante ésta variable. Además, también aparece

una fila denominada none que tiene la deviance y el AIC del modelo actual.

Recordemos que en el paso inicial del proceso stepwise se realizan sucesivamente los contrastes

condicionales de razón de verosimilitud entre el modelo constante y cada uno de los modelos

simples que resultan de la introducción de cada una de las variables explicativas. Entre todas las

variables para las que el contraste es significativo 1p valor se selecciona la asociada al

mínimo p-valor (equivalentemente máximo valor del estadístico de razón de verosimilitud

condicional).

Page 32: Análisis estadístico multivariante de un conjunto de datos

28

En la tabla mostrada anteriormente, las variables para las que el contraste es significativo

aparecen por encima de la fila none (Dieta, Dens y Tª), mientras que aquellas para las que

el contraste es no significativo aparecen por debajo. Como el valor observado del estadístico de

contraste es la diferencia entre la deviance del modelo constante y la del modelo que resulta de

incluir cada variable, la variable a seleccionar en el primer paso será aquella con menor

deviance y que aparece en la primera fila de la tabla. En nuestro caso se trata de la Dieta, que

entra en el modelo.

Una vez seleccionada Dieta se realiza un nuevo paso repitiendo el proceso anterior pero con

modelo de partida la variable respuesta (D) en función de la variable explicativa incorporada en

el paso anterior (Dieta).

En este momento tendríamos que elegir el término que podría ser eliminado del modelo.

Aparecería con un signo negativo sobre la fila none . En nuestro caso podría ser el la Dieta

que ha sido incorporada en el paso anterior pero aparece bajo la fila none , por lo que no va

a ser eliminada. Llegados a este punto, y siguiendo el criterio explicado en el paso anterior, el

programa introduciría una nueva variable explicativa si el contraste es significativo. Por lo

tanto, la siguiente variable seleccionada será la densidad de cultivo (Dens), que entra en el

modelo.

Vemos, además, que ninguno de las dos variables que podrían ser eliminadas aparecen por

encima de la fila none por lo que permanecen en el modelo.

Nuevamente, siguiendo el criterio explicado en el primer paso, el programa introduciría la

última variable explicativa si el contraste es significativo. Como esto es así, la variable

temperatura (Tª) es seleccionada y entra también en el modelo.

Page 33: Análisis estadístico multivariante de un conjunto de datos

29

Podemos comprobar que ninguna de las tres variables que podrían ser eliminadas aparece por

encima de la fila none por lo que no son eliminadas del modelo y el proceso stepwise se

detiene en este momento.

Por lo tanto, el programa estima como más propicio un modelo de la forma

3 3 3

0

2 2 2

ln1

ijk E E T T C C

ijk m im m jm m km

m m mijk

pL X X X

p

para explicar los datos observados, incorporando las tres variables explicativas.

Podemos obtener un resumen de los coeficientes obtenidos y de todo el proceso mediante la

orden summary(). Las salidas del programa se muestran a continuación.

Page 34: Análisis estadístico multivariante de un conjunto de datos

30

Podemos comprobar los valores estimados de los parámetros 0 (interceptor), ,E T C

m m my y

su significación estadística. Para constatarla utilizamos el test estadístico Z de Wald obtenido

como el cociente entre el valor estimado del parámetro y su error estándar. Fijando nivel de

significación 0,05 se tiene que rechazaremos la hipótesis nula de igualdad a cero de los

parámetros cuando 2

1,96Z z . Como hemos observado en la tabla anterior, son todos

significativamente distintos de cero a nivel 0,05 menos 2 2

C Ty que son significativos y

por lo tanto son considerados igual a cero.

Modelo obtenido: 0 2 2 3 3 3 3 3 3ln

1

ijk E E E E T T C C

ijk i i i i

ijk

pL X X X X

p

Siendo la versión simplificada en base a la definición de variables del diseño del método parcial

0 2 3 3 3

E E T C

ijL

bajo la restricción 1 1 0P C y con

2 2, 0T C .

Las estimaciones de máxima verosimilitud de los parámetros de este modelo extraídos de la

tabla anterior son las siguientes.

0 2 3 3 3ˆ 1,67961; 0,34703; 1,03925; 0,54356; 0,40520E E C T

3.3.2. Bondad de ajuste y efecto de las variables explicativas.

Una vez estimado el modelo vamos a contrastar su bondad de ajuste mediante un test asintótico

tradicional. Para poder usar este test tiene que verificarse que al menos el 80% de las

frecuencias esperadas sean mayores de 5 y observando la tabla de datos comprobamos que esto

se cumple para nuestro caso. Por consiguiente, para estudiar la bondad de ajuste se utiliza el

estadístico de razón de verosimilitudes que para el caso de datos agrupados viene representado

en R mediante el valor denominado Residual Deviance. Podemos comprobar en la tabla

resumen del proceso expuesta anteriormente, que este estadístico vale 3,4857 y tiene

distribución chi-cuadrado con 20 grados de libertad. Mediante el uso de la función de cálculo de

probabilidades de la distribución chi-cuadrado 1-pchisq() que ofrece R obtenemos un

0,99998p valor que es mayor que 0,05 por lo que se acepta la hipótesis nula de que

el modelo se ajusta bien a los datos observados:

0 0 2 2 3 3 3 3 3 3: ln1

ijk E E E E T T C C

i i i i

ijk

pH X X X X

p

A continuación vamos a establecer la influencia de cada variable explicativa sobre la aparición

de deformidades en base a las exponenciales de los parámetros que son cocientes de ventajas.

Las salidas para dichos cocientes de ventajas en R se muestran a continuación. Primero

calculamos la exponencial de los parámetros mediante la orden exp().

Page 35: Análisis estadístico multivariante de un conjunto de datos

31

Y después los intervalos de confianza al 95%

Observemos que el intervalo de confianza para la exponencial de los parámetros 2 2

C Ty

contiene el valor 1, lo que significa que las deformidades esqueléticas no dependen de estas

categorías de las variables explicativas densidad y temperatura de cultivo. Los I.C. del resto de

parámetros no contienen el 1, lo que significa que la aparición de deformidades depende en

mayor o menor medida de todos ellos. Esto es congruente con el test de Wald basado en la

misma distribución normal que ha llevado previamente a rechazar la igualdad a cero de todos

estos parámetros excepto del 2 2

C Ty .

Para estudiar la relación entre el tipo de dieta y la aparición de deformidades mantendremos fija

las otras covariables (Dens y Tª) y estimaremos los cocientes de ventajas a favor de padecer el

problema para cada nivel E1 y E2 respecto a la categoría de referencia E0.

2

2

221/ ,1

1

ˆ

ˆ1ˆ ˆexp 0,70678 . . 0,55769;0,89573 95%

ˆ

ˆ1

j k

jk

jkE E

T T C Cjk

jk

p

pcon I C al

p

p

La inversa del dato anterior sería: 1

1,4150,70678

. De estos datos podemos deducir que la

ventaja a favor de padecer deformidades es 0,707 veces mayor para los peces alimentados con la

dieta E1 respecto a los alimentados con la dieta control E0. O dicho de otra forma, la ventaja a

favor de sufrir deformidades esqueléticas es 1,4 veces mayor en los peces alimentados con E0

respecto a los alimentados con E1, sea cual sea su temperatura y densidad de cultivo.

3

3

331/ ,1

1

ˆ

ˆ1ˆ ˆexp 0,35372 . . 0,26819;0,46652 95%

ˆ

ˆ1

j k

jk

jkE E

T T C Cjk

jk

p

pcon I C al

p

p

La inversa del dato anterior sería: 1

2,8270,35372

. Podemos afirmar, por tanto, que la

ventaja a favor de sufrir deformidades esqueléticas es 2,827 veces mayor (casi el triple) en los

peces alimentados con E0 respecto a los alimentados con E2, sea cual sea su temperatura y

densidad de cultivo.

Page 36: Análisis estadístico multivariante de un conjunto de datos

32

Vamos ahora a estudiar la relación entre la densidad de cultivo y la aparición de peces

deformes. Mantendremos fijas las covariables Dieta y Tª y estimaremos los cocientes de

ventajas a favor de padecer la enfermedad para el nivel 40 larvas/litro respecto a la categoría de

referencia (10 larvas/litro).

3

3

331/ ,1

1

ˆ

ˆ1ˆ ˆexp 1,72212 . . 1,33453;2,22228 95%

ˆ

ˆ1

i j

ij

ijC C

E E T Tij

ij

p

pcon I C al

p

p

La ventaja a favor de padecer deformidades es 1,7 veces mayor para los peces cultivados a una

densidad de 40 larvas/litro respecto a la categoría de referencia, sea cual sea su dieta y

temperatura de cultivo.

Por último comparamos la relación entre la temperatura y la aparición de peces deformes.

Mantendremos fijas las covariables Dieta y Dens y estimaremos los cocientes de ventajas a

favor de padecer la enfermedad para el nivel Tª = 22ºC respecto a la categoría de referencia (Tª

= 16ºC).

3

3331/ ,

1

1

ˆ

ˆ1ˆ ˆexp 1,49960 . . 1,16019;1,93830 95%ˆ

ˆ1

i k

i k

T Ti k

E E C Ci k

i k

p

pcon I C al

p

p

El resultado muestra que la ventaja a favor de padecer deformidades es 1,5 veces mayor para los

peces cultivados a 22ºC respecto a los mantenidos a 16ºC, independientemente de su dieta y

densidad de cultivo.

Los valores obtenidos del análisis de cocientes de ventajas sugieren la existencia de una relación

negativa entre el cociente DHA/EPA (dieta) y la aparición de deformidades, de forma que a

medida que este cociente aumenta, disminuye la proporción de individuos deformes. Con la

temperatura y densidad de cultivo ocurre lo contrario y esta relación es positiva. El porcentaje

de deformes es mayor en los niveles más elevados de cada una de estas dos variables respecto a

sus correspondientes controles. Por lo tanto, los datos parecen indicar que temperaturas y

densidades de cultivo elevadas favorecen la aparición de peces con problemas esqueléticos,

mientras que mayores niveles de DHA/EPA en la dieta ayudan a disminuir este porcentaje.

3.3.3. Validación del modelo.

Sólo quedaría realizar la validación completa del modelo, para lo que serían necesarios los

siguientes datos:

Número de respuestas D=1 (sufrir malformación esquelética) en cada valor observado

de las variables explicativas.

Número de respuestas D=0 (no sufrir malformación esquelética) en cada valor

observado de las variables explicativas.

Page 37: Análisis estadístico multivariante de un conjunto de datos

33

Proporción observada de respuestas D=1 en cada valor observado de las variables

explicativas y se obtiene a partir de los datos agrupados mediante

Deformes$IM1/(Deformes$IM1+Deformes $IM0).

Probabilidad predicha de respuestas D=1 en cada valor observado de las variables

explicativas y se obtiene a partir de los datos agrupados mediante

fitted.values(Ajuste.Deformes.step).

Error estándar de la probabilidad predicha de respuestas Y=1 y se obtiene a partir de los

datos agrupados mediante predict.glm(Ajuste.Deformes.step,type="response",

se.fit=T)[[2]].

Residuos de Pearson ajustados y se obtienen mediante la función

rstandard(Ajuste.Deformes.step,type="pearson").

Transformaciones logit predichas y se obtienen mediante la función

predict.glm(Ajuste.Deformes.step,type="link").

Residuos de Pearson modificados

Residuos de la deviance ajustados y se obtienen mediante la función

rstandard(Ajuste.Deformes.step,type="deviance").

Leverages y se obtienen mediante la función hatvalues(Ajuste.Deformes.step).

Distancias de Cook modificadas y se obtienen mediante la función

2*cooks.distance(Ajuste.Deformes.step,type="deviance")).

Para obtener los diferentes predichos se recurre a la función predict.glm, mientras que la función

rstandard() aplicada a un objeto glm permite obtener distintos tipos de residuos estandarizados.

La validación completa del modelo se realizará en base a los residuos de Pearson

estandarizados.

Para mostrar todas estas medidas ordenadas se creará un data.frame con los valores obtenidos.

La salida en R es la siguiente.

Como hemos dicho anteriormente, para validar el modelo utilizaremos los residuos

estandarizados de Pearson (Res.Pear en la tabla). El residuo asociado a cada combinación de

niveles de las variables explicativas será significativo, es decir, distinto de cero, al nivel de

significación 0,05 cuando el valor absoluto del residuo ajustado sea mayor o igual que

Page 38: Análisis estadístico multivariante de un conjunto de datos

34

2

1,96z . Podemos concluir que ningún residuo es significativo y que, por lo tanto, el modelo

se ajusta bien dato a dato.

Como resumen, podemos apuntar que partiendo del conjunto de datos inicial se ha intentado

comprobar si existe algún tipo de relación entre sufrir deformidades esqueléticas en función de

la dieta, la temperatura y la densidad de cultivo larvaria. Se optó para ello por un ajuste de los

datos mediante un modelo logit tratando estas tres variables como factores cualitativos y

utilizando el método parcial de codificación respecto a la primera categoría. Estas variables

fueron recodificadas como categóricas, y la codificación respecto a la primera categoría es la

salida por defecto que tiene el programa R y asume la categoría más baja (primera) de cada

variable como referencia y obtiene las demás en función de este valor. Los resultados mostrarán

cómo se comporta una larva en función de sus niveles de las variables explicativas frente a la

presencia de deformidades si la comparamos con otra cuyos niveles de las variables explicativas

son los de “control”. Se ha utilizado el procedimiento stepwise para seleccionar el modelo que

mejor se ajusta a los datos y, finalmente, las tres variables han entrado en el modelo.

Como se verificaba la condición necesaria de que al menos el 80% de las frecuencias esperadas

fueran mayores que 5 para poder utilizar un test asintótico tradicional, el p-valor = 0,999 > 0,05

obtenido indica que el modelo se ajusta bien. Para la validación del mismo se han analizado los

residuos estandarizados de Pearson (son todos no significativos) y para estudiar la significación

estadística de los parámetros el test de Wald. Los resultados obtenidos muestran que el modelo

se ajusta bien tanto de forma general como dato a dato y que sus parámetros son

significativamente distintos de cero excepto los parámetros asociados a las segundas categorías

de las variables explicativas temperatura2( )T y densidad de cultivo

2( )C . Por lo tanto, nuestro

modelo general será de la siguiente forma

0 2 2 3 3 4 4 3 3 4 4ln1

ijk P P P P P P C C C C

ijk i i i i i

ijk

pL X X X X X

p

.

Los cocientes de ventajas muestran como las probabilidades de padecer deformidades aumentan

a temperaturas y densidades de cultivo elevadas, mientras que disminuyen al aumentar el

porcentaje DHA/EPA en la dieta.

3.4. ANOVA.

La prueba T para dos muestras independientes permite contrastar hipótesis referidas a la

diferencia entre dos medias independientes. Tenemos dos poblaciones normales, con medias

1 2y , de cada una de las cuales seleccionamos una muestra aleatoria de tamaños 1 2n y n .

Tras esto, utilizamos las medias muestrales 1Y e

2Y para contrastar la hipótesis de que las

medias poblacionales 1 2y son iguales.

La prueba T que permite contrastar esta hipótesis de igualdad de medias no es otra cosa que

una tipificación de la diferencia entre las dos medias muestrales que se obtiene restando a esa

diferencia su valor esperado en la población y dividiendo el resultado por el error típico de la

diferencia:

Page 39: Análisis estadístico multivariante de un conjunto de datos

35

1 2

1 2 1 2

ˆY Y

Y YT

donde 1 2

ˆY Y

es el error típico.

3.4.1. ANOVAs de un factor.

El análisis de varianza (ANOVA) de un factor sirve para comparar varios grupos en una

variable cuantitativa. Se trata, por tanto, de una generalización de la “prueba T para dos

muestras independientes” al caso de diseños con más de dos muestras.

A la variable categórica que define los grupos que deseamos comparar la llamamos

independiente o factor, mientras que la variable cuantitativa en la que deseamos comparar los

grupos la llamamos dependiente

La hipótesis que se pone a prueba en el ANOVA de un factor es que las medias poblacionales

de la variable dependiente en cada nivel de la independiente son iguales. Si las medias

poblacionales son iguales, eso significa que los grupos no difieren en la v.d. y que, en

consecuencia, la v.i. o factor es independiente de la v.d.

La estrategia para poner a prueba la hipótesis de igualdad de medias consiste en obtener un

estadístico, llamado F , que refleja el grado de parecido existente entre las medias que se están

comparando. El numerador de este estadístico es una estimación de la varianza poblacional

basada en la variabilidad existente entre las medias de cada grupo: 2 2

1ˆ ˆ

Yn . El denominador

del estadístico F es también una estimación de la varianza poblacional, pero basada en la

variabilidad existente dentro de cada grupo: 2 2

jS , donde j se refiere a los distintos grupos

o niveles del factor:

22

1

2 2

2

ˆˆ

ˆY

j

F nS

Si las medias poblacionales son iguales, las medias muestrales serán parecidas, existiendo entre

ellas tan sólo diferencias atribuibles al azar. En ese caso, la estimación 2

1 basada en las

diferencias entre las medias reflejará el mismo grado de variación que la basada en las

diferencias entre las puntuaciones individuales 2

2 y el cociente F tomará un valor próximo

a 1. Si las medias muestrales son distintas, la estimación 2

1 reflejará mayor grado de variación

que la estimación 2

2 y el cociente F tomará un valor mayor que 1. Cuanto más diferentes

sean las medias, mayor será el valor de F .

Si las poblaciones muestreadas son normales y sus varianzas son iguales, F se distribuye según

el modelo de probabilidad F de Fisher Snedecor con 1j grados de libertad del

numerador y n j del denominador, donde n es el número total de observaciones. Si

suponemos cierta la hipótesis de igualdad de medias, podemos conocer en todo momento la

probabilidad de obtener un valor como el obtenido o mayor.

Page 40: Análisis estadístico multivariante de un conjunto de datos

36

El estadístico F se interpreta de forma que si su nivel crítico asociado, es decir, si la

probabilidad de obtener valores como el obtenido o mayores, es menor que 0,05 rechazaremos

la hipótesis de igualdad de medias y concluiremos que no todas las medias poblacionales

comparadas son iguales. En caso contrario, no podremos rechazar la hipótesis de igualdad y no

podremos afirmar que los grupos comparados difieran en sus promedios poblacionales.

Partiendo de nuestro conjunto de datos se han llevado a cabo análisis ANOVA enfrentando el

porcentaje de individuos deformes como v.d. frente a cada una de las v.i.: dieta, temperatura y

densidad de cultivo. Además, se ha extendido este análisis para comprobar si existen diferencias

significativas en el porcentaje de supervivientes o en el peso final de las larvas frente a cada una

de las tres variables independientes indicadas anteriormente.

3.4.1.1. Deformes frente a Dieta.

Para la sintaxis seleccionada, el programa SPSS ofrece un conjunto de salidas que se describen

a continuación. La primera tabla denominada “Descriptivos” muestra, para cada grupo y para el

total muestral, el número de casos, la media, la desviación típica, el error típico de la media, los

límites del intervalo de confianza para la media al 95 % y los valores mínimo y máximo.

A continuación se obtiene la prueba de homogeneidad de las varianzas mediante el estadístico

de Levene, el cual permite contrastar la hipótesis de que las varianzas poblacionales son iguales.

Junto con el valor del estadístico de Levene (0,873) aparecen los grados de libertad de su

distribución 1 2, 2 24gl gl y el nivel crítico o probabilidad de obtener valores como el

obtenido o mayores .Sig . Puesto que el nivel crítico vale 0,430 es mayor que 0,05, por lo que

debemos aceptar la hipótesis de igualdad de varianzas y concluir que, en los grupos definidos

por las tres dietas diferentes, las varianzas de la variable “Porcentaje de deformes” son iguales.

El siguiente cuadro refleja el análisis ANOVA en sí.

Page 41: Análisis estadístico multivariante de un conjunto de datos

37

El valor del estadístico F es 18,874 y puesto que . 0,000Sig es menor que 0,05 rechazamos

la hipótesis de igualdad de medias y concluimos que las larvas alimentadas con dietas diferentes

no poseen el mismo porcentaje medio de larvas deformes.

El estadístico F del ANOVA únicamente nos permite contrastar la hipótesis general de que los

promedios comparados son iguales. Al rechazar esa hipótesis, sabemos que las medias

poblacionales comparadas no son iguales, pero no sabemos dónde en concreto se encuentran las

diferencias: ¿son diferentes entre sí todas las medias?, ¿hay sólo una media que difiere de las

demás?, etc. Para saber qué media difiere de qué otra debemos utilizar un tipo particular de

contrastes denominados comparaciones múltiples post hoc o comparaciones a posteriori.

Por lo tanto, la siguiente tabla de comparaciones múltiples permite, una vez rechazada la

hipótesis general del ANOVA, averiguar qué medias en concreto difieren de qué otras.

La primera columna nos indica que hemos seleccionado dos procedimientos post hoc: la

diferencia honestamente significativa (HSD) de Tukey y el método de Games-Howell. El

primero se utiliza cuando asumimos varianzas iguales y el segundo cuando no es posible

hacerlo.

A continuación aparecen todas las posibles combinaciones dos a dos entre los niveles o

categorías de la variable factor (Dieta), las diferencias entre los porcentajes medios de deformes

de cada dos grupos, el error típico de esas diferencias y el nivel crítico asociado a cada

diferencia .Sig . Los grupos cuyas medias difieren significativamente al nivel 0,05 están

marcados con un asterisco. Podemos comprobar que el número de diferencias significativas

detectadas no es el mismo con los dos métodos utilizados. Puesto que podemos asumir

varianzas poblacionales iguales (ver el resultado de la prueba de Levene anterior), debemos

prestar atención a la solución propuesta por el método (HSD) de Tukey. Podemos concluir que

todos los promedios comparados difieren significativamente, por lo tanto, las larvas alimentadas

con la dieta con nivel DHA/EPA=0,15 presentan un porcentaje medio de larvas deformes mayor

que las alimentadas con un nivel DHA/EPA=0,5 y éstas mayor que las que han comido un

alimento con nivel DHA/EPA=1,2.

Los límites del intervalo de confianza de las dos últimas columnas permiten estimar entre qué

limites se encuentra la verdadera diferencia entre las medias de los grupos. Estos intervalos

también permiten tomar decisiones sobre si dos promedios difieren o no significativamente

Page 42: Análisis estadístico multivariante de un conjunto de datos

38

(dependiendo de que el intervalo incluya o no el valor cero). Pero al utilizar estos intervalos

para decidir sobre la hipótesis de igualdad de medias hay que tener en cuenta que el intervalo se

obtiene individualmente para cada diferencia, sin establecer control sobre la tasa de error, por lo

que las decisiones que podamos tomar basándonos en estos intervalos serán demasiado

arriesgadas.

La última tabla muestra una clasificación de los grupos basada en el grado de parecido existente

entre sus medias. Debido que para nuestro caso se han encontrado diferencias significativas

entre los tres grupos, se han generado tres subconjuntos homogéneos (uno para cada grupo) con

sus correspondientes medias.

Por último, se muestra el gráfico de medias donde podemos comprobar visualmente la tendencia

descrita por el porcentaje de deformes frente al tipo de dieta. Claramente la cantidad de larvas

deformes disminuyen al ser elimentadas con una dieta más rica en DHA/EPA.

3.4.1.2. Deformes frente a Tª.

La tabla “Descriptivos” muestra, para cada grupo y para el total muestral, el número de casos,

la media, la desviación típica, el error típico de la media, los límites del intervalo de confianza

para la media al 95 % y los valores mínimo y máximo.

Page 43: Análisis estadístico multivariante de un conjunto de datos

39

El siguiente cuadro refleja el análisis ANOVA en sí. El valor del estadístico F vale 1,445.

Puesto que su . 0,255Sig es mayor que 0,05 aceptamos la hipótesis de igualdad de medias y

concluimos que las larvas mantenidas a temperaturas diferentes poseen el mismo porcentaje

medio de larvas deformes.

Por lo tanto, el análisis ANOVA no ha encontrado diferencias significativas a un nivel de

significación 0,05 entre el porcentaje de larvas deformes y la temperatura de cultivo.

Observemos la gráfica de medias que se muestra a continuación y que representa el porcentaje

de deformes frente a las diferentes temperaturas de cultivo.

Podemos comprobar visualmente la tendencia descrita por la curva. Claramente la cantidad de

larvas deformes tiende a aumentar al ser mantenidas a una mayor temperatura, aunque este

incremento no sea significativo estadísticamente.

3.4.1.3. Deformes frente a densidad de cultivo.

Nuevamente, la tabla “Descriptivos” muestra, para cada grupo y para el total muestral, el

número de casos, la media, la desviación típica, el error típico de la media, los límites del

intervalo de confianza para la media al 95 % y los valores mínimo y máximo.

Page 44: Análisis estadístico multivariante de un conjunto de datos

40

A continuación se obtiene el estadístico de Levene, el cual permite contrastar la hipótesis de que

las varianzas poblacionales son iguales.

Puesto que el nivel crítico del estadístico vale 0,310 es mayor que 0,05, por lo que debemos

aceptar la hipótesis de igualdad de varianzas y concluir que, en los grupos de larvas mantenidas

a diferentes densidades de cultivo, las varianzas de la variable “Porcentaje de deformes” son

iguales.

A continuación se muestra el cuadro del ANOVA.

Puesto que F tiene . 0,045Sig menor que 0,05 rechazamos la hipótesis de igualdad de

medias y concluimos que las larvas cultivadas a diferente densidad no presentan el mismo

porcentaje medio de deformes.

La siguiente tabla de comparaciones múltiples permite, una vez rechazada la hipótesis general

del ANOVA de que todas las medias son iguales, averiguar qué medias en concreto difieren de

qué otras.

Los grupos cuyas medias difieren significativamente al nivel 0,05 están marcados con un

asterisco. Puesto que podemos asumir varianzas poblacionales iguales (ver resultado de la

prueba de Levene ), debemos prestar atención a la solución propuesta por el método (HSD) de

Tukey. A pesar de que la ANOVA concluye que existen diferencias significativas en el

porcentaje de larvas deformes en función de la densidad de cultivo, el análisis de comparaciones

múltiples no encuentra diferencias significativas entre los promedios comparados. Por lo tanto,

no podemos afirmar que alguna de las densidades de cultivo afecta significativamente sobre el

porcentaje de larvas deformes.

Page 45: Análisis estadístico multivariante de un conjunto de datos

41

La última tabla muestra una clasificación de los grupos basada en el grado de parecido existente

entre sus medias. Debido a que para nuestro caso no se han encontrado diferencias significativas

entre los tres grupos, se ha generado sólo un subgrupo homogéneo que los contiene a todos.

Por lo tanto, el análisis ANOVA ha encontrado diferencias a un nivel de significación 0,05 entre

el porcentaje de larvas deformes y la densidad de cultivo, mientras que el análisis anterior no lo

ha ratificado. Observemos la gráfica de medias que se muestra a continuación y que representa

el porcentaje de deformes frente a las diferentes densidades.

Podemos comprobar visualmente la tendencia descrita por la gráfica. Claramente la cantidad de

larvas deformes tiende a aumentar al ser cultivadas a una mayor densidad, siendo este efecto

mucho más marcado al subir de 20 a 40 larvas/litro.

3.4.1.4. Supervivencia frente a Dieta.

Al igual que en los casos anteriores, la primera tabla denominada “Descriptivos” muestra, para

cada grupo y para el total muestral, el número de casos, la media, la desviación típica, el error

típico de la media, los límites del intervalo de confianza para la media al 95 % y los valores

mínimo y máximo.

Page 46: Análisis estadístico multivariante de un conjunto de datos

42

La prueba de homogeneidad de las varianzas permite, mediante el estadístico de Levene,

contrastar la hipótesis de que las varianzas poblacionales son iguales.

Como el nivel crítico del estadístico vale 0,164 y es mayor que 0,05, debemos aceptar la

hipótesis de igualdad de varianzas y concluir que, en los grupos definidos por las tres dietas

diferentes, las varianzas de la variable “Porcentaje de supervivencia” son iguales.

En la siguiente tabla se muestran los resultados del análisis ANOVA.

Puesto que para el estadístico F la . 0,000Sig es menor que 0,05 rechazamos la hipótesis de

igualdad de medias y concluimos que las larvas alimentadas con dietas diferentes no poseen el

mismo porcentaje medio de supervivientes.

La siguiente tabla de comparaciones múltiples permite, una vez rechazada la hipótesis general

del ANOVA de que todas las medias son iguales, averiguar qué medias en concreto difieren de

qué otras.

Los grupos cuyas medias difieren significativamente al nivel 0,05 están marcados con un

asterisco. Puesto que hemos asumido varianzas poblacionales iguales (ver prueba de Levene

anterior), debemos prestar atención a la solución propuesta por el método (HSD) de Tukey.

Podemos concluir que sólo difieren significativamente los promedios comparados entre los

niveles 1,20 respecto a 0,15 y 0,50 de la v.i.; sin embargo no se han encontrado diferencias

significativas entre los niveles 0,15 y 0,5 de la Dieta. Por lo tanto, las larvas alimentadas con la

dieta con relación DHA/EPA=1,20 presentan una supervivencia media mayor que las

Page 47: Análisis estadístico multivariante de un conjunto de datos

43

alimentadas con un nivel DHA/EPA=0,15 y 0,5. Entre estos dos últimos niveles no se han

obtenidas diferencias significativas en la supervivencia media de las larvas.

La última tabla muestra una clasificación de los grupos basada en el grado de parecido existente

entre sus medias. Debido que para nuestro caso se han encontrado diferencias significativas

entre uno de los grupos respecto a los otros dos, se han generado dos subconjuntos homogéneos

(uno para cada grupo) con sus correspondientes medias.

El primero incluye a los dos grupos entre los que no se han observado diferencias significativas

(niveles de la Dieta 0,5 y 0,15) y el segundo el nivel que difiere significativamente de los dos

anteriores (1,20).

Por último, se muestra el gráfico de medias donde podemos comprobar visualmente la tendencia

descrita por la supervivencia frente al tipo de dieta.

Claramente la supervivencia es mucho mayor con la dieta más rica en DHA/EPA.

3.4.1.5. Supervivencia frente a Tª.

La tabla “Descriptivos” muestra, para cada grupo y para el total muestral, el número de casos,

la media, la desviación típica, el error típico de la media, los límites del intervalo de confianza

para la media al 95 % y los valores mínimo y máximo.

Page 48: Análisis estadístico multivariante de un conjunto de datos

44

El siguiente cuadro muestra el análisis ANOVA en sí. El valor del estadístico F vale 2,930 y

puesto que su . 0,073Sig es mayor que 0,05 aceptamos la hipótesis de igualdad de medias y

concluimos que las larvas mantenidas a temperaturas diferentes tienen la misma supervivencia

media.

.

Por lo tanto, el análisis ANOVA no ha encontrado diferencias significativas a un 0,05 entre la

supervivencia larvaria y la temperatura de cultivo. Observemos la gráfica de medias que se

muestra a continuación y que representa el porcentaje de supervivencia frente a las diferentes

temperaturas de cultivo.

Podemos comprobar visualmente una clara tendencia en la supervivencia, de forma que

disminuye a medida que la temperatura va en aumento. Sin embargo, este incremento no ha sido

estadísticamente significativo a nivel 0,05.

3.4.1.6. Supervivencia frente a Densidad de cultivo.

La primera salida muestra los datos descriptivos para cada grupo y el total de la muestra:

número de casos, media, desviación típica, error típico, intervalo de confianza al 95% y los

valores mínimo y máximo.

Page 49: Análisis estadístico multivariante de un conjunto de datos

45

El análisis ANOVA se muestra a continuación.

El valor del estadístico F vale 1,251 y puesto que su . 0,304Sig es mayor que 0,05

aceptamos la hipótesis de igualdad de medias y concluimos que las larvas cultivadas a

densidades diferentes tienen la misma supervivencia media.

Por lo tanto, el análisis ANOVA no ha encontrado diferencias significativas a un nivel 0,05

entre la supervivencia larvaria y la densidad de cultivo. Observemos la gráfica de medias que se

muestra a continuación y que representa el porcentaje de supervivencia frente a las diferentes

densidades.

La línea muestra una tendencia constante a disminuir la supervivencia a medida que

aumentamos el número de larvas cultivadas por litro.

3.4.1.7. Peso final frente a Dieta.

La primera tabla denominada “Descriptivos” muestra, para cada grupo y para el total muestral,

el número de casos, la media, la desviación típica, el error típico de la media, los límites del

intervalo de confianza para la media al 95 % y los valores mínimo y máximo.

A continuación, contrastamos la hipótesis de que las varianzas poblacionales son iguales

mediante el estadístico de Levene.

Page 50: Análisis estadístico multivariante de un conjunto de datos

46

Como el nivel crítico del estadístico vale 0,000 y es menor que 0,05, debemos rechazar la

hipótesis de igualdad de varianzas y concluir que, en los grupos definidos por las tres dietas

diferentes, las varianzas de la variable “Peso final” no son iguales.

En la siguiente tabla se muestran los resultados del análisis ANOVA.

Puesto que para el estadístico F la . 0,001Sig es menor que 0,05 rechazamos la hipótesis de

igualdad de medias y concluimos que las larvas alimentadas con dietas diferentes no tienen el

mismo peso medio final.

El cuadro de comparaciones múltiples permite, una vez rechazada la hipótesis general del

ANOVA de que todas las medias son iguales, averiguar qué medias en concreto difieren de qué

otras.

Los grupos cuyas medias difieren significativamente al nivel 0,05 están marcados con un

asterisco. Puesto que no podemos asumir varianzas poblacionales iguales (ver prueba de Levene

anterior), debemos prestar atención a la solución propuesta por el método Games-Howell.

Podemos concluir que sólo difieren significativamente los promedios comparados entre los

niveles 1,20 respecto a 0,15 de la v.i.; sin embargo no se han encontrado diferencias

significativas entre los niveles 0,15 frente a 0,5 y 0,5 frente a 1,20 de la Dieta. Por lo tanto, las

larvas alimentadas con la dieta con nivel DHA/EPA=1,20 presentan un peso medio al final del

experimento mayor que las alimentadas con un nivel DHA/EPA=0,15. Entre el nivel 0,5 y los

otros dos (0,15 y 1,20) no se han encontrado diferencias significativas en el peso medio final de

las larvas.

Page 51: Análisis estadístico multivariante de un conjunto de datos

47

Por último, se muestra el gráfico de medias donde podemos comprobar visualmente la tendencia

mostrada por el peso final frente al tipo de dieta.

Claramente el peso medio se incrementa con la dieta, siendo mucho más marcado este aumento

en las larvas alimentadas con la dieta más rica en DHA/EPA.

3.4.1.8. Peso final frente a Tª.

La primera salida es la tabla “Descriptivos”. Muestra, para cada grupo y para el total muestral,

el número de casos, la media, la desviación típica, el error típico de la media, los límites del

intervalo de confianza para la media al 95 % y los valores mínimo y máximo.

A continuación se obtiene el estadístico de Levene, el cual permite contrastar la hipótesis de que

las varianzas poblacionales son iguales.

Puesto que el nivel crítico del estadístico vale 0,001 es menor que 0,05, por lo que debemos

rechazar la hipótesis de igualdad de varianzas y concluir que, en los grupos de larvas cultivadas

a diferentes temperaturas, las varianzas de la variable “Peso final” no son iguales.

A continuación se muestra el cuadro del ANOVA. Puesto que F tiene . 0,006Sig menor

que 0,05 rechazamos la hipótesis de igualdad de medias y concluimos que las larvas cultivadas

a diferente temperaturas no presentan el mismo peso medio final.

Page 52: Análisis estadístico multivariante de un conjunto de datos

48

La siguiente tabla de comparaciones múltiples permite, una vez rechazada la hipótesis general

del ANOVA de que todas las medias son iguales, averiguar qué medias en concreto difieren de

qué otras.

Los grupos cuyas medias difieren significativamente al nivel 0,05 están marcados con un

asterisco. Puesto que no podemos asumir varianzas poblacionales iguales (ver resultado de la

prueba de Levene ), debemos prestar atención a la solución propuesta por el método propuesto

por Games-Howell. Podemos concluir que sólo difieren significativamente los promedios

comparados entre las temperaturas 22ºC respecto a 16ºC; sin embargo no se han encontrado

diferencias significativas entre las niveles 22ºC frente a 16ºC y 16ºC frente a 19ºC de la v.i. Por

lo tanto, las larvas cultivadas a 22ºC presentan un peso medio al final del experimento

significativamente mayor que las mantenidas a 16ºC. Entre los otros niveles no se han

encontrado diferencias significativas en el peso medio final de las larvas.

La última tabla muestra una clasificación de los grupos basada en el grado de parecido existente

entre sus medias. Debido que para nuestro caso sólo se han encontrado diferencias significativas

entre el primero y el último grupo de temperaturas, se han generado dos subconjuntos

homogéneos que contienen a las temperaturas 16ºC-19ºC y 19ºC-22ºC con sus correspondientes

medias.

Esta clasificación por subgrupos no está disponible con todos los procedimientos post-hoc y esta

es la razón por la cual, a pesar de que no podemos suponer que las varianzas poblacionales son

iguales, la clasificación en subgrupos homogéneos de la tabla anterior se ha realizado utilizando

el procedimiento de Tukey en lugar del de Games-Howell.

Page 53: Análisis estadístico multivariante de un conjunto de datos

49

Observemos por último la gráfica de medias que se muestra a continuación y que representa el

peso final frente a las diferentes temperaturas de cultivo.

Podemos comprobar visualmente que el peso medio al final del experimento es mayor a medida

que aumentamos la temperatura, siendo este efecto significativo si comparamos los resultados

obtenidos entre 16ºC y 22ºC.

3.4.1.9. Peso final frente a densidad de cultivo.

La primera salida muestra los datos descriptivos para cada grupo y el total de la muestra:

número de casos, media, desviación típica, error típico, intervalo de confianza al 95% y los

valores mínimo y máximo.

El análisis ANOVA se muestra a continuación. El valor del estadístico F vale 0,201 y puesto

que su . 0,820Sig es mayor que 0,05 aceptamos la hipótesis de igualdad de medias y

concluimos que las larvas cultivadas a densidades diferentes tienen el mismo peso medio final.

Por lo tanto, el análisis ANOVA no ha encontrado diferencias significativas a un nivel 0,05

entre el peso final de las larvas y la densidad de cultivo a la que fueron sometidas.

Page 54: Análisis estadístico multivariante de un conjunto de datos

50

Observemos, por lo tanto, la gráfica de medias que se muestra a continuación y que representa

el peso final frente a las diferentes densidades. Nos puede dar una idea de la tendencia general

del proceso.

Vemos que para este caso no diferenciamos un patrón claro de tendencia. El peso medio de las

larvas es mayor a densidad media (20 larvas/litro) respecto a los otros dos niveles. A pesar de

todo, estas diferencias son demasiado pequeñas y podemos considerar que el peso medio final

de las larvas cultivadas a diferentes densidades es prácticamente igual.

3.4.2. ANOVAs de dos factores.

Los modelos factoriales de análisis de varianza sirven para evaluar el efecto individual y

conjunto de dos o más factores sobre una variable dependiente cuantitativa. Utilizar más de un

factor en un mismo diseño posee la ventaja de poder estudiar el efecto que la interacción entre

ellos genera en la variable respuesta. En un modelo de dos factores, los efectos de interés son

tres: los dos efectos principales (uno por cada factor) y el efecto de la interacción entre ambos

factores.

En un análisis de varianza factorial existe una hipótesis nula por cada factor y por cada posible

combinación de factores:

La hipótesis nula referida a un factor afirma que las medias de las poblaciones definidas

por los niveles del factor son iguales.

La hipótesis referida al efecto de una interacción afirma que tal efecto es nulo.

Para contrastar estas hipótesis, el ANOVA factorial se sirve de estadísticos F basados en la

lógica ya expuesta en el apartado anterior al estudiar el modelo de un factor. Así pues, para cada

efecto existe una hipótesis y para cada hipótesis un estadístico F que permite contrastarla. Y al

igual que en el ANOVA de un factor, el nivel crítico asociado a cada estadístico F es quien nos

permite decidir si podemos mantener o debemos rechazar una hipótesis.

De modo similar a como ocurre en el ANOVA de un factor, en un ANOVA factorial se trabaja

con tantas poblaciones como casillas resultan de la combinación de todos los niveles de los

factores involucrados. Por ejemplo, en un ANOVA de dos factores, con 3 niveles en un factor y

3 en otro, trabajamos con las 3×3 = 9 poblaciones definidas por la combinación de niveles de

ambos factores. El modelo supone que esas 9 poblaciones son normales, que sus varianzas son

Page 55: Análisis estadístico multivariante de un conjunto de datos

51

iguales y que las observaciones han sido aleatoriamente seleccionadas y que, por tanto, son

independientes entre sí.

Como en el apartado anterior ya hemos valorado los efectos individuales de cada uno de los

factores independientemente sólo comprobaremos si existe interacción entre los dos factores a

estudio y estimaremos el efecto que esta interacción genere en la variable respuesta.

3.4.2.1. Deformes frente a Dieta y Tª.

La primera salida del programa es una tabla que muestra el nombre de las variables

independientes (factores), sus niveles, incluidas las etiquetas de los valores, y el número de

casos que hay en cada grupo.

La tabla resumen del ANOVA que se muestra a continuación (Pruebas de los efectos inter-

sujetos) contiene la misma información que la tabla resumen del modelo de un factor: las

fuentes de variación, las sumas de cuadrados, los grados de libertad gl , las medias

cuadráticas, los estadísticos F y los niveles críticos .Sig asociados a cada estadístico F .

Pero, ahora, toda esa información está referida no sólo a un factor, sino a los tres efectos

presentes en un modelo de dos factores.

La fila “Modelo corregido” se refiere a todos los efectos del modelo tomados juntos (el efecto

de los dos factores, el de la interacción y el de la constante o intersección). El nivel crítico

asociado al estadístico F (p = 0,000 < 0,05) nos está diciendo que el modelo explica una parte

significativa de la variación observada en la variable dependiente (Porcentaje de deformes). El

valor de 2 0,723R , que se obtiene dividiendo la suma de cuadrados del Modelo corregido

entre la suma de cuadrados Total corregida, indica que los tres efectos incluidos en el modelo

(Dieta, Tª y Dieta*Tª) están explicando el 72,3 % de la varianza de la variable dependiente.

La fila Intersección informa sobre la constante del modelo. Esta constante forma parte del

modelo y es necesaria para obtener las estimaciones de las medias de cada casilla. Además,

Page 56: Análisis estadístico multivariante de un conjunto de datos

52

permite contrastar, en el caso de que esto tenga sentido, la hipótesis de que la media total de la

variable dependiente vale cero en la población.

La dos filas siguientes recogen los efectos principales, es decir, los efectos individuales de los

dos factores incluidos en el modelo: Dieta y Tª. Los niveles críticos .Sig indican que,

mientras los grupos definidos por la variable Dieta poseen porcentajes medios de larvas

deformes significativamente diferentes . 0,000 0,05Sig , los porcentajes medios de

larvas deformes definidos por la variable Tª no difieren . 0,127 0,05Sig .

La siguiente fila contiene la información que más nios interesa, que es el efecto de la interacción

entre Dieta y Tª. El estadístico F correspondiente a este efecto lleva asociado un nivel crítico

de 0,990, lo cual indica que la interacción Dieta-Tª no posee un efecto significativo sobre el

porcentaje de larvas deformes. Por lo tanto, el único efecto significativo es el generado por la

variable Dieta y que ya se ha descrito en el apartado anterior.

3.4.2.2. Resto de ANOVAs de dos factores.

Si realizamos el mismo análisis para el resto de posibles combinaciones de las variables

independientes estudiados anteriormente obtendremos el mismo resultado de no existencia de

efecto significativo de la interacción de los factores sobre la respuesta (a excepción del Peso

final frente a Dieta y Tª). Las tablas resúmen de todos los posibles ANOVAs de dos factores,

excepto el indicado anteriormente, se mostrarán en conjunto para demostrar la no existencia de

interacción.

Deformes frente a Dieta y Densidad de cultivo.

Deformes frente a Densidad de cultivo y Tª.

Page 57: Análisis estadístico multivariante de un conjunto de datos

53

Supervivencia frente a Dieta y Tª.

Supervivencia frente a Dieta y Densidad de cultivo.

Supervivencia frente a Densidad de cultivo y Tª.

Peso final frente a Dieta y Densidad de cultivo.

Page 58: Análisis estadístico multivariante de un conjunto de datos

54

Peso final frente a Densidad de cultivo y Tª.

Como en todos los casos el valor del estadístico F asociado al efecto de la interacción entre las

dos variables independientes es mayor que 0,05 indica que dicha interacción no posee un efecto

significativo sobre la varaiable respuesta correspondiente.

3.4.2.3. Peso final frente a Dieta y Tª.

Para este último caso haremos un análisis un poco más detallado. La tabla “Factores inter-

sujetos” muestra el nombre de las variables independientes (factores), sus niveles, incluidas las

etiquetas de los valores, y el número de casos que hay en cada grupo.

La tabla resumen del ANOVA que se muestra a continuación contiene toda la información

referida a los tres efectos presentes en el modelo de dos factores.

La fila “Modelo corregido” se refiere a todos los efectos del modelo tomados juntos (el efecto

de los dos factores, el de la interacción y el de la constante o intersección). El nivel crítico

asociado al estadístico F (p = 0,000 < 0,05) nos está diciendo que el modelo explica una parte

significativa de la variación observada en la variable dependiente (Peso final). El valor tan alto

obtenido de 2 0,956R indica que los tres efectos incluidos en el modelo (Dieta, Tª y

Dieta*Tª) están explicando el 95,6 % de la varianza de la variable dependiente.

Page 59: Análisis estadístico multivariante de un conjunto de datos

55

La fila Intersección informa sobre la constante del modelo. Esta constante forma parte del

modelo y es necesaria para obtener las estimaciones de las medias de cada casilla.

La dos filas siguientes recogen los efectos principales, es decir, los efectos individuales de los

dos factores incluidos en el modelo: Dieta y Tª. Los niveles críticos .Sig indican, como ya se

había observado en el ANOVA de un factor, que tanto los grupos definidos por la variable Dieta

como los definidos por la Tª poseen Pesos medios finales de larvas significativamente diferentes

. 0,000 0,05Sig .

La siguiente fila contiene la información que más nos interesa, que es el efecto de la interacción

entre Dieta y Tª. El estadístico F correspondiente a este efecto lleva asociado un nivel crítico

de 0,000, lo cual indica que la interacción Dieta-Tª ejerce un efecto significativo sobre el Peso

final de las larvas. Sólo con este dato, ya podemos anticipar que las diferencias en los pesos

medios que se dan entre las distintas Dietas no son las mismas en las tres temperaturas

consideradas.

Las comparaciones múltiples post hoc vistas en el apartado anterior suelen proporcionar toda la

información necesaria para poder interpretar correctamente un efecto principal significativo.

Pero no ocurre lo mismo con los efectos de las interacciones. La interpretación correcta de una

interacción suele requerir la ayuda de un gráfico de líneas o también llamado gráfico de perfil.

En un gráfico de perfil sobre la interacción entre dos factores el eje de ordenadas representa la

escala de las medias de la variable dependiente, el eje de abscisas los niveles del primer factor y

las líneas del gráfico representan los niveles del segundo factor. Para nuestro caso es gráfico de

líneas se muestra a continuación.

Una rápida inspección de las líneas nos pone en la pista del significado de esta interacción. En

principio, para la Tª de 16ºC, todas las dietas tienen un peso medio final de las larvas

prácticamente igual y próximo a 2 mg. Para la Tª de 19ºC las diferencias de peso final en los

peces alimentados con la Dieta 1,20 parecen significativas con respecto a las otras dos (0,15 y

0,5). Por último, para la Tª de 22ºC, las diferencias de peso final entre las tres dietas parecen

evidentes. Por tanto, las diferencias de Peso final entre los tres tipos de dieta parece no ser la

misma a lo largo de todas las temperaturas de cultivo.

Page 60: Análisis estadístico multivariante de un conjunto de datos

56

Finalmente, la siguiente tabla resumen muestra todos los ANOVAs que se han llevado a cabo y

sus resultados.

Variables Variables independientes

dependientes Dieta Tª Dens. Dieta+Tª Dieta+Dens. Dens.+Tª

Deformes

SÍ NO

SÍ NO NO NO

Dieta Tª Dens.

ab/ac/bc - - -

0,15 16 10 a

Supervivencia SÍ

NO NO NO NO NO

0,50 19 20 b

ab/ac

1,20 22 40 c

Peso final SÍ SÍ

NO SÍ NO NO

ac ac

En la columna de la izquierda aparecen las variables dependientes y en la primera línea

horizontal las independientes y sus combinaciones. Hemos identificado cada nivel de las

variables independientes como a, b y c de forma que cuando un ANOVA da significativo es

marcado en la correspondiente casilla con un SÍ. Debajo se incorpora el resultado de las

comparaciones múltiples que indican entre qué niveles de la variable existen diferencias

significativas. Un caso particular es el caso estudiado entre Deformes en función de la densidad

de cultivo. El ANOVA da significativo, mientras que las comparaciones múltiples no.

Finalmente comprobamos que el único ANOVA de dos factores que ha sido significativo es el

que ha enfrentado el Peso final a la Dieta y Tª.

Page 61: Análisis estadístico multivariante de un conjunto de datos

57

4. Conclusiones.

Para conseguir responder las preguntas que nos hemos planteado al inicio de este trabajo, los

datos de partida han sido analizados utilizando varios métodos estadísticos que intentaron

predecir el comportamiento de las variables dependientes frente a los factores y, además, medir

la relación existente entre ellos.

Mediante la regresión lineal múltiple se ha intentado demostrar la existencia de una relación

entre el porcentaje de peces deformes en función de la Dieta, la Tª y la Densidad de cultivo. El

análisis de los datos ha concluido con la obtención de un modelo en el que han sido

incorporadas las tres variables independientes y excluida la constante.

Tomando D como el porcentaje de larvas deformes, E la dieta enriquecida suministrada, C la

densidad o concentración de cultivo y T la temperatura, nuestro modelo ha sido:

ˆ 12,063 0,254 0,889D E C T

Todos los supuestos de validez del modelo (existencia de linealidad entre las variables, no

colinealidad, independencia, homocedasticidad y normalidad de los residuos) se han cumplido

sin excepciones; además, el valor de 2 0,92corregidoR indica que el ajuste a nuestros datos ha

sido muy bueno.

El mayor efecto en la predicción del porcentaje de larvas con deformidades esqueléticas D es

el asociado a la variable Dieta E con un 77,9%, mientras que las variables Densidad C y

Temperatura T tienen un efecto más moderado aunque destacado del 46,8% y 32,2%

respectivamente. Además, podemos comprobar que la relación entre la dieta y la presencia de

individuos deformes es negativa, por lo que un aumento en la relación DHA/EPA provoca que

disminuyan los valores de la variable respuesta. Con las otras dos variables ocurre lo contrario.

Otra herramienta que nos ha ayudado a predecir la probabilidad de padecer deformidad (D)

esquelética en función de estas tres variables independientes ha sido mediante un modelo de

regresión logística de respuesta binomial con variables explicativas categóricas tratando

nuestras tres variables explicativas como factores cualitativos y utilizando el método parcial de

codificación respecto a la primera categoría.

El programa estima como más propicio un modelo de la forma

3 3 3

0

2 2 2

ln1

ijk E E T T C C

ijk m im m jm m km

m m mijk

pL X X X

p

para explicar los datos observados, incorporando las tres variables explicativas. Al igual que el

modelo lineal de regresión ninguna de las tres variables es excluida del proceso.

Para medir la bondad de ajuste del modelo se realizó un test asintótico tradicional. Para la

validación del mismo se han analizado los residuos estandarizados de Pearson (son todos no

significativos) y para estudiar la significación estadística de los parámetros el test de Wald. Los

resultados obtenidos muestran que el modelo se ajusta bien tanto de forma general como dato a

Page 62: Análisis estadístico multivariante de un conjunto de datos

58

dato y que sus parámetros son significativamente distintos de cero excepto los asociados a las

segundas categorías de las variables explicativas temperatura2( )T y densidad de cultivo

2( )C .

Por lo tanto, nuestro modelo final quedó de la siguiente forma

0 2 2 3 3 4 4 3 3 4 4ln1

ijk P P P P P P C C C C

ijk i i i i i

ijk

pL X X X X X

p

.

Los cocientes de ventajas muestran como las probabilidades de padecer deformidades aumentan

a temperaturas y densidades de cultivo elevadas, mientras que disminuyen al aumentar el

porcentaje DHA/EPA en la dieta. Estas mismas conclusiones se obtienen con la regresión lineal

múltiple anterior.

Por último se han realizado ANOVAs de uno y dos factores enfrentando nuestra variable

dependiente con los factores. Además, también se ha medido el efecto que producen la Dieta, Tª

y Densidad de cultivo sobre las otras dos variables dependientes a estudio: %Supervivencia y

Peso final. La siguiente tabla resumen contienen los resultados obtenidos en todos estos análisis.

Variables Variables independientes

dependientes Dieta Tª Dens. Dieta+Tª Dieta+Dens. Dens.+Tª

Deformes

SÍ NO

SÍ NO NO NO

Dieta Tª Dens.

ab/ac/bc - - -

0,15 16 10 a

Supervivencia SÍ

NO NO NO NO NO

0,50 19 20 b

ab/ac

1,20 22 40 c

Peso final SÍ SÍ

NO SÍ NO NO

ac ac

En la columna de la izquierda aparecen las variables dependientes y en la primera fila las

independientes y sus combinaciones. Hemos identificado cada nivel de las variables

independientes como a, b y c de forma que cuando un ANOVA da significativo es marcado en

la correspondiente casilla con un SÍ. Debajo se incorpora el resultado de las comparaciones

múltiples que indican entre qué niveles de la variable existen diferencias significativas.

A diferencia de lo ocurido con las regresiones, al observar el porcentaje de deformes podemos

ver cómo el análisis excluye a la temperatura como factor que afecte significativamente sobre la

variable respuesta. Sólo Dieta y Densidad son significativos. Además, dentro de la Dieta se

observan diferencias significatvas en la respuesta entre cada uno de los niveles, de forma que

niveles más altos de DHA/EPA sugieren larvas con menor porcentaje de deformidades.

En el caso entre Deformes en función de la densidad de cultivo, el ANOVA da significativo

mientras que las comparaciones múltiples no encuentra diferencias significativas entre los

promedios comparados. Por lo tanto, no podemos afirmar que alguna de las densidades de

cultivo afecta significativamente sobre el porcentaje de larvas deformes. Observando los

gráficos de medias generados podemos sugerir cierta tendencia en el comportamiento de los

datos.

Page 63: Análisis estadístico multivariante de un conjunto de datos

59

A medida que aumentan la Densidad y Tª tiende a hacerlo también el porcentaje medio de larvas

deformes.

Con respecto a la supervivencia sólo se observan diferencias significativas con respecto a la

Dieta. La relación DHA/EPA=0,15 genera una supervivencia significatvamente menor que con

los otros dos niveles de enriquecimiento. Además, no se observan diferencias signifcativas con

respecto a la Tª y Densidad de cultivo, sin embargo sus gráficas de medias sugieren una

disminución de la supervivencia al aumentar ambos factores.

Con el Peso final obtenemos diferencias significativas entre los valores extremos de las

variables Dieta y Tª. Una dieta rica en DHA/EPA (1,20) aumenta significativamente el peso

medio comparada con otra más pobre (0,15). Del mismo modo, una temperatura de cultivo de

22ºC muestra diferencias significativas en el peso final de las larvas comparadas con otras

mantenidas a 16ºC.

El único ANOVA de dos factores que ha sido significativo es el que ha enfrentado el Peso final

a la Dieta y Tª.

El siguiente gráfico de perfil muestra la interacción entre los dos facores. A 16ºC, todas las

dietas tienen un peso medio final de las larvas prácticamente igual y próximo a 2 mg. A 19ºC

las diferencias de peso final en los peces alimentados con la Dieta 1,20 parecen significativas

Page 64: Análisis estadístico multivariante de un conjunto de datos

60

con respecto a las otras dos (0,15 y 0,5). Por último, a 22ºC, las diferencias de peso final entre

las tres dietas parecen evidentes.

Por lo tanto, las diferencias de Peso final entre los tres tipos de dieta parece no ser la misma a lo

largo de todas las temperaturas de cultivo.

Del estudio general de los resultados se concluye que, para el conjunto de datos de partida,

hemos encontrado dos modelos diferentes (RLM y regresión logística) que se han demostrado

muy buenos predictores del porcentaje de peces deformes en función de la Dieta, la Tª y la

Densidad de cultivo. Además, en conjunto con los ANOVAs, sugieren que la variable Dieta es

la que tiene un mayor efecto sobre la aparición de deformidades. Niveles altos de DHA/EPA

garantizan bajos niveles de malformaciones en los peces mientras que para las otras dos

variables no se han encontrado diferencias significativas sobre la respuesta.

La supervivencia y el peso final de las larvas se ven favorecidos significativamente por la Dieta,

y el peso final, también por la temperatura. Por lo tanto, los mejores crecimientos se obtienen

con dietas equilibradas ricas en DHA/EPA y a altas temperaturas.

Analizando estos resultados, a nivel empresarial, una buena estrategia de un criadero podría ser

promover cultivos larvarios a temperaturas y densidades medio-altas (no olvidemos que altas

densidades sugerían descensos en los rendimientos de las variables dependientes) con dietas

equilibradas ricas en DHA/EPA. Bajo estas condiciones hemos obtenido los mejores resultados

de crecimiento, supervivencia y porcentaje de peces deformes que son los principales

parámetros que se intenta optimizar en el proceso productivo de las piscifactorías.

Page 65: Análisis estadístico multivariante de un conjunto de datos

61

Apéndice I. Tabla de datos. General

DIETA Tª DENSIDAD % DEFORMES

%SUPERV LONG. ΜEDIA (mm) PESO SECO (mg)

D1 D0 t0 t30 t60 t0 t30 t60

0,15

16

10 17 83 33,4 4,5 9,1 14,1 0,06 0,842 2,007

20 19 81 25,3 4,5 9 13,9 0,06 0,667 2,218

40 24 76 30,6 4,5 8,9 14 0,06 0,715 1,884

19

10 19 81 33,2 4,5 9,1 14,5 0,06 0,906 2,149

20 17 83 33,9 4,5 9,5 16,4 0,06 1,225 2,302

40 27 73 27,8 4,5 10 18,5 0,06 1,896 3,051

22

10 20 80 28,4 4,5 10,7 17,5 0,06 1,868 2,558

20 22 78 25,9 4,5 11,4 17,3 0,06 2,054 2,973

40 34 66 16,8 4,5 12,3 18,1 0,06 2,179 3,228

0,5

16

10 11 89 32,0 4,5 8,8 13,8 0,06 0,695 1,85

20 12 88 25,6 4,5 9,9 17,1 0,06 1,381 2,361

40 18 82 25,2 4,5 9,7 17 0,06 1,535 2,447

19

10 15 85 39,1 4,5 9,2 15.1 0,06 1,039 2,922

20 16 84 20,6 4,5 10,9 21,6 0,06 1,833 5,13

40 19 81 20,7 4,5 12,1 19,9 0,06 1,919 3,279

22

10 17 83 21,4 4,5 12,5 25 0,06 1,953 5,856

20 17 83 23,2 4,5 12,2 24,8 0,06 2,378 6,562

40 26 74 18,0 4,5 12,5 24,5 0,06 2,399 7,473

1,2

16

10 5 95 49,0 4,5 10,3 16,5 0,06 1,803 2,548

20 7 93 52,6 4,5 9,8 17,9 0,06 1,465 3,251

40 10 90 48,1 4,5 9,5 17,2 0,06 1,41 2,649

19

10 5 95 42,5 4,5 11,5 25,6 0,06 1,83 8,467

20 9 91 47,0 4,5 11,9 27,4 0,06 2,264 9,223

40 12 88 34,4 4,5 11,2 26 0,06 2,015 7,688

22

10 10 90 36,2 4,5 12,7 27,7 0,06 2,846 9,479

20 10 90 33,1 4,5 12,7 29,5 0,06 2,757 12,635

40 15 85 29,0 4,5 12,5 28,6 0,06 2,194 11,147

Page 66: Análisis estadístico multivariante de un conjunto de datos

62

“Deformes”. Datos para la regresión Datos para estudio descriptivo, regresión lineal

logística en R. y ANOVAs en SPSS.

Page 67: Análisis estadístico multivariante de un conjunto de datos

63

Apéndice II. Sintaxis utilizadas en SPSS.

Sintaxis del estudio descriptivo de las variables.

Variables independientes: Dieta, Tª y Densidad de cultivo.

DESCRIPTIVES

VARIABLES=Dieta Tª Densidad

/STATISTICS=MEAN STDDEV VARIANCE RANGE MIN MAX KURTOSIS SKEWNESS.

Variable dependiente: Deformes.

EXAMINE

VARIABLES=PorcentajeDeformes

/PLOT NONE

/STATISTICS DESCRIPTIVES

/CINTERVAL 95

/MISSING LISTWISE

/NOTOTAL.

Variable dependiente: Supervivencia.

EXAMINE

VARIABLES=PorcentajeSuperv

/PLOT NONE

/STATISTICS DESCRIPTIVES

/CINTERVAL 95

/MISSING LISTWISE

/NOTOTAL.

Variable dependiente: Peso final.

EXAMINE

VARIABLES=Pesof

/PLOT NONE

/STATISTICS DESCRIPTIVES

/CINTERVAL 95

/MISSING LISTWISE

/NOTOTAL.

Sintaxis regresión lineal múltiple.

Gráficas de dispersión.

GRAPH

/SCATTERPLOT(BIVAR)=Dieta WITH PorcentajeDeformes

/MISSING=LISTWISE.

GRAPH

/SCATTERPLOT(BIVAR)=Tª WITH PorcentajeDeformes

/MISSING=LISTWISE.

Page 68: Análisis estadístico multivariante de un conjunto de datos

64

GRAPH

/SCATTERPLOT(BIVAR)=Densidad WITH PorcentajeDeformes

/MISSING=LISTWISE.

Prueba de normalidad de las variables.

EXAMINE

/VARIABLES=PorcentajeDeformes Dieta Tª Densidad

/PLOT NPPLOT

/STATISTICS NONE

/CINTERVAL 95

/MISSING LISTWISE

/NOTOTAL.

Regresión lineal múltiple (stepwise).

REGRESSION

/MISSING LISTWISE

/STATISTICS COEFF OUTS CI R ANOVA COLLIN TOL CHANGE

/CRITERIA=PIN(.05) POUT(.10)

/NOORIGIN

/DEPENDENT PorcentajeDeformes

/METHOD=STEPWISE Dieta Tª Densidad

/SCATTERPLOT=(*ZPRED ,PorcentajeDeformes )

/RESIDUALS DURBIN HIST(ZRESID) NORM(ZRESID).

Gráficos Q-Q con pruebas de normalidad (K-S y S-W) para los residuos estandarizados.

EXAMINE

VARIABLES=ZRE_1

/PLOT NPPLOT

/STATISTICS DESCRIPTIVES

/CINTERVAL 95

/MISSING LISTWISE

/NOTOTAL.

Sintaxis ANOVAs.

ANOVAs de un factor.

Porcentaje de deformes frente a Dieta.

ONEWAY

PorcentajeDeformes BY Dieta

/STATISTICS DESCRIPTIVES HOMOGENEITY

/PLOT MEANS

/MISSING ANALYSIS

/POSTHOC = TUKEY GH ALPHA(.05).

Page 69: Análisis estadístico multivariante de un conjunto de datos

65

Porcentaje de deformes frente a Tª.

ONEWAY

PorcentajeDeformes BY Tª

/STATISTICS DESCRIPTIVES

/PLOT MEANS

/MISSING ANALYSIS.

Porcentaje de deformes frente a Densidad de cultivo.

ONEWAY

PorcentajeDeformes BY Densidad

/STATISTICS DESCRIPTIVES HOMOGENEITY

/PLOT MEANS

/MISSING ANALYSIS

/POSTHOC = TUKEY GH ALPHA(.05).

Supervivencia (%) frente a Dieta.

ONEWAY

PorcentajeSuperv BY Dieta

/STATISTICS DESCRIPTIVES HOMOGENEITY

/PLOT MEANS

/MISSING ANALYSIS

/POSTHOC = TUKEY GH ALPHA(.05).

Supervivencia (%) frente a Tª.

ONEWAY

PorcentajeSuperv BY Tª

/STATISTICS DESCRIPTIVES

/PLOT MEANS

/MISSING ANALYSIS.

Supervivencia (%) frente a Densidad de cultivo.

ONEWAY

PorcentajeSuperv BY Densidad

/STATISTICS DESCRIPTIVES

/PLOT MEANS

/MISSING ANALYSIS.

Peso final frente a Dieta.

ONEWAY

Pesof BY Dieta

/STATISTICS DESCRIPTIVES HOMOGENEITY

/PLOT MEANS

/MISSING ANALYSIS

/POSTHOC = TUKEY GH ALPHA(.05).

Page 70: Análisis estadístico multivariante de un conjunto de datos

66

Peso final frente a Tª.

ONEWAY

Pesof BY Tª

/STATISTICS DESCRIPTIVES HOMOGENEITY

/PLOT MEANS

/MISSING ANALYSIS

/POSTHOC = TUKEY GH ALPHA(.05).

Peso final frente a Densidad de cultivo.

ONEWAY

Pesof BY Densidad

/STATISTICS DESCRIPTIVES

/PLOT MEANS

/MISSING ANALYSIS.

ANOVAs de dos factores.

Porcentaje de deformes frente a Dieta y Tª.

UNIANOVA

PorcentajeDeformes BY Dieta Tª

/METHOD = SSTYPE(3)

/INTERCEPT = INCLUDE

/ PLOT = PROFILE( Dieta*Tª )

/CRITERIA = ALPHA(.05)

/DESIGN = Dieta Tª Dieta*Tª.

Porcentaje de deformes frente a Dieta y Densidad de cultivo.

UNIANOVA

PorcentajeDeformes BY Dieta Densidad

/METHOD = SSTYPE(3)

/INTERCEPT = INCLUDE

/PLOT = PROFILE( Dieta*Densidad )

/CRITERIA = ALPHA(.05)

/DESIGN = Dieta Densidad Dieta*Densidad.

Porcentaje de deformes frente a Densidad y Tª.

UNIANOVA

PorcentajeDeformes BY Densidad Tª

/METHOD = SSTYPE(3)

/INTERCEPT = INCLUDE

/PLOT = PROFILE( Densidad*Tª )

/CRITERIA = ALPHA(.05)

/DESIGN = Densidad Tª Densidad*Tª.

Page 71: Análisis estadístico multivariante de un conjunto de datos

67

Supervivencia frente a Dieta y Tª.

UNIANOVA

PorcentajeSuperv BY Dieta Tª

/METHOD = SSTYPE(3)

/INTERCEPT = INCLUDE

/CRITERIA = ALPHA(.05)

/DESIGN = Dieta Tª Dieta*Tª.

Supervivencia frente a Dieta y Densidad de cultivo.

UNIANOVA

PorcentajeSuperv BY Dieta Densidad

/METHOD = SSTYPE(3)

/INTERCEPT = INCLUDE

/CRITERIA = ALPHA(.05)

/DESIGN = Dieta Densidad Dieta*Densidad.

Supervivencia frente a Densidad de cultivo y Tª.

UNIANOVA

PorcentajeSuperv BY Densidad Tª

/METHOD = SSTYPE(3)

/INTERCEPT = INCLUDE

/CRITERIA = ALPHA(.05)

/DESIGN = Densidad Tª Densidad*Tª.

Peso final frente a Dieta y Densidad de cultivo.

UNIANOVA

Pesof BY Dieta Densidad

/METHOD = SSTYPE(3)

/INTERCEPT = INCLUDE

/CRITERIA = ALPHA(.05)

/DESIGN = Dieta Densidad Dieta*Densidad.

Peso final frente a Densidad de cultivo y Tª.

UNIANOVA

Pesof BY Densidad Tª

/METHOD = SSTYPE(3)

/INTERCEPT = INCLUDE

/CRITERIA = ALPHA(.05)

/DESIGN = Densidad Tª Densidad*Tª.

Peso final frente a Dieta y Tª.

UNIANOVA

Pesof BY Dieta Tª

/METHOD = SSTYPE(3)

/INTERCEPT = INCLUDE

/PLOT = PROFILE( Tª*Dieta )

/CRITERIA = ALPHA(.05)

/DESIGN = Dieta Tª Dieta*Tª.

Page 72: Análisis estadístico multivariante de un conjunto de datos

68

Apéndice III. Funciones y Script de la regresión logística en R.

Funciones.

contrasts(x, contrasts = TRUE, sparse = FALSE)

Descripción: Ajusta y muestra los contrastes asociados a un factor.

Argumentos:

x Un factor o variable lógica.

contrasts Muestra ‘Detalles’

sparse Indica si el resultado debería ser disperso usando el pack Matrix.

glm(formula, family = gaussian, data, weights, subset,

na.action, start = NULL, etastart, mustart, offset,

control = list(...), model = TRUE, method = "glm.fit",

x = FALSE, y = TRUE, contrasts = NULL, ...)

Descripción: se usa para ajustar modelos generalizados lineales proporcionando una

descripción simbólica del predictor lineal y del error de la distribución.

Argumentos más importantes:

formula Descripción simbólica del modelo que queremos ajustar.

family Descripción del tipo de función de distribución que será usada pata

obtener el modelo.

data conjunto de datos que queros ajustar.

step(object, scope, scale = 0,direction = c("both", "backward",

"forward"),trace = 1, keep = NULL, steps = 1000, k = 2, ...)

Descripción: selecciona la fórmula del modelo base utilizando el criterio de Akaike.

Argumentos más importantes:

object Un objeto representando un modelo de la clase adecuada que será usado

como modelo inicialen la búsqueda del stepwise.

scope Define los modelos inicial y final deseados mediante fórmulas de R. Se

trata de una lista con un elemento lower y otro upper.

direction Indica la dirección de la búsqueda en el proceso stepwise.

anova(object, ...)

Descripción: Aplica el análisis de varianza a uno o más modelos ajustados.

Confint.default(object, parm, level = 0.95, ...)

Descripción: Computa el intervalo de confianza para uno o más parámetros de un modelo

ajustado, asumiendo normalidad asintótica.

Page 73: Análisis estadístico multivariante de un conjunto de datos

69

fitted.values(object, ...)

Descripción: extrae los valores ajustados de un modelo obtenido por su función

correspondiente.

Predict.glm(object, newdata = NULL,

type = c("link", "response", "terms"),

se.fit = FALSE, dispersion = NULL, terms = NULL,

na.action = na.pass, ...)

Descripción: obtiene los valores predichos y los errores standard opcionales de un modelo ajustado mediante la función glm descrita anteriormente.

Argumentos más importantes:

newdata Donde se indica un nuevo Data-Frame con las observaciones a predecir

con sus respectivis valores en las variables explicativas.

type Donde se indica que calcule las probabilidades predichas (“response”),

el predictor (“link”) o los valores coreo o uno de la respuesta (“terms”).

Rstandard(model, ...)

hatvalues(model, ...)

cooks.distance(model, ...)

Descripción: Computan diferentes medidas de influencia para el diagnóstico del modelo

ajustado.

Page 74: Análisis estadístico multivariante de un conjunto de datos

70

Script de R.

#Lectura de datos guardados en carpeta en la unidad C. Nombre = Deformes.txt

Deformes<-read.table("C:\\Datos\\Deformes.txt",header=T,sep=" ")

#Para visualizar los datos

Deformes

#Comprobación método parcial de codificación.

contrasts(Deformes$Dieta)

contrasts(Deformes$Tª)

contrasts(Deformes$Dens)

#Para seleccionar y ajustar el MRL más adecuado. Selección de variables STEPWISE

Ajuste.Deformes.0<-glm(cbind(D1,D0)~1,family=binomial,data=Deformes)

Ajuste.Deformes.step<-step(Ajuste.Deformes.0,scope=list(lower=cbind(D1,D0)~1,

upper=cbind(D1,D0)~Dieta+Tª+Dens),direction="both")

#Resúmenes del proceso.

anova(Ajuste.Deformes.step)

summary(Ajuste.Deformes.step)

summary(Ajuste.Deformes.step)$coefficients

#ESTUDIO BONDAD DE AJUSTE

1-pchisq(3.4857,20)

#COCIENTES DE VENTAJAS

#Tabla resumen de los coeficientes con significación estadística (Pr>|z|)

summary(Ajuste.Deformes.step)$coefficients

#Exponencial de los parametros

exp(summary(Ajuste.Deformes.step)$coefficients[2,1])

exp(summary(Ajuste.Deformes.step)$coefficients[3,1])

exp(summary(Ajuste.Deformes.step)$coefficients[4,1])

exp(summary(Ajuste.Deformes.step)$coefficients[5,1])

exp(summary(Ajuste.Deformes.step)$coefficients[6,1])

Page 75: Análisis estadístico multivariante de un conjunto de datos

71

exp(summary(Ajuste.Deformes.step)$coefficients[7,1])

exp((Ajuste.Deformes.step$coefficients))

#IC de los parametros al 95%

exp(confint.default(Ajuste.Deformes.step))

#VALIDACIÓN DEL MODELO

Validacion.Deformes<-data.frame(Deformes$Dieta,Deformes$Tª,Deformes$Dens,

Deformes$D1,Deformes$D0,

Deformes$D1/(Deformes$D1+Deformes$D0),

fitted.values(Ajuste.Deformes.step),

predict.glm(Ajuste.Deformes.step,type="response",se.fit=T)[[2]],

rstandard(Ajuste.Deformes.step,type="pearson"),

rstandard(Ajuste.Deformes.step,type="deviance"),

predict.glm(Ajuste.Deformes.step,type="link"),

hatvalues(Ajuste.Deformes.step),

2*cooks.distance(Ajuste.Deformes.step,type="deviance"))

names(Validacion.Deformes)<-c("Dieta","Tª","Dens","D1","D0","P.Obs","P.Esp",

"S.E","Res.Pear","Res.Dev","Lq","Lev","Cooks")

Validacion.Deformes

Page 76: Análisis estadístico multivariante de un conjunto de datos

72

Referencias bibliográficas.

Agresti, A. (2002). Categorical Data Analysis (2da ed.). New York: Wiley.

Agresti, A. (2007). An Introduction to Categorical Data Analysis. (2da ed.). New York: Wiley.

Andrades, J. A., Becerra, J., Fernández-Llebrez, P. (1996). Skeletal deformities in larval,

juvenile and adult stages of cultured gilthead sea bream (Sparus aurata L.) Aquaculture,

141, 1-11.

Bell, J. G., McEvoy, L. A. Estévez, A., Shields, R. J. Sargent, J. R. (2003). Optimising lipid

nutrition in first-feeding flatfish larvae. Aquaculture, 227, 211-220.

Cahu, C., Zambonino-Infante, J. L., Takenchi, T. (2003). Nutritional components affecting

skeletal development in fish larvae. Aquaculture, 227: 245-258.

Green, P., Silverman, B. (1994). Nonparametric Regression and Generalized Linear Models:

Chapman & Hall.

Hair, J. F., Anderson, R. E., Tathan, R. L., Black, W. C. (1999). Análisis Multivariante (5ta ed.):

Prentice Hall.

Lloyd, C. (1999). Statistical Analysis of Categorical Data. New York: Wiley.

Montanero-Fernández, J. (2008). Análisis Multivariante: Universidad de Extremadura.

Pérez, C. (2004). Técnicas de Análisis Multivariante de Datos. Aplicaciones con SPSS. Madrid:

Prentice Hall.

Rodríguez G. (2001). Introducing R. Princeton University. Obtenida el 2 de febrero de 2014, de

http://data.princeton.edu/R/introducingR.pdf.

Roo, J., Socorro, J., Izquierdo, M. S. (2010). Effect of rearing techniques on skeletal deformities

and osteological development in red porgy Pagrus pagrus (Lineaeus, 1758) larvae. Journal

of Applied Ichthyology, 26, 372-376.

Santner, T. J. and Duffy, D. E. (1989). The Statistical Analysis of Discrete Data. Berlín:

Springer.

Searcy-Bernal R. (1994). Statistical power and aqualcultural research. Aquaculture, 127, 371-

388.

Sfakianakis, D. G., Koumoundouros, G., Divanach, P. & Kentouri, M. (2004). Osteological

develop-ment of the vertebral column and of the fins in Pagellus erythrinus (L. 1758).

Temperature effect on the developmental plasticity and morpho-anatomical abnormalities.

Aquaculture 232, 407-424.

Simonoff. J. S. (2003). Analizing Categorical Data. New York: Springer.

Thompson, L.A. (2007). S-PLUS (and R) Manual to Acompany Agresti’s Categorical Data

Analysis (2002). Obtenida el 2 de febrero de 2014, de

https://home.comcast.net/~lthompson221/Splusdiscrete2.pdf.

Zar, J. H. (1996). Bio-Statistical Analysis: Prentice Hall.