universidad del zulia facultad de …07:05z-4769/...the purpose of this research was to develop and...
TRANSCRIPT
REPÚBLICA BOLIVARIANA DE VENEZUELA
UNIVERSIDAD DEL ZULIA
FACULTAD DE INGENIERIA
DIVISIÓN DE POSTGRADO
PROGRAMA DE POSTGRADO EN INGENIERIA DE GAS
MODELOS POR MÍNIMOS CUADRADOS PARCIALES Y REGRESIÓN BAYESIANA
PARA LA PREDICCIÓN DE PROPIEDADES DE GAS ASOCIADO
Trabajo de Grado presentado ante la
Ilustre Universidad del Zulia
para optar al Grado Académico de:
MAGISTER SCIENTIARUM EN INGENIERIA DE GAS
Autores: Jesiray Johana Matos Rodriguez
Yanklys Alberto Angarita Montiel
Tutor: Dr. Carlos Alciaturi
Cotutor: Dr. Jorge Barrientos
Maracaibo, mayo de 2010
Angarita Montiel, Yanklys Alberto y Matos Rodríguez, Jesiray Johana. Modelos por mínimos
cuadrados parciales y regresión bayesiana para la predicción de propiedades de gas
asociado. (2010) Trabajo de Grado. Universidad del Zulia. Facultad de Ingeniería. División de
Postgrado. Maracaibo, Venezuela. 166p. Tutor: Dr. Carlos Alciaturi; Cotutor: Dr. Jorge
Barrientos.
RESUMEN
El objetivo de la presente investigación fue desarrollar y aplicar modelos para la predicción de la
composición y propiedades del gas asociado empleando datos de espectroscopia y el método de
calibración de mínimos cuadrados parciales (PLS) y Regresión Bayesiana Lineal (linear GNBR).
El tipo de investigación fue descriptiva transversal y explicativa, en cuanto al diseño de la
investigación el mismo se caracterizó por ser de campo y experimental, utilizando como
población 28 muestras de gas asociado del Occidente del País y tomando como muestra 23 de
estas a las cuales se les determinó la composición y propiedades por Cromatografía de Gases. Se
realizaron análisis por Espectrometría infrarrojo por Transformada de Fourier en la región
cercana (FT-NIR) y en la región mediana (FT-MIR) en el intervalo 4700 – 400 cm-1
para cada
una de las muestras y se correlacionaron con la propiedad físico química a predecir obtenido por
el método normado (Cromatografía). La detección de muestras discrepantes se realizo a través de
la representación gráfica de los espectros. El modelo de predicción óptimo se seleccionó
tomando en consideración los parámetros estadísticos: desviación cuadrática media (rms),
coeficiente de determinación (R2), y el estadístico F. En función de esto y del análisis de los
modelos se demostró que el modelo de Mínimos Cuadrados Parciales presento mejores medidas
de ajuste y menor tiempo de respuesta para la predicción de composición y propiedades de gas
asociado con respecto al modelo de Regresión Bayesiana Lineal.
Palabras clave: Mínimos Cuadrados parciales (PLS), Regresión Bayesiana de Gauss-Newton
(GNBR), cromatografía de gases, espectroscopia de infrarrojo, gas natural.
Angarita Montiel, Yanklys Alberto y Matos Rodríguez, Jesiray Johana. Partial Least Squares
Models and Bayesian regression for the prediction of properties of associated gas. (2010)
Trabajo de Grado. Universidad del Zulia. Facultad de Ingeniería. División de Postgrado.
Maracaibo, Venezuela. 166 p. Tutor: Dr. Carlos Alciaturi; Cotutor: Dr. Jorge Barrientos.
ABSTRACT
The purpose of this research was to develop and implement models for predicting the
composition and properties of associated gas using data from spectroscopy and the calibration
method of partial least squares (PLS) and Bayesian Linear Regression (linear GNBR). The
research was descriptive and transversal explanatory, with regard to research design it was
characterized as experimental, using 28 samples from associated gas from the West of Venezuela
and taking 23 of those for analysis, we evaluated the composition and properties by gas
chromatography. Spectrometric analysis were performed by Fourier transform in the near
infrared (FT-NIR) and middle infrared (FT-MIR) regions in the interval 4700 to 400 cm-1
for
each of the samples and correlated with physico - chemical properties determined by the
reference method (gas chromatography). The optimal prediction model was selected taking into
account the statistical parameters: mean square deviation (rms), coefficient of determination (R2),
and the F statistic. The analysis of the models showed that the Partial Least Squares model
provides better adjustment and lower response time for the prediction of gas composition and
associated properties than Bayesian Linear Regression Model.
Key words: Partial Least Squares (PLS), Gauss Newton Bayesian regression (GNBR), gas
chromatography, infrared spectroscopy, natural gas.
DEDICATORIA
Dedico este trabajo, en primer lugar a Dios, el Creador, Todopoderoso y Omnipotente, que me
dio el ser y la oportunidad de venir a este mundo a amar, aprender y alcanzar logros.
A mis padres, Jesús y Siraida, quienes con su apoyo incondicional, me inspiran a seguir
cosechando éxitos, gracias por creer en mí, mis éxitos también son suyos.
A mis hermanos, Jesús, Jeandry y Jeasmy, por todo su apoyo, gracias por todo, y espero que este
éxito los inspire a alcanzar sus metas.
A los más pequeños y adorables de la familia, Diego Andrés, Adriani Andrea, Andrés Armando y
Andrés Enrique, que esta meta se traduzca en ejemplo para ustedes.
A mis tías, primos, mil gracias, por llenar mi vida de alegría. Este éxito también es de ustedes.
A mis amigos y compañeros de estudio, Ing. Merquin Lugo, Ing. Andreeduis Rodríguez,
Ing. Yanklys Angarita, Ing. Heilyn González, e Ing. Neida Galban gracias por su colaboración y
apoyo en los momentos más difíciles, por los bonitos momentos compartidos y por haber hecho
de esta experiencia los recuerdos más gratos que recordaré, gracias por todo y suerte en el
futuro.
A mis estudiantes del Instituto Universitario de Tecnología de Cabimas, por ser fuente de
inspiración y una de las razones principales para mejorar como profesional y docente.
Jesiray Matos
DEDICATORIA
Primero que todo a DIOS que ilumina mi camino con seguridad, paciencia y serenidad, para
poder culminar esta nueva etapa de mi vida. Por ayudar a levantarme y atravesar los obstáculos
que se me han cruzado en el camino y por la felicidad que ha permitido que reúne a lo largo de
toda mi vida.
A mi MADRE que siempre me ha demostrado que con esfuerzo y responsabilidad podía alcanzar
todo lo que me propusiera.
A Jackeline Hernández, mi novia, mi compañera, mi amiga, que ha estado ahí conmigo, desde el
primer momento, y por su contribución a la realización de este trabajo.
A mi compañera de tesis Jesiray Matos, por compartir esta etapa tan importante de mi vida y mi
carrera y por ser una amiga en quien confiar, por su paciencia y por el apoyo que recibí de ella.
A cada una de las personas que han contribuido en la realización de este trabajo nuevamente
gracias.
Yanklys Angarita
AGRADECIMIENTO
A Dios, nuestro creador y benefactor.
A nuestros Padres y Madres, por darnos la vida, su apoyo y ayuda; por ser guías y amigos en los
momentos más difíciles.
A nuestras familias, por el amor, cariño, apoyo y por entender los momentos de ausencia durante
la realización de esta Tesis.
Al Dr. Carlos Alciaturi, tutor de esta Tesis, por darnos la oportunidad de ser investigadores, por
compartir su experiencia de vida profesional y por permitirnos con su apoyo la búsqueda
incansable del conocimiento.
Al Dr. Barrientos, por sus conocimientos, por su orientación y apoyo, herramienta fundamental
de la investigación.
A nuestros amigos de aula y de vida, muy especialmente Merquin Lugo, Andreeduis Rodríguez,
Heilyn González y Neida Galban.
Al Personal del Postgrado, en especial Secretarias y Vigilantes. A todo el personal
Administrativo y Obrero por su apoyo en nuestros estudios.
Al Personal del Laboratorio de Petroquímica y Surfactantes en la Universidad del Zulia, por
prestar sus espacios para el desarrollo de esta investigación.
Al Personal de la Fundación Laboratorio Servicios Técnicos Petroleros (INPELUZ – FLSTP),
especialmente a Humberto Linares y Carolina Artigas, por su asesoría acertada y oportuna.
Al Instituto Zuliano de Investigaciones Tecnológicas (INZIT), por ceder espacios para el
desarrollo de esta investigación.
Al Licenciado Edwin Rivas, por su amistad y constantes estímulos, por brindarnos su experiencia
y apoyo en el desarrollo de actividades experimentales.
Al Fondo Nacional de Ciencia, Tecnología e Innovación (FONACIT), el apoyo financiero para la
realización de la Maestría y elaboración de esta Tesis.
A la Universidad del Zulia, por permitir la libertad de pensamiento, por ser una institución que
promueve la igualdad de sus miembros.
Los Autores
TABLA DE CONTENIDO
Página
RESUMEN.......................................................................................................................... 4
ABSTRACT........................................................................................................................ 5
DEDICATORIA…………………………………………………...…………………….. 6
AGRADECIMIENTO........................................................................................................ 8
TABLA DE CONTENIDO................................................................................................. 9
LISTA DE FIGURAS......................................................................................................... 13
LISTA DE TABLAS.......................................................................................................... 10
INTRODUCCION.............................................................................................................. 21
CAPITULO
I EL PROBLEMA
1.1 Planteamiento del problema….………………………...…………….….…… 23
1.2 Objetivos de la investigación……………………...………….……..………... 26
1.2.1 Objetivo general……………………………...……….……………..... 26
1.2.2 Objetivos específicos………………………………….………...…...... 26
1.3 Justificación de la investigación….………………..………………....………. 27
1.4 Delimitación de la investigación……...………………..…...…..........………. 29
1.4.1 Delimitación espacial………….................………………………...…. 29
1.4.2 Delimitación temporal……………………………………...…….…… 29
1.4.3 Línea de investigación………………..…………………...…...……… 29
II MARCO TEORICO
2.1 Antecedentes de la investigación…...………………………………………… 30
2.2 Gas Natural………………….…………………………..………….………… 34
2.2.1 Ventajas que ofrece el Gas Natural……...………………..…………… 34
2.2.2 Propiedades del Gas Natural……………………………….…………... 35
2.3 Cromatografía de Gases………………….………...…………………………. 37
2.3.1 Resultados obtenidos de la Cromatografía de Gas…….……………..... 38
2.3.2 Ventajas de la Cromatografía de Gas…….….………………………… 39
2.3.3 Usos de la Cromatografía de Gas…………………………………...…. 40
2.4 Espectroscopia de Infrarrojo……………..……………………....……...……. 40
2.4.1 Vibraciones Moleculares……………………...…………..…………… 41
2.4.2 Regiones Espectrales………………………...………………………… 43
2.4.3 Características de un Espectro………………………...….……………. 44
2.4.4 Tipos de medidas de Infrarrojo………………...……….……………… 44
2.4.5 Interpretación de Espectros…………………………….………...…… 50
2.5 Fundamentos Quimiometricos………………..………………….…………… 54
2.5.1 Descomposición en Componentes Principales (PCA)…………………. 54
2.5.2 Selección de muestras de calibración……….…………………...…….. 56
2.5.3 Técnicas de Pre-tratamiento de datos………………...……………...… 57
2.5.4 Etapas de Calibración Multivariante………………...………………… 60
2.5.5 Método para Selección de variables……………………….……….….. 63
2.5.6 Comparación de Modelos de Regresión……………………………….. 64
2.6 Método de Mínimos Cuadrados Parciales……….….……………..……….… 66
2.6.1 Fundamentos del Método………………………….……………….….. 66
2.6.2 Objetivo del Método de Mínimo Cuadrados Parciales……...…………. 69
2.6.3 Alternativas de Pre-procesamiento de las variables……...……………. 70
2.6.4 Secuencia del algoritmo (Etapa de Calibración)..................................... 70
2.6.5 Secuencia del algoritmo (Etapa de Predicción)....................................... 72
2.6.6 Determinación del Numero de variables latentes…………...…………. 73
2.6.7 Aplicación del Método de Mínimo Cuadrados Parciales………...…..... 74
2.7 Regresión Bayesiana…………………….…………………..……………...… 79
2.7.1 Probabilidad Bayesiana………………………….……..………...……. 80
2.7.2 Teorema de Bayes………………………………...…….………...…… 80
2.7.3 Modelos matemáticos con enfoque bayesiano……………………….... 81
2.7.4 El algoritmo GNBR (Regularización bayesiana de Gauss-Newton)..…. 82
2.7.5 Regresión Lineal………………………………………………………... 83
2.7.6 Regresión Bayesiana según Foresse y Hagan (Regularización)……….. 84
2.7.7 Alternativas de Pre-procesamiento de las variables………………….... 85
2.8. Validación Cruzada…………………………….……………................……. 86
2.8.1 Objetivo de la Validación Cruzada…….………………..…………….. 87
2.8.2 Limitaciones y uso indebido……........................................................... 89
2.8.3 Leave One Out Cross Validation (LOOCV)………………...………… 90
2.9 Conceptos Estadísticos………………………...…….……………………….. 91
2.9.1 Estadístico F……………….……………...………………………..…. 91
2.9.2 Desviación Cuadrática Media……………….…..……………….……. 93
2.9.3 Coeficiente de Determinación R2........................................................... 93
III MARCO METODOLOGICO
3.1 Generalidades…………..……………………………...………………..……. 96
3.2 Tipo de investigación…………………………………………………….…… 96
3.3 Diseño de la investigación………………….……………..……………..…… 98
3.4 Población……..……………………………………………………….……… 100
3.5 Muestra…..……………………………………………………….……...…… 100
3.6 Técnicas de investigación e instrumentos de recolección de datos…………... 101
3.6.1 Fuentes primarias………………………………………………….…... 102
3.7 Metodología empleada en la investigación………….……………………….. 103
3.7.1 Procedimiento experimental…………...……………...………….…… 103
3.7.2 Procesamiento de la información……………………………...………. 108
IV ANALISIS DE RESULTADOS
4.1 Interpretación de bandas observadas en los espectros obtenidos de FTIR por
comparación con los espectros de los componentes puros. ………………………
113
4.2 Detección de muestras anómalas “outliers” en base a la composición
(proporcionada por el método de referencia) y a los espectros de infrarrojo…….
4.3 Selección de regiones de números de onda que produzcan las mejores
predicciones para el modelo de mínimos cuadrados parciales y regresión
bayesiana lineal con validación de los modelos por el método de validación
cruzada Leave One Out (LOOCV)………………………………………………...
119
121
4.3.1 Selección de regiones de número de onda para el modelo Mínimos
Cuadrados Parciales (PLS)………………………………..………..…...….
121
4.3.2 Selección de regiones de numero de onda para el modelo Regresión
Bayesiana Lineal………………………………...………………………..…
133
4.4 Modelos de predicción de propiedades del gas asociado a partir de espectros
de infrarrojo utilizando el algoritmo de Mínimos Cuadrados Parciales (PLS) y
Regresión Bayesiana Lineal (linear GNBR). ……………………….……..…......
143
4.4.1 Predicciones por el modelo de Mínimos Cuadrados Parciales (PLS)…
143
4.4.2 Predicciones por el modelo de Regresión Bayesiana Lineal (linear
GNBR)………………………………………………………………………
150
4.5 Análisis comparativo de los resultados obtenidos por el modelo de Mínimos
Cuadrados Parciales (PLS) y Regresión Bayesiana Lineal (linear GNBR)…….....
156
CONCLUSIONES……………………………………………………….…...…… 160
RECOMENDACIONES….………………………………………………………. 161
REFERENCIAS BIBLIOGRAFICAS……………………………………………. 162
LISTA DE FIGURAS
Figura Página
1 Cromatográma de un gas natural……………………..………………………... 38
2 Longitud de enlace de una molécula……………...…………………………… 42
3 Tipos de tensión vibracional…….…………………...……………………… 42
4 Región infrarroja del espectro electromagnético………………......………….. 43
5 Representación gráfica de los valores de onda (μ) o de frecuencia (cm-1
) ante
los valores de porcentaje de transmitancia (%T).………..…………………..
44
6 Fenómenos de absorción, transmisión y reflexión de la radiación
electromagnética al interaccionar con la materia.………….…………………..
45
7 Solución del analito atravesada por el haz de luz……………...……….……. 46
8 Reflexión total interna y elemento de reflexión interna (IRE) utilizado en el
sistema ATR. ………..……………………...………………………………….
47
9 Procesos de reflexión en un material especular (a) o irregular (b). Fenómeno
de reflectancia difusa (c)……………………………..………………………..
48
10 Frecuencias de vibraciones en el infrarrojo medio…………...…………..…… 51
11 Frecuencias de vibración en el infrarrojo cercano…………...….…………….. 51
12 Comparación entre el espectro IR y NIR del ciclohexano………….…………. 52
13 Resolución de dos bandas solapadas a través de la segunda derivada………… 52
14 Ejemplo de la derivada de un espectro de nafta, sin utilizar un suavizado y
utilizando un suavizado de Savitzki-Golay)………………………………..….
53
15 Representación gráfica de la descomposición en componentes principales de
un conjunto de muestras definidas por dos únicas variables. En este sencillo
ejemplo la descomposición consiste en un simple cambio de ejes
(componentes principales)………………………………………..…………....
54
16 Notación matricial de la descomposición en componentes principales……….. 55
17 Notación matricial extendida de la descomposición en componentes
principales……………………………………………………………...............
55
18 Centrado por columnas. a) Objetos definidos por dos variables. b) Los
mismos objetos centrados. c) Espectro de 12 muestras de alcohol polivinílico
(PVA). d) Los mismos espectros de PVA centrados………………………..…
57
19 Suavizado de una señal espectroscópica utilizando una ventana de 21 puntos
y un polinomio de 3er
grado………………………………………......………
58
20 Espectros NIR de muestras de nafta sin pretratamiento (a), offset correction a
1100 nm (b) y primera derivada (c)………………………………..…………
60
21 Esquema del proceso de corrección de la línea base utilizando un modelo
explícito lineal (detrendig)……………….…...………………………………..
60
22 Estadístico de Hopkins en el caso de un conjunto de muestras homogéneo
(H=50) y en el caso de un conjunto de muestras agrupadas H próximo a 1…...
61
23 Diagrama de bloques método PLS………………………………………….….
68
24 Alternativas de Pre-procesamiento.………………………………………….. 70
25 hf en función de número de componentes para el PLS……………………... 73
26 Errores de predicción en función de número de componentes para el PLS……
74
27 Ejemplo del cálculo del residual de un espectro NIR. Al espectro original se
le resta el espectro reconstruido con 4 factores para obtener el residual
espectral………………..………….…………………...……………………….
77
28 Gráfico del residual frente al leverage. (a) Objetos con una varianza residual
elevada se consideran outliers, (b) si además tienen un leverage alto son
outliers peligrosos para el modelo, debido a que tienen mucha influencia
sobre él. Las muestras con un leverage alto (c) son muestras influyentes y no
necesariamente outliers……..………………………………………………….
78
29 Ejemplo de regresión lineal con una variable independiente………..………… 83
30 Comportamiento típico de los errores para el caso de aprendizaje y test…..…. 87
31 Coeficiente de determinación igual a 1……………………...………………… 94
32 Coeficiente de determinación igual a 0……………………...………………… 95
33 Muestras……………………………………………………………………….. 101
34 Espectrómetro infrarrojo por Transformada de Fourier……………………….. 106
35 Filtro empacado……………………………………………………………….. 106
36 Celda para muestras gaseosas instalada en el Espectrómetro infrarrojo por
Transformada de Fourier (FTIR)…………………...…………….……………
107
37 Espectro de las muestras de gas asociado……………………………………. 115
38 Identificación de componentes, vibraciones moleculares y regiones……….. 116
39 Región de absorción 4550 - 4000 cm-1
……………………………..…………. 117
40 Región de absorción 3200 - 2700 cm-1
………………..………………………. 118
41 Región de absorción 1550 - 1200 cm-1
………………………….……………. 118
42 Identificación de muestras anómalas (outliers)………...……………………… 120
43 (a) Dispersión del Estadístico F según el número de onda del infrarrojo para
predicción de metano en intervalos de 100cm-1
…………………...…………..
123
43 (b) Dispersión del Coeficiente de Determinación R2 según el número de onda del
infrarrojo para predicción de metano en intervalos de 100cm-1
………………..
123
44 (a) Dispersión del Estadístico F según el número de onda del infrarrojo para
predicción de metano en intervalos de 400cm-1
………………………….……
124
44 (b) Dispersión del Coeficiente de Determinación R2 según el número de onda del
infrarrojo para predicción de metano en intervalos de 400cm-1
………………..
124
45 (a) Dispersión del Estadístico F según el número de onda del infrarrojo para
predicción de etano mas en intervalos de 100cm-1
……………………………
125
45 (b) Dispersión del Coeficiente de Determinación R2 según el número de onda del
infrarrojo para predicción de etano mas en intervalos de 100cm-1
…………….
125
46 (a) Dispersión del Estadístico F según el número de onda del infrarrojo para
predicción de etano mas en intervalos de 400cm-1
…………………………….
126
46 (b) Dispersión del Coeficiente de Determinación R2 según el número de onda del
infrarrojo para predicción de etano mas en intervalos de 400cm-1
……………
126
47 (a) Dispersión del Estadístico F según el número de onda del infrarrojo para
predicción de peso molecular promedio en intervalos de 100cm-1
.....................
128
47 (b) Dispersión del Estadístico F según el número de onda del infrarrojo para
predicción de peso molecular promedio en intervalos de 100cm-1
……..….….
128
48 (a) Dispersión del Estadístico F según el número de onda del infrarrojo para
predicción de valor calorífico neto en intervalos de 100cm-1
………………
129
48 (b) Dispersión del Estadístico F según el número de onda del infrarrojo para
predicción de valor calorífico neto en intervalos de 100cm-1
…………....…
129
49 (a) Dispersión del Estadístico F según el número de onda del infrarrojo para
predicción de valor calorífico total en intervalos de 100cm-1
………………..
130
49 (b) Dispersión del Estadístico F según el número de onda del infrarrojo para
predicción de valor calorífico total en intervalos de 100cm-1
………………..
130
50 (a) Dispersión del Estadístico F según el número de onda del infrarrojo para
predicción de densidad relativa en intervalos de 100cm-1
……………….…
131
50 (b) Dispersión del Estadístico F según el número de onda del infrarrojo para
predicción de densidad relativa en intervalos de 100cm-1
………………….
131
51 (a) Dispersión del Estadístico F según el número de onda del infrarrojo para
predicción de viscosidad en intervalos de 100cm-1
……………………………
132
51 (b) Dispersión del Estadístico F según el número de onda del infrarrojo para
predicción de viscosidad en intervalos de 100cm-1
……………………………
132
52 (a) Dispersión del Estadístico F según el número de onda del infrarrojo para
predicción de metano para el modelo GNBR en intervalos de 100cm-1
……….
134
52 (b) Dispersión del Coeficiente de Determinación R2
según el número de onda del
infrarrojo para predicción de metano para el modelo GNBR en intervalos de
100cm-1
………………………………………………………………………....
134
53 (a) Dispersión del Estadístico F según el número de onda del infrarrojo para
predicción de metano para el modelo GNBR en intervalos de 400cm- 1………
135
53 (b) Dispersión del Coeficiente de Determinación R2
según el número de onda del
infrarrojo para predicción de metano para el modelo GNBR en intervalos de
400cm-1
……………………………………………………………….....……...
135
54 (a) Dispersión del Estadístico F según el número de onda del infrarrojo para
predicción de etano mas para el modelo GNBR en intervalos de 100cm- 1…
136
54 (b) Dispersión del Coeficiente de Determinación R2
según el número de onda del
infrarrojo para predicción de etano mas para el modelo GNBR en intervalos
de 100cm-1
………………………………………………………………….…..
136
55 (a) Dispersión del Estadístico F según el número de onda del infrarrojo para
predicción de etano mas para el modelo GNBR en intervalos de 400cm-1
…...
137
55 (b) Dispersión del Coeficiente de Determinación R2
según el número de onda del
infrarrojo para predicción de etano mas para el modelo GNBR en intervalos
de 400cm-1
…………………………………………………….…………...…..
137
56 (a) Dispersión del Estadístico F según el número de onda del infrarrojo para
predicción de peso molecular promedio para el modelo GNBR en intervalos
de 100cm-1
…………………………………………………………………….
138
56 (b) Dispersión del Coeficiente de Determinación R2
según el número de onda del
infrarrojo para predicción de peso molecular promedio para el modelo GNBR
en intervalos de 100cm-1
……………………………………………………...
138
57 (a) Dispersión del Estadístico F según el número de onda del infrarrojo para
predicción de valor calorífico neto para el modelo GNBR en intervalos de
100cm-1
………………………………………………………………………...
139
57 (b) Dispersión del Coeficiente de Determinación R2
según el número de onda del
infrarrojo para predicción de valor calorífico neto para el modelo GNBR en
intervalos de 100cm-1
………………………………
139
58 (a) Dispersión del Estadístico F según el número de onda del infrarrojo para
predicción de valor calorífico total para el modelo GNBR en intervalos
de 100cm-1
……………………………………………………………………...
140
58 (b) Dispersión del Coeficiente de Determinación R2 según el número de onda del
infrarrojo para predicción de valor calorífico total para el modelo GNBR en
intervalos de 100cm-1
………………………………………………………….
140
59 (a) Dispersión del Estadístico F según el número de onda del infrarrojo para
predicción de densidad relativa para el modelo GNBR en intervalos de
100cm-1
……………………………………………………………….…..
141
59 (b) Dispersión del Coeficiente de Determinación R2
según el número de onda del
infrarrojo para predicción de densidad relativa para el modelo GNBR en
intervalos de 100cm-1
………………………………………………………….
141
60 (a) Dispersión del Estadístico F según el número de onda del infrarrojo para
predicción de viscosidad para el modelo GNBR en intervalos de 100cm-1
….
142
60 (b) Dispersión del Coeficiente de Determinación R2 según el número de onda del
infrarrojo para predicción de viscosidad para el modelo GNBR en intervalos
de 100cm-1
…………………………………………………….……………….
142
61 Predicción de metano por PLS con LOOCV…………...……………...……… 144
62 Predicción de etano mas por PLS con LOOCV……………….……………... 145
63 Predicción de peso molecular promedio por PLS con LOOCV………….....… 146
64 Predicción de valor calorífico neto por PLS con LOOCV…………….....…… 147
65 Predicción de valor calorífico total por PLS con LOOCV…………...………. 148
66 Predicción de densidad relativa por PLS con LOOCV……………..……... 149
67 Predicción de metano por linear GNBR con LOOCV………………….…… 150
68 Predicción de etano mas por linear GNBR con LOOCV……………………... 151
69 Predicción de peso molecular promedio por linear GNBR con LOOCV……... 152
70 Predicción de valor calorífico neto por linear GNBR con LOOCV…….…... 153
71 Predicción de valor calorífico total por linear GNBR con LOOCV…......... 154
72 Predicción de densidad relativa por linear GNBR con LOOCV…………...
155
73 Diagrama de barras desviación del valor predicho por los modelos PLS y
linear GNBR…………………………………………………………...……….
157
74 Diagrama de barras desviación estándar de los datos por los modelos PLS y
linear GNBR………………………………………………………………….
157
75 Diagrama de barras para estadístico F por los modelos PLS y linear GNBR....
158
76 Diagrama de barras para coeficiente de determinación por los modelos PLS y
linear GNBR……………………………………………………………………
158
77 Comparación del Tiempo de corrida del algoritmo de predicción por los
modelos PLS y Linear GNBR……………………………………………….....
159
LISTA DE TABLAS
Tabla Página
1
Relación entre suma y media de cuadrados para un modelo de regresión lineal
simple…………………………………………………………………………..
92
2 Ejemplo del resultado de análisis por Cromatografía de gases de una muestras
de gas asociado…………………………………………………..…………….
105
3 Identificación de componentes por regiones en el espectro………..…………
114
4 Identificación de componentes por regiones en el espectro para el conjunto de
23 muestras……………………………………………………………………..
116
5 Comportamiento estadístico de Metano desde el intervalo 37 al 44 por PLS… 123
6 Comportamiento estadístico de Metano desde el intervalo 10 y 11 por PLS…
124
7 Comportamiento estadístico de etano mas desde el intervalo 37 al 44 por PLS
125
8 Comportamiento estadístico de etano mas desde el intervalo 10 y 11 por PLS 126
9 Comportamiento estadístico de peso molecular promedio en el intervalo 37
por PLS……………….……………….………………………………………..
128
10 Comportamiento estadístico de valor calorífico neto en el intervalo 37
por PLS………………………………………………………...……………...
129
11 Comportamiento estadístico de valor calorífico total en el intervalo 37
por PLS.………………………………………………………………….…..
130
12 Comportamiento estadístico de la densidad relativa en el intervalo 37
por PLS………………………………………………………………………...
131
13 Comportamiento estadístico de viscosidad en el intervalo 30 por PLS….…...
132
14 Comportamiento estadístico de metano desde el intervalo 37 a 44 por GNBR.. 134
15 Comportamiento estadístico de metano en los intervalos 10 y 11 por GNBR… 135
16 Comportamiento estadístico de etano mas en los intervalo 37 a 44 por GNBR 137
17 Comportamiento estadístico de etano mas en los intervalos 10 y 11 por GNBR 137
18 Comportamiento estadístico de peso molecular promedio en el intervalo 34
por GNBR……………………………………..……………………………….
138
19 Comportamiento estadístico de valor calorífico neto en el intervalo 36
por GNBR……………………………………………………………………..
139
20 Comportamiento estadístico de valor calorífico total en el intervalo 36
por GNBR………………………………………………………..…………….
140
21 Comportamiento estadístico de densidad relativa en el intervalo 34 por
GNBR……………………………………………………………………..
141
22 Comportamiento estadístico de viscosidad en el intervalo 34 por GNBR……..
142
23 Comportamiento estadístico de la predicción de metano por PLS……..….…..
144
24 Comportamiento estadístico de la predicción de etano mas por PLS………...
145
25 Comportamiento estadístico de la predicción de peso molecular promedio
por PLS…………………………………………………………………………
146
26 Comportamiento estadístico de la predicción de valor calorífico neto por PLS
147
27 Comportamiento estadístico de la predicción de valor calorífico total
por PLS…………………………………………………………………………
148
28 Comportamiento estadístico de la predicción de densidad relativa
por PLS……………………………………………………………………..…..
149
29 Comportamiento estadístico de la predicción de metano por linear GNBR…...
150
30 Comportamiento estadístico de la predicción de etano mas por linear GNBR..
151
31 Comportamiento estadístico de la predicción de peso molecular promedio
por linear GNBR…………………………...…………………………………..
152
32 Comportamiento estadístico de la predicción de valor calorífico neto por
linear GNBR……………………………………………………………………
153
33 Comportamiento estadístico de la predicción de valor calorífico total por
linear GNBR……………………………………………………………………
154
34 Comportamiento estadístico de la predicción de densidad relativa por linear
GNBR……………………………………………………………………
155
35 Comportamiento estadístico de predicción de composición y propiedades por
PLS y linear GNBR…………………………………….………………………
156
21
INTRODUCCION
El desarrollo económico y social experimentado por nuestro país en la última década, así
como la creciente y dinámica globalización de los mercados mundiales, permite el libre
intercambio comercial y cultural entre países disímiles, obligando a que cada miembro de este
mercado mundial sea cada vez más eficaz y eficiente a objeto de competir al más alto nivel de
productividad y calidad.
Para poder afrontar exitosamente la globalización económica, las empresas requieren, cada
vez más, utilizar conocimientos científicos en el proceso productivo y de gestión, orientados a la
reducción de los costos de producción y a aumentar la calidad y valor de sus productos. La
reconversión y modernización del aparato productivo no puede lograrse sin una adecuada base
científica y tecnológica.
Dentro de este orden de ideas, la industria petrolera nacional produce en el Occidente del
país petróleo y gas natural asociado, cuya importancia se deriva a sus diversas aplicaciones en la
industria, el comercio, la generación de electricidad, el sector residencial y el transporte. De igual
manera es utilizado como materia prima en diversos procesos químicos e industriales y de
manera relativamente fácil y económica puede ser convertido a hidrógeno, etileno, o metanol; los
materiales básicos para diversos tipos de plásticos y fertilizantes.
Por tanto existe gran interés en la caracterización del gas natural asociado, para lo cual se han
aplicado técnicas experimentales entre las que predomina la aplicación de cromatografía de
gases, la cual se ha constituido como una metodología analítica instrumental muy efectiva para
separar, identificar y cuantificar los componentes de una mezcla compleja de gases.
De igual manera, la espectrometría infrarroja por transformada de Fourier, proporciona una
información química muy versátil, permite obtener en tiempo real información acerca de las
estructuras moleculares presentes y con una calibración adecuada, cuantificar los componentes
presentes.
22
En un sentido general, en esta investigación se ha abordado la determinación de la
composición molar de los componentes del gas natural (metano, etano y más pesados) utilizando
el método de referencia (cromatografía de gases) y utilizando la señal registrada tanto en la zona
del infrarrojo cercano y medio.
La técnica de calibración que se ha utilizado ha sido la calibración multivariante por
mínimos cuadrados parciales (PLS).y regresión bayesiana (linear GNBR). Las diferentes
propiedades de las muestras se han determinado en los laboratorios de los centros de
investigación colaboradores, utilizando los métodos de análisis habituales que son la
cromatografía de gases (CG) y la espectroscopia (FTIR). Los resultados de estos análisis se han
utilizado para construir y comprobar la validez de los modelos de calibración desarrollados. Los
métodos seleccionados se pueden aplicar a la Industria Química, Petroquímica, Petrolera y afines.
La investigación representa un aporte al procesamiento de datos y a los recursos de
optimización de las mismas.
El desarrollo de ésta investigación está estructurado de la siguiente manera:
El capítulo I, contempla el problema, detallando el planteamiento, los objetivos de la
investigación, la justificación, y la delimitación del estudio.
En el capítulo II, se presentan los antecedentes de la investigación, las bases teóricas y la
definición de términos básicos.
En el capítulo III, se describe la metodología bajo la cual se sistematizo el proceso de
investigación, incluyendo el diseño, técnicas e instrumentos de recolección de datos y
procedimientos aplicados.
En el capítulo IV, se presentan los resultados de la investigación, para finalmente establecer
las conclusiones y recomendaciones que servirán de base a futuras investigaciones.
CAPITULO I
EL PROBLEMA
1.1 Planteamiento del problema
Una gran parte de la energía usada en el mundo proviene de los hidrocarburos y sus
derivados. La industria del petróleo y gas representa un conjunto de actividades importantes para
el desarrollo del país, sobre la magnitud y el alcance de sus operaciones descansa la explotación
comercial y eficaz de una de las riquezas naturales no renovables a corto, mediano y al más largo
plazo posible.
La industria tiene la responsabilidad de asegurar el suministro de energía derivada de los
hidrocarburos a sus clientes en el exterior así como también abastecer su mercado interno y se
encuentra orientada hacia la búsqueda de las condiciones más favorables para producir mayores
volúmenes, teniendo como premisa el uso racional de los recursos disponibles, apoyándose en el
análisis, diagnostico y optimización de los sistemas de producción.
En este sentido, la industria del petróleo y gas en el occidente del país produce gas natural
asociado, el cual se define como una mezcla de gases que se encuentra frecuentemente en
yacimientos fósiles acompañando al petróleo. Su composición varía en función del yacimiento
del que se extrae el cual contiene principalmente metano, pero también etano, propano, butanos,
dióxido de carbono, vapor de agua, e hidrocarburos más pesados. Su importancia se deriva de sus
múltiples aplicaciones principalmente como fuente de combustibles y en la industria
petroquímica. Un conocimiento preciso de la composición del gas asociado es esencial para
determinar sus posibles aplicaciones y asimismo su valor económico.
Existen diferentes técnicas experimentales para el análisis de mezclas de gases y líquidos,
entre las que resalta la cromatografía de gases, en relación a esta técnica básicamente ha
permitido el desarrollo de los más efectivos métodos de análisis químicos.
24
Es una herramienta muy efectiva y con su ayuda, las separaciones y determinaciones
cualitativas y cuantitativas pueden ser llevadas a cabo mezclando sustancias que se vaporizan sin
descomposición bajo las condiciones de la cromatografía o que puedan ser descompuestas de una
forma reproducible para separar, identificar y cuantificar los componentes de mezclas volátiles
complejas.
Por su parte, la espectrometría infrarroja por transformada de Fourier, tiene casi 125 años de
existencia y permite obtener en tiempo real información acerca de las estructuras moleculares
presentes, y con una calibración adecuada, cuantificar los componentes presentes. Dado que es
necesario precisar con la mayor exactitud posible la composición del gas natural asociado, es
importante investigar las técnicas propuestas en esta investigación dado que son técnicas
promisorias para obtener información de la composición y propiedades de una corriente de
mezclas de hidrocarburo.
La caracterización del gas natural por métodos de análisis utilizados en los laboratorios son
métodos normalizados por organismos oficiales, específicos para cada propiedad o analito a
determinar, logrando con esto que los procedimientos experimentales estén enmarcados en las
normas vigentes para garantizar que el conjunto de muestras a analizar sean caracterizadas en una
línea de procesos con resultados en el menor tiempo posible. Al respecto, existen normas en
Venezuela cuyo propósito es describir las consideraciones necesarias para el análisis de muestras
de diferentes tipos de gas, comprendiendo desde el procedimiento experimental hasta las
observaciones para la determinación de propiedades físicas del gas.
Debido a la creciente importancia generada en la industria del petróleo y gas en cuanto a la
aplicación de técnicas instrumentales, no solo para la identificación de componentes del gas
natural, es que efectivamente a través de estas se obtienen los datos necesarios para el cálculo de
las propiedades fisicoquímicas, tales como el poder calorífico, riqueza del gas, factor de
compresibilidad entre otras más las cuales deben determinarse utilizando los métodos de pruebas
establecidos por las normas o métodos ya estandarizados.
25
Con respecto a lo antes planteado, si una vez obtenidos los datos de un conjunto de muestras
de gas natural se aplicasen métodos matemáticos y estadísticos en donde estos dos últimos se
agrupan en una disciplina denominada “Quimiometría”, inventada hace aproximadamente treinta
años, quiere resumir el concepto que engloba la medida en química, esta se sitúa en un campo
interdisciplinar y trata específicamente, de todos aquellos procesos que transforman señales
analíticas y datos más o menos complejos en información [10 y 45].
A consecuencia de esto, el impacto generado desde el punto de vista industrial en cuanto a la
aplicación de esta disciplina en las ciencias experimentales a raíz de la automatización y
computarización de los laboratorios, una de ellas es la rápida adquisición de gran cantidad de
datos. Ahora, si bien este conjunto de datos puede ser procesado con métodos matemáticos y
estadísticos, será posible o no reconocer una tendencia en el conjunto de datos, de igual manera
se podría establecer relaciones entre el conjunto de datos, en caso de aplicar más de un modelo se
establecerían comparaciones a fin de validar cual se adapta a la corriente de procesos.
Al respecto existen una serie de artículos y trabajos de investigación en las áreas de química
orgánica, farmacología y otras, en donde existe un gran interés en establecer relaciones entre la
estructura de los compuestos sintetizados, orientados a la aplicación de modelos matemático -
estadísticos al conjunto de datos experimentales.
A tal fin, la presente investigación plantea la aplicación de modelos quimiométricos
denominados Mínimos Cuadrado Parciales (PLS) y Regresión Bayesiana (GNBR) como
alternativa para procesar datos experimentales a través de cromatografía y espectroscopia de
infrarrojo para un conjunto de muestras de gas asociado y con ello determinar una tendencia para
generar un rango de predicción de propiedades del gas asociado, así como establecer en la
práctica la aplicación de métodos experimentales para procesar e interpretar datos en el menor
tiempo posible.
26
1.2 Objetivos de la investigación
1.2.1 Objetivo General
Aplicar modelos por Mínimos Cuadrados Parciales (PLS) y Regresión Bayesiana Lineal
(linear GNBR) para la predicción de propiedades de gas asociado.
1.2.2 Objetivos Específicos
Interpretar las bandas observadas en los espectros obtenidos en Espectrometría infrarroja
por Transformada de Fourier (FTIR) por comparación con los espectros de los
componentes puros.
Verificar la presencia de muestras anómalas (“outliers”) en base a la composición
(proporcionada por el método de referencia) y a los espectros de infrarrojo.
Seleccionar las regiones de números de onda que produzcan las mejores predicciones para
los modelos de Mínimos Cuadrados Parciales (PLS) y Regresión Bayesiana Lineal
(linear GNBR).
Validar el modelo de Mínimos Cuadrados Parciales (PLS) y Regresión Bayesiana Lineal
(linear GNBR) en base a una validación cruzada.
Implementar modelos de predicción de propiedades del gas asociado a partir de espectros
de infrarrojo utilizando el algoritmo de Mínimos Cuadrados Parciales (PLS) y Regresión
Bayesiana Lineal (linear GNBR).
Realizar un análisis comparativo de los resultados obtenidos por el Modelo de Mínimos
Cuadrados Parciales (PLS) y Regresión Bayesiana Lineal (linear GNBR).
27
1.3 Justificación de la investigación
La presente investigación se enmarca en la aplicación de modelos matemático – estadístico
para el análisis de datos espectrales y datos por método de referencia de un conjunto de muestras
de gas natural asociado obtenidos por técnicas de análisis químico como cromatografía de gases y
espectroscopia de infrarrojo por transformada de Fourier en el intervalo 4700 – 400 cm-1
,
utilizando el modelo de Mínimos Cuadrados Parciales (PLS) y Regresión Bayesiana Lineal
(linear GNBR) a fin de generar un modelo de predicción de propiedades del gas natural
asociado.
Esta investigación parte de la necesidad que se presenta en la industria del petróleo y gas, si
bien la caracterización del gas asociado producido en el Occidente del país depende de técnicas
instrumentales como la cromatografía de gas y espectroscopia de infrarrojo, en el país se
disponen de laboratorios cuya automatización en el área de Instrumentación genera
almacenamiento de datos, lo cual ha permitido generar históricos de la mayor parte de los datos
asociados a un proceso industrial.
La cantidad de información disponible, hace que el conocimiento teórico práctico del cual
disponen los Ingenieros y Operadores de las plantas, no sea suficiente para hacer un uso óptimo
de esta. Se plantea así la necesidad de recurrir a los conocimientos en quimiometría, para de esta
forma, seleccionar los datos relevantes, y en función de estos conocimientos y la experiencia que
se tenga del proceso, crear modelos matemático estadístico que sean un aporte a las condiciones
de operación industrial, como el control de procesos, entre otros.
El desarrollo de actividades experimentales en muestras de gas natural por espectroscopia de
infrarrojo y cromatografía resulta una combinación de técnicas atractivas para la caracterización
del gas natural producido en el Occidente del país debido a que esta proporciona una información
química muy versátil, ya que la mezcla compleja de gases necesita considerar la determinación
simultanea de más de un analito o propiedad de interés a partir del espectro registrado de la
muestra. Además la obtención del espectro se hace de una forma rápida. De esta manera, este
trabajo a través de los métodos seleccionados se constituye de gran aporte y con amplias
aplicabilidades en las Industrias Química, Petroquímicas, Petroleras y afines.
28
El impacto científico que aportara la disciplina de la quimiometría en la industria del gas
natural está dirigido al procesamiento de datos y a los recursos de optimización de las mismas, así
como para la aplicación de modelos para la predicción de composición y propiedades de muestras
de gas asociado. De esta manera desde el punto de vista de la actividad generada en la industria
del petróleo y gas se dará respuesta al creciente interés en la aplicación de metodologías
analíticas que proporcionan gran cantidad de información, que esta sea de calidad y con respuesta
en el menor tiempo posible.
La aplicación de modelos como mínimos cuadrados parciales y regresión bayesiana lineal
puede ser implementada como una vía para el manejo automático y eficiente de datos nuevos, por
tratarse de unas técnicas robustas. Esto representa una oportunidad de agregar valor al proceso.
De esta manera es posible que los datos obtenidos por técnicas instrumentales puedan ser
procesados por estos modelos para generar una metodología de análisis de datos y así predecir las
propiedades del gas natural de un determinado campo de producción.
Desde el punto de vista académico la presente investigación puede ofrecer a otros
investigadores un excelente documento de consulta, relacionadas con la caracterización de
muestras de gas, así como de la aplicación de matemática y estadística para desarrollar
metodologías que generen oportunidades de mejoras sirviendo además las conclusiones arrojadas
por esta investigación como punto de referencia sobre temas relacionados.
29
1.4 Delimitación de la investigación
1.4.1 Delimitación Espacial
Esta investigación define su alcance territorial a las instalaciones del Instituto Zuliano de
Investigaciones Tecnológicas (INZIT), ubicado en el Km. 15 Vía La Cañada de Urdaneta, Estado
Zulia, Venezuela.
1.4.2 Delimitación Temporal
Este estudio se realizo en el periodo comprendido entre el mes de septiembre de 2009 y marzo de
2010.
1.4.3 Línea De Investigación
El presente estudio está enmarcado en la línea de investigación, Determinación de propiedades
físicas y termodinámicas de fluidos.
30
CAPÍTULO II
MARCO TEÓRICO
2.1 Antecedentes de la investigación
Quevedo, G. (2008) Método de mínimos cuadrados parciales y su similitud con una regresión
bayesiana aplicada a una red neuronal. Trabajo de Grado. (Maestría en Matemática Aplicada).
Postgrado de Ingeniería. Facultad de Ingeniería. La Universidad del Zulia. Maracaibo,
Venezuela.
El procesamiento de información en ingeniería dispone de diferentes técnicas, las cuales
pueden dar resultados similares ante problemas específicos. Se considera clave determinar la
información más relevante, una de las técnicas consideradas fue el Método de Mínimos
Cuadrados parciales (PLS). Otras utilizan Redes Neuronales las cuales en la actualidad
incorporan mejoras estadísticas como la Teoría Bayesiana para efectuar un proceso de
regularización.
Se comparo el desempeño del método de mínimos cuadrados parciales con el obtenido a partir
de una regresión bayesiana aplicada a una neurona lineal, método que se propuso denominar m-
GNBR. Se evaluó los métodos con datos espectroscópicos reales de infrarrojo cercano (NIR) y
simulados (con control del ruido). Los vectores de regresión calculados por ambos métodos
resultaron similares, lo que demostró la factibilidad del método m-GNBR sin una reducción
previa de la dimensionalidad. El algoritmo m-GNBR permitió incluso la obtención de resultados
más satisfactorios en varios de los casos estudiados. Se demostró además como el criterio BPLS,
propuesto en esta investigación, resulta una alternativa a la selección de variables latentes por el
método validación cruzada para el método PLS.
Se evidenció la capacidad del algoritmo m-GNBR para obtener resultados óptimos con datos
sintéticos ante la presencia controlada de ruido, al comparar con los valores reales sin ruido. A
partir de los resultados se manifestó la capacidad de generalización de los métodos.
31
Macho, S. (2002). Metodologías analíticas basadas en espectroscopia de infrarrojo y
calibración multivariante. Tesis doctoral. Departamento de Química Analítica I Química
Orgánica. Universitat Rovirai Virgili. Tarragona. España.
Presento el desarrollo y aplicación de metodologías analíticas basadas en la combinación de
medidas espectroscópicas de infrarrojo con métodos quimiométricos de análisis multivariante.
Las aplicaciones desarrolladas se enfocaron a la determinación cuantitativa de propiedades físicas
y químicas de interés en la industria petroquímica. Se abordo el análisis de naftas y de diferentes
tipos de polímeros y co-polímeros de polipropileno. El principal interés de este tipo de métodos
analíticos en el ámbito empresarial es la reducción del tiempo de análisis, así como la facilidad de
acoplarlos al análisis en línea, lo que se traduce en una importante mejora de la eficacia y calidad
de la producción.
Para estos dos tipos de muestras (nafta y polipropileno) se han desarrollado modelos de
calibración multivariantes de mínimos cuadrados parciales (PLS), utilizando medidas tanto de la
espectroscopia de infrarrojo medio como del infrarrojo cercano. Para la nafta se han desarrollado
modelos de calibrado para la determinación desglosada, por familia y número de carbono, de los
diferentes hidrocarburos presentes en la muestra. En el polipropileno se han desarrollado modelos
para la determinación del contenido en etileno, que se añade a la muestra en forma de polímero
gomoso para mejorar sus cualidades mecánicas, para la determinación del índice de fluidez y para
la viscosidad.
Un último aspecto de los modelos multivariantes que se considero en esta investigación ha
sido la selección de variables previa al desarrollo del modelo. La selección de longitudes de onda
en base a criterios espectroscópicos (2ª derivada y PCA) ha permitido el uso de modelos de
calibración más simples, con errores de predicción comparables a los modelos que utilizan el
espectro completo. El desarrollo de esta tesis también permitió señalar toda una serie de aspectos
del análisis multivariante, en los que se ha de poner especial énfasis cuando se utiliza esta técnica
en el ámbito industrial, como podría ser la existencia de una relación entre la propiedad de interés
y el espectro NIR de la muestra, la amplitud del intervalo de concentraciones, los factores que
afectan al error en predicción o la capacidad de controlar la validez en el tiempo del modelo.
32
Alciaturi, C. (2000) Estudio de carbones minerales por espectroscopía de infrarrojo. Tesis de
Grado (Ingeniero Químico). Facultad de Ingeniería. Universidad del Zulia, Maracaibo,
Venezuela.
Con el propósito de demostrar la posibilidad de realizar análisis cuantitativos de carbones
minerales por medio de la espectroscopia de infrarrojo medio, en esta investigación se tomó un
conjunto de 49 muestras de carbones (principalmente venezolanos) y se desarrolló un modelo
matemático para las correlaciones entre una serie de propiedades de los carbones minerales:
materia volátil, carbono fijo, porcentaje de cenizas, poder calórico, porcentajes de carbono,
hidrógeno, y azufre, y reflectancia máxima de vitrinita (consideradas variables dependientes) con
los espectros de infrarrojo medio obtenido por reflectancia difusa (variables independientes). Se
utilizó el modelo PLS (mínimos cuadrados parciales), obteniéndose buenas correlaciones para los
porcentajes de materia volátil, carbono fijo, cenizas, hidrógeno, y reflectancia máxima de
vitrinita.
García, F. (1981) Detección de helio en gas natural mediante cromatografía a temperaturas
sub-ambientales. Trabajo de Grado (Magister en Ingeniería de Gas) Facultad de Ingeniería. La
Universidad del Zulia. Maracaibo, Venezuela.
El objetivo principal de esta investigación fue la determinación de la existencia del helio en el
Gas Natural. Para la separación de los componentes, se aplico la técnica de Cromatografía a
temperatura sub-ambiental. Se analizaron muestras provenientes del Estado Barinas
pertenecientes a la Compañía Corpoven, y del Estado Zulia de la Compañía Maraven en
Lagunillas. Se utilizo un Cromatógrafo marca Hewlet Packard Modelo 7620A con un integrador
digital. En los análisis se usaron columnas empacadas con Molecular Sieve 13X, de 6 pies de
longitud y 1/8 pulgadas de diámetro, Nitrógeno como gas portador, y un equipo Criogénico
portátil para enfriar la columna. Se obtuvieron concentraciones de helio en el Estado Barinas
comprendidas entre 46 y 110 PPM mientras que en el Estado Zulia no se observó helio.
33
Piña, E. (1976) Caracterización del gas natural de Venezuela. Trabajo de Grado (Ingeniero
Químico). Facultad de Ingeniería. La Universidad del Zulia. Maracaibo, Venezuela.
Las grandes reservas de gas natural que hay en Venezuela y las diferentes aplicaciones de este
gas combustible, han conducido a la elaboración de diferentes trabajos en relación a esta materia.
El objetivo de esta investigación fue determinar la composición del gas natural en Venezuela y la
influencia que sobre sus propiedades ejerce la presencia de CO2 y N2. Este trabajo es una
actualización del trabajo elaborado por el Ing. Marcías Martínez en el año 1972. Para la
realización de este trabajo se adicionan 122 muestras a las 373 que contemplaba el trabajo del
Prof. Martínez, lo cual hace un total de 495 muestras. Las 122 muestras citadas fueron analizadas
en los Laboratorios del Instituto de Investigaciones Petroleras de L.U.Z. (INPELUZ).
De las 373 muestras incluidas en el trabajo del profesor Martínez, 331 fueron suministradas
por el Ministerio de Minas e Hidrocarburos (MMH) y el resto fueron analizadas en INPELUZ.
Los datos correspondientes a las 495 muestras fueron procesados en varios programas de
computación en el Sistema IBM 1130, en el Instituto de Cálculo Aplicado de LUZ, para la
elaboración de este trabajo. De los resultados obtenidos al comparar la muestra promedio de los
análisis hechos en INPELUZ con la muestra promedio de las que fueron suministradas por el
MMH, se concluye que éstas últimas no indican la presencia de H2S, octano ni nonano. De la
muestra promedio del gas natural en Venezuela se concluye que éste está constituido
principalmente por metano con cantidades menores de los alcanos más pesados y con pequeñas
cantidades de impurezas tales como H2S, H2O.
34
2.2 Gas Natural
El gas natural es un combustible de origen fósil que se extrae del subsuelo. Es más ligero que
el aire y los expertos coinciden a la hora de calificarlo como la energía por excelencia del siglo
XXI. Este combustible ocupa el tercer lugar en el ranking de fuentes de energía más utilizadas en
el mundo y representa la quinta parte del consumo energético mundial. Se denomina gas natural a
una mezcla de gases, cuyos componentes principales son hidrocarburos gaseosos, (en particular
el metano que aparece en una proporción superior al 70%), este se encuentra en la naturaleza en
las llamadas “bolsas de gas “, bajo tierra, cubiertas por capas impermeables que impiden su
salida al exterior se puede encontrar acompañando al crudo en pozos petrolíferos (gas natural
asociado). Puede estar en este como una capa libre, también mezclado con el petróleo y
presentarse como condensado formando una sola faz líquida con él en determinadas condiciones
de temperatura y presión, o bien en yacimientos exclusivos de gas natural (gas natural no
asociado). No existe una teoría rigurosa sobre su formación pero se puede asegurar que
proviene de un proceso análogo al de la formación del petróleo.
2.2.1 Ventajas que ofrece el Gas Natural
Comodidad: Al ser una energía de suministro continuo esta siempre disponible en la cantidad
y en el momento que se le necesite.
Limpieza: El gas natural es menos contaminante que los combustibles sólidos y líquidos.
Por un lado, como cualquier otro combustible gaseoso, no genera partículas sólidas en los
gases de la combustión, produce menos CO2 (reduciendo así el efecto invernadero), menos
impurezas, como por ejemplo azufre (disminuye la lluvia ácida), además de no generar humos.
Por otro lado, es el más limpio de los combustibles gaseosos, exceptuando el hidrogeno.
Seguridad: El gas natural, a diferencia de otros gases combustibles, es más ligero que el aire,
por lo que, de producirse alguna fuga, se disipa rápidamente en la atmósfera. Únicamente, se
requiere tener buena ventilación.
Economía: Es la energía de suministro continuo más barata.
35
2.2.2 Propiedades del Gas Natural
Algunas de las propiedades del gas natural son:
Viscosidad del gas (μg)
Es la relación entre el esfuerzo cortante y la velocidad del esfuerzo cortante, que se aplica a
una porción de fluido para que adquiera movimiento (viscosidad dinámica).
Hay distinto tipos de viscosidad, siendo las de mayor estudio la dinámica y la cinemática, siendo
ésta última la resistencia que se genera al fluir un fluido bajo el efecto de la gravedad. La
viscosidad del gas tendrá a bajas presiones (menor a 1500 lpc), un aumento de la temperatura
aumentará la viscosidad del gas, a altas presiones (mayor a 1500 lpc), un aumento de la
temperatura disminuye la viscosidad, a cualquier temperatura, si se aumenta la presión la
viscosidad aumenta, la viscosidad será mayor, a medida que el gas posea componentes más
pesados.
Densidad Relativa
Es la relación de la densidad de una sustancia a la densidad de una sustancia de referencia. Para
efectuar la relación entre ambas sustancias, es necesario que ambas se encuentren a la misma
presión y temperatura. Si asumimos un comportamiento de gas ideal para ambas sustancias, la
densidad relativa se puede expresar en función de los pesos moleculares de cada sustancia.
Peso molecular del gas
Es la unión de la de los pesos moleculares de cada elemento que conforman el gas natural. Las
unidades del peso molecular son: Kgr/Kmol ó Lb/lbmol. El gas natural, es una mezcla de
componentes y es por ello que el peso molecular del gas se obtiene sumando la fracción molar de
cada i-esimo componente por su respectivo peso molecular.
36
Donde:
Ma = Peso molecular aparente del gas.
Mi = peso molecular de cada componente de la mezcla de gas.
Fracción molar de cada componente de la mezcla de gas.
Poder calorífico
Se define el poder calorífico como la energía que se desprende en la combustión completa de la
unidad de masa o de volumen del combustible.
Poder calorífico total (PCT)
Se denomina así al poder calorífico cuando el agua resultante de la combustión se supone en
estado de vapor con los demás productos de la combustión.
Poder calorífico neto (PCN)
Se denomina así al poder calorífico cuando el agua resultante de la combustión se supone líquida
(condensada) en los productos de combustión.
En los contratos de compra de gas suelen definir el poder calorífico bruto del gas que suele
situarse en 950 Btu/scf. Dado que el nitrógeno no tiene un considerable poder calorífico, en
algunos casos, cuando el gas no alcanza las mínimas exigencias en cuanto al poder calorífico, se
procederá a la retirada de este nitrógeno del caudal de gas, este proceso se realizará mediante
plantas de baja temperatura o con membranas permeables.
Por tanto la diferencia entre PCN y PCT es igual por definición al calor de condensación del
vapor de agua resultante de la combustión del combustible. La relación PCB/PCN depende de la
proporción de los elementos carbono e hidrogeno presentes en gas.
Generalmente el valor del gas depende de su poder calorífico, de todas formas si existiera un
mercado para el etano, propano, butano, etc., puede ser rentable separar estos componentes del
gas aunque rebajemos su poder calorífico. En algunos casos, cuando el gas es suministrado como
combustible residencial, los contratos de venta pueden pedir restringir los contenidos de
componentes altos del Btu, por lo que habrá que tratar este gas para minimizar su contenido.
37
2.3 Cromatografía de Gases
La cromatografía de gases o la cromatografía en fase de vapor [24], es una metodología
analítica instrumental que permite la separación de los componentes de una mezcla. Como su
nombre lo indica, esta metodología requiere que los componentes a separar se encuentran en fase
gaseosa; para ello es posible calentar la muestra y realizar así el análisis de sólidos o líquidos, sin
embargo, de todos modos esto resulta una limitante al método. Sólo es posible analizar por
cromatografía de gas aquellos compuestos que puedan ser volatilizados en las condiciones de
operación de los equipos, a pesar de ello, el número de compuestos que pueden ser analizados por
cromatografía de gas es enorme.
El principio bajo el cual operan los equipos de cromatografía de gas es la afinidad de dos
compuestos (sea esta solubilidad, adsorción o absorción). En el caso de la cromatografía de gas
uno de los compuestos se encuentra inmovilizado en un lecho fijo (fase estacionaria) y puede ser
un sólido o un líquido soportado sobre un sólido inerte, el otro compuesto se desplaza sobre la
fase estacionaria arrastrado por una corriente de un gas (fase móvil). El compuesto en la fase
móvil interacciona con la fase estacionaria adsorbiéndose, para un instante después desorberse,
estableciendo así un equilibrio adsorción-desorción; sin embargo el momento que el compuesto
en la fase móvil, pasa adsorbido en la fase estacionaria, hace que su viaje se retrase con respecto
al frente del gas portador. Si se establecen varios de estos equilibrios a lo largo del trayecto, el
retraso del compuesto en la fase móvil será considerable.
Cuando se tiene una mezcla de dos componentes, que poseen una afinidad diferente por una
misma fase estacionaria, cada uno establecerá, con esta, un equilibrio diferente y por lo tanto el
retraso de cada uno, con respecto al frente, será diferente. Si el largo del lecho es lo
suficientemente grande, después de un cierto tiempo (número de equilibrios que se puedan
establecer) se habrá logrado la separación total de los dos componentes. De igual forma, cuando
la mezcla está constituida por más de dos componentes, cada uno de ellos establecerá un
mecanismo de retención diferente ante una misma fase (selectividad), lo que permitirá su
separación.
Resulta evidente que mientras más compleja sea la muestra, más difícil será encontrar una fase
estacionaria que presente una selectividad distinta para cada uno de los compuestos de la mezcla.
38
Quizás el mayor problema para realizar un buen análisis por cromatografía de gas, es la
adecuada selección de la fase estacionaria y existen varias formas de realizar esto, sin embargo
una buena opción inicial seria la regla de “Lo similar disuelve a lo similar”. Esto significa, que si
los componentes a separar son polares se escogerá para separarlos una fase estacionaria polar.
2.3.1 Resultados obtenidos de la Cromatografía de Gas
Cuando se usa un registrador con gráfica de banda [24], la inscripción obtenida de un análisis
cromatográfico se llama Cromatograma. Generalmente el tiempo es la abscisa y los milivoltios la
ordenada. A continuación se muestra un Cromatograma que ilustra los resultados que se pueden
obtener (figura 1).
Figura 1 Cromatográma de un gas natural. Fuente: Guzmán (2006)
Velocidad
El análisis total se completa en 10 minutos. El uso de gas como la fase movible tiene la
ventaja de un equilibrio rápido entre las fases movibles y estacionarias y permite el uso de gases
portadores de alta velocidad. El logro de análisis con una duración de minutos es algo común en
cromatografía de gas-liquido.
Resolución
Los picos 1, 2, 3, representan el metano, el etano y el propano respectivamente. La separación
de estos compuestos por medio de otras técnicas es extremadamente difícil o imposible. La
diferencia del punto de ebullición se puede pasar por alto ya que los picos varían solo en sus
grados de no saturación.
39
Análisis Cualitativo
El tiempo de retención es un valor constante para cada componente. Este valor, fácilmente
reproducible hasta en un 1%, se usa para identificar cada pico. Muestras usadas como patrones,
demuestran ser muy efectivas en la identificación de picos.
Análisis Cuantitativo.
El área ocupada por cada pico es proporcional a la concentración de aquel pico. Esto puede
usarse para determinar la concentración exacta de cada componente. En la gráfica anterior, por
ejemplo, las áreas de los picos son medidas por un integrador electrónico digital y son utilizadas
para realizar el cálculo de determinación de la concentración de cada componente por
comparación con muestras patrones. Generalmente el análisis cuantitativo es preciso con una
relatividad del 1 al 2%, aún en medidas de áreas, calculadas manualmente.
2.3.2 Ventajas de la Cromatografía de Gas
Las ventajas de esta técnica de elusión son:
La columna se regenera continuamente por la fase de gas inerte.
Generalmente los componentes de la muestra se separan completamente y se mezclan solo con un
gas inerte haciendo más fácil la colección y determinación cuantitativa.
El tiempo de análisis es corto.
Una desventaja es que componentes que se retienen fuertemente se mueven muy lentamente o
en algunos casos permanecen inmóviles. Esta dificultad se puede superar programando la
temperatura de la columna para reducir el tiempo de elusión. La programación de la temperatura
es el aumento de temperatura de la columna durante un análisis para proporcionar análisis más
rápidos y más versátiles.
40
2.3.3 Usos de la Cromatografía de Gas
Métodos analíticos
La cromatografía de gas se usa para identificar y determinar cualquier material que tenga una
presión de vapor apreciable (1 a 1000 mm) a una temperatura determinada para operar la
columna (-70 ºC a +400 ºC). Muchos sólidos han sido analizados por sus diseños característicos
“locos” que se forman a temperaturas aún más altas.
Métodos de investigación
Muchas propiedades físicas, tales como superficie de área, adsorción isoterma, temperatura de
solución, coeficientes de actividad, coeficientes de partición, peso molecular, y presión de vapor,
pueden ser fácilmente medidos. Estos procedimientos generalmente dan resultados comparables a
métodos clásicos lentos para determinar estas propiedades.
2.4 Espectroscopia de Infrarrojo
La espectroscopia molecular se basa en la interacción entre la radiación electromagnética y las
moléculas. Dependiendo de la región del espectro en la que se trabaje y por tanto de la energía de
la radiación utilizada (caracterizada por su longitud o número de onda), esta interacción será de
diferente naturaleza: excitación de electrones, vibraciones moleculares y rotaciones moleculares
[70]. La molécula, al absorber la radiación infrarroja, cambia su estado de energía vibracional y
rotacional. Las transiciones entre dos estados rotacionales requieren muy poca energía, por lo que
solo es posible observarlas específicamente en el caso de muestras gaseosas. En el caso del
estudio del espectro infrarrojo (IR) de muestras sólidas y líquidas sólo se tienen en cuenta los
cambios entre estados de energía vibracional [58].
Utilizando la mecánica quántica y el modelo del oscilador anarmónico para representar los
enlaces, se demuestra que las bandas en el infrarrojo se producen como consecuencia de
transiciones entre niveles de energía en los que el número cuántico vibracional ( ) cambia en una
unidad (Δ = ±1), denominada banda fundamental, o en más de una unidad (Δ = ±2, ±3,...), que
se denominan sobretonos [28].
41
Aunque teóricamente son posibles Δ superiores, en la práctica sólo se observan estas tres
transiciones. Las bandas de absorción aparecen aproximadamente (existen otros términos
despreciables) a frecuencias: (la banda fundamental), 2 y 3 (los sobretonos) [33]. Estos
últimos tienen una menor intensidad que la banda fundamental. También se producen bandas
como consecuencia de la interacción de dos vibraciones diferentes:
Una molécula poliatómica (n átomos) tiene 3n-6 modos de vibración diferentes (3n-5 si la
molécula es lineal). Cada uno de estos modos de vibración viene representado por una curva de
energía potencial diferente y da lugar a una banda fundamental y sus correspondientes sobretonos
en el infrarrojo. Los modos de vibración que se producen incluyen: cambios en la distancia de
enlace (elongaciones o stretching, que pueden ser simétricas o asimétricas) y cambios en el
ángulo de enlace, o bending (simétricos en el plano, asimétricos en el plano, simétricos fuera del
plano y asimétricos fuera del plano) [71].
2.4.1 Vibraciones Moleculares
Las moléculas poseen movimiento vibracional continuo. Las vibraciones suceden a valores
cuantizados de energía.
Las frecuencias de vibración de los diferentes enlaces en una molécula dependen de la masa
de los átomos involucrados y de la fuerza de unión entre ellos. En términos generales las
vibraciones pueden ser de dos tipos: estiramiento (stretching) y flexión (bending). Las
vibraciones de estiramiento son aquellas en las que los átomos de un enlace oscilan alargando y
acortando la distancia del mismo sin modificar el eje ni el ángulo de enlace. Si el enlace se
alarga, aparece una fuerza restauradora que hace que los dos átomos tiendan a juntarse hasta su
longitud de enlace de equilibrio. Si el enlace se comprime, la fuerza restauradora hace que los
átomos se separen. Cuando el enlace se alarga o se comprime, y a continuación se deja en
libertad, los átomos vibran.
42
Figura 2 Longitud de enlace de una molécula. Fuente: Guzmán (2006)
Las vibraciones moleculares dependen de las masas de los átomos. Los átomos pesados vibran
lentamente, por lo que tendrán una frecuencia más baja que los átomos más ligeros. La frecuencia
de una vibración disminuye al aumentar la masa atómica. La frecuencia también aumenta con la
energía de enlace, por lo que un doble enlace C=C tendrá una frecuencia más elevada que un
enlace sencillo C-C.
Una molécula no lineal con n átomos tiene 3n - 6 modos de vibración fundamental. El agua
tiene 3(3) - 6 = 3 modos. Dos modos son de tensión y uno de flexión.
Figura 3 Tipos de tensión vibracional. Fuente: Guzmán (2006)
La tensión puede ser simétrica cuando los dos enlaces O-H se alargan al mismo tiempo. En
una tensión asimétrica un enlace O-H se alarga, mientras que el otro enlace O-H se comprime. La
flexión, también conocida como movimiento en tijereta, se produce cuando el ángulo H-O-H
disminuye y aumenta pareciendo unas tijeras.
43
2.4.2 Regiones Espectrales
La región infrarroja del espectro electromagnético se extiende entre la zona del visible y la de
las microondas, tal como se muestra en la Figura 4.
Figura 4 Región infrarroja del espectro electromagnético. Fuente: Macho (2002)
La sección de mayor utilidad práctica de la extensa región IR es la que se extiende entre 4000
y 650 cm-1
denominada región infrarroja media. La utilización de la región IR lejana (Far
Infrared, FIR), entre 650 y 200 cm-1
, se ha ampliado considerablemente en los últimos decenios,
sobre todo para el estudio de compuestos órgano-metálicos o inorgánicos (átomos pesados,
enlaces débiles). La región IR cercana (Near Infrared, NIR), entre 12500 y 4000 cm-1
, accesible a
la óptica de cuarzo, donde se presentan las bandas armónicas, ha sido utilizada para
determinaciones cuantitativas pero mucho menos intensamente con fines estructurales Aún una
molécula relativamente sencilla puede dar lugar a un espectro de absorción IR muy complejo.
Puede decirse que el espectro IR caracteriza a una estructura molecular: dos moléculas
diferentes deben mostrar espectros IR diferentes (a excepción de los isómeros ópticos). Esta
propiedad ha sido utilizada ampliamente en la caracterización de compuestos orgánicos. La
existencia de extensas bases de datos de espectros IR permite el uso de esta técnica acoplada a
sistemas cromatográficos en la identificación y determinación rápida de componentes de mezclas
orgánicas.
Aunque el espectro IR caracteriza a cada compuesto, se encuentra que ciertas agrupaciones
atómicas dan lugar siempre a bandas en un determinado intervalo de frecuencias, independiente
de la naturaleza del resto de la molécula. La existencia de estas bandas, características de grupos
funcionales, permite una amplia utilización de la espectroscopia IR en la determinación
estructural.
44
La técnica IR se puede aplicar en determinaciones cuantitativas basadas en la ley de Beer. El
cumplimiento de la ley de Beer se logra si la anchura nominal de la radiación de excitación
(mono-cromaticidad del haz) es mucho menor que la anchura de la banda de absorción. Esta
relación es con frecuencia poco favorable en IR donde las bandas de absorción son mucho más
finas que en la zona UV-Vis. Pueden también presentarse problemas con la reproducibilidad de
los espectros por las dificultades inherentes a la preparación de muestras en IR. No obstante, estas
dificultades pueden solventarse con un trabajo más cuidadoso que el usual en las determinaciones
cuantitativas en UV-Visible.
2.4.3 Características de un Espectro
El espectro de infrarrojo de un compuesto es una representación gráfica de los valores de onda
(μ) o de frecuencia (cm-1
) ante los valores de por ciento de transmitancia (%T).
La absorción de radiación IR por un compuesto a una longitud de onda dada, origina un
descenso en el %T, lo que se pone de manifiesto en el espectro en forma de un pico o banda de
absorción.
Figura 5 Representación gráfica de los valores de onda (μ) o de frecuencia (cm-1
) ante los valores de porcentaje de
transmitancia (%T). Fuente: Guzmán (2006)
2.4.4 Tipos de medidas en Infrarrojo
Cuando la radiación incide en la muestra (Figura 6), ésta puede sufrir diferentes fenómenos:
absorción, transmisión y reflexión. La intensidad de la luz transmitida a través de la muestra (PT)
45
es menor que la intensidad incidente (P0). Una parte de esta intensidad incidente se ha reflejado
(PR), mientras que otra parte ha sido absorbida por la sustancia (PA)
Figura 6 Fenómenos de absorción, transmisión y reflexión de la radiación electromagnética al interaccionar con la
materia. Fuente: Macho (2002)
La medida más común en el infrarrojo es la que se basa en la absorción (o la intensidad
transmitida), aunque también se han desarrollado espectroscopias basadas en el fenómeno de la
reflexión como son la reflectancia total atenuada y la reflectancia difusa. A continuación se hace
una descripción de las técnicas mencionadas:
Transmitancia y Absorbancia
El espectro por transmisión a través de la muestra determina PA, ya que esta pérdida en la
intensidad luminosa incidente está relacionada con la concentración de la muestra. La
transmitancia, T, se calcula como la fracción de radiación (PT/P0) transmitida a través de la
muestra. La intensidad de absorción de la luz, absorbancia (A) se calcula como:
La representación de la transmitancia o de la absorbancia como una función de la longitud de
onda, λ, o del número de onda , , es lo que conforma el espectro de la muestra. La relación que
existe entre la concentración y la absorbancia está descrita por la ley de Lambert-Beer:
46
La absorción de la radiación por parte de la muestra es proporcional a la longitud del camino
óptico (anchura de la celda, l ) [en cm], a la concentración de la solución [mol/L] y a una
constante proporcional específica de cada muestra, , denominada absortividad molar, [L mol-1
cm-1
]. Esta ley lineal se cumple únicamente para disoluciones diluidas (c≤ a 0.1 M), pudiéndose
producir desviaciones de la linealidad a concentraciones más elevadas al variar como
consecuencia de cambios en el índice de refracción de la disolución. Otras desviaciones de la
linealidad tienen su origen en la propia instrumentación: presencia de luz reflejada y dispersada,
luz no estrictamente monocromática o detectores de respuesta no lineal [48].
Medición de Transmitancia y Absorbancia
La transmitancia y la absorbancia se miden en un instrumento llamado espectrofotómetro, la
solución del analito se debe contener en algún recipiente transparente, tubo o celda.
Figura 7 Solución del analito atravesada por el haz de luz. Fuente: Macho (2002)
Como se puede ver en la representación, ocurre reflexión en las interfases: aire-pared, tanto
como en la pared-solución. La atenuación del haz resultante es sustancial. Además, la atenuación
de un haz puede ocurrir por dispersión de las moléculas grandes y a veces por absorción de las
paredes del recipiente.
Para compensar estos efectos, la potencia del haz transmitido por la solución del analito es
comparada comúnmente con la potencia del haz transmitido por una celda idéntica que contiene
solamente solvente. Una absorbancia experimental que se aproxima mucho a la absorbancia
verdadera se obtiene con la ecuación.
47
Los espectrofotómetros, están a menudo, equipados con un dispositivo que tiene una escala
lineal que se extiende de 0 a 100%. De manera de hacer tal instrumento de lectura directa en
porcentaje de transmitancia, se efectúan dos ajustes preliminares, llamados 0%T y 100%T. El
ajuste del 0%T se lleva a cabo mediante un cierre mecánico del detector. El ajuste de 100%T se
hace con el cierre abierto y el solvente en el camino de la luz. Normalmente el solvente está
contenido en una celda que es casi idéntica a las que contienen las muestras.
Cuando la celda del solvente es reemplazada por la celda que contiene la muestra, la escala da
la transmitancia porcentual. Los instrumentos actuales poseen un sistema electrónico que realiza
la operación matemática y da la respuesta directamente absorbancia. También hay que hacer una
calibración previa con el solvente o blanco.
Reflectancia Total Atenuada
El principio de esta medida se basa en el fenómeno de la reflexión total interna y la
transmisión de la luz a través de un cristal con un elevado índice de refracción (Figura 8). La
radiación penetra (unos mm) más allá de la superficie del cristal donde se produce la reflexión
total, en forma de onda evanescente [65]. Si en el lado exterior del cristal se coloca un material
absorbente (muestra), la luz que viaja a través del cristal se verá atenuada (de ahí el nombre de la
técnica) y se puede registrar el espectro de la muestra. El ángulo de la luz incidente y la
geometría del cristal facilitan que se produzcan sucesivas reflexiones en sus caras internas. El
espectro medido tiene una apariencia similar al espectro de transmisión, excepto por ciertas
variaciones en la intensidad en función de la longitud de onda que se producen.
Figura 8 Reflexión total interna y elemento de reflexión interna (IRE) utilizado en el sistema ATR.
Fuente: Macho (2002)
48
La profundidad de penetración [65], dp, depende de la longitud de onda de la radiación, l, del
índice de refracción del cristal, np, del índice de refracción de la muestra, ns, y del ángulo de
incidencia del haz de radiación del cristal, q, de acuerdo con la ecuación:
donde nsp = ns/np (ns<np). El camino óptico total en la muestra se obtiene multiplicando dp por el
número de reflexiones que se hayan producido a través de la muestra. Esta técnica de muestreo es
muy efectiva para el análisis de sólidos y líquidos, especialmente en las regiones del infrarrojo
medio y del infrarrojo cercano. Para obtener medidas adecuadas es necesario que exista un
contacto íntimo entre la muestra y el cristal del ATR, por lo que esta técnica se utiliza sobretodo
en líquidos o en sólidos que se puedan compactar contra el cristal aplicando presión. Esta técnica
es especialmente útil, por ejemplo, en el caso de medir muestras viscosas utilizando caminos
ópticos muy cortos: una celda de transmisión de estas características sería muy difícil de llenar y
limpiar debido a la consistencia de la muestra.
Reflectancia difusa
Otra medida que se basa en el fenómeno de la reflexión es la reflectancia difusa. Cuando la
luz incide sobre una muestra opaca y no absorbente tiene lugar el fenómeno de la reflexión
especular regido por las ecuaciones de Fresnel (Figura 9a).
Figura 9 Procesos de reflexión en un material especular (a) o irregular (b). Fenómeno de reflectancia difusa (c).
Fuente: Macho (2002)
La intensidad reflejada sobre el total incidente depende de los índices de refracción del aire y
la muestra (n1, n2). Para el caso de un ángulo de incidencia igual a cero la expresión es [58]:
49
Cuando la luz incide sobre una superficie irregular, se puede considerar que la frontera entre el
medio y la muestra está formado por una serie de pequeñas interfases orientadas en todos los
ángulos posibles (Fig. 9b). De esta forma aunque cada una de estas pequeñas interfases refleja la
luz siguiendo la ley de Fresnel, el efecto global es una reflexión de la luz a cualquier ángulo
(reflectancia difusa). La radiación que se transmite a través de la primera interfase (Fig. 9c) puede
sufrir absorción por parte de la muestra, por lo que la intensidad de la luz se verá atenuada según
la ley de Beer.
Esta radiación que ha atravesado la primera capa de partículas se difunde a las siguientes capas
a través de reflexiones aleatorias, refracciones y dispersión y puede sufrir nuevos fenómenos de
atenuación. La longitud de camino óptico seguido por la luz es muy difícil de describir
matemáticamente, sobre todo si las partículas de la muestra tienen tamaños heterogéneos, por lo
que no se ha desarrollado una teoría rigurosa de la reflectancia difusa. Sí que existen teorías
basadas en la práctica, la más conocida la de Kubelka-Munk [37]. Esta teoría propone para una
capa completamente opaca y de grosor infinito:
donde R∞ es la reflectancia de la capa infinitamente gruesa, y k y s son las constantes de
scattering y absorción, respectivamente. El coeficiente de absorción (k), es igual a la
concentración multiplicada por la absortividad definida en la ley de Beer (e c). En la práctica la
reflectancia difusa se mide respecto a un estándar no absorbente y a continuación se calcula el
logaritmo para llegar a una relación lineal con la concentración:
R y Rstand representan la reflectancia de la muestra y del estándar respectivamente (siendo mayor
la reflectancia del estándar que la de la muestra). Para la luz monocromática log Rstand es
constante y puede ser ignorado. Si se cumple la condición de aditividad del espectro, la expresión
anterior puede ser reescrita como:
50
Cómo en el caso de la ley de Beer, existe una relación entre la concentración y la radiación
medida en el espectro. Aunque existe el inconveniente de que s no es constante y depende de
varias propiedades de la muestra, como el tamaño de partícula y el contenido de humedad. Al
aumentar el tamaño medio de partícula (s α 1/d) se produce una reducción del scattering y la
radiación penetra más profundamente en la muestra, con lo que el log(1/R) aumenta. El efecto es
un desplazamiento a lo largo del eje de ordenadas como función del tamaño de partícula. Además
el scattering de las partículas pequeñas depende de la longitud de onda, lo que provoca que el
desplazamiento debido al tamaño de partícula no sea constante en todo el espectro.
La presencia de agua en el espectro provoca la aparición de bandas características, y además
afecta a la totalidad del espectro debido a la variación que se introduce en el índice de refracción
del medio (no), provocando un aumento de log(1/R). Puesto que el grado de humedad puede
variar entre muestras, en la práctica la constante de scattering (s) se convierte en una incógnita
para cada una de las nuevas muestras, por lo que no se puede llevar a cabo el análisis
cuantitativo.
2.4.5 Interpretación de Espectros
Asignación de bandas
En el espectro infrarrojo medio, entre 4000 y 1300 cm-1
(región de frecuencias de grupo) se
observan una serie de bandas asignadas a vibraciones de sólo dos átomos de la molécula. En este
caso la banda de absorción se asocia únicamente a un grupo funcional y a la estructura molecular
completa, aunque hay influencias estructurales que provocan desplazamientos significativos en la
frecuencia de la vibración.
Esta vibraciones derivan de grupos que contienen hidrógeno (C-H, O-H, y N-H) o grupos con
dobles y triples enlaces aislados. Entre 1300 y 400 cm-1
(fingerprint region) la asignación a
grupos funcionales determinados es más difícil debido a la multiplicidad de bandas, pero es una
zona de espectro muy útil para la identificación de compuestos específicos [32]. La Figura 10,
muestra un cuadro resumen de las frecuencias de absorción de los grupos funcionales más
comunes en el IR medio.
51
En el espectro de infrarrojo cercano, predominan las bandas debidas a sobretonos y
combinaciones de enlaces en los que participa el hidrógeno (debido a que aumenta el grado de
anarmonicidad de la vibración), en la Figura 11, se muestra un cuadro resumen de las absorciones
más habituales en el infrarrojo cercano.
Figura 10 Frecuencias de vibraciones en el infrarrojo medio. Fuente: Macho (2002)
Figura 11 Frecuencias de vibración en el infrarrojo cercano. Fuente: Macho (2002)
En el NIR las bandas de absorción no están tan bien definidas como en el infrarrojo medio,
apareciendo en forma de bandas anchas y solapadas entre si, por lo que es más difícil realizar una
asignación a un componente o grupo funcional concreto de la muestra.
Las bandas tienen una menor intensidad (la absortividad de la muestra es menor), por lo que
se debe trabajar con caminos ópticos más largos, de 0.5 a 10 mm, frente a los 10-50 mm
utilizados en el infrarrojo medio.
52
Figura 12 Comparación entre el espectro IR y NIR del ciclohexano. Fuente: Macho (2002)
Derivadas (primera y segunda)
Una aproximación alternativa al problema de la superposición de picos y a la corrección de la
línea base es el uso de la segunda derivada del espectro. La primera derivada del espectro se
puede calcular muy fácilmente restando las absorbancias a longitudes de onda adyacentes (en el
caso de longitudes de onda equidistantes). La segunda derivada se obtiene aplicando de nuevo
este proceso. La segunda derivada tiene ciertas características muy interesantes: tiene mínimos en
la posición de las bandas de absorción del espectro original, facilitando en gran medida la
resolución de los picos solapados. Además, también elimina problemas en la línea de base. Sus
principales desventajas son que disminuye la relación señal/ruido y aumenta la complejidad del
espectro. Debido a que la diferenciación es una operación lineal, la ley de Lambert-Beer sigue
siendo válida en el espectro derivado, por lo que éste puede ser utilizado para determinaciones
cuantitativas.
Figura 13 Resolución de dos bandas solapadas a través de la segunda derivada. Fuente: Macho (2002)
53
El uso de derivadas consigue diferenciar mejor los picos solapados y elimina desplazamientos
lineales y cuadráticos de la línea base. La primera derivada se obtiene como la diferencia entre las
absorbancias, A, a dos longitudes de onda consecutivas
La derivada reduce la correlación entre variables y el efecto la dispersión debido al tamaño de
las partículas. Presenta el inconveniente de magnificar el ruido en la señal, por lo que
habitualmente se utiliza en combinación con métodos de suavizado de la señal. Derivadas de
orden superior se obtienen aplicando sucesivamente la derivada, aunque no suelen utilizarse
superiores a orden 2 (segunda derivada), ya que decrece la relación señal-ruido (S/N).
Figura 14 Ejemplo de la derivada de un espectro de nafta (arriba), sin utilizar un suavizado (en medio) y utilizando
un suavizado de Savitzki-Golay (abajo). Fuente: Macho (2002)
Una desventaja del uso de las derivadas es que disminuyen el valor de la relación señal-ruido,
por esta razón, se recomienda realizar un suavizado de la señal antes de la diferenciación de los
datos. Otra desventaja es que en ocasiones los modelos de calibración obtenidos mediante datos
espectrales tratados con primera o segunda derivada, son menos robustos frente a cambios
instrumentales, como por ejemplo derivas de la longitud de onda, que ocurren a lo largo del
tiempo, por lo que habría que revisar las calibraciones [11].
54
2.5 Fundamentos Quimiométricos
El progresivo aumento de la complejidad de la instrumentación analítica ha permitido obtener
volúmenes de datos cada vez mayores. La conversión de estos datos en información útil requiere
del uso de herramientas matemáticas y estadísticas, que se han agrupado en la disciplina
denominada Quimiometría [35, 45, 44, 17, 9].
2.5.1 Descomposición en componentes principales (PCA)
Al utilizar métodos espectroscópicos se obtienen respuestas de cada muestra para cientos o
miles de variables, en este caso longitudes de onda. La matriz, RIxJ (I filas por J columnas)
representa las respuestas de I muestras analizadas a J longitudes de onda diferentes. El elevado
número de variables J que caracterizan cada muestra impiden un análisis y representación gráfica
sencillos de las muestras. En este caso, el método de descomposición en componentes principales
[43] es muy útil, porque permite representar la variabilidad presente en R, en unos pocos factores
(o componentes principales) que son combinaciones lineales de las variables originales.
Figura 15 Representación gráfica de la descomposición en componentes principales de un conjunto de muestras
definidas por dos únicas variables. En este sencillo ejemplo la descomposición consiste en un simple cambio de ejes
(componentes principales). Fuente: Macho (2002)
El análisis en componentes principales proporciona una aproximación a la matriz R como un
producto de dos matrices: la matriz de scores, T y la matriz de loadings, P, que capturan la
estructura de los datos de R. Los scores capturan la estructura de las filas o lo que es lo mismo,
las relaciones entre objetos (muestras) y los loadings retienen la relación existente entre las
variables.
55
Figura 16 Notación matricial de la descomposición en componentes principales. Fuente: Macho (2002)
El análisis de componentes principales (PCA) se aplica frecuentemente cuando se trabaja con
datos colineales. Esta colinealidad en los datos significa que la información principal de las
variables R se puede condensar en un conjunto más pequeño de A variables. Cada una de estas
nuevas A variables se denomina componente principal o factor. El conjunto de factores se puede
ver más claramente si se representa el producto TPT como la suma de A términos de la forma
, que corresponden a cada una de las A columnas de las matrices T y P.
Figura 17 Notación matricial extendida de la descomposición en componentes principales. Fuente: Macho (2002)
El primer componente principal es aquél que explica una mayor cantidad de la información
contenida en R (maximiza ). El siguiente factor p2, explica la máxima información
de R no contenida en p1 (maximiza y es ortogonal al primer componente principal,
esto es ). Los sucesivos factores explican cada vez menos información y son ortogonales a
los anteriores. Las condiciones de ortogonalidad de scores y loadings se pueden resumir como:
)
56
Si la matriz R está centrada, entonces representa los valores propios de la matriz RTR, y los
vectores pa representan sus vectores propios. Esto significa que los loadings satisfacen la
ecuación:
La magnitud de los valores propios indica la cantidad de variabilidad (información) que
retiene cada uno de los componentes principales.
El análisis en componentes principales es muy útil para la interpretación de datos
multivariantes. Por un lado, la representación de los scores permite establecer relaciones entre las
muestras, permitiendo así la detección de muestras discrepantes y agrupaciones. Por otra parte,
los loadings permiten comparar y estudiar la influencia de las distintas variables (longitudes de
onda en este caso).
2.5.2 Selección de muestras de calibración
El principal objetivo en un estudio analítico es la obtención de un modelo para la predicción
de nuevas muestras, todas las posibles fuentes de variación que puedan ser encontradas en el
futuro deben estar incluidas en el conjunto de datos de calibración. Todos los componentes
químicos y parámetros físicos han de estar presentes en las muestras de calibración en un rango
de concentración o valores como mínimo tan amplio o preferentemente más amplio que aquel
esperado para las muestras a predecir en el futuro. Por ello, para obtener un buen modelo de
calibración multivariante se necesitan: modelos estadísticos adecuados, procedimientos de
estimación adecuados, y buenos datos experimentales.
Normalmente, cuanto mayor es el número de muestras utilizado para la calibración, mejor es
la capacidad predictiva del modelo utilizado y menor el error en predicción [39]. Se ha
demostrado que no sólo es importante el número de muestras sino la forma en la que son elegidas
dichas muestras [53].
57
El análisis NIR es, a menudo, simple y no costoso; sin embargo, no puede decirse lo mismo
del método de referencia. Debido a ello, es necesario llegar a un compromiso entre el número de
muestras a ser analizadas y el error en predicción que se va a obtener. Existen diferentes
estrategias de selección de “buenas” muestras de calibración y es importante resaltar que no solo
es importante la capacidad de predicción del modelo construido, sino también la capacidad del
mismo para detectar problemas o errores [54].
2.5.3 Técnicas de pre-tratamiento de datos
El pre-tratamiento de la señal es uno de los primeros pasos que se lleva a cabo en el análisis de
datos multivariantes. Consiste en manipulaciones matemáticas que se aplican antes de cualquier
otro tipo de análisis y tratan de anular o, al menos reducir, fuentes de variabilidad en la señal, ya
sea de carácter aleatorio (como el ruido) o de carácter sistemático (variaciones en la línea base,
etc.), que no están relacionadas con el analito o la propiedad de interés.
Centrado
El centrado de una variable consiste en la sustracción del valor medio a todos sus elementos.
En el caso de los datos espectrales el centrado consiste en restar al espectro de cada una de las
muestras el espectro medio. Este pre-tratamiento pone de relieve las diferencias entre espectros,
al haber eliminado la tendencia común (el espectro medio). Se utiliza tanto en PCA como en PCR
o PLS.
Figura 18 Centrado por columnas. a) Objetos definidos por dos variables. b) Los mismos objetos centrados.
c) Espectro de 12 muestras de alcohol polivinílico (PVA). d) Los mismos espectros de PVA centrados.
Fuente: Macho (2002)
58
Suavizado
La aplicación de técnicas de suavizado tienen el objeto de reducir matemáticamente el ruido
aleatorio que acompaña a la señal analítica. Aunque existen otros métodos más sencillos como el
de la media móvil, existe una herramienta basada en un ajuste polinómico móvil, como es el filtro
de Savitzki-Golay [69]. Este suavizado consiste en interpolar un polinomio de grado n cada serie
de m puntos de la señal, de forma que el valor de la respuesta en cada punto se reemplaza por una
combinación lineal de los puntos vecinos. Este método, al requerir el uso de 2m+1 valores para el
cálculo de cada valor de la señal corregida, provoca el truncamiento del espectro en sus extremos,
perdiendo 2m+1 valores en cada aplicación.
Figura 19 Suavizado de una señal espectroscópica utilizando una ventana de 21 puntos y un polinomio de 3er
grado.
Fuente: Macho (2002)
Corrección de la Línea Base
Aparte de fuentes de variabilidad de alta frecuencia, como sería el ruido, la señal medida
puede contener fuentes de variabilidad de baja frecuencia, no relacionadas con la propiedad de
interés, y que se denominan variaciones de la línea base. A continuación se presentan las
diferentes herramientas que se aplican en la práctica para corregir la variación de la línea base.
Modelado explícito de la línea base
Este método consiste en aproximar la línea de base del espectro con una función polinómica,
que se resta posteriormente al espectro para obtener el espectro corregido. El caso más sencillo
sería el polinomio de grado 0 (una constante), también denominada offset correction y consiste en
restar a cada espectro la absorbancia medida a una determinada longitud de onda.
59
La selección de esta longitud de onda se puede hacer en base al conocimiento
químico de la muestra (debe ser una zona sin absorción de ningún componente que varíe en la
muestra), tomando la longitud de onda de menor variabilidad entre muestras o la longitud [33] de
onda que al realizar un modelo PLS tiene un valor en los loadings próximo a cero [59].
Figura 20 Espectros NIR de muestras de nafta sin pretratamiento (a), offset correction a 1100 nm (b) y primera
derivada (c). Fuente: Macho (2002)
Se pueden utilizar polinomios de grado superior, para adaptar la corrección a las
características de la variación de la línea base. Los más habituales son el uso de una línea recta
(polinomio de grado 1) o de una curva (polinomio de grado 2). Cuando se utilizan polinomios de
grado 1 o 2, esta corrección se denomina detrending. En la Figura 21, se muestra un ejemplo
esquemático de una corrección utilizando un polinomio de primer grado.
Figura 21 Esquema del proceso de corrección de la línea base utilizando un modelo explícito lineal (detrendig).
Fuente: Macho (2002)
60
2.5.4 Etapas de la Calibración Multivariante
Entre los métodos quimiométricos que mayor éxito han tenido en las aplicaciones industriales
se encuentra los dirigidos a cuantificar (calibración multivariante). Las etapas para llevar a cabo
una regresión multivariante a partir de datos espectroscópicos propuestas por la ASTM en sus
prácticas estándar [74] son: Selección del conjunto de muestras de calibración, establecimiento
del modelo, validación del modelo de calibración y predicción de muestras desconocidas.
Selección del Conjunto de Calibración
El conjunto de calibración, también denominado conjunto de entrenamiento debe contemplar
todas las fuentes de variabilidad del sistema [55], tanto físicas como químicas. Para conseguir
este objetivo de una forma rigurosa, se ha propuesto el uso de estrategias de diseño de
experimentos [55], aunque la complejidad de las muestras reales raramente permite aplicar esta
aproximación. La situación más común es contar con un amplio conjunto de muestras candidatas
a las que se ha medido el espectro y la propiedad de interés. En este caso se han propuesto
técnicas de selección de muestras basadas en el análisis de agrupaciones (cluster analysis) [56], o
algoritmos de selección de muestras como el de Kennard-Stone [34], para decidir qué espectros
NIR representan mejor la población total.
La presencia de agrupaciones destacadas en el conjunto de calibración puede conducir a
errores, por lo que es importante analizar los datos y si se detecta una agrupación severa se debe
evaluar si es más adecuado construir un modelo global para todas las muestras, o bien es
necesario dividir en grupos las muestras y crear modelos diferentes para cada grupo. La detección
de agrupaciones se puede realizar mediante una simple inspección visual de los scores PCA.
También se han propuesto criterios gráficos para detectar agrupaciones, como las curvas de
distancias (distance curves) [73] o criterios numéricos, como el estadístico de Hopkins, H,
[29, 38], que se aplica a los scores de la descomposición PCA y se basa en la comparación de la
distancia euclidiana entre un objeto y su vecino más próximo (W) y la distancia entre un objeto
artificial, distribuido aleatoriamente en el espacio, y el objeto real más próximo (U).
61
El valor de H oscila entre 0.5 para un conjunto de objetos distribuidos homogéneamente (las
distancias U y W son muy parecidas) hasta 1 para un conjunto con agrupaciones muy marcadas
(U>>W).
Figura 22 Estadístico de Hopkins en el caso de un conjunto de muestras homogéneo (H=50) y en el caso de un
conjunto de muestras agrupadas H próximo a 1. Fuente: Macho (2002)
Establecimiento del Modelo
En los modelos multivariantes inversos, la concentración (o cualquier otra propiedad de la
muestra) se modela en función de la respuesta (en este caso el espectro IR) de la forma:
donde ck es la concentración del analito k en la muestra, j r es la respuesta de la muestra en la
variable j, j k b , es el coeficiente que relaciona la variable j con la concentración del analito k y k
e es el término del error no modelado por el modelo. Utilizando una notación matricial, en la
etapa de calibración con I muestras, este modelo se puede escribir como:
62
donde “c” es el vector de las concentraciones del analito para las I muestras de calibración, “R”
es la matriz de las respuestas de las I muestras en las J variables, “b” el vector de los coeficientes
de regresión y “e” el vector de los errores o residuales.
Los métodos de descomposición sobre factores o componentes principales, como la regresión
por mínimos cuadrados parciales (Partial Least Squares, PLS), solucionan el problema de la
colinealidad en los datos (muy habitual en datos espectroscópicos) ya que descomponen la matriz
de respuestas, R, en una serie de factores ortogonales entre sí, lo que evita los problemas de la
inversión de la matriz RTR.
Validación del modelo
Los métodos de calibración sesgados, como PCR o PLS, no se apoyan directamente en un
modelo teórico y pueden incorporar variabilidad de los datos no necesariamente relacionada con
la propiedad de interés, por lo que deben ser cuantitativa o cualitativamente validados. La
validación consiste en el análisis de un grupo de muestras independiente que al utilizarlo en la
calibración, comprueba que no existe un error sistemático (bias) entre las predicciones que
realizan el modelo y los valores proporcionados por el método de referencia. También se mide el
grado de concordancia entre las predicciones del modelo y los valores del método de referencia.
Predicción de muestras desconocidas
Una vez el modelo ha sido aceptado, ya puede ser utilizado para el análisis de nuevas
muestras. En esta etapa se deben seguir utilizando los test para detectar muestras discrepantes,
outliers, con el fin de detectar la presencia de extrapolaciones al modelo, presencia de nuevos
interferentes, fallos instrumentales, etc. En este caso se pueden utilizar medidas del leverage de
las muestras, y del residual espectral. Herramientas para el control estadístico multivariante,
como el estadístico T2 de Hotelling y el estadístico Q, que serán introducidas a continuación para
su uso en el control estadístico del modelo multivariante, se pueden utilizar también para la
detección de outliers, ya que proporcionan una información similar al leverage (el T2) y al
residual espectral (el estadístico Q). Los residuales de la concentración (u otra propiedad de
interés) no están disponibles ya que estas muestras no han sido analizadas por el método de
referencia. La detección de los outliers en esta etapa es muy importante porque la predicción de
estas muestras puede diferir significativamente del valor verdadero.
63
2.5.5 Método para Selección de Variables
Los principales problemas que se pueden presentar en la construcción de un modelo de
regresión múltiple son los siguientes:
Multicolinealidad
Las variables de entrada son muy dependientes entre sí, y es difícil separar su contribución
individual al modelo. Consecuencia de esto es que los parámetros del modelo son muy inestables,
con varianzas muy grandes.
Error de especificación
El modelo de regresión no proporciona un buen ajuste a la nube de observaciones. Esto puede
ser por diferentes motivos: la relación no es lineal; existen variables explicativas relevantes que
no han sido incluidas en el modelo. Por ello, cuando se dispone de un conjunto amplio de
posibles variables explicativas, es importante disponer de algoritmos que seleccionen el
subconjunto más adecuado de variables explicativas que se deben incorporar al modelo de
regresión, así como de medidas que midan la bondad del ajuste.
Falta de normalidad
Los residuos no son normales.
Heterocedasticidad
La varianza no es constante.
Existencia de valores atípicos o heterogéneos
Existen datos típicos que se separan de la nube de datos muéstrales que pueden influir en la
estimación del modelo de regresión o que no se ajustan a modelo.
Dependencia (autocorrelacion)
Existe dependencia entre las observaciones. Existe la tendencia a incluir en el modelo de
regresión todas las variables involucradas, independientemente de su contribución con el modelo.
Uno de los problemas es el sobredimensionamiento, el cual puede producir estimados
numéricamente inestables. Este se manifiesta con desviaciones estándar demasiado grandes.
64
Métodos que se basan en la utilización del conocimiento previo del sistema que está siendo
modelado
Normalmente, cierto grado de conocimiento previo es utilizado para especificar el conjunto
inicial de las variables de entrada que son candidatas. Si alguna variable de entrada importante no
es incluida, entonces se puede perder parte de la información del sistema que este siendo
modelado. Por otro lado, si se incluyen variables de entrada inapropiadas, puede tender a
confundir el proceso de entrenamiento. El enfoque preferido para la determinación apropiada de
las variables de entrada implica una combinación de conocimientos previos y enfoques analíticos.
Métodos basados en la correlación cruzada lineal
Cuando el sistema ha ser modelado es muy complicado entonces una técnica analítica, como
la correlación cruzada lineal, a menudo es empleada. El método de correlación cruzada lineal
representa la técnica analítica más popular para la selección apropiada de las variables de entrada.
La principal desventaja asociada con el uso de la correlación cruzada lineal, es que solo es capaz
de detectar la dependencia lineal entre dos variables. Por lo tanto, la correlación cruzada no es
capaz de capturar cualquier dependencia no lineal que pueda existir entre las variables de entrada
y la de salida, y puede dar lugar a la omisión de variables de entrada importantes que están
relacionadas con la variable de salida en una forma no lineal.
2.5.6 Comparación de Modelos de Regresión
Cuando se comparan métodos de calibración y se quiere determinar si la diferencia observada
entre los errores en predicción reportados por cada uno de los diferentes modelos es real o
simplemente aparente, se debe utilizar una ANOVA.
Existen dos posibles situaciones a tratar:
Cuando los modelos han sido validados con el mismo conjunto de datos (ya sea mediante
validación cruzada o mediante conjunto de datos de validación externo).
Cuando los modelos han sido construidos sobre los mismos datos de calibración y validados con
conjuntos de datos de validación independientes.
65
En el primero de los casos anteriores, la situación que se presenta es la siguiente: se tienen dos
modelos de calibración para predecir una variable y a partir de un conjunto de variables x. La
calibración puede haberse realizado sobre las mismas o distintas muestras de calibración. Lo que
importa es que se hayan validado con los mismos datos y, para un x dado, cada método produzca
una predicción estimada de y ( ).
Supongamos que los métodos se han validado a partir de un conjunto externo de muestras de
validación Nvalidacion de x e y conocidas, mediante la predicción de y ( ) utilizando cada uno
de los métodos. Como y se conoce, se puede obtener un conjunto de errores de predicción ( − y)
para cada método [54]. Si, por el contrario, los modelos de regresión han sido calculados a partir
de los mismos datos de calibración y validados en diferentes conjuntos de datos de validación
independientes entre sí, la comparación de los errores en predicción se realizará mediante una
ANOVA de una vía.
La comparación de dos métodos de calibración se realizará a partir de una ANOVA de dos
vías de la diferencia entre las respuestas predichas y el valor y de referencia si los modelos han
sido validados con el mismo conjunto de datos de validación, y mediante una ANOVA de una vía
si han sido calibrados con el mismo conjunto de datos pero validados con conjuntos de datos de
validación independientes. En el caso en que los modelos hayan sido validados por cross-
validación, en vez de con un conjunto de validación externo, el procedimiento de comparación de
los modelos es similar al primero de los casos anteriores y se denomina CVANOVA [30].
La CVANOVA está basada en un análisis de varianza de dos vías de los resultados de
predicción, el tipo de método empleado corresponde con la primera vía y el número de muestra
con la segunda. Las muestras de calibración se consideran representativas del conjunto de la
población y, por tanto, el efecto de la muestra se considera aleatorio.
66
2.6 Método de Mínimos Cuadrados Parciales (PLS)
Técnica de descomposición cuantitativa asociada a la Regresión de Componentes Principales
[31], que se constituye como una alternativa robusta, respecto a la Regresión Lineal Múltiple y a
la Regresión de Componentes Principales [31]. El método PLS lineal es un algoritmo de
regresión múltiple lineal que puede manejar entradas correlacionadas [47, 31].
El análisis de datos estadísticos permite establecer modelos para datos experimentales o datos
históricos de procesos. Se supone que piyi ,...,2,1 los cuales son los valores que se tratan de
predecir mediante la implementación de un modelo matemático, mjxi ,...,2,1 como variables
de entrada, de las cuales se dispone de n observaciones. A partir de esto se pueden formular las
siguientes matrices:
nxp
npnn
p
p
yyy
yyy
yyy
Y
...
............
...
...
21
22221
11211
(2.21)
nxm
nmnn
m
m
xxx
xxx
xxx
X
...
............
...
...
21
22221
11211
(2.22)
Matrices en las cuales cada fila se compone de una observación o muestra. El análisis de los
datos consiste en relacionar la matriz Y con la matriz X a través de alguna función, lo que
permitiría predecir Y a partir de un conjunto de datos X.
2.6.1 Fundamentos del Método
Es un modelo de un sistema del mundo real mediante una representación aproximada, y su
construcción, es un balance entre simplicidad, exactitud y tiempo computacional requerido para
los cálculos [51].
67
La técnica de mínimos cuadrados parciales es un método de identificación de sistemas lineales
que proyecta las entradas y las salidas en un espacio latente, obtiene un conjunto de factores
principales de estructura ortogonal, con la capacidad de capturar la varianza significativa de los
datos originales [79]. Es una alternativa robusta al Método de Regresión Lineal Múltiple,
determina una relación lineal entre la variable dependiente y el conjunto de variables
independientes disponibles. La matriz de datos de entrada X (variables independientes) es
descompuesta en un número de variables latentes cada una caracterizada por un vector columna t
y un vector Tp , se representa entonces la matriz X en términos de esas variables latentes como
se muestra a continuación:
EPTX T (2.23)
Donde:
T es la matriz de “scores”
TP es la matriz de “loadings”
E matriz de error.
De esta forma se ha logrado representar la matriz X a través de una matriz T (de menor
número de columnas) con un cierto margen de error. El número de variables latentes necesarias
para explicar la matriz X (en función de un criterio de error máximo permitido) es una medida de
la complejidad del modelo [1], y es un parámetro para alcanzar el mejor rendimiento en la
predicción.
Si se trabaja con solo una variable de salida se plantea un vector columna y , se asume una
relación lineal simple entre las variables de entrada la variable de salida, de la forma:
y X g e (2.24)
Donde:
“e” es el error cometido por el modelo.
“g” es el vector de coeficientes de regresión.
68
El método de uso frecuente para dar solución a este problema, es el Método de Mínimos
Cuadrados:
1
' 'g X X X y
(2.25)
La expresión anterior, cuando las variables de X están correlacionadas o cuando el número de
muestras n es pequeño en relación con el número de variables, la inversa de 'X X no existe [27]
y que es resuelto en principio al utilizar la matriz de “scores” T [45].
Para el caso, en el cual n es mayor que m pero no en gran medida, el modelo de regresión
puede además ser distorsionado por el ruido y originar una limitada generalización para datos
nuevos [27].
La aplicación del método PLS a un sistema general de múltiples variables de entradas y
múltiples variables de salidas, puede ser expresada mediante el siguiente esquema:
Figura 23 Diagrama de bloques método PLS. Fuente: Los autores (2010)
Para un sistema MIMO (Multiple Imput and Multiple Output – Múltiples Entradas y Múltiples
Salidas), las matrices X e Y para el método PLS, se descomponen en dos modelos lineales, para
X en función de sus scores T y para la matriz Y de la siguiente forma:
TY U Q F (2.26)
Donde:
U es la matriz de “scores”
TQ es la matriz de “loadings”
F matriz de error.
69
Cuando se trabaja con solo una variable de salida se plantea un vector columna y , lo cual
produce las siguientes simplificaciones:
Q I (2.27)
Donde:
I es la matriz Identidad
El método PLS, es semejante al método de mínimos cuadrados ordinarios, asume que la
variable de salida es una función lineal de los “Scores”, donde la relación entre y y T es la
siguiente, la cual se obtiene al aplicar la relación interna para una sola variable de salida:
y T b f (2.28)
Si se dispone de más muestras que variables, no es posible calcular una solución exacta para
b , sin embargo, b se calcula para minimizar f que representa el vector error de esta expresión
[1]. Se distinguen dos tipos de algoritmos: PLS1 cuando se estudia solo una variable dependiente
(generalmente utilizado en química) y PLS2 cuando se presentan más variables dependientes que
se representan a través de una matriz Y . Otros valores calculados durante la etapa de calibración
son los pesos en el espacio de X (Tw ) y los coeficientes de regresión, que permiten establecer la
relación interna que vincula el bloque de cálculo de X con el bloque de cálculo para Y, los cuales
se denotan como b .
2.6.2 Objetivo del Método de Mínimos Cuadrados Parciales
El método PLS calcula un conjunto de componentes ortogonales que maximizan el nivel de
descripción de las variables X e Y. y a su vez proporciona una ecuación de predicción para Y en
función de X.
Esto se logra encontrando un conjunto de componentes para X y para Y por separado, y
posteriormente establecer una relación interna que permita maximizar la descripción entre las
variables.
70
El fundamento consiste en maximizar la covarianza entre la variable latente T , y la variable
respuesta y , sujeto a 1Tw w , donde w son los factores utilizados para asegurar que las
dimensiones son ortogonales. Al mismo tiempo, minimiza el cuadrado del error (ó varianza) entre
las mismas. Estos objetivos se logran resolviendo el problema planteado de forma simultánea,
con la incorporación de métodos numéricos.
2.6.3 Alternativas de pre-procesamiento de las variables
Previo al desarrollo del modelo, es conveniente el pre-procesamiento de los datos con la
finalidad de hacer los cálculos más sencillos. Se calcula el valor promedio para cada variable del
conjunto de datos de entrenamiento y luego se sustrae el mismo de cada variable
correspondientemente, es decir, las variables se usan en la forma centrada en la media [31].
Existen además, diferentes formas de escalar las variables. Es necesario señalar que las variables
dependientes y las variables independientes se deben escalar por separado ya que los coeficientes
de regresión son sensibles a las diferencias en escala [31].
Figura 24 Alternativas de Pre-procesamiento. Fuente: Quevedo (2008)
2.6.4 Secuencia del algoritmo (etapas de calibración)
El algoritmo del Método de Mínimos Cuadrados Parciales iterativos no-lineales (NIPALS),
está diseñado para la linealización de modelos que son no lineales en los parámetros, el cual se
encarga de descomponer las variables de entrada y las de salida como el producto de dos matrices
de menor dimensión [51].
71
En el desarrollo del algoritmo se incorpora de forma activa la variable de salida durante el
proceso de descomposición. El algoritmo tiene un paso donde se comprimen los datos y se crean
los “Scores” dentro de un nuevo sistema coordenado conocido con el nombre de Variables
Latentes, que resultan de una combinación lineal de las variables originales. Los coeficientes de
regresión de cada variable original en cada variable latente se conocen como “Loadings” [1, 22].
Para cada variable latente h:
Paso 1
Inicialización:
Fijar yf 0 y XE 0 (2.29)
Paso 2
Se define hw como
11
11
h
T
h
h
T
hT
hff
Efw (2.30)
Paso 3
Normalizar T
hw a una norma unitaria
T
h
T
hT
hw
ww (2.31)
Paso 4
Calcular los “scores” de la matriz X
h
T
h
hh
hww
wEt
1 (2.32)
Paso 5
Calcular los “loadings” de la matriz X
h
T
h
h
T
hT
htt
Etp
1
(2.33)
Paso 6
Re-escalar los “scores” de la matriz X
T
hhh ptt (2.34)
Paso 7
Re-escalar T
hw
T
h
T
h
T
h pww (2.35)
Paso 8
Normalizar los “loadings” a norma unitaria
T
h
T
hT
hp
pp (2.36)
72
Paso 9
Calculo de los coeficientes de la relación interna
h
T
h
h
T
h
htt
tfb
(2.37)
Paso 10 Calculo de los residuales de X
T
hhhh ptEE 1 (2.38)
Paso 11 Calculo de los residuales de Y
hhhh tbff 1 (2.39)
Paso 12 Incrementar el número de variables latentes
h = h + 1 (2.40)
Regresar al paso 2
Al iniciar cada ciclo, se trabaja con las matrices residuales. Las iteraciones continúan hasta
que se cumpla algún criterio de parada preestablecido o hasta que hE se transforme en la matriz
nula.
2.6.5 Secuencia del algoritmo (Etapa de predicción)
En la etapa de predicción, dado un conjunto de muestras X, se utilizan Tw , Tp y b para
predecir la propiedad dependiente y de la siguiente forma:
bTy pred (2.41)
Para cada variable latente h:
Paso 1 Inicialización:
Fijar XE 0 (2.42)
Paso 2
Calcular los “scores” de la matriz X
h
T
h
hh
hww
wEt
1 (2.43)
73
Paso 3 Calculo de los residuales de X
T
hhhh ptEE 1 (2.44)
Paso 4 Incrementar el número de variables latentes
h = h + 1 (2.45)
Regresar al segundo paso
Al finalizar
bTy pred (2.46)
2.6.6 Determinación del Número de Variables Latentes
El número de componentes a ser utilizados es una propiedad determinante de un modelo PLS.
Es posible calcular componentes en correspondencia con el rango de la matriz X, no todos ellos
son utilizados normalmente. La razón es que los datos medidos nunca están libres de ruido, y los
componentes más pequeños podrían describir solo este factor, estos por lo general se excluyen ya
que pueden originar problemas de colinealidad [31].
Existen métodos que permiten decidir el número óptimo de variables latentes, uno de los
criterios puede ser a partir de la variación de hf respecto al número de componentes durante la
calibración del modelo. Ver la siguiente figura.
Figura 25 hf en función de número de componentes para el PLS. Fuente: Quevedo (2008)
74
Se puede seleccionar una línea de referencia y detener el algoritmo cuando hf sea menor
que el valor seleccionado, se desea que esta norma sea suficientemente pequeña. Otra alternativa
es calcular la diferencia entre el valor actual hf y el previo, y detener el algoritmo cuando la
diferencia sea pequeña en comparación con el error pre-establecido. Es recomendable la
combinación de estos dos criterios [31].
En la etapa de predicción, otros métodos deben ser utilizados para establecer el número de
componentes, lo cual se conoce con el nombre de validación cruzada. Para ello se calcula la
estadística suma del cuadrado de los errores de predicción PRESS de sus siglas en ingles, la cual
se grafica respecto al número de componentes.
Figura 26 Errores de predicción en función de número de componentes para el PLS. Fuente: Quevedo (2008)
Es recomendable seleccionar el número de componentes que se corresponde con el menor
valor del PRESS. La localización de este mínimo no siempre se encuentra bien definida, y de
igual forma, evita incluir componentes que solo pueden inducir ruido al proceso.
2.6.7 Aplicación del Método Mínimo Cuadrados Parciales
La técnica de mínimos cuadrados parciales es una herramienta importante para el
desarrollo de estrategias para el modelaje de procesos y el control estadístico multivariable de
procesos en presencia de datos colineales o datos altamente correlacionados [51].
75
La inferencia de variables es comúnmente utilizada en procesos industriales, en sustitución
de la medición en línea de variables controladas, donde la medición directa puede ser costosa,
inaccesible, o que adiciona un elevado tiempo muerto al sistema. Modelos fundamentales
simplificados por lo general no están disponibles para el control inferencial, por lo que se utilizan
modelos empíricos.
El método PLS se constituye como un esquema general para la construcción de modelos
inferenciales cuando se dispone de una gran cantidad de información del funcionamiento del
proceso, por lo que el examen de la naturaleza de los datos es de extrema importancia. Para el
trabajo con sistemas de control, es necesario que los datos recolectados dispongan información de
las variables manipuladas más importantes, así como también de las perturbaciones [36].
Se ha demostrado como PLS puede ser implementado como una vía para el manejo
automático y eficiente de datos nuevos, por constituirse como una técnica robusta.
Específicamente se ha estudiado la aplicación del método en sistemas de destilación para
separación multicomponentes o del tipo azeotropica [36]. La predicción de propiedades de
carbones minerales a partir de datos del infrarrojo medio, con el objetivo de desarrollar métodos
de análisis rápidos y no destructivos, constituye otra de las áreas de aplicación de la técnica [1].
Así como también la predicción de propiedades a partir de técnicas espectroscópicas más
complejas [4].
Las mediciones recolectadas a partir de procesos químicos son comúnmente
correlacionadas por lo que no es posible asumir que son independientes. PLS se ha reconocido
como una técnica que permite extraer la información relevante de los datos recolectados. Se ha
demostrado su amplia aplicación como técnica de regresión para problemas donde la data
presenta ruido, es altamente correlacionada y de la cual se dispone de solo un número limitado de
observaciones [52].
La utilidad del PLS como técnica de regresión, radica en que se descompone un problema de
regresión multivariable en un determinado número de regresiones univariables no
correlacionadas. Es posible aplicar diferentes técnicas, como es el caso de la función de auto-
correlación, con la finalidad de seleccionar y determinar el número de variables latentes a utilizar
a partir de la técnica PLS [2]. Se ha comparado la técnica con otros algoritmos de predicción para
el área de quimiometría [57].
76
Inicialmente el PLS se asocia a la Econometría, la extensión de la técnica permitió la
publicación de diversos trabajos de calibración multivariable y para la optimización de procesos
complejos. Ha sido aplicado secuencialmente en problemas de ingeniería química como el
monitoreo de procesos, modelaje y detección de fallas. Así como en aplicaciones registradas en
sistemas de neutralización [52], Modelaje de unidades de craqueo catalítico fluidizado y reactores
isotérmicos [15]. Para sistemas que presentan un comportamiento no lineal, la técnica PLS lineal
es inapropiada para determinar la estructura del modelo, por lo que, se han desarrollado
variaciones no lineales del método [51].
Se han desarrollado técnicas de control para sistemas por carga, donde los datos recopilados al
finalizar una etapa, se utilizan para modificar la próxima, con la finalidad de acercar la calidad al
valor deseado, y optimizar algunos parámetros objetivos como son el económico y el factor
tiempo; esto se ha logrado con el desarrollo de modelos basados en PLS, metodología que fue
aplicada al control de la distribución del tamaño de partícula en un sistema de polimerización por
emulsión [20].
Procesos complejos y procesos con un amplio conjunto de variables, por lo general son
difíciles de caracterizar a partir de modelos fundamentales, o modelos empíricos, por lo que las
investigaciones recientes vinculadas a este tipo de sistemas, se focalizan en hacer mejor uso de
los datos históricos recolectados. Se considera la aplicación de estas técnicas para el desarrollo y
control de procesos basados en la optimización en el sub-espacio definido por las variables
latentes, construido a partir de los datos disponibles, específicamente en sistemas de inyección,
orientados a la reducción de la variabilidad de la calidad del producto final, además de compensar
las variaciones en las propiedades de la materia prima [80].
Detección de Outliers
Una de las ventajas de los métodos multivariantes sobre los tradicionales univariantes, es la
capacidad que tienen de detectar la observación u observaciones inconsistentes con el resto de los
datos [80]. En la etapa de establecimiento del modelo se puede utilizar información de la
influencia de los objetos en el conjunto de calibración (leverage) y de los residuales, tanto en la
77
propiedad de interés como en la respuesta instrumental [44]. La detección de los outlier en esta
etapa es importante porque la inclusión de estas muestras discrepantes en el modelo degrada su
capacidad predictiva.
Leverage
Es una medida de la posición (o influencia) de una muestra en relación al modelo. Muestras
con un elevado valor de leverage están muy alejadas del centro del modelo, por lo que tendrán
una influencia muy alta sobre el mismo. Este valor se calcula como:
(2.47)
donde ti representa el vector de scores de la muestra i, T, la matriz de scores del modelo y I el
número de muestras de calibración. Se proponen diferentes niveles umbral, los más aceptados son
dos o tres veces el leverage medio de calibración, que es igual a 1+A/I [44], siendo A el número
de componentes principales o factores utilizados en el modelo.
Residuales en la respuesta instrumental
Los residuales en la respuesta (o residuales espectrales) reflejan la falta de ajuste entre las
respuestas experimentales utilizadas en la calibración, R, y las respuestas reconstruidas por el
modelo con A factores ( = TPT).
E R TPT (2.48)
Figura 27 Ejemplo del cálculo del residual de un espectro NIR. Al espectro original se le resta el espectro
reconstruido con 4 factores para obtener el residual espectral. Fuente: Macho (2002)
78
Los residuales en la respuesta se pueden utilizar de diferentes formas. La más habitual es, para
el error en la respuesta de la muestra i, ei, realizar una suma de cuadrados extendida a las J
longitudes de onda y dividir por los grados de libertad (df) adecuados, para obtener una
desviación estándar de la muestra i, s(ei)2.
También se utilizan los residuales en la respuesta para realizar distintos test F, que comparan
la suma de cuadrados de los residuales para el conjunto de calibración y para la muestra i [26,9].
Residuales en la concentración
En la etapa de establecimiento del modelo se dispone del valor de la concentración (o la
propiedad de interés) determinado por el método de referencia. Los residuales en la
concentración comparan el valor predicho por el modelo multivariante con el valor considerado
verdadero, c, que proporciona el método de referencia.
(2.50)
Muchas veces la detección de outliers se realiza combinando estas herramientas, como en el
gráfico que se representa el residual (espectral o de concentraciones) frente al leverage de las
muestras [77, pág. 114].
Figura 28 Gráfico del residual frente al leverage. (a) Objetos con una varianza residual elevada se consideran
outliers, (b) si además tienen un leverage alto son outliers peligrosos para el modelo, debido a que tienen mucha
influencia sobre él. Las muestras con un leverage alto (c) son muestras influyentes y no necesariamente outliers.
Fuente: Macho (2002)
79
2.7 Regresión Bayesiana
En el análisis de regresión incluye las técnicas para modelar y analizar varias variables,
cuando la atención se centra en la relación entre una variable dependiente y una o más variables
independientes. Más específicamente, el análisis de regresión ayuda a entender cómo el valor
típico de los cambios de variable dependiente al variar alguna de las variables independientes,
mientras que el resto de las variables independientes se mantienen fijas.
Más comúnmente, el análisis de regresión de las estimaciones de la esperanza condicional
de la variable dependiente dadas las variables independientes, es decir, el valor promedio de la
variable dependiente cuando las variables independientes se mantienen fijas. Con menos
frecuencia, la atención se centra en un cuantil, o parámetro de ubicación de otras de la
distribución condicional de la variable dependiente dadas las variables independientes. En todos
los casos, el objetivo de la estimación es una función de las variables independientes llama a la
función de regresión. En el análisis de regresión, es también de interés para caracterizar la
variación de la variable dependiente en torno a la función de regresión, que puede ser descrito por
una distribución de probabilidad.
El análisis de regresión es ampliamente utilizado para la predicción (incluyendo la previsión
de tiempo de datos en serie). El análisis de regresión se usa también para entender que las
variables independientes están relacionadas con la variable dependiente, y para explorar las
formas de estas relaciones. En determinadas circunstancias, el análisis de regresión puede
utilizarse para inferir las relaciones causales entre las variables independientes y dependientes.
Un gran número de técnicas para llevar a cabo análisis de regresión se ha desarrollado.
Métodos conocidos, tales como la regresión lineal y mínimos cuadrados ordinarios de regresión
son paramétricas, ya que la función de regresión se define en términos de un número finito de
parámetros desconocidos que se estiman a partir de la información. La regresión no paramétrica
se refiere a técnicas que permiten la función de regresión que se encuentran en un conjunto
específico de funciones, que pueden ser de dimensión infinita.
80
El rendimiento de los métodos de análisis de regresión en la práctica depende de la forma de
los datos del proceso de generación, y cómo se relaciona con el método de regresión que se
utiliza. Dado que la verdadera forma de los datos del proceso de generación no se conoce, el
análisis de regresión depende en cierta medida, en hacer suposiciones acerca de este proceso.
Estos supuestos son a veces (pero no siempre) comprobables si hay una gran cantidad de datos
disponibles.
Los modelos de regresión para la predicción a menudo son útiles aún cuando las hipótesis
son moderadamente violadas, aunque no se puede realizar de manera óptima. Sin embargo,
cuando se realice la inferencia mediante modelos de regresión que afecta especialmente a efectos
de pequeñas cuestiones de causalidad sobre la base de datos de observación, los métodos de
regresión se deben utilizar con precaución, ya que fácilmente puede dar resultados engañosos.
2.7.1 Probabilidad Bayesiana
La probabilidad bayesiana es una de las interpretaciones más frecuentes de la noción de
probabilidad. La interpretación bayesiana de probabilidad puede ser vista como una extensión de
la lógica que permite el razonamiento con declaraciones inciertas. Para evaluar la probabilidad de
una hipótesis, la probabilidad bayesiana especifica algunas probabilidades a priori, que se
actualiza a la luz de nuevos datos pertinentes. La interpretación Bayesiana ofrece un conjunto
estándar de procedimientos y la fórmula para realizar este cálculo.
2.7.2 Teorema de Bayes
El teorema de Bayes, enunciado por Thomas Bayes, en la teoría de la probabilidad, es el
resultado que da la distribución de probabilidad condicional de un evento aleatorio A dado B en
términos de la distribución de probabilidad condicional del evento B dado A y la distribución de
probabilidad marginal de sólo A.
81
Sea {A1,A3,...,Ai,...,An} un conjunto de sucesos mutuamente excluyentes y exhaustivos, y tales
que la probabilidad de cada uno de ellos es distinta de cero. Sea B un suceso cualquiera del que
se conocen las probabilidades condicionales P(B | Ai). Entonces, la probabilidad P(Ai | B) viene
dada por la expresión:
(2.51)
donde:
P(Ai) son las probabilidades a priori.
P(B | Ai) es la probabilidad de B en la hipótesis Ai.
P(Ai | B) son las probabilidades a posteriori.
Esto se cumple
2.7.3 Modelos matemáticos con enfoque Bayesiano
Una distribución a priori p representa la información inicial. La distribución final o a
posteriori se obtiene mediante el teorema de Bayes. Si se denomina X la matriz de datos, con
una distribución conjunta Xf
, que proporciona las probabilidades de los valores muéstrales
conocido el vector de los parámetros, la distribución a posteriori será:
Xf pp
X Xf p d
(2.52)
El denominador de esta expresión es la distribución marginal de los datos. La distribución se
denomina predictiva y se obtiene ponderando las distribuciones Xf
para cada posible valor
del parámetro por las probabilidades que la distribución a priori asigna a estos valores.
82
El cálculo de la distribución a posteriori se simplifica en la práctica considerando que el
denominador no depende de , y actúa únicamente como una constante normalizadora para que
la integral de pX
sea la unidad. Por tanto, es posible calcular la distribución a posteriori a
través de la siguiente expresión, dado la muestra X (constante) y al considerar Xf
como una
función de , se incorpora la función de verosimilitud X :
p k pX X
(2.53)
La constante de proporcionalidad es irrelevante para la forma de la distribución a posteriori, y
siempre puede determinarse al final con la condición de cumplir con la definición de una función
de densidad de probabilidad.
PrPosterior ior Verosimilitud (2.54)
2.7.4 El algoritmo GNBR (Regularización bayesiana de Gauss-Newton)
El algoritmo GNBR [21, 76] se basa en el trabajo en MacKay acerca de la interpolación
bayesiana [74, 75]. Este método controla (regulariza) la magnitud de los pesos de la red y mejora
la generalización, como se ha probado en varias aplicaciones [77]. Una implementación de la
regularización bayesiana se encuentra en la “caja de herramientas” de redes neuronales de Matlab
[76]. Con la regularización de la función objetivo a minimizar se convierte en:
(2.55)
donde D es la suma del cuadrado de los errores de datos, y EW
es la suma de cuadrados de los “pesos” (parámetros del modelo). Así, los pesos grandes son
penalizados. Un número efectivo de parámetros (una medida de la complejidad del modelo) se
calcula en este modelo, a partir de la fórmula [21, 74, 75, 79]:
(2.56)
donde p es el número total de parámetros en el modelo (que es igual al número de longitudes de
onda utilizadas en la espectroscopia), y H es el Hessiano [78] de la función objetivo F (Ecuación
1). Cuando se realizó el entrenamiento de redes neuronales de tamaño cada vez mayor con el
83
método de MacKay (“bayesian backprop”) se constató que, después de un cierto tamaño de la
2.7.5 Regresión Lineal
En las estadísticas, la regresión lineal se refiere a cualquier método de modelado de la relación
entre una o más variables y, y una o más variables que se denota X, de modo que el modelo
depende linealmente de los parámetros desconocidos a ser estimados de los datos. Este modelo se
denomina un "modelo lineal". Más comúnmente, la regresión lineal se refiere a un modelo en el
que la media condicional de y dado el valor de X es una función afín de X. Con menos frecuencia,
la regresión lineal podría hacer referencia a un modelo en el que la mediana, o algún cuantil de la
distribución condicional de Xy dado, se expresa como una función lineal de X. Como todas las
formas de análisis de regresión, la regresión lineal se centra en la distribución de probabilidad
condicional de Y dado X, en lugar de en la distribución de probabilidad conjunta de X e Y, que es
el dominio del análisis multivariado.
La regresión lineal fue el primer tipo de análisis de regresión para ser estudiados con rigor, y
para ser utilizado ampliamente en aplicaciones prácticas. Esto es porque los modelos que
dependen linealmente en sus parámetros desconocidos son más fáciles de ajustar que los modelos
que no son linealmente relacionados con sus parámetros y porque las propiedades estadísticas de
los estimadores resultantes son más fáciles de determinar.
Figura 29 Ejemplo de regresión lineal con una variable independiente. Fuente: Quevedo (2008)
84
La regresión lineal tiene muchos usos prácticos. La mayoría de las aplicaciones de la caída de
la regresión lineal en uno de los siguientes dos grandes categorías:
Si el objetivo es la predicción o pronóstico, la regresión lineal puede ser usado para ajustar un
modelo predictivo a un conjunto de datos observados y los valores X. Después de desarrollar este
modelo, si un valor adicional de X viene dado sin su valor de acompañamiento de y, el modelo
ajustado se puede utilizar para hacer una predicción del valor de y.
Dada una variable y una serie de variables x 1, ..., p. X que puede estar relacionado con y, a
continuación, el análisis de regresión lineal se puede aplicar para cuantificar la intensidad de la
relación entre Y y X de la j, para evaluar que X j puede no tener relación con y en todos, y para
identificar qué subgrupos de la j X contiene información redundante sobre y, por lo que una vez
que uno de ellos es conocido, los otros ya no son informativos.
2.7.6 Regresión Bayesiana según Foresse y Hagan (Regularización)
Típicamente, el entrenamiento tiene como objetivo reducir la suma de
errores al cuadrado F = ED. Sin embargo, la regularización agrega un término adicional, la
función objetivo se vuelve F = βED + αEW, dónde EW es la suma de los cuadrados de los
pesos de la red y α y β son los parámetros de la función objetivo. El tamaño relativo de la función
objetivo es dictado por los parámetros en el énfasis de la formación. Si α<<β,
entonces el algoritmo de entrenamiento impulsará los errores más pequeños.
Si α>>β, la formación se hará énfasis en la reducción del tamaño del peso aexpensas de los
errores de la red, lo que produce una red con una respuesta más suave.
El principal problema con la aplicación de regularización es establecer los valores correctos
para los parámetros objetivo de la función. David MacKay [42] ha hecho trabajos extensos sobre
la aplicación de la regla de Bayes para la formación de redes neuronales y la optimización de la
regularización.
85
En el marco bayesiano los pesos de la red se consideran variables aleatorias. Después de los
datos se toma, la función de densidad de los pesos se puede actualizar de acuerdo con la regla de
Bayes:
donde D representa el conjunto de datos, M es el medelo particular de red neuronal utilizado, y
es el vector de los pesos de la red. es la densidad a priori, lo que representa nuestro
conocimiento de los pesos antes de que los datos sean recogidos. es la función de
verosimilitud, que es la probabilidad de los datos que ocurren, dado los pesos w. es
un factor de normalización, que garantiza que la probabilidad total sea 1.
Si se asume que el ruido en el conjunto de datos de entrenamiento de Gauss y que la distribución
previa para los pesos es de Gauss, la densidad de probabilidad puede ser escrita como:
(2.58)
Donde = y = si se sustituye esto en la ecuación de
probabilidad (2) se obtiene:
(2.59)
2.7.7 Alternativas de pre-procesamiento de las variables
Los datos utilizados para efectuar procesos de regresión, usualmente se normalizan para que
presenten media cero y desviación estándar de la unidad. De otra forma, los valores obtenidos
después del entrenamiento podrían arrojar valores numéricos muy elevados, o elevados valores
de varianza, lo cual no es esperado para un modelo matemático.
Con la finalidad de evitar elevados limites de variabilidad alrededor de los coeficientes de
regresión, y poca capacidad de generalización de la red, es recomendable que los datos de
entrenamiento se encuentren normalizados y que los errores asociados al conjunto presenten un
comportamiento cercano a una distribución Gaussiana con media cero.
86
El análisis de regresión incluye las técnicas para modelar y analizar varias variables, cuando
la atención se centra en la relación entre una variable dependiente y una o más variables
independientes. Asi, el análisis de regresión ayuda a entender cómo el valor típico de los
cambios de variable dependiente al variar alguna de las variables independientes, mientras que el
resto de las variables independientes se mantienen fijas.
Más comúnmente, el análisis de regresión de las estimaciones de la esperanza condicional de
la variable dependiente dadas las variables independientes, es decir, el valor promedio de la
variable dependiente cuando las variables independientes se mantienen fijas. Con menos
frecuencia, la atención se centra en un cuantil, o parámetro de ubicación de otras de la
distribución condicional de la variable dependiente dadas las variables independientes. En todos
los casos, el objetivo de la estimación es una función de las variables independientes llama a la
función de regresión. En el análisis de regresión, es también de interés para caracterizar la
variación de la variable dependiente en torno a la función de regresión, que puede ser descrito por
una distribución de probabilidad.
2.8 Validación Cruzada
Con la finalidad de ejecutar las fases de entrenamiento y validación, se crean dos archivos de
datos. Los datos deben ser suficientes para representar en forma eficiente el fenómeno que se
desea modelar. En la fase inicial del entrenamiento, el sistema extrae los rasgos generales de los
patrones del conjunto de aprendizaje, esta fase se evalúa utilizando un conjunto de datos
diferentes, dado que los datos que conforma la validación, deben poseer información similar, se
espera que a medida que transcurren las iteraciones, disminuyan los errores de los conjuntos. El
error obtenido para los datos de aprendizaje presenta un constante descenso, dado que éste es el
objetivo del algoritmo de entrenamiento, hasta llegar a una cota mínima, Figura 30.
Para los datos a ser usados en paradas de validación, se observa experimentalmente la
presencia de un mínimo. A partir de este momento, el sistema pierde capacidad de
generalización, este fenómeno debe evitarse, y es conocido como sobre-ajuste. La técnica de
validación cruzada trabaja en forma apropiada, cuando se dispone de un gran número de
muestras, que permitan la creación de estos dos grupos de datos.
87
Figura 30 Comportamiento típico de los errores para el caso de aprendizaje y test. Fuente: Quevedo (2008)
La técnica permite modificar el proceso de aprendizaje por retropropagación permitiendo
optimizar la representación del sistema, incluso cuando los datos presentan ruido. La validación
cruzada, permite controlar la cantidad de ruido, mediante la limitación del número de veces que
se permite examinar el subconjunto de aprendizaje durante la fase de entrenamiento.
El método, se usa para adaptar el proceso de aprendizaje en la retropropagación de errores y la
búsqueda de una adecuada representación del sistema durante la identificación del proceso con
datos que contienen elementos de ruido; al usar estos datos, determinados elementos pueden ser
suprimidos por las propiedades filtrantes del algoritmo. En un principio el error es elevado,
debido a que los valores iniciales del modelo, se seleccionan de forma aleatoria.
2.8.1 Objetivo de la Validación Cruzada
El objetivo de la validación cruzada consiste en estimar el nivel esperado de ajuste de un
modelo para un conjunto de datos que es independiente de los datos que fueron usados para
entrenar el modelo. Puede ser utilizado para estimar cualquier medida cuantitativa de ajuste que
sea apropiado para los datos y el modelo. Por ejemplo, para problemas de clasificación binaria,
cada caso en el conjunto de validación es predicho correctamente o incorrectamente.
En esta situación, la tasa de error de los errores de clasificación se puede utilizar para resumir
el ajuste, aunque otras medidas como el valor predictivo positivo también podría ser utilizado.
Cuando se predijo que el valor se distribuida en forma continua, el error cuadrático medio, la raíz
del error cuadrático medio o desviación media absoluta se podría utilizar para resumir los errores.
88
Supóngase que se tiene un modelo con uno o más parámetros desconocidos, y un conjunto de
datos a los que el modelo se puede ajustar (los datos de entrenamiento). El proceso de adaptación
optimiza los parámetros del modelo para que el modelo se ajuste a los datos de formación, tanto
como sea posible. Si luego de tomar una muestra independiente de validación de datos de la
población misma, como los datos de entrenamiento, por lo general, a su vez, que el modelo no se
ajusta a los datos de validación, así como se ajusta a los datos de entrenamiento. Esto se llama
overfitting, y es más probable que ocurra cuando el tamaño de los datos del conjunto de
entrenamiento es pequeño, o cuando el número de parámetros en el modelo es grande.
La validación cruzada es una manera de predecir el ajuste de un modelo de validación a un
suceso hipotético cuando un conjunto de validación explícita no está disponible. La regresión
lineal proporciona una simple ilustración de overfitting. En la regresión lineal que se tienen
valores de la respuesta real y 1, ..., y n, y covariables vectores X 1, ... ,pX. se pueden utilizar los
mínimos cuadrados para adaptarse a un hiperplano a + b 1 X 1 + ... + B p xp entre la Y y los
datos de X, y luego evaluar el ajuste usando el error cuadrático medio (MSE).
(2.60)
donde X es el valor de la variable Xj correspondiente al valor de i-ésimo
respuesta Yyo.
Se puede demostrar, bajo supuestos leves que el valor esperado de las MSE para el conjunto
de la formación es (n - p - 1) / (n + p + 1) <1 veces el valor esperado de las MSE para el conjunto
de validación (la espera el valor se toma sobre la distribución de conjuntos de formación). Así
pues, si el ajuste del modelo y cálculo del MSE en el conjunto de entrenamiento, se va a tener una
evaluación optimista sesgada de lo bien que el modelo se monte un conjunto de datos
independientes. Esta estimación parcial se denomina en la estimación de la muestra de la
adaptación, mientras que la estimación de la validación cruzada esta fuera de la estimación de la
muestra.
Dado que en la regresión lineal es posible calcular matemáticamente el factor
(n - p - 1) / (n + p + 1) por la que el MSE de formación subestima el MSE de validación, la
validación cruzada no es útil en la práctica en ese caso. Sin embargo, en la mayoría de los
procedimientos de regresión (por ejemplo, la regresión logística), no existe una fórmula sencilla
89
de hacer este ajuste. La validación cruzada es una forma de aplicación general para predecir el
rendimiento de un modelo en un conjunto de validación utilizando la computación en lugar de
análisis matemático.
2.8.2 Limitaciones y el uso indebido
La validación cruzada sólo produce resultados satisfactorios si el conjunto de validación y de
configuración de prueba se obtienen de la misma población. En muchas aplicaciones de modelos
predictivos, se estudia la estructura del sistema que evoluciona con el tiempo. Esto puede
introducir diferencias sistemáticas entre el entrenamiento y la validación. Por ejemplo, si un
modelo para predecir valores de la bolsa está entrenado en los datos durante un cierto período de
cinco años, no es realista tratar el siguiente período de cinco años como un empate en la misma
población. Como otro ejemplo, supongamos que un modelo desarrollado para predecir el riesgo
de un individuo a ser diagnosticado con una enfermedad determinada dentro del año
siguiente.
Si el modelo es entrenado con datos de un estudio que incluyó sólo un grupo específico de
población (por ejemplo, los jóvenes o los hombres), pero se aplica luego a la población en
general, la adhesión a la validación de resultados del conjunto de la formación puede ser muy
diferente de la ejecución real de predicción.
Si se lleva a cabo correctamente, y si el conjunto de la validación y el conjunto de
entrenamiento son de la misma población, la validación cruzada es casi imparcial. Sin embargo,
hay muchas maneras en que la validación cruzada puede ser mal utilizada. Si es mal utilizada, y
un estudio de una correcta validación se realizó posteriormente, la predicción de errores en una
correcta validación es probable que sean mucho peores de lo esperado sobre la base de los
resultados de la validación cruzada.
Estas son algunas formas en que la validación cruzada puede ser mal utilizada:
Mediante el uso de la validación cruzada para evaluar varios modelos, y sólo indica los
resultados del modelo con los mejores resultados.
90
Al realizar un primer análisis para identificar las características más informativas utilizando el
conjunto de datos, si la selección de características o el modelo de ajuste es requerido por el
procedimiento de modelado, esto debe repetirse en cada conjunto de entrenamiento. Si la
validación cruzada se utiliza para decidir qué características usar, una cruz interior de validación
para llevar a cabo la selección de características en cada grupo de entrenamiento se debe realizar.
Al permitir que algunos de los datos de entrenamiento que también se incluirán en el montaje de
prueba, esto puede suceder debido a un "hermanamiento" en el conjunto de datos, según las
cuales algunas muestras exactamente idénticas o casi idénticas están presentes en el conjunto de
datos.
2.8.3 Leave One Out Cross Validation (LOOCV)
Como el nombre sugiere, Leave One Out Cross Validation (LOOCV) implica el uso de una
única observación de la muestra original como la validación de datos, y de las observaciones
restantes, los datos de entrenamiento. Esto se repite de forma que cada observación en la muestra
se utiliza una vez para la validación de datos. Este método de validación cruzada es
generalmente muy costoso desde el punto de vista computacional, debido a la gran cantidad de
veces que el proceso de formación se repite. Sin embargo, resulta útil para un conjunto limitado
de muestras.
91
2.9 Conceptos Estadísticos
2.9.1 Estadístico (F)
En estadística, el parámetro F es aplicado para cuantificar la variabilidad entre dos variables
“X” independiente y “Y” dependiente, así mismos este se basa en calcular los cuadrados de las
diferencias entre el valor real de la variable dependiente y, el valor predicho de ésta y el
promedio de la muestra, para cada valor de X.
Para abordar esta investigación se fijo como variable independiente, los datos provenientes
de los análisis por infrarrojo por Transformada de Fourier (data espectral) y como variable
dependiente las propiedades físico químicas a predecir por el modelo.
De esta manera, dado un conjunto de datos provenientes de una muestra aleatoria y utilizando un
modelo de regresión lineal simple, como Mínimos Cuadrados Parciales y Regresión Bayesiana
Lineal, es posible definir la tendencia lineal de un conjunto de datos.
De tal manera que;
Yi: Valor de la respuesta y para Xi
i : Valor de la respuestaY, estimado de acuerdo al modelo, para Xi
: Valor promedio de la respuesta y a través de la n observaciones de la muestra aleatoria
utilizada
Xi: Valor de X para la observación i - ésima
Se pueden establecer las siguientes relaciones matemáticas entre estos valores:
Σ (Y – )2: Es la suma de las diferencias entre cada valor de “Y” y la media. Representa la
variabilidad total de la respuesta “Y”, sin prestar atención a la relación que ella pueda tener con
“X”.
92
Σ ( i – )2: Es la suma de las diferencia entre cada valor estimado de “Y” por el modelo
escogido y la media. Es la variabilidad explicada por el modelo de regresión.
Σ (Y – i)2: Es la suma de las diferencias entre cada valor real de “Y” y su estimado por el
modelo. Es la variabilidad de “Y” no explicada por el modelo y se le llama Error Residual o
residuo.
Lo que se está haciendo al sumar estas diferencias es cuantificar a qué distancia queda cada
punto real del estimado por el modelo. Mientras más cerca estén los puntos reales del modelo,
mejor será el modelo, y menor será el residuo. La manera de cuantificarlo es hacer la diferencia
de cada punto, elevarlo al cuadrado y sumar éstas. Debe elevarse al cuadrado ya que, si no, la
suma de las diferencias respecto al promedio siempre daría cero. Si se coloca los valores
mencionados en una tabla se puede observar las siguientes relaciones:
Tabla 1 Relación entre suma y media de cuadrados para un modelo de regresión lineal simple.
Suma de cuadrados Grados de Libertad Media de Cuadrados
Modelo
1
Error
n – 2
Total
n – 1
El concepto de grados de libertad es muy abstracto y de difícil definición, pero tiene relación
con el número de categorías posibles y tiene una forma específica de estimarse según la prueba o
modelo que se esté utilizando. Por ejemplo, en la regresión lineal, el total de grados de libertad es
n-1; los grados de libertad del modelo corresponden al número de variables independientes que
participan en el modelo y la diferencia da los grados de libertad para el residuo.
La media de cuadrados corresponde a la suma de cuadrados dividida por el número de grados
de libertad respectivo. La media de cuadrados representa la diferencia promedio entre cada punto
y su referencia, sea ésta la media o el y estimado.
93
Se ha demostrado que la relación entre la media de cuadrados del modelo y la media del error
se distribuye probabilísticamente con distribución F. Brevemente, la distribución F es una
distribución de probabilidades, como la distribución normal, por ejemplo, pero su curva tiene otra
forma. Finalmente, se divide el cuadrado medio del modelo sobre el cuadrado medio del error o
residuo, es decir:
(2.61)
El valor obtenido corresponde al valor del estadístico F y su probabilidad asociada.
2.9.2 Desviación cuadrática media
La desviación cuadrática media se define como la raíz cuadrada de la suma de los cuadrados
de los errores individuales de las lecturas, entendiendo por tales a sus diferencias respecto del
valor medio medido, que se adopta como valor verdadero convencional.
(2.62)
2.9.3 Coeficiente de determinación (R2)
El coeficiente de determinación, R2 se utiliza en los modelos estadísticos cuya finalidad
principal es la predicción de resultados futuros sobre la base de otra información relacionada. Es
la proporción de la variabilidad en un conjunto de datos que se explica por el modelo estadístico.
Se proporciona una medida de cuán bien los resultados futuros pueden ser predichos por el
modelo. En función a los conceptos detallados en el estadístico F, el coeficiente de determinación
matemáticamente se define como la relación de las suma de los cuadrados del modelo con
respecto a la suma de los cuadrados del total, quedando expresada de la siguiente manera,
(2.63)
94
Existen varias definiciones diferentes de R2,
que sólo a veces son equivalentes. Una clase de
estos casos incluye el de la regresión lineal. En este caso, R2 es simplemente el cuadrado de la
correlación que muestra el coeficiente entre los resultados y sus valores previstos, o en el caso de
la regresión lineal simple, entre el resultado y los valores que se utilizan para la predicción. En
tales casos, Por su definición, es una medida acotada, siendo sus límites 0 ≤ R2 ≤ 1
El valor de R2 le dará alguna información sobre la bondad del ajuste de un modelo. En la
regresión, el coeficiente de determinación R2 es una medida estadística de lo bien que la línea de
regresión se aproxima a los puntos de datos reales. Un R2 de 1,0 indica que la línea de regresión
se adapta perfectamente a los datos. Tal como se muestra en la figura 31.
Figura 31 Coeficiente de determinación igual a 1. Fuente: Los Autores (2010)
Los valores de R2 fuera del rango de 0 a 1 se pueden producir cuando se utiliza para medir el
acuerdo entre los valores observados y el modelo y donde el "modelo" los valores no se obtiene
mediante la regresión lineal y en función de que la formulación de R2 se utiliza.
El valor de R2 cuando es cero indica la no representatividad del modelo lineal, ya que la suma
de los cuadrados del modelo supone que el modelo no explica nada de la variación total de la
variable Y.
95
Figura 32 Coeficiente de determinación igual a 0. Fuente: Los Autores (2010)
En realidad, R2 asumirá algún valor entre los dos valores extremos de 0 y 1. Claramente,
cuanto más cercano este R2
a la unidad, mayor será el poder explicativo del modelo de regresión.
Por ejemplo un R2 de 0,93 indica un muy buen ajuste de la línea de regresión a la dispersión de
puntos, el valor de R2 puede ser expresado en porcentaje, así para este caso un 93% de la
variación en Y respecto a su medida puede explicarse por la ecuación de regresión.
El que un valor dado para R2 se considere “alto”, bajo”, o “aceptable” o “inaceptable” en el
análisis estadístico depende del tipo de datos que se esté utilizando, los estándares particulares del
investigador y la R2 típica calculada en estudios de naturaleza similar.
CAPITULO III
MARCO METODOLOGICO
3.1 Generalidades
El marco metodológico está referido al momento que alude al proceso de investigación, con
el objeto de ponerlos de manifestó y sistematizarlos; a propósito de permitir descubrir y analizar
los supuestos del estudio y de reconstruir los datos, a partir de los conceptos teóricos
convencionalmente operacionalizados.
En este capítulo se detallan minuciosamente cada uno de los aspectos relacionados con la
metodología que se ha seleccionado para llevar a cabo la investigación, proporciona la
información necesaria para el desarrollo sistemático de las diferentes pautas que se siguieron para
lograr los objetivos propuestos por la misma, y con ello el tipo de investigación, procedimientos,
instrumentos y técnicas necesarias en la recolección de la información.
En la literatura es definida como una actividad encaminada a la solución de problemas. Su
objetivo consiste en hallar respuesta a preguntas mediante el empleo de procesos científicos [12].
El marco metodológico de todo estudio es pilar fundamental para el desarrollo investigativo, ya
que este facilita aplicaciones básicas que permiten alcanzar los objetivos de la investigación, en el
mismo se explica el tipo de investigación, se define la población y muestra de estudio y la
metodología utilizada para lograr el cumplimiento del objetivo general propuesto en esta
investigación.
3.2 Tipo de Investigación
La selección del tipo de investigación determina los pasos a seguir del estudio, sus técnicas y
métodos que puedan emplear en el mismo. En general determino todo el enfoque de la
investigación influyendo en instrumentos, y hasta la manera de cómo se analizo los datos
obtenidos. Así, el punto de los tipos de investigación en esta va a constituir un paso importante en
la metodología, pues este va a determinar el enfoque del mismo.
97
En cuanto a los tipos de investigación existen muchos modelos y clasificaciones, sin embargo
lo importante es precisar los criterios de categorización, en este sentido se identifican según el
nivel de profundidad, diseño y propósito; independientemente de su clasificación, todos son tipos
de investigación y un estudio puede ubicarse en más de una clase. El nivel de investigación se
refiere al grado de profundidad con que se aborda un fenómeno u objeto de estudio [6].
Tomando en cuenta diversos criterios, según el nivel de profundidad la investigación se clasifica
en:
Investigación Descriptiva
En esta se buscan desarrollar una imagen o fiel representación (descripción) del fenómeno a
partir de sus características. Describir en este caso es sinónimo de medir. Miden variables o
conceptos con el fin de especificar las propiedades importantes del objeto de estudio. El énfasis
esta en el estudio independiente de cada característica, es posible que de alguna manera se
integren las mediciones de dos o más características con el fin de determinar cómo es o cómo se
manifiesta el fenómeno, pero en ningún momento se pretende establecer la forma de relación
entre estas características. En algunos casos los resultados pueden ser usados para predecir [7].
Dentro de este orden de ideas la Investigación descriptiva se clasifica en otras, de esta manera
dentro de esta clasificación esta investigación se enmarca como:
- Investigación descriptiva transversal
En esta, se describe la situación en un momento dado y no requieren la observación de los
sujetos estudiados durante un periodo de tiempo. Este tipo de diseño es adecuado para describir el
estado del fenómeno estudiado en un momento determinado. La principal ventaja de este tipo de
estudio es que son prácticos, económicos, de rápida ejecución y fácil control [7].
Por otro parte, dentro de los tipos de investigación según los objetivos propuestos, la presente
investigación se clasifica como:
98
Investigación Explicativa
Los estudios explicativos van más allá de la descripción de conceptos y fenómenos o del
establecimiento de relaciones entre conceptos; “Están dirigidos a responder las causas de los
eventos, sucesos y fenómenos físicos”. Como su nombre lo indica su interés se centra en explicar
por qué ocurre un fenómeno y en qué condiciones se da éste, o porque se relacionan dos o más
variables. Sus resultados y conclusiones constituyen el nivel más profundo de conocimiento [68].
En consecuencia, por lo anteriormente expuesto esta investigación según el tipo de
investigación se considera según el nivel de profundidad como Descriptiva y según los objetivos
propuestos como Explicativa, debido a que durante la presentación y desarrollo de la misma se
consideran todos aquellos criterios que definen metodológicamente estos tipos de investigación.
3.3 Diseño de la Investigación
Es la estrategia general que adopta el investigador para responder al problema planteado. Con
el fin de recolectar la información necesaria que responda a las preguntas de investigación (bien
sea cualitativa o cuantitativa). Esto se refiere a la manera práctica y precisa que el investigador
aplica para cumplir con los objetivos de su estudio, ya que indica los pasos a seguir para alcanzar
dichos objetivos.
De este modo, las diversas formas de conseguir respuestas a las interrogantes o hipótesis
planteadas dependen de la investigación. Por esto, existen diferentes tipos de diseños de
investigación, de los cuales debe elegirse uno o varios para llevar a cabo una investigación
particular [27]. De igual manera, el diseño de investigación se define como el plan o estrategia
para obtener la información que se requiere en una investigación [68].
Existen diferentes clasificaciones para el diseño de la investigación, en tal sentido, según las
fuentes consultadas este estudio se clasifica en:
99
Investigación de campo
Las investigaciones de este tipo se basan en informaciones obtenidas directamente de la
realidad, permitiéndole al investigador cerciorarse de las condiciones reales en que se han
conseguido los datos [66].
Al respecto, la investigación de campo se presenta mediante la manipulación de una variable
externa no comprobada, en condiciones rigurosamente controladas, con el fin de describir de qué
modo o porque causas se produce una situación o acontecimiento particular. Este tipo de
investigación es también conocida como investigación in situ ya que se realiza en el propio sitio
donde se encuentra el objeto de estudio. Ello permite el conocimiento más a fondo del
investigador permitiendo así que los datos sean recolectados directamente de la realidad [68].
Por otro lado, se destaca que cada tipo de diseño posee características particulares por lo que
cada uno es diferente a cualquier otro y no es lo mismo seleccionar un tipo de diseño que otro; La
eficacia de cada uno de ellos depende de si se ajusta realmente a la investigación que se esté
realizando.
Los diseños experimentales son propios de la investigación cuantitativa, mientras los no
experimentales se aplican en ambos enfoques (cualitativo o cuantitativo). De este modo existen
dos diseños de investigaciones principales, los experimentales o de laboratorio y los no
experimentales que se basan en la temporalización de la investigación [27]. Debido a lo
anteriormente expuesto, se resalta este estudio como:
Investigación Experimental
El experimento es una situación provocada por el investigador para introducir determinadas
variables de estudio manipulada por él, para controlar el aumento o disminución de esas variables
y su efecto en las conductas observadas. Al respecto, la investigación experimental consiste en la
manipulación de una variable experimental no comprobada, en condiciones rigurosamente
controladas, con el fin de describir de qué modo o por qué causa se produce una situación o
acontecimiento en particular [78].
100
De esto se establece que la investigación de tipo experimental es aquella donde se manipulará
la variable independiente, se realizará la selección aleatoria de los sujetos de las muestras y se
controlarán variables que puedan contaminar el efecto de la variable experimental [14].
Por lo antes expuesto, se afirma que esta investigación, la cual lleva por título “Modelos por
mínimos cuadrados parciales y regresión bayesiana para la predicción de propiedades de gas
asociado”, es según la manipulación de variables una investigación de tipo experimental y según
la fuente de recolección de información de campo, ya que controla la obtención de datos
partiendo desde el diseño de laboratorio, así como los datos obtenidos de estos (variables), los
cuales serán manipulados en algoritmos en un software comercial.
3.4 Población
Se refiere a un conjunto de elementos, seres o eventos concordantes entre sí en cuanto a una
serie de características, de las cuales se desea obtener alguna información. A su vez, está
determinada por sus características definitorias. Por lo tanto el conjunto de elementos que posea
esta característica se denomina población o universo. Entonces, una población es el conjunto de
todas las cosas que concuerdan con una serie determinada de especificaciones. Al respecto, la
población o universo puede estar referido a cualquier conjunto de elementos de los cuales
pretendemos indagar y conocer sus características, o una de ellas, y para el cual serán válidas las
conclusiones obtenidas en la investigación. Es el conjunto finito o infinito de personas, casos o
elementos que presentan características comunes [8].
Dentro de éste marco se puede señalar que la población de esta investigación está
representada por 28 muestras de gas asociado obtenidos en un campo productor de petróleo y gas
en el Occidente del país.
3.5 Muestra
Es una porción de la población que se toma para realizar el estudio, el cual se considera
representativa (de la población). Cuando no es posible medir cada uno de los individuos de una
población, se toma una muestra representativa de la misma.
101
Con excepción de los casos de los universos pequeños, es importante seleccionar
sistemáticamente en una muestra, cada unidad representativa de la población, atendiendo a un
criterio específico y en condiciones controladas por el investigador. Las características del
universo, dada la representatividad de las unidades que la conforman, deben reproducirse en la
muestra lo más exactamente posible [8].
Durante la revisión de la población de estudio, una vez realizadas el respectivo análisis de
datos obtenidos en la parte experimental se tomo como muestra todas aquellas cuya reproducción
de las diferentes regiones del espectro representara una tendencia definida en relación al conjunto
total de muestras. Por consiguiente, la muestra de este estudio de investigación está constituida
por un total de 23 muestras de gas asociado producido en el Occidente del país.
Figura 33 Muestras. Fuente: Los autores (2010)
3.6 Técnicas de investigación e Instrumentos de recolección de datos
Las técnicas e instrumentos de investigación son los medios que utiliza el investigador para
medir el comportamiento o atributos a las variables. Los medios de recolección de datos son
cualquier recurso que se vale el investigador para observar a los fenómenos y extraer de ellos
información [66].
102
3.6.1 Fuentes Primarias
Son aquellas que permiten recolectar la información directamente de su fuente de origen,
estas fuentes permitieron obtener la información de manera directa del personal encargado de la
toma de muestras, análisis cromatográfico y analistas de la unidad de espectroscopia infrarroja
donde se registra la data para cada una de la muestras a analizar. De tal manera que la técnica
utilizada en esta investigación es:
Observación Documental.
La observación documental es aquella que se basa en la obtención y análisis de los datos
provenientes de materiales impresos u otro tipo de documentos [6].
La primera actividad desarrollada fue la recopilación de la información y como primer paso
se estudió, las fuentes referidas a trabajos previos en el área de análisis instrumental
(cromatografía de gas natural y espectroscopia infrarroja), así como la revisión bibliográfica en
libros, textos y artículos referida a la aplicación de modelos matemático estadístico para un grupo
de datos.
La observación realizada es de tipo documental ya que permito inspeccionar a través de estas
técnicas instrumentales observar y recabar toda la data referida al área de estudio.
Para llevar a cabo esta investigación, fue necesaria la recolección de datos mediante la
observación directa como fuente primaria, de esta forma empleando como instrumento un
software comercial fue posible crear una base de datos para el almacenamiento de datos
cromatográficos y espectroscopia infrarroja obtenidos por la pruebas aplicadas de todos los
experimentos estudios, donde se dio a conocer las características que presentan el conjunto de
muestras de gas asociado producido en el Occidente del país.
103
3.7 Metodología empleada en la Investigación
Esta etapa consiste en la descripción de la metodología empleada para la obtención de datos
a partir de muestras de gas asociado producido en el Occidente del país por Cromatografía de
Gases y Espectroscopia infrarroja, así como la selección de las muestras que mejor se ajustan y
definen mejor tendencia de datos en las diferentes regiones del espectro. Para ello, fue necesario
seguir una metodología de trabajo que permitiera recolectar y manejar la información de forma
organizada y eficiente, con la finalidad de obtener resultados representativos. La metodología
básicamente define el desarrollo de las actividades experimentales y el procesamiento de la
información de esta manera la metodología utilizada es la siguiente:
3.7.1 Procedimiento Experimental
Recolección de información sobre análisis de gas asociado por Cromatografía de gas,
Espectroscopia de infrarrojo y aplicación de modelos de regresión para la predicción de
propiedades.
Para todo proceso investigativo resulta fundamental la búsqueda de trabajos preliminares o
antecedentes para no solo fundamentar la investigación sino a su vez para garantizar la
continuidad en los avances de conocimientos basados en aspectos de carácter científico en cuanto
al análisis instrumental y aplicación de modelos quimiométricos. Evidentemente este estudio
recopila históricos referidos a congresos, entrevistas, seminarios, talleres, artículos arbitrados,
textos y otros.
Desde este punto de vista, esta investigación se fundamento en trabajos investigativos;
referidos a Trabajo de Grado, Tesis e Investigaciones desarrolladas (Nacionales e
Internacionales). Todos en el área de análisis instrumental y aplicación de modelos matemático
estadístico específicamente en Mínimos Cuadrados Parciales (PLS) y Regresión Bayesiana
Lineal (linear GNBR).
104
Obtención de muestras de gas asociado.
Se estudio un conjunto de 23 muestras de gas asociado procedentes de un yacimiento de
petróleo y gas ubicado en el Occidente del país. Las 23 muestras corresponden a 23 puntos de
muestreo diferentes, las mismas fueron recogidas en el mes de septiembre de 2009 y son
representativas del gas producido en el yacimiento. La representatividad de las muestras se debe a
que fueron tomadas todas la premisas necesarias para un proceso de muestreo, de igual manera
todas fueron tomadas a la salida del separador de alta con similares condiciones de presión y
temperatura de muestreo.
Por otra parte, una comparación con la base de datos de análisis cromatográficos a estos
puntos de muestreo permitió constatar la poca variación en cuanto composición molar de los
componentes identificados.
Análisis de muestras de gas asociado por Cromatografía de gas
Las muestras de gas asociado se analizaron con un sistema cromatográfico multicolumna en
el laboratorio de análisis de la Fundación Laboratorio de Servicios Técnicos Petroleros (FSLTP).
Este sistema cromatográfico proporciona una información muy detallada de la composición
química, ya que determina el porcentaje molar de mezcla de gas natural con trazas de hexanos e
hidrocarburos más pesados, así como las propiedades físicas de la muestra, tales como poder
calorífico, viscosidad del gas, entre otras. Dichas propiedades fueron determinados según la
Norma Venezolana COVENIN 2569 – 89.
En la tabla 2, se muestra un ejemplo de los resultados que proporciono el análisis
cromatográfico del cual se obtuvo el porcentaje molar y propiedades físicas como Riqueza del
gas, Peso molecular y densidad para cada uno de los componentes detectados, Sulfuro de
Hidrógeno, Dióxido de Carbono, Nitrógeno, Metano, Etano, Propano, iso-Butano, n-Butano, iso-
Pentano, n-Pentano, Hexanos, Heptanos, Octanos, Nonanos, Decanos, Undecanos +, en función
del número de carbonos (de 1 a 11) de los compuestos.
105
Tabla 2 Ejemplo del resultado de análisis por Cromatografía de gases de una muestras de gas asociado.
Fuente: Los Autores (2010)
Componentes % Mol GPM PM Densidad
H2S 0,001 - 34,076 0,79
CO2 0,027 - 44,01 0,827
N2 0,014 - 28,013 0,81
CH4 91,702 - 16,043 0,3
C2H6 3,168 - 30,070 0,3564
C3H8 2,157 0,590 44,097 0,5077
iC4H10 0,634 0,206 58,124 0,5631
nC4H10 1,429 0,448 58,124 0,5844
iC5H12 0,331 0,121 72,151 0,6247
nC5H12 0,305 0,110 72,151 0,631
C6H14 0,18 0,074 86,178 0,664
C7H16 0,032 0,015 100,205 0,6882
C8H18 0,002 0,001 114,232 0,7068
C9H20 0,005 0,003 128,259 0,7217
C10H22 0,009 0,005 142,286 0,7342
C11H24 0,003 0,002 156,000 0,74
Total 100 1,574
Análisis de muestras de gas por espectroscopia de infrarrojo por trasformada de Fourier.
Se analizó por espectroscopia de infrarrojo medio y cercano el conjunto de veintitrés muestras
de gas asociado. El espectro de las muestras fue medido entre 4000 y 399 cm-1
(Infrarrojo
medio), y para una región de 4000 y 4700 cm-1
(Infrarrojo cercano), en un espectrómetro
infrarrojo con transformada de Fourier (FT-IR), modelo 8400S, marca SHIMADZU, en el
Laboratorio de Petroquímica y Surfactantes de la Universidad del Zulia, el cual está equipado
con un Interferómetro tipo Michelson con 30° de ángulo de incidencia, con una resolución de
2cm-1
.
106
Figura 34 Espectrómetro infrarrojo por Transformada de Fourier. Fuente: Los autores (2010)
Este procedimiento experimental se inicia con un tratamiento previo, haciendo circular la
muestra de gas asociado por un filtro empacado con Sulfato de Magnesio Anhidro para eliminar
la presencia de humedad, en caso de que esté presente en la muestra, debido a que la celda donde
se recolecta el gas para ser analizado en el FT-IR posee dos ventanas de bromuro de potasio
(KBr) que son higroscópicas.
Figura 35 Filtro empacado. Fuente: Los autores (2010)
107
Es posible tener control sobre esta migración de gas, ya que este al salir del filtro empacado
es almacenado en la celda de gases, la cual cuenta con dos válvulas para controlar el flujo de
entrada y salida. El procedimiento practico es la presurización del gas en la celda, donde ambas
válvulas son cerradas al mismo tiempo, con la finalidad de alcanzar el almacenamiento de la
fracción de gas asociado requerida para el análisis, posteriormente se analiza en la región del
espectro infrarrojo desde 4700 a 399 cm-1
Figura 36 Celda para muestras gaseosas instalada en el Espectrómetro infrarrojo por Transformada de Fourier
(FTIR). Fuente: Los autores (2010)
Algunas recomendaciones se tomaron en cuenta para garantizar la reproducibilidad y
efectividad de los datos de las muestras de gas asociado durante el análisis por FT-IR, entre los
más resaltantes están:
Efectuar la limpieza de las ventanas de KBr de la celda con Metanol después del análisis de
cada muestra.
Emplear una campana de extracción de Gases, para evacuar las pequeñas concentraciones de
gas asociado, H2S y otros contaminantes presentes en las celdas.
Disponer de un desecador para proteger la celda con la muestra de gas almacenada, y con ello
evitar que la Humedad del laboratorio tenga algún efecto sobre el análisis y el deterioro de las
ventanas de KBr.
108
3.7.2 Procesamiento de la Información
Recopilada la data necesaria, se procede generar y aplicar los modelos matemáticos –
estadístico y con ello validar los diferentes criterios para generar resultados confiables, para esto
se utilizo un paquete informático comercial, con la finalidad de agrupar tendencias y finalmente
generar un algoritmo para el procesamiento de data cromatográfica y espectral de carácter
predictivo de las propiedades físico químicas de las muestras de gas asociado. En razón de esto,
se ejecuto el cumplimiento de las diferentes fases que garantiza con ello el desarrollo y análisis
de los objetivos propuestos de la investigación.
Interpretación de bandas observadas en los espectros obtenidos en Espectrometría infrarroja
por Transformada de Fourier (FTIR) por comparación con los espectros de los componentes
puros.
Una vez obtenida la data espectral de las muestras de gas asociado se procedió a identificar
por comparación del espectro medido con una base de datos de referencia. En la literatura,
existen numerosas bases de datos que describen en detalle la identificación de espectros por
componente bajo diferentes criterios de tipo experimental (tipo de equipo infrarrojo,
manipulación de la muestra, material de la celda de gas, etc.) y de procesamiento de datos
(resolución, numero de barridos, regiones de absorción a medir, etc.), de esta manera es posible
no solo identificarlos, a su vez se logra su ubicación en la región del espectro y en su respectivo
número de onda.
Para que los resultados sean representativos, resulta fundamental garantizar que los datos de
referencia de los componentes puros hayan sido analizados bajo iguales criterios desde el punto
de vista experimental y de procesamiento de datos, de esta manera realizar una comparación de
los datos espectrales obtenidos de las muestras de gas asociado en función de los componentes
puro indicara con razonable certeza las bandas de absorción representativas de cada uno de los
componentes a identificar, razón por la cual se hizo uso de la Base de datos de la empresa Perkin
Elmer [81], donde se fijan criterios y equipos de laboratorio aplicados en esta investigación.
109
Verificación de muestras anómalas “outliers” en base a la composición (proporcionada por el
método de referencia) y a los espectros de infrarrojo
Una vez identificado los componentes de la mezcla de gas asociado, es importante analizar
el conjunto de datos espectrales, la identificación oportuna de datos atípicos “outliers”, puede
resultar importante al momento de realizar predicciones, debido a que es un conjunto de 23
muestras la identificación de estos se realizo por inspección de la representación grafica de los
datos espectrales.
En este caso, la presencia de muestras anómalas “outliers” puede deberse a muestras erráticas
por diferentes razones, en el caso de las muestras de Gas Natural, la razón principal pueda
deberse a valores atípicos en muestras contaminadas por la presencia de gas en la atmosfera,
principalmente dióxido de carbono (CO2) para descartar esto en la práctica, es recomendable una
vez tomadas las muestras obtener los datos de espectros lo más pronto posible, para evitar el
escape de gas e invasión de gases atmosféricos.
En el mismo orden de ideas, otra de las causas de la detección de las muestras fuera de
Intervalo “outliers”, se debe a gases de baja absorción en el infrarrojo, en este caso las bandas
serán registradas con valores mínimos de Absorbancia y la identificación en la representación
grafica será obvia ante las bandas de otro grupo de muestras. El objetivo es depurar los datos de
entrada al algoritmo para obtener una base de datos representativa del conjunto de espectros y
con ello lograr la mejor predicción de propiedades físico químicas del gas producido en el
Occidente del País.
Selección de regiones de números de onda que produzcan las mejores predicciones para el
modelo de Mínimos Cuadrados Parciales y Regresión Bayesiana Lineal con validación de los
modelos por el Método de Validación Cruzada Leave One Out (LOOCV)
En función a la etapa anterior, una vez interpretada las bandas e identificados los
componentes puros en sus respectivos numero de onda, es posible llevar a cabo una selección de
regiones en el espectro, este conjunto de datos funcionara como base de datos en el algoritmo
para generar predicciones de componentes y las propiedades del mismo.
110
Este procedimiento se realizo aplicando dos algoritmos de selección de regiones, para los
modelos de Mínimos Cuadrados Parciales (PLS) y Regresión Bayesiana Lineal (linear GNBR),
ambos desarrollados en base a una validación cruzada Leave one out (LOOCV) con centrado y
escalado, los cuales fueron evaluados por los parámetros estadísticos, Coeficiente de
determinación (R2) y el estadístico (F).
El algoritmo empleado Leave One Out Cross Validation (LOOCV) deja fuera un objeto (una
muestra de gas) a la vez, generando el modelo a partir de las muestras restantes, a partir de este
modelo se predice el valor de la propiedad o concentración de la muestra omitida; este proceso se
repite hasta que cada una de las muestras haya sido excluida del sistema. Esta forma de
validación presenta la ventaja de que el modelo no está influenciado por la inclusión de la
muestra estándar analizada [22].
El resultado es un estimado de la desviación representado por las siglas “rms” (raíz cuadrada
del promedio de los cuadrados de las desviaciones) y se representa por las siglas desv o desvpred
en este trabajo. Dado que el modelo elegido no se genera a partir de la muestra cuyo error se
calcula, el resultado es una estimación más realista que si el modelo fuese creado a partir de todas
los casos (muestras). Por consiguiente, se aplico este sistema para determinar el valor predictivo
de los algoritmos PLS y GNBR.
Los datos de absorbancia y de las propiedades son centrados y escalados antes de crear los
modelos PLS por medio del algoritmo NIPALS [22]. El número de variables latentes
seleccionado es el que produzca un mínimo en la grafica de rms vs. número de variables latentes.
Los datos espectrales se sometieron a un proceso de centrado y escalado del conjunto de
prueba y de referencia previo al desarrollo del modelo de calibración; este pre-tratamiento es el
más usado con frecuencia en la Quimiometría. El centrado es necesario para el algoritmo
NIPALS; el escalado le da el mismo "peso" a todas las variables (columnas, en este caso).
En el caso del modelo de Regresión Bayesiana Lineal (GNBR) [62] se realizo de igual
manera la validación cruzada Leave One Out (LOOCV), con la diferencia de que el modelo se
genera directamente y no se selecciona de una serie consecutiva de los mismos.
111
El procesamiento matemático y estadístico se realizó en el intervalo espectral 400 a
4461cm-1
. Así, la calidad de los modelos en los conjuntos de calibración y predicción se evaluó
sobre la base de dos indicadores estadísticos comunes, el coeficiente de determinación R2 y el
estadístico F. El primero de estos se aplica en regresión y se interpreta como "la fracción de la
propiedad que es explicada" traduciendo este concepto a la investigación, el coeficiente de
determinación funcionara como una medida de la variación en la variable respuesta (propiedad a
predecir) explicada por el modelo de regresión. A tal efecto, lo relevante de estimar este
parámetro aplica ya que es importante disponer de una medida que mida la bondad del ajuste
realizado y que permita decidir si el ajuste lineal es suficiente o se deben buscar modelos
alternativos.
En el mismo orden de ideas, el parámetro estadístico F se interpreta como el cociente entre la
varianza del modelo y la de los errores. Existen tablas para el nivel de significancia (0.01, 0.05,
0.10 etc).
Modelos de predicción de propiedades del gas asociado a partir de espectros de infrarrojo
utilizando el algoritmo de Mínimos Cuadrados Parciales (PLS) y Regresión Bayesiana Lineal
(linear-GNBR).
Aplicación del algoritmo de Mínimos Cuadrados Parciales
En este paso se utilizó el programa desarrollado por Alciaturi del algoritmo de mínimos
cuadrados parciales basado en el algoritmo de Geladi y Kowalski titulado Partial Least Square
Regression [22]. Este programa permite obtener el vector de regresión óptimo con los datos de
referencia para luego validarlo con los datos de validación.
Este programa permite encontrar el número de variables latentes que están más
correlacionadas con la variable respuesta. El número óptimo de variables latentes corresponde al
que arroje el menor valor en la suma de los cuadrados del error de predicción (obtenido con los
datos de validación). Los resultados obtenidos corresponden a los calculados con el número
óptimo de variables latentes. Se utilizó para la comparación el método de la recta de 45° y la
desviación cuadrática media.
112
Aplicación del algoritmo de Regresión Bayesiana Lineal
Se propuso evaluar la implementación de la Regularización Bayesiana a una neurona lineal,
que procese cada una de las muestras para generar el valor de salida, en función de un vector
calculado a partir de un entrenamiento con datos aleatorios, fundamentados en el método
reportado en [21] conocido como “Aproximación Gauss-Newton a la regularización Bayesiana”,
GNBR de sus siglas en Ingles, ya que proporciona una solución formalmente similar a la del
método PLS [5].
Análisis comparativo de los resultados obtenidos con el conjunto de muestras de gas
asociado por el Modelo de Mínimos Cuadrados Parciales (PLS) y Regresión Bayesiana Lineal
(linear GNBR).
Es de gran importancia para esta investigación la interpretación y análisis de los resultados
obtenidos por cada uno de los modelos aplicados de forma individual, más relevante aun es
establecer comparaciones de los modelos analizados ya que estos resultados trascienden al sector
productivo, específicamente a la industria del petróleo y gas natural, asociado a esto el desarrollo
de este objetivo en la investigación permitirá concluir sobre las bondades que los modelos
posean o no, en la predicción de las propiedades físico químicas del gas natural.
En este sentido, una vez aplicado los algoritmos de predicción y evaluados por los parámetros
estadísticos, se plantea una comparación de resultados en base a la construcción de una tabla
comparativa y diagramas de barras que permitan evidenciar a través de los parámetros
estadísticos medidos la respuesta sobre cuáles son las regiones en el espectro de infrarrojo en las
cuales se obtiene una mejor predicción de la composición del gas, así como la predicción de sus
propiedades (Peso Molecular promedio, Valor Calorífico Neto, Valor Calorífico Total,
Viscosidad y Densidad Relativa del Gas) y cuál de los métodos aplicados (PLS y linear GNBR)
brinda una mejor predicción en análisis de muestras de gas asociado.
CAPITULO IV
ANALISIS DE LOS RESULTADOS
Sobre la base de los datos obtenidos, se sistematizo los resultados del proceso de ésta
investigación, los cuales se organizan en función de los objetivos, ya que el contenido y la forma
en que se presentan dependen de los criterios metodológicos propuestos. Mediante el desarrollo
de éste capítulo se darán a conocer un conjunto de datos obtenidos mediante las observaciones y
trabajo de laboratorio, así como el tratamiento y procesamiento a través de algoritmos para
finalmente generar un modelo de predicción de propiedades del gas natural asociado utilizando
el modelo de Mínimos Cuadrados Parciales (PLS) y Regresión Bayesiana Lineal (linear GNBR).
4.1 Interpretación de bandas observadas en los espectros obtenidos de FTIR por
comparación con los espectros de los componentes puros
La interpretación de bandas para identificar los componentes en una mezcla de gas natural es
posible llevarse a cabo a través de la comparación con los espectros de componentes puros que se
encuentran en la literatura [73].
Es de justificarse el uso de esta base de datos (ver tabla 3) ya que se corresponden desde el
punto de vista experimental pues cumple con las especificaciones empleadas en esta
investigación, tal como la implementación de Espectrómetro por Transformada de Fourier, así
como el uso de una celda de vidrio para muestras gaseosas de 10cms. con ventanas de bromuro
de potasio (KBr).
114
Tabla 3 Identificación de componentes por regiones en el espectro.
Fuente: Perkin Elmer (1973)
Componente Región
(cm-1
)
Metano 1200 - 1400
2700 - 3200
Etano 1350 - 1600
2700 - 3100
Propano 1550 - 1300
3100 - 2800
Butano 1500 - 1300
3100 - 2800
i - Butano 1500 - 1300
3100 - 2800
Pentano 1550 - 1300
3100 – 2800
i - Pentano 1550 - 1300
3100 – 2800
Hexano 1500 - 1300
3100 - 2800
Heptano 1500 - 1350
3000 - 2800
Octano 1550 - 1300
3100 - 2800
Nonano 1500 - 1300
3100 - 2800
Decano 1500 - 1300
3000 - 2800
Undecano 1500 - 1300
3100 - 2800
Dióxido de Carbono (CO2 ) y
Sulfuro de Hidrogeno (H2S)
750 - 600
2400 - 2200
El análisis instrumental aplicado al conjunto de 23 muestras de gas asociado producido en el
Occidente del país por Espectrometría infrarroja en una región comprendida entre 4700 y
400cm-1
(regiones cercana, media y lejana) se representan a través del uso de un paquete
informático comercial, en la figura que se muestra a continuación.
115
Figura 37 Espectro de las muestras de gas asociado. Fuente: Los autores (2010)
De este conjunto de espectros infrarrojos la identificación de compuestos orgánicos
corresponde con el grupo alcanos (C-H), en esta se puede apreciar los valores de absorbancia con
respecto al número de onda en las diferentes regiones del espectro. Los picos que se distinguen en
la Figura 37 representan la absorción en el infrarrojo de la mezcla de gases de un conjunto de 23
muestras; se presentan tres zonas con picos de absorción importante los cuales sirvieron como
punto de referencia para la identificación de los componentes del gas natural.
Debido a que las 23 muestras corresponden a la producción de gas asociado a un yacimiento,
y que estas fueron obtenidas como producto en una etapa de separación (demetanizadora), el
contenido de componente pesados (etano mas) es mínimo, esto se pudo comprobar con los
estudios cromatográficos de las muestras de estudio y posteriormente con una revisión de la base
de datos cromatográficos del gas producido en el yacimiento.
En consecuencia de esto, se considero para la investigación identificar y predecir la
producción de metano y agrupar los componentes más pesados en un grupo que en lo sucesivo
será referido como Etano mas. Así, para realizar la identificación de componentes puros al
0500100015002000250030003500400045005000-2
-1
0
1
2
3
4
5
Numero de onda (cm-1)
Absorb
ancia
116
conjunto de 23 muestras representadas en la Figura 37, se hizo una comparación con los valores
presentados en la Tabla 3 quedando de esta manera:
Tabla 4 Identificación de componentes por regiones en el espectro para el conjunto de 23 muestras
Fuente: Los Autores (2010)
Componente Formula Región
(cm-1
) Vibración
Metano CH4
1200 -1400 Flexión
2700 - 3100 Tensión
Etano mas C2H6 + 1400 - 1550 Flexión
3100 - 3200 Tensión
Dióxido de Carbono y CO2 y
H2S
600 -750 Flexión
Sulfuro de Hidrogeno 2200 - 2400 Tensión
La identificación del metano por estar en altas concentraciones por lo general, presenta picos
abruptos bien definidos en la región mediana y tal como se muestra en la figura 38, en zonas
cercanas a los demás componentes, que a diferencia de este, presentan zonas de absorción con
picos más suaves en la región mediana del espectro. En la región cercana, se muestran bandas
con considerables medidas de absorción de todos los componentes. La representación grafica de
la Tabla 4, se puede observa en la siguiente figura.
0500100015002000250030003500400045005000-2
-1
0
1
2
3
4
5
Numero de onda (cm-1)
Absorb
ancia
Tensión Flexión
Etano Mas
Etano Mas
MetanoMetano
Región MedianaRegión Cercana
Región de Huella Dactilar
Figura 38 Identificación de componentes, vibraciones moleculares y regiones.
Fuente: Los Autores (2010)
117
En la figura 38 se visualiza los valores de absorbancia vs. el numero de onda para las
diferentes regiones del espectro. En la misma se evidencia tres regiones de absorción importante
(Ver figuras 39 a 41), a su vez , se detallan las vibraciones típicas de los grupos funcionales
alcanos las cuales se caracteriza por tener vibración de Tensión (movimientos rítmicos a lo largo
del eje del enlace, modifican la distancia de enlace) ubicándose en la región espectral 3000 cm-1
aproximadamente y de Flexión (movimiento de un grupo de átomos con respecto al resto de la
molécula, manteniéndose los átomos integrantes de este grupo considerado sin cambios, en
cuanto a ángulos y distancias, entre sí) en la región espectral 1400 cm-1
aproximadamente.
La aparición de metano, etano y más pesados, y componentes ácidos son muy estables en la
región mediana y su reproducción en la región de la huella dactilar (región 400 – 1500cm-1
)
Bandas de Absorción en las Regiones del Espectro
De izquierda a derecha en la región cercana 4550 - 4000cm-1
aproximadamente.
4000410042004300440045004600-0.2
0
0.2
0.4
0.6
0.8
1
1.2
Numero de onda (cm-1)
Absorb
ancia
Figura 39 Región de absorción 4550 - 4000 cm-1
Fuente: Los Autores (2010)
En la región de infrarrojo cercano (NIR) las bandas de absorción no están tan bien definidas
como en el infrarrojo medio, apareciendo en forma de bandas anchas y solapadas entre si, por lo
que es más difícil realizar una asignación a un componente o grupo funcional concreto de la
muestra. Las bandas tienen una menor intensidad (la absortividad de la muestra es menor).
118
De igual manera, haciendo uso del paquete informático y programando el algoritmo es
posible obtener un acercamiento de la región de interés. De esta manera se visualiza en la región
mediana una segunda región de absorción en el numero de onda, 3200 - 2700 cm-1
aproximadamente, tal como se muestra en la siguiente figura.
2700280029003000310032003300-0.5
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
Numero de onda (cm-1)
Absorb
ancia
Figura 40 Región de absorción 3200 - 2700 cm-1
Fuente: Los Autores (2010)
Finalmente, una tercera región de absorción se encuentra ubicada entre el número de onda
1550 y 1200 cm-1
aproximadamente, tal como se muestra en la siguiente figura.
120012501300135014001450150015501600-0.5
0
0.5
1
1.5
2
2.5
3
3.5
Numero de onda (cm-1)
Absorb
ancia
Figura 41 Región de absorción 1550 - 1200 cm-1
Fuente: Los Autores (2010)
119
4.2 Detección de muestras anómalas “outliers” en base a la composición (proporcionada
por el método de referencia) y a los espectros de infrarrojo
De un total de 28 muestras que representan la población de puntos de muestreos del
yacimiento de petróleo y gas asociado, se le realizo a las 28 muestras de forma efectiva el análisis
cromatográfico a nivel de laboratorio, no obstante solo a 25 muestras se le efectúo el análisis de
absorción en el espectro de infrarrojo, quedando 3 de las celdas sin estudio por escape de gas del
cilindro.
La representación grafica haciendo uso de un paquete informático permite visualizar la
tendencia de los datos espectrales de las 25 muestras analizadas, el objetivo de este paso es
analizar y verificar la agrupación de datos y con ello detectar tendencias en las regiones de
absorción.
La detección de los outlier en esta etapa es importante porque la inclusión de estas muestras
discrepantes en el modelo degrada su capacidad predictiva. Es de considerar que cuando se trata
de un número pequeño de muestras, la detección de outlier se ejecuta con una inspección visual
del conjunto de datos espectrales, cuando se trata de un conjunto de datos grandes (100 o más),
se han desarrollado métodos multivariantes, estos poseen esta ventaja sobre los tradicionales
univariantes, en la capacidad que tienen de detectar la observación u observaciones inconsistentes
con el resto de los datos.
Para las muestras de esta investigación la detección de outliers se realizo a través de una
inspección a la representación grafica de los datos espectrales del conjunto total de muestras. En
la figura 42 se identifican las muestra 24 y 25 como muestras anómalas (outliers), en el caso
particular de la muestra 24, (banda de color rojo en la figura 42) se visualiza un corrimiento de la
línea base, así como no corresponde con la tendencia de las muestras restantes, con valores muy
bajos de Absorbancia, indicativo de que no hubo importante absorción de gas en el espectro de
infrarrojo, la principal causa de esto es la poca presencia de muestra de gas en la celda de vidrio.
120
0500100015002000250030003500400045005000-2
-1
0
1
2
3
4
5
Numero de onda (cm-1)
Absorb
ancia
Muestra 24 Muestra 25
Figura 42 Identificación de muestras anómalas (outliers)
Fuente: Los Autores (2010)
Con respecto a la muestra 25, (banda de color celeste en la figura 42) se visualiza una
inconsistencia durante toda las regiones de absorción con respecto a la tendencia de las muestras
restantes, esto se debe a la alta intensidad de uno de los componentes en la muestra
principalmente Dióxido de Carbono (C02), este componente que también se encuentra en la
atmosfera posiblemente haya afectado las bandas de absorción en el infrarrojo en las diferentes
regiones.
De esta manera, una vez identificados los componentes de la mezcla de gas asociado, y
aplicado el descarte de muestras anómalas (outliers), se define la muestra de estudio de esta
investigación quedando 23 muestras representativas del gas producido en el Occidente del país,
para la predicción de propiedades fisicoquímicas.
121
4.3 Selección de regiones de números de onda que produzcan las mejores predicciones
para el modelo de mínimos cuadrados parciales y regresión bayesiana lineal
con validación de los modelos por el método de validación cruzada Leave One Out
(LOOCV)
La selección de las regiones de número de onda para predecir con la aplicación de algoritmo
del modelo de Mínimos Cuadrados Parciales y Regresión Bayesiana ambos desarrollados en base
a una validación cruzada Leave One Out (LOOCV) con el uso de un paquete informático, se
realizo ejecutando un pretratamiento de los datos con la técnica de centrado y escalado, con el
centrado se calcula el valor promedio para cada variable del conjunto de datos de entrenamiento y
luego se sustrae el mismo de cada variable correspondientemente, es decir, las variables se usan
en la forma centrada en la media y el escalado divide cada elemento entre la desviación estándar.
El espectro medido por absorción en el infrarrojo se realizo desde el numero de onda de 4700 a
400 cm-1
, en función de esto el algoritmo como dato de entrada establece un parámetro de
intervalos en el numero de onda, este se introduce de forma aleatoria para medir la calidad de los
modelos en los conjuntos de calibración y predicción se evaluó sobre la base de dos indicadores
estadísticos comunes, el coeficiente de determinación R2 y el estadístico F, así se obtienen los
siguientes resultados:
4.3.1 SELECCIÓN DE REGIONES DE NÚMERO DE ONDA PARA EL MODELO
MINIMOS CUADRADOS PARCIALES (PLS)
Selección de Regiones para la predicción de Metano
En cuanto a la predicción de la composición del gas asociado, el metano y etanos mas como
propiedad física del gas natural se encuentran identificados en diferentes zonas del espectro,
región mediana (700 – 4000cm-1
) y región cercana (4000 – 10000cm-1
), tal como se explico
anteriormente en la región mediana se identifican con facilidad distinguiendo esto por el numero
de onda del espectro y el comportamiento de los picos en las bandas de absorción.
122
En la práctica, en cuanto a la selección de regiones de numero de onda para la predicción de
composición de componentes del gas natural (metano y más pesados) bien es sabido que la
región cercana por el solapamiento que presentan las bandas de absorción es el intervalo ideal
para seleccionar datos espectrales y realizar la predicción aplicando quimiometria. De esta
manera, realizando intervalos aleatorios de número de ondas es posible obtener medidas
estadísticas que permitan evaluar y hacer una selección óptima de los intervalos para realizar la
predicción.
Para demostrar esto, se seleccionaron diferentes intervalos, específicamente cada 100cm-1
y
cada 400cm-1
en toda la región del espectro, para evaluar a través de los parámetros estadísticos
cuales son los intervalos de interés para aplicar los algoritmos de predicción. De esta manera, se
presentaran a continuación los resultados obtenidos para la selección de intervalos en el espectro
para metano y etano mas y con ello la interpretación y análisis de las figuras y tablas presentadas.
- Selección de intervalos para metano, cada 100cm-1
en el número de onda por el método PLS
con LOOCV
La figura 43(a), representa la medida adimensional del estadístico F en función del número de
onda (cm-1
), en la misma se visualiza los diferentes puntos (recuadros rojos) que a su vez
representan diferentes intervalos cada 100cm-1
en toda la región del espectro, en la figura se
presenta además la señalización de un recuadro en color verde que según el criterio explicado
agrupa los diferentes intervalos de la región cercana (posible intervalos de mejor predicción).
123
0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Numero de onda (cm-1)
R2
0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000.5
1
1.5
2
2.5
3
3.5
4
4.5
Numero de onda (cm-1)
F
(a) (b)
Figura 43(a) Dispersión del Estadístico F según el número de onda del infrarrojo para predicción de metano en
intervalos de 100cm-1
y 43 (b) Dispersión del Coeficiente de Determinación R2
según el número de onda del
infrarrojo para predicción de metano en intervalos de 100cm-1
. Fuente: Los Autores (2010)
Para cada uno de los intervalos representado en la figura 43 se determino las medidas de
desviación así como el estadístico F (cuadrado de la relación de la raíz de la media de los
cuadrados de los valores obtenidos por PLS “stdy” con respecto a la raíz de la media de los
cuadrados del error “desvpred”) tal como se presenta en la Tabla 5.
Tabla 5 Comportamiento estadístico de Metano desde el intervalo 37 al 44 por PLS
Fuente: Los Autores (2010)
Propiedad Intervalo Numero de onda (cm-1) desvpred stdy F R2
Metano
37 3871,26 a 3967,7 1,1867 1,7689 2,222 0,5733
38 3967,70 a 4064,1 1,2625 1,7689 1,9631 0,545
39 4064,15 a 4160,5 0,8413 1,7689 4,4208 0,7819
40 4160,59 a 4257,3 1,2264 1,7689 2,0803 0,6049
41 4257,03 a 4353,42 1,0313 1,7689 2,942 0,686
42 4353,48 a 4449,9 1,1227 1,7689 2,4824 0,6278
43 4449,92 a 4546,32 1,558 1,7689 1,2892 0,3424
44 4546,37 a 4642,82 1,0582 1,7689 2,7942 0,6444
Analizando de forma individual los intervalos seleccionados en la región cercana para la
composición de metano se observan rangos de valores del estadístico F (por debajo de 4) y R2
(distantes de 1) con poco potencial para realizar una buena predicción. En función de esto, se
amplía la magnitud de los intervalos de 100 a 400cm-1
124
- Selección de intervalos cada 400cm-1
en el número de onda por el método PLS con LOOCV
La figura 44 (a) y (b) es similar a la figura 43 (a) y (b), la diferencia básicamente es la
magnitud del intervalo (400cm-1
)
se presenta la medida adimensional coeficiente de
determinación R2 en función del número de onda (cm
-1), en la misma se observa diferentes
puntos (recuadros azules) en intervalos en este caso la región espectral segmento en 12 intervalos
según el numero de onda, la señalización del cuadro verde agrupa intervalos de la región cercana.
0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Numero de onda (cm-1)
R2
(a) (b)
0 1000 2000 3000 4000 50000.5
1
1.5
2
2.5
3
3.5
4
4.5
Numero de onda (cm-1)
F
Figura 44(a) Dispersión del Estadístico F según el número de onda del infrarrojo para predicción de metano en
intervalos de 400cm-1
y 44 (b) Dispersión del Coeficiente de Determinación R2
según el número de onda del
infrarrojo para predicción de metano en intervalos de 400cm-1
. Fuente: Los Autores (2010)
Tabla 6 Comportamiento estadístico de Metano para el intervalo 10 y 11 por PLS
Fuente: Los Autores (2010)
Propiedad Intervalo Numero de onda (cm-1) desvpred stdy F R2
Metano 10 3871,26 a 4257,04 0,9102 1,7689 3,7773 0,7546
11 4257,04 a 4642,81 0,8504 1,7689 4,3271 0,777
La tabla 6 presenta en detalle la magnitud de los parámetros estadísticos en relación a los
intervalos estimados cada 100cm-1
, el coeficiente de determinación R2 presenta una mayor
correlación entre las variables así como el estadístico F presenta una mayor relación entre los
valores de desviación estimados, determinando con esto mejores medidas de ajuste del modelo
aplicado.
125
Selección de Regiones para la predicción de Etano Mas
- Selección de intervalos para etano mas, cada 100cm-1
en el número de onda por el método
PLS con LOOCV
Lo explicado anteriormente, conserva validez en este caso la selección de intervalos para
estimar la región optima para predicción de etanos y más pesados. La figura 45 representa las
medidas de los parámetros estadísticos F y R2 de los 45 intervalos medidos cada 100cm
-1 en el
espectro.
0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Numero de onda (cm-1)
R2
0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000.5
1
1.5
2
2.5
3
Numero de onda (cm-1)
F
(a) (b)
Figura 45 (a) Dispersión del Estadístico F según el número de onda del infrarrojo para predicción de etano mas en
intervalos de 100cm-1
y 45 (b) Dispersión del Coeficiente de Determinación R2
según el número de onda del
infrarrojo para predicción de etano mas en intervalos de 100cm-1
. Fuente: Los Autores (2010)
Tabla 7 Comportamiento estadístico de etano mas desde el intervalo 37 al 44 por PLS
Fuente: Los Autores (2010)
Propiedad Intervalo Numero de onda (cm-1) desvpred stdy F R2
Etano mas
37 3871,26 a 3967,7 1,123 1,6844 2,2496 0,5753
38 3967,70 a 4064,1 1,3793 1,6844 1,4913 0,4317
39 4064,15 a 4160,5 0,9779 1,6844 2,9667 0,694
40 4160,59 a 4257,3 1,1278 1,6844 2,2308 0,6483
41 4257,03 a 4353,42 1,4954 1,6844 1,2688 0,4312
42 4353,48 a 4449,9 1,101 1,6844 2,3405 0,6101
43 4449,92 a 4546,32 1,6128 1,6844 1,0908 0,2385
44 4546,37 a 4642,82 1,1526 1,6844 2,1357 0,5426
126
En la tabla 7 se observan las medidas de desviación de los parámetros, así los valores del
estadístico F no dan una buena medida de ajuste (muy debajo de 4), los valores de R2
indican una
moderada correlación del modelo para la regresión lineal. En función de esto, haciendo uso del
algoritmo se aumenta la magnitud de los intervalos, a 400 cm-1
resultado así 12 intervalos, tal
como se muestra en la figura 46 con valores máximos obtenidos en la región cercana (ver tabla
8).
0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Numero de onda (cm-1)
R2
(a) (b)
0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000.5
1
1.5
2
2.5
3
3.5
4
4.5
Numero de onda (cm-1)
F
Figura 46 (a) Dispersión del Estadístico F según el número de onda del infrarrojo para predicción de etano mas en
intervalos de 400cm-1
y 46 (b) Dispersión del Coeficiente de Determinación R2
según el número de onda del
infrarrojo para predicción de etano mas en intervalos de 400cm-1
. Fuente: Los Autores (2010)
Tabla 8 Comportamiento estadístico de etano mas para el intervalo 10 y 11 por PLS
Fuente: Los Autores (2010)
Propiedad Intervalo Numero de onda (cm-1) desvpred stdy F R2
Etano Mas
10 3871,26 a 4257,04 0,8035 1,6844 4,3946 0,7844
11 4257,04 a 4642,81 1,1317 1,6844 2,2152 0,6188
De lo anteriormente explicado, se deduce que en cuanto a la selección de intervalos para la
predicción de composición de gas asociado (metano y etano mas) aplicando el modelo de
mínimos cuadrados parciales con validación cruzada “Leave one out” es viable el criterio de
agrupar los intervalos, esto lo sustenta las figuras 44 y 46 (a) así como 44 y 46 (b), en donde se
demuestra la validez del criterio en cuanto a la selección de intervalos en la región comprendida
desde 3871,26cm-1
hasta 4642,81cm-1
, para la predicción de composición metano y etano mas.
127
Selección de Región para la predicción de Propiedades
En cuanto a la selección de regiones para la predicción de propiedades de gas asociado, en la
literatura no existen criterios sustentados sobre cual determina una mejor regresión lineal del
modelo, sin embargo se realizaron ensayos para determinar parámetros estadísticos con
desviaciones mínimas, valores del estadístico F superior a 4 y coeficiente de determinación
cercanos a 1, para determinar una medida de la bondad de ajuste por el modelo mínimos
cuadrados parciales (PLS) con validación cruzada “Leave one out” a través de la unión de varios
intervalos con resultados poco satisfactorios.
Por lo tanto, la selección se determino haciendo de este criterio estadístico haciendo uso del
intervalo con mayores valores de F y R2, siendo estos los parámetros que miden con mejor
certeza el ajuste del modelo así como la capacidad de correlación entre la propiedad a predecir
(Peso Molecular Promedio, Valor Calorífico Neto, Valor calorífico Total, Densidad Relativa y
Viscosidad) con los datos obtenidos por espectroscopia de absorción en el infrarrojo. Estas
medidas se obtuvieron con intervalos de 100cm-1
; esto se debe a que si se considerase esta
investigación para implantar en operaciones en "tiempo real", las mediciones en la región
mediana y cercana debieran tomar sólo unos pocos segundos. Al usarse un rango espectral
reducido se permitiría el uso de espectrómetros mucho más pequeños, más rápidos y de menor
precio.
128
- Peso Molecular Promedio
0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Numero de onda (cm-1)
R2
0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000.5
1
1.5
2
2.5
3
3.5
4
4.5
5
Numero de onda (cm-1)
F
(a) (b)
Figura 47 (a) Dispersión del Estadístico F según el número de onda del infrarrojo para predicción de peso molecular
promedio en intervalos de 100cm-1
y 47 (b) Dispersión del Coeficiente de Determinación R2
según el número de
onda del infrarrojo para predicción de peso molecular promedio en intervalos de 100cm-1
. Fuente: Los Autores
(2010)
En la figura 47 (a) se presentan los 45 intervalos que abarca la totalidad de la región espectral
medida, el máximo valor del Estadístico F (encerrado en ovalo verde) así como el máximo valor
de R2 en la figura 47 (b), ambos ubicados en el intervalo 37. Las especificaciones sobre estos se
encuentran detallados en la tabla que se presenta a continuación:
Tabla 9 Comportamiento estadístico de peso molecular promedio en el intervalo 37 por PLS
Fuente: Los Autores (2010)
Propiedad Intervalo Numero de onda (cm-1) desvpred stdy F R2
Peso Molecular Promedio
37 3871,26 a 3967,7 0,3199 0,6791 4,507 0,7817
Las medidas de desviación son mínimas (desvpred y stdy), en consecuencia los parámetros
estadísticos F y R2 ofrecen una buena medida de ajuste por el modelo de PLS con validación
cruzada “Leave one out”. La data de espectros de las muestras en este número de onda será
aplicada como una buena región para la predicción.
129
- Valor Calorífico Neto
0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Numero de onda (cm-1)
R2
0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000
1
2
3
4
5
6
7
Numero de onda (cm-1)
F
(a) (b)
Figura 48 (a) Dispersión del Estadístico F según el número de onda del infrarrojo para predicción de valor calorífico
neto en intervalos de 100cm-1
y 48 (b) Dispersión del Coeficiente de Determinación R2
según el número de onda del
infrarrojo para predicción de valor calorífico neto en intervalos de 100cm-1
. Fuente: Los Autores (2010)
En la figura 48 (a) se presenta la dispersión de valores obtenidos del estadístico F en los
intervalos, bajo el criterio de selección del máximo valor representado, por ambos parámetros
estadísticos, ver figura 48 (b), se hace selecciona el intervalo 37 ubicado entre 3871,26 a 3967,7
cm-1
(región mediana), en ambas figuras marcado con el ovalo verde, pues brinda certeza de
ajuste del modelo.
Tabla 10 Comportamiento estadístico de valor calorífico neto en el intervalo 37 por PLS
Fuente: Los Autores (2010)
Propiedad Intervalo Numero de onda (cm-1) desvpred stdy F R2
Valor Calorífico
Neto 37 3871,26 a 3967,7 13,5452 33,4885 6,1125 0,837
En este intervalo en relación de la magnitud medida de los valores caloríficos, las
desviaciones medidas son relativamente bajas, por lo que el cuadrado de la relación de estas
medidas muestran una buena bondad de ajuste del modelo, atendiendo el caso de que son
muestras multicomponentes de gas natural.
130
- Valor Calorífico Total
0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Numero de onda (cm-1)
R2
0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000
1
2
3
4
5
6
7
Numero de onda (cm-1)
F
(a) (b)
Figura 49 (a) Dispersión del Estadístico F según el número de onda del infrarrojo para predicción de valor calorífico
total en intervalos de 100cm-1
y 49 (b) Dispersión del Coeficiente de Determinación R2
según el número de onda del
infrarrojo para predicción de valor calorífico total en intervalos de 100cm-1
. Fuente: Los Autores (2010)
En la figura 49 (a) se presenta el estadístico F en los intervalos que cubren la totalidad de
Absorbancia en el numero de onda, el máximo estimado en el intervalo 37 de 6,146 y el
coeficiente de determinación ver figura 49 (b), con un valor estimado de 0,838 (tabla 11) con
errores de desviación mínimos, (considerando la magnitud los datos medidos en cuanto a valor
calorífico se refiere) correspondiente al mismo ubicado entre 3871,26 a 3967,7 cm-1
(región
mediana), en ambas figuras marcado con el ovalo verde, ambos parámetros evalúan el modelo
PLS, por los valores obtenidos se presenta un buen ajuste del modelo.
Tabla 11 Comportamiento estadístico de valor calorífico total en el intervalo 37 por PLS
Fuente: Los Autores (2010)
Propiedad Intervalo Numero de onda (cm-1) desvpred stdy F R2
Valor Calorífico
Total 37 3871,26 a 3967,7 14,4847 35,91 6,146 0,838
131
- Densidad relativa
0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Numero de onda (cm-1)
R2
0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000.5
1
1.5
2
2.5
3
3.5
4
4.5
5
Numero de onda (cm-1)
F
(a) (b)
Figura 50 (a) Dispersión del Estadístico F según el número de onda del infrarrojo para predicción de densidad
relativa en intervalos de 100cm-1
y 50 (b) Dispersión del Coeficiente de Determinación R2
según el número de onda
del infrarrojo para predicción de densidad relativa en intervalos de 100cm-1
. Fuente: Los Autores (2010)
De la Figura 50 (a) y (b), se deduce la selección de los parámetros estadísticos F y R2
obteniendo puntos máximos de medición en el intervalo 37, en correspondencia con las
propiedades anteriormente analizadas, para la densidad relativa se determinan valores de
desviación mínimos (ver Tabla 12), en consecuencia los valores de estadístico F señala una
buena medida de ajuste del modelo así como el coeficiente determinación 0,781 señala una buena
correlación entre la data espectral del intervalo con la propiedad a predecir “densidad relativa”.
Tabla 12 Comportamiento estadístico de la densidad relativa en el intervalo 37 por PLS
Fuente: Los Autores (2010)
Propiedad Intervalo Numero de onda (cm-1) desvpred stdy F R2
Densidad relativa
37 3871,26 a 3967,7 0,0111 0,023 4,502 0,781
132
- Viscosidad
0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Numero de onda (cm-1)
R2
0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000.5
1
1.5
2
2.5
3
Numero de onda (cm-1)
F
(a) (b)
Figura 51 (a) Dispersión del Estadístico F según el número de onda del infrarrojo para predicción de viscosidad en
intervalos de 100cm-1
y 51 (b) Dispersión del Coeficiente de Determinación R2
según el número de onda del
infrarrojo para predicción de viscosidad en intervalos de 100cm-1
. Fuente: Los Autores (2010)
En la figura 51 (a) y (b) se presentan los máximos valores de F en el intervalo 30 muy por
debajo del establecido aun cuando el coeficiente de determinación R2 todavía está en un límite
aceptable, es de destacar que no siempre un alto coeficiente de determinación determina una
buena capacidad predictiva, el modelo de mínimos cuadrados parciales es un modelo de
calibración que utiliza la variable latente ubicada en el error mínimo, un sobreajuste producido al
utilizar gran cantidad de variables latentes da lugar a una pobre capacidad predictiva, en este caso
en particular se evidencia por un bajo estadístico F (ver tabla 13), debido a esto se considera el
modelo PLS con LOOCV no adecuado para la predicción de viscosidad como propiedad.
Tabla 13 Comportamiento estadístico de viscosidad en el intervalo 30 por PLS
Fuente: Los Autores (2010)
Propiedad Intervalo Numero de onda (cm-1) desvpred stdy F R2
Viscosidad 30 3196,15 a 3292,59 0,0002 0,0003 2,766 0,6473
133
4.3.2 Selección de regiones de número de onda para el modelo Regresión Bayesiana Lineal
Selección de Regiones para la predicción de Metano
Bajo el mismo criterio explicado en la selección de regiones para la predicción de Metano por
el Modelo PLS, se seleccionaron diferentes intervalos, específicamente cada 100cm-1
y cada
400cm-1
en toda la región del espectro, para evaluar a través de los parámetros estadísticos
(desviaciones, F y R2) cuales son los intervalos de interés para aplicar el algoritmo de predicción
por Regresión Bayesiana Lineal.
En este sentido, se presentaran a continuación los resultados obtenidos para la selección de
intervalos en el espectro para metano y etano mas. Posteriormente se realizara la interpretación y
análisis de las figuras y tablas presentadas.
- Selección de intervalos para metano, cada 100cm-1
en el número de onda por el método de
Regresión Bayesiana Lineal (Linear GNBR) con LOOCV
La figura 52(a) muestra los valores obtenidos del estadístico F con respecto a los valores de
número de onda (cm-1
), en esta figura se observa para cada uno de los intervalos de 100cm-1
de
toda la región espectral los valores de F, que indican cuales son los valores más altos para la
selección de la región a estudiar que presentan mejores posibilidades de predicción, estos son los
valores de F que se encuentran seleccionados con un recuadro color verde en la figura.
134
0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Numero de onda (cm-1)
R2
0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000
0.5
1
1.5
2
2.5
3
Numero de onda (cm-1)
F
(a) (b)
Figura 52 (a) Dispersión del Estadístico F según el número de onda del infrarrojo para predicción de metano para el
modelo GNBR en intervalos de 100cm-1
y 52 (b) Dispersión del Coeficiente de Determinación R2
según el número
de onda del infrarrojo para predicción de metano para el modelo GNBR en intervalos de 100cm-1
. Fuente: Los
Autores (2010).
Tabla 14 Comportamiento estadístico de metano desde el intervalo 37 a 44 por GNBR.
Fuente: Los Autores (2010)
Propiedad Intervalo Numero de onda (cm-1) desvpred stdy F R2
Metano
37 3871,26 a 3967,7 1,0456 1,7689 2,862 0,6517
38 3967,70 a 4064,1 1,7493 1,7689 1,0226 0,1412
39 4064,15 a 4160,5 1,0296 1,7689 2,9517 0,6665
40 4160,59 a 4257,3 1,8353 1,7689 0,929 0,1401
41 4257,03 a 4353,42 1,3989 1,7689 1,599 0,443
42 4353,48 a 4449,9 1,1926 1,7689 2,2 0,548
43 4449,92 a 4546,32 1,8581 1,7689 0,9064 0,0351
44 4546,37 a 4642,82 1,8091 1,7689 0,9561 0,038
En la tabla 14 se muestran los resultados obtenidos para cada uno de los intervalos
seleccionados del estadístico F, así como también los del coeficiente de determinación R2, en este
rango de intervalos es donde se observaron los mejores valores de F y R2 que brindan la mejor
predicción para el componente metano, analizando de manera independiente estos resultados se
observa que están por debajo de los valores limites de predicción de estas variables indicativas.
135
- Selección de intervalos para metano, cada 400cm-1 en el número de onda por el método de
Regresión Bayesiana Lineal (Linear GNBR) con LOOCV.
0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Numero de onda (cm-1)
R2
0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000
0.5
1
1.5
2
2.5
3
Numero de onda (cm-1)
F
(a) (b)
Figura 53 (a) Dispersión del Estadístico F según el número de onda del infrarrojo para predicción de metano para el
modelo GNBR en intervalos de 400cm-1
y 53 (b) Dispersión del Coeficiente de Determinación R2
según el número
de onda del infrarrojo para predicción de metano para el modelo GNBR en intervalos de 400cm-1
. Fuente: Los
Autores (2010).
La figura 53 (b) representa los valores graficados del coeficiente de determinación R2 con
respecto al número de ondas, este valor de R2 para cada intervalo de numero de onda de 400cm
-1
en la figura se seleccionan los mismos intervalos seleccionados cada 100cm-1
(de 3871 a 4642
cm-1
), demostrando que la zona seleccionada, indicando así que esta unión de intervalos
determina las medidas de desviación e incrementa los parámetros estadísticos, justificando así la
mejor zona para hacer la predicción del componente a analizar y como estos valores son un
promedio de las regiones muestra valores más estables del coeficiente de determinación R2
aunque todavía un poco bajo con respecto a los valores límite aceptables para estas variables,
esto se puede ver en detalle en la tabla 15
Tabla 15 Comportamiento estadístico de metano en los intervalos 10 y 11 por GNBR.
Fuente: Los Autores (2010)
Propiedad Intervalo Numero de onda (cm-1) desvpred stdy F R2
Metano 10 3871,26 a 4257,04 1,0741 1,7689 2,7125 0,6321
11 4257,04 a 4642,81 1,0628 1,7689 2,7702 0,6537
136
Selección de Región para la predicción de Etano Mas
- Selección de intervalos para etano mas, cada 100cm-1
en el número de onda por el método de
Regresión Bayesiana Lineal (Linear GNBR) con LOOCV
En este caso para la selección de regiones del etano mas se tomaron las mismas
consideraciones que se hicieron para el metano, la grafica muestra los valores del estadístico F y
del coeficiente de determinación con respecto al número de ondas para cada uno de los intervalos
da la región espectral, haciéndose el mismo señalamiento de estas regiones como se observa en la
figura 54(a y b)
0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Numero de onda (cm-1)
R2
0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000
0.5
1
1.5
2
2.5
3
Numero de onda (cm-1)
F
(a) (b)
Figura 54 (a) Dispersión del Estadístico F según el número de onda del infrarrojo para predicción de etano mas para
el modelo GNBR en intervalos de 100cm-1
54 (b) Dispersión del Coeficiente de Determinación R2
según el número
de onda del infrarrojo para predicción de etano mas para el modelo GNBR en intervalos de 100cm-1
. Fuente: Los
Autores (2010)
En la tabla 16 se pueden observar con mayor detalle los resultados que arroja el algoritmo de
selección de regiones para las variables de F y R2, y a pesar de que estos valores pueden ser muy
bajos con respecto a los valores requeridos (F menores de 4 y R2 muy por debajo de 1), es el
rango de regiones que indican mayores posibilidades de predicción.
137
Tabla 16 Comportamiento estadístico de etano mas en los intervalos 37 a 44 por GNBR.
Fuente: Los Autores (2010)
Propiedad Intervalo Numero de onda (cm-1) desvpred stdy F R2
Etano mas
37 3871,26 a 3967,7 1,0936 1,6844 2,3725 0,5796
38 3967,70 a 4064,1 1,8275 1,6844 0,8496 0,0211
39 4064,15 a 4160,5 1,0968 1,6844 2,3587 0,593
40 4160,59 a 4257,3 2,0091 1,6844 0,7029 0,0285
41 4257,03 a 4353,42 1,9031 1,6844 0,7834 0,042
42 4353,48 a 4449,9 1,4736 1,6844 1,3065 0,2896
43 4449,92 a 4546,32 1,8963 1,6844 0,789 0,0077
44 4546,37 a 4642,82 1,752 1,6844 0,9243 0,0004
En la tabla 17, se observa un incremento en los parámetros estadísticos medidos en
intervalos cada 400cm-1
, con respecto a las medidas obtenidas cada 100cm-1
(tabla 16), como se
observa en la figura 55, los puntos que se encuentran seleccionados con un circulo verde
muestran la mejor posibilidad de predicción, esto demuestra que la región seleccionada en
ambos casos es la región cercana, donde se obtienen los mejores valores de F y R2 para la
selección de estas regiones a aplicar en el modelo de predicción.
0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Numero de onda (cm-1)
R2
0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000
0.5
1
1.5
2
2.5
3
Numero de onda (cm-1)
F
(a) (b)
Figura 55 (a) Dispersión del Estadístico F según el número de onda del infrarrojo para predicción de etano mas para
el modelo GNBR en intervalos de 400cm-1
y 55 (b) Dispersión del Coeficiente de Determinación R2
según el
número de onda del infrarrojo para predicción de etano mas para el modelo GNBR en intervalos de 400cm-1
.
Fuente: Los Autores (2010)
Tabla 17 Comportamiento estadístico de etano mas en los intervalos 10 y 11 por GNBR.
Fuente: Los Autores (2010)
Propiedad Intervalo Numero de onda (cm-1) desvpred stdy F R2
Etano Mas
10 3871,26 a 4257,04 0,981 1,6844 2,9484 0,661
11 4257,04 a 4642,81 1,2624 1,6844 1,7803 0,479
138
Selección de regiones para la predicción de propiedades
- Peso Molecular Promedio
En la siguiente figura 56, se presentan los resultados obtenidos para el peso molecular
promedio, se puede observar que dentro de toda la longitud de onda del espectro sobresale un
valor tanto del parámetro estadístico F como del coeficiente de determinación R2
(figura 56 a y
b), estos valores indican que esa región que está entre 3581 y 3678cm-1
para ambas variables, es
donde se puede obtener la mejor predicción.
0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Numero de onda (cm-1)
R2
0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000
0.5
1
1.5
2
2.5
3
3.5
4
Numero de onda (cm-1)
F
(a) (b)
Figura 56 (a) Dispersión del Estadístico F según el número de onda del infrarrojo para predicción de peso molecular
promedio para el modelo GNBR en intervalos de 100cm-1
y 56 (b) Dispersión del Coeficiente de Determinación R2
según el número de onda del infrarrojo para predicción de peso molecular promedio para el modelo GNBR en
intervalos de 100cm-1
. Fuente: Los Autores (2010)
Los resultados de esta selección de región están en la tabla 18, los parámetros estadísticos
determinan una desviación y una correlación importante que pueda representar una poca
capacidad predictiva del modelo de regresión bayesiana.
Tabla 18 Comportamiento estadístico de peso molecular promedio en el intervalo 34 por GNBR
Fuente: Los Autores (2010)
Propiedad Intervalo Numero de onda (cm-1) desvpred stdy F R2 Peso
Molecular Promedio
34 3581,93 a 3678,37 0,35097 0,679086 3,74376 0,733369
139
- Valor Calorífico Neto
En la figura 57 se muestran los resultados para la selección del Valor Calorífico Neto,
tomando el valor más alto de las variables como se ha hecho en los casos anteriores y como se ha
observado en la selección de todas las propiedades se encuentra ubicado en el rango en la región
media del espectro. En la figura 57 (b) se puede observar un valor del coeficiente de
determinación que es igual a la unidad lo que implica en este caso un sobreajuste del modelo para
esa región en particular por lo que se omite al momento de la selección de la región.
0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000
0.5
1
1.5
2
2.5
3
3.5
Numero de onda (cm-1)
F
0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Numero de onda (cm-1)
R2
(a) (b)
Figura 57 (a) Dispersión del Estadístico F según el número de onda del infrarrojo para predicción de valor calorífico
neto para el modelo GNBR en intervalos de 100cm-1
y 57 (b) Dispersión del Coeficiente de Determinación R2
según el número de onda del infrarrojo para predicción de valor calorífico neto para el modelo GNBR en intervalos
de 100cm-1
. Fuente: Los Autores (2010)
Tabla 19 Comportamiento estadístico de valor calorífico neto en el intervalo 36 por GNBR
Fuente: Los Autores (2010)
Propiedad Intervalo Numero de onda (cm-1) desvpred stdy F R2 Valor
Calorífico Neto
36 3774,81 a 3871,26 19,1547 33,4885 3,0566 0,6762
En la tabla 19 se observa con detalle las longitudes de onda donde se obtiene el valor con
mayor probabilidad de predicción aunque el valor de F y R2 estén por debajo de los valores
deseados, lo que da a entender que los valores suministrados al modelo para las 23 muestras
analizadas no se ajustan a la obtención de una optima capacidad predictiva.
140
- Valor Calorífico Total
En la figura 58 se muestran los resultados esta vez para la selección del Valor Calorífico
Total, caso similar al anterior se toma el valor más alto de los parámetros estadísticos. En la
figura 58 (b) se puede observar el mismo caso donde un valor del coeficiente de determinación es
igual a la unidad esto implica que existe un sobreajuste del modelo para esta región en particular
por lo que se omite al momento de la selección de la región. En la tabla 20 se observa que las
medidas de desviación son cantidades típicas de las magnitudes en las que se presenta esta
propiedad (entre 1000 y 1200Btu/Pcn gas seco) los parámetros estadísticos están moderadamente
por debajo de lo debido a pesar de que es la mejor región con valores más altos de F y R2 su
ajuste es poco significativo al modelo de selección.
0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000
0.5
1
1.5
2
2.5
3
3.5
Numero de onda (cm-1)
F
0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Numero de onda (cm-1)
R2
(a) (b)
Figura 58 (a) Dispersión del Estadístico F según el número de onda del infrarrojo para predicción de valor calorífico
total para el modelo GNBR en intervalos de 100cm-1
y 58 (b) Dispersión del Coeficiente de Determinación R2
según el número de onda del infrarrojo para predicción de valor calorífico total para el modelo GNBR en intervalos
de 100cm-1
. Fuente: Los Autores (2010)
Tabla 20 Comportamiento estadístico de valor calorífico total en el intervalo 36 por GNBR
Fuente: Los Autores (2010)
Propiedad Intervalo Numero de onda (cm-1) desvpred stdy F R2 Valor
Calorífico Total
36 3774,81 a 3871,26 20,5778 35,909 3,0452 0,675
141
- Densidad relativa
En la figura 59 el valor más alto de F y R2 se encuentran ubicados en una longitud de onda
entre 3581 y 3678cm-1
, seleccionados de entre las 45 intervalos en las regiones del espectro como
la mejor medida de ajuste al modelo de predicción, en esta propiedad en particular los parámetros
estadísticos se acercan más a los valores que se requieren para una buena predicción de la esta
propiedad, estos resultados se observan en la tabla 21 donde se muestran valores de F cercanos a
4 y de R2 cercanos a 1.
0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Numero de onda (cm-1)
R2
0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000
0.5
1
1.5
2
2.5
3
3.5
4
Numero de onda (cm-1)
F
(a) (b)
Figura 59 (a) Dispersión del Estadístico F según el número de onda del infrarrojo para predicción de densidad
relativa para el modelo GNBR en intervalos de 100cm-1
y 59 (b) Dispersión del Coeficiente de Determinación R2
según el número de onda del infrarrojo para predicción de densidad relativa para el modelo GNBR en intervalos de
100cm-1
. Fuente: Los Autores (2010)
Tabla 21 Comportamiento estadístico de densidad relativa en el intervalo 34 por GNBR
Fuente: Los Autores (2010)
Propiedad Intervalo Numero de onda (cm-1) desvpred stdy F R2 Densidad relativa
34 3581,93 a 3678,37 0,012 0,0234 3,8136 0,7382
142
- Viscosidad
En la figura 60 se señala el intervalo 25 que corresponde a las longitudes de onda que están
entre 2712 y 2810cm-1
ubicado en la región mediana como el seleccionado para aplicar el
algoritmo de predicción, ya que estas presentaron los valores de F y R2 mayores, con la
observación de que no son lo suficiente valores óptimos para concretar una buena predicción,
teniendo valores de F igual a 1.866 y R2 igual 0.4762 como se puede observar en la tabla 22.
Estos valores son lo suficientemente bajos como para descartar la aplicación del algoritmo linear
GNBR para el análisis de esta propiedad (viscosidad) con los datos experimentales
correspondientes a 23 muestras de gas asociado.
0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000.4
0.6
0.8
1
1.2
1.4
1.6
1.8
2
Numero de onda (cm-1)
F
0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Numero de onda (cm-1)
R2
(a) (b)
Figura 60 (a) Dispersión del Estadístico F según el número de onda del infrarrojo para predicción de viscosidad para
el modelo GNBR en intervalos de 100cm-1
y 60 (b) Dispersión del Coeficiente de Determinación R2
según el
número de onda del infrarrojo para predicción de viscosidad para el modelo GNBR en intervalos de 100cm-1
.
Fuente: Los Autores (2010)
Tabla 22 Comportamiento estadístico de viscosidad en el intervalo 34 por GNBR
Fuente: Los Autores (2010)
Propiedad Intervalo Numero de onda (cm-1) desvpred stdy F R2
Viscosidad 25 2712,93 a 2810,37 0,0002 0,0003 1,866 0,4762
143
4.4 Modelos de predicción de propiedades del gas asociado a partir de espectros de
infrarrojo utilizando el algoritmo de Mínimos Cuadrados Parciales (PLS) y Regresión
Bayesiana Lineal (linear-GNBR).
Una vez seleccionados los intervalos en las regiones del espectro por los modelos Mínimos
Cuadrados Parciales y Regresión Bayesiana Lineal ambos por el método de validación Cruzada
“Leave One Out” (LOOCV) y evaluados por las medidas de desviación de los datos, el
estadístico F y el coeficiente de determinación R2 se presentan los resultados obtenidos aplicando
los modelos.
4.4.1 Predicciones por el modelo de Mínimos Cuadrados Parciales (PLS)
Metano
Para la selección de intervalos en cuanto a composición (metano y etano mas) para ambos
modelos (PLS y linear GNBR), se demostró que la unión de intervalos en la región de
espectroscopia cercana (FT-NIR) evaluado por los parámetros estadísticos brinda mejores
criterios de predicción al momento de aplicar los modelos respectivos para predicción con
validación cruzada LOOCV.
En función de esto para la composición de metano, se presenta la figura para predicción de la
composición de metano del conjunto de 23 muestras de gas asociado producidos en el Occidente
del país.
144
90 91 92 93 94 95 96 9790
91
92
93
94
95
96
97
Valor verdadero de metano (% molar)
Valo
r calc
ula
do p
ara
la p
redic
cio
n d
e m
eta
no (
% m
ola
r)
Figura 4.61 Predicción de metano por PLS con LOOCV
Fuente: Los Autores (2010)
La figura 61 presenta el valor verdadero versus el valor calculado por el modelo PLS para los
datos obtenidos de las 23 muestras, en la misma se representa una dispersión homogénea de 23
puntos (corresponden a 23 muestras) alrededor de la línea de 45 grados, línea que representaría
una correlación lineal perfecta R = 1 y por ende la mejor predicción, esta dispersión es normal en
el caso de análisis de muestra de gas natural debido a la complejidad de las mezclas, para este
caso desde metano hasta undecanos con impurezas (trazas mínimas de nitrógeno, dióxido de
carbono y sulfuro de hidrogeno). Las medidas de desviación y parámetros estadísticos F y R2 se
muestran en la tabla 23.
Tabla 23 Comportamiento estadístico de la predicción de metano por PLS
Fuente: Los Autores (2010)
Propiedad Intervalo Numero de onda (cm-1) desvpred stdy F R2
Metano 37 a 44 3871,26 a 4642,82 0,6338 1,769 7,79 0,87165
Se presentan medidas significativas de correlación del modelo con la data obtenida 0,87 así
como una buena medida del estadístico F igual a 7,79 explicando así que el modelo se adapta a
los data espectral indicando una buena tendencia en cuanto a la medición de predicción del
modelo PLS.
145
Etano mas
2 3 4 5 6 7 8 9 102
3
4
5
6
7
8
9
10
Valor verdadero de etano mas (% molar)
Valo
r calc
ula
do p
ara
la p
redic
cio
n d
e e
tano m
as (
% m
ola
r)
Figura 62 Predicción de etano mas por PLS con LOOCV
Fuente: Los Autores (2010)
La figura 62 presenta el modelo de predicción para la composición de etanos y más pesados,
la dispersión mínima de puntos por encima y debajo de la recta de 45 grados de forma
homogénea dan señal de una buena capacidad predictiva del modelo con excepción de algunos
puntos que aun así no restan valor a la buena correlación del modelo con respecto a la data
espectral. Los parámetros estadísticos medidos para el intervalo seleccionado previamente (ver
tabla 24) dan una respuesta satisfactoria del modelo PLS como predictor de la composición del
gas asociado, el estadístico F igual a 8,28 brinda una medida optima de ajuste del modelo así
como el coeficiente de determinación R2 midiendo la capacidad de correlación entre la suma de
los cuadrados del modelo con respecto a la suma de los cuadrados del total (data espectral
medida).
Tabla 24 Comportamiento estadístico de la predicción de etano mas por PLS
Fuente: Los Autores (2010)
Propiedad Intervalo Numero de onda (cm-1) desvpred stdy F R2 Etano mas
37 a 44 3871,26 a 4642,82 0,58505 1,6844 8,2891 0,8822
146
Peso molecular promedio
16.5 17 17.5 18 18.5 19 19.5 2016.5
17
17.5
18
18.5
19
19.5
20
Valor verdadero de peso molecular promedio
Valo
r calc
ula
do p
ara
la p
redic
cio
n d
e p
eso m
ole
cula
r pro
medio
Figura 63 Predicción de peso molecular promedio por PLS con LOOCV
Fuente: Los Autores (2010)
La figura 63 presenta la capacidad de predicción del modelo PLS con validación cruzada
“Leave one out” para la predicción de peso molecular promedio como propiedad del gas natural,
en la misma se representa la distribución de 23 puntos correspondientes al número de muestras y
su desviación con respecto al valor medido para la predicción, con excepción de algunos puntos
dispersos (parte inferior y superior derecha en la figura) el modelo ofrece buena respuesta y
capacidad de predicción, la tabla 25 muestra los parámetros estadísticos que miden la bondad del
ajuste considerando el modelo con predicciones representativas y satisfactorias de correlación
entre la propiedad a predecir peso molecular promedio y la data espectral de las muestras.
Tabla 25 Comportamiento estadístico de la predicción de peso molecular promedio por PLS
Fuente: Los Autores (2010)
Propiedad Intervalo Numero de onda (cm-1) desvpred stdy F R2 Peso
Molecular Promedio
37 3871,26 a 3967,7 0,3198 0,6791 4,5069 0,7816
147
Valor calorífico neto
920 940 960 980 1000 1020 1040 1060 1080 1100 1120920
940
960
980
1000
1020
1040
1060
1080
1100
1120
Valor verdadero de VCN (BTU/PCN)
Valo
r calc
ula
do p
ara
la p
redic
cio
n d
e V
CN
(B
TU
/PC
N)
Figura 64 Predicción de valor calorífico neto por PLS con LOOCV
Fuente: Los Autores (2010)
La figura 64, presenta las medidas verdaderas de valor calorífico neto versus el valor estimado
por el modelo PLS con LOOCV como predictor, la dispersión mínima de los puntos alrededor de
la recta de 45 grados que representa la correlación perfecta (R = 1), da un indicativo de un buen
intervalo seleccionado para la predicción de esta propiedad, la tabla 26 especifica en detalle los
parámetros estadísticos que evalúan la capacidad de predicción del modelo aplicado brindan
medidas satisfactorias de ajuste, en virtud de esto la correlación entre los valores estimados por
el modelo con respecto a las medidas del rango espectral en el numero de onda 3871 a 3967cm-1
dan una buena capacidad de respuestas de predicción del modelo.
Tabla 26 Comportamiento estadístico de la predicción de valor calorífico neto por PLS
Fuente: Los Autores (2010)
Propiedad Intervalo Numero de onda (cm-1) desvpred stdy F R2
Valor Calorífico
Neto 37 3871,26 a 3967,7 13,5452 33,489 6,1126 0,8369
148
Valor calorífico total
1020 1040 1060 1080 1100 1120 1140 1160 1180 1200 12201020
1040
1060
1080
1100
1120
1140
1160
1180
1200
1220
Valor verdadero de VCT (BTU/PCN)
Valo
r calc
ula
do p
ara
la p
redic
cio
n d
e V
CT
(B
TU
/PC
N)
Figura 65 Predicción de valor calorífico total por PLS con LOOCV
Fuente: Los Autores (2010)
En respuesta de la aplicación del modelo PLS con validación cruzada Leave one out, la
figura 65 presenta la dispersión de 23 puntos muéstrales de la propiedad en este caso estudiada
Valor Calorífico Total verdadero con respecto a las medidas obtenidas por el modelo expresada
en unidades (BTU/PCN) dicha distribución se presenta de forma homogénea con excepción de
tres puntos, dos de ellos ubicados en la parte superior de la recta (medio de la figura) y otro en la
parte inferior de la recta (parte superior derecha de la figura) a pesar de ello, la capacidad de
predicción del modelo no se ve disminuido así lo confirma los parámetros estadísticos (ver tabla
27) que evalúan de manera satisfactoria la correlación entre el modelo y la data de espectros en la
región seleccionada aplicando el modelo para la predicción del VCT como propiedad del gas
asociado.
Tabla 27 Comportamiento estadístico de la predicción de valor calorífico total por PLS
Fuente: Los Autores (2010)
Propiedad Intervalo Numero de onda (cm-1) desvpred stdy F R2 Valor
Calorífico Total
37 3871,26 a 3967,7 14,4847 35,91 6,146 0,838
149
Densidad relativa
0.58 0.6 0.62 0.64 0.66 0.68 0.7
0.58
0.6
0.62
0.64
0.66
0.68
0.7
Valor verdadero de densidad relativa
Valo
r calc
ula
do p
ara
la p
redic
cio
n d
ensid
ad r
ela
tiva
Figura 66 Predicción de densidad relativa por PLS con LOOCV
Fuente: Los Autores (2010)
De la figura 66, se deduce una distribución representativa de la propiedad medida (densidad
relativa del gas) correspondiente a las 23 muestras analizadas y la tendencia entre los valores
reales (verdaderos) y los valores medidos en la predicción aplicando el modelo de PLS con
LOOCV. En este sentido la desviación de puntos con respecto a la recta de 45 grados se
intensifica por debajo de 0,65 aproximadamente, en consideración de este alejamiento de la recta
la de predicción del modelo no se ve afectada arrojando parámetros estadísticos favorables en la
aplicación del modelo, tal como se muestra en la tabla 28.
Tabla 28 Comportamiento estadístico de la predicción de densidad relativa por PLS
Fuente: Los Autores (2010)
Propiedad Intervalo Numero de onda (cm-1) desvpred stdy F R2
Densidad relativa
37 3871,26 a 3967,7 0,01105 0,023 4,502 0,781
150
4.4.2 Predicciones por el modelo de Regresión Bayesiana Lineal (Linear GNBR)
Metano
Después de haber seleccionado la mejor región con los valores de F más altos, estos valores de
número de ondas son introducidos en el algoritmo de regresión bayesiana lineal, este da como
resultado la siguiente figura:
90 91 92 93 94 95 96 9789
90
91
92
93
94
95
96
97
Valor verdadero de metano (% molar)
Valo
r calc
ula
do p
ara
la p
redic
cio
n d
e m
eta
no (
% m
ola
r)
Figura 67 Predicción de metano por linear GNBR con LOOCV
Fuente: Los Autores (2010)
La figura 67 muestra el valor verdadero vs el valor calculado. Se observa una dispersión
alrededor de la línea de 45º, con una pequeña dispersión lo que indica que el modelo no se ajusta
completamente a los datos suministrados pero que aun así da una aproximación con buenos
resultados para los valores de predicción con el modelo de Regresión Bayesiana Lineal, los
cuales se muestran en detalles en la tabla 29.
Tabla 29 Comportamiento estadístico de la predicción de metano por linear GNBR
Fuente: Los Autores (2010)
Propiedad Intervalo Numero de onda (cm-1) desvpred stdy F R2
Metano 37 a 44 3871,26 a 4642,81 0,6410 1,7689 7,6153 0,8699
Con un valor del parámetro (F) superior a 4 y un valor del coeficiente de determinación (R2)
mayor de 0.8, esto indica que la predicción del Metano en esta región ubicada en la zona cercana
del espectro es satisfactoria.
151
Etano mas
Para este componente se hizo la selección de región en el infrarrojo cercano en un intervalo de
longitud de onda que está entre (3871 - 4642 cm-1
), haciendo uso del algoritmo de predicción de
Regresión Bayesiana lineal los resultados se muestran en la figura 68.
2 3 4 5 6 7 8 9 102
3
4
5
6
7
8
9
10
Valor verdadero de etano mas (% molar)
Valo
r calc
ula
do p
ara
la p
redic
cio
n d
e e
tano m
as (
% m
ola
r)
Figura 68 Predicción de etano mas por linear GNBR con LOOCV
Fuente: Los Autores (2010)
La figura muestra el valor verdadero vs el valor calculado por el modelo de regresión. Se
observa una dispersión de puntos alrededor de la línea de 45º, con una dispersión mayor a la
obtenida para el metano lo que indica que el modelo se ajusta aun menos a los datos
suministrados y dado que los valores de F y R2 son un poco menores, pero por encima de los
valores limites de predicción para estos parámetros indicativos (ver tabla 30)
Tabla 30 Comportamiento estadístico de la predicción de etano mas por linear GNBR
Fuente: Los Autores (2010)
Propiedad Intervalo Numero de onda (cm-1) desvpred stdy F R2
Etano mas 37 a 44 3871,26 a 4642,81 0,8068 1,6844 4,3582 0,7716
Con un valor del estadístico F superior a 4 y un valor del coeficiente de determinación (R2) de
0.77 esto indica que la predicción del Etano mas en esta región que se encuentra en una longitud
de onda del espectro entre (3871 - 4642 cm-1
) es satisfactoria en la región cercana. Lo que indica
que para la predicción de los componentes del gas natural Metano y Etano mas por el modelo de
linear GNBR, la región cercana del espectro es la más optima al momento de realizar su
predicción.
152
Peso Molecular Promedio
Tomando los valores obtenidos en la selección de regiones para el peso molecular promedio e
introducido en el algoritmo de predicción da como resultado la siguiente figura
16.5 17 17.5 18 18.5 19 19.5 2016.5
17
17.5
18
18.5
19
19.5
20
Valor verdadero de peso molecular promedio
Valo
r calc
ula
do p
ara
la p
redic
cio
n d
e p
eso m
ole
cula
r pro
medio
Figura 69 Predicción de peso molecular promedio por linear GNBR con LOOCV
Fuente: Los Autores (2010)
En la figura 69, se muestra el valor verdadero vs el valor calculado por el modelo para el peso
molecular promedio en (lb/lbmol). Se observa una dispersión de puntos alrededor de la línea de
45º, con una dispersión mayor por debajo de 18,5lb/lbmol, bajo estas condiciones se deduce que
el modelo se ajusta con resultados moderadamente representativos, esta da como resultado que
los valores de F y R2 (ver tabla 31) sean un poco menores a lo esperado, siendo en esta región
seleccionada la que presentaba mejores valores para la predicción.
Tabla 31 Comportamiento estadístico de la predicción de peso molecular promedio por linear GNBR
Fuente: Los Autores (2010)
Propiedad Intervalo Numero de onda (cm-1) desvpred stdy F R2
Peso Molecular Promedio
34 3581,93 a 3678,37 0,35097 0,6791 3,8161 0,7383
Con resultado del estadístico F menor a 4 y un valor del coeficiente de determinación (R2) de
0,73 indica que la predicción del peso molecular promedio en esta región que sería la que mejor
posibilidades de predicción presentaba y que se encuentra en una longitud de onda del espectro
entre (3581 – 3678 cm-1
) es moderadamente satisfactoria atendiendo a la complejidad de las
mezclas de gases.
153
Valor Calorífico Neto
920 940 960 980 1000 1020 1040 1060 1080 1100 1120920
940
960
980
1000
1020
1040
1060
1080
1100
1120
Valor verdadero de VCN (BTU/PCN)
Valo
r calc
ula
do p
ara
la p
redic
cio
n d
e V
CN
(B
TU
/PC
N)
Figura 70 Predicción de valor calorífico neto por linear GNBR con LOOCV
Fuente: Los Autores (2010)
En la figura 70 se muestra el valor verdadero vs el valor calculado por el modelo para la
propiedad en este caso analizada Valor Calorífico Neto del conjunto de 23 muestras. Se observa
una dispersión de puntos alrededor de la línea de 45º, con algunos puntos extremos de dispersión
a la derecha y parte intermedia superior de la figura, indicativo de que el modelo resulta
influenciado por estos puntos extremos, pese a esto resulta un ajuste significativo de correlación a
los datos reales suministrados en la región seleccionada entre (3747 – 3871cm-1
).
Tabla 32 Comportamiento estadístico de la predicción de valor calorífico neto por linear GNBR
Fuente: Los Autores (2010)
Propiedad Intervalo Numero de onda (cm-1) desvpred stdy F R2
Valor Calorífico
Neto
36 3774,81 a 3871,37 19,6072 33,4885 3,0566 0,6762
154
Valor Calorífico Total
1020 1040 1060 1080 1100 1120 1140 1160 1180 1200 12201020
1040
1060
1080
1100
1120
1140
1160
1180
1200
1220
Valor verdadero de VCT (BTU/PCN)
Valo
r calc
ula
do p
ara
la p
redic
cio
n d
e V
CT
(B
TU
/PC
N)
Figura 71 Predicción de valor calorífico total por linear GNBR con LOOCV
Fuente: Los Autores (2010)
En la figura 71 se muestra el valor verdadero vs el valor calculado por el modelo linear GNBR
para el Valor Calorífico Total. En la misma, se encuentra una distribución de puntos alrededor de
la línea de 45º, con una dispersión evidente para el Valor Calorífico Total con puntos extremos a
la derecha y en la parte intermedia, esto puede resultar influenciando al modelo en el incremento
de la desviación de los datos medidos, lo que indica que el modelo no se está ejecutando una
optima correlación de los datos suministrados, esta da como resultado que los valores de F y R2
sean menores a lo esperado, siendo en esta región escogida la que presentaba mejores valores
para la predicción, las variables estadísticas indican una moderada correlación R2 y un baja
relación entre la media de los cuadrados del modelo con respecto a la media de los cuadrados del
error (F = 3,0452)
Tabla 33 Comportamiento estadístico de la predicción de valor calorífico total por linear GNBR
Fuente: Los Autores (2010)
Propiedad Intervalo Numero de onda (cm-1) desvpred stdy F R2
Valor Calorífico
Total 36 3774,81 a 3871,26 21,0653 35,909 3,0452 0,6750
155
Densidad relativa
0.58 0.6 0.62 0.64 0.66 0.68 0.7
0.58
0.6
0.62
0.64
0.66
0.68
0.7
Valor verdadero de densidad relativa
Valo
r calc
ula
do p
ara
la p
redic
cio
n d
e d
ensid
ad r
ela
tiva
Figura 72 Predicción de densidad relativa por linear GNBR con LOOCV
Fuente: Los Autores (2010)
En la figura 72 se muestra el valor verdadero vs el valor calculado por el modelo linear
GNBR para la densidad relativa. Se representa una distribución de puntos alrededor de la línea de
45º, con una desviación mínima de los datos medidos, dispersión parcial por encima y debajo de
la recta con la influencia de algunos puntos extremos a la derecha y la parte superior derecha, lo
que indica que el modelo se está ajustando a los datos suministrados aun cuando los parámetros
estadísticos de F y R2 sean menores a lo esperado, el modelo se correlaciona la propiedad medida
densidad relativa con respecto a la data espectral, los valores se muestran en la tabla 34.
Tabla 34 Comportamiento estadístico de la predicción de densidad relativa por linear GNBR
Fuente: Los Autores (2010)
Propiedad Intervalo Numero de onda (cm-1) desvpred stdy F R2
Densidad relativa
34 3581,93 a 3678,37 0,0121 0,0234 3,8136 0,7382
156
4.5 Análisis comparativo de los resultados obtenidos por el modelo de Mínimos Cuadrados
Parciales (PLS) y Regresión Bayesiana Lineal (Linear-GNBR).
Una tabla comparativa de los parámetros estadísticos que evalúan la bondad de ajuste de los
modelos aplicados sirve de instrumento para resaltar las diferencias entre ellos. Un resumen de
los resultados obtenidos de los modelos PLS Y Linear GNBR con validación cruzada Leave One
Out (LOOCV) se muestra en la tabla 35.
Modelo Propiedad desvpred stdy F R2
PLS
Metano 0,6338 1,769 7,79 0,87165
Etano mas 0,58505 1,6844 8,2891 0,8822
Peso Molecular Promedio
0,3198 0,6791 4,5069 0,7816
Valor Calorífico
Neto 13,5452 33,489 6,1126 0,8369
Valor Calorífico
Total 14,4847 35,91 6,146 0,838
Densidad relativa
0,01105 0,023 4,502 0,781
Linear GNBR
Metano 0,641 1,7689 7,6153 0,8699
Etano mas 0,8068 1,6844 4,3582 0,7716
Peso Molecular Promedio
0,35097 0,6791 3,8162 0,7383
Valor Calorífico
Neto 19,6072 33,4885 3,0566 0,6762
Valor Calorífico
Total 21,0653 35,909 3,0452 0,6750
Densidad relativa
0,0121 0,0234 3,8136 0,7382
Tabla 35 Comportamiento estadístico de predicción de composición y propiedades por PLS y linear GNBR
Fuente: Los Autores (2010)
157
0,6338 0,58505 0,3198
13,545214,4847
0,011050,641 0,8068 0,35097
19,6072
21,0653
0,012100,04423710,08847430,13271140,17694850,22118570,26542280,30965990,3538970,39813420,44237130,48660840,53084560,57508270,61931980,6635570,70779410,75203120,79626830,84050550,88474260,92897970,97321691,0174541,06169111,10592831,15016541,19440251,23863961,28287681,32711391,3713511,41558821,45982531,50406241,54829961,59253671,63677381,68101091,72524811,76948521,81372231,85795951,90219661,94643371,99067092,0349082,07914512,12338222,16761942,21185652,25609362,30033082,34456792,3888052,43304222,47727932,52151642,56575352,60999072,65422782,69846492,74270212,78693922,83117632,87541352,91965062,96388773,00812483,0523623,09659913,14083623,18507343,22931053,27354763,31778483,36202193,4062593,45049613,49473333,53897043,58320753,62744473,67168183,71591893,76015613,80439323,84863033,89286743,93710463,98134174,02557884,0698164,11405314,15829024,20252744,24676454,29100164,33523874,37947594,4237134,46795014,51218734,55642444,60066154,64489874,68913584,73337294,777614,82184724,86608434,91032144,95455864,99879575,04303285,087275,13150715,17574425,21998135,26421855,30845565,35269275,39692995,4411675,48540415,52964135,57387845,61811555,66235265,70658985,75082695,7950645,83930125,88353835,92777545,97201266,01624976,06048686,10472396,14896116,19319826,23743536,28167256,32590966,37014676,41438396,4586216,50285816,54709526,59133246,63556956,67980666,72404386,76828096,8125186,85675526,90099236,94522946,98946657,03370377,07794087,12217797,16641517,21065227,25488937,29912657,34336367,38760077,43183787,4760757,52031217,56454927,60878647,65302357,69726067,74149787,78573497,8299727,87420917,91844637,96268348,00692058,05115778,09539488,13963198,18386918,22810628,27234338,31658048,36081768,40505478,44929188,4935298,53776618,58200328,62624048,67047758,71471468,75895178,80318898,8474268,89166318,93590038,98013749,02437459,06861179,11284889,15708599,2013239,24556029,28979739,33403449,37827169,42250879,46674589,5109839,55522019,59945729,64369439,68793159,73216869,77640579,82064299,864889,90911719,95335439,997591410,04182910,08606610,13030310,1745410,21877710,26301410,30725110,35148810,39572610,43996310,484210,52843710,57267410,61691110,66114810,70538510,74962310,7938610,83809710,88233410,92657110,97080811,01504511,05928311,1035211,14775711,19199411,23623111,28046811,32470511,36894211,4131811,45741711,50165411,54589111,59012811,63436511,67860211,72283911,76707711,81131411,85555111,89978811,94402511,98826212,03249912,07673612,12097412,16521112,20944812,25368512,29792212,34215912,38639612,43063412,47487112,51910812,56334512,60758212,65181912,69605612,74029312,78453112,82876812,87300512,91724212,96147913,00571613,04995313,0941913,13842813,18266513,22690213,27113913,31537613,35961313,4038513,44808813,49232513,53656213,58079913,62503613,66927313,7135113,75774713,80198513,84622213,89045913,93469613,97893314,0231714,06740714,11164414,15588214,20011914,24435614,28859314,3328314,37706714,42130414,46554214,50977914,55401614,59825314,6424914,68672714,73096414,77520114,81943914,86367614,90791314,9521514,99638715,04062415,08486115,12909815,17333615,21757315,2618115,30604715,35028415,39452115,43875815,48299615,52723315,5714715,61570715,65994415,70418115,74841815,79265515,83689315,8811315,92536715,96960416,01384116,05807816,10231516,14655216,1907916,23502716,27926416,32350116,36773816,41197516,45621216,50044916,54468716,58892416,63316116,67739816,72163516,76587216,81010916,85434716,89858416,94282116,98705817,03129517,07553217,11976917,16400617,20824417,25248117,29671817,34095517,38519217,42942917,47366617,51790317,56214117,60637817,65061517,69485217,73908917,78332617,82756317,87180117,91603817,96027518,00451218,04874918,09298618,13722318,1814618,22569818,26993518,31417218,35840918,40264618,44688318,4911218,53535718,57959518,62383218,66806918,71230618,75654318,8007818,84501718,88925518,93349218,97772919,02196619,06620319,1104419,15467719,19891419,24315219,28738919,33162619,37586319,420119,46433719,50857419,55281119,59704919,64128619,68552319,7297619,77399719,81823419,86247119,90670919,95094619,99518320,0394220,08365720,12789420,17213120,21636820,26060620,30484320,3490820,39331720,43755420,48179120,52602820,57026520,61450320,6587420,70297720,74721420,79145120,83568820,87992520,92416220,968421,01263721,05687421,10111121,14534821,18958521,23382221,2780621,32229721,36653421,41077121,45500821,49924521,54348221,58771921,63195721,67619421,72043121,76466821,80890521,85314221,89737921,94161621,98585422,03009122,07432822,118565
Metano Etano Mas PMP VCN VCT DRd
esvp
red
PLS Linear GNBR
Figura 73 Diagrama de barras desviación del valor predicho por los modelos PLS y linear GNBR
Fuente: Los Autores (2010)
1,769 1,68440,6791
33,489
35,91
0,0231,7689 1,6844
0,6791
33,4885
35,909
0,023400,0754110,1508220,2262330,3016440,3770550,4524660,5278770,6032880,6786990,754110,8295210,9049320,9803431,0557541,1311651,2065761,2819871,3573981,4328091,508221,5836311,6590421,7344531,8098641,8852751,9606862,0360972,1115082,1869192,262332,3377412,4131522,4885632,5639742,6393852,7147962,7902072,8656182,9410293,016443,0918513,1672623,2426733,3180843,3934953,4689063,5443173,6197283,6951393,770553,8459613,9213723,9967834,0721944,1476054,2230164,2984274,3738384,4492494,524664,6000714,6754824,7508934,8263044,9017154,9771265,0525375,1279485,2033595,278775,3541815,4295925,5050035,5804145,6558255,7312365,8066475,8820585,9574696,032886,1082916,1837026,2591136,3345246,4099356,4853466,5607576,6361686,7115796,786996,8624016,9378127,0132237,0886347,1640457,2394567,3148677,3902787,4656897,54117,6165117,6919227,7673337,8427447,9181557,9935668,0689778,1443888,2197998,295218,3706218,4460328,5214438,5968548,6722658,7476768,8230878,8984988,9739099,049329,1247319,2001429,2755539,3509649,4263759,5017869,5771979,6526089,7280199,803439,8788419,95425210,02966310,10507410,18048510,25589610,33130710,40671810,48212910,5575410,63295110,70836210,78377310,85918410,93459511,01000611,08541711,16082811,23623911,3116511,38706111,46247211,53788311,61329411,68870511,76411611,83952711,91493811,99034912,0657612,14117112,21658212,29199312,36740412,44281512,51822612,59363712,66904812,74445912,8198712,89528112,97069213,04610313,12151413,19692513,27233613,34774713,42315813,49856913,5739813,64939113,72480213,80021313,87562413,95103514,02644614,10185714,17726814,25267914,3280914,40350114,47891214,55432314,62973414,70514514,78055614,85596714,93137815,00678915,082215,15761115,23302215,30843315,38384415,45925515,53466615,61007715,68548815,76089915,8363115,91172115,98713216,06254316,13795416,21336516,28877616,36418716,43959816,51500916,5904216,66583116,74124216,81665316,89206416,96747517,04288617,11829717,19370817,26911917,3445317,41994117,49535217,57076317,64617417,72158517,79699617,87240717,94781818,02322918,0986418,17405118,24946218,32487318,40028418,47569518,55110618,62651718,70192818,77733918,8527518,92816119,00357219,07898319,15439419,22980519,30521619,38062719,45603819,53144919,6068619,68227119,75768219,83309319,90850419,98391520,05932620,13473720,21014820,28555920,3609720,43638120,51179220,58720320,66261420,73802520,81343620,88884720,96425821,03966921,1150821,19049121,26590221,34131321,41672421,49213521,56754621,64295721,71836821,79377921,8691921,94460122,02001222,09542322,17083422,24624522,32165622,39706722,47247822,54788922,623322,69871122,77412222,84953322,92494423,00035523,07576623,15117723,22658823,30199923,3774123,45282123,52823223,60364323,67905423,75446523,82987623,90528723,98069824,05610924,1315224,20693124,28234224,35775324,43316424,50857524,58398624,65939724,73480824,81021924,8856324,96104125,03645225,11186325,18727425,26268525,33809625,41350725,48891825,56432925,6397425,71515125,79056225,86597325,94138426,01679526,09220626,16761726,24302826,31843926,3938526,46926126,54467226,62008326,69549426,77090526,84631626,92172726,99713827,07254927,1479627,22337127,29878227,37419327,44960427,52501527,60042627,67583727,75124827,82665927,9020727,97748128,05289228,12830328,20371428,27912528,35453628,42994728,50535828,58076928,6561828,73159128,80700228,88241328,95782429,03323529,10864629,18405729,25946829,33487929,4102929,48570129,56111229,63652329,71193429,78734529,86275629,93816730,01357830,08898930,164430,23981130,31522230,39063330,46604430,54145530,61686630,69227730,76768830,84309930,9185130,99392131,06933231,14474331,22015431,29556531,37097631,44638731,52179831,59720931,6726231,74803131,82344231,89885331,97426432,04967532,12508632,20049732,27590832,35131932,4267332,50214132,57755232,65296332,72837432,80378532,87919632,95460733,03001833,10542933,1808433,25625133,33166233,40707333,48248433,55789533,63330633,70871733,78412833,85953933,9349534,01036134,08577234,16118334,23659434,31200534,38741634,46282734,53823834,61364934,6890634,76447134,83988234,91529334,99070435,06611535,14152635,21693735,29234835,36775935,4431735,51858135,59399235,66940335,74481435,82022535,89563635,97104736,04645836,12186936,1972836,27269136,34810236,42351336,49892436,57433536,64974636,72515736,80056836,87597936,9513937,02680137,10221237,17762337,25303437,32844537,40385637,47926737,55467837,63008937,7055
Metano Etano Mas PMP VCN VCT DR
std
y
PLS Linear GNBR
Figura 74 Diagrama de barras desviación estándar de los datos por los modelos PLS y linear GNBR
Fuente: Los Autores (2010)
De la tabla 35 se desprende las figuras 73 y 74, los diagramas de barras representan los
modelos aplicados para la determinación de composición y propiedades del gas asociado versus
las medidas de desviación de los valores predichos (figura 73) y versus la desviación estándar de
los datos Yi “propiedad predicha” para ambos casos se observa una tendencia favorable para el
modelo PLS con valores mínimos en comparación con los obtenidos por el modelo linear GNBR
tanto para la predicción de composición metano y etano mas, así como para las propiedades Peso
Molecular Promedio (PMP), Valor Calorífico Neto (VCN), Valor Calorífico Total (VCT) y
Densidad Relativa (DR).
158
7,798,2891
4,5069
6,1126 6,146
4,502
7,6153
4,35823,8162
3,0566 3,0452
3,8136
00,01740710,03481420,05222130,06962840,08703560,10444270,12184980,13925690,1566640,17407110,19147820,20888530,22629240,24369950,26110670,27851380,29592090,3133280,33073510,34814220,36554930,38295640,40036350,41777060,43517780,45258490,4699920,48739910,50480620,52221330,53962040,55702750,57443460,59184170,60924890,6266560,64406310,66147020,67887730,69628440,71369150,73109860,74850570,76591280,783320,80072710,81813420,83554130,85294840,87035550,88776260,90516970,92257680,93998390,95739110,97479820,99220531,00961241,02701951,04442661,06183371,07924081,09664791,1140551,13146221,14886931,16627641,18368351,20109061,21849771,23590481,25331191,2707191,28812611,30553331,32294041,34034751,35775461,37516171,39256881,40997591,4273831,44479011,46219721,47960441,49701151,51441861,53182571,54923281,56663991,5840471,60145411,61886121,63626831,65367551,67108261,68848971,70589681,72330391,7407111,75811811,77552521,79293231,81033941,82774661,84515371,86256081,87996791,8973751,91478211,93218921,94959631,96700341,98441052,00181772,01922482,03663192,0540392,07144612,08885322,10626032,12366742,14107452,15848162,17588882,19329592,2107032,22811012,24551722,26292432,28033142,29773852,31514562,33255272,34995992,3673672,38477412,40218122,41958832,43699542,45440252,47180962,48921672,50662382,5240312,54143812,55884522,57625232,59365942,61106652,62847362,64588072,66328782,68069492,69810212,71550922,73291632,75032342,76773052,78513762,80254472,81995182,83735892,8547662,87217322,88958032,90698742,92439452,94180162,95920872,97661582,99402293,011433,02883713,04624433,06365143,08105853,09846563,11587273,13327983,15068693,1680943,18550113,20290823,22031543,23772253,25512963,27253673,28994383,30735093,3247583,34216513,35957223,37697933,39438653,41179363,42920073,44660783,46401493,4814223,49882913,51623623,53364333,55105043,56845763,58586473,60327183,62067893,6380863,65549313,67290023,69030733,70771443,72512153,74252873,75993583,77734293,794753,81215713,82956423,84697133,86437843,88178553,89919263,91659983,93400693,9514143,96882113,98622824,00363534,02104244,03844954,05585664,07326374,09067094,1080784,12548514,14289224,16029934,17770644,19511354,21252064,22992774,24733484,2647424,28214914,29955624,31696334,33437044,35177754,36918464,38659174,40399884,42140594,43881314,45622024,47362734,49103444,50844154,52584864,54325574,56066284,57806994,5954774,61288424,63029134,64769844,66510554,68251264,69991974,71732684,73473394,7521414,76954814,78695534,80436244,82176954,83917664,85658374,87399084,89139794,9088054,92621214,94361924,96102644,97843354,99584065,01324775,03065485,04806195,0654695,08287615,10028325,11769035,13509755,15250465,16991175,18731885,20472595,2221335,23954015,25694725,27435435,29176145,30916865,32657575,34398285,36138995,3787975,39620415,41361125,43101835,44842545,46583255,48323975,50064685,51805395,5354615,55286815,57027525,58768235,60508945,62249655,63990365,65731085,67471795,6921255,70953215,72693925,74434635,76175345,77916055,79656765,81397475,83138195,8487895,86619615,88360325,90101035,91841745,93582455,95323165,97063875,98804586,0054536,02286016,04026726,05767436,07508146,09248856,10989566,12730276,14470986,16211696,17952416,19693126,21433836,23174546,24915256,26655966,28396676,30137386,31878096,3361886,35359526,37100236,38840946,40581656,42322366,44063076,45803786,47544496,4928526,51025916,52766636,54507346,56248056,57988766,59729476,61470186,63210896,6495166,66692316,68433026,70173746,71914456,73655166,75395876,77136586,78877296,806186,82358716,84099426,85840136,87580856,89321566,91062276,92802986,94543696,9628446,98025116,99765827,01506537,03247247,04987967,06728677,08469387,10210097,1195087,13691517,15432227,17172937,18913647,20654357,22395077,24135787,25876497,2761727,29357917,31098627,32839337,34580047,36320757,38061467,39802187,41542897,4328367,45024317,46765027,48505737,50246447,51987157,53727867,55468577,57209297,58957,60690717,62431427,64172137,65912847,67653557,69394267,71134977,72875687,7461647,76357117,78097827,79838537,81579247,83319957,85060667,86801377,88542087,90282797,92023517,93764227,95504937,97245647,98986358,00727068,02467778,04208488,05949198,0768998,09430628,11171338,12912048,14652758,16393468,18134178,19874888,21615598,2335638,25097018,26837738,28578448,30319158,32059868,33800578,35541288,37281998,3902278,40763418,42504128,44244848,45985558,47726268,49466978,51207688,52948398,5468918,56429818,58170528,59911238,61651958,63392668,65133378,66874088,68614798,703555
Metano Etano Mas PMP VCN VCT DR
F
PLS Linear GNBR
Figura 75 Diagrama de barras para estadístico F por los modelos PLS y linear GNBR
Fuente: Los Autores (2010)
0,87165 0,8822
0,7816
0,8369 0,838
0,781
0,8699
0,77160,7383
0,6762 0,675
0,7382
00,0020,0040,0060,0080,010,0120,0140,0160,0180,020,0220,0240,0260,0280,030,0320,0340,0360,0380,040,0420,0440,0460,0480,050,0520,0540,0560,0580,060,0620,0640,0660,0680,070,0720,0740,0760,0780,080,0820,0840,0860,0880,090,0920,0940,0960,0980,10,1020,1040,1060,1080,110,1120,1140,1160,1180,120,1220,1240,1260,1280,130,1320,1340,1360,1380,140,1420,1440,1460,1480,150,1520,1540,1560,1580,160,1620,1640,1660,1680,170,1720,1740,1760,1780,180,1820,1840,1860,1880,190,1920,1940,1960,1980,20,2020,2040,2060,2080,210,2120,2140,2160,2180,220,2220,2240,2260,2280,230,2320,2340,2360,2380,240,2420,2440,2460,2480,250,2520,2540,2560,2580,260,2620,2640,2660,2680,270,2720,2740,2760,2780,280,2820,2840,2860,2880,290,2920,2940,2960,2980,30,3020,3040,3060,3080,310,3120,3140,3160,3180,320,3220,3240,3260,3280,330,3320,3340,3360,3380,340,3420,3440,3460,3480,350,3520,3540,3560,3580,360,3620,3640,3660,3680,370,3720,3740,3760,3780,380,3820,3840,3860,3880,390,3920,3940,3960,3980,40,4020,4040,4060,4080,410,4120,4140,4160,4180,420,4220,4240,4260,4280,430,4320,4340,4360,4380,440,4420,4440,4460,4480,450,4520,4540,4560,4580,460,4620,4640,4660,4680,470,4720,4740,4760,4780,480,4820,4840,4860,4880,490,4920,4940,4960,4980,50,5020,5040,5060,5080,510,5120,5140,5160,5180,520,5220,5240,5260,5280,530,5320,5340,5360,5380,540,5420,5440,5460,5480,550,5520,5540,5560,5580,560,5620,5640,5660,5680,570,5720,5740,5760,5780,580,5820,5840,5860,5880,590,5920,5940,5960,5980,60,6020,6040,6060,6080,610,6120,6140,6160,6180,620,6220,6240,6260,6280,630,6320,6340,6360,6380,640,6420,6440,6460,6480,650,6520,6540,6560,6580,660,6620,6640,6660,6680,670,6720,6740,6760,6780,680,6820,6840,6860,6880,690,6920,6940,6960,6980,70,7020,7040,7060,7080,710,7120,7140,7160,7180,720,7220,7240,7260,7280,730,7320,7340,7360,7380,740,7420,7440,7460,7480,750,7520,7540,7560,7580,760,7620,7640,7660,7680,770,7720,7740,7760,7780,780,7820,7840,7860,7880,790,7920,7940,7960,7980,80,8020,8040,8060,8080,810,8120,8140,8160,8180,820,8220,8240,8260,8280,830,8320,8340,8360,8380,840,8420,8440,8460,8480,850,8520,8540,8560,8580,860,8620,8640,8660,8680,870,8720,8740,8760,8780,880,8820,8840,8860,8880,890,8920,8940,8960,8980,90,9020,9040,9060,9080,910,9120,9140,9160,9180,920,9220,9240,9260,9280,930,9320,9340,9360,9380,940,9420,9440,9460,9480,950,9520,9540,9560,9580,960,9620,9640,9660,9680,970,9720,9740,9760,9780,980,9820,9840,9860,9880,990,9920,9940,9960,9981
Metano Etano Mas PMP VCN VCT DR
R2
PLS Linear GNBR
Figura 76 Diagrama de barras para coeficiente de determinación por los modelos PLS y linear GNBR
Fuente: Los Autores (2010)
Las figuras 75 y 76, representan los valores estimados para F y R2 respectivamente por los
modelos PLS y Linear GNBR, de estas se deduce que la mejor medida en cuanto al ajuste del
modelo para predicción se refiere se estima por el modelo PLS siendo muy superior al
modelo Linear GNBR, ofreciendo valores máximos de estos parámetros estadísticos se evidencia
la potencialidad del modelo en cuanto al ajuste y correlación de la predicción de composición y
propiedades del gas asociado con la data espectral de las 23 muestras analizadas.
159
Por otro lado una comparación de los tiempos de corrida del algoritmo de predicción de
composición y propiedades permite crear otra base en cuanto a comparación de los modelos se
perfila, en este sentido la figura 77 muestra los tiempos medidos en segundo para un intervalo de
800 cm-1
y 100 cm-1
de numero de onda del espectro aplicando los modelos PLS y linear GNBR,
en la misma se puede apreciar que el modelo la corrida del modelo PLS es muy rápida con un
tiempo de respuestas de apenas 7,7 segundos para un intervalo de 800cm-1
y 4,1 segundos en un
intervalo de 100cm-1
en comparación con el modelo linear GNBR que consume un tiempo muy
superior.
Figura 77 Comparación del Tiempo de corrida del algoritmo de predicción por los modelos PLS y Linear GNBR.
Fuente: Los Autores (2010)
160
CONCLUSIONES
La predicción optima de composición metano y etano mas se realizo uniendo varios
intervalos de la región de infrarrojo cercano, obteniendo resultados satisfactorios por PLS y
Linear GNBR para metano con un coeficiente de determinación R2 de 0,8716 y 0,8699, así
como el estadístico F de 7,7897 y 7,6153 respectivamente.
Los parámetros estadísticos determinaron que los datos de espectros en la región mediana
esta mejor adaptada para la predicción de propiedades del gas asociado (peso molecular
promedio, valor calorífico neto, valor calorífico total y densidad relativa del gas) aplicando los
modelos PLS y Linear GNBR, obteniendo resultados muy satisfactorios en el modelo PLS.
El pre-tratamiento de los datos por centrado y escalado y la aplicación de validación del
modelo de mínimos cuadrados parciales (PLS) y Regresión Bayesiana Lineal (linear GNBR) en
base a una validación cruzada por “Leave One Out” demostró la predicción de las propiedades
físico químicas del gas asociado.
Los parámetros estadísticos (estadístico F y coeficiente de determinación R2) señalan una
mejor predicción haciendo uso del modelo Mínimos Cuadrados Parciales (PLS) en comparación
con el modelo de Regresión Bayesiana Lineal.
El modelo PLS demostró producir mejor predicción con menor tiempo de procesamiento de
datos en comparación con el modelo de Regresión Bayesiana Lineal.
161
RECOMENDACIONES
Se recomienda conseguir una mayor base de datos de espectros de hidrocarburos y demás
componentes del gas natural para hacer interpretaciones e identificaciones de manera más
efectiva.
En la parte experimental, se recomienda hacer uso de celda para gas con longitud de 1cm con
ventanas de KBr para disminuir la intensidad de absorción en el infrarrojo medio para tener
medidas más precisas de Absorbancia.
Aplicar la metodología presentada en esta investigación para la predicción de composición y
propiedades en otros intervalos de espectroscopia por absorción en el infrarrojo cercano.
Aplicar los modelos de predicción por PLS y Linear GNBR con diferentes resoluciones del
espectro (0,25cm-1
, 0,5cm-1
y 1cm-1
) para analizar y comparar con los resultados obtenidos en
este estudio y determinar la influencia de la resolución de la data espectral en el ajuste de los
modelos de predicción.
Considerar la aplicación de los modelos PLS y Linear GNBR en la industria del petróleo y
gas natural como una alternativa para la predicción simultanea de propiedades físico químicas
con datos obtenidos por cromatografía y espectroscopia infrarroja por transformada de Fourier.
162
REFERENCIAS BIBLIOGRAFICAS
[1]
Alciaturi, C. (2003) La regresión de mínimos cuadrados parciales (PLS) y su
aplicación al análisis del carbón mineral. Revista Técnica de la Facultad de Ingeniería
Universidad del Zulia V 26(3).
[2]
Alciaturi, C. (2005) The use of the autocorrelation function in modeling of
multivariate data. Analytica Chimica Acta. 553.
[3]
Alciaturi, C., Escobar, M., De la Cruz, C. y Rincón, C. (2003). Partial least squares
(PLS) regression and its aplication to coal analysis. Rev. Tec. Univ. Zulia. Vol 26.
[4]
Alciaturi, C., Escobar, M, Vallejo, R. (1996) Prediction of coal properties by
derivate DRIFT spectroscopy. Fuel. V. 75
[5]
Alciaturi, C., Quevedo, G. (2009) Bayesian regularization: application to calibration
in NIR spectroscopy. J. of Chemom. V 23(11) 562.
[6]
Arias, Fidias G. (2006). Proyecto de Investigación: Introducción a la metodología
científica. Quinta Edicion. Caracas: Episteme.
[7]
Babbie, E. (1996). Fundamentos de la Investigación Social.
[8]
Balestrini A., Mirian (2002). Como se Elabora el Proyecto de Investigación. Sexta
Edicion. Editorial: Caracas BL Consultores Asociados , VENEZUELA
[9]
Beebe, K. R., Pell, R. J., Seasholtz, M. B. Chemometrics. A Practical Guide, John
Wiley & Sons, New York, 1998.
[10]
Beebe, K.R., Pell, R.J., Seasholtz, M.B. (1998) Chemometrics: A Practical Guide.
Wiley.
[11]
Bouveresse, E. Maintenance and Transfer of Multivariate Calibration Models Based
on Near-Infrared Spectroscopy, doctoral thesis, Vrije Universiteit Brussel, 1997.
[12]
Cervo, A. L., Bervian, P.A. (1989) Metodología Científica. McGraw Hill. México
[13]
Chapra SC y Canale RP. Numerical methods for engineers with programming and
software applications. The McGraw-Hill Companies, Inc.: U.S.A., 1998.
[14]
Chávez, N. (2004). Introducción a la Investigación Educativa. Venezuela: Editorial
Graficas, S.A
[15]
Corripio, A., Adebiyi, O. (2003) Dynamic neural networks partial least squares
(DNNPLS) identification of multivariable processes. Computers and Chemical
Enginerring. V.2 7.
[16] Egan, W. J., Morgan, S. L. Anal. Chem. 70, 1998.
163
[17]
Esbensen, K., Schönkopf, S., Midtgaard, T. Multivariate Analysis in Practice,
Camo, Trondheim, 1996.
[18]
Esteban-Díez, I., Gonzalez, J.M, Pizarro, C. (2004) OWAVEC: a combination of
wavelet analysis and an orthogonalization algorithm as pre-processing step in
multivariate calibration Analytica Chimica Acta. V 515.
[19]
Ferré, L. (1995) Selection of components in principal component analysis: a
comparison of methods. Computational Statistics and Data Analysis. V19.
[20]
Flores, J., MacGregor, J.F. (2003) Within-Batch and Batch-to-Batch Inferencial-
Adaptive Control of Semibatch Reactors: A partial least squares approach. Ind. Eng.
Chem. V. 42.
[21]
Foresee, F., Hagan, M. (1997) Gauss-Newton approximation to Bayesian Learning.
Proc. IEEE Int. Joint Conf. Neural Networks.
[22]
Geladi, P., Kowalski, B. (1986) Partial Least-Squares Regression: A tutorial.
Analytica Chimic Acta, 185, 1-17. Elsevier Science Publishers B.V., Amsterdam.
[23]
Gorry, P. A. Anal. Chem. 62, 1990.
[24]
Guzman, B. (2006) Curso Basico de Cromatografía de Gas. Punto Fijo, Venezuela.
[25]
Guzman, B. (2006) Interpretación de cromatografía de gases en la industria petrolera-
modulo gas. Punto Fijo, Venezuela.
[26]
Haaland, D. M., and Thomas, E. V. Anal. Chem, 60, 1988.
[27]
Hernández, R., Fernández C., y Baptista P. (2003). Metodología de la Investigación.
Tercera Edición. Editorial Mc Graw-Hill. México
[28]
Hollas, J. M. Modern Spectroscopy, John Wiley & Sons, 2nd ed. Chichester, England,
1992.
[29]
Hopkins, B. Ann. Bot. 18, 1954.
[30]
Indahl, U.G., Næs, T. (1998), Evaluation of alternative spectral feature extraction
methods of textural images for multivariate modelling. J. Chemom.
[31]
Khanchi, Ali. (2007) Simultaneous spectrophotometric determination of caffeine and
theobromine in Iranian tea by artificial neural networks and its comparison with PLS.
[32]
Keller, R., Mermet, J. M., Otto, M., Widmer, H. M. (ed). Analytical Chemistry,
John Wiley & Sons, New York, 1998.
[33]
Kelly, J. J., Barlow, C. H., Jinguji, T. M., Callis, J. B. Anal. Chem. 61, 1989.
164
[34]
Kennard, R. W., Stone, L. A. Technometrics 11, 1969.
[35]
Kramer, R. Chemometric Techniques for Quantitative Analysis, Marcel Dekker,
New York, 1998.
[36]
Kresta, J.V., Marlin, T.E., MacGregor, J.F. (1994) Development of inferential
process models using PLS. Computers and Chemical Engineering. V.18 (7).
[37]
Kubelka, V. P., Munk, Z. Tech. Physik. 12, 1931.
[38]
Lawson, R. G., Jurs, P. J. Chem. Inf. Comp. Sci. 30, 1990.
[39]
Lorber, A., Kowalski, B.R. (1988), The effect of interferences and calibration design
on accuracy: implications for sensor and sample selection. Chemom.
[40]
Macho, S. (2002). Metodologías analíticas basadas en espectroscopia de infrarrojo y
calibración multivariante. Tesis doctoral. Departamento de Quimica Analitica,
Quimica Organica Universitat Rovirai Virgili. Tarragona. España.
[41]
MacKay DJC. Ph.D. Thesis, California Institute of Technology, 1992.
[42]
MacKay DJC. Bayesian interpolation. Neural Comput. 1992; 4: 415–447.
[43]
Mardia, K. V., Kent, J. T., Bibby, J. M. Multivariate Analysis, Academic Press,
London, 1980.
[44]
Martens, H., Naes, T. Multivariate Calibration, John Wiley & Sons, Chichester,
1989.
[45]
Massart, D. L., Vandegiste, B. G. M., Buydens, L. M. C., De Jong, Lewi, S. P. J.,
and Smeyers-Verbeke, J. Haandbook of Chemometrics and Qualimetrics: Part A,
Elsevier, Amsterdam, 1997.
[46]
Massart et al, D.L. (1997) Handbook of Chemometrics and Qualimetics. Part A and
B. Data handling in science and technology. 20A, 20B. Elsevier, Amsterdam.
[47]
McAvoy, T. (1992) Nonlinear PLS Modeling using neural networks. Computers and
Chemical Engineering. V. 16 (4).
[48]
Miller, C. E. NIR news 4, 1996.
[49]
Miller, J. y Miller J. (2002). Estadistica y Quimiometria para química analítica.
Editorial Prentica Hall. Madrid, España.
[50]
Moody JE. The Effective Numbering of Parameters: An Analysis of Generalization
and Regularization in Nonlinear Learning Systems. En Neural Information Processing
Systems 4, Moody JE, Hanson SJ, Lippmann RP (Eds). Morgan Kaufmann: San
Mateo, CA, 1992; 847–854.
165
[51]
Morris, J., Martin, E., Li, B. (2001) Box-Tidwell transformation based partial least
squares regression. Computers and Chemical Engineering. V.25.
[52]
Morris, J., Martin, E., Baffi, G. (1999) Non-linear projection to latent structures
revisited (the neural network PLS algorithm). Computers and Chemical Engineering.
V. 23.
[53]
Næs, T., Isaksson, T., Kowalski, B. R. (1990), Locally weighted regression and
scatter correction for near-infrared reflectance data. Anal. Chem., 62(7)
[54]
Næs, T., Isaksson, T., Fearn, T., Davies, T., A User-Friendly Guide to Multivariate
Calibration and Classification. NIR Publications, Chichester UK, 2002.
[55]
Naes, T. , Isaksson, T. Appl. Spectrosc. 43, 1989.
[56]
Naes, T., J. Chemom. 1, 1987.
[57]
Spiegelman, C., Wikander, J., O´Neal, P. (2002) A simple method for linearizing
nonlinear spectra for calibration. Chemometrics and intelligent laboratory systems.
V.60.
[58]
Osborne, B. G., Fearn, T. And Hindle, P. H. Practical NIR spectroscopy with
applications in food and beverage analysis, Longman Scientific & Technical, 2nd ed.
Harlow, England, 1993.
[59]
Parisi, A. F. L., Nogueiras and Prieto, H. Anal. Chem. Acta. 238, 1990.
[60]
Ponton, J.W., Klemes, J. (1993) Alternatives to neural networks for inferential
measurement. Computers and Chemical Engineering. 17 (10).
[61]
Quevedo, G. (2005) Esquemas de Control de Secadores Rotatorios de Resinas
Poliméricas. Trabajo Especial de Grado. Universidad del Zulia. Facultad de Ingenieria.
Escuela de Ingenieria Quimica
[62]
Quevedo, G. (2008) Método de mínimos cuadrados parciales y su similitud con una
regresión bayesiana aplicada a una red neuronal. Trabajo de Grado. (Matematica
Aplicada). Facultad de Ingenieria. La Universidad del Zulia. Maracaibo, Venezuela.
[63]
Ramirez, N., Montes, J. (2002) Neural networks to model dynamic systems with time
delays. IIE Transactions.
[64]
Ramis, G., García, M.C. (2001) Quimiometría. Ed. Síntesis.
[65] Rubinson, K. A., Rubinson, J. F. Análisis instrumental, Pretice Hall, Madrid, 2001.
[66] Sabino, C. (1992) El proceso de investigacion. Caracas: Panapo
166
[67]
Salinas, M. y Carlos, S. (2008) Modelos de Regresión y Correlación IV. Aplicación
de Pruebas de Significancia Estadistica. Revista Tecnica Ciencia y Trabajo
Significación Estadística
[68] Sampieri, R. H. (2003). Metodologia de la investigacion. México McGraw Hill
[69] Savitzky, A. and Golay, M. J. E. Anal. Chem. 36, 1964, 1267.
[70]
Schwedt, G. The essential guide to analytical chemistry, John Wiley & Sons,
Chichester, 1997.
[71]
Silverstein, R. M., Webster,F. X. Spectrometric Identification of Organic
Compounds, 6a ed. John Wiley & SonNew York.
[72]
Skoog, D. Holler, F. y Nieman T. (2001) Analisis Instrumental. Quinta Edicion.
Editorial Mc Graw Hill. Madrid, España.
[73]
Szczubialka, K., Verdú-Andrés, J., Massart, D. L. Chemom. Intell. Lab Syst. 41,
1998.
[74]
The American Society for Testing and Materials (ASTM), Practice E1655- 00.
ASTM Annual Book of Standards, vol. 03.06, West Conshohocken, P A, 2001.
[75] The Mathworks, sitio web: www.mathworks.com/products/matlab/
[76] Thodberg H. A review of Bayesian neural networks with an application to near
infrared spectroscopy. IEEE Trans. Neural Network. 1996; 7(1): 56–72.
[77] Unscrambler User Manual, CAMO A/S, Trondheim, 1998
[78] Van Dalen, D. B., y Meyer, W. J. (2006), Manual de la investigacion educacional.
Buenos Aires:Paidos
[79] Wold, H. (1984) Partial Least Squares. Encyclopedia of Statistical Sciences. New
York: Wiley. V 6.
[80]
Yacoub, F., MacGregor, J.F (2004) Product optimization and control in the latent
variable space of nonlinear PLS models. Chemometrics and intelligent laboratory
systems V.70.
[81] Zeller, M. V., y Juszli, M.P. (1973), Reference spectra of gases. Perkin Elmer
Infrared Bulletin. U.S.A