universidad del zulia facultad de …07:05z-4769/...the purpose of this research was to develop and...

REPÚBLICA BOLIVARIANA DE VENEZUELA

UNIVERSIDAD DEL ZULIA

FACULTAD DE INGENIERIA

DIVISIÓN DE POSTGRADO

PROGRAMA DE POSTGRADO EN INGENIERIA DE GAS

MODELOS POR MÍNIMOS CUADRADOS PARCIALES Y REGRESIÓN BAYESIANA

PARA LA PREDICCIÓN DE PROPIEDADES DE GAS ASOCIADO

Trabajo de Grado presentado ante la

Ilustre Universidad del Zulia

para optar al Grado Académico de:

MAGISTER SCIENTIARUM EN INGENIERIA DE GAS

Autores: Jesiray Johana Matos Rodriguez

Yanklys Alberto Angarita Montiel

Tutor: Dr. Carlos Alciaturi

Cotutor: Dr. Jorge Barrientos

Maracaibo, mayo de 2010

Angarita Montiel, Yanklys Alberto y Matos Rodríguez, Jesiray Johana. Modelos por mínimos

cuadrados parciales y regresión bayesiana para la predicción de propiedades de gas

asociado. (2010) Trabajo de Grado. Universidad del Zulia. Facultad de Ingeniería. División de

Postgrado. Maracaibo, Venezuela. 166p. Tutor: Dr. Carlos Alciaturi; Cotutor: Dr. Jorge

Barrientos.

RESUMEN

El objetivo de la presente investigación fue desarrollar y aplicar modelos para la predicción de la

composición y propiedades del gas asociado empleando datos de espectroscopia y el método de

calibración de mínimos cuadrados parciales (PLS) y Regresión Bayesiana Lineal (linear GNBR).

El tipo de investigación fue descriptiva transversal y explicativa, en cuanto al diseño de la

investigación el mismo se caracterizó por ser de campo y experimental, utilizando como

población 28 muestras de gas asociado del Occidente del País y tomando como muestra 23 de

estas a las cuales se les determinó la composición y propiedades por Cromatografía de Gases. Se

realizaron análisis por Espectrometría infrarrojo por Transformada de Fourier en la región

cercana (FT-NIR) y en la región mediana (FT-MIR) en el intervalo 4700 – 400 cm-1

para cada

una de las muestras y se correlacionaron con la propiedad físico química a predecir obtenido por

el método normado (Cromatografía). La detección de muestras discrepantes se realizo a través de

la representación gráfica de los espectros. El modelo de predicción óptimo se seleccionó

tomando en consideración los parámetros estadísticos: desviación cuadrática media (rms),

coeficiente de determinación (R2), y el estadístico F. En función de esto y del análisis de los

modelos se demostró que el modelo de Mínimos Cuadrados Parciales presento mejores medidas

de ajuste y menor tiempo de respuesta para la predicción de composición y propiedades de gas

asociado con respecto al modelo de Regresión Bayesiana Lineal.

Palabras clave: Mínimos Cuadrados parciales (PLS), Regresión Bayesiana de Gauss-Newton

(GNBR), cromatografía de gases, espectroscopia de infrarrojo, gas natural.

Angarita Montiel, Yanklys Alberto y Matos Rodríguez, Jesiray Johana. Partial Least Squares

Models and Bayesian regression for the prediction of properties of associated gas. (2010)

Trabajo de Grado. Universidad del Zulia. Facultad de Ingeniería. División de Postgrado.

Maracaibo, Venezuela. 166 p. Tutor: Dr. Carlos Alciaturi; Cotutor: Dr. Jorge Barrientos.

ABSTRACT

The purpose of this research was to develop and implement models for predicting the

composition and properties of associated gas using data from spectroscopy and the calibration

method of partial least squares (PLS) and Bayesian Linear Regression (linear GNBR). The

research was descriptive and transversal explanatory, with regard to research design it was

characterized as experimental, using 28 samples from associated gas from the West of Venezuela

and taking 23 of those for analysis, we evaluated the composition and properties by gas

chromatography. Spectrometric analysis were performed by Fourier transform in the near

infrared (FT-NIR) and middle infrared (FT-MIR) regions in the interval 4700 to 400 cm-1

for

each of the samples and correlated with physico - chemical properties determined by the

reference method (gas chromatography). The optimal prediction model was selected taking into

account the statistical parameters: mean square deviation (rms), coefficient of determination (R2),

and the F statistic. The analysis of the models showed that the Partial Least Squares model

provides better adjustment and lower response time for the prediction of gas composition and

associated properties than Bayesian Linear Regression Model.

Key words: Partial Least Squares (PLS), Gauss Newton Bayesian regression (GNBR), gas

chromatography, infrared spectroscopy, natural gas.

DEDICATORIA

Dedico este trabajo, en primer lugar a Dios, el Creador, Todopoderoso y Omnipotente, que me

dio el ser y la oportunidad de venir a este mundo a amar, aprender y alcanzar logros.

A mis padres, Jesús y Siraida, quienes con su apoyo incondicional, me inspiran a seguir

cosechando éxitos, gracias por creer en mí, mis éxitos también son suyos.

A mis hermanos, Jesús, Jeandry y Jeasmy, por todo su apoyo, gracias por todo, y espero que este

éxito los inspire a alcanzar sus metas.

A los más pequeños y adorables de la familia, Diego Andrés, Adriani Andrea, Andrés Armando y

Andrés Enrique, que esta meta se traduzca en ejemplo para ustedes.

A mis tías, primos, mil gracias, por llenar mi vida de alegría. Este éxito también es de ustedes.

A mis amigos y compañeros de estudio, Ing. Merquin Lugo, Ing. Andreeduis Rodríguez,

Ing. Yanklys Angarita, Ing. Heilyn González, e Ing. Neida Galban gracias por su colaboración y

apoyo en los momentos más difíciles, por los bonitos momentos compartidos y por haber hecho

de esta experiencia los recuerdos más gratos que recordaré, gracias por todo y suerte en el

futuro.

A mis estudiantes del Instituto Universitario de Tecnología de Cabimas, por ser fuente de

inspiración y una de las razones principales para mejorar como profesional y docente.

Jesiray Matos

DEDICATORIA

Primero que todo a DIOS que ilumina mi camino con seguridad, paciencia y serenidad, para

poder culminar esta nueva etapa de mi vida. Por ayudar a levantarme y atravesar los obstáculos

que se me han cruzado en el camino y por la felicidad que ha permitido que reúne a lo largo de

toda mi vida.

A mi MADRE que siempre me ha demostrado que con esfuerzo y responsabilidad podía alcanzar

todo lo que me propusiera.

A Jackeline Hernández, mi novia, mi compañera, mi amiga, que ha estado ahí conmigo, desde el

primer momento, y por su contribución a la realización de este trabajo.

A mi compañera de tesis Jesiray Matos, por compartir esta etapa tan importante de mi vida y mi

carrera y por ser una amiga en quien confiar, por su paciencia y por el apoyo que recibí de ella.

A cada una de las personas que han contribuido en la realización de este trabajo nuevamente

gracias.

Yanklys Angarita

AGRADECIMIENTO

A Dios, nuestro creador y benefactor.

A nuestros Padres y Madres, por darnos la vida, su apoyo y ayuda; por ser guías y amigos en los

momentos más difíciles.

A nuestras familias, por el amor, cariño, apoyo y por entender los momentos de ausencia durante

la realización de esta Tesis.

Al Dr. Carlos Alciaturi, tutor de esta Tesis, por darnos la oportunidad de ser investigadores, por

compartir su experiencia de vida profesional y por permitirnos con su apoyo la búsqueda

incansable del conocimiento.

Al Dr. Barrientos, por sus conocimientos, por su orientación y apoyo, herramienta fundamental

de la investigación.

A nuestros amigos de aula y de vida, muy especialmente Merquin Lugo, Andreeduis Rodríguez,

Heilyn González y Neida Galban.

Al Personal del Postgrado, en especial Secretarias y Vigilantes. A todo el personal

Administrativo y Obrero por su apoyo en nuestros estudios.

Al Personal del Laboratorio de Petroquímica y Surfactantes en la Universidad del Zulia, por

prestar sus espacios para el desarrollo de esta investigación.

Al Personal de la Fundación Laboratorio Servicios Técnicos Petroleros (INPELUZ – FLSTP),

especialmente a Humberto Linares y Carolina Artigas, por su asesoría acertada y oportuna.

Al Instituto Zuliano de Investigaciones Tecnológicas (INZIT), por ceder espacios para el

desarrollo de esta investigación.

Al Licenciado Edwin Rivas, por su amistad y constantes estímulos, por brindarnos su experiencia

y apoyo en el desarrollo de actividades experimentales.

Al Fondo Nacional de Ciencia, Tecnología e Innovación (FONACIT), el apoyo financiero para la

realización de la Maestría y elaboración de esta Tesis.

A la Universidad del Zulia, por permitir la libertad de pensamiento, por ser una institución que

promueve la igualdad de sus miembros.

Los Autores

TABLA DE CONTENIDO

Página

RESUMEN.......................................................................................................................... 4

ABSTRACT........................................................................................................................ 5

DEDICATORIA…………………………………………………...…………………….. 6

AGRADECIMIENTO........................................................................................................ 8

TABLA DE CONTENIDO................................................................................................. 9

LISTA DE FIGURAS......................................................................................................... 13

LISTA DE TABLAS.......................................................................................................... 10

INTRODUCCION.............................................................................................................. 21

CAPITULO

I EL PROBLEMA

1.1 Planteamiento del problema….………………………...…………….….…… 23

1.2 Objetivos de la investigación……………………...………….……..………... 26

1.2.1 Objetivo general……………………………...……….……………..... 26

1.2.2 Objetivos específicos………………………………….………...…...... 26

1.3 Justificación de la investigación….………………..………………....………. 27

1.4 Delimitación de la investigación……...………………..…...…..........………. 29

1.4.1 Delimitación espacial………….................………………………...…. 29

1.4.2 Delimitación temporal……………………………………...…….…… 29

1.4.3 Línea de investigación………………..…………………...…...……… 29

II MARCO TEORICO

2.1 Antecedentes de la investigación…...………………………………………… 30

2.2 Gas Natural………………….…………………………..………….………… 34

2.2.1 Ventajas que ofrece el Gas Natural……...………………..…………… 34

2.2.2 Propiedades del Gas Natural……………………………….…………... 35

2.3 Cromatografía de Gases………………….………...…………………………. 37

2.3.1 Resultados obtenidos de la Cromatografía de Gas…….……………..... 38

2.3.2 Ventajas de la Cromatografía de Gas…….….………………………… 39

2.3.3 Usos de la Cromatografía de Gas…………………………………...…. 40

2.4 Espectroscopia de Infrarrojo……………..……………………....……...……. 40

2.4.1 Vibraciones Moleculares……………………...…………..…………… 41

2.4.2 Regiones Espectrales………………………...………………………… 43

2.4.3 Características de un Espectro………………………...….……………. 44

2.4.4 Tipos de medidas de Infrarrojo………………...……….……………… 44

2.4.5 Interpretación de Espectros…………………………….………...…… 50

2.5 Fundamentos Quimiometricos………………..………………….…………… 54

2.5.1 Descomposición en Componentes Principales (PCA)…………………. 54

2.5.2 Selección de muestras de calibración……….…………………...…….. 56

2.5.3 Técnicas de Pre-tratamiento de datos………………...……………...… 57

2.5.4 Etapas de Calibración Multivariante………………...………………… 60

2.5.5 Método para Selección de variables……………………….……….….. 63

2.5.6 Comparación de Modelos de Regresión……………………………….. 64

2.6 Método de Mínimos Cuadrados Parciales……….….……………..……….… 66

2.6.1 Fundamentos del Método………………………….……………….….. 66

2.6.2 Objetivo del Método de Mínimo Cuadrados Parciales……...…………. 69

2.6.3 Alternativas de Pre-procesamiento de las variables……...……………. 70

2.6.4 Secuencia del algoritmo (Etapa de Calibración)..................................... 70

2.6.5 Secuencia del algoritmo (Etapa de Predicción)....................................... 72

2.6.6 Determinación del Numero de variables latentes…………...…………. 73

2.6.7 Aplicación del Método de Mínimo Cuadrados Parciales………...…..... 74

2.7 Regresión Bayesiana…………………….…………………..……………...… 79

2.7.1 Probabilidad Bayesiana………………………….……..………...……. 80

2.7.2 Teorema de Bayes………………………………...…….………...…… 80

2.7.3 Modelos matemáticos con enfoque bayesiano……………………….... 81

2.7.4 El algoritmo GNBR (Regularización bayesiana de Gauss-Newton)..…. 82

2.7.5 Regresión Lineal………………………………………………………... 83

2.7.6 Regresión Bayesiana según Foresse y Hagan (Regularización)……….. 84

2.7.7 Alternativas de Pre-procesamiento de las variables………………….... 85

2.8. Validación Cruzada…………………………….……………................……. 86

2.8.1 Objetivo de la Validación Cruzada…….………………..…………….. 87

2.8.2 Limitaciones y uso indebido……........................................................... 89

2.8.3 Leave One Out Cross Validation (LOOCV)………………...………… 90

2.9 Conceptos Estadísticos………………………...…….……………………….. 91

2.9.1 Estadístico F……………….……………...………………………..…. 91

2.9.2 Desviación Cuadrática Media……………….…..……………….……. 93

2.9.3 Coeficiente de Determinación R2........................................................... 93

III MARCO METODOLOGICO

3.1 Generalidades…………..……………………………...………………..……. 96

3.2 Tipo de investigación…………………………………………………….…… 96

3.3 Diseño de la investigación………………….……………..……………..…… 98

3.4 Población……..……………………………………………………….……… 100

3.5 Muestra…..……………………………………………………….……...…… 100

3.6 Técnicas de investigación e instrumentos de recolección de datos…………... 101

3.6.1 Fuentes primarias………………………………………………….…... 102

3.7 Metodología empleada en la investigación………….……………………….. 103

3.7.1 Procedimiento experimental…………...……………...………….…… 103

3.7.2 Procesamiento de la información……………………………...………. 108

IV ANALISIS DE RESULTADOS

4.1 Interpretación de bandas observadas en los espectros obtenidos de FTIR por

comparación con los espectros de los componentes puros. ………………………

113

4.2 Detección de muestras anómalas “outliers” en base a la composición

(proporcionada por el método de referencia) y a los espectros de infrarrojo…….

4.3 Selección de regiones de números de onda que produzcan las mejores

predicciones para el modelo de mínimos cuadrados parciales y regresión

bayesiana lineal con validación de los modelos por el método de validación

cruzada Leave One Out (LOOCV)………………………………………………...

119

121

4.3.1 Selección de regiones de número de onda para el modelo Mínimos

Cuadrados Parciales (PLS)………………………………..………..…...….

121

4.3.2 Selección de regiones de numero de onda para el modelo Regresión

Bayesiana Lineal………………………………...………………………..…

133

4.4 Modelos de predicción de propiedades del gas asociado a partir de espectros

de infrarrojo utilizando el algoritmo de Mínimos Cuadrados Parciales (PLS) y

Regresión Bayesiana Lineal (linear GNBR). ……………………….……..…......

143

4.4.1 Predicciones por el modelo de Mínimos Cuadrados Parciales (PLS)…

143

4.4.2 Predicciones por el modelo de Regresión Bayesiana Lineal (linear

GNBR)………………………………………………………………………

150

4.5 Análisis comparativo de los resultados obtenidos por el modelo de Mínimos

Cuadrados Parciales (PLS) y Regresión Bayesiana Lineal (linear GNBR)…….....

156

CONCLUSIONES……………………………………………………….…...…… 160

RECOMENDACIONES….………………………………………………………. 161

REFERENCIAS BIBLIOGRAFICAS……………………………………………. 162

LISTA DE FIGURAS

Figura Página

1 Cromatográma de un gas natural……………………..………………………... 38

2 Longitud de enlace de una molécula……………...…………………………… 42

3 Tipos de tensión vibracional…….…………………...……………………… 42

4 Región infrarroja del espectro electromagnético………………......………….. 43

5 Representación gráfica de los valores de onda (μ) o de frecuencia (cm-1

) ante

los valores de porcentaje de transmitancia (%T).………..…………………..

44

6 Fenómenos de absorción, transmisión y reflexión de la radiación

electromagnética al interaccionar con la materia.………….…………………..

45

7 Solución del analito atravesada por el haz de luz……………...……….……. 46

8 Reflexión total interna y elemento de reflexión interna (IRE) utilizado en el

sistema ATR. ………..……………………...………………………………….

47

9 Procesos de reflexión en un material especular (a) o irregular (b). Fenómeno

de reflectancia difusa (c)……………………………..………………………..

48

10 Frecuencias de vibraciones en el infrarrojo medio…………...…………..…… 51

11 Frecuencias de vibración en el infrarrojo cercano…………...….…………….. 51

12 Comparación entre el espectro IR y NIR del ciclohexano………….…………. 52

13 Resolución de dos bandas solapadas a través de la segunda derivada………… 52

14 Ejemplo de la derivada de un espectro de nafta, sin utilizar un suavizado y

utilizando un suavizado de Savitzki-Golay)………………………………..….

53

15 Representación gráfica de la descomposición en componentes principales de

un conjunto de muestras definidas por dos únicas variables. En este sencillo

ejemplo la descomposición consiste en un simple cambio de ejes

(componentes principales)………………………………………..…………....

54

16 Notación matricial de la descomposición en componentes principales……….. 55

17 Notación matricial extendida de la descomposición en componentes

principales……………………………………………………………...............

55

18 Centrado por columnas. a) Objetos definidos por dos variables. b) Los

mismos objetos centrados. c) Espectro de 12 muestras de alcohol polivinílico

(PVA). d) Los mismos espectros de PVA centrados………………………..…

57

19 Suavizado de una señal espectroscópica utilizando una ventana de 21 puntos

y un polinomio de 3er

grado………………………………………......………

58

20 Espectros NIR de muestras de nafta sin pretratamiento (a), offset correction a

1100 nm (b) y primera derivada (c)………………………………..…………

60

21 Esquema del proceso de corrección de la línea base utilizando un modelo

explícito lineal (detrendig)……………….…...………………………………..

60

22 Estadístico de Hopkins en el caso de un conjunto de muestras homogéneo

(H=50) y en el caso de un conjunto de muestras agrupadas H próximo a 1…...

61

23 Diagrama de bloques método PLS………………………………………….….

68

24 Alternativas de Pre-procesamiento.………………………………………….. 70

25 hf en función de número de componentes para el PLS……………………... 73

26 Errores de predicción en función de número de componentes para el PLS……

74

27 Ejemplo del cálculo del residual de un espectro NIR. Al espectro original se

le resta el espectro reconstruido con 4 factores para obtener el residual

espectral………………..………….…………………...……………………….

77

28 Gráfico del residual frente al leverage. (a) Objetos con una varianza residual

elevada se consideran outliers, (b) si además tienen un leverage alto son

outliers peligrosos para el modelo, debido a que tienen mucha influencia

sobre él. Las muestras con un leverage alto (c) son muestras influyentes y no

necesariamente outliers……..………………………………………………….

78

29 Ejemplo de regresión lineal con una variable independiente………..………… 83

30 Comportamiento típico de los errores para el caso de aprendizaje y test…..…. 87

31 Coeficiente de determinación igual a 1……………………...………………… 94

32 Coeficiente de determinación igual a 0……………………...………………… 95

33 Muestras……………………………………………………………………….. 101

34 Espectrómetro infrarrojo por Transformada de Fourier……………………….. 106

35 Filtro empacado……………………………………………………………….. 106

36 Celda para muestras gaseosas instalada en el Espectrómetro infrarrojo por

Transformada de Fourier (FTIR)…………………...…………….……………

107

37 Espectro de las muestras de gas asociado……………………………………. 115

38 Identificación de componentes, vibraciones moleculares y regiones……….. 116

39 Región de absorción 4550 - 4000 cm-1

……………………………..…………. 117


………………..………………………. 118


………………………….……………. 118

42 Identificación de muestras anómalas (outliers)………...……………………… 120

43 (a) Dispersión del Estadístico F según el número de onda del infrarrojo para

predicción de metano en intervalos de 100cm-1

…………………...…………..

123

43 (b) Dispersión del Coeficiente de Determinación R2 según el número de onda del

infrarrojo para predicción de metano en intervalos de 100cm-1

………………..

123


predicción de metano en intervalos de 400cm-1

………………………….……

124



………………..

124


predicción de etano mas en intervalos de 100cm-1

……………………………

125


infrarrojo para predicción de etano mas en intervalos de 100cm-1

…………….

125


predicción de etano mas en intervalos de 400cm-1

…………………………….

126



……………

126


predicción de peso molecular promedio en intervalos de 100cm-1

.....................

128

47 (b) Dispersión del Estadístico F según el número de onda del infrarrojo para

predicción de peso molecular promedio en intervalos de 100cm-1

……..….….

128


predicción de valor calorífico neto en intervalos de 100cm-1

………………

129


predicción de valor calorífico neto en intervalos de 100cm-1

…………....…

129


predicción de valor calorífico total en intervalos de 100cm-1

………………..

130


predicción de valor calorífico total en intervalos de 100cm-1

………………..

130


predicción de densidad relativa en intervalos de 100cm-1

……………….…

131


predicción de densidad relativa en intervalos de 100cm-1

………………….

131


predicción de viscosidad en intervalos de 100cm-1

……………………………

132


predicción de viscosidad en intervalos de 100cm-1

……………………………

132


predicción de metano para el modelo GNBR en intervalos de 100cm-1

……….

134

52 (b) Dispersión del Coeficiente de Determinación R2

según el número de onda del

infrarrojo para predicción de metano para el modelo GNBR en intervalos de

100cm-1

………………………………………………………………………....

134


predicción de metano para el modelo GNBR en intervalos de 400cm- 1………

135



infrarrojo para predicción de metano para el modelo GNBR en intervalos de

400cm-1

……………………………………………………………….....……...

135


predicción de etano mas para el modelo GNBR en intervalos de 100cm- 1…

136



infrarrojo para predicción de etano mas para el modelo GNBR en intervalos

de 100cm-1

………………………………………………………………….…..

136


predicción de etano mas para el modelo GNBR en intervalos de 400cm-1

…...

137



infrarrojo para predicción de etano mas para el modelo GNBR en intervalos

de 400cm-1

…………………………………………………….…………...…..

137


predicción de peso molecular promedio para el modelo GNBR en intervalos

de 100cm-1

…………………………………………………………………….

138



infrarrojo para predicción de peso molecular promedio para el modelo GNBR

en intervalos de 100cm-1

……………………………………………………...

138


predicción de valor calorífico neto para el modelo GNBR en intervalos de

100cm-1

………………………………………………………………………...

139



infrarrojo para predicción de valor calorífico neto para el modelo GNBR en

intervalos de 100cm-1

………………………………

139


predicción de valor calorífico total para el modelo GNBR en intervalos

de 100cm-1

……………………………………………………………………...

140


infrarrojo para predicción de valor calorífico total para el modelo GNBR en


………………………………………………………….

140


predicción de densidad relativa para el modelo GNBR en intervalos de

100cm-1

……………………………………………………………….…..

141



infrarrojo para predicción de densidad relativa para el modelo GNBR en


………………………………………………………….

141


predicción de viscosidad para el modelo GNBR en intervalos de 100cm-1

….

142


infrarrojo para predicción de viscosidad para el modelo GNBR en intervalos

de 100cm-1

…………………………………………………….……………….

142

61 Predicción de metano por PLS con LOOCV…………...……………...……… 144

62 Predicción de etano mas por PLS con LOOCV……………….……………... 145

63 Predicción de peso molecular promedio por PLS con LOOCV………….....… 146

64 Predicción de valor calorífico neto por PLS con LOOCV…………….....…… 147

65 Predicción de valor calorífico total por PLS con LOOCV…………...………. 148

66 Predicción de densidad relativa por PLS con LOOCV……………..……... 149

67 Predicción de metano por linear GNBR con LOOCV………………….…… 150

68 Predicción de etano mas por linear GNBR con LOOCV……………………... 151

69 Predicción de peso molecular promedio por linear GNBR con LOOCV……... 152

70 Predicción de valor calorífico neto por linear GNBR con LOOCV…….…... 153

71 Predicción de valor calorífico total por linear GNBR con LOOCV…......... 154

72 Predicción de densidad relativa por linear GNBR con LOOCV…………...

155

73 Diagrama de barras desviación del valor predicho por los modelos PLS y

linear GNBR…………………………………………………………...……….

157

74 Diagrama de barras desviación estándar de los datos por los modelos PLS y

linear GNBR………………………………………………………………….

157

75 Diagrama de barras para estadístico F por los modelos PLS y linear GNBR....

158

76 Diagrama de barras para coeficiente de determinación por los modelos PLS y

linear GNBR……………………………………………………………………

158

77 Comparación del Tiempo de corrida del algoritmo de predicción por los

modelos PLS y Linear GNBR……………………………………………….....

159

LISTA DE TABLAS

Tabla Página

1

Relación entre suma y media de cuadrados para un modelo de regresión lineal

simple…………………………………………………………………………..

92

2 Ejemplo del resultado de análisis por Cromatografía de gases de una muestras

de gas asociado…………………………………………………..…………….

105

3 Identificación de componentes por regiones en el espectro………..…………

114

4 Identificación de componentes por regiones en el espectro para el conjunto de

23 muestras……………………………………………………………………..

116

5 Comportamiento estadístico de Metano desde el intervalo 37 al 44 por PLS… 123

6 Comportamiento estadístico de Metano desde el intervalo 10 y 11 por PLS…

124

7 Comportamiento estadístico de etano mas desde el intervalo 37 al 44 por PLS

125

8 Comportamiento estadístico de etano mas desde el intervalo 10 y 11 por PLS 126

9 Comportamiento estadístico de peso molecular promedio en el intervalo 37

por PLS……………….……………….………………………………………..

128

10 Comportamiento estadístico de valor calorífico neto en el intervalo 37

por PLS………………………………………………………...……………...

129

11 Comportamiento estadístico de valor calorífico total en el intervalo 37

por PLS.………………………………………………………………….…..

130

12 Comportamiento estadístico de la densidad relativa en el intervalo 37

por PLS………………………………………………………………………...

131

13 Comportamiento estadístico de viscosidad en el intervalo 30 por PLS….…...

132

14 Comportamiento estadístico de metano desde el intervalo 37 a 44 por GNBR.. 134

15 Comportamiento estadístico de metano en los intervalos 10 y 11 por GNBR… 135

16 Comportamiento estadístico de etano mas en los intervalo 37 a 44 por GNBR 137

17 Comportamiento estadístico de etano mas en los intervalos 10 y 11 por GNBR 137

18 Comportamiento estadístico de peso molecular promedio en el intervalo 34

por GNBR……………………………………..……………………………….

138

19 Comportamiento estadístico de valor calorífico neto en el intervalo 36

por GNBR……………………………………………………………………..

139

20 Comportamiento estadístico de valor calorífico total en el intervalo 36

por GNBR………………………………………………………..…………….

140

21 Comportamiento estadístico de densidad relativa en el intervalo 34 por

GNBR……………………………………………………………………..

141

22 Comportamiento estadístico de viscosidad en el intervalo 34 por GNBR……..

142

23 Comportamiento estadístico de la predicción de metano por PLS……..….…..

144

24 Comportamiento estadístico de la predicción de etano mas por PLS………...

145

25 Comportamiento estadístico de la predicción de peso molecular promedio

por PLS…………………………………………………………………………

146

26 Comportamiento estadístico de la predicción de valor calorífico neto por PLS

147

27 Comportamiento estadístico de la predicción de valor calorífico total

por PLS…………………………………………………………………………

148

28 Comportamiento estadístico de la predicción de densidad relativa

por PLS……………………………………………………………………..…..

149

29 Comportamiento estadístico de la predicción de metano por linear GNBR…...

150

30 Comportamiento estadístico de la predicción de etano mas por linear GNBR..

151

31 Comportamiento estadístico de la predicción de peso molecular promedio

por linear GNBR…………………………...…………………………………..

152

32 Comportamiento estadístico de la predicción de valor calorífico neto por

linear GNBR……………………………………………………………………

153

33 Comportamiento estadístico de la predicción de valor calorífico total por

linear GNBR……………………………………………………………………

154

34 Comportamiento estadístico de la predicción de densidad relativa por linear

GNBR……………………………………………………………………

155

35 Comportamiento estadístico de predicción de composición y propiedades por

PLS y linear GNBR…………………………………….………………………

156

21

INTRODUCCION

El desarrollo económico y social experimentado por nuestro país en la última década, así

como la creciente y dinámica globalización de los mercados mundiales, permite el libre

intercambio comercial y cultural entre países disímiles, obligando a que cada miembro de este

mercado mundial sea cada vez más eficaz y eficiente a objeto de competir al más alto nivel de

productividad y calidad.

Para poder afrontar exitosamente la globalización económica, las empresas requieren, cada

vez más, utilizar conocimientos científicos en el proceso productivo y de gestión, orientados a la

reducción de los costos de producción y a aumentar la calidad y valor de sus productos. La

reconversión y modernización del aparato productivo no puede lograrse sin una adecuada base

científica y tecnológica.

Dentro de este orden de ideas, la industria petrolera nacional produce en el Occidente del

país petróleo y gas natural asociado, cuya importancia se deriva a sus diversas aplicaciones en la

industria, el comercio, la generación de electricidad, el sector residencial y el transporte. De igual

manera es utilizado como materia prima en diversos procesos químicos e industriales y de

manera relativamente fácil y económica puede ser convertido a hidrógeno, etileno, o metanol; los

materiales básicos para diversos tipos de plásticos y fertilizantes.

Por tanto existe gran interés en la caracterización del gas natural asociado, para lo cual se han

aplicado técnicas experimentales entre las que predomina la aplicación de cromatografía de

gases, la cual se ha constituido como una metodología analítica instrumental muy efectiva para

separar, identificar y cuantificar los componentes de una mezcla compleja de gases.

De igual manera, la espectrometría infrarroja por transformada de Fourier, proporciona una

información química muy versátil, permite obtener en tiempo real información acerca de las

estructuras moleculares presentes y con una calibración adecuada, cuantificar los componentes

presentes.

22

En un sentido general, en esta investigación se ha abordado la determinación de la

composición molar de los componentes del gas natural (metano, etano y más pesados) utilizando

el método de referencia (cromatografía de gases) y utilizando la señal registrada tanto en la zona

del infrarrojo cercano y medio.

La técnica de calibración que se ha utilizado ha sido la calibración multivariante por

mínimos cuadrados parciales (PLS).y regresión bayesiana (linear GNBR). Las diferentes

propiedades de las muestras se han determinado en los laboratorios de los centros de

investigación colaboradores, utilizando los métodos de análisis habituales que son la

cromatografía de gases (CG) y la espectroscopia (FTIR). Los resultados de estos análisis se han

utilizado para construir y comprobar la validez de los modelos de calibración desarrollados. Los

métodos seleccionados se pueden aplicar a la Industria Química, Petroquímica, Petrolera y afines.

La investigación representa un aporte al procesamiento de datos y a los recursos de

optimización de las mismas.

El desarrollo de ésta investigación está estructurado de la siguiente manera:

El capítulo I, contempla el problema, detallando el planteamiento, los objetivos de la

investigación, la justificación, y la delimitación del estudio.

En el capítulo II, se presentan los antecedentes de la investigación, las bases teóricas y la

definición de términos básicos.

En el capítulo III, se describe la metodología bajo la cual se sistematizo el proceso de

investigación, incluyendo el diseño, técnicas e instrumentos de recolección de datos y

procedimientos aplicados.

En el capítulo IV, se presentan los resultados de la investigación, para finalmente establecer

las conclusiones y recomendaciones que servirán de base a futuras investigaciones.

CAPITULO I

EL PROBLEMA

1.1 Planteamiento del problema

Una gran parte de la energía usada en el mundo proviene de los hidrocarburos y sus

derivados. La industria del petróleo y gas representa un conjunto de actividades importantes para

el desarrollo del país, sobre la magnitud y el alcance de sus operaciones descansa la explotación

comercial y eficaz de una de las riquezas naturales no renovables a corto, mediano y al más largo

plazo posible.

La industria tiene la responsabilidad de asegurar el suministro de energía derivada de los

hidrocarburos a sus clientes en el exterior así como también abastecer su mercado interno y se

encuentra orientada hacia la búsqueda de las condiciones más favorables para producir mayores

volúmenes, teniendo como premisa el uso racional de los recursos disponibles, apoyándose en el

análisis, diagnostico y optimización de los sistemas de producción.

En este sentido, la industria del petróleo y gas en el occidente del país produce gas natural

asociado, el cual se define como una mezcla de gases que se encuentra frecuentemente en

yacimientos fósiles acompañando al petróleo. Su composición varía en función del yacimiento

del que se extrae el cual contiene principalmente metano, pero también etano, propano, butanos,

dióxido de carbono, vapor de agua, e hidrocarburos más pesados. Su importancia se deriva de sus

múltiples aplicaciones principalmente como fuente de combustibles y en la industria

petroquímica. Un conocimiento preciso de la composición del gas asociado es esencial para

determinar sus posibles aplicaciones y asimismo su valor económico.

Existen diferentes técnicas experimentales para el análisis de mezclas de gases y líquidos,

entre las que resalta la cromatografía de gases, en relación a esta técnica básicamente ha

permitido el desarrollo de los más efectivos métodos de análisis químicos.

//wikiGas

//wikiPetróleo

24

Es una herramienta muy efectiva y con su ayuda, las separaciones y determinaciones

cualitativas y cuantitativas pueden ser llevadas a cabo mezclando sustancias que se vaporizan sin

descomposición bajo las condiciones de la cromatografía o que puedan ser descompuestas de una

forma reproducible para separar, identificar y cuantificar los componentes de mezclas volátiles

complejas.

Por su parte, la espectrometría infrarroja por transformada de Fourier, tiene casi 125 años de

existencia y permite obtener en tiempo real información acerca de las estructuras moleculares

presentes, y con una calibración adecuada, cuantificar los componentes presentes. Dado que es

necesario precisar con la mayor exactitud posible la composición del gas natural asociado, es

importante investigar las técnicas propuestas en esta investigación dado que son técnicas

promisorias para obtener información de la composición y propiedades de una corriente de

mezclas de hidrocarburo.

La caracterización del gas natural por métodos de análisis utilizados en los laboratorios son

métodos normalizados por organismos oficiales, específicos para cada propiedad o analito a

determinar, logrando con esto que los procedimientos experimentales estén enmarcados en las

normas vigentes para garantizar que el conjunto de muestras a analizar sean caracterizadas en una

línea de procesos con resultados en el menor tiempo posible. Al respecto, existen normas en

Venezuela cuyo propósito es describir las consideraciones necesarias para el análisis de muestras

de diferentes tipos de gas, comprendiendo desde el procedimiento experimental hasta las

observaciones para la determinación de propiedades físicas del gas.

Debido a la creciente importancia generada en la industria del petróleo y gas en cuanto a la

aplicación de técnicas instrumentales, no solo para la identificación de componentes del gas

natural, es que efectivamente a través de estas se obtienen los datos necesarios para el cálculo de

las propiedades fisicoquímicas, tales como el poder calorífico, riqueza del gas, factor de

compresibilidad entre otras más las cuales deben determinarse utilizando los métodos de pruebas

establecidos por las normas o métodos ya estandarizados.

25

Con respecto a lo antes planteado, si una vez obtenidos los datos de un conjunto de muestras

de gas natural se aplicasen métodos matemáticos y estadísticos en donde estos dos últimos se

agrupan en una disciplina denominada “Quimiometría”, inventada hace aproximadamente treinta

años, quiere resumir el concepto que engloba la medida en química, esta se sitúa en un campo

interdisciplinar y trata específicamente, de todos aquellos procesos que transforman señales

analíticas y datos más o menos complejos en información [10 y 45].

A consecuencia de esto, el impacto generado desde el punto de vista industrial en cuanto a la

aplicación de esta disciplina en las ciencias experimentales a raíz de la automatización y

computarización de los laboratorios, una de ellas es la rápida adquisición de gran cantidad de

datos. Ahora, si bien este conjunto de datos puede ser procesado con métodos matemáticos y

estadísticos, será posible o no reconocer una tendencia en el conjunto de datos, de igual manera

se podría establecer relaciones entre el conjunto de datos, en caso de aplicar más de un modelo se

establecerían comparaciones a fin de validar cual se adapta a la corriente de procesos.

Al respecto existen una serie de artículos y trabajos de investigación en las áreas de química

orgánica, farmacología y otras, en donde existe un gran interés en establecer relaciones entre la

estructura de los compuestos sintetizados, orientados a la aplicación de modelos matemático -

estadísticos al conjunto de datos experimentales.

A tal fin, la presente investigación plantea la aplicación de modelos quimiométricos

denominados Mínimos Cuadrado Parciales (PLS) y Regresión Bayesiana (GNBR) como

alternativa para procesar datos experimentales a través de cromatografía y espectroscopia de

infrarrojo para un conjunto de muestras de gas asociado y con ello determinar una tendencia para

generar un rango de predicción de propiedades del gas asociado, así como establecer en la

práctica la aplicación de métodos experimentales para procesar e interpretar datos en el menor

tiempo posible.

26

1.2 Objetivos de la investigación

1.2.1 Objetivo General

Aplicar modelos por Mínimos Cuadrados Parciales (PLS) y Regresión Bayesiana Lineal

(linear GNBR) para la predicción de propiedades de gas asociado.

1.2.2 Objetivos Específicos

Interpretar las bandas observadas en los espectros obtenidos en Espectrometría infrarroja

por Transformada de Fourier (FTIR) por comparación con los espectros de los

componentes puros.

Verificar la presencia de muestras anómalas (“outliers”) en base a la composición

(proporcionada por el método de referencia) y a los espectros de infrarrojo.

Seleccionar las regiones de números de onda que produzcan las mejores predicciones para

los modelos de Mínimos Cuadrados Parciales (PLS) y Regresión Bayesiana Lineal

(linear GNBR).

Validar el modelo de Mínimos Cuadrados Parciales (PLS) y Regresión Bayesiana Lineal

(linear GNBR) en base a una validación cruzada.

Implementar modelos de predicción de propiedades del gas asociado a partir de espectros

de infrarrojo utilizando el algoritmo de Mínimos Cuadrados Parciales (PLS) y Regresión

Bayesiana Lineal (linear GNBR).

Realizar un análisis comparativo de los resultados obtenidos por el Modelo de Mínimos

Cuadrados Parciales (PLS) y Regresión Bayesiana Lineal (linear GNBR).

27

1.3 Justificación de la investigación

La presente investigación se enmarca en la aplicación de modelos matemático – estadístico

para el análisis de datos espectrales y datos por método de referencia de un conjunto de muestras

de gas natural asociado obtenidos por técnicas de análisis químico como cromatografía de gases y

espectroscopia de infrarrojo por transformada de Fourier en el intervalo 4700 – 400 cm-1

,

utilizando el modelo de Mínimos Cuadrados Parciales (PLS) y Regresión Bayesiana Lineal

(linear GNBR) a fin de generar un modelo de predicción de propiedades del gas natural

asociado.

Esta investigación parte de la necesidad que se presenta en la industria del petróleo y gas, si

bien la caracterización del gas asociado producido en el Occidente del país depende de técnicas

instrumentales como la cromatografía de gas y espectroscopia de infrarrojo, en el país se

disponen de laboratorios cuya automatización en el área de Instrumentación genera

almacenamiento de datos, lo cual ha permitido generar históricos de la mayor parte de los datos

asociados a un proceso industrial.

La cantidad de información disponible, hace que el conocimiento teórico práctico del cual

disponen los Ingenieros y Operadores de las plantas, no sea suficiente para hacer un uso óptimo

de esta. Se plantea así la necesidad de recurrir a los conocimientos en quimiometría, para de esta

forma, seleccionar los datos relevantes, y en función de estos conocimientos y la experiencia que

se tenga del proceso, crear modelos matemático estadístico que sean un aporte a las condiciones

de operación industrial, como el control de procesos, entre otros.

El desarrollo de actividades experimentales en muestras de gas natural por espectroscopia de

infrarrojo y cromatografía resulta una combinación de técnicas atractivas para la caracterización

del gas natural producido en el Occidente del país debido a que esta proporciona una información

química muy versátil, ya que la mezcla compleja de gases necesita considerar la determinación

simultanea de más de un analito o propiedad de interés a partir del espectro registrado de la

muestra. Además la obtención del espectro se hace de una forma rápida. De esta manera, este

trabajo a través de los métodos seleccionados se constituye de gran aporte y con amplias

aplicabilidades en las Industrias Química, Petroquímicas, Petroleras y afines.

28

El impacto científico que aportara la disciplina de la quimiometría en la industria del gas

natural está dirigido al procesamiento de datos y a los recursos de optimización de las mismas, así

como para la aplicación de modelos para la predicción de composición y propiedades de muestras

de gas asociado. De esta manera desde el punto de vista de la actividad generada en la industria

del petróleo y gas se dará respuesta al creciente interés en la aplicación de metodologías

analíticas que proporcionan gran cantidad de información, que esta sea de calidad y con respuesta

en el menor tiempo posible.

La aplicación de modelos como mínimos cuadrados parciales y regresión bayesiana lineal

puede ser implementada como una vía para el manejo automático y eficiente de datos nuevos, por

tratarse de unas técnicas robustas. Esto representa una oportunidad de agregar valor al proceso.

De esta manera es posible que los datos obtenidos por técnicas instrumentales puedan ser

procesados por estos modelos para generar una metodología de análisis de datos y así predecir las

propiedades del gas natural de un determinado campo de producción.

Desde el punto de vista académico la presente investigación puede ofrecer a otros

investigadores un excelente documento de consulta, relacionadas con la caracterización de

muestras de gas, así como de la aplicación de matemática y estadística para desarrollar

metodologías que generen oportunidades de mejoras sirviendo además las conclusiones arrojadas

por esta investigación como punto de referencia sobre temas relacionados.

29

1.4 Delimitación de la investigación

1.4.1 Delimitación Espacial

Esta investigación define su alcance territorial a las instalaciones del Instituto Zuliano de

Investigaciones Tecnológicas (INZIT), ubicado en el Km. 15 Vía La Cañada de Urdaneta, Estado

Zulia, Venezuela.

1.4.2 Delimitación Temporal

Este estudio se realizo en el periodo comprendido entre el mes de septiembre de 2009 y marzo de

2010.

1.4.3 Línea De Investigación

El presente estudio está enmarcado en la línea de investigación, Determinación de propiedades

físicas y termodinámicas de fluidos.

30

CAPÍTULO II

MARCO TEÓRICO

2.1 Antecedentes de la investigación

Quevedo, G. (2008) Método de mínimos cuadrados parciales y su similitud con una regresión

bayesiana aplicada a una red neuronal. Trabajo de Grado. (Maestría en Matemática Aplicada).

Postgrado de Ingeniería. Facultad de Ingeniería. La Universidad del Zulia. Maracaibo,

Venezuela.

El procesamiento de información en ingeniería dispone de diferentes técnicas, las cuales

pueden dar resultados similares ante problemas específicos. Se considera clave determinar la

información más relevante, una de las técnicas consideradas fue el Método de Mínimos

Cuadrados parciales (PLS). Otras utilizan Redes Neuronales las cuales en la actualidad

incorporan mejoras estadísticas como la Teoría Bayesiana para efectuar un proceso de

regularización.

Se comparo el desempeño del método de mínimos cuadrados parciales con el obtenido a partir

de una regresión bayesiana aplicada a una neurona lineal, método que se propuso denominar m-

GNBR. Se evaluó los métodos con datos espectroscópicos reales de infrarrojo cercano (NIR) y

simulados (con control del ruido). Los vectores de regresión calculados por ambos métodos

resultaron similares, lo que demostró la factibilidad del método m-GNBR sin una reducción

previa de la dimensionalidad. El algoritmo m-GNBR permitió incluso la obtención de resultados

más satisfactorios en varios de los casos estudiados. Se demostró además como el criterio BPLS,

propuesto en esta investigación, resulta una alternativa a la selección de variables latentes por el

método validación cruzada para el método PLS.

Se evidenció la capacidad del algoritmo m-GNBR para obtener resultados óptimos con datos

sintéticos ante la presencia controlada de ruido, al comparar con los valores reales sin ruido. A

partir de los resultados se manifestó la capacidad de generalización de los métodos.

31

Macho, S. (2002). Metodologías analíticas basadas en espectroscopia de infrarrojo y

calibración multivariante. Tesis doctoral. Departamento de Química Analítica I Química

Orgánica. Universitat Rovirai Virgili. Tarragona. España.

Presento el desarrollo y aplicación de metodologías analíticas basadas en la combinación de

medidas espectroscópicas de infrarrojo con métodos quimiométricos de análisis multivariante.

Las aplicaciones desarrolladas se enfocaron a la determinación cuantitativa de propiedades físicas

y químicas de interés en la industria petroquímica. Se abordo el análisis de naftas y de diferentes

tipos de polímeros y co-polímeros de polipropileno. El principal interés de este tipo de métodos

analíticos en el ámbito empresarial es la reducción del tiempo de análisis, así como la facilidad de

acoplarlos al análisis en línea, lo que se traduce en una importante mejora de la eficacia y calidad

de la producción.

Para estos dos tipos de muestras (nafta y polipropileno) se han desarrollado modelos de

calibración multivariantes de mínimos cuadrados parciales (PLS), utilizando medidas tanto de la

espectroscopia de infrarrojo medio como del infrarrojo cercano. Para la nafta se han desarrollado

modelos de calibrado para la determinación desglosada, por familia y número de carbono, de los

diferentes hidrocarburos presentes en la muestra. En el polipropileno se han desarrollado modelos

para la determinación del contenido en etileno, que se añade a la muestra en forma de polímero

gomoso para mejorar sus cualidades mecánicas, para la determinación del índice de fluidez y para

la viscosidad.

Un último aspecto de los modelos multivariantes que se considero en esta investigación ha

sido la selección de variables previa al desarrollo del modelo. La selección de longitudes de onda

en base a criterios espectroscópicos (2ª derivada y PCA) ha permitido el uso de modelos de

calibración más simples, con errores de predicción comparables a los modelos que utilizan el

espectro completo. El desarrollo de esta tesis también permitió señalar toda una serie de aspectos

del análisis multivariante, en los que se ha de poner especial énfasis cuando se utiliza esta técnica

en el ámbito industrial, como podría ser la existencia de una relación entre la propiedad de interés

y el espectro NIR de la muestra, la amplitud del intervalo de concentraciones, los factores que

afectan al error en predicción o la capacidad de controlar la validez en el tiempo del modelo.

32

Alciaturi, C. (2000) Estudio de carbones minerales por espectroscopía de infrarrojo. Tesis de

Grado (Ingeniero Químico). Facultad de Ingeniería. Universidad del Zulia, Maracaibo,

Venezuela.

Con el propósito de demostrar la posibilidad de realizar análisis cuantitativos de carbones

minerales por medio de la espectroscopia de infrarrojo medio, en esta investigación se tomó un

conjunto de 49 muestras de carbones (principalmente venezolanos) y se desarrolló un modelo

matemático para las correlaciones entre una serie de propiedades de los carbones minerales:

materia volátil, carbono fijo, porcentaje de cenizas, poder calórico, porcentajes de carbono,

hidrógeno, y azufre, y reflectancia máxima de vitrinita (consideradas variables dependientes) con

los espectros de infrarrojo medio obtenido por reflectancia difusa (variables independientes). Se

utilizó el modelo PLS (mínimos cuadrados parciales), obteniéndose buenas correlaciones para los

porcentajes de materia volátil, carbono fijo, cenizas, hidrógeno, y reflectancia máxima de

vitrinita.

García, F. (1981) Detección de helio en gas natural mediante cromatografía a temperaturas

sub-ambientales. Trabajo de Grado (Magister en Ingeniería de Gas) Facultad de Ingeniería. La

Universidad del Zulia. Maracaibo, Venezuela.

El objetivo principal de esta investigación fue la determinación de la existencia del helio en el

Gas Natural. Para la separación de los componentes, se aplico la técnica de Cromatografía a

temperatura sub-ambiental. Se analizaron muestras provenientes del Estado Barinas

pertenecientes a la Compañía Corpoven, y del Estado Zulia de la Compañía Maraven en

Lagunillas. Se utilizo un Cromatógrafo marca Hewlet Packard Modelo 7620A con un integrador

digital. En los análisis se usaron columnas empacadas con Molecular Sieve 13X, de 6 pies de

longitud y 1/8 pulgadas de diámetro, Nitrógeno como gas portador, y un equipo Criogénico

portátil para enfriar la columna. Se obtuvieron concentraciones de helio en el Estado Barinas

comprendidas entre 46 y 110 PPM mientras que en el Estado Zulia no se observó helio.

33

Piña, E. (1976) Caracterización del gas natural de Venezuela. Trabajo de Grado (Ingeniero

Químico). Facultad de Ingeniería. La Universidad del Zulia. Maracaibo, Venezuela.

Las grandes reservas de gas natural que hay en Venezuela y las diferentes aplicaciones de este

gas combustible, han conducido a la elaboración de diferentes trabajos en relación a esta materia.

El objetivo de esta investigación fue determinar la composición del gas natural en Venezuela y la

influencia que sobre sus propiedades ejerce la presencia de CO2 y N2. Este trabajo es una

actualización del trabajo elaborado por el Ing. Marcías Martínez en el año 1972. Para la

realización de este trabajo se adicionan 122 muestras a las 373 que contemplaba el trabajo del

Prof. Martínez, lo cual hace un total de 495 muestras. Las 122 muestras citadas fueron analizadas

en los Laboratorios del Instituto de Investigaciones Petroleras de L.U.Z. (INPELUZ).

De las 373 muestras incluidas en el trabajo del profesor Martínez, 331 fueron suministradas

por el Ministerio de Minas e Hidrocarburos (MMH) y el resto fueron analizadas en INPELUZ.

Los datos correspondientes a las 495 muestras fueron procesados en varios programas de

computación en el Sistema IBM 1130, en el Instituto de Cálculo Aplicado de LUZ, para la

elaboración de este trabajo. De los resultados obtenidos al comparar la muestra promedio de los

análisis hechos en INPELUZ con la muestra promedio de las que fueron suministradas por el

MMH, se concluye que éstas últimas no indican la presencia de H2S, octano ni nonano. De la

muestra promedio del gas natural en Venezuela se concluye que éste está constituido

principalmente por metano con cantidades menores de los alcanos más pesados y con pequeñas

cantidades de impurezas tales como H2S, H2O.

34

2.2 Gas Natural

El gas natural es un combustible de origen fósil que se extrae del subsuelo. Es más ligero que

el aire y los expertos coinciden a la hora de calificarlo como la energía por excelencia del siglo

XXI. Este combustible ocupa el tercer lugar en el ranking de fuentes de energía más utilizadas en

el mundo y representa la quinta parte del consumo energético mundial. Se denomina gas natural a

una mezcla de gases, cuyos componentes principales son hidrocarburos gaseosos, (en particular

el metano que aparece en una proporción superior al 70%), este se encuentra en la naturaleza en

las llamadas “bolsas de gas “, bajo tierra, cubiertas por capas impermeables que impiden su

salida al exterior se puede encontrar acompañando al crudo en pozos petrolíferos (gas natural

asociado). Puede estar en este como una capa libre, también mezclado con el petróleo y

presentarse como condensado formando una sola faz líquida con él en determinadas condiciones

de temperatura y presión, o bien en yacimientos exclusivos de gas natural (gas natural no

asociado). No existe una teoría rigurosa sobre su formación pero se puede asegurar que

proviene de un proceso análogo al de la formación del petróleo.

2.2.1 Ventajas que ofrece el Gas Natural

Comodidad: Al ser una energía de suministro continuo esta siempre disponible en la cantidad

y en el momento que se le necesite.

Limpieza: El gas natural es menos contaminante que los combustibles sólidos y líquidos.

Por un lado, como cualquier otro combustible gaseoso, no genera partículas sólidas en los

gases de la combustión, produce menos CO2 (reduciendo así el efecto invernadero), menos

impurezas, como por ejemplo azufre (disminuye la lluvia ácida), además de no generar humos.

Por otro lado, es el más limpio de los combustibles gaseosos, exceptuando el hidrogeno.

Seguridad: El gas natural, a diferencia de otros gases combustibles, es más ligero que el aire,

por lo que, de producirse alguna fuga, se disipa rápidamente en la atmósfera. Únicamente, se

requiere tener buena ventilación.

Economía: Es la energía de suministro continuo más barata.

35

2.2.2 Propiedades del Gas Natural

Algunas de las propiedades del gas natural son:

Viscosidad del gas (μg)

Es la relación entre el esfuerzo cortante y la velocidad del esfuerzo cortante, que se aplica a

una porción de fluido para que adquiera movimiento (viscosidad dinámica).

Hay distinto tipos de viscosidad, siendo las de mayor estudio la dinámica y la cinemática, siendo

ésta última la resistencia que se genera al fluir un fluido bajo el efecto de la gravedad. La

viscosidad del gas tendrá a bajas presiones (menor a 1500 lpc), un aumento de la temperatura

aumentará la viscosidad del gas, a altas presiones (mayor a 1500 lpc), un aumento de la

temperatura disminuye la viscosidad, a cualquier temperatura, si se aumenta la presión la

viscosidad aumenta, la viscosidad será mayor, a medida que el gas posea componentes más

pesados.

Densidad Relativa

Es la relación de la densidad de una sustancia a la densidad de una sustancia de referencia. Para

efectuar la relación entre ambas sustancias, es necesario que ambas se encuentren a la misma

presión y temperatura. Si asumimos un comportamiento de gas ideal para ambas sustancias, la

densidad relativa se puede expresar en función de los pesos moleculares de cada sustancia.

Peso molecular del gas

Es la unión de la de los pesos moleculares de cada elemento que conforman el gas natural. Las

unidades del peso molecular son: Kgr/Kmol ó Lb/lbmol. El gas natural, es una mezcla de

componentes y es por ello que el peso molecular del gas se obtiene sumando la fracción molar de

cada i-esimo componente por su respectivo peso molecular.

36

Donde:

Ma = Peso molecular aparente del gas.

Mi = peso molecular de cada componente de la mezcla de gas.

Fracción molar de cada componente de la mezcla de gas.

Poder calorífico

Se define el poder calorífico como la energía que se desprende en la combustión completa de la

unidad de masa o de volumen del combustible.

Poder calorífico total (PCT)

Se denomina así al poder calorífico cuando el agua resultante de la combustión se supone en

estado de vapor con los demás productos de la combustión.

Poder calorífico neto (PCN)

Se denomina así al poder calorífico cuando el agua resultante de la combustión se supone líquida

(condensada) en los productos de combustión.

En los contratos de compra de gas suelen definir el poder calorífico bruto del gas que suele

situarse en 950 Btu/scf. Dado que el nitrógeno no tiene un considerable poder calorífico, en

algunos casos, cuando el gas no alcanza las mínimas exigencias en cuanto al poder calorífico, se

procederá a la retirada de este nitrógeno del caudal de gas, este proceso se realizará mediante

plantas de baja temperatura o con membranas permeables.

Por tanto la diferencia entre PCN y PCT es igual por definición al calor de condensación del

vapor de agua resultante de la combustión del combustible. La relación PCB/PCN depende de la

proporción de los elementos carbono e hidrogeno presentes en gas.

Generalmente el valor del gas depende de su poder calorífico, de todas formas si existiera un

mercado para el etano, propano, butano, etc., puede ser rentable separar estos componentes del

gas aunque rebajemos su poder calorífico. En algunos casos, cuando el gas es suministrado como

combustible residencial, los contratos de venta pueden pedir restringir los contenidos de

componentes altos del Btu, por lo que habrá que tratar este gas para minimizar su contenido.

37

2.3 Cromatografía de Gases

La cromatografía de gases o la cromatografía en fase de vapor [24], es una metodología

analítica instrumental que permite la separación de los componentes de una mezcla. Como su

nombre lo indica, esta metodología requiere que los componentes a separar se encuentran en fase

gaseosa; para ello es posible calentar la muestra y realizar así el análisis de sólidos o líquidos, sin

embargo, de todos modos esto resulta una limitante al método. Sólo es posible analizar por

cromatografía de gas aquellos compuestos que puedan ser volatilizados en las condiciones de

operación de los equipos, a pesar de ello, el número de compuestos que pueden ser analizados por

cromatografía de gas es enorme.

El principio bajo el cual operan los equipos de cromatografía de gas es la afinidad de dos

compuestos (sea esta solubilidad, adsorción o absorción). En el caso de la cromatografía de gas

uno de los compuestos se encuentra inmovilizado en un lecho fijo (fase estacionaria) y puede ser

un sólido o un líquido soportado sobre un sólido inerte, el otro compuesto se desplaza sobre la

fase estacionaria arrastrado por una corriente de un gas (fase móvil). El compuesto en la fase

móvil interacciona con la fase estacionaria adsorbiéndose, para un instante después desorberse,

estableciendo así un equilibrio adsorción-desorción; sin embargo el momento que el compuesto

en la fase móvil, pasa adsorbido en la fase estacionaria, hace que su viaje se retrase con respecto

al frente del gas portador. Si se establecen varios de estos equilibrios a lo largo del trayecto, el

retraso del compuesto en la fase móvil será considerable.

Cuando se tiene una mezcla de dos componentes, que poseen una afinidad diferente por una

misma fase estacionaria, cada uno establecerá, con esta, un equilibrio diferente y por lo tanto el

retraso de cada uno, con respecto al frente, será diferente. Si el largo del lecho es lo

suficientemente grande, después de un cierto tiempo (número de equilibrios que se puedan

establecer) se habrá logrado la separación total de los dos componentes. De igual forma, cuando

la mezcla está constituida por más de dos componentes, cada uno de ellos establecerá un

mecanismo de retención diferente ante una misma fase (selectividad), lo que permitirá su

separación.

Resulta evidente que mientras más compleja sea la muestra, más difícil será encontrar una fase

estacionaria que presente una selectividad distinta para cada uno de los compuestos de la mezcla.

38

Quizás el mayor problema para realizar un buen análisis por cromatografía de gas, es la

adecuada selección de la fase estacionaria y existen varias formas de realizar esto, sin embargo

una buena opción inicial seria la regla de “Lo similar disuelve a lo similar”. Esto significa, que si

los componentes a separar son polares se escogerá para separarlos una fase estacionaria polar.

2.3.1 Resultados obtenidos de la Cromatografía de Gas

Cuando se usa un registrador con gráfica de banda [24], la inscripción obtenida de un análisis

cromatográfico se llama Cromatograma. Generalmente el tiempo es la abscisa y los milivoltios la

ordenada. A continuación se muestra un Cromatograma que ilustra los resultados que se pueden

obtener (figura 1).

Figura 1 Cromatográma de un gas natural. Fuente: Guzmán (2006)

Velocidad

El análisis total se completa en 10 minutos. El uso de gas como la fase movible tiene la

ventaja de un equilibrio rápido entre las fases movibles y estacionarias y permite el uso de gases

portadores de alta velocidad. El logro de análisis con una duración de minutos es algo común en

cromatografía de gas-liquido.

Resolución

Los picos 1, 2, 3, representan el metano, el etano y el propano respectivamente. La separación

de estos compuestos por medio de otras técnicas es extremadamente difícil o imposible. La

diferencia del punto de ebullición se puede pasar por alto ya que los picos varían solo en sus

grados de no saturación.

39

Análisis Cualitativo

El tiempo de retención es un valor constante para cada componente. Este valor, fácilmente

reproducible hasta en un 1%, se usa para identificar cada pico. Muestras usadas como patrones,

demuestran ser muy efectivas en la identificación de picos.

Análisis Cuantitativo.

El área ocupada por cada pico es proporcional a la concentración de aquel pico. Esto puede

usarse para determinar la concentración exacta de cada componente. En la gráfica anterior, por

ejemplo, las áreas de los picos son medidas por un integrador electrónico digital y son utilizadas

para realizar el cálculo de determinación de la concentración de cada componente por

comparación con muestras patrones. Generalmente el análisis cuantitativo es preciso con una

relatividad del 1 al 2%, aún en medidas de áreas, calculadas manualmente.

2.3.2 Ventajas de la Cromatografía de Gas

Las ventajas de esta técnica de elusión son:

La columna se regenera continuamente por la fase de gas inerte.

Generalmente los componentes de la muestra se separan completamente y se mezclan solo con un

gas inerte haciendo más fácil la colección y determinación cuantitativa.

El tiempo de análisis es corto.

Una desventaja es que componentes que se retienen fuertemente se mueven muy lentamente o

en algunos casos permanecen inmóviles. Esta dificultad se puede superar programando la

temperatura de la columna para reducir el tiempo de elusión. La programación de la temperatura

es el aumento de temperatura de la columna durante un análisis para proporcionar análisis más

rápidos y más versátiles.

40

2.3.3 Usos de la Cromatografía de Gas

Métodos analíticos

La cromatografía de gas se usa para identificar y determinar cualquier material que tenga una

presión de vapor apreciable (1 a 1000 mm) a una temperatura determinada para operar la

columna (-70 ºC a +400 ºC). Muchos sólidos han sido analizados por sus diseños característicos

“locos” que se forman a temperaturas aún más altas.

Métodos de investigación

Muchas propiedades físicas, tales como superficie de área, adsorción isoterma, temperatura de

solución, coeficientes de actividad, coeficientes de partición, peso molecular, y presión de vapor,

pueden ser fácilmente medidos. Estos procedimientos generalmente dan resultados comparables a

métodos clásicos lentos para determinar estas propiedades.

2.4 Espectroscopia de Infrarrojo

La espectroscopia molecular se basa en la interacción entre la radiación electromagnética y las

moléculas. Dependiendo de la región del espectro en la que se trabaje y por tanto de la energía de

la radiación utilizada (caracterizada por su longitud o número de onda), esta interacción será de

diferente naturaleza: excitación de electrones, vibraciones moleculares y rotaciones moleculares

[70]. La molécula, al absorber la radiación infrarroja, cambia su estado de energía vibracional y

rotacional. Las transiciones entre dos estados rotacionales requieren muy poca energía, por lo que

solo es posible observarlas específicamente en el caso de muestras gaseosas. En el caso del

estudio del espectro infrarrojo (IR) de muestras sólidas y líquidas sólo se tienen en cuenta los

cambios entre estados de energía vibracional [58].

Utilizando la mecánica quántica y el modelo del oscilador anarmónico para representar los

enlaces, se demuestra que las bandas en el infrarrojo se producen como consecuencia de

transiciones entre niveles de energía en los que el número cuántico vibracional ( ) cambia en una

unidad (Δ = ±1), denominada banda fundamental, o en más de una unidad (Δ = ±2, ±3,...), que

se denominan sobretonos [28].

41

Aunque teóricamente son posibles Δ superiores, en la práctica sólo se observan estas tres

transiciones. Las bandas de absorción aparecen aproximadamente (existen otros términos

despreciables) a frecuencias: (la banda fundamental), 2 y 3 (los sobretonos) [33]. Estos

últimos tienen una menor intensidad que la banda fundamental. También se producen bandas

como consecuencia de la interacción de dos vibraciones diferentes:

Una molécula poliatómica (n átomos) tiene 3n-6 modos de vibración diferentes (3n-5 si la

molécula es lineal). Cada uno de estos modos de vibración viene representado por una curva de

energía potencial diferente y da lugar a una banda fundamental y sus correspondientes sobretonos

en el infrarrojo. Los modos de vibración que se producen incluyen: cambios en la distancia de

enlace (elongaciones o stretching, que pueden ser simétricas o asimétricas) y cambios en el

ángulo de enlace, o bending (simétricos en el plano, asimétricos en el plano, simétricos fuera del

plano y asimétricos fuera del plano) [71].

2.4.1 Vibraciones Moleculares

Las moléculas poseen movimiento vibracional continuo. Las vibraciones suceden a valores

cuantizados de energía.

Las frecuencias de vibración de los diferentes enlaces en una molécula dependen de la masa

de los átomos involucrados y de la fuerza de unión entre ellos. En términos generales las

vibraciones pueden ser de dos tipos: estiramiento (stretching) y flexión (bending). Las

vibraciones de estiramiento son aquellas en las que los átomos de un enlace oscilan alargando y

acortando la distancia del mismo sin modificar el eje ni el ángulo de enlace. Si el enlace se

alarga, aparece una fuerza restauradora que hace que los dos átomos tiendan a juntarse hasta su

longitud de enlace de equilibrio. Si el enlace se comprime, la fuerza restauradora hace que los

átomos se separen. Cuando el enlace se alarga o se comprime, y a continuación se deja en

libertad, los átomos vibran.

42

Figura 2 Longitud de enlace de una molécula. Fuente: Guzmán (2006)

Las vibraciones moleculares dependen de las masas de los átomos. Los átomos pesados vibran

lentamente, por lo que tendrán una frecuencia más baja que los átomos más ligeros. La frecuencia

de una vibración disminuye al aumentar la masa atómica. La frecuencia también aumenta con la

energía de enlace, por lo que un doble enlace C=C tendrá una frecuencia más elevada que un

enlace sencillo C-C.

Una molécula no lineal con n átomos tiene 3n - 6 modos de vibración fundamental. El agua

tiene 3(3) - 6 = 3 modos. Dos modos son de tensión y uno de flexión.

Figura 3 Tipos de tensión vibracional. Fuente: Guzmán (2006)

La tensión puede ser simétrica cuando los dos enlaces O-H se alargan al mismo tiempo. En

una tensión asimétrica un enlace O-H se alarga, mientras que el otro enlace O-H se comprime. La

flexión, también conocida como movimiento en tijereta, se produce cuando el ángulo H-O-H

disminuye y aumenta pareciendo unas tijeras.

43

2.4.2 Regiones Espectrales

La región infrarroja del espectro electromagnético se extiende entre la zona del visible y la de

las microondas, tal como se muestra en la Figura 4.

Figura 4 Región infrarroja del espectro electromagnético. Fuente: Macho (2002)

La sección de mayor utilidad práctica de la extensa región IR es la que se extiende entre 4000

y 650 cm-1

denominada región infrarroja media. La utilización de la región IR lejana (Far

Infrared, FIR), entre 650 y 200 cm-1

, se ha ampliado considerablemente en los últimos decenios,

sobre todo para el estudio de compuestos órgano-metálicos o inorgánicos (átomos pesados,

enlaces débiles). La región IR cercana (Near Infrared, NIR), entre 12500 y 4000 cm-1

, accesible a

la óptica de cuarzo, donde se presentan las bandas armónicas, ha sido utilizada para

determinaciones cuantitativas pero mucho menos intensamente con fines estructurales Aún una

molécula relativamente sencilla puede dar lugar a un espectro de absorción IR muy complejo.

Puede decirse que el espectro IR caracteriza a una estructura molecular: dos moléculas

diferentes deben mostrar espectros IR diferentes (a excepción de los isómeros ópticos). Esta

propiedad ha sido utilizada ampliamente en la caracterización de compuestos orgánicos. La

existencia de extensas bases de datos de espectros IR permite el uso de esta técnica acoplada a

sistemas cromatográficos en la identificación y determinación rápida de componentes de mezclas

orgánicas.

Aunque el espectro IR caracteriza a cada compuesto, se encuentra que ciertas agrupaciones

atómicas dan lugar siempre a bandas en un determinado intervalo de frecuencias, independiente

de la naturaleza del resto de la molécula. La existencia de estas bandas, características de grupos

funcionales, permite una amplia utilización de la espectroscopia IR en la determinación

estructural.

44

La técnica IR se puede aplicar en determinaciones cuantitativas basadas en la ley de Beer. El

cumplimiento de la ley de Beer se logra si la anchura nominal de la radiación de excitación

(mono-cromaticidad del haz) es mucho menor que la anchura de la banda de absorción. Esta

relación es con frecuencia poco favorable en IR donde las bandas de absorción son mucho más

finas que en la zona UV-Vis. Pueden también presentarse problemas con la reproducibilidad de

los espectros por las dificultades inherentes a la preparación de muestras en IR. No obstante, estas

dificultades pueden solventarse con un trabajo más cuidadoso que el usual en las determinaciones

cuantitativas en UV-Visible.

2.4.3 Características de un Espectro

El espectro de infrarrojo de un compuesto es una representación gráfica de los valores de onda

(μ) o de frecuencia (cm-1

) ante los valores de por ciento de transmitancia (%T).

La absorción de radiación IR por un compuesto a una longitud de onda dada, origina un

descenso en el %T, lo que se pone de manifiesto en el espectro en forma de un pico o banda de

absorción.

Figura 5 Representación gráfica de los valores de onda (μ) o de frecuencia (cm-1

) ante los valores de porcentaje de

transmitancia (%T). Fuente: Guzmán (2006)

2.4.4 Tipos de medidas en Infrarrojo

Cuando la radiación incide en la muestra (Figura 6), ésta puede sufrir diferentes fenómenos:

absorción, transmisión y reflexión. La intensidad de la luz transmitida a través de la muestra (PT)

45

es menor que la intensidad incidente (P0). Una parte de esta intensidad incidente se ha reflejado

(PR), mientras que otra parte ha sido absorbida por la sustancia (PA)

Figura 6 Fenómenos de absorción, transmisión y reflexión de la radiación electromagnética al interaccionar con la

materia. Fuente: Macho (2002)

La medida más común en el infrarrojo es la que se basa en la absorción (o la intensidad

transmitida), aunque también se han desarrollado espectroscopias basadas en el fenómeno de la

reflexión como son la reflectancia total atenuada y la reflectancia difusa. A continuación se hace

una descripción de las técnicas mencionadas:

Transmitancia y Absorbancia

El espectro por transmisión a través de la muestra determina PA, ya que esta pérdida en la

intensidad luminosa incidente está relacionada con la concentración de la muestra. La

transmitancia, T, se calcula como la fracción de radiación (PT/P0) transmitida a través de la

muestra. La intensidad de absorción de la luz, absorbancia (A) se calcula como:

La representación de la transmitancia o de la absorbancia como una función de la longitud de

onda, λ, o del número de onda , , es lo que conforma el espectro de la muestra. La relación que

existe entre la concentración y la absorbancia está descrita por la ley de Lambert-Beer:

46

La absorción de la radiación por parte de la muestra es proporcional a la longitud del camino

óptico (anchura de la celda, l ) [en cm], a la concentración de la solución [mol/L] y a una

constante proporcional específica de cada muestra, , denominada absortividad molar, [L mol-1

cm-1

]. Esta ley lineal se cumple únicamente para disoluciones diluidas (c≤ a 0.1 M), pudiéndose

producir desviaciones de la linealidad a concentraciones más elevadas al variar como

consecuencia de cambios en el índice de refracción de la disolución. Otras desviaciones de la

linealidad tienen su origen en la propia instrumentación: presencia de luz reflejada y dispersada,

luz no estrictamente monocromática o detectores de respuesta no lineal [48].

Medición de Transmitancia y Absorbancia

La transmitancia y la absorbancia se miden en un instrumento llamado espectrofotómetro, la

solución del analito se debe contener en algún recipiente transparente, tubo o celda.

Figura 7 Solución del analito atravesada por el haz de luz. Fuente: Macho (2002)

Como se puede ver en la representación, ocurre reflexión en las interfases: aire-pared, tanto

como en la pared-solución. La atenuación del haz resultante es sustancial. Además, la atenuación

de un haz puede ocurrir por dispersión de las moléculas grandes y a veces por absorción de las

paredes del recipiente.

Para compensar estos efectos, la potencia del haz transmitido por la solución del analito es

comparada comúnmente con la potencia del haz transmitido por una celda idéntica que contiene

solamente solvente. Una absorbancia experimental que se aproxima mucho a la absorbancia

verdadera se obtiene con la ecuación.

47

Los espectrofotómetros, están a menudo, equipados con un dispositivo que tiene una escala

lineal que se extiende de 0 a 100%. De manera de hacer tal instrumento de lectura directa en

porcentaje de transmitancia, se efectúan dos ajustes preliminares, llamados 0%T y 100%T. El

ajuste del 0%T se lleva a cabo mediante un cierre mecánico del detector. El ajuste de 100%T se

hace con el cierre abierto y el solvente en el camino de la luz. Normalmente el solvente está

contenido en una celda que es casi idéntica a las que contienen las muestras.

Cuando la celda del solvente es reemplazada por la celda que contiene la muestra, la escala da

la transmitancia porcentual. Los instrumentos actuales poseen un sistema electrónico que realiza

la operación matemática y da la respuesta directamente absorbancia. También hay que hacer una

calibración previa con el solvente o blanco.

Reflectancia Total Atenuada

El principio de esta medida se basa en el fenómeno de la reflexión total interna y la

transmisión de la luz a través de un cristal con un elevado índice de refracción (Figura 8). La

radiación penetra (unos mm) más allá de la superficie del cristal donde se produce la reflexión

total, en forma de onda evanescente [65]. Si en el lado exterior del cristal se coloca un material

absorbente (muestra), la luz que viaja a través del cristal se verá atenuada (de ahí el nombre de la

técnica) y se puede registrar el espectro de la muestra. El ángulo de la luz incidente y la

geometría del cristal facilitan que se produzcan sucesivas reflexiones en sus caras internas. El

espectro medido tiene una apariencia similar al espectro de transmisión, excepto por ciertas

variaciones en la intensidad en función de la longitud de onda que se producen.

Figura 8 Reflexión total interna y elemento de reflexión interna (IRE) utilizado en el sistema ATR.

Fuente: Macho (2002)

48

La profundidad de penetración [65], dp, depende de la longitud de onda de la radiación, l, del

índice de refracción del cristal, np, del índice de refracción de la muestra, ns, y del ángulo de

incidencia del haz de radiación del cristal, q, de acuerdo con la ecuación:

donde nsp = ns/np (ns<np). El camino óptico total en la muestra se obtiene multiplicando dp por el

número de reflexiones que se hayan producido a través de la muestra. Esta técnica de muestreo es

muy efectiva para el análisis de sólidos y líquidos, especialmente en las regiones del infrarrojo

medio y del infrarrojo cercano. Para obtener medidas adecuadas es necesario que exista un

contacto íntimo entre la muestra y el cristal del ATR, por lo que esta técnica se utiliza sobretodo

en líquidos o en sólidos que se puedan compactar contra el cristal aplicando presión. Esta técnica

es especialmente útil, por ejemplo, en el caso de medir muestras viscosas utilizando caminos

ópticos muy cortos: una celda de transmisión de estas características sería muy difícil de llenar y

limpiar debido a la consistencia de la muestra.

Reflectancia difusa

Otra medida que se basa en el fenómeno de la reflexión es la reflectancia difusa. Cuando la

luz incide sobre una muestra opaca y no absorbente tiene lugar el fenómeno de la reflexión

especular regido por las ecuaciones de Fresnel (Figura 9a).

Figura 9 Procesos de reflexión en un material especular (a) o irregular (b). Fenómeno de reflectancia difusa (c).


La intensidad reflejada sobre el total incidente depende de los índices de refracción del aire y

la muestra (n1, n2). Para el caso de un ángulo de incidencia igual a cero la expresión es [58]:

49

Cuando la luz incide sobre una superficie irregular, se puede considerar que la frontera entre el

medio y la muestra está formado por una serie de pequeñas interfases orientadas en todos los

ángulos posibles (Fig. 9b). De esta forma aunque cada una de estas pequeñas interfases refleja la

luz siguiendo la ley de Fresnel, el efecto global es una reflexión de la luz a cualquier ángulo

(reflectancia difusa). La radiación que se transmite a través de la primera interfase (Fig. 9c) puede

sufrir absorción por parte de la muestra, por lo que la intensidad de la luz se verá atenuada según

la ley de Beer.

Esta radiación que ha atravesado la primera capa de partículas se difunde a las siguientes capas

a través de reflexiones aleatorias, refracciones y dispersión y puede sufrir nuevos fenómenos de

atenuación. La longitud de camino óptico seguido por la luz es muy difícil de describir

matemáticamente, sobre todo si las partículas de la muestra tienen tamaños heterogéneos, por lo

que no se ha desarrollado una teoría rigurosa de la reflectancia difusa. Sí que existen teorías

basadas en la práctica, la más conocida la de Kubelka-Munk [37]. Esta teoría propone para una

capa completamente opaca y de grosor infinito:

donde R∞ es la reflectancia de la capa infinitamente gruesa, y k y s son las constantes de

scattering y absorción, respectivamente. El coeficiente de absorción (k), es igual a la

concentración multiplicada por la absortividad definida en la ley de Beer (e c). En la práctica la

reflectancia difusa se mide respecto a un estándar no absorbente y a continuación se calcula el

logaritmo para llegar a una relación lineal con la concentración:

R y Rstand representan la reflectancia de la muestra y del estándar respectivamente (siendo mayor

la reflectancia del estándar que la de la muestra). Para la luz monocromática log Rstand es

constante y puede ser ignorado. Si se cumple la condición de aditividad del espectro, la expresión

anterior puede ser reescrita como:

50

Cómo en el caso de la ley de Beer, existe una relación entre la concentración y la radiación

medida en el espectro. Aunque existe el inconveniente de que s no es constante y depende de

varias propiedades de la muestra, como el tamaño de partícula y el contenido de humedad. Al

aumentar el tamaño medio de partícula (s α 1/d) se produce una reducción del scattering y la

radiación penetra más profundamente en la muestra, con lo que el log(1/R) aumenta. El efecto es

un desplazamiento a lo largo del eje de ordenadas como función del tamaño de partícula. Además

el scattering de las partículas pequeñas depende de la longitud de onda, lo que provoca que el

desplazamiento debido al tamaño de partícula no sea constante en todo el espectro.

La presencia de agua en el espectro provoca la aparición de bandas características, y además

afecta a la totalidad del espectro debido a la variación que se introduce en el índice de refracción

del medio (no), provocando un aumento de log(1/R). Puesto que el grado de humedad puede

variar entre muestras, en la práctica la constante de scattering (s) se convierte en una incógnita

para cada una de las nuevas muestras, por lo que no se puede llevar a cabo el análisis

cuantitativo.

2.4.5 Interpretación de Espectros

Asignación de bandas

En el espectro infrarrojo medio, entre 4000 y 1300 cm-1

(región de frecuencias de grupo) se

observan una serie de bandas asignadas a vibraciones de sólo dos átomos de la molécula. En este

caso la banda de absorción se asocia únicamente a un grupo funcional y a la estructura molecular

completa, aunque hay influencias estructurales que provocan desplazamientos significativos en la

frecuencia de la vibración.

Esta vibraciones derivan de grupos que contienen hidrógeno (C-H, O-H, y N-H) o grupos con

dobles y triples enlaces aislados. Entre 1300 y 400 cm-1

(fingerprint region) la asignación a

grupos funcionales determinados es más difícil debido a la multiplicidad de bandas, pero es una

zona de espectro muy útil para la identificación de compuestos específicos [32]. La Figura 10,

muestra un cuadro resumen de las frecuencias de absorción de los grupos funcionales más

comunes en el IR medio.

51

En el espectro de infrarrojo cercano, predominan las bandas debidas a sobretonos y

combinaciones de enlaces en los que participa el hidrógeno (debido a que aumenta el grado de

anarmonicidad de la vibración), en la Figura 11, se muestra un cuadro resumen de las absorciones

más habituales en el infrarrojo cercano.

Figura 10 Frecuencias de vibraciones en el infrarrojo medio. Fuente: Macho (2002)

Figura 11 Frecuencias de vibración en el infrarrojo cercano. Fuente: Macho (2002)

En el NIR las bandas de absorción no están tan bien definidas como en el infrarrojo medio,

apareciendo en forma de bandas anchas y solapadas entre si, por lo que es más difícil realizar una

asignación a un componente o grupo funcional concreto de la muestra.

Las bandas tienen una menor intensidad (la absortividad de la muestra es menor), por lo que

se debe trabajar con caminos ópticos más largos, de 0.5 a 10 mm, frente a los 10-50 mm

utilizados en el infrarrojo medio.

52

Figura 12 Comparación entre el espectro IR y NIR del ciclohexano. Fuente: Macho (2002)

Derivadas (primera y segunda)

Una aproximación alternativa al problema de la superposición de picos y a la corrección de la

línea base es el uso de la segunda derivada del espectro. La primera derivada del espectro se

puede calcular muy fácilmente restando las absorbancias a longitudes de onda adyacentes (en el

caso de longitudes de onda equidistantes). La segunda derivada se obtiene aplicando de nuevo

este proceso. La segunda derivada tiene ciertas características muy interesantes: tiene mínimos en

la posición de las bandas de absorción del espectro original, facilitando en gran medida la

resolución de los picos solapados. Además, también elimina problemas en la línea de base. Sus

principales desventajas son que disminuye la relación señal/ruido y aumenta la complejidad del

espectro. Debido a que la diferenciación es una operación lineal, la ley de Lambert-Beer sigue

siendo válida en el espectro derivado, por lo que éste puede ser utilizado para determinaciones

cuantitativas.

Figura 13 Resolución de dos bandas solapadas a través de la segunda derivada. Fuente: Macho (2002)

53

El uso de derivadas consigue diferenciar mejor los picos solapados y elimina desplazamientos

lineales y cuadráticos de la línea base. La primera derivada se obtiene como la diferencia entre las

absorbancias, A, a dos longitudes de onda consecutivas

La derivada reduce la correlación entre variables y el efecto la dispersión debido al tamaño de

las partículas. Presenta el inconveniente de magnificar el ruido en la señal, por lo que

habitualmente se utiliza en combinación con métodos de suavizado de la señal. Derivadas de

orden superior se obtienen aplicando sucesivamente la derivada, aunque no suelen utilizarse

superiores a orden 2 (segunda derivada), ya que decrece la relación señal-ruido (S/N).

Figura 14 Ejemplo de la derivada de un espectro de nafta (arriba), sin utilizar un suavizado (en medio) y utilizando

un suavizado de Savitzki-Golay (abajo). Fuente: Macho (2002)

Una desventaja del uso de las derivadas es que disminuyen el valor de la relación señal-ruido,

por esta razón, se recomienda realizar un suavizado de la señal antes de la diferenciación de los

datos. Otra desventaja es que en ocasiones los modelos de calibración obtenidos mediante datos

espectrales tratados con primera o segunda derivada, son menos robustos frente a cambios

instrumentales, como por ejemplo derivas de la longitud de onda, que ocurren a lo largo del

tiempo, por lo que habría que revisar las calibraciones [11].

54

2.5 Fundamentos Quimiométricos

El progresivo aumento de la complejidad de la instrumentación analítica ha permitido obtener

volúmenes de datos cada vez mayores. La conversión de estos datos en información útil requiere

del uso de herramientas matemáticas y estadísticas, que se han agrupado en la disciplina

denominada Quimiometría [35, 45, 44, 17, 9].

2.5.1 Descomposición en componentes principales (PCA)

Al utilizar métodos espectroscópicos se obtienen respuestas de cada muestra para cientos o

miles de variables, en este caso longitudes de onda. La matriz, RIxJ (I filas por J columnas)

representa las respuestas de I muestras analizadas a J longitudes de onda diferentes. El elevado

número de variables J que caracterizan cada muestra impiden un análisis y representación gráfica

sencillos de las muestras. En este caso, el método de descomposición en componentes principales

[43] es muy útil, porque permite representar la variabilidad presente en R, en unos pocos factores

(o componentes principales) que son combinaciones lineales de las variables originales.

Figura 15 Representación gráfica de la descomposición en componentes principales de un conjunto de muestras

definidas por dos únicas variables. En este sencillo ejemplo la descomposición consiste en un simple cambio de ejes

(componentes principales). Fuente: Macho (2002)

El análisis en componentes principales proporciona una aproximación a la matriz R como un

producto de dos matrices: la matriz de scores, T y la matriz de loadings, P, que capturan la

estructura de los datos de R. Los scores capturan la estructura de las filas o lo que es lo mismo,

las relaciones entre objetos (muestras) y los loadings retienen la relación existente entre las

variables.

55

Figura 16 Notación matricial de la descomposición en componentes principales. Fuente: Macho (2002)

El análisis de componentes principales (PCA) se aplica frecuentemente cuando se trabaja con

datos colineales. Esta colinealidad en los datos significa que la información principal de las

variables R se puede condensar en un conjunto más pequeño de A variables. Cada una de estas

nuevas A variables se denomina componente principal o factor. El conjunto de factores se puede

ver más claramente si se representa el producto TPT como la suma de A términos de la forma

, que corresponden a cada una de las A columnas de las matrices T y P.

Figura 17 Notación matricial extendida de la descomposición en componentes principales. Fuente: Macho (2002)

El primer componente principal es aquél que explica una mayor cantidad de la información

contenida en R (maximiza ). El siguiente factor p2, explica la máxima información

de R no contenida en p1 (maximiza y es ortogonal al primer componente principal,

esto es ). Los sucesivos factores explican cada vez menos información y son ortogonales a

los anteriores. Las condiciones de ortogonalidad de scores y loadings se pueden resumir como:

)

56

Si la matriz R está centrada, entonces representa los valores propios de la matriz RTR, y los

vectores pa representan sus vectores propios. Esto significa que los loadings satisfacen la

ecuación:

La magnitud de los valores propios indica la cantidad de variabilidad (información) que

retiene cada uno de los componentes principales.

El análisis en componentes principales es muy útil para la interpretación de datos

multivariantes. Por un lado, la representación de los scores permite establecer relaciones entre las

muestras, permitiendo así la detección de muestras discrepantes y agrupaciones. Por otra parte,

los loadings permiten comparar y estudiar la influencia de las distintas variables (longitudes de

onda en este caso).

2.5.2 Selección de muestras de calibración

El principal objetivo en un estudio analítico es la obtención de un modelo para la predicción

de nuevas muestras, todas las posibles fuentes de variación que puedan ser encontradas en el

futuro deben estar incluidas en el conjunto de datos de calibración. Todos los componentes

químicos y parámetros físicos han de estar presentes en las muestras de calibración en un rango

de concentración o valores como mínimo tan amplio o preferentemente más amplio que aquel

esperado para las muestras a predecir en el futuro. Por ello, para obtener un buen modelo de

calibración multivariante se necesitan: modelos estadísticos adecuados, procedimientos de

estimación adecuados, y buenos datos experimentales.

Normalmente, cuanto mayor es el número de muestras utilizado para la calibración, mejor es

la capacidad predictiva del modelo utilizado y menor el error en predicción [39]. Se ha

demostrado que no sólo es importante el número de muestras sino la forma en la que son elegidas

dichas muestras [53].

57

El análisis NIR es, a menudo, simple y no costoso; sin embargo, no puede decirse lo mismo

del método de referencia. Debido a ello, es necesario llegar a un compromiso entre el número de

muestras a ser analizadas y el error en predicción que se va a obtener. Existen diferentes

estrategias de selección de “buenas” muestras de calibración y es importante resaltar que no solo

es importante la capacidad de predicción del modelo construido, sino también la capacidad del

mismo para detectar problemas o errores [54].

2.5.3 Técnicas de pre-tratamiento de datos

El pre-tratamiento de la señal es uno de los primeros pasos que se lleva a cabo en el análisis de

datos multivariantes. Consiste en manipulaciones matemáticas que se aplican antes de cualquier

otro tipo de análisis y tratan de anular o, al menos reducir, fuentes de variabilidad en la señal, ya

sea de carácter aleatorio (como el ruido) o de carácter sistemático (variaciones en la línea base,

etc.), que no están relacionadas con el analito o la propiedad de interés.

Centrado

El centrado de una variable consiste en la sustracción del valor medio a todos sus elementos.

En el caso de los datos espectrales el centrado consiste en restar al espectro de cada una de las

muestras el espectro medio. Este pre-tratamiento pone de relieve las diferencias entre espectros,

al haber eliminado la tendencia común (el espectro medio). Se utiliza tanto en PCA como en PCR

o PLS.

Figura 18 Centrado por columnas. a) Objetos definidos por dos variables. b) Los mismos objetos centrados.

c) Espectro de 12 muestras de alcohol polivinílico (PVA). d) Los mismos espectros de PVA centrados.


58

Suavizado

La aplicación de técnicas de suavizado tienen el objeto de reducir matemáticamente el ruido

aleatorio que acompaña a la señal analítica. Aunque existen otros métodos más sencillos como el

de la media móvil, existe una herramienta basada en un ajuste polinómico móvil, como es el filtro

de Savitzki-Golay [69]. Este suavizado consiste en interpolar un polinomio de grado n cada serie

de m puntos de la señal, de forma que el valor de la respuesta en cada punto se reemplaza por una

combinación lineal de los puntos vecinos. Este método, al requerir el uso de 2m+1 valores para el

cálculo de cada valor de la señal corregida, provoca el truncamiento del espectro en sus extremos,

perdiendo 2m+1 valores en cada aplicación.

Figura 19 Suavizado de una señal espectroscópica utilizando una ventana de 21 puntos y un polinomio de 3er

grado.


Corrección de la Línea Base

Aparte de fuentes de variabilidad de alta frecuencia, como sería el ruido, la señal medida

puede contener fuentes de variabilidad de baja frecuencia, no relacionadas con la propiedad de

interés, y que se denominan variaciones de la línea base. A continuación se presentan las

diferentes herramientas que se aplican en la práctica para corregir la variación de la línea base.

Modelado explícito de la línea base

Este método consiste en aproximar la línea de base del espectro con una función polinómica,

que se resta posteriormente al espectro para obtener el espectro corregido. El caso más sencillo

sería el polinomio de grado 0 (una constante), también denominada offset correction y consiste en

restar a cada espectro la absorbancia medida a una determinada longitud de onda.

59

La selección de esta longitud de onda se puede hacer en base al conocimiento

químico de la muestra (debe ser una zona sin absorción de ningún componente que varíe en la

muestra), tomando la longitud de onda de menor variabilidad entre muestras o la longitud [33] de

onda que al realizar un modelo PLS tiene un valor en los loadings próximo a cero [59].

Figura 20 Espectros NIR de muestras de nafta sin pretratamiento (a), offset correction a 1100 nm (b) y primera

derivada (c). Fuente: Macho (2002)

Se pueden utilizar polinomios de grado superior, para adaptar la corrección a las

características de la variación de la línea base. Los más habituales son el uso de una línea recta

(polinomio de grado 1) o de una curva (polinomio de grado 2). Cuando se utilizan polinomios de

grado 1 o 2, esta corrección se denomina detrending. En la Figura 21, se muestra un ejemplo

esquemático de una corrección utilizando un polinomio de primer grado.

Figura 21 Esquema del proceso de corrección de la línea base utilizando un modelo explícito lineal (detrendig).


60

2.5.4 Etapas de la Calibración Multivariante

Entre los métodos quimiométricos que mayor éxito han tenido en las aplicaciones industriales

se encuentra los dirigidos a cuantificar (calibración multivariante). Las etapas para llevar a cabo

una regresión multivariante a partir de datos espectroscópicos propuestas por la ASTM en sus

prácticas estándar [74] son: Selección del conjunto de muestras de calibración, establecimiento

del modelo, validación del modelo de calibración y predicción de muestras desconocidas.

Selección del Conjunto de Calibración

El conjunto de calibración, también denominado conjunto de entrenamiento debe contemplar

todas las fuentes de variabilidad del sistema [55], tanto físicas como químicas. Para conseguir

este objetivo de una forma rigurosa, se ha propuesto el uso de estrategias de diseño de

experimentos [55], aunque la complejidad de las muestras reales raramente permite aplicar esta

aproximación. La situación más común es contar con un amplio conjunto de muestras candidatas

a las que se ha medido el espectro y la propiedad de interés. En este caso se han propuesto

técnicas de selección de muestras basadas en el análisis de agrupaciones (cluster analysis) [56], o

algoritmos de selección de muestras como el de Kennard-Stone [34], para decidir qué espectros

NIR representan mejor la población total.

La presencia de agrupaciones destacadas en el conjunto de calibración puede conducir a

errores, por lo que es importante analizar los datos y si se detecta una agrupación severa se debe

evaluar si es más adecuado construir un modelo global para todas las muestras, o bien es

necesario dividir en grupos las muestras y crear modelos diferentes para cada grupo. La detección

de agrupaciones se puede realizar mediante una simple inspección visual de los scores PCA.

También se han propuesto criterios gráficos para detectar agrupaciones, como las curvas de

distancias (distance curves) [73] o criterios numéricos, como el estadístico de Hopkins, H,

[29, 38], que se aplica a los scores de la descomposición PCA y se basa en la comparación de la

distancia euclidiana entre un objeto y su vecino más próximo (W) y la distancia entre un objeto

artificial, distribuido aleatoriamente en el espacio, y el objeto real más próximo (U).

61

El valor de H oscila entre 0.5 para un conjunto de objetos distribuidos homogéneamente (las

distancias U y W son muy parecidas) hasta 1 para un conjunto con agrupaciones muy marcadas

(U>>W).

Figura 22 Estadístico de Hopkins en el caso de un conjunto de muestras homogéneo (H=50) y en el caso de un

conjunto de muestras agrupadas H próximo a 1. Fuente: Macho (2002)

Establecimiento del Modelo

En los modelos multivariantes inversos, la concentración (o cualquier otra propiedad de la

muestra) se modela en función de la respuesta (en este caso el espectro IR) de la forma:

donde ck es la concentración del analito k en la muestra, j r es la respuesta de la muestra en la

variable j, j k b , es el coeficiente que relaciona la variable j con la concentración del analito k y k

e es el término del error no modelado por el modelo. Utilizando una notación matricial, en la

etapa de calibración con I muestras, este modelo se puede escribir como:

62

donde “c” es el vector de las concentraciones del analito para las I muestras de calibración, “R”

es la matriz de las respuestas de las I muestras en las J variables, “b” el vector de los coeficientes

de regresión y “e” el vector de los errores o residuales.

Los métodos de descomposición sobre factores o componentes principales, como la regresión

por mínimos cuadrados parciales (Partial Least Squares, PLS), solucionan el problema de la

colinealidad en los datos (muy habitual en datos espectroscópicos) ya que descomponen la matriz

de respuestas, R, en una serie de factores ortogonales entre sí, lo que evita los problemas de la

inversión de la matriz RTR.

Validación del modelo

Los métodos de calibración sesgados, como PCR o PLS, no se apoyan directamente en un

modelo teórico y pueden incorporar variabilidad de los datos no necesariamente relacionada con

la propiedad de interés, por lo que deben ser cuantitativa o cualitativamente validados. La

validación consiste en el análisis de un grupo de muestras independiente que al utilizarlo en la

calibración, comprueba que no existe un error sistemático (bias) entre las predicciones que

realizan el modelo y los valores proporcionados por el método de referencia. También se mide el

grado de concordancia entre las predicciones del modelo y los valores del método de referencia.

Predicción de muestras desconocidas

Una vez el modelo ha sido aceptado, ya puede ser utilizado para el análisis de nuevas

muestras. En esta etapa se deben seguir utilizando los test para detectar muestras discrepantes,

outliers, con el fin de detectar la presencia de extrapolaciones al modelo, presencia de nuevos

interferentes, fallos instrumentales, etc. En este caso se pueden utilizar medidas del leverage de

las muestras, y del residual espectral. Herramientas para el control estadístico multivariante,

como el estadístico T2 de Hotelling y el estadístico Q, que serán introducidas a continuación para

su uso en el control estadístico del modelo multivariante, se pueden utilizar también para la

detección de outliers, ya que proporcionan una información similar al leverage (el T2) y al

residual espectral (el estadístico Q). Los residuales de la concentración (u otra propiedad de

interés) no están disponibles ya que estas muestras no han sido analizadas por el método de

referencia. La detección de los outliers en esta etapa es muy importante porque la predicción de

estas muestras puede diferir significativamente del valor verdadero.

63

2.5.5 Método para Selección de Variables

Los principales problemas que se pueden presentar en la construcción de un modelo de

regresión múltiple son los siguientes:

Multicolinealidad

Las variables de entrada son muy dependientes entre sí, y es difícil separar su contribución

individual al modelo. Consecuencia de esto es que los parámetros del modelo son muy inestables,

con varianzas muy grandes.

Error de especificación

El modelo de regresión no proporciona un buen ajuste a la nube de observaciones. Esto puede

ser por diferentes motivos: la relación no es lineal; existen variables explicativas relevantes que

no han sido incluidas en el modelo. Por ello, cuando se dispone de un conjunto amplio de

posibles variables explicativas, es importante disponer de algoritmos que seleccionen el

subconjunto más adecuado de variables explicativas que se deben incorporar al modelo de

regresión, así como de medidas que midan la bondad del ajuste.

Falta de normalidad

Los residuos no son normales.

Heterocedasticidad

La varianza no es constante.

Existencia de valores atípicos o heterogéneos

Existen datos típicos que se separan de la nube de datos muéstrales que pueden influir en la

estimación del modelo de regresión o que no se ajustan a modelo.

Dependencia (autocorrelacion)

Existe dependencia entre las observaciones. Existe la tendencia a incluir en el modelo de

regresión todas las variables involucradas, independientemente de su contribución con el modelo.

Uno de los problemas es el sobredimensionamiento, el cual puede producir estimados

numéricamente inestables. Este se manifiesta con desviaciones estándar demasiado grandes.

64

Métodos que se basan en la utilización del conocimiento previo del sistema que está siendo

modelado

Normalmente, cierto grado de conocimiento previo es utilizado para especificar el conjunto

inicial de las variables de entrada que son candidatas. Si alguna variable de entrada importante no

es incluida, entonces se puede perder parte de la información del sistema que este siendo

modelado. Por otro lado, si se incluyen variables de entrada inapropiadas, puede tender a

confundir el proceso de entrenamiento. El enfoque preferido para la determinación apropiada de

las variables de entrada implica una combinación de conocimientos previos y enfoques analíticos.

Métodos basados en la correlación cruzada lineal

Cuando el sistema ha ser modelado es muy complicado entonces una técnica analítica, como

la correlación cruzada lineal, a menudo es empleada. El método de correlación cruzada lineal

representa la técnica analítica más popular para la selección apropiada de las variables de entrada.

La principal desventaja asociada con el uso de la correlación cruzada lineal, es que solo es capaz

de detectar la dependencia lineal entre dos variables. Por lo tanto, la correlación cruzada no es

capaz de capturar cualquier dependencia no lineal que pueda existir entre las variables de entrada

y la de salida, y puede dar lugar a la omisión de variables de entrada importantes que están

relacionadas con la variable de salida en una forma no lineal.

2.5.6 Comparación de Modelos de Regresión

Cuando se comparan métodos de calibración y se quiere determinar si la diferencia observada

entre los errores en predicción reportados por cada uno de los diferentes modelos es real o

simplemente aparente, se debe utilizar una ANOVA.

Existen dos posibles situaciones a tratar:

Cuando los modelos han sido validados con el mismo conjunto de datos (ya sea mediante

validación cruzada o mediante conjunto de datos de validación externo).

Cuando los modelos han sido construidos sobre los mismos datos de calibración y validados con

conjuntos de datos de validación independientes.

65

En el primero de los casos anteriores, la situación que se presenta es la siguiente: se tienen dos

modelos de calibración para predecir una variable y a partir de un conjunto de variables x. La

calibración puede haberse realizado sobre las mismas o distintas muestras de calibración. Lo que

importa es que se hayan validado con los mismos datos y, para un x dado, cada método produzca

una predicción estimada de y ( ).

Supongamos que los métodos se han validado a partir de un conjunto externo de muestras de

validación Nvalidacion de x e y conocidas, mediante la predicción de y ( ) utilizando cada uno

de los métodos. Como y se conoce, se puede obtener un conjunto de errores de predicción ( − y)

para cada método [54]. Si, por el contrario, los modelos de regresión han sido calculados a partir

de los mismos datos de calibración y validados en diferentes conjuntos de datos de validación

independientes entre sí, la comparación de los errores en predicción se realizará mediante una

ANOVA de una vía.

La comparación de dos métodos de calibración se realizará a partir de una ANOVA de dos

vías de la diferencia entre las respuestas predichas y el valor y de referencia si los modelos han

sido validados con el mismo conjunto de datos de validación, y mediante una ANOVA de una vía

si han sido calibrados con el mismo conjunto de datos pero validados con conjuntos de datos de

validación independientes. En el caso en que los modelos hayan sido validados por cross-

validación, en vez de con un conjunto de validación externo, el procedimiento de comparación de

los modelos es similar al primero de los casos anteriores y se denomina CVANOVA [30].

La CVANOVA está basada en un análisis de varianza de dos vías de los resultados de

predicción, el tipo de método empleado corresponde con la primera vía y el número de muestra

con la segunda. Las muestras de calibración se consideran representativas del conjunto de la

población y, por tanto, el efecto de la muestra se considera aleatorio.

66

2.6 Método de Mínimos Cuadrados Parciales (PLS)

Técnica de descomposición cuantitativa asociada a la Regresión de Componentes Principales

[31], que se constituye como una alternativa robusta, respecto a la Regresión Lineal Múltiple y a

la Regresión de Componentes Principales [31]. El método PLS lineal es un algoritmo de

regresión múltiple lineal que puede manejar entradas correlacionadas [47, 31].

El análisis de datos estadísticos permite establecer modelos para datos experimentales o datos

históricos de procesos. Se supone que piyi ,...,2,1 los cuales son los valores que se tratan de

predecir mediante la implementación de un modelo matemático, mjxi ,...,2,1 como variables

de entrada, de las cuales se dispone de n observaciones. A partir de esto se pueden formular las

siguientes matrices:

nxp

npnn

p

p

yyy

yyy

yyy

Y

...

............

...

...

21

22221

11211

(2.21)

nxm

nmnn

m

m

xxx

xxx

xxx

X

...

............

...

...

21

22221

11211

(2.22)

Matrices en las cuales cada fila se compone de una observación o muestra. El análisis de los

datos consiste en relacionar la matriz Y con la matriz X a través de alguna función, lo que

permitiría predecir Y a partir de un conjunto de datos X.

2.6.1 Fundamentos del Método

Es un modelo de un sistema del mundo real mediante una representación aproximada, y su

construcción, es un balance entre simplicidad, exactitud y tiempo computacional requerido para

los cálculos [51].

67

La técnica de mínimos cuadrados parciales es un método de identificación de sistemas lineales

que proyecta las entradas y las salidas en un espacio latente, obtiene un conjunto de factores

principales de estructura ortogonal, con la capacidad de capturar la varianza significativa de los

datos originales [79]. Es una alternativa robusta al Método de Regresión Lineal Múltiple,

determina una relación lineal entre la variable dependiente y el conjunto de variables

independientes disponibles. La matriz de datos de entrada X (variables independientes) es

descompuesta en un número de variables latentes cada una caracterizada por un vector columna t

y un vector Tp , se representa entonces la matriz X en términos de esas variables latentes como

se muestra a continuación:

EPTX T (2.23)

Donde:

T es la matriz de “scores”

TP es la matriz de “loadings”

E matriz de error.

De esta forma se ha logrado representar la matriz X a través de una matriz T (de menor

número de columnas) con un cierto margen de error. El número de variables latentes necesarias

para explicar la matriz X (en función de un criterio de error máximo permitido) es una medida de

la complejidad del modelo [1], y es un parámetro para alcanzar el mejor rendimiento en la

predicción.

Si se trabaja con solo una variable de salida se plantea un vector columna y , se asume una

relación lineal simple entre las variables de entrada la variable de salida, de la forma:

y X g e (2.24)

Donde:

“e” es el error cometido por el modelo.

“g” es el vector de coeficientes de regresión.

68

El método de uso frecuente para dar solución a este problema, es el Método de Mínimos

Cuadrados:

1

' 'g X X X y

(2.25)

La expresión anterior, cuando las variables de X están correlacionadas o cuando el número de

muestras n es pequeño en relación con el número de variables, la inversa de 'X X no existe [27]

y que es resuelto en principio al utilizar la matriz de “scores” T [45].

Para el caso, en el cual n es mayor que m pero no en gran medida, el modelo de regresión

puede además ser distorsionado por el ruido y originar una limitada generalización para datos

nuevos [27].

La aplicación del método PLS a un sistema general de múltiples variables de entradas y

múltiples variables de salidas, puede ser expresada mediante el siguiente esquema:

Figura 23 Diagrama de bloques método PLS. Fuente: Los autores (2010)

Para un sistema MIMO (Multiple Imput and Multiple Output – Múltiples Entradas y Múltiples

Salidas), las matrices X e Y para el método PLS, se descomponen en dos modelos lineales, para

X en función de sus scores T y para la matriz Y de la siguiente forma:

TY U Q F (2.26)

Donde:

U es la matriz de “scores”

TQ es la matriz de “loadings”

F matriz de error.

69

Cuando se trabaja con solo una variable de salida se plantea un vector columna y , lo cual

produce las siguientes simplificaciones:

Q I (2.27)

Donde:

I es la matriz Identidad

El método PLS, es semejante al método de mínimos cuadrados ordinarios, asume que la

variable de salida es una función lineal de los “Scores”, donde la relación entre y y T es la

siguiente, la cual se obtiene al aplicar la relación interna para una sola variable de salida:

y T b f (2.28)

Si se dispone de más muestras que variables, no es posible calcular una solución exacta para

b , sin embargo, b se calcula para minimizar f que representa el vector error de esta expresión

[1]. Se distinguen dos tipos de algoritmos: PLS1 cuando se estudia solo una variable dependiente

(generalmente utilizado en química) y PLS2 cuando se presentan más variables dependientes que

se representan a través de una matriz Y . Otros valores calculados durante la etapa de calibración

son los pesos en el espacio de X (Tw ) y los coeficientes de regresión, que permiten establecer la

relación interna que vincula el bloque de cálculo de X con el bloque de cálculo para Y, los cuales

se denotan como b .

2.6.2 Objetivo del Método de Mínimos Cuadrados Parciales

El método PLS calcula un conjunto de componentes ortogonales que maximizan el nivel de

descripción de las variables X e Y. y a su vez proporciona una ecuación de predicción para Y en

función de X.

Esto se logra encontrando un conjunto de componentes para X y para Y por separado, y

posteriormente establecer una relación interna que permita maximizar la descripción entre las

variables.

70

El fundamento consiste en maximizar la covarianza entre la variable latente T , y la variable

respuesta y , sujeto a 1Tw w , donde w son los factores utilizados para asegurar que las

dimensiones son ortogonales. Al mismo tiempo, minimiza el cuadrado del error (ó varianza) entre

las mismas. Estos objetivos se logran resolviendo el problema planteado de forma simultánea,

con la incorporación de métodos numéricos.

2.6.3 Alternativas de pre-procesamiento de las variables

Previo al desarrollo del modelo, es conveniente el pre-procesamiento de los datos con la

finalidad de hacer los cálculos más sencillos. Se calcula el valor promedio para cada variable del

conjunto de datos de entrenamiento y luego se sustrae el mismo de cada variable

correspondientemente, es decir, las variables se usan en la forma centrada en la media [31].

Existen además, diferentes formas de escalar las variables. Es necesario señalar que las variables

dependientes y las variables independientes se deben escalar por separado ya que los coeficientes

de regresión son sensibles a las diferencias en escala [31].

Figura 24 Alternativas de Pre-procesamiento. Fuente: Quevedo (2008)

2.6.4 Secuencia del algoritmo (etapas de calibración)

El algoritmo del Método de Mínimos Cuadrados Parciales iterativos no-lineales (NIPALS),

está diseñado para la linealización de modelos que son no lineales en los parámetros, el cual se

encarga de descomponer las variables de entrada y las de salida como el producto de dos matrices

de menor dimensión [51].

71

En el desarrollo del algoritmo se incorpora de forma activa la variable de salida durante el

proceso de descomposición. El algoritmo tiene un paso donde se comprimen los datos y se crean

los “Scores” dentro de un nuevo sistema coordenado conocido con el nombre de Variables

Latentes, que resultan de una combinación lineal de las variables originales. Los coeficientes de

regresión de cada variable original en cada variable latente se conocen como “Loadings” [1, 22].

Para cada variable latente h:

Paso 1

Inicialización:

Fijar yf 0 y XE 0 (2.29)

Paso 2

Se define hw como

11

11

h

T

h

h

T

hT

hff

Efw (2.30)

Paso 3

Normalizar T

hw a una norma unitaria

T

h

T

hT

hw

ww (2.31)

Paso 4

Calcular los “scores” de la matriz X

h

T

h

hh

hww

wEt

1 (2.32)

Paso 5

Calcular los “loadings” de la matriz X

h

T

h

h

T

hT

htt

Etp

1

(2.33)

Paso 6

Re-escalar los “scores” de la matriz X

T

hhh ptt (2.34)

Paso 7

Re-escalar T

hw

T

h

T

h

T

h pww (2.35)

Paso 8

Normalizar los “loadings” a norma unitaria

T

h

T

hT

hp

pp (2.36)

72

Paso 9

Calculo de los coeficientes de la relación interna

h

T

h

h

T

h

htt

tfb

(2.37)

Paso 10 Calculo de los residuales de X

T

hhhh ptEE 1 (2.38)

Paso 11 Calculo de los residuales de Y

hhhh tbff 1 (2.39)

Paso 12 Incrementar el número de variables latentes

h = h + 1 (2.40)

Regresar al paso 2

Al iniciar cada ciclo, se trabaja con las matrices residuales. Las iteraciones continúan hasta

que se cumpla algún criterio de parada preestablecido o hasta que hE se transforme en la matriz

nula.

2.6.5 Secuencia del algoritmo (Etapa de predicción)

En la etapa de predicción, dado un conjunto de muestras X, se utilizan Tw , Tp y b para

predecir la propiedad dependiente y de la siguiente forma:

bTy pred (2.41)

Para cada variable latente h:

Paso 1 Inicialización:

Fijar XE 0 (2.42)

Paso 2

Calcular los “scores” de la matriz X

h

T

h

hh

hww

wEt

1 (2.43)

73

Paso 3 Calculo de los residuales de X

T

hhhh ptEE 1 (2.44)

Paso 4 Incrementar el número de variables latentes

h = h + 1 (2.45)

Regresar al segundo paso

Al finalizar

bTy pred (2.46)

2.6.6 Determinación del Número de Variables Latentes

El número de componentes a ser utilizados es una propiedad determinante de un modelo PLS.

Es posible calcular componentes en correspondencia con el rango de la matriz X, no todos ellos

son utilizados normalmente. La razón es que los datos medidos nunca están libres de ruido, y los

componentes más pequeños podrían describir solo este factor, estos por lo general se excluyen ya

que pueden originar problemas de colinealidad [31].

Existen métodos que permiten decidir el número óptimo de variables latentes, uno de los

criterios puede ser a partir de la variación de hf respecto al número de componentes durante la

calibración del modelo. Ver la siguiente figura.

Figura 25 hf en función de número de componentes para el PLS. Fuente: Quevedo (2008)

74

Se puede seleccionar una línea de referencia y detener el algoritmo cuando hf sea menor

que el valor seleccionado, se desea que esta norma sea suficientemente pequeña. Otra alternativa

es calcular la diferencia entre el valor actual hf y el previo, y detener el algoritmo cuando la

diferencia sea pequeña en comparación con el error pre-establecido. Es recomendable la

combinación de estos dos criterios [31].

En la etapa de predicción, otros métodos deben ser utilizados para establecer el número de

componentes, lo cual se conoce con el nombre de validación cruzada. Para ello se calcula la

estadística suma del cuadrado de los errores de predicción PRESS de sus siglas en ingles, la cual

se grafica respecto al número de componentes.

Figura 26 Errores de predicción en función de número de componentes para el PLS. Fuente: Quevedo (2008)

Es recomendable seleccionar el número de componentes que se corresponde con el menor

valor del PRESS. La localización de este mínimo no siempre se encuentra bien definida, y de

igual forma, evita incluir componentes que solo pueden inducir ruido al proceso.

2.6.7 Aplicación del Método Mínimo Cuadrados Parciales

La técnica de mínimos cuadrados parciales es una herramienta importante para el

desarrollo de estrategias para el modelaje de procesos y el control estadístico multivariable de

procesos en presencia de datos colineales o datos altamente correlacionados [51].

75

La inferencia de variables es comúnmente utilizada en procesos industriales, en sustitución

de la medición en línea de variables controladas, donde la medición directa puede ser costosa,

inaccesible, o que adiciona un elevado tiempo muerto al sistema. Modelos fundamentales

simplificados por lo general no están disponibles para el control inferencial, por lo que se utilizan

modelos empíricos.

El método PLS se constituye como un esquema general para la construcción de modelos

inferenciales cuando se dispone de una gran cantidad de información del funcionamiento del

proceso, por lo que el examen de la naturaleza de los datos es de extrema importancia. Para el

trabajo con sistemas de control, es necesario que los datos recolectados dispongan información de

las variables manipuladas más importantes, así como también de las perturbaciones [36].

Se ha demostrado como PLS puede ser implementado como una vía para el manejo

automático y eficiente de datos nuevos, por constituirse como una técnica robusta.

Específicamente se ha estudiado la aplicación del método en sistemas de destilación para

separación multicomponentes o del tipo azeotropica [36]. La predicción de propiedades de

carbones minerales a partir de datos del infrarrojo medio, con el objetivo de desarrollar métodos

de análisis rápidos y no destructivos, constituye otra de las áreas de aplicación de la técnica [1].

Así como también la predicción de propiedades a partir de técnicas espectroscópicas más

complejas [4].

Las mediciones recolectadas a partir de procesos químicos son comúnmente

correlacionadas por lo que no es posible asumir que son independientes. PLS se ha reconocido

como una técnica que permite extraer la información relevante de los datos recolectados. Se ha

demostrado su amplia aplicación como técnica de regresión para problemas donde la data

presenta ruido, es altamente correlacionada y de la cual se dispone de solo un número limitado de

observaciones [52].

La utilidad del PLS como técnica de regresión, radica en que se descompone un problema de

regresión multivariable en un determinado número de regresiones univariables no

correlacionadas. Es posible aplicar diferentes técnicas, como es el caso de la función de auto-

correlación, con la finalidad de seleccionar y determinar el número de variables latentes a utilizar

a partir de la técnica PLS [2]. Se ha comparado la técnica con otros algoritmos de predicción para

el área de quimiometría [57].

76

Inicialmente el PLS se asocia a la Econometría, la extensión de la técnica permitió la

publicación de diversos trabajos de calibración multivariable y para la optimización de procesos

complejos. Ha sido aplicado secuencialmente en problemas de ingeniería química como el

monitoreo de procesos, modelaje y detección de fallas. Así como en aplicaciones registradas en

sistemas de neutralización [52], Modelaje de unidades de craqueo catalítico fluidizado y reactores

isotérmicos [15]. Para sistemas que presentan un comportamiento no lineal, la técnica PLS lineal

es inapropiada para determinar la estructura del modelo, por lo que, se han desarrollado

variaciones no lineales del método [51].

Se han desarrollado técnicas de control para sistemas por carga, donde los datos recopilados al

finalizar una etapa, se utilizan para modificar la próxima, con la finalidad de acercar la calidad al

valor deseado, y optimizar algunos parámetros objetivos como son el económico y el factor

tiempo; esto se ha logrado con el desarrollo de modelos basados en PLS, metodología que fue

aplicada al control de la distribución del tamaño de partícula en un sistema de polimerización por

emulsión [20].

Procesos complejos y procesos con un amplio conjunto de variables, por lo general son

difíciles de caracterizar a partir de modelos fundamentales, o modelos empíricos, por lo que las

investigaciones recientes vinculadas a este tipo de sistemas, se focalizan en hacer mejor uso de

los datos históricos recolectados. Se considera la aplicación de estas técnicas para el desarrollo y

control de procesos basados en la optimización en el sub-espacio definido por las variables

latentes, construido a partir de los datos disponibles, específicamente en sistemas de inyección,

orientados a la reducción de la variabilidad de la calidad del producto final, además de compensar

las variaciones en las propiedades de la materia prima [80].

Detección de Outliers

Una de las ventajas de los métodos multivariantes sobre los tradicionales univariantes, es la

capacidad que tienen de detectar la observación u observaciones inconsistentes con el resto de los

datos [80]. En la etapa de establecimiento del modelo se puede utilizar información de la

influencia de los objetos en el conjunto de calibración (leverage) y de los residuales, tanto en la

77

propiedad de interés como en la respuesta instrumental [44]. La detección de los outlier en esta

etapa es importante porque la inclusión de estas muestras discrepantes en el modelo degrada su

capacidad predictiva.

Leverage

Es una medida de la posición (o influencia) de una muestra en relación al modelo. Muestras

con un elevado valor de leverage están muy alejadas del centro del modelo, por lo que tendrán

una influencia muy alta sobre el mismo. Este valor se calcula como:

(2.47)

donde ti representa el vector de scores de la muestra i, T, la matriz de scores del modelo y I el

número de muestras de calibración. Se proponen diferentes niveles umbral, los más aceptados son

dos o tres veces el leverage medio de calibración, que es igual a 1+A/I [44], siendo A el número

de componentes principales o factores utilizados en el modelo.

Residuales en la respuesta instrumental

Los residuales en la respuesta (o residuales espectrales) reflejan la falta de ajuste entre las

respuestas experimentales utilizadas en la calibración, R, y las respuestas reconstruidas por el

modelo con A factores ( = TPT).

E R TPT (2.48)

Figura 27 Ejemplo del cálculo del residual de un espectro NIR. Al espectro original se le resta el espectro

reconstruido con 4 factores para obtener el residual espectral. Fuente: Macho (2002)

78

Los residuales en la respuesta se pueden utilizar de diferentes formas. La más habitual es, para

el error en la respuesta de la muestra i, ei, realizar una suma de cuadrados extendida a las J

longitudes de onda y dividir por los grados de libertad (df) adecuados, para obtener una

desviación estándar de la muestra i, s(ei)2.

También se utilizan los residuales en la respuesta para realizar distintos test F, que comparan

la suma de cuadrados de los residuales para el conjunto de calibración y para la muestra i [26,9].

Residuales en la concentración

En la etapa de establecimiento del modelo se dispone del valor de la concentración (o la

propiedad de interés) determinado por el método de referencia. Los residuales en la

concentración comparan el valor predicho por el modelo multivariante con el valor considerado

verdadero, c, que proporciona el método de referencia.

(2.50)

Muchas veces la detección de outliers se realiza combinando estas herramientas, como en el

gráfico que se representa el residual (espectral o de concentraciones) frente al leverage de las

muestras [77, pág. 114].

Figura 28 Gráfico del residual frente al leverage. (a) Objetos con una varianza residual elevada se consideran

outliers, (b) si además tienen un leverage alto son outliers peligrosos para el modelo, debido a que tienen mucha

influencia sobre él. Las muestras con un leverage alto (c) son muestras influyentes y no necesariamente outliers.


79

2.7 Regresión Bayesiana

En el análisis de regresión incluye las técnicas para modelar y analizar varias variables,

cuando la atención se centra en la relación entre una variable dependiente y una o más variables

independientes. Más específicamente, el análisis de regresión ayuda a entender cómo el valor

típico de los cambios de variable dependiente al variar alguna de las variables independientes,

mientras que el resto de las variables independientes se mantienen fijas.

Más comúnmente, el análisis de regresión de las estimaciones de la esperanza condicional

de la variable dependiente dadas las variables independientes, es decir, el valor promedio de la

variable dependiente cuando las variables independientes se mantienen fijas. Con menos

frecuencia, la atención se centra en un cuantil, o parámetro de ubicación de otras de la

distribución condicional de la variable dependiente dadas las variables independientes. En todos

los casos, el objetivo de la estimación es una función de las variables independientes llama a la

función de regresión. En el análisis de regresión, es también de interés para caracterizar la

variación de la variable dependiente en torno a la función de regresión, que puede ser descrito por

una distribución de probabilidad.

El análisis de regresión es ampliamente utilizado para la predicción (incluyendo la previsión

de tiempo de datos en serie). El análisis de regresión se usa también para entender que las

variables independientes están relacionadas con la variable dependiente, y para explorar las

formas de estas relaciones. En determinadas circunstancias, el análisis de regresión puede

utilizarse para inferir las relaciones causales entre las variables independientes y dependientes.

Un gran número de técnicas para llevar a cabo análisis de regresión se ha desarrollado.

Métodos conocidos, tales como la regresión lineal y mínimos cuadrados ordinarios de regresión

son paramétricas, ya que la función de regresión se define en términos de un número finito de

parámetros desconocidos que se estiman a partir de la información. La regresión no paramétrica

se refiere a técnicas que permiten la función de regresión que se encuentran en un conjunto

específico de funciones, que pueden ser de dimensión infinita.

http://translate.googleusercontent.com/translate_c?hl=es&langpair=en%7Ces&u=http://en.wikipedia.org/wiki/Dependent_variable&rurl=translate.google.co.ve&twu=1&usg=ALkJrhhu1405GpA0WqKqzCIq4ggBx5Fd-A

http://translate.googleusercontent.com/translate_c?hl=es&langpair=en%7Ces&u=http://en.wikipedia.org/wiki/Independent_variable&rurl=translate.google.co.ve&twu=1&usg=ALkJrhieit2gON-4Oy8zf2skN5bqZMTeiA


http://translate.googleusercontent.com/translate_c?hl=es&langpair=en%7Ces&u=http://en.wikipedia.org/wiki/Conditional_expectation&rurl=translate.google.co.ve&twu=1&usg=ALkJrhj45p-6pFXEdL14g0q0kAYWwnsP4g

http://translate.googleusercontent.com/translate_c?hl=es&langpair=en%7Ces&u=http://en.wikipedia.org/wiki/Quantile&rurl=translate.google.co.ve&twu=1&usg=ALkJrhgibxAiidKN_3epEfUX8cKN6yHheQ

http://translate.googleusercontent.com/translate_c?hl=es&langpair=en%7Ces&u=http://en.wikipedia.org/wiki/Location_parameter&rurl=translate.google.co.ve&twu=1&usg=ALkJrhh_t5_0SIC787JNn2C2yGo8FhK2sQ

http://translate.googleusercontent.com/translate_c?hl=es&langpair=en%7Ces&u=http://en.wikipedia.org/wiki/Function_(mathematics)&rurl=translate.google.co.ve&twu=1&usg=ALkJrhhhDvOMt_B05ztwFHfUTYUgAStV4w

http://translate.googleusercontent.com/translate_c?hl=es&langpair=en%7Ces&u=http://en.wikipedia.org/wiki/Probability_distribution&rurl=translate.google.co.ve&twu=1&usg=ALkJrhgRv-H2xJUXRwNWkiOht1WRATvPLg

http://translate.googleusercontent.com/translate_c?hl=es&langpair=en%7Ces&u=http://en.wikipedia.org/wiki/Prediction&rurl=translate.google.co.ve&twu=1&usg=ALkJrhhySNXxbfoD59hw1851U4Q2V9lgdQ

http://translate.googleusercontent.com/translate_c?hl=es&langpair=en%7Ces&u=http://en.wikipedia.org/wiki/Forecast&rurl=translate.google.co.ve&twu=1&usg=ALkJrhjONWmYfP7ZuIUnslcubGcC7LJuGQ

http://translate.googleusercontent.com/translate_c?hl=es&langpair=en%7Ces&u=http://en.wikipedia.org/wiki/Time_series&rurl=translate.google.co.ve&twu=1&usg=ALkJrhhmDz48j4frGfsow7nEqOB8sp0khg

http://translate.googleusercontent.com/translate_c?hl=es&langpair=en%7Ces&u=http://en.wikipedia.org/wiki/Time_series&rurl=translate.google.co.ve&twu=1&usg=ALkJrhhmDz48j4frGfsow7nEqOB8sp0khg

http://translate.googleusercontent.com/translate_c?hl=es&langpair=en%7Ces&u=http://en.wikipedia.org/wiki/Causality&rurl=translate.google.co.ve&twu=1&usg=ALkJrhgASV2kjt1G9C31Px0dqIVszUHl5w

http://translate.googleusercontent.com/translate_c?hl=es&langpair=en%7Ces&u=http://en.wikipedia.org/wiki/Linear_regression&rurl=translate.google.co.ve&twu=1&usg=ALkJrhhEhFR5bkerhe2fuXv9sRAkpOZnHA

http://translate.googleusercontent.com/translate_c?hl=es&langpair=en%7Ces&u=http://en.wikipedia.org/wiki/Ordinary_least_squares&rurl=translate.google.co.ve&twu=1&usg=ALkJrhgOiDYCkCgTFanAFxGSTGhCH49C6w

http://translate.googleusercontent.com/translate_c?hl=es&langpair=en%7Ces&u=http://en.wikipedia.org/wiki/Parametric_statistics&rurl=translate.google.co.ve&twu=1&usg=ALkJrhjQFr15oECoHCMCKwWiPkf_N26FVw

http://translate.googleusercontent.com/translate_c?hl=es&langpair=en%7Ces&u=http://en.wikipedia.org/wiki/Parameter&rurl=translate.google.co.ve&twu=1&usg=ALkJrhjZBt7NE0I2I9ysrSMZE0Ly3kkSVA

http://translate.googleusercontent.com/translate_c?hl=es&langpair=en%7Ces&u=http://en.wikipedia.org/wiki/Data&rurl=translate.google.co.ve&twu=1&usg=ALkJrhh4WIrKT5shmzHVZxu9-7YrxkgojQ

http://translate.googleusercontent.com/translate_c?hl=es&langpair=en%7Ces&u=http://en.wikipedia.org/wiki/Nonparametric_regression&rurl=translate.google.co.ve&twu=1&usg=ALkJrhgCBW_tZk3yHCz8tEroMK7NsPwwgQ


http://translate.googleusercontent.com/translate_c?hl=es&langpair=en%7Ces&u=http://en.wikipedia.org/wiki/Dimension&rurl=translate.google.co.ve&twu=1&usg=ALkJrhiEbtZM03_uX8aZw_4M5wI2EqTG2w

80

El rendimiento de los métodos de análisis de regresión en la práctica depende de la forma de

los datos del proceso de generación, y cómo se relaciona con el método de regresión que se

utiliza. Dado que la verdadera forma de los datos del proceso de generación no se conoce, el

análisis de regresión depende en cierta medida, en hacer suposiciones acerca de este proceso.

Estos supuestos son a veces (pero no siempre) comprobables si hay una gran cantidad de datos

disponibles.

Los modelos de regresión para la predicción a menudo son útiles aún cuando las hipótesis

son moderadamente violadas, aunque no se puede realizar de manera óptima. Sin embargo,

cuando se realice la inferencia mediante modelos de regresión que afecta especialmente a efectos

de pequeñas cuestiones de causalidad sobre la base de datos de observación, los métodos de

regresión se deben utilizar con precaución, ya que fácilmente puede dar resultados engañosos.

2.7.1 Probabilidad Bayesiana

La probabilidad bayesiana es una de las interpretaciones más frecuentes de la noción de

probabilidad. La interpretación bayesiana de probabilidad puede ser vista como una extensión de

la lógica que permite el razonamiento con declaraciones inciertas. Para evaluar la probabilidad de

una hipótesis, la probabilidad bayesiana especifica algunas probabilidades a priori, que se

actualiza a la luz de nuevos datos pertinentes. La interpretación Bayesiana ofrece un conjunto

estándar de procedimientos y la fórmula para realizar este cálculo.

2.7.2 Teorema de Bayes

El teorema de Bayes, enunciado por Thomas Bayes, en la teoría de la probabilidad, es el

resultado que da la distribución de probabilidad condicional de un evento aleatorio A dado B en

términos de la distribución de probabilidad condicional del evento B dado A y la distribución de

probabilidad marginal de sólo A.

http://translate.googleusercontent.com/translate_c?hl=es&langpair=en%7Ces&u=http://en.wikipedia.org/wiki/Statistical_inference&rurl=translate.google.co.ve&twu=1&usg=ALkJrhiYPnrBG_AiwQpa-pZeGoE_9q6yzg

http://translate.googleusercontent.com/translate_c?hl=es&langpair=en%7Ces&u=http://en.wikipedia.org/wiki/Effect_size&rurl=translate.google.co.ve&twu=1&usg=ALkJrhiflSphB7iHNtAN6xeRwGIJKxYz2w

http://translate.googleusercontent.com/translate_c?hl=es&langpair=en%7Ces&u=http://en.wikipedia.org/wiki/Effect_size&rurl=translate.google.co.ve&twu=1&usg=ALkJrhiflSphB7iHNtAN6xeRwGIJKxYz2w

http://translate.googleusercontent.com/translate_c?hl=es&langpair=en%7Ces&u=http://en.wikipedia.org/wiki/Causality&rurl=translate.google.co.ve&twu=1&usg=ALkJrhgASV2kjt1G9C31Px0dqIVszUHl5w

http://translate.googleusercontent.com/translate_c?hl=es&langpair=en%7Ces&u=http://en.wikipedia.org/wiki/Observational_study&rurl=translate.google.co.ve&twu=1&usg=ALkJrhicPIJ2AfZ20foreNiBFz1TMruKog

http://es.wikipedia.org/wiki/Thomas_Bayes

http://es.wikipedia.org/wiki/Probabilidad

http://es.wikipedia.org/wiki/Distribuci%C3%B3n_de_probabilidad

http://es.wikipedia.org/wiki/Probabilidad_condicionada

http://es.wikipedia.org/wiki/Suceso_aleatorio



81

Sea {A1,A3,...,Ai,...,An} un conjunto de sucesos mutuamente excluyentes y exhaustivos, y tales

que la probabilidad de cada uno de ellos es distinta de cero. Sea B un suceso cualquiera del que

se conocen las probabilidades condicionales P(B | Ai). Entonces, la probabilidad P(Ai | B) viene

dada por la expresión:

(2.51)

donde:

P(Ai) son las probabilidades a priori.

P(B | Ai) es la probabilidad de B en la hipótesis Ai.

P(Ai | B) son las probabilidades a posteriori.

Esto se cumple

2.7.3 Modelos matemáticos con enfoque Bayesiano

Una distribución a priori p representa la información inicial. La distribución final o a

posteriori se obtiene mediante el teorema de Bayes. Si se denomina X la matriz de datos, con

una distribución conjunta Xf

, que proporciona las probabilidades de los valores muéstrales

conocido el vector de los parámetros, la distribución a posteriori será:

Xf pp

X Xf p d

(2.52)

El denominador de esta expresión es la distribución marginal de los datos. La distribución se

denomina predictiva y se obtiene ponderando las distribuciones Xf

para cada posible valor

del parámetro por las probabilidades que la distribución a priori asigna a estos valores.

82

El cálculo de la distribución a posteriori se simplifica en la práctica considerando que el

denominador no depende de , y actúa únicamente como una constante normalizadora para que

la integral de pX

sea la unidad. Por tanto, es posible calcular la distribución a posteriori a

través de la siguiente expresión, dado la muestra X (constante) y al considerar Xf

como una

función de , se incorpora la función de verosimilitud X :

p k pX X

(2.53)

La constante de proporcionalidad es irrelevante para la forma de la distribución a posteriori, y

siempre puede determinarse al final con la condición de cumplir con la definición de una función

de densidad de probabilidad.

PrPosterior ior Verosimilitud (2.54)

2.7.4 El algoritmo GNBR (Regularización bayesiana de Gauss-Newton)

El algoritmo GNBR [21, 76] se basa en el trabajo en MacKay acerca de la interpolación

bayesiana [74, 75]. Este método controla (regulariza) la magnitud de los pesos de la red y mejora

la generalización, como se ha probado en varias aplicaciones [77]. Una implementación de la

regularización bayesiana se encuentra en la “caja de herramientas” de redes neuronales de Matlab

[76]. Con la regularización de la función objetivo a minimizar se convierte en:

(2.55)

donde D es la suma del cuadrado de los errores de datos, y EW

es la suma de cuadrados de los “pesos” (parámetros del modelo). Así, los pesos grandes son

penalizados. Un número efectivo de parámetros (una medida de la complejidad del modelo) se

calcula en este modelo, a partir de la fórmula [21, 74, 75, 79]:

(2.56)

donde p es el número total de parámetros en el modelo (que es igual al número de longitudes de

onda utilizadas en la espectroscopia), y H es el Hessiano [78] de la función objetivo F (Ecuación

1). Cuando se realizó el entrenamiento de redes neuronales de tamaño cada vez mayor con el

83

método de MacKay (“bayesian backprop”) se constató que, después de un cierto tamaño de la

2.7.5 Regresión Lineal

En las estadísticas, la regresión lineal se refiere a cualquier método de modelado de la relación

entre una o más variables y, y una o más variables que se denota X, de modo que el modelo

depende linealmente de los parámetros desconocidos a ser estimados de los datos. Este modelo se

denomina un "modelo lineal". Más comúnmente, la regresión lineal se refiere a un modelo en el

que la media condicional de y dado el valor de X es una función afín de X. Con menos frecuencia,

la regresión lineal podría hacer referencia a un modelo en el que la mediana, o algún cuantil de la

distribución condicional de Xy dado, se expresa como una función lineal de X. Como todas las

formas de análisis de regresión, la regresión lineal se centra en la distribución de probabilidad

condicional de Y dado X, en lugar de en la distribución de probabilidad conjunta de X e Y, que es

el dominio del análisis multivariado.

La regresión lineal fue el primer tipo de análisis de regresión para ser estudiados con rigor, y

para ser utilizado ampliamente en aplicaciones prácticas. Esto es porque los modelos que

dependen linealmente en sus parámetros desconocidos son más fáciles de ajustar que los modelos

que no son linealmente relacionados con sus parámetros y porque las propiedades estadísticas de

los estimadores resultantes son más fáciles de determinar.

Figura 29 Ejemplo de regresión lineal con una variable independiente. Fuente: Quevedo (2008)

http://translate.googleusercontent.com/translate_c?hl=es&langpair=en%7Ces&u=http://en.wikipedia.org/wiki/Statistics&rurl=translate.google.co.ve&usg=ALkJrhjO5yl1LdQFdrIKWgXiU1AreBXfNA

http://translate.googleusercontent.com/translate_c?hl=es&langpair=en%7Ces&u=http://en.wikipedia.org/wiki/Parameters&rurl=translate.google.co.ve&usg=ALkJrhgPTwvn07BafFfEWnWY8spcRBtW0g

http://translate.googleusercontent.com/translate_c?hl=es&langpair=en%7Ces&u=http://en.wikipedia.org/wiki/Estimation_theory&rurl=translate.google.co.ve&usg=ALkJrhjSzA9MN4NnFNl5DJLrnC-B8veNww

http://translate.googleusercontent.com/translate_c?hl=es&langpair=en%7Ces&u=http://en.wikipedia.org/wiki/Data&rurl=translate.google.co.ve&usg=ALkJrhiH5FdrBOVNIZ0fF1WoRSPL1TKIvQ

http://translate.googleusercontent.com/translate_c?hl=es&langpair=en%7Ces&u=http://en.wikipedia.org/wiki/Linear_model&rurl=translate.google.co.ve&usg=ALkJrhiqQtDB1lF8znypEeBM8jpkDmR_wA

http://translate.googleusercontent.com/translate_c?hl=es&langpair=en%7Ces&u=http://en.wikipedia.org/wiki/Conditional_expectation&rurl=translate.google.co.ve&usg=ALkJrhhmQ2W2S4rlE55pitUajK6T9HYWkA

http://translate.googleusercontent.com/translate_c?hl=es&langpair=en%7Ces&u=http://en.wikipedia.org/wiki/Affine_transformation&rurl=translate.google.co.ve&usg=ALkJrhhf7wtFrNmR4HAWbDAIWqWO1JZOiw

http://translate.googleusercontent.com/translate_c?hl=es&langpair=en%7Ces&u=http://en.wikipedia.org/wiki/Median&rurl=translate.google.co.ve&usg=ALkJrhjaIcRqK5OlFn1BlMCrIwcEFYEyxQ

http://translate.googleusercontent.com/translate_c?hl=es&langpair=en%7Ces&u=http://en.wikipedia.org/wiki/Quantile&rurl=translate.google.co.ve&usg=ALkJrhgVqZDJuqyJQidpTtYfdhONduUMPA

http://translate.googleusercontent.com/translate_c?hl=es&langpair=en%7Ces&u=http://en.wikipedia.org/wiki/Regression_analysis&rurl=translate.google.co.ve&usg=ALkJrhiU0sTm5aTu-j0wJ6PwIuqF6GNxbw

http://translate.googleusercontent.com/translate_c?hl=es&langpair=en%7Ces&u=http://en.wikipedia.org/wiki/Conditional_probability_distribution&rurl=translate.google.co.ve&usg=ALkJrhifBPnmvIX_Z7MNAgnRRWlYoVXjGQ

http://translate.googleusercontent.com/translate_c?hl=es&langpair=en%7Ces&u=http://en.wikipedia.org/wiki/Conditional_probability_distribution&rurl=translate.google.co.ve&usg=ALkJrhifBPnmvIX_Z7MNAgnRRWlYoVXjGQ

http://translate.googleusercontent.com/translate_c?hl=es&langpair=en%7Ces&u=http://en.wikipedia.org/wiki/Joint_probability_distribution&rurl=translate.google.co.ve&usg=ALkJrhg4MyYUqhh_PNLIwqn5Eq-Y0kr_kA

http://translate.googleusercontent.com/translate_c?hl=es&langpair=en%7Ces&u=http://en.wikipedia.org/wiki/Multivariate_analysis&rurl=translate.google.co.ve&usg=ALkJrhiWykNdvMwAZ2ING62i2XHMKIMnjA

http://translate.googleusercontent.com/translate_c?hl=es&langpair=en%7Ces&u=http://en.wikipedia.org/wiki/Regression_analysis&rurl=translate.google.co.ve&usg=ALkJrhiU0sTm5aTu-j0wJ6PwIuqF6GNxbw

http://upload.wikimedia.org/wikipedia/en/1/13/Linear_regression.png

84

La regresión lineal tiene muchos usos prácticos. La mayoría de las aplicaciones de la caída de

la regresión lineal en uno de los siguientes dos grandes categorías:

Si el objetivo es la predicción o pronóstico, la regresión lineal puede ser usado para ajustar un

modelo predictivo a un conjunto de datos observados y los valores X. Después de desarrollar este

modelo, si un valor adicional de X viene dado sin su valor de acompañamiento de y, el modelo

ajustado se puede utilizar para hacer una predicción del valor de y.

Dada una variable y una serie de variables x 1, ..., p. X que puede estar relacionado con y, a

continuación, el análisis de regresión lineal se puede aplicar para cuantificar la intensidad de la

relación entre Y y X de la j, para evaluar que X j puede no tener relación con y en todos, y para

identificar qué subgrupos de la j X contiene información redundante sobre y, por lo que una vez

que uno de ellos es conocido, los otros ya no son informativos.

2.7.6 Regresión Bayesiana según Foresse y Hagan (Regularización)

Típicamente, el entrenamiento tiene como objetivo reducir la suma de

errores al cuadrado F = ED. Sin embargo, la regularización agrega un término adicional, la

función objetivo se vuelve F = βED + αEW, dónde EW es la suma de los cuadrados de los

pesos de la red y α y β son los parámetros de la función objetivo. El tamaño relativo de la función

objetivo es dictado por los parámetros en el énfasis de la formación. Si α<<β,

entonces el algoritmo de entrenamiento impulsará los errores más pequeños.

Si α>>β, la formación se hará énfasis en la reducción del tamaño del peso aexpensas de los

errores de la red, lo que produce una red con una respuesta más suave.

El principal problema con la aplicación de regularización es establecer los valores correctos

para los parámetros objetivo de la función. David MacKay [42] ha hecho trabajos extensos sobre

la aplicación de la regla de Bayes para la formación de redes neuronales y la optimización de la

regularización.

http://translate.googleusercontent.com/translate_c?hl=es&langpair=en%7Ces&u=http://en.wikipedia.org/wiki/Prediction&rurl=translate.google.co.ve&usg=ALkJrhhrZZSbERVSlb7BQCSsPnWGub-VEQ

http://translate.googleusercontent.com/translate_c?hl=es&langpair=en%7Ces&u=http://en.wikipedia.org/wiki/Forecasting&rurl=translate.google.co.ve&usg=ALkJrhgx20rJ6C7bkNClCcHascM9b5AFQQ

85

En el marco bayesiano los pesos de la red se consideran variables aleatorias. Después de los

datos se toma, la función de densidad de los pesos se puede actualizar de acuerdo con la regla de

Bayes:

donde D representa el conjunto de datos, M es el medelo particular de red neuronal utilizado, y

es el vector de los pesos de la red. es la densidad a priori, lo que representa nuestro

conocimiento de los pesos antes de que los datos sean recogidos. es la función de

verosimilitud, que es la probabilidad de los datos que ocurren, dado los pesos w. es

un factor de normalización, que garantiza que la probabilidad total sea 1.

Si se asume que el ruido en el conjunto de datos de entrenamiento de Gauss y que la distribución

previa para los pesos es de Gauss, la densidad de probabilidad puede ser escrita como:

(2.58)

Donde = y = si se sustituye esto en la ecuación de

probabilidad (2) se obtiene:

(2.59)

2.7.7 Alternativas de pre-procesamiento de las variables

Los datos utilizados para efectuar procesos de regresión, usualmente se normalizan para que

presenten media cero y desviación estándar de la unidad. De otra forma, los valores obtenidos

después del entrenamiento podrían arrojar valores numéricos muy elevados, o elevados valores

de varianza, lo cual no es esperado para un modelo matemático.

Con la finalidad de evitar elevados limites de variabilidad alrededor de los coeficientes de

regresión, y poca capacidad de generalización de la red, es recomendable que los datos de

entrenamiento se encuentren normalizados y que los errores asociados al conjunto presenten un

comportamiento cercano a una distribución Gaussiana con media cero.

86

El análisis de regresión incluye las técnicas para modelar y analizar varias variables, cuando

la atención se centra en la relación entre una variable dependiente y una o más variables

independientes. Asi, el análisis de regresión ayuda a entender cómo el valor típico de los

cambios de variable dependiente al variar alguna de las variables independientes, mientras que el

resto de las variables independientes se mantienen fijas.

Más comúnmente, el análisis de regresión de las estimaciones de la esperanza condicional de

la variable dependiente dadas las variables independientes, es decir, el valor promedio de la

variable dependiente cuando las variables independientes se mantienen fijas. Con menos

frecuencia, la atención se centra en un cuantil, o parámetro de ubicación de otras de la

distribución condicional de la variable dependiente dadas las variables independientes. En todos

los casos, el objetivo de la estimación es una función de las variables independientes llama a la

función de regresión. En el análisis de regresión, es también de interés para caracterizar la

variación de la variable dependiente en torno a la función de regresión, que puede ser descrito por

una distribución de probabilidad.

2.8 Validación Cruzada

Con la finalidad de ejecutar las fases de entrenamiento y validación, se crean dos archivos de

datos. Los datos deben ser suficientes para representar en forma eficiente el fenómeno que se

desea modelar. En la fase inicial del entrenamiento, el sistema extrae los rasgos generales de los

patrones del conjunto de aprendizaje, esta fase se evalúa utilizando un conjunto de datos

diferentes, dado que los datos que conforma la validación, deben poseer información similar, se

espera que a medida que transcurren las iteraciones, disminuyan los errores de los conjuntos. El

error obtenido para los datos de aprendizaje presenta un constante descenso, dado que éste es el

objetivo del algoritmo de entrenamiento, hasta llegar a una cota mínima, Figura 30.

Para los datos a ser usados en paradas de validación, se observa experimentalmente la

presencia de un mínimo. A partir de este momento, el sistema pierde capacidad de

generalización, este fenómeno debe evitarse, y es conocido como sobre-ajuste. La técnica de

validación cruzada trabaja en forma apropiada, cuando se dispone de un gran número de

muestras, que permitan la creación de estos dos grupos de datos.

http://translate.googleusercontent.com/translate_c?hl=es&langpair=en%7Ces&u=http://en.wikipedia.org/wiki/Dependent_variable&rurl=translate.google.co.ve&twu=1&usg=ALkJrhhu1405GpA0WqKqzCIq4ggBx5Fd-A



http://translate.googleusercontent.com/translate_c?hl=es&langpair=en%7Ces&u=http://en.wikipedia.org/wiki/Conditional_expectation&rurl=translate.google.co.ve&twu=1&usg=ALkJrhj45p-6pFXEdL14g0q0kAYWwnsP4g

http://translate.googleusercontent.com/translate_c?hl=es&langpair=en%7Ces&u=http://en.wikipedia.org/wiki/Quantile&rurl=translate.google.co.ve&twu=1&usg=ALkJrhgibxAiidKN_3epEfUX8cKN6yHheQ

http://translate.googleusercontent.com/translate_c?hl=es&langpair=en%7Ces&u=http://en.wikipedia.org/wiki/Location_parameter&rurl=translate.google.co.ve&twu=1&usg=ALkJrhh_t5_0SIC787JNn2C2yGo8FhK2sQ


http://translate.googleusercontent.com/translate_c?hl=es&langpair=en%7Ces&u=http://en.wikipedia.org/wiki/Probability_distribution&rurl=translate.google.co.ve&twu=1&usg=ALkJrhgRv-H2xJUXRwNWkiOht1WRATvPLg

87

Figura 30 Comportamiento típico de los errores para el caso de aprendizaje y test. Fuente: Quevedo (2008)

La técnica permite modificar el proceso de aprendizaje por retropropagación permitiendo

optimizar la representación del sistema, incluso cuando los datos presentan ruido. La validación

cruzada, permite controlar la cantidad de ruido, mediante la limitación del número de veces que

se permite examinar el subconjunto de aprendizaje durante la fase de entrenamiento.

El método, se usa para adaptar el proceso de aprendizaje en la retropropagación de errores y la

búsqueda de una adecuada representación del sistema durante la identificación del proceso con

datos que contienen elementos de ruido; al usar estos datos, determinados elementos pueden ser

suprimidos por las propiedades filtrantes del algoritmo. En un principio el error es elevado,

debido a que los valores iniciales del modelo, se seleccionan de forma aleatoria.

2.8.1 Objetivo de la Validación Cruzada

El objetivo de la validación cruzada consiste en estimar el nivel esperado de ajuste de un

modelo para un conjunto de datos que es independiente de los datos que fueron usados para

entrenar el modelo. Puede ser utilizado para estimar cualquier medida cuantitativa de ajuste que

sea apropiado para los datos y el modelo. Por ejemplo, para problemas de clasificación binaria,

cada caso en el conjunto de validación es predicho correctamente o incorrectamente.

En esta situación, la tasa de error de los errores de clasificación se puede utilizar para resumir

el ajuste, aunque otras medidas como el valor predictivo positivo también podría ser utilizado.

Cuando se predijo que el valor se distribuida en forma continua, el error cuadrático medio, la raíz

del error cuadrático medio o desviación media absoluta se podría utilizar para resumir los errores.

http://translate.googleusercontent.com/translate_c?hl=es&sl=en&u=http://en.wikipedia.org/wiki/Positive_predictive_value&prev=/search%3Fq%3Dleave%2Bone%2Bout%2Bcross%2Bvalidation%26hl%3Des%26sa%3DX&rurl=translate.google.co.ve&usg=ALkJrhjK9af-6CIh5PtsTXdUB0-GLnG49A

http://translate.googleusercontent.com/translate_c?hl=es&sl=en&u=http://en.wikipedia.org/wiki/Mean_squared_error&prev=/search%3Fq%3Dleave%2Bone%2Bout%2Bcross%2Bvalidation%26hl%3Des%26sa%3DX&rurl=translate.google.co.ve&usg=ALkJrhgaL4jVxV41f9yHM7pX-8yqch8DSw

http://translate.googleusercontent.com/translate_c?hl=es&sl=en&u=http://en.wikipedia.org/wiki/Root_mean_squared_error&prev=/search%3Fq%3Dleave%2Bone%2Bout%2Bcross%2Bvalidation%26hl%3Des%26sa%3DX&rurl=translate.google.co.ve&usg=ALkJrhhFYj3IJq3NSx81DnWfODn8gY5Zdw

http://translate.googleusercontent.com/translate_c?hl=es&sl=en&u=http://en.wikipedia.org/wiki/Root_mean_squared_error&prev=/search%3Fq%3Dleave%2Bone%2Bout%2Bcross%2Bvalidation%26hl%3Des%26sa%3DX&rurl=translate.google.co.ve&usg=ALkJrhhFYj3IJq3NSx81DnWfODn8gY5Zdw

http://translate.googleusercontent.com/translate_c?hl=es&sl=en&u=http://en.wikipedia.org/wiki/Median_absolute_deviation&prev=/search%3Fq%3Dleave%2Bone%2Bout%2Bcross%2Bvalidation%26hl%3Des%26sa%3DX&rurl=translate.google.co.ve&usg=ALkJrhiXGwjEvA8R_bWrbEd8l4_ZgrjiNw

88

Supóngase que se tiene un modelo con uno o más parámetros desconocidos, y un conjunto de

datos a los que el modelo se puede ajustar (los datos de entrenamiento). El proceso de adaptación

optimiza los parámetros del modelo para que el modelo se ajuste a los datos de formación, tanto

como sea posible. Si luego de tomar una muestra independiente de validación de datos de la

población misma, como los datos de entrenamiento, por lo general, a su vez, que el modelo no se

ajusta a los datos de validación, así como se ajusta a los datos de entrenamiento. Esto se llama

overfitting, y es más probable que ocurra cuando el tamaño de los datos del conjunto de

entrenamiento es pequeño, o cuando el número de parámetros en el modelo es grande.

La validación cruzada es una manera de predecir el ajuste de un modelo de validación a un

suceso hipotético cuando un conjunto de validación explícita no está disponible. La regresión

lineal proporciona una simple ilustración de overfitting. En la regresión lineal que se tienen

valores de la respuesta real y 1, ..., y n, y covariables vectores X 1, ... ,pX. se pueden utilizar los

mínimos cuadrados para adaptarse a un hiperplano a + b 1 X 1 + ... + B p xp entre la Y y los

datos de X, y luego evaluar el ajuste usando el error cuadrático medio (MSE).

(2.60)

donde X es el valor de la variable Xj correspondiente al valor de i-ésimo

respuesta Yyo.

Se puede demostrar, bajo supuestos leves que el valor esperado de las MSE para el conjunto

de la formación es (n - p - 1) / (n + p + 1) <1 veces el valor esperado de las MSE para el conjunto

de validación (la espera el valor se toma sobre la distribución de conjuntos de formación). Así

pues, si el ajuste del modelo y cálculo del MSE en el conjunto de entrenamiento, se va a tener una

evaluación optimista sesgada de lo bien que el modelo se monte un conjunto de datos

independientes. Esta estimación parcial se denomina en la estimación de la muestra de la

adaptación, mientras que la estimación de la validación cruzada esta fuera de la estimación de la

muestra.

Dado que en la regresión lineal es posible calcular matemáticamente el factor

(n - p - 1) / (n + p + 1) por la que el MSE de formación subestima el MSE de validación, la

validación cruzada no es útil en la práctica en ese caso. Sin embargo, en la mayoría de los

procedimientos de regresión (por ejemplo, la regresión logística), no existe una fórmula sencilla

http://translate.googleusercontent.com/translate_c?hl=es&sl=en&u=http://en.wikipedia.org/wiki/Statistical_model&prev=/search%3Fq%3Dleave%2Bone%2Bout%2Bcross%2Bvalidation%26hl%3Des%26sa%3DX&rurl=translate.google.co.ve&usg=ALkJrhganmVBGClpu5_Pv5sQY2kGb8w14w

http://translate.googleusercontent.com/translate_c?hl=es&sl=en&u=http://en.wikipedia.org/wiki/Parameters&prev=/search%3Fq%3Dleave%2Bone%2Bout%2Bcross%2Bvalidation%26hl%3Des%26sa%3DX&rurl=translate.google.co.ve&usg=ALkJrhj-hSzRYPjKQBPtUhqva0FuT0hwDg

http://translate.googleusercontent.com/translate_c?hl=es&sl=en&u=http://en.wikipedia.org/wiki/Optimization_(mathematics)&prev=/search%3Fq%3Dleave%2Bone%2Bout%2Bcross%2Bvalidation%26hl%3Des%26sa%3DX&rurl=translate.google.co.ve&usg=ALkJrhjWxh96QIq1mC9dT9v7FJzF3KA4WQ

http://translate.googleusercontent.com/translate_c?hl=es&sl=en&u=http://en.wikipedia.org/wiki/Independence_(probability_theory)&prev=/search%3Fq%3Dleave%2Bone%2Bout%2Bcross%2Bvalidation%26hl%3Des%26sa%3DX&rurl=translate.google.co.ve&usg=ALkJrhgy_gwdBAKxao3iK8XyBk-ovczuTw

http://translate.googleusercontent.com/translate_c?hl=es&sl=en&u=http://en.wikipedia.org/wiki/Statistical_population&prev=/search%3Fq%3Dleave%2Bone%2Bout%2Bcross%2Bvalidation%26hl%3Des%26sa%3DX&rurl=translate.google.co.ve&usg=ALkJrhiRBI7LRgd2r2ouUWL4txbiAhfw4w

http://translate.googleusercontent.com/translate_c?hl=es&sl=en&u=http://en.wikipedia.org/wiki/Overfitting&prev=/search%3Fq%3Dleave%2Bone%2Bout%2Bcross%2Bvalidation%26hl%3Des%26sa%3DX&rurl=translate.google.co.ve&usg=ALkJrhjpE-90aLJUTphg1pyA4z15ENNIVg

http://translate.googleusercontent.com/translate_c?hl=es&sl=en&u=http://en.wikipedia.org/wiki/Linear_regression&prev=/search%3Fq%3Dleave%2Bone%2Bout%2Bcross%2Bvalidation%26hl%3Des%26sa%3DX&rurl=translate.google.co.ve&usg=ALkJrhj_jG0QpjkEKIEjhuNI-z8TumiYFw

http://translate.googleusercontent.com/translate_c?hl=es&sl=en&u=http://en.wikipedia.org/wiki/Linear_regression&prev=/search%3Fq%3Dleave%2Bone%2Bout%2Bcross%2Bvalidation%26hl%3Des%26sa%3DX&rurl=translate.google.co.ve&usg=ALkJrhj_jG0QpjkEKIEjhuNI-z8TumiYFw

http://translate.googleusercontent.com/translate_c?hl=es&sl=en&u=http://en.wikipedia.org/wiki/Real_number&prev=/search%3Fq%3Dleave%2Bone%2Bout%2Bcross%2Bvalidation%26hl%3Des%26sa%3DX&rurl=translate.google.co.ve&usg=ALkJrhiX9FeKxzhsHXrX1EkQllj9mornfw

http://translate.googleusercontent.com/translate_c?hl=es&sl=en&u=http://en.wikipedia.org/wiki/Euclidean_vector&prev=/search%3Fq%3Dleave%2Bone%2Bout%2Bcross%2Bvalidation%26hl%3Des%26sa%3DX&rurl=translate.google.co.ve&usg=ALkJrhiS5kX8Li9WZqwpTxAV_gVryGh7Zw

http://translate.googleusercontent.com/translate_c?hl=es&sl=en&u=http://en.wikipedia.org/wiki/Least_squares&prev=/search%3Fq%3Dleave%2Bone%2Bout%2Bcross%2Bvalidation%26hl%3Des%26sa%3DX&rurl=translate.google.co.ve&usg=ALkJrhitwTAguWWf3kJb8GLOQOOjxbFyOw

http://translate.googleusercontent.com/translate_c?hl=es&sl=en&u=http://en.wikipedia.org/wiki/Least_squares&prev=/search%3Fq%3Dleave%2Bone%2Bout%2Bcross%2Bvalidation%26hl%3Des%26sa%3DX&rurl=translate.google.co.ve&usg=ALkJrhitwTAguWWf3kJb8GLOQOOjxbFyOw

http://translate.googleusercontent.com/translate_c?hl=es&sl=en&u=http://en.wikipedia.org/wiki/Mean_squared_error&prev=/search%3Fq%3Dleave%2Bone%2Bout%2Bcross%2Bvalidation%26hl%3Des%26sa%3DX&rurl=translate.google.co.ve&usg=ALkJrhgaL4jVxV41f9yHM7pX-8yqch8DSw

http://translate.googleusercontent.com/translate_c?hl=es&sl=en&u=http://en.wikipedia.org/wiki/Expected_value&prev=/search%3Fq%3Dleave%2Bone%2Bout%2Bcross%2Bvalidation%26hl%3Des%26sa%3DX&rurl=translate.google.co.ve&usg=ALkJrhhJUXxEoEOZZIMMR0Z7EKxvUY4XGQ

http://translate.googleusercontent.com/translate_c?hl=es&sl=en&u=http://en.wikipedia.org/wiki/Bias_(statistics)&prev=/search%3Fq%3Dleave%2Bone%2Bout%2Bcross%2Bvalidation%26hl%3Des%26sa%3DX&rurl=translate.google.co.ve&usg=ALkJrhgLfm-MNl4Nrl2lXB0OydBrJOeS8w

http://translate.googleusercontent.com/translate_c?hl=es&sl=en&u=http://en.wikipedia.org/wiki/Logistic_regression&prev=/search%3Fq%3Dleave%2Bone%2Bout%2Bcross%2Bvalidation%26hl%3Des%26sa%3DX&rurl=translate.google.co.ve&usg=ALkJrhjqnwfxEn9Vw84bEog4-lRxUMbBmA

89

de hacer este ajuste. La validación cruzada es una forma de aplicación general para predecir el

rendimiento de un modelo en un conjunto de validación utilizando la computación en lugar de

análisis matemático.

2.8.2 Limitaciones y el uso indebido

La validación cruzada sólo produce resultados satisfactorios si el conjunto de validación y de

configuración de prueba se obtienen de la misma población. En muchas aplicaciones de modelos

predictivos, se estudia la estructura del sistema que evoluciona con el tiempo. Esto puede

introducir diferencias sistemáticas entre el entrenamiento y la validación. Por ejemplo, si un

modelo para predecir valores de la bolsa está entrenado en los datos durante un cierto período de

cinco años, no es realista tratar el siguiente período de cinco años como un empate en la misma

población. Como otro ejemplo, supongamos que un modelo desarrollado para predecir el riesgo

de un individuo a ser diagnosticado con una enfermedad determinada dentro del año

siguiente.

Si el modelo es entrenado con datos de un estudio que incluyó sólo un grupo específico de

población (por ejemplo, los jóvenes o los hombres), pero se aplica luego a la población en

general, la adhesión a la validación de resultados del conjunto de la formación puede ser muy

diferente de la ejecución real de predicción.

Si se lleva a cabo correctamente, y si el conjunto de la validación y el conjunto de

entrenamiento son de la misma población, la validación cruzada es casi imparcial. Sin embargo,

hay muchas maneras en que la validación cruzada puede ser mal utilizada. Si es mal utilizada, y

un estudio de una correcta validación se realizó posteriormente, la predicción de errores en una

correcta validación es probable que sean mucho peores de lo esperado sobre la base de los

resultados de la validación cruzada.

Estas son algunas formas en que la validación cruzada puede ser mal utilizada:

Mediante el uso de la validación cruzada para evaluar varios modelos, y sólo indica los

resultados del modelo con los mejores resultados.

http://translate.googleusercontent.com/translate_c?hl=es&sl=en&u=http://en.wikipedia.org/wiki/Medical_diagnosis&prev=/search%3Fq%3Dleave%2Bone%2Bout%2Bcross%2Bvalidation%26hl%3Des%26sa%3DX&rurl=translate.google.co.ve&usg=ALkJrhifRqRmlCDXmwqmgdE7_4Ra66GhjA

90

Al realizar un primer análisis para identificar las características más informativas utilizando el

conjunto de datos, si la selección de características o el modelo de ajuste es requerido por el

procedimiento de modelado, esto debe repetirse en cada conjunto de entrenamiento. Si la

validación cruzada se utiliza para decidir qué características usar, una cruz interior de validación

para llevar a cabo la selección de características en cada grupo de entrenamiento se debe realizar.

Al permitir que algunos de los datos de entrenamiento que también se incluirán en el montaje de

prueba, esto puede suceder debido a un "hermanamiento" en el conjunto de datos, según las

cuales algunas muestras exactamente idénticas o casi idénticas están presentes en el conjunto de

datos.

2.8.3 Leave One Out Cross Validation (LOOCV)

Como el nombre sugiere, Leave One Out Cross Validation (LOOCV) implica el uso de una

única observación de la muestra original como la validación de datos, y de las observaciones

restantes, los datos de entrenamiento. Esto se repite de forma que cada observación en la muestra

se utiliza una vez para la validación de datos. Este método de validación cruzada es

generalmente muy costoso desde el punto de vista computacional, debido a la gran cantidad de

veces que el proceso de formación se repite. Sin embargo, resulta útil para un conjunto limitado

de muestras.

http://translate.googleusercontent.com/translate_c?hl=es&sl=en&u=http://en.wikipedia.org/wiki/Features_(pattern_recognition)&prev=/search%3Fq%3Dleave%2Bone%2Bout%2Bcross%2Bvalidation%26hl%3Des%26sa%3DX&rurl=translate.google.co.ve&usg=ALkJrhgT8r6NzHbKz7qJWY2PrtTiOL2ChA

91

2.9 Conceptos Estadísticos

2.9.1 Estadístico (F)

En estadística, el parámetro F es aplicado para cuantificar la variabilidad entre dos variables

“X” independiente y “Y” dependiente, así mismos este se basa en calcular los cuadrados de las

diferencias entre el valor real de la variable dependiente y, el valor predicho de ésta y el

promedio de la muestra, para cada valor de X.

Para abordar esta investigación se fijo como variable independiente, los datos provenientes

de los análisis por infrarrojo por Transformada de Fourier (data espectral) y como variable

dependiente las propiedades físico químicas a predecir por el modelo.

De esta manera, dado un conjunto de datos provenientes de una muestra aleatoria y utilizando un

modelo de regresión lineal simple, como Mínimos Cuadrados Parciales y Regresión Bayesiana

Lineal, es posible definir la tendencia lineal de un conjunto de datos.

De tal manera que;

Yi: Valor de la respuesta y para Xi

i : Valor de la respuestaY, estimado de acuerdo al modelo, para Xi

: Valor promedio de la respuesta y a través de la n observaciones de la muestra aleatoria

utilizada

Xi: Valor de X para la observación i - ésima

Se pueden establecer las siguientes relaciones matemáticas entre estos valores:

Σ (Y – )2: Es la suma de las diferencias entre cada valor de “Y” y la media. Representa la

variabilidad total de la respuesta “Y”, sin prestar atención a la relación que ella pueda tener con

“X”.

92

Σ ( i – )2: Es la suma de las diferencia entre cada valor estimado de “Y” por el modelo

escogido y la media. Es la variabilidad explicada por el modelo de regresión.

Σ (Y – i)2: Es la suma de las diferencias entre cada valor real de “Y” y su estimado por el

modelo. Es la variabilidad de “Y” no explicada por el modelo y se le llama Error Residual o

residuo.

Lo que se está haciendo al sumar estas diferencias es cuantificar a qué distancia queda cada

punto real del estimado por el modelo. Mientras más cerca estén los puntos reales del modelo,

mejor será el modelo, y menor será el residuo. La manera de cuantificarlo es hacer la diferencia

de cada punto, elevarlo al cuadrado y sumar éstas. Debe elevarse al cuadrado ya que, si no, la

suma de las diferencias respecto al promedio siempre daría cero. Si se coloca los valores

mencionados en una tabla se puede observar las siguientes relaciones:

Tabla 1 Relación entre suma y media de cuadrados para un modelo de regresión lineal simple.

Suma de cuadrados Grados de Libertad Media de Cuadrados

Modelo

1

Error

n – 2

Total

n – 1

El concepto de grados de libertad es muy abstracto y de difícil definición, pero tiene relación

con el número de categorías posibles y tiene una forma específica de estimarse según la prueba o

modelo que se esté utilizando. Por ejemplo, en la regresión lineal, el total de grados de libertad es

n-1; los grados de libertad del modelo corresponden al número de variables independientes que

participan en el modelo y la diferencia da los grados de libertad para el residuo.

La media de cuadrados corresponde a la suma de cuadrados dividida por el número de grados

de libertad respectivo. La media de cuadrados representa la diferencia promedio entre cada punto

y su referencia, sea ésta la media o el y estimado.

93

Se ha demostrado que la relación entre la media de cuadrados del modelo y la media del error

se distribuye probabilísticamente con distribución F. Brevemente, la distribución F es una

distribución de probabilidades, como la distribución normal, por ejemplo, pero su curva tiene otra

forma. Finalmente, se divide el cuadrado medio del modelo sobre el cuadrado medio del error o

residuo, es decir:

(2.61)

El valor obtenido corresponde al valor del estadístico F y su probabilidad asociada.

2.9.2 Desviación cuadrática media

La desviación cuadrática media se define como la raíz cuadrada de la suma de los cuadrados

de los errores individuales de las lecturas, entendiendo por tales a sus diferencias respecto del

valor medio medido, que se adopta como valor verdadero convencional.

(2.62)

2.9.3 Coeficiente de determinación (R2)

El coeficiente de determinación, R2 se utiliza en los modelos estadísticos cuya finalidad

principal es la predicción de resultados futuros sobre la base de otra información relacionada. Es

la proporción de la variabilidad en un conjunto de datos que se explica por el modelo estadístico.

Se proporciona una medida de cuán bien los resultados futuros pueden ser predichos por el

modelo. En función a los conceptos detallados en el estadístico F, el coeficiente de determinación

matemáticamente se define como la relación de las suma de los cuadrados del modelo con

respecto a la suma de los cuadrados del total, quedando expresada de la siguiente manera,

(2.63)

94

Existen varias definiciones diferentes de R2,

que sólo a veces son equivalentes. Una clase de

estos casos incluye el de la regresión lineal. En este caso, R2 es simplemente el cuadrado de la

correlación que muestra el coeficiente entre los resultados y sus valores previstos, o en el caso de

la regresión lineal simple, entre el resultado y los valores que se utilizan para la predicción. En

tales casos, Por su definición, es una medida acotada, siendo sus límites 0 ≤ R2 ≤ 1

El valor de R2 le dará alguna información sobre la bondad del ajuste de un modelo. En la

regresión, el coeficiente de determinación R2 es una medida estadística de lo bien que la línea de

regresión se aproxima a los puntos de datos reales. Un R2 de 1,0 indica que la línea de regresión

se adapta perfectamente a los datos. Tal como se muestra en la figura 31.

Figura 31 Coeficiente de determinación igual a 1. Fuente: Los Autores (2010)

Los valores de R2 fuera del rango de 0 a 1 se pueden producir cuando se utiliza para medir el

acuerdo entre los valores observados y el modelo y donde el "modelo" los valores no se obtiene

mediante la regresión lineal y en función de que la formulación de R2 se utiliza.

El valor de R2 cuando es cero indica la no representatividad del modelo lineal, ya que la suma

de los cuadrados del modelo supone que el modelo no explica nada de la variación total de la

variable Y.

http://translate.googleusercontent.com/translate_c?hl=es&sl=en&tl=es&u=http://en.wikipedia.org/wiki/Linear_regression&rurl=translate.google.co.ve&usg=ALkJrhisQXZ8-l4HgTY_HQNSAY_ACrXzCQ

http://translate.googleusercontent.com/translate_c?hl=es&sl=en&tl=es&u=http://en.wikipedia.org/wiki/Correlation_coefficient&rurl=translate.google.co.ve&usg=ALkJrhj8wKcpMAC9gRRp-5gpjsCKGL3zqQ

http://translate.googleusercontent.com/translate_c?hl=es&sl=en&tl=es&u=http://en.wikipedia.org/wiki/Correlation_coefficient&rurl=translate.google.co.ve&usg=ALkJrhj8wKcpMAC9gRRp-5gpjsCKGL3zqQ

http://translate.googleusercontent.com/translate_c?hl=es&sl=en&tl=es&u=http://en.wikipedia.org/wiki/Goodness_of_fit&rurl=translate.google.co.ve&usg=ALkJrhgr5Ig-j1E_PpcnjKB5LBghaAVX0g

95

Figura 32 Coeficiente de determinación igual a 0. Fuente: Los Autores (2010)

En realidad, R2 asumirá algún valor entre los dos valores extremos de 0 y 1. Claramente,

cuanto más cercano este R2

a la unidad, mayor será el poder explicativo del modelo de regresión.

Por ejemplo un R2 de 0,93 indica un muy buen ajuste de la línea de regresión a la dispersión de

puntos, el valor de R2 puede ser expresado en porcentaje, así para este caso un 93% de la

variación en Y respecto a su medida puede explicarse por la ecuación de regresión.

El que un valor dado para R2 se considere “alto”, bajo”, o “aceptable” o “inaceptable” en el

análisis estadístico depende del tipo de datos que se esté utilizando, los estándares particulares del

investigador y la R2 típica calculada en estudios de naturaleza similar.

CAPITULO III

MARCO METODOLOGICO

3.1 Generalidades

El marco metodológico está referido al momento que alude al proceso de investigación, con

el objeto de ponerlos de manifestó y sistematizarlos; a propósito de permitir descubrir y analizar

los supuestos del estudio y de reconstruir los datos, a partir de los conceptos teóricos

convencionalmente operacionalizados.

En este capítulo se detallan minuciosamente cada uno de los aspectos relacionados con la

metodología que se ha seleccionado para llevar a cabo la investigación, proporciona la

información necesaria para el desarrollo sistemático de las diferentes pautas que se siguieron para

lograr los objetivos propuestos por la misma, y con ello el tipo de investigación, procedimientos,

instrumentos y técnicas necesarias en la recolección de la información.

En la literatura es definida como una actividad encaminada a la solución de problemas. Su

objetivo consiste en hallar respuesta a preguntas mediante el empleo de procesos científicos [12].

El marco metodológico de todo estudio es pilar fundamental para el desarrollo investigativo, ya

que este facilita aplicaciones básicas que permiten alcanzar los objetivos de la investigación, en el

mismo se explica el tipo de investigación, se define la población y muestra de estudio y la

metodología utilizada para lograr el cumplimiento del objetivo general propuesto en esta

investigación.

3.2 Tipo de Investigación

La selección del tipo de investigación determina los pasos a seguir del estudio, sus técnicas y

métodos que puedan emplear en el mismo. En general determino todo el enfoque de la

investigación influyendo en instrumentos, y hasta la manera de cómo se analizo los datos

obtenidos. Así, el punto de los tipos de investigación en esta va a constituir un paso importante en

la metodología, pues este va a determinar el enfoque del mismo.

http://www.rena.edu.ve/cuartaEtapa/metodologia/Tema3.html

http://www.rena.edu.ve/cuartaEtapa/metodologia/Tema3.html

97

En cuanto a los tipos de investigación existen muchos modelos y clasificaciones, sin embargo

lo importante es precisar los criterios de categorización, en este sentido se identifican según el

nivel de profundidad, diseño y propósito; independientemente de su clasificación, todos son tipos

de investigación y un estudio puede ubicarse en más de una clase. El nivel de investigación se

refiere al grado de profundidad con que se aborda un fenómeno u objeto de estudio [6].

Tomando en cuenta diversos criterios, según el nivel de profundidad la investigación se clasifica

en:

Investigación Descriptiva

En esta se buscan desarrollar una imagen o fiel representación (descripción) del fenómeno a

partir de sus características. Describir en este caso es sinónimo de medir. Miden variables o

conceptos con el fin de especificar las propiedades importantes del objeto de estudio. El énfasis

esta en el estudio independiente de cada característica, es posible que de alguna manera se

integren las mediciones de dos o más características con el fin de determinar cómo es o cómo se

manifiesta el fenómeno, pero en ningún momento se pretende establecer la forma de relación

entre estas características. En algunos casos los resultados pueden ser usados para predecir [7].

Dentro de este orden de ideas la Investigación descriptiva se clasifica en otras, de esta manera

dentro de esta clasificación esta investigación se enmarca como:

- Investigación descriptiva transversal

En esta, se describe la situación en un momento dado y no requieren la observación de los

sujetos estudiados durante un periodo de tiempo. Este tipo de diseño es adecuado para describir el

estado del fenómeno estudiado en un momento determinado. La principal ventaja de este tipo de

estudio es que son prácticos, económicos, de rápida ejecución y fácil control [7].

Por otro parte, dentro de los tipos de investigación según los objetivos propuestos, la presente

investigación se clasifica como:

98

Investigación Explicativa

Los estudios explicativos van más allá de la descripción de conceptos y fenómenos o del

establecimiento de relaciones entre conceptos; “Están dirigidos a responder las causas de los

eventos, sucesos y fenómenos físicos”. Como su nombre lo indica su interés se centra en explicar

por qué ocurre un fenómeno y en qué condiciones se da éste, o porque se relacionan dos o más

variables. Sus resultados y conclusiones constituyen el nivel más profundo de conocimiento [68].

En consecuencia, por lo anteriormente expuesto esta investigación según el tipo de

investigación se considera según el nivel de profundidad como Descriptiva y según los objetivos

propuestos como Explicativa, debido a que durante la presentación y desarrollo de la misma se

consideran todos aquellos criterios que definen metodológicamente estos tipos de investigación.

3.3 Diseño de la Investigación

Es la estrategia general que adopta el investigador para responder al problema planteado. Con

el fin de recolectar la información necesaria que responda a las preguntas de investigación (bien

sea cualitativa o cuantitativa). Esto se refiere a la manera práctica y precisa que el investigador

aplica para cumplir con los objetivos de su estudio, ya que indica los pasos a seguir para alcanzar

dichos objetivos.

De este modo, las diversas formas de conseguir respuestas a las interrogantes o hipótesis

planteadas dependen de la investigación. Por esto, existen diferentes tipos de diseños de

investigación, de los cuales debe elegirse uno o varios para llevar a cabo una investigación

particular [27]. De igual manera, el diseño de investigación se define como el plan o estrategia

para obtener la información que se requiere en una investigación [68].

Existen diferentes clasificaciones para el diseño de la investigación, en tal sentido, según las

fuentes consultadas este estudio se clasifica en:

http://www.rena.edu.ve/cuartaEtapa/metodologia/Tema6b.html

99

Investigación de campo

Las investigaciones de este tipo se basan en informaciones obtenidas directamente de la

realidad, permitiéndole al investigador cerciorarse de las condiciones reales en que se han

conseguido los datos [66].

Al respecto, la investigación de campo se presenta mediante la manipulación de una variable

externa no comprobada, en condiciones rigurosamente controladas, con el fin de describir de qué

modo o porque causas se produce una situación o acontecimiento particular. Este tipo de

investigación es también conocida como investigación in situ ya que se realiza en el propio sitio

donde se encuentra el objeto de estudio. Ello permite el conocimiento más a fondo del

investigador permitiendo así que los datos sean recolectados directamente de la realidad [68].

Por otro lado, se destaca que cada tipo de diseño posee características particulares por lo que

cada uno es diferente a cualquier otro y no es lo mismo seleccionar un tipo de diseño que otro; La

eficacia de cada uno de ellos depende de si se ajusta realmente a la investigación que se esté

realizando.

Los diseños experimentales son propios de la investigación cuantitativa, mientras los no

experimentales se aplican en ambos enfoques (cualitativo o cuantitativo). De este modo existen

dos diseños de investigaciones principales, los experimentales o de laboratorio y los no

experimentales que se basan en la temporalización de la investigación [27]. Debido a lo

anteriormente expuesto, se resalta este estudio como:

Investigación Experimental

El experimento es una situación provocada por el investigador para introducir determinadas

variables de estudio manipulada por él, para controlar el aumento o disminución de esas variables

y su efecto en las conductas observadas. Al respecto, la investigación experimental consiste en la

manipulación de una variable experimental no comprobada, en condiciones rigurosamente

controladas, con el fin de describir de qué modo o por qué causa se produce una situación o

acontecimiento en particular [78].

http://www.monografias.com/trabajos12/guiainf/guiainf.shtml#HIPOTES

http://www.monografias.com/trabajos12/guiainf/guiainf.shtml#HIPOTES

100

De esto se establece que la investigación de tipo experimental es aquella donde se manipulará

la variable independiente, se realizará la selección aleatoria de los sujetos de las muestras y se

controlarán variables que puedan contaminar el efecto de la variable experimental [14].

Por lo antes expuesto, se afirma que esta investigación, la cual lleva por título “Modelos por

mínimos cuadrados parciales y regresión bayesiana para la predicción de propiedades de gas

asociado”, es según la manipulación de variables una investigación de tipo experimental y según

la fuente de recolección de información de campo, ya que controla la obtención de datos

partiendo desde el diseño de laboratorio, así como los datos obtenidos de estos (variables), los

cuales serán manipulados en algoritmos en un software comercial.

3.4 Población

Se refiere a un conjunto de elementos, seres o eventos concordantes entre sí en cuanto a una

serie de características, de las cuales se desea obtener alguna información. A su vez, está

determinada por sus características definitorias. Por lo tanto el conjunto de elementos que posea

esta característica se denomina población o universo. Entonces, una población es el conjunto de

todas las cosas que concuerdan con una serie determinada de especificaciones. Al respecto, la

población o universo puede estar referido a cualquier conjunto de elementos de los cuales

pretendemos indagar y conocer sus características, o una de ellas, y para el cual serán válidas las

conclusiones obtenidas en la investigación. Es el conjunto finito o infinito de personas, casos o

elementos que presentan características comunes [8].

Dentro de éste marco se puede señalar que la población de esta investigación está

representada por 28 muestras de gas asociado obtenidos en un campo productor de petróleo y gas

en el Occidente del país.

3.5 Muestra

Es una porción de la población que se toma para realizar el estudio, el cual se considera

representativa (de la población). Cuando no es posible medir cada uno de los individuos de una

población, se toma una muestra representativa de la misma.

101

Con excepción de los casos de los universos pequeños, es importante seleccionar

sistemáticamente en una muestra, cada unidad representativa de la población, atendiendo a un

criterio específico y en condiciones controladas por el investigador. Las características del

universo, dada la representatividad de las unidades que la conforman, deben reproducirse en la

muestra lo más exactamente posible [8].

Durante la revisión de la población de estudio, una vez realizadas el respectivo análisis de

datos obtenidos en la parte experimental se tomo como muestra todas aquellas cuya reproducción

de las diferentes regiones del espectro representara una tendencia definida en relación al conjunto

total de muestras. Por consiguiente, la muestra de este estudio de investigación está constituida

por un total de 23 muestras de gas asociado producido en el Occidente del país.

Figura 33 Muestras. Fuente: Los autores (2010)

3.6 Técnicas de investigación e Instrumentos de recolección de datos

Las técnicas e instrumentos de investigación son los medios que utiliza el investigador para

medir el comportamiento o atributos a las variables. Los medios de recolección de datos son

cualquier recurso que se vale el investigador para observar a los fenómenos y extraer de ellos

información [66].

102

3.6.1 Fuentes Primarias

Son aquellas que permiten recolectar la información directamente de su fuente de origen,

estas fuentes permitieron obtener la información de manera directa del personal encargado de la

toma de muestras, análisis cromatográfico y analistas de la unidad de espectroscopia infrarroja

donde se registra la data para cada una de la muestras a analizar. De tal manera que la técnica

utilizada en esta investigación es:

Observación Documental.

La observación documental es aquella que se basa en la obtención y análisis de los datos

provenientes de materiales impresos u otro tipo de documentos [6].

La primera actividad desarrollada fue la recopilación de la información y como primer paso

se estudió, las fuentes referidas a trabajos previos en el área de análisis instrumental

(cromatografía de gas natural y espectroscopia infrarroja), así como la revisión bibliográfica en

libros, textos y artículos referida a la aplicación de modelos matemático estadístico para un grupo

de datos.

La observación realizada es de tipo documental ya que permito inspeccionar a través de estas

técnicas instrumentales observar y recabar toda la data referida al área de estudio.

Para llevar a cabo esta investigación, fue necesaria la recolección de datos mediante la

observación directa como fuente primaria, de esta forma empleando como instrumento un

software comercial fue posible crear una base de datos para el almacenamiento de datos

cromatográficos y espectroscopia infrarroja obtenidos por la pruebas aplicadas de todos los

experimentos estudios, donde se dio a conocer las características que presentan el conjunto de

muestras de gas asociado producido en el Occidente del país.

103

3.7 Metodología empleada en la Investigación

Esta etapa consiste en la descripción de la metodología empleada para la obtención de datos

a partir de muestras de gas asociado producido en el Occidente del país por Cromatografía de

Gases y Espectroscopia infrarroja, así como la selección de las muestras que mejor se ajustan y

definen mejor tendencia de datos en las diferentes regiones del espectro. Para ello, fue necesario

seguir una metodología de trabajo que permitiera recolectar y manejar la información de forma

organizada y eficiente, con la finalidad de obtener resultados representativos. La metodología

básicamente define el desarrollo de las actividades experimentales y el procesamiento de la

información de esta manera la metodología utilizada es la siguiente:

3.7.1 Procedimiento Experimental

Recolección de información sobre análisis de gas asociado por Cromatografía de gas,

Espectroscopia de infrarrojo y aplicación de modelos de regresión para la predicción de

propiedades.

Para todo proceso investigativo resulta fundamental la búsqueda de trabajos preliminares o

antecedentes para no solo fundamentar la investigación sino a su vez para garantizar la

continuidad en los avances de conocimientos basados en aspectos de carácter científico en cuanto

al análisis instrumental y aplicación de modelos quimiométricos. Evidentemente este estudio

recopila históricos referidos a congresos, entrevistas, seminarios, talleres, artículos arbitrados,

textos y otros.

Desde este punto de vista, esta investigación se fundamento en trabajos investigativos;

referidos a Trabajo de Grado, Tesis e Investigaciones desarrolladas (Nacionales e

Internacionales). Todos en el área de análisis instrumental y aplicación de modelos matemático

estadístico específicamente en Mínimos Cuadrados Parciales (PLS) y Regresión Bayesiana

Lineal (linear GNBR).

104

Obtención de muestras de gas asociado.

Se estudio un conjunto de 23 muestras de gas asociado procedentes de un yacimiento de

petróleo y gas ubicado en el Occidente del país. Las 23 muestras corresponden a 23 puntos de

muestreo diferentes, las mismas fueron recogidas en el mes de septiembre de 2009 y son

representativas del gas producido en el yacimiento. La representatividad de las muestras se debe a

que fueron tomadas todas la premisas necesarias para un proceso de muestreo, de igual manera

todas fueron tomadas a la salida del separador de alta con similares condiciones de presión y

temperatura de muestreo.

Por otra parte, una comparación con la base de datos de análisis cromatográficos a estos

puntos de muestreo permitió constatar la poca variación en cuanto composición molar de los

componentes identificados.

Análisis de muestras de gas asociado por Cromatografía de gas

Las muestras de gas asociado se analizaron con un sistema cromatográfico multicolumna en

el laboratorio de análisis de la Fundación Laboratorio de Servicios Técnicos Petroleros (FSLTP).

Este sistema cromatográfico proporciona una información muy detallada de la composición

química, ya que determina el porcentaje molar de mezcla de gas natural con trazas de hexanos e

hidrocarburos más pesados, así como las propiedades físicas de la muestra, tales como poder

calorífico, viscosidad del gas, entre otras. Dichas propiedades fueron determinados según la

Norma Venezolana COVENIN 2569 – 89.

En la tabla 2, se muestra un ejemplo de los resultados que proporciono el análisis

cromatográfico del cual se obtuvo el porcentaje molar y propiedades físicas como Riqueza del

gas, Peso molecular y densidad para cada uno de los componentes detectados, Sulfuro de

Hidrógeno, Dióxido de Carbono, Nitrógeno, Metano, Etano, Propano, iso-Butano, n-Butano, iso-

Pentano, n-Pentano, Hexanos, Heptanos, Octanos, Nonanos, Decanos, Undecanos +, en función

del número de carbonos (de 1 a 11) de los compuestos.

105

Tabla 2 Ejemplo del resultado de análisis por Cromatografía de gases de una muestras de gas asociado.

Fuente: Los Autores (2010)

Componentes % Mol GPM PM Densidad

H2S 0,001 - 34,076 0,79

CO2 0,027 - 44,01 0,827

N2 0,014 - 28,013 0,81

CH4 91,702 - 16,043 0,3

C2H6 3,168 - 30,070 0,3564

C3H8 2,157 0,590 44,097 0,5077

iC4H10 0,634 0,206 58,124 0,5631

nC4H10 1,429 0,448 58,124 0,5844

iC5H12 0,331 0,121 72,151 0,6247

nC5H12 0,305 0,110 72,151 0,631

C6H14 0,18 0,074 86,178 0,664

C7H16 0,032 0,015 100,205 0,6882

C8H18 0,002 0,001 114,232 0,7068

C9H20 0,005 0,003 128,259 0,7217

C10H22 0,009 0,005 142,286 0,7342

C11H24 0,003 0,002 156,000 0,74

Total 100 1,574

Análisis de muestras de gas por espectroscopia de infrarrojo por trasformada de Fourier.

Se analizó por espectroscopia de infrarrojo medio y cercano el conjunto de veintitrés muestras

de gas asociado. El espectro de las muestras fue medido entre 4000 y 399 cm-1

(Infrarrojo

medio), y para una región de 4000 y 4700 cm-1

(Infrarrojo cercano), en un espectrómetro

infrarrojo con transformada de Fourier (FT-IR), modelo 8400S, marca SHIMADZU, en el

Laboratorio de Petroquímica y Surfactantes de la Universidad del Zulia, el cual está equipado

con un Interferómetro tipo Michelson con 30° de ángulo de incidencia, con una resolución de

2cm-1

.

106

Figura 34 Espectrómetro infrarrojo por Transformada de Fourier. Fuente: Los autores (2010)

Este procedimiento experimental se inicia con un tratamiento previo, haciendo circular la

muestra de gas asociado por un filtro empacado con Sulfato de Magnesio Anhidro para eliminar

la presencia de humedad, en caso de que esté presente en la muestra, debido a que la celda donde

se recolecta el gas para ser analizado en el FT-IR posee dos ventanas de bromuro de potasio

(KBr) que son higroscópicas.

Figura 35 Filtro empacado. Fuente: Los autores (2010)

107

Es posible tener control sobre esta migración de gas, ya que este al salir del filtro empacado

es almacenado en la celda de gases, la cual cuenta con dos válvulas para controlar el flujo de

entrada y salida. El procedimiento practico es la presurización del gas en la celda, donde ambas

válvulas son cerradas al mismo tiempo, con la finalidad de alcanzar el almacenamiento de la

fracción de gas asociado requerida para el análisis, posteriormente se analiza en la región del

espectro infrarrojo desde 4700 a 399 cm-1

Figura 36 Celda para muestras gaseosas instalada en el Espectrómetro infrarrojo por Transformada de Fourier

(FTIR). Fuente: Los autores (2010)

Algunas recomendaciones se tomaron en cuenta para garantizar la reproducibilidad y

efectividad de los datos de las muestras de gas asociado durante el análisis por FT-IR, entre los

más resaltantes están:

Efectuar la limpieza de las ventanas de KBr de la celda con Metanol después del análisis de

cada muestra.

Emplear una campana de extracción de Gases, para evacuar las pequeñas concentraciones de

gas asociado, H2S y otros contaminantes presentes en las celdas.

Disponer de un desecador para proteger la celda con la muestra de gas almacenada, y con ello

evitar que la Humedad del laboratorio tenga algún efecto sobre el análisis y el deterioro de las

ventanas de KBr.

108

3.7.2 Procesamiento de la Información

Recopilada la data necesaria, se procede generar y aplicar los modelos matemáticos –

estadístico y con ello validar los diferentes criterios para generar resultados confiables, para esto

se utilizo un paquete informático comercial, con la finalidad de agrupar tendencias y finalmente

generar un algoritmo para el procesamiento de data cromatográfica y espectral de carácter

predictivo de las propiedades físico químicas de las muestras de gas asociado. En razón de esto,

se ejecuto el cumplimiento de las diferentes fases que garantiza con ello el desarrollo y análisis

de los objetivos propuestos de la investigación.

Interpretación de bandas observadas en los espectros obtenidos en Espectrometría infrarroja

por Transformada de Fourier (FTIR) por comparación con los espectros de los componentes

puros.

Una vez obtenida la data espectral de las muestras de gas asociado se procedió a identificar

por comparación del espectro medido con una base de datos de referencia. En la literatura,

existen numerosas bases de datos que describen en detalle la identificación de espectros por

componente bajo diferentes criterios de tipo experimental (tipo de equipo infrarrojo,

manipulación de la muestra, material de la celda de gas, etc.) y de procesamiento de datos

(resolución, numero de barridos, regiones de absorción a medir, etc.), de esta manera es posible

no solo identificarlos, a su vez se logra su ubicación en la región del espectro y en su respectivo

número de onda.

Para que los resultados sean representativos, resulta fundamental garantizar que los datos de

referencia de los componentes puros hayan sido analizados bajo iguales criterios desde el punto

de vista experimental y de procesamiento de datos, de esta manera realizar una comparación de

los datos espectrales obtenidos de las muestras de gas asociado en función de los componentes

puro indicara con razonable certeza las bandas de absorción representativas de cada uno de los

componentes a identificar, razón por la cual se hizo uso de la Base de datos de la empresa Perkin

Elmer [81], donde se fijan criterios y equipos de laboratorio aplicados en esta investigación.

109

Verificación de muestras anómalas “outliers” en base a la composición (proporcionada por el

método de referencia) y a los espectros de infrarrojo

Una vez identificado los componentes de la mezcla de gas asociado, es importante analizar

el conjunto de datos espectrales, la identificación oportuna de datos atípicos “outliers”, puede

resultar importante al momento de realizar predicciones, debido a que es un conjunto de 23

muestras la identificación de estos se realizo por inspección de la representación grafica de los

datos espectrales.

En este caso, la presencia de muestras anómalas “outliers” puede deberse a muestras erráticas

por diferentes razones, en el caso de las muestras de Gas Natural, la razón principal pueda

deberse a valores atípicos en muestras contaminadas por la presencia de gas en la atmosfera,

principalmente dióxido de carbono (CO2) para descartar esto en la práctica, es recomendable una

vez tomadas las muestras obtener los datos de espectros lo más pronto posible, para evitar el

escape de gas e invasión de gases atmosféricos.

En el mismo orden de ideas, otra de las causas de la detección de las muestras fuera de

Intervalo “outliers”, se debe a gases de baja absorción en el infrarrojo, en este caso las bandas

serán registradas con valores mínimos de Absorbancia y la identificación en la representación

grafica será obvia ante las bandas de otro grupo de muestras. El objetivo es depurar los datos de

entrada al algoritmo para obtener una base de datos representativa del conjunto de espectros y

con ello lograr la mejor predicción de propiedades físico químicas del gas producido en el

Occidente del País.

Selección de regiones de números de onda que produzcan las mejores predicciones para el

modelo de Mínimos Cuadrados Parciales y Regresión Bayesiana Lineal con validación de los

modelos por el Método de Validación Cruzada Leave One Out (LOOCV)

En función a la etapa anterior, una vez interpretada las bandas e identificados los

componentes puros en sus respectivos numero de onda, es posible llevar a cabo una selección de

regiones en el espectro, este conjunto de datos funcionara como base de datos en el algoritmo

para generar predicciones de componentes y las propiedades del mismo.

110

Este procedimiento se realizo aplicando dos algoritmos de selección de regiones, para los

modelos de Mínimos Cuadrados Parciales (PLS) y Regresión Bayesiana Lineal (linear GNBR),

ambos desarrollados en base a una validación cruzada Leave one out (LOOCV) con centrado y

escalado, los cuales fueron evaluados por los parámetros estadísticos, Coeficiente de

determinación (R2) y el estadístico (F).

El algoritmo empleado Leave One Out Cross Validation (LOOCV) deja fuera un objeto (una

muestra de gas) a la vez, generando el modelo a partir de las muestras restantes, a partir de este

modelo se predice el valor de la propiedad o concentración de la muestra omitida; este proceso se

repite hasta que cada una de las muestras haya sido excluida del sistema. Esta forma de

validación presenta la ventaja de que el modelo no está influenciado por la inclusión de la

muestra estándar analizada [22].

El resultado es un estimado de la desviación representado por las siglas “rms” (raíz cuadrada

del promedio de los cuadrados de las desviaciones) y se representa por las siglas desv o desvpred

en este trabajo. Dado que el modelo elegido no se genera a partir de la muestra cuyo error se

calcula, el resultado es una estimación más realista que si el modelo fuese creado a partir de todas

los casos (muestras). Por consiguiente, se aplico este sistema para determinar el valor predictivo

de los algoritmos PLS y GNBR.

Los datos de absorbancia y de las propiedades son centrados y escalados antes de crear los

modelos PLS por medio del algoritmo NIPALS [22]. El número de variables latentes

seleccionado es el que produzca un mínimo en la grafica de rms vs. número de variables latentes.

Los datos espectrales se sometieron a un proceso de centrado y escalado del conjunto de

prueba y de referencia previo al desarrollo del modelo de calibración; este pre-tratamiento es el

más usado con frecuencia en la Quimiometría. El centrado es necesario para el algoritmo

NIPALS; el escalado le da el mismo "peso" a todas las variables (columnas, en este caso).

En el caso del modelo de Regresión Bayesiana Lineal (GNBR) [62] se realizo de igual

manera la validación cruzada Leave One Out (LOOCV), con la diferencia de que el modelo se

genera directamente y no se selecciona de una serie consecutiva de los mismos.

111

El procesamiento matemático y estadístico se realizó en el intervalo espectral 400 a

4461cm-1

. Así, la calidad de los modelos en los conjuntos de calibración y predicción se evaluó

sobre la base de dos indicadores estadísticos comunes, el coeficiente de determinación R2 y el

estadístico F. El primero de estos se aplica en regresión y se interpreta como "la fracción de la

propiedad que es explicada" traduciendo este concepto a la investigación, el coeficiente de

determinación funcionara como una medida de la variación en la variable respuesta (propiedad a

predecir) explicada por el modelo de regresión. A tal efecto, lo relevante de estimar este

parámetro aplica ya que es importante disponer de una medida que mida la bondad del ajuste

realizado y que permita decidir si el ajuste lineal es suficiente o se deben buscar modelos

alternativos.

En el mismo orden de ideas, el parámetro estadístico F se interpreta como el cociente entre la

varianza del modelo y la de los errores. Existen tablas para el nivel de significancia (0.01, 0.05,

0.10 etc).

Modelos de predicción de propiedades del gas asociado a partir de espectros de infrarrojo

utilizando el algoritmo de Mínimos Cuadrados Parciales (PLS) y Regresión Bayesiana Lineal

(linear-GNBR).

Aplicación del algoritmo de Mínimos Cuadrados Parciales

En este paso se utilizó el programa desarrollado por Alciaturi del algoritmo de mínimos

cuadrados parciales basado en el algoritmo de Geladi y Kowalski titulado Partial Least Square

Regression [22]. Este programa permite obtener el vector de regresión óptimo con los datos de

referencia para luego validarlo con los datos de validación.

Este programa permite encontrar el número de variables latentes que están más

correlacionadas con la variable respuesta. El número óptimo de variables latentes corresponde al

que arroje el menor valor en la suma de los cuadrados del error de predicción (obtenido con los

datos de validación). Los resultados obtenidos corresponden a los calculados con el número

óptimo de variables latentes. Se utilizó para la comparación el método de la recta de 45° y la

desviación cuadrática media.

112

Aplicación del algoritmo de Regresión Bayesiana Lineal

Se propuso evaluar la implementación de la Regularización Bayesiana a una neurona lineal,

que procese cada una de las muestras para generar el valor de salida, en función de un vector

calculado a partir de un entrenamiento con datos aleatorios, fundamentados en el método

reportado en [21] conocido como “Aproximación Gauss-Newton a la regularización Bayesiana”,

GNBR de sus siglas en Ingles, ya que proporciona una solución formalmente similar a la del

método PLS [5].

Análisis comparativo de los resultados obtenidos con el conjunto de muestras de gas

asociado por el Modelo de Mínimos Cuadrados Parciales (PLS) y Regresión Bayesiana Lineal

(linear GNBR).

Es de gran importancia para esta investigación la interpretación y análisis de los resultados

obtenidos por cada uno de los modelos aplicados de forma individual, más relevante aun es

establecer comparaciones de los modelos analizados ya que estos resultados trascienden al sector

productivo, específicamente a la industria del petróleo y gas natural, asociado a esto el desarrollo

de este objetivo en la investigación permitirá concluir sobre las bondades que los modelos

posean o no, en la predicción de las propiedades físico químicas del gas natural.

En este sentido, una vez aplicado los algoritmos de predicción y evaluados por los parámetros

estadísticos, se plantea una comparación de resultados en base a la construcción de una tabla

comparativa y diagramas de barras que permitan evidenciar a través de los parámetros

estadísticos medidos la respuesta sobre cuáles son las regiones en el espectro de infrarrojo en las

cuales se obtiene una mejor predicción de la composición del gas, así como la predicción de sus

propiedades (Peso Molecular promedio, Valor Calorífico Neto, Valor Calorífico Total,

Viscosidad y Densidad Relativa del Gas) y cuál de los métodos aplicados (PLS y linear GNBR)

brinda una mejor predicción en análisis de muestras de gas asociado.

CAPITULO IV

ANALISIS DE LOS RESULTADOS

Sobre la base de los datos obtenidos, se sistematizo los resultados del proceso de ésta

investigación, los cuales se organizan en función de los objetivos, ya que el contenido y la forma

en que se presentan dependen de los criterios metodológicos propuestos. Mediante el desarrollo

de éste capítulo se darán a conocer un conjunto de datos obtenidos mediante las observaciones y

trabajo de laboratorio, así como el tratamiento y procesamiento a través de algoritmos para

finalmente generar un modelo de predicción de propiedades del gas natural asociado utilizando

el modelo de Mínimos Cuadrados Parciales (PLS) y Regresión Bayesiana Lineal (linear GNBR).

4.1 Interpretación de bandas observadas en los espectros obtenidos de FTIR por

comparación con los espectros de los componentes puros

La interpretación de bandas para identificar los componentes en una mezcla de gas natural es

posible llevarse a cabo a través de la comparación con los espectros de componentes puros que se

encuentran en la literatura [73].

Es de justificarse el uso de esta base de datos (ver tabla 3) ya que se corresponden desde el

punto de vista experimental pues cumple con las especificaciones empleadas en esta

investigación, tal como la implementación de Espectrómetro por Transformada de Fourier, así

como el uso de una celda de vidrio para muestras gaseosas de 10cms. con ventanas de bromuro

de potasio (KBr).

114

Tabla 3 Identificación de componentes por regiones en el espectro.

Fuente: Perkin Elmer (1973)

Componente Región

(cm-1

)

Metano 1200 - 1400

2700 - 3200

Etano 1350 - 1600

2700 - 3100

Propano 1550 - 1300

3100 - 2800

Butano 1500 - 1300

3100 - 2800

i - Butano 1500 - 1300

3100 - 2800

Pentano 1550 - 1300

3100 – 2800

i - Pentano 1550 - 1300

3100 – 2800

Hexano 1500 - 1300

3100 - 2800

Heptano 1500 - 1350

3000 - 2800

Octano 1550 - 1300

3100 - 2800

Nonano 1500 - 1300

3100 - 2800

Decano 1500 - 1300

3000 - 2800

Undecano 1500 - 1300

3100 - 2800

Dióxido de Carbono (CO2 ) y

Sulfuro de Hidrogeno (H2S)

750 - 600

2400 - 2200

El análisis instrumental aplicado al conjunto de 23 muestras de gas asociado producido en el

Occidente del país por Espectrometría infrarroja en una región comprendida entre 4700 y

400cm-1

(regiones cercana, media y lejana) se representan a través del uso de un paquete

informático comercial, en la figura que se muestra a continuación.

115

Figura 37 Espectro de las muestras de gas asociado. Fuente: Los autores (2010)

De este conjunto de espectros infrarrojos la identificación de compuestos orgánicos

corresponde con el grupo alcanos (C-H), en esta se puede apreciar los valores de absorbancia con

respecto al número de onda en las diferentes regiones del espectro. Los picos que se distinguen en

la Figura 37 representan la absorción en el infrarrojo de la mezcla de gases de un conjunto de 23

muestras; se presentan tres zonas con picos de absorción importante los cuales sirvieron como

punto de referencia para la identificación de los componentes del gas natural.

Debido a que las 23 muestras corresponden a la producción de gas asociado a un yacimiento,

y que estas fueron obtenidas como producto en una etapa de separación (demetanizadora), el

contenido de componente pesados (etano mas) es mínimo, esto se pudo comprobar con los

estudios cromatográficos de las muestras de estudio y posteriormente con una revisión de la base

de datos cromatográficos del gas producido en el yacimiento.

En consecuencia de esto, se considero para la investigación identificar y predecir la

producción de metano y agrupar los componentes más pesados en un grupo que en lo sucesivo

será referido como Etano mas. Así, para realizar la identificación de componentes puros al

0500100015002000250030003500400045005000-2

-1

0

1

2

3

4

5

Numero de onda (cm-1)

Absorb

ancia

116

conjunto de 23 muestras representadas en la Figura 37, se hizo una comparación con los valores

presentados en la Tabla 3 quedando de esta manera:

Tabla 4 Identificación de componentes por regiones en el espectro para el conjunto de 23 muestras


Componente Formula Región

(cm-1

) Vibración

Metano CH4

1200 -1400 Flexión

2700 - 3100 Tensión

Etano mas C2H6 + 1400 - 1550 Flexión

3100 - 3200 Tensión

Dióxido de Carbono y CO2 y

H2S

600 -750 Flexión

Sulfuro de Hidrogeno 2200 - 2400 Tensión

La identificación del metano por estar en altas concentraciones por lo general, presenta picos

abruptos bien definidos en la región mediana y tal como se muestra en la figura 38, en zonas

cercanas a los demás componentes, que a diferencia de este, presentan zonas de absorción con

picos más suaves en la región mediana del espectro. En la región cercana, se muestran bandas

con considerables medidas de absorción de todos los componentes. La representación grafica de

la Tabla 4, se puede observa en la siguiente figura.

0500100015002000250030003500400045005000-2

-1

0

1

2

3

4

5


Absorb

ancia

Tensión Flexión

Etano Mas

Etano Mas

MetanoMetano

Región MedianaRegión Cercana

Región de Huella Dactilar

Figura 38 Identificación de componentes, vibraciones moleculares y regiones.


117

En la figura 38 se visualiza los valores de absorbancia vs. el numero de onda para las

diferentes regiones del espectro. En la misma se evidencia tres regiones de absorción importante

(Ver figuras 39 a 41), a su vez , se detallan las vibraciones típicas de los grupos funcionales

alcanos las cuales se caracteriza por tener vibración de Tensión (movimientos rítmicos a lo largo

del eje del enlace, modifican la distancia de enlace) ubicándose en la región espectral 3000 cm-1

aproximadamente y de Flexión (movimiento de un grupo de átomos con respecto al resto de la

molécula, manteniéndose los átomos integrantes de este grupo considerado sin cambios, en

cuanto a ángulos y distancias, entre sí) en la región espectral 1400 cm-1

aproximadamente.

La aparición de metano, etano y más pesados, y componentes ácidos son muy estables en la

región mediana y su reproducción en la región de la huella dactilar (región 400 – 1500cm-1

)

Bandas de Absorción en las Regiones del Espectro

De izquierda a derecha en la región cercana 4550 - 4000cm-1

aproximadamente.

4000410042004300440045004600-0.2

0

0.2

0.4

0.6

0.8

1

1.2


Absorb

ancia

Figura 39 Región de absorción 4550 - 4000 cm-1


En la región de infrarrojo cercano (NIR) las bandas de absorción no están tan bien definidas

como en el infrarrojo medio, apareciendo en forma de bandas anchas y solapadas entre si, por lo

que es más difícil realizar una asignación a un componente o grupo funcional concreto de la

muestra. Las bandas tienen una menor intensidad (la absortividad de la muestra es menor).

118

De igual manera, haciendo uso del paquete informático y programando el algoritmo es

posible obtener un acercamiento de la región de interés. De esta manera se visualiza en la región

mediana una segunda región de absorción en el numero de onda, 3200 - 2700 cm-1

aproximadamente, tal como se muestra en la siguiente figura.

2700280029003000310032003300-0.5

0

0.5

1

1.5

2

2.5

3

3.5

4

4.5


Absorb

ancia



Finalmente, una tercera región de absorción se encuentra ubicada entre el número de onda

1550 y 1200 cm-1

aproximadamente, tal como se muestra en la siguiente figura.

120012501300135014001450150015501600-0.5

0

0.5

1

1.5

2

2.5

3

3.5


Absorb

ancia



119

4.2 Detección de muestras anómalas “outliers” en base a la composición (proporcionada

por el método de referencia) y a los espectros de infrarrojo

De un total de 28 muestras que representan la población de puntos de muestreos del

yacimiento de petróleo y gas asociado, se le realizo a las 28 muestras de forma efectiva el análisis

cromatográfico a nivel de laboratorio, no obstante solo a 25 muestras se le efectúo el análisis de

absorción en el espectro de infrarrojo, quedando 3 de las celdas sin estudio por escape de gas del

cilindro.

La representación grafica haciendo uso de un paquete informático permite visualizar la

tendencia de los datos espectrales de las 25 muestras analizadas, el objetivo de este paso es

analizar y verificar la agrupación de datos y con ello detectar tendencias en las regiones de

absorción.

La detección de los outlier en esta etapa es importante porque la inclusión de estas muestras

discrepantes en el modelo degrada su capacidad predictiva. Es de considerar que cuando se trata

de un número pequeño de muestras, la detección de outlier se ejecuta con una inspección visual

del conjunto de datos espectrales, cuando se trata de un conjunto de datos grandes (100 o más),

se han desarrollado métodos multivariantes, estos poseen esta ventaja sobre los tradicionales

univariantes, en la capacidad que tienen de detectar la observación u observaciones inconsistentes

con el resto de los datos.

Para las muestras de esta investigación la detección de outliers se realizo a través de una

inspección a la representación grafica de los datos espectrales del conjunto total de muestras. En

la figura 42 se identifican las muestra 24 y 25 como muestras anómalas (outliers), en el caso

particular de la muestra 24, (banda de color rojo en la figura 42) se visualiza un corrimiento de la

línea base, así como no corresponde con la tendencia de las muestras restantes, con valores muy

bajos de Absorbancia, indicativo de que no hubo importante absorción de gas en el espectro de

infrarrojo, la principal causa de esto es la poca presencia de muestra de gas en la celda de vidrio.

120

0500100015002000250030003500400045005000-2

-1

0

1

2

3

4

5


Absorb

ancia

Muestra 24 Muestra 25

Figura 42 Identificación de muestras anómalas (outliers)


Con respecto a la muestra 25, (banda de color celeste en la figura 42) se visualiza una

inconsistencia durante toda las regiones de absorción con respecto a la tendencia de las muestras

restantes, esto se debe a la alta intensidad de uno de los componentes en la muestra

principalmente Dióxido de Carbono (C02), este componente que también se encuentra en la

atmosfera posiblemente haya afectado las bandas de absorción en el infrarrojo en las diferentes

regiones.

De esta manera, una vez identificados los componentes de la mezcla de gas asociado, y

aplicado el descarte de muestras anómalas (outliers), se define la muestra de estudio de esta

investigación quedando 23 muestras representativas del gas producido en el Occidente del país,

para la predicción de propiedades fisicoquímicas.

121

4.3 Selección de regiones de números de onda que produzcan las mejores predicciones

para el modelo de mínimos cuadrados parciales y regresión bayesiana lineal

con validación de los modelos por el método de validación cruzada Leave One Out

(LOOCV)

La selección de las regiones de número de onda para predecir con la aplicación de algoritmo

del modelo de Mínimos Cuadrados Parciales y Regresión Bayesiana ambos desarrollados en base

a una validación cruzada Leave One Out (LOOCV) con el uso de un paquete informático, se

realizo ejecutando un pretratamiento de los datos con la técnica de centrado y escalado, con el

centrado se calcula el valor promedio para cada variable del conjunto de datos de entrenamiento y

luego se sustrae el mismo de cada variable correspondientemente, es decir, las variables se usan

en la forma centrada en la media y el escalado divide cada elemento entre la desviación estándar.

El espectro medido por absorción en el infrarrojo se realizo desde el numero de onda de 4700 a

400 cm-1

, en función de esto el algoritmo como dato de entrada establece un parámetro de

intervalos en el numero de onda, este se introduce de forma aleatoria para medir la calidad de los

modelos en los conjuntos de calibración y predicción se evaluó sobre la base de dos indicadores

estadísticos comunes, el coeficiente de determinación R2 y el estadístico F, así se obtienen los

siguientes resultados:

4.3.1 SELECCIÓN DE REGIONES DE NÚMERO DE ONDA PARA EL MODELO

MINIMOS CUADRADOS PARCIALES (PLS)

Selección de Regiones para la predicción de Metano

En cuanto a la predicción de la composición del gas asociado, el metano y etanos mas como

propiedad física del gas natural se encuentran identificados en diferentes zonas del espectro,

región mediana (700 – 4000cm-1

) y región cercana (4000 – 10000cm-1

), tal como se explico

anteriormente en la región mediana se identifican con facilidad distinguiendo esto por el numero

de onda del espectro y el comportamiento de los picos en las bandas de absorción.

122

En la práctica, en cuanto a la selección de regiones de numero de onda para la predicción de

composición de componentes del gas natural (metano y más pesados) bien es sabido que la

región cercana por el solapamiento que presentan las bandas de absorción es el intervalo ideal

para seleccionar datos espectrales y realizar la predicción aplicando quimiometria. De esta

manera, realizando intervalos aleatorios de número de ondas es posible obtener medidas

estadísticas que permitan evaluar y hacer una selección óptima de los intervalos para realizar la

predicción.

Para demostrar esto, se seleccionaron diferentes intervalos, específicamente cada 100cm-1

y

cada 400cm-1

en toda la región del espectro, para evaluar a través de los parámetros estadísticos

cuales son los intervalos de interés para aplicar los algoritmos de predicción. De esta manera, se

presentaran a continuación los resultados obtenidos para la selección de intervalos en el espectro

para metano y etano mas y con ello la interpretación y análisis de las figuras y tablas presentadas.

- Selección de intervalos para metano, cada 100cm-1

en el número de onda por el método PLS

con LOOCV

La figura 43(a), representa la medida adimensional del estadístico F en función del número de

onda (cm-1

), en la misma se visualiza los diferentes puntos (recuadros rojos) que a su vez

representan diferentes intervalos cada 100cm-1

en toda la región del espectro, en la figura se

presenta además la señalización de un recuadro en color verde que según el criterio explicado

agrupa los diferentes intervalos de la región cercana (posible intervalos de mejor predicción).

123

0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1


R2

0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000.5

1

1.5

2

2.5

3

3.5

4

4.5


F

(a) (b)

Figura 43(a) Dispersión del Estadístico F según el número de onda del infrarrojo para predicción de metano en


y 43 (b) Dispersión del Coeficiente de Determinación R2



. Fuente: Los Autores (2010)

Para cada uno de los intervalos representado en la figura 43 se determino las medidas de

desviación así como el estadístico F (cuadrado de la relación de la raíz de la media de los

cuadrados de los valores obtenidos por PLS “stdy” con respecto a la raíz de la media de los

cuadrados del error “desvpred”) tal como se presenta en la Tabla 5.

Tabla 5 Comportamiento estadístico de Metano desde el intervalo 37 al 44 por PLS


Propiedad Intervalo Numero de onda (cm-1) desvpred stdy F R2

Metano

37 3871,26 a 3967,7 1,1867 1,7689 2,222 0,5733

38 3967,70 a 4064,1 1,2625 1,7689 1,9631 0,545

39 4064,15 a 4160,5 0,8413 1,7689 4,4208 0,7819

40 4160,59 a 4257,3 1,2264 1,7689 2,0803 0,6049

41 4257,03 a 4353,42 1,0313 1,7689 2,942 0,686

42 4353,48 a 4449,9 1,1227 1,7689 2,4824 0,6278

43 4449,92 a 4546,32 1,558 1,7689 1,2892 0,3424

44 4546,37 a 4642,82 1,0582 1,7689 2,7942 0,6444

Analizando de forma individual los intervalos seleccionados en la región cercana para la

composición de metano se observan rangos de valores del estadístico F (por debajo de 4) y R2

(distantes de 1) con poco potencial para realizar una buena predicción. En función de esto, se

amplía la magnitud de los intervalos de 100 a 400cm-1

124

- Selección de intervalos cada 400cm-1

en el número de onda por el método PLS con LOOCV

La figura 44 (a) y (b) es similar a la figura 43 (a) y (b), la diferencia básicamente es la

magnitud del intervalo (400cm-1

)

se presenta la medida adimensional coeficiente de

determinación R2 en función del número de onda (cm

-1), en la misma se observa diferentes

puntos (recuadros azules) en intervalos en este caso la región espectral segmento en 12 intervalos

según el numero de onda, la señalización del cuadro verde agrupa intervalos de la región cercana.

0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1


R2

(a) (b)

0 1000 2000 3000 4000 50000.5

1

1.5

2

2.5

3

3.5

4

4.5


F

Figura 44(a) Dispersión del Estadístico F según el número de onda del infrarrojo para predicción de metano en






Tabla 6 Comportamiento estadístico de Metano para el intervalo 10 y 11 por PLS



Metano 10 3871,26 a 4257,04 0,9102 1,7689 3,7773 0,7546

11 4257,04 a 4642,81 0,8504 1,7689 4,3271 0,777

La tabla 6 presenta en detalle la magnitud de los parámetros estadísticos en relación a los

intervalos estimados cada 100cm-1

, el coeficiente de determinación R2 presenta una mayor

correlación entre las variables así como el estadístico F presenta una mayor relación entre los

valores de desviación estimados, determinando con esto mejores medidas de ajuste del modelo

aplicado.

125

Selección de Regiones para la predicción de Etano Mas

- Selección de intervalos para etano mas, cada 100cm-1

en el número de onda por el método

PLS con LOOCV

Lo explicado anteriormente, conserva validez en este caso la selección de intervalos para

estimar la región optima para predicción de etanos y más pesados. La figura 45 representa las

medidas de los parámetros estadísticos F y R2 de los 45 intervalos medidos cada 100cm

-1 en el

espectro.

0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1


R2

0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000.5

1

1.5

2

2.5

3


F

(a) (b)

Figura 45 (a) Dispersión del Estadístico F según el número de onda del infrarrojo para predicción de etano mas en






Tabla 7 Comportamiento estadístico de etano mas desde el intervalo 37 al 44 por PLS



Etano mas

37 3871,26 a 3967,7 1,123 1,6844 2,2496 0,5753

38 3967,70 a 4064,1 1,3793 1,6844 1,4913 0,4317

39 4064,15 a 4160,5 0,9779 1,6844 2,9667 0,694

40 4160,59 a 4257,3 1,1278 1,6844 2,2308 0,6483

41 4257,03 a 4353,42 1,4954 1,6844 1,2688 0,4312

42 4353,48 a 4449,9 1,101 1,6844 2,3405 0,6101

43 4449,92 a 4546,32 1,6128 1,6844 1,0908 0,2385

44 4546,37 a 4642,82 1,1526 1,6844 2,1357 0,5426

126

En la tabla 7 se observan las medidas de desviación de los parámetros, así los valores del

estadístico F no dan una buena medida de ajuste (muy debajo de 4), los valores de R2

indican una

moderada correlación del modelo para la regresión lineal. En función de esto, haciendo uso del

algoritmo se aumenta la magnitud de los intervalos, a 400 cm-1

resultado así 12 intervalos, tal

como se muestra en la figura 46 con valores máximos obtenidos en la región cercana (ver tabla

8).

0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1


R2

(a) (b)

0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000.5

1

1.5

2

2.5

3

3.5

4

4.5


F

Figura 46 (a) Dispersión del Estadístico F según el número de onda del infrarrojo para predicción de etano mas en






Tabla 8 Comportamiento estadístico de etano mas para el intervalo 10 y 11 por PLS



Etano Mas

10 3871,26 a 4257,04 0,8035 1,6844 4,3946 0,7844

11 4257,04 a 4642,81 1,1317 1,6844 2,2152 0,6188

De lo anteriormente explicado, se deduce que en cuanto a la selección de intervalos para la

predicción de composición de gas asociado (metano y etano mas) aplicando el modelo de

mínimos cuadrados parciales con validación cruzada “Leave one out” es viable el criterio de

agrupar los intervalos, esto lo sustenta las figuras 44 y 46 (a) así como 44 y 46 (b), en donde se

demuestra la validez del criterio en cuanto a la selección de intervalos en la región comprendida

desde 3871,26cm-1

hasta 4642,81cm-1

, para la predicción de composición metano y etano mas.

127

Selección de Región para la predicción de Propiedades

En cuanto a la selección de regiones para la predicción de propiedades de gas asociado, en la

literatura no existen criterios sustentados sobre cual determina una mejor regresión lineal del

modelo, sin embargo se realizaron ensayos para determinar parámetros estadísticos con

desviaciones mínimas, valores del estadístico F superior a 4 y coeficiente de determinación

cercanos a 1, para determinar una medida de la bondad de ajuste por el modelo mínimos

cuadrados parciales (PLS) con validación cruzada “Leave one out” a través de la unión de varios

intervalos con resultados poco satisfactorios.

Por lo tanto, la selección se determino haciendo de este criterio estadístico haciendo uso del

intervalo con mayores valores de F y R2, siendo estos los parámetros que miden con mejor

certeza el ajuste del modelo así como la capacidad de correlación entre la propiedad a predecir

(Peso Molecular Promedio, Valor Calorífico Neto, Valor calorífico Total, Densidad Relativa y

Viscosidad) con los datos obtenidos por espectroscopia de absorción en el infrarrojo. Estas

medidas se obtuvieron con intervalos de 100cm-1

; esto se debe a que si se considerase esta

investigación para implantar en operaciones en "tiempo real", las mediciones en la región

mediana y cercana debieran tomar sólo unos pocos segundos. Al usarse un rango espectral

reducido se permitiría el uso de espectrómetros mucho más pequeños, más rápidos y de menor

precio.

128

- Peso Molecular Promedio

0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1


R2

0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000.5

1

1.5

2

2.5

3

3.5

4

4.5

5


F

(a) (b)

Figura 47 (a) Dispersión del Estadístico F según el número de onda del infrarrojo para predicción de peso molecular

promedio en intervalos de 100cm-1


según el número de

onda del infrarrojo para predicción de peso molecular promedio en intervalos de 100cm-1

. Fuente: Los Autores

(2010)

En la figura 47 (a) se presentan los 45 intervalos que abarca la totalidad de la región espectral

medida, el máximo valor del Estadístico F (encerrado en ovalo verde) así como el máximo valor

de R2 en la figura 47 (b), ambos ubicados en el intervalo 37. Las especificaciones sobre estos se

encuentran detallados en la tabla que se presenta a continuación:

Tabla 9 Comportamiento estadístico de peso molecular promedio en el intervalo 37 por PLS



Peso Molecular Promedio

37 3871,26 a 3967,7 0,3199 0,6791 4,507 0,7817

Las medidas de desviación son mínimas (desvpred y stdy), en consecuencia los parámetros

estadísticos F y R2 ofrecen una buena medida de ajuste por el modelo de PLS con validación

cruzada “Leave one out”. La data de espectros de las muestras en este número de onda será

aplicada como una buena región para la predicción.

129

- Valor Calorífico Neto

0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1


R2

0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000

1

2

3

4

5

6

7


F

(a) (b)

Figura 48 (a) Dispersión del Estadístico F según el número de onda del infrarrojo para predicción de valor calorífico

neto en intervalos de 100cm-1



infrarrojo para predicción de valor calorífico neto en intervalos de 100cm-1


En la figura 48 (a) se presenta la dispersión de valores obtenidos del estadístico F en los

intervalos, bajo el criterio de selección del máximo valor representado, por ambos parámetros

estadísticos, ver figura 48 (b), se hace selecciona el intervalo 37 ubicado entre 3871,26 a 3967,7

cm-1

(región mediana), en ambas figuras marcado con el ovalo verde, pues brinda certeza de

ajuste del modelo.

Tabla 10 Comportamiento estadístico de valor calorífico neto en el intervalo 37 por PLS



Valor Calorífico

Neto 37 3871,26 a 3967,7 13,5452 33,4885 6,1125 0,837

En este intervalo en relación de la magnitud medida de los valores caloríficos, las

desviaciones medidas son relativamente bajas, por lo que el cuadrado de la relación de estas

medidas muestran una buena bondad de ajuste del modelo, atendiendo el caso de que son

muestras multicomponentes de gas natural.

130

- Valor Calorífico Total

0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1


R2

0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000

1

2

3

4

5

6

7


F

(a) (b)


total en intervalos de 100cm-1



infrarrojo para predicción de valor calorífico total en intervalos de 100cm-1


En la figura 49 (a) se presenta el estadístico F en los intervalos que cubren la totalidad de

Absorbancia en el numero de onda, el máximo estimado en el intervalo 37 de 6,146 y el

coeficiente de determinación ver figura 49 (b), con un valor estimado de 0,838 (tabla 11) con

errores de desviación mínimos, (considerando la magnitud los datos medidos en cuanto a valor

calorífico se refiere) correspondiente al mismo ubicado entre 3871,26 a 3967,7 cm-1

(región

mediana), en ambas figuras marcado con el ovalo verde, ambos parámetros evalúan el modelo

PLS, por los valores obtenidos se presenta un buen ajuste del modelo.

Tabla 11 Comportamiento estadístico de valor calorífico total en el intervalo 37 por PLS



Valor Calorífico

Total 37 3871,26 a 3967,7 14,4847 35,91 6,146 0,838

131

- Densidad relativa

0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1


R2

0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000.5

1

1.5

2

2.5

3

3.5

4

4.5

5


F

(a) (b)

Figura 50 (a) Dispersión del Estadístico F según el número de onda del infrarrojo para predicción de densidad

relativa en intervalos de 100cm-1


según el número de onda

del infrarrojo para predicción de densidad relativa en intervalos de 100cm-1


De la Figura 50 (a) y (b), se deduce la selección de los parámetros estadísticos F y R2

obteniendo puntos máximos de medición en el intervalo 37, en correspondencia con las

propiedades anteriormente analizadas, para la densidad relativa se determinan valores de

desviación mínimos (ver Tabla 12), en consecuencia los valores de estadístico F señala una

buena medida de ajuste del modelo así como el coeficiente determinación 0,781 señala una buena

correlación entre la data espectral del intervalo con la propiedad a predecir “densidad relativa”.

Tabla 12 Comportamiento estadístico de la densidad relativa en el intervalo 37 por PLS



Densidad relativa

37 3871,26 a 3967,7 0,0111 0,023 4,502 0,781

132

- Viscosidad

0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1


R2

0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000.5

1

1.5

2

2.5

3


F

(a) (b)

Figura 51 (a) Dispersión del Estadístico F según el número de onda del infrarrojo para predicción de viscosidad en




infrarrojo para predicción de viscosidad en intervalos de 100cm-1


En la figura 51 (a) y (b) se presentan los máximos valores de F en el intervalo 30 muy por

debajo del establecido aun cuando el coeficiente de determinación R2 todavía está en un límite

aceptable, es de destacar que no siempre un alto coeficiente de determinación determina una

buena capacidad predictiva, el modelo de mínimos cuadrados parciales es un modelo de

calibración que utiliza la variable latente ubicada en el error mínimo, un sobreajuste producido al

utilizar gran cantidad de variables latentes da lugar a una pobre capacidad predictiva, en este caso

en particular se evidencia por un bajo estadístico F (ver tabla 13), debido a esto se considera el

modelo PLS con LOOCV no adecuado para la predicción de viscosidad como propiedad.

Tabla 13 Comportamiento estadístico de viscosidad en el intervalo 30 por PLS



Viscosidad 30 3196,15 a 3292,59 0,0002 0,0003 2,766 0,6473

133

4.3.2 Selección de regiones de número de onda para el modelo Regresión Bayesiana Lineal

Selección de Regiones para la predicción de Metano

Bajo el mismo criterio explicado en la selección de regiones para la predicción de Metano por

el Modelo PLS, se seleccionaron diferentes intervalos, específicamente cada 100cm-1

y cada

400cm-1

en toda la región del espectro, para evaluar a través de los parámetros estadísticos

(desviaciones, F y R2) cuales son los intervalos de interés para aplicar el algoritmo de predicción

por Regresión Bayesiana Lineal.

En este sentido, se presentaran a continuación los resultados obtenidos para la selección de

intervalos en el espectro para metano y etano mas. Posteriormente se realizara la interpretación y

análisis de las figuras y tablas presentadas.

- Selección de intervalos para metano, cada 100cm-1

en el número de onda por el método de

Regresión Bayesiana Lineal (Linear GNBR) con LOOCV

La figura 52(a) muestra los valores obtenidos del estadístico F con respecto a los valores de

número de onda (cm-1

), en esta figura se observa para cada uno de los intervalos de 100cm-1

de

toda la región espectral los valores de F, que indican cuales son los valores más altos para la

selección de la región a estudiar que presentan mejores posibilidades de predicción, estos son los

valores de F que se encuentran seleccionados con un recuadro color verde en la figura.

134

0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1


R2

0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000

0.5

1

1.5

2

2.5

3


F

(a) (b)

Figura 52 (a) Dispersión del Estadístico F según el número de onda del infrarrojo para predicción de metano para el

modelo GNBR en intervalos de 100cm-1


según el número

de onda del infrarrojo para predicción de metano para el modelo GNBR en intervalos de 100cm-1

. Fuente: Los

Autores (2010).

Tabla 14 Comportamiento estadístico de metano desde el intervalo 37 a 44 por GNBR.



Metano

37 3871,26 a 3967,7 1,0456 1,7689 2,862 0,6517

38 3967,70 a 4064,1 1,7493 1,7689 1,0226 0,1412

39 4064,15 a 4160,5 1,0296 1,7689 2,9517 0,6665

40 4160,59 a 4257,3 1,8353 1,7689 0,929 0,1401

41 4257,03 a 4353,42 1,3989 1,7689 1,599 0,443

42 4353,48 a 4449,9 1,1926 1,7689 2,2 0,548

43 4449,92 a 4546,32 1,8581 1,7689 0,9064 0,0351

44 4546,37 a 4642,82 1,8091 1,7689 0,9561 0,038

En la tabla 14 se muestran los resultados obtenidos para cada uno de los intervalos

seleccionados del estadístico F, así como también los del coeficiente de determinación R2, en este

rango de intervalos es donde se observaron los mejores valores de F y R2 que brindan la mejor

predicción para el componente metano, analizando de manera independiente estos resultados se

observa que están por debajo de los valores limites de predicción de estas variables indicativas.

135

- Selección de intervalos para metano, cada 400cm-1 en el número de onda por el método de

Regresión Bayesiana Lineal (Linear GNBR) con LOOCV.

0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1


R2

0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000

0.5

1

1.5

2

2.5

3


F

(a) (b)

Figura 53 (a) Dispersión del Estadístico F según el número de onda del infrarrojo para predicción de metano para el

modelo GNBR en intervalos de 400cm-1


según el número

de onda del infrarrojo para predicción de metano para el modelo GNBR en intervalos de 400cm-1

. Fuente: Los

Autores (2010).

La figura 53 (b) representa los valores graficados del coeficiente de determinación R2 con

respecto al número de ondas, este valor de R2 para cada intervalo de numero de onda de 400cm

-1

en la figura se seleccionan los mismos intervalos seleccionados cada 100cm-1

(de 3871 a 4642

cm-1

), demostrando que la zona seleccionada, indicando así que esta unión de intervalos

determina las medidas de desviación e incrementa los parámetros estadísticos, justificando así la

mejor zona para hacer la predicción del componente a analizar y como estos valores son un

promedio de las regiones muestra valores más estables del coeficiente de determinación R2

aunque todavía un poco bajo con respecto a los valores límite aceptables para estas variables,

esto se puede ver en detalle en la tabla 15

Tabla 15 Comportamiento estadístico de metano en los intervalos 10 y 11 por GNBR.



Metano 10 3871,26 a 4257,04 1,0741 1,7689 2,7125 0,6321

11 4257,04 a 4642,81 1,0628 1,7689 2,7702 0,6537

136

Selección de Región para la predicción de Etano Mas

- Selección de intervalos para etano mas, cada 100cm-1

en el número de onda por el método de

Regresión Bayesiana Lineal (Linear GNBR) con LOOCV

En este caso para la selección de regiones del etano mas se tomaron las mismas

consideraciones que se hicieron para el metano, la grafica muestra los valores del estadístico F y

del coeficiente de determinación con respecto al número de ondas para cada uno de los intervalos

da la región espectral, haciéndose el mismo señalamiento de estas regiones como se observa en la

figura 54(a y b)

0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1


R2

0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000

0.5

1

1.5

2

2.5

3


F

(a) (b)

Figura 54 (a) Dispersión del Estadístico F según el número de onda del infrarrojo para predicción de etano mas para

el modelo GNBR en intervalos de 100cm-1


según el número

de onda del infrarrojo para predicción de etano mas para el modelo GNBR en intervalos de 100cm-1

. Fuente: Los

Autores (2010)

En la tabla 16 se pueden observar con mayor detalle los resultados que arroja el algoritmo de

selección de regiones para las variables de F y R2, y a pesar de que estos valores pueden ser muy

bajos con respecto a los valores requeridos (F menores de 4 y R2 muy por debajo de 1), es el

rango de regiones que indican mayores posibilidades de predicción.

137

Tabla 16 Comportamiento estadístico de etano mas en los intervalos 37 a 44 por GNBR.



Etano mas

37 3871,26 a 3967,7 1,0936 1,6844 2,3725 0,5796

38 3967,70 a 4064,1 1,8275 1,6844 0,8496 0,0211

39 4064,15 a 4160,5 1,0968 1,6844 2,3587 0,593

40 4160,59 a 4257,3 2,0091 1,6844 0,7029 0,0285

41 4257,03 a 4353,42 1,9031 1,6844 0,7834 0,042

42 4353,48 a 4449,9 1,4736 1,6844 1,3065 0,2896

43 4449,92 a 4546,32 1,8963 1,6844 0,789 0,0077

44 4546,37 a 4642,82 1,752 1,6844 0,9243 0,0004

En la tabla 17, se observa un incremento en los parámetros estadísticos medidos en

intervalos cada 400cm-1

, con respecto a las medidas obtenidas cada 100cm-1

(tabla 16), como se

observa en la figura 55, los puntos que se encuentran seleccionados con un circulo verde

muestran la mejor posibilidad de predicción, esto demuestra que la región seleccionada en

ambos casos es la región cercana, donde se obtienen los mejores valores de F y R2 para la

selección de estas regiones a aplicar en el modelo de predicción.

0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1


R2

0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000

0.5

1

1.5

2

2.5

3


F

(a) (b)

Figura 55 (a) Dispersión del Estadístico F según el número de onda del infrarrojo para predicción de etano mas para



según el

número de onda del infrarrojo para predicción de etano mas para el modelo GNBR en intervalos de 400cm-1

.


Tabla 17 Comportamiento estadístico de etano mas en los intervalos 10 y 11 por GNBR.



Etano Mas

10 3871,26 a 4257,04 0,981 1,6844 2,9484 0,661

11 4257,04 a 4642,81 1,2624 1,6844 1,7803 0,479

138

Selección de regiones para la predicción de propiedades

- Peso Molecular Promedio

En la siguiente figura 56, se presentan los resultados obtenidos para el peso molecular

promedio, se puede observar que dentro de toda la longitud de onda del espectro sobresale un

valor tanto del parámetro estadístico F como del coeficiente de determinación R2

(figura 56 a y

b), estos valores indican que esa región que está entre 3581 y 3678cm-1

para ambas variables, es

donde se puede obtener la mejor predicción.

0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1


R2

0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000

0.5

1

1.5

2

2.5

3

3.5

4


F

(a) (b)

Figura 56 (a) Dispersión del Estadístico F según el número de onda del infrarrojo para predicción de peso molecular

promedio para el modelo GNBR en intervalos de 100cm-1


según el número de onda del infrarrojo para predicción de peso molecular promedio para el modelo GNBR en



Los resultados de esta selección de región están en la tabla 18, los parámetros estadísticos

determinan una desviación y una correlación importante que pueda representar una poca

capacidad predictiva del modelo de regresión bayesiana.

Tabla 18 Comportamiento estadístico de peso molecular promedio en el intervalo 34 por GNBR


Propiedad Intervalo Numero de onda (cm-1) desvpred stdy F R2 Peso

Molecular Promedio

34 3581,93 a 3678,37 0,35097 0,679086 3,74376 0,733369

139

- Valor Calorífico Neto

En la figura 57 se muestran los resultados para la selección del Valor Calorífico Neto,

tomando el valor más alto de las variables como se ha hecho en los casos anteriores y como se ha

observado en la selección de todas las propiedades se encuentra ubicado en el rango en la región

media del espectro. En la figura 57 (b) se puede observar un valor del coeficiente de

determinación que es igual a la unidad lo que implica en este caso un sobreajuste del modelo para

esa región en particular por lo que se omite al momento de la selección de la región.

0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000

0.5

1

1.5

2

2.5

3

3.5


F

0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1


R2

(a) (b)


neto para el modelo GNBR en intervalos de 100cm-1


según el número de onda del infrarrojo para predicción de valor calorífico neto para el modelo GNBR en intervalos

de 100cm-1


Tabla 19 Comportamiento estadístico de valor calorífico neto en el intervalo 36 por GNBR


Propiedad Intervalo Numero de onda (cm-1) desvpred stdy F R2 Valor

Calorífico Neto

36 3774,81 a 3871,26 19,1547 33,4885 3,0566 0,6762

En la tabla 19 se observa con detalle las longitudes de onda donde se obtiene el valor con

mayor probabilidad de predicción aunque el valor de F y R2 estén por debajo de los valores

deseados, lo que da a entender que los valores suministrados al modelo para las 23 muestras

analizadas no se ajustan a la obtención de una optima capacidad predictiva.

140

- Valor Calorífico Total

En la figura 58 se muestran los resultados esta vez para la selección del Valor Calorífico

Total, caso similar al anterior se toma el valor más alto de los parámetros estadísticos. En la

figura 58 (b) se puede observar el mismo caso donde un valor del coeficiente de determinación es

igual a la unidad esto implica que existe un sobreajuste del modelo para esta región en particular

por lo que se omite al momento de la selección de la región. En la tabla 20 se observa que las

medidas de desviación son cantidades típicas de las magnitudes en las que se presenta esta

propiedad (entre 1000 y 1200Btu/Pcn gas seco) los parámetros estadísticos están moderadamente

por debajo de lo debido a pesar de que es la mejor región con valores más altos de F y R2 su

ajuste es poco significativo al modelo de selección.

0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000

0.5

1

1.5

2

2.5

3

3.5


F

0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1


R2

(a) (b)


total para el modelo GNBR en intervalos de 100cm-1


según el número de onda del infrarrojo para predicción de valor calorífico total para el modelo GNBR en intervalos

de 100cm-1


Tabla 20 Comportamiento estadístico de valor calorífico total en el intervalo 36 por GNBR



Calorífico Total

36 3774,81 a 3871,26 20,5778 35,909 3,0452 0,675

141

- Densidad relativa

En la figura 59 el valor más alto de F y R2 se encuentran ubicados en una longitud de onda

entre 3581 y 3678cm-1

, seleccionados de entre las 45 intervalos en las regiones del espectro como

la mejor medida de ajuste al modelo de predicción, en esta propiedad en particular los parámetros

estadísticos se acercan más a los valores que se requieren para una buena predicción de la esta

propiedad, estos resultados se observan en la tabla 21 donde se muestran valores de F cercanos a

4 y de R2 cercanos a 1.

0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1


R2

0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000

0.5

1

1.5

2

2.5

3

3.5

4


F

(a) (b)

Figura 59 (a) Dispersión del Estadístico F según el número de onda del infrarrojo para predicción de densidad

relativa para el modelo GNBR en intervalos de 100cm-1


según el número de onda del infrarrojo para predicción de densidad relativa para el modelo GNBR en intervalos de

100cm-1


Tabla 21 Comportamiento estadístico de densidad relativa en el intervalo 34 por GNBR


Propiedad Intervalo Numero de onda (cm-1) desvpred stdy F R2 Densidad relativa

34 3581,93 a 3678,37 0,012 0,0234 3,8136 0,7382

142

- Viscosidad

En la figura 60 se señala el intervalo 25 que corresponde a las longitudes de onda que están

entre 2712 y 2810cm-1

ubicado en la región mediana como el seleccionado para aplicar el

algoritmo de predicción, ya que estas presentaron los valores de F y R2 mayores, con la

observación de que no son lo suficiente valores óptimos para concretar una buena predicción,

teniendo valores de F igual a 1.866 y R2 igual 0.4762 como se puede observar en la tabla 22.

Estos valores son lo suficientemente bajos como para descartar la aplicación del algoritmo linear

GNBR para el análisis de esta propiedad (viscosidad) con los datos experimentales

correspondientes a 23 muestras de gas asociado.

0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2


F

0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1


R2

(a) (b)

Figura 60 (a) Dispersión del Estadístico F según el número de onda del infrarrojo para predicción de viscosidad para



según el

número de onda del infrarrojo para predicción de viscosidad para el modelo GNBR en intervalos de 100cm-1

.


Tabla 22 Comportamiento estadístico de viscosidad en el intervalo 34 por GNBR



Viscosidad 25 2712,93 a 2810,37 0,0002 0,0003 1,866 0,4762

143

4.4 Modelos de predicción de propiedades del gas asociado a partir de espectros de

infrarrojo utilizando el algoritmo de Mínimos Cuadrados Parciales (PLS) y Regresión

Bayesiana Lineal (linear-GNBR).

Una vez seleccionados los intervalos en las regiones del espectro por los modelos Mínimos

Cuadrados Parciales y Regresión Bayesiana Lineal ambos por el método de validación Cruzada

“Leave One Out” (LOOCV) y evaluados por las medidas de desviación de los datos, el

estadístico F y el coeficiente de determinación R2 se presentan los resultados obtenidos aplicando

los modelos.

4.4.1 Predicciones por el modelo de Mínimos Cuadrados Parciales (PLS)

Metano

Para la selección de intervalos en cuanto a composición (metano y etano mas) para ambos

modelos (PLS y linear GNBR), se demostró que la unión de intervalos en la región de

espectroscopia cercana (FT-NIR) evaluado por los parámetros estadísticos brinda mejores

criterios de predicción al momento de aplicar los modelos respectivos para predicción con

validación cruzada LOOCV.

En función de esto para la composición de metano, se presenta la figura para predicción de la

composición de metano del conjunto de 23 muestras de gas asociado producidos en el Occidente

del país.

144

90 91 92 93 94 95 96 9790

91

92

93

94

95

96

97

Valor verdadero de metano (% molar)

Valo

r calc

ula

do p

ara

la p

redic

cio

n d

e m

eta

no (

% m

ola

r)

Figura 4.61 Predicción de metano por PLS con LOOCV


La figura 61 presenta el valor verdadero versus el valor calculado por el modelo PLS para los

datos obtenidos de las 23 muestras, en la misma se representa una dispersión homogénea de 23

puntos (corresponden a 23 muestras) alrededor de la línea de 45 grados, línea que representaría

una correlación lineal perfecta R = 1 y por ende la mejor predicción, esta dispersión es normal en

el caso de análisis de muestra de gas natural debido a la complejidad de las mezclas, para este

caso desde metano hasta undecanos con impurezas (trazas mínimas de nitrógeno, dióxido de

carbono y sulfuro de hidrogeno). Las medidas de desviación y parámetros estadísticos F y R2 se

muestran en la tabla 23.

Tabla 23 Comportamiento estadístico de la predicción de metano por PLS



Metano 37 a 44 3871,26 a 4642,82 0,6338 1,769 7,79 0,87165

Se presentan medidas significativas de correlación del modelo con la data obtenida 0,87 así

como una buena medida del estadístico F igual a 7,79 explicando así que el modelo se adapta a

los data espectral indicando una buena tendencia en cuanto a la medición de predicción del

modelo PLS.

145

Etano mas

2 3 4 5 6 7 8 9 102

3

4

5

6

7

8

9

10

Valor verdadero de etano mas (% molar)

Valo

r calc

ula

do p

ara

la p

redic

cio

n d

e e

tano m

as (

% m

ola

r)

Figura 62 Predicción de etano mas por PLS con LOOCV


La figura 62 presenta el modelo de predicción para la composición de etanos y más pesados,

la dispersión mínima de puntos por encima y debajo de la recta de 45 grados de forma

homogénea dan señal de una buena capacidad predictiva del modelo con excepción de algunos

puntos que aun así no restan valor a la buena correlación del modelo con respecto a la data

espectral. Los parámetros estadísticos medidos para el intervalo seleccionado previamente (ver

tabla 24) dan una respuesta satisfactoria del modelo PLS como predictor de la composición del

gas asociado, el estadístico F igual a 8,28 brinda una medida optima de ajuste del modelo así

como el coeficiente de determinación R2 midiendo la capacidad de correlación entre la suma de

los cuadrados del modelo con respecto a la suma de los cuadrados del total (data espectral

medida).

Tabla 24 Comportamiento estadístico de la predicción de etano mas por PLS


Propiedad Intervalo Numero de onda (cm-1) desvpred stdy F R2 Etano mas

37 a 44 3871,26 a 4642,82 0,58505 1,6844 8,2891 0,8822

146

Peso molecular promedio

16.5 17 17.5 18 18.5 19 19.5 2016.5

17

17.5

18

18.5

19

19.5

20

Valor verdadero de peso molecular promedio

Valo

r calc

ula

do p

ara

la p

redic

cio

n d

e p

eso m

ole

cula

r pro

medio

Figura 63 Predicción de peso molecular promedio por PLS con LOOCV


La figura 63 presenta la capacidad de predicción del modelo PLS con validación cruzada

“Leave one out” para la predicción de peso molecular promedio como propiedad del gas natural,

en la misma se representa la distribución de 23 puntos correspondientes al número de muestras y

su desviación con respecto al valor medido para la predicción, con excepción de algunos puntos

dispersos (parte inferior y superior derecha en la figura) el modelo ofrece buena respuesta y

capacidad de predicción, la tabla 25 muestra los parámetros estadísticos que miden la bondad del

ajuste considerando el modelo con predicciones representativas y satisfactorias de correlación

entre la propiedad a predecir peso molecular promedio y la data espectral de las muestras.

Tabla 25 Comportamiento estadístico de la predicción de peso molecular promedio por PLS


Propiedad Intervalo Numero de onda (cm-1) desvpred stdy F R2 Peso

Molecular Promedio

37 3871,26 a 3967,7 0,3198 0,6791 4,5069 0,7816

147

Valor calorífico neto

920 940 960 980 1000 1020 1040 1060 1080 1100 1120920

940

960

980

1000

1020

1040

1060

1080

1100

1120

Valor verdadero de VCN (BTU/PCN)

Valo

r calc

ula

do p

ara

la p

redic

cio

n d

e V

CN

(B

TU

/PC

N)

Figura 64 Predicción de valor calorífico neto por PLS con LOOCV


La figura 64, presenta las medidas verdaderas de valor calorífico neto versus el valor estimado

por el modelo PLS con LOOCV como predictor, la dispersión mínima de los puntos alrededor de

la recta de 45 grados que representa la correlación perfecta (R = 1), da un indicativo de un buen

intervalo seleccionado para la predicción de esta propiedad, la tabla 26 especifica en detalle los

parámetros estadísticos que evalúan la capacidad de predicción del modelo aplicado brindan

medidas satisfactorias de ajuste, en virtud de esto la correlación entre los valores estimados por

el modelo con respecto a las medidas del rango espectral en el numero de onda 3871 a 3967cm-1

dan una buena capacidad de respuestas de predicción del modelo.

Tabla 26 Comportamiento estadístico de la predicción de valor calorífico neto por PLS



Valor Calorífico

Neto 37 3871,26 a 3967,7 13,5452 33,489 6,1126 0,8369

148

Valor calorífico total

1020 1040 1060 1080 1100 1120 1140 1160 1180 1200 12201020

1040

1060

1080

1100

1120

1140

1160

1180

1200

1220

Valor verdadero de VCT (BTU/PCN)

Valo

r calc

ula

do p

ara

la p

redic

cio

n d

e V

CT

(B

TU

/PC

N)

Figura 65 Predicción de valor calorífico total por PLS con LOOCV


En respuesta de la aplicación del modelo PLS con validación cruzada Leave one out, la

figura 65 presenta la dispersión de 23 puntos muéstrales de la propiedad en este caso estudiada

Valor Calorífico Total verdadero con respecto a las medidas obtenidas por el modelo expresada

en unidades (BTU/PCN) dicha distribución se presenta de forma homogénea con excepción de

tres puntos, dos de ellos ubicados en la parte superior de la recta (medio de la figura) y otro en la

parte inferior de la recta (parte superior derecha de la figura) a pesar de ello, la capacidad de

predicción del modelo no se ve disminuido así lo confirma los parámetros estadísticos (ver tabla

27) que evalúan de manera satisfactoria la correlación entre el modelo y la data de espectros en la

región seleccionada aplicando el modelo para la predicción del VCT como propiedad del gas

asociado.

Tabla 27 Comportamiento estadístico de la predicción de valor calorífico total por PLS



Calorífico Total

37 3871,26 a 3967,7 14,4847 35,91 6,146 0,838

149

Densidad relativa

0.58 0.6 0.62 0.64 0.66 0.68 0.7

0.58

0.6

0.62

0.64

0.66

0.68

0.7

Valor verdadero de densidad relativa

Valo

r calc

ula

do p

ara

la p

redic

cio

n d

ensid

ad r

ela

tiva

Figura 66 Predicción de densidad relativa por PLS con LOOCV


De la figura 66, se deduce una distribución representativa de la propiedad medida (densidad

relativa del gas) correspondiente a las 23 muestras analizadas y la tendencia entre los valores

reales (verdaderos) y los valores medidos en la predicción aplicando el modelo de PLS con

LOOCV. En este sentido la desviación de puntos con respecto a la recta de 45 grados se

intensifica por debajo de 0,65 aproximadamente, en consideración de este alejamiento de la recta

la de predicción del modelo no se ve afectada arrojando parámetros estadísticos favorables en la

aplicación del modelo, tal como se muestra en la tabla 28.

Tabla 28 Comportamiento estadístico de la predicción de densidad relativa por PLS



Densidad relativa

37 3871,26 a 3967,7 0,01105 0,023 4,502 0,781

150

4.4.2 Predicciones por el modelo de Regresión Bayesiana Lineal (Linear GNBR)

Metano

Después de haber seleccionado la mejor región con los valores de F más altos, estos valores de

número de ondas son introducidos en el algoritmo de regresión bayesiana lineal, este da como

resultado la siguiente figura:

90 91 92 93 94 95 96 9789

90

91

92

93

94

95

96

97

Valor verdadero de metano (% molar)

Valo

r calc

ula

do p

ara

la p

redic

cio

n d

e m

eta

no (

% m

ola

r)

Figura 67 Predicción de metano por linear GNBR con LOOCV


La figura 67 muestra el valor verdadero vs el valor calculado. Se observa una dispersión

alrededor de la línea de 45º, con una pequeña dispersión lo que indica que el modelo no se ajusta

completamente a los datos suministrados pero que aun así da una aproximación con buenos

resultados para los valores de predicción con el modelo de Regresión Bayesiana Lineal, los

cuales se muestran en detalles en la tabla 29.

Tabla 29 Comportamiento estadístico de la predicción de metano por linear GNBR



Metano 37 a 44 3871,26 a 4642,81 0,6410 1,7689 7,6153 0,8699

Con un valor del parámetro (F) superior a 4 y un valor del coeficiente de determinación (R2)

mayor de 0.8, esto indica que la predicción del Metano en esta región ubicada en la zona cercana

del espectro es satisfactoria.

151

Etano mas

Para este componente se hizo la selección de región en el infrarrojo cercano en un intervalo de

longitud de onda que está entre (3871 - 4642 cm-1

), haciendo uso del algoritmo de predicción de

Regresión Bayesiana lineal los resultados se muestran en la figura 68.

2 3 4 5 6 7 8 9 102

3

4

5

6

7

8

9

10

Valor verdadero de etano mas (% molar)

Valo

r calc

ula

do p

ara

la p

redic

cio

n d

e e

tano m

as (

% m

ola

r)

Figura 68 Predicción de etano mas por linear GNBR con LOOCV


La figura muestra el valor verdadero vs el valor calculado por el modelo de regresión. Se

observa una dispersión de puntos alrededor de la línea de 45º, con una dispersión mayor a la

obtenida para el metano lo que indica que el modelo se ajusta aun menos a los datos

suministrados y dado que los valores de F y R2 son un poco menores, pero por encima de los

valores limites de predicción para estos parámetros indicativos (ver tabla 30)

Tabla 30 Comportamiento estadístico de la predicción de etano mas por linear GNBR



Etano mas 37 a 44 3871,26 a 4642,81 0,8068 1,6844 4,3582 0,7716

Con un valor del estadístico F superior a 4 y un valor del coeficiente de determinación (R2) de

0.77 esto indica que la predicción del Etano mas en esta región que se encuentra en una longitud

de onda del espectro entre (3871 - 4642 cm-1

) es satisfactoria en la región cercana. Lo que indica

que para la predicción de los componentes del gas natural Metano y Etano mas por el modelo de

linear GNBR, la región cercana del espectro es la más optima al momento de realizar su

predicción.

152


Tomando los valores obtenidos en la selección de regiones para el peso molecular promedio e

introducido en el algoritmo de predicción da como resultado la siguiente figura

16.5 17 17.5 18 18.5 19 19.5 2016.5

17

17.5

18

18.5

19

19.5

20

Valor verdadero de peso molecular promedio

Valo

r calc

ula

do p

ara

la p

redic

cio

n d

e p

eso m

ole

cula

r pro

medio

Figura 69 Predicción de peso molecular promedio por linear GNBR con LOOCV


En la figura 69, se muestra el valor verdadero vs el valor calculado por el modelo para el peso

molecular promedio en (lb/lbmol). Se observa una dispersión de puntos alrededor de la línea de

45º, con una dispersión mayor por debajo de 18,5lb/lbmol, bajo estas condiciones se deduce que

el modelo se ajusta con resultados moderadamente representativos, esta da como resultado que

los valores de F y R2 (ver tabla 31) sean un poco menores a lo esperado, siendo en esta región

seleccionada la que presentaba mejores valores para la predicción.

Tabla 31 Comportamiento estadístico de la predicción de peso molecular promedio por linear GNBR




34 3581,93 a 3678,37 0,35097 0,6791 3,8161 0,7383

Con resultado del estadístico F menor a 4 y un valor del coeficiente de determinación (R2) de

0,73 indica que la predicción del peso molecular promedio en esta región que sería la que mejor

posibilidades de predicción presentaba y que se encuentra en una longitud de onda del espectro

entre (3581 – 3678 cm-1

) es moderadamente satisfactoria atendiendo a la complejidad de las

mezclas de gases.

153

Valor Calorífico Neto

920 940 960 980 1000 1020 1040 1060 1080 1100 1120920

940

960

980

1000

1020

1040

1060

1080

1100

1120

Valor verdadero de VCN (BTU/PCN)

Valo

r calc

ula

do p

ara

la p

redic

cio

n d

e V

CN

(B

TU

/PC

N)

Figura 70 Predicción de valor calorífico neto por linear GNBR con LOOCV


En la figura 70 se muestra el valor verdadero vs el valor calculado por el modelo para la

propiedad en este caso analizada Valor Calorífico Neto del conjunto de 23 muestras. Se observa

una dispersión de puntos alrededor de la línea de 45º, con algunos puntos extremos de dispersión

a la derecha y parte intermedia superior de la figura, indicativo de que el modelo resulta

influenciado por estos puntos extremos, pese a esto resulta un ajuste significativo de correlación a

los datos reales suministrados en la región seleccionada entre (3747 – 3871cm-1

).

Tabla 32 Comportamiento estadístico de la predicción de valor calorífico neto por linear GNBR



Valor Calorífico

Neto

36 3774,81 a 3871,37 19,6072 33,4885 3,0566 0,6762

154

Valor Calorífico Total

1020 1040 1060 1080 1100 1120 1140 1160 1180 1200 12201020

1040

1060

1080

1100

1120

1140

1160

1180

1200

1220

Valor verdadero de VCT (BTU/PCN)

Valo

r calc

ula

do p

ara

la p

redic

cio

n d

e V

CT

(B

TU

/PC

N)

Figura 71 Predicción de valor calorífico total por linear GNBR con LOOCV


En la figura 71 se muestra el valor verdadero vs el valor calculado por el modelo linear GNBR

para el Valor Calorífico Total. En la misma, se encuentra una distribución de puntos alrededor de

la línea de 45º, con una dispersión evidente para el Valor Calorífico Total con puntos extremos a

la derecha y en la parte intermedia, esto puede resultar influenciando al modelo en el incremento

de la desviación de los datos medidos, lo que indica que el modelo no se está ejecutando una

optima correlación de los datos suministrados, esta da como resultado que los valores de F y R2

sean menores a lo esperado, siendo en esta región escogida la que presentaba mejores valores

para la predicción, las variables estadísticas indican una moderada correlación R2 y un baja

relación entre la media de los cuadrados del modelo con respecto a la media de los cuadrados del

error (F = 3,0452)

Tabla 33 Comportamiento estadístico de la predicción de valor calorífico total por linear GNBR



Valor Calorífico

Total 36 3774,81 a 3871,26 21,0653 35,909 3,0452 0,6750

155

Densidad relativa

0.58 0.6 0.62 0.64 0.66 0.68 0.7

0.58

0.6

0.62

0.64

0.66

0.68

0.7

Valor verdadero de densidad relativa

Valo

r calc

ula

do p

ara

la p

redic

cio

n d

e d

ensid

ad r

ela

tiva

Figura 72 Predicción de densidad relativa por linear GNBR con LOOCV


En la figura 72 se muestra el valor verdadero vs el valor calculado por el modelo linear

GNBR para la densidad relativa. Se representa una distribución de puntos alrededor de la línea de

45º, con una desviación mínima de los datos medidos, dispersión parcial por encima y debajo de

la recta con la influencia de algunos puntos extremos a la derecha y la parte superior derecha, lo

que indica que el modelo se está ajustando a los datos suministrados aun cuando los parámetros

estadísticos de F y R2 sean menores a lo esperado, el modelo se correlaciona la propiedad medida

densidad relativa con respecto a la data espectral, los valores se muestran en la tabla 34.

Tabla 34 Comportamiento estadístico de la predicción de densidad relativa por linear GNBR



Densidad relativa

34 3581,93 a 3678,37 0,0121 0,0234 3,8136 0,7382

156

4.5 Análisis comparativo de los resultados obtenidos por el modelo de Mínimos Cuadrados

Parciales (PLS) y Regresión Bayesiana Lineal (Linear-GNBR).

Una tabla comparativa de los parámetros estadísticos que evalúan la bondad de ajuste de los

modelos aplicados sirve de instrumento para resaltar las diferencias entre ellos. Un resumen de

los resultados obtenidos de los modelos PLS Y Linear GNBR con validación cruzada Leave One

Out (LOOCV) se muestra en la tabla 35.

Modelo Propiedad desvpred stdy F R2

PLS

Metano 0,6338 1,769 7,79 0,87165

Etano mas 0,58505 1,6844 8,2891 0,8822


0,3198 0,6791 4,5069 0,7816

Valor Calorífico

Neto 13,5452 33,489 6,1126 0,8369

Valor Calorífico

Total 14,4847 35,91 6,146 0,838

Densidad relativa

0,01105 0,023 4,502 0,781

Linear GNBR

Metano 0,641 1,7689 7,6153 0,8699

Etano mas 0,8068 1,6844 4,3582 0,7716


0,35097 0,6791 3,8162 0,7383

Valor Calorífico

Neto 19,6072 33,4885 3,0566 0,6762

Valor Calorífico

Total 21,0653 35,909 3,0452 0,6750

Densidad relativa

0,0121 0,0234 3,8136 0,7382

Tabla 35 Comportamiento estadístico de predicción de composición y propiedades por PLS y linear GNBR


157

0,6338 0,58505 0,3198

13,545214,4847

0,011050,641 0,8068 0,35097

19,6072

21,0653

0,012100,04423710,08847430,13271140,17694850,22118570,26542280,30965990,3538970,39813420,44237130,48660840,53084560,57508270,61931980,6635570,70779410,75203120,79626830,84050550,88474260,92897970,97321691,0174541,06169111,10592831,15016541,19440251,23863961,28287681,32711391,3713511,41558821,45982531,50406241,54829961,59253671,63677381,68101091,72524811,76948521,81372231,85795951,90219661,94643371,99067092,0349082,07914512,12338222,16761942,21185652,25609362,30033082,34456792,3888052,43304222,47727932,52151642,56575352,60999072,65422782,69846492,74270212,78693922,83117632,87541352,91965062,96388773,00812483,0523623,09659913,14083623,18507343,22931053,27354763,31778483,36202193,4062593,45049613,49473333,53897043,58320753,62744473,67168183,71591893,76015613,80439323,84863033,89286743,93710463,98134174,02557884,0698164,11405314,15829024,20252744,24676454,29100164,33523874,37947594,4237134,46795014,51218734,55642444,60066154,64489874,68913584,73337294,777614,82184724,86608434,91032144,95455864,99879575,04303285,087275,13150715,17574425,21998135,26421855,30845565,35269275,39692995,4411675,48540415,52964135,57387845,61811555,66235265,70658985,75082695,7950645,83930125,88353835,92777545,97201266,01624976,06048686,10472396,14896116,19319826,23743536,28167256,32590966,37014676,41438396,4586216,50285816,54709526,59133246,63556956,67980666,72404386,76828096,8125186,85675526,90099236,94522946,98946657,03370377,07794087,12217797,16641517,21065227,25488937,29912657,34336367,38760077,43183787,4760757,52031217,56454927,60878647,65302357,69726067,74149787,78573497,8299727,87420917,91844637,96268348,00692058,05115778,09539488,13963198,18386918,22810628,27234338,31658048,36081768,40505478,44929188,4935298,53776618,58200328,62624048,67047758,71471468,75895178,80318898,8474268,89166318,93590038,98013749,02437459,06861179,11284889,15708599,2013239,24556029,28979739,33403449,37827169,42250879,46674589,5109839,55522019,59945729,64369439,68793159,73216869,77640579,82064299,864889,90911719,95335439,997591410,04182910,08606610,13030310,1745410,21877710,26301410,30725110,35148810,39572610,43996310,484210,52843710,57267410,61691110,66114810,70538510,74962310,7938610,83809710,88233410,92657110,97080811,01504511,05928311,1035211,14775711,19199411,23623111,28046811,32470511,36894211,4131811,45741711,50165411,54589111,59012811,63436511,67860211,72283911,76707711,81131411,85555111,89978811,94402511,98826212,03249912,07673612,12097412,16521112,20944812,25368512,29792212,34215912,38639612,43063412,47487112,51910812,56334512,60758212,65181912,69605612,74029312,78453112,82876812,87300512,91724212,96147913,00571613,04995313,0941913,13842813,18266513,22690213,27113913,31537613,35961313,4038513,44808813,49232513,53656213,58079913,62503613,66927313,7135113,75774713,80198513,84622213,89045913,93469613,97893314,0231714,06740714,11164414,15588214,20011914,24435614,28859314,3328314,37706714,42130414,46554214,50977914,55401614,59825314,6424914,68672714,73096414,77520114,81943914,86367614,90791314,9521514,99638715,04062415,08486115,12909815,17333615,21757315,2618115,30604715,35028415,39452115,43875815,48299615,52723315,5714715,61570715,65994415,70418115,74841815,79265515,83689315,8811315,92536715,96960416,01384116,05807816,10231516,14655216,1907916,23502716,27926416,32350116,36773816,41197516,45621216,50044916,54468716,58892416,63316116,67739816,72163516,76587216,81010916,85434716,89858416,94282116,98705817,03129517,07553217,11976917,16400617,20824417,25248117,29671817,34095517,38519217,42942917,47366617,51790317,56214117,60637817,65061517,69485217,73908917,78332617,82756317,87180117,91603817,96027518,00451218,04874918,09298618,13722318,1814618,22569818,26993518,31417218,35840918,40264618,44688318,4911218,53535718,57959518,62383218,66806918,71230618,75654318,8007818,84501718,88925518,93349218,97772919,02196619,06620319,1104419,15467719,19891419,24315219,28738919,33162619,37586319,420119,46433719,50857419,55281119,59704919,64128619,68552319,7297619,77399719,81823419,86247119,90670919,95094619,99518320,0394220,08365720,12789420,17213120,21636820,26060620,30484320,3490820,39331720,43755420,48179120,52602820,57026520,61450320,6587420,70297720,74721420,79145120,83568820,87992520,92416220,968421,01263721,05687421,10111121,14534821,18958521,23382221,2780621,32229721,36653421,41077121,45500821,49924521,54348221,58771921,63195721,67619421,72043121,76466821,80890521,85314221,89737921,94161621,98585422,03009122,07432822,118565

Metano Etano Mas PMP VCN VCT DRd

esvp

red

PLS Linear GNBR

Figura 73 Diagrama de barras desviación del valor predicho por los modelos PLS y linear GNBR


1,769 1,68440,6791

33,489

35,91

0,0231,7689 1,6844

0,6791

33,4885

35,909

0,023400,0754110,1508220,2262330,3016440,3770550,4524660,5278770,6032880,6786990,754110,8295210,9049320,9803431,0557541,1311651,2065761,2819871,3573981,4328091,508221,5836311,6590421,7344531,8098641,8852751,9606862,0360972,1115082,1869192,262332,3377412,4131522,4885632,5639742,6393852,7147962,7902072,8656182,9410293,016443,0918513,1672623,2426733,3180843,3934953,4689063,5443173,6197283,6951393,770553,8459613,9213723,9967834,0721944,1476054,2230164,2984274,3738384,4492494,524664,6000714,6754824,7508934,8263044,9017154,9771265,0525375,1279485,2033595,278775,3541815,4295925,5050035,5804145,6558255,7312365,8066475,8820585,9574696,032886,1082916,1837026,2591136,3345246,4099356,4853466,5607576,6361686,7115796,786996,8624016,9378127,0132237,0886347,1640457,2394567,3148677,3902787,4656897,54117,6165117,6919227,7673337,8427447,9181557,9935668,0689778,1443888,2197998,295218,3706218,4460328,5214438,5968548,6722658,7476768,8230878,8984988,9739099,049329,1247319,2001429,2755539,3509649,4263759,5017869,5771979,6526089,7280199,803439,8788419,95425210,02966310,10507410,18048510,25589610,33130710,40671810,48212910,5575410,63295110,70836210,78377310,85918410,93459511,01000611,08541711,16082811,23623911,3116511,38706111,46247211,53788311,61329411,68870511,76411611,83952711,91493811,99034912,0657612,14117112,21658212,29199312,36740412,44281512,51822612,59363712,66904812,74445912,8198712,89528112,97069213,04610313,12151413,19692513,27233613,34774713,42315813,49856913,5739813,64939113,72480213,80021313,87562413,95103514,02644614,10185714,17726814,25267914,3280914,40350114,47891214,55432314,62973414,70514514,78055614,85596714,93137815,00678915,082215,15761115,23302215,30843315,38384415,45925515,53466615,61007715,68548815,76089915,8363115,91172115,98713216,06254316,13795416,21336516,28877616,36418716,43959816,51500916,5904216,66583116,74124216,81665316,89206416,96747517,04288617,11829717,19370817,26911917,3445317,41994117,49535217,57076317,64617417,72158517,79699617,87240717,94781818,02322918,0986418,17405118,24946218,32487318,40028418,47569518,55110618,62651718,70192818,77733918,8527518,92816119,00357219,07898319,15439419,22980519,30521619,38062719,45603819,53144919,6068619,68227119,75768219,83309319,90850419,98391520,05932620,13473720,21014820,28555920,3609720,43638120,51179220,58720320,66261420,73802520,81343620,88884720,96425821,03966921,1150821,19049121,26590221,34131321,41672421,49213521,56754621,64295721,71836821,79377921,8691921,94460122,02001222,09542322,17083422,24624522,32165622,39706722,47247822,54788922,623322,69871122,77412222,84953322,92494423,00035523,07576623,15117723,22658823,30199923,3774123,45282123,52823223,60364323,67905423,75446523,82987623,90528723,98069824,05610924,1315224,20693124,28234224,35775324,43316424,50857524,58398624,65939724,73480824,81021924,8856324,96104125,03645225,11186325,18727425,26268525,33809625,41350725,48891825,56432925,6397425,71515125,79056225,86597325,94138426,01679526,09220626,16761726,24302826,31843926,3938526,46926126,54467226,62008326,69549426,77090526,84631626,92172726,99713827,07254927,1479627,22337127,29878227,37419327,44960427,52501527,60042627,67583727,75124827,82665927,9020727,97748128,05289228,12830328,20371428,27912528,35453628,42994728,50535828,58076928,6561828,73159128,80700228,88241328,95782429,03323529,10864629,18405729,25946829,33487929,4102929,48570129,56111229,63652329,71193429,78734529,86275629,93816730,01357830,08898930,164430,23981130,31522230,39063330,46604430,54145530,61686630,69227730,76768830,84309930,9185130,99392131,06933231,14474331,22015431,29556531,37097631,44638731,52179831,59720931,6726231,74803131,82344231,89885331,97426432,04967532,12508632,20049732,27590832,35131932,4267332,50214132,57755232,65296332,72837432,80378532,87919632,95460733,03001833,10542933,1808433,25625133,33166233,40707333,48248433,55789533,63330633,70871733,78412833,85953933,9349534,01036134,08577234,16118334,23659434,31200534,38741634,46282734,53823834,61364934,6890634,76447134,83988234,91529334,99070435,06611535,14152635,21693735,29234835,36775935,4431735,51858135,59399235,66940335,74481435,82022535,89563635,97104736,04645836,12186936,1972836,27269136,34810236,42351336,49892436,57433536,64974636,72515736,80056836,87597936,9513937,02680137,10221237,17762337,25303437,32844537,40385637,47926737,55467837,63008937,7055

Metano Etano Mas PMP VCN VCT DR

std

y

PLS Linear GNBR

Figura 74 Diagrama de barras desviación estándar de los datos por los modelos PLS y linear GNBR


De la tabla 35 se desprende las figuras 73 y 74, los diagramas de barras representan los

modelos aplicados para la determinación de composición y propiedades del gas asociado versus

las medidas de desviación de los valores predichos (figura 73) y versus la desviación estándar de

los datos Yi “propiedad predicha” para ambos casos se observa una tendencia favorable para el

modelo PLS con valores mínimos en comparación con los obtenidos por el modelo linear GNBR

tanto para la predicción de composición metano y etano mas, así como para las propiedades Peso

Molecular Promedio (PMP), Valor Calorífico Neto (VCN), Valor Calorífico Total (VCT) y

Densidad Relativa (DR).

158

7,798,2891

4,5069

6,1126 6,146

4,502

7,6153

4,35823,8162

3,0566 3,0452

3,8136

00,01740710,03481420,05222130,06962840,08703560,10444270,12184980,13925690,1566640,17407110,19147820,20888530,22629240,24369950,26110670,27851380,29592090,3133280,33073510,34814220,36554930,38295640,40036350,41777060,43517780,45258490,4699920,48739910,50480620,52221330,53962040,55702750,57443460,59184170,60924890,6266560,64406310,66147020,67887730,69628440,71369150,73109860,74850570,76591280,783320,80072710,81813420,83554130,85294840,87035550,88776260,90516970,92257680,93998390,95739110,97479820,99220531,00961241,02701951,04442661,06183371,07924081,09664791,1140551,13146221,14886931,16627641,18368351,20109061,21849771,23590481,25331191,2707191,28812611,30553331,32294041,34034751,35775461,37516171,39256881,40997591,4273831,44479011,46219721,47960441,49701151,51441861,53182571,54923281,56663991,5840471,60145411,61886121,63626831,65367551,67108261,68848971,70589681,72330391,7407111,75811811,77552521,79293231,81033941,82774661,84515371,86256081,87996791,8973751,91478211,93218921,94959631,96700341,98441052,00181772,01922482,03663192,0540392,07144612,08885322,10626032,12366742,14107452,15848162,17588882,19329592,2107032,22811012,24551722,26292432,28033142,29773852,31514562,33255272,34995992,3673672,38477412,40218122,41958832,43699542,45440252,47180962,48921672,50662382,5240312,54143812,55884522,57625232,59365942,61106652,62847362,64588072,66328782,68069492,69810212,71550922,73291632,75032342,76773052,78513762,80254472,81995182,83735892,8547662,87217322,88958032,90698742,92439452,94180162,95920872,97661582,99402293,011433,02883713,04624433,06365143,08105853,09846563,11587273,13327983,15068693,1680943,18550113,20290823,22031543,23772253,25512963,27253673,28994383,30735093,3247583,34216513,35957223,37697933,39438653,41179363,42920073,44660783,46401493,4814223,49882913,51623623,53364333,55105043,56845763,58586473,60327183,62067893,6380863,65549313,67290023,69030733,70771443,72512153,74252873,75993583,77734293,794753,81215713,82956423,84697133,86437843,88178553,89919263,91659983,93400693,9514143,96882113,98622824,00363534,02104244,03844954,05585664,07326374,09067094,1080784,12548514,14289224,16029934,17770644,19511354,21252064,22992774,24733484,2647424,28214914,29955624,31696334,33437044,35177754,36918464,38659174,40399884,42140594,43881314,45622024,47362734,49103444,50844154,52584864,54325574,56066284,57806994,5954774,61288424,63029134,64769844,66510554,68251264,69991974,71732684,73473394,7521414,76954814,78695534,80436244,82176954,83917664,85658374,87399084,89139794,9088054,92621214,94361924,96102644,97843354,99584065,01324775,03065485,04806195,0654695,08287615,10028325,11769035,13509755,15250465,16991175,18731885,20472595,2221335,23954015,25694725,27435435,29176145,30916865,32657575,34398285,36138995,3787975,39620415,41361125,43101835,44842545,46583255,48323975,50064685,51805395,5354615,55286815,57027525,58768235,60508945,62249655,63990365,65731085,67471795,6921255,70953215,72693925,74434635,76175345,77916055,79656765,81397475,83138195,8487895,86619615,88360325,90101035,91841745,93582455,95323165,97063875,98804586,0054536,02286016,04026726,05767436,07508146,09248856,10989566,12730276,14470986,16211696,17952416,19693126,21433836,23174546,24915256,26655966,28396676,30137386,31878096,3361886,35359526,37100236,38840946,40581656,42322366,44063076,45803786,47544496,4928526,51025916,52766636,54507346,56248056,57988766,59729476,61470186,63210896,6495166,66692316,68433026,70173746,71914456,73655166,75395876,77136586,78877296,806186,82358716,84099426,85840136,87580856,89321566,91062276,92802986,94543696,9628446,98025116,99765827,01506537,03247247,04987967,06728677,08469387,10210097,1195087,13691517,15432227,17172937,18913647,20654357,22395077,24135787,25876497,2761727,29357917,31098627,32839337,34580047,36320757,38061467,39802187,41542897,4328367,45024317,46765027,48505737,50246447,51987157,53727867,55468577,57209297,58957,60690717,62431427,64172137,65912847,67653557,69394267,71134977,72875687,7461647,76357117,78097827,79838537,81579247,83319957,85060667,86801377,88542087,90282797,92023517,93764227,95504937,97245647,98986358,00727068,02467778,04208488,05949198,0768998,09430628,11171338,12912048,14652758,16393468,18134178,19874888,21615598,2335638,25097018,26837738,28578448,30319158,32059868,33800578,35541288,37281998,3902278,40763418,42504128,44244848,45985558,47726268,49466978,51207688,52948398,5468918,56429818,58170528,59911238,61651958,63392668,65133378,66874088,68614798,703555


F

PLS Linear GNBR

Figura 75 Diagrama de barras para estadístico F por los modelos PLS y linear GNBR


0,87165 0,8822

0,7816

0,8369 0,838

0,781

0,8699

0,77160,7383

0,6762 0,675

0,7382

00,0020,0040,0060,0080,010,0120,0140,0160,0180,020,0220,0240,0260,0280,030,0320,0340,0360,0380,040,0420,0440,0460,0480,050,0520,0540,0560,0580,060,0620,0640,0660,0680,070,0720,0740,0760,0780,080,0820,0840,0860,0880,090,0920,0940,0960,0980,10,1020,1040,1060,1080,110,1120,1140,1160,1180,120,1220,1240,1260,1280,130,1320,1340,1360,1380,140,1420,1440,1460,1480,150,1520,1540,1560,1580,160,1620,1640,1660,1680,170,1720,1740,1760,1780,180,1820,1840,1860,1880,190,1920,1940,1960,1980,20,2020,2040,2060,2080,210,2120,2140,2160,2180,220,2220,2240,2260,2280,230,2320,2340,2360,2380,240,2420,2440,2460,2480,250,2520,2540,2560,2580,260,2620,2640,2660,2680,270,2720,2740,2760,2780,280,2820,2840,2860,2880,290,2920,2940,2960,2980,30,3020,3040,3060,3080,310,3120,3140,3160,3180,320,3220,3240,3260,3280,330,3320,3340,3360,3380,340,3420,3440,3460,3480,350,3520,3540,3560,3580,360,3620,3640,3660,3680,370,3720,3740,3760,3780,380,3820,3840,3860,3880,390,3920,3940,3960,3980,40,4020,4040,4060,4080,410,4120,4140,4160,4180,420,4220,4240,4260,4280,430,4320,4340,4360,4380,440,4420,4440,4460,4480,450,4520,4540,4560,4580,460,4620,4640,4660,4680,470,4720,4740,4760,4780,480,4820,4840,4860,4880,490,4920,4940,4960,4980,50,5020,5040,5060,5080,510,5120,5140,5160,5180,520,5220,5240,5260,5280,530,5320,5340,5360,5380,540,5420,5440,5460,5480,550,5520,5540,5560,5580,560,5620,5640,5660,5680,570,5720,5740,5760,5780,580,5820,5840,5860,5880,590,5920,5940,5960,5980,60,6020,6040,6060,6080,610,6120,6140,6160,6180,620,6220,6240,6260,6280,630,6320,6340,6360,6380,640,6420,6440,6460,6480,650,6520,6540,6560,6580,660,6620,6640,6660,6680,670,6720,6740,6760,6780,680,6820,6840,6860,6880,690,6920,6940,6960,6980,70,7020,7040,7060,7080,710,7120,7140,7160,7180,720,7220,7240,7260,7280,730,7320,7340,7360,7380,740,7420,7440,7460,7480,750,7520,7540,7560,7580,760,7620,7640,7660,7680,770,7720,7740,7760,7780,780,7820,7840,7860,7880,790,7920,7940,7960,7980,80,8020,8040,8060,8080,810,8120,8140,8160,8180,820,8220,8240,8260,8280,830,8320,8340,8360,8380,840,8420,8440,8460,8480,850,8520,8540,8560,8580,860,8620,8640,8660,8680,870,8720,8740,8760,8780,880,8820,8840,8860,8880,890,8920,8940,8960,8980,90,9020,9040,9060,9080,910,9120,9140,9160,9180,920,9220,9240,9260,9280,930,9320,9340,9360,9380,940,9420,9440,9460,9480,950,9520,9540,9560,9580,960,9620,9640,9660,9680,970,9720,9740,9760,9780,980,9820,9840,9860,9880,990,9920,9940,9960,9981


R2

PLS Linear GNBR

Figura 76 Diagrama de barras para coeficiente de determinación por los modelos PLS y linear GNBR


Las figuras 75 y 76, representan los valores estimados para F y R2 respectivamente por los

modelos PLS y Linear GNBR, de estas se deduce que la mejor medida en cuanto al ajuste del

modelo para predicción se refiere se estima por el modelo PLS siendo muy superior al

modelo Linear GNBR, ofreciendo valores máximos de estos parámetros estadísticos se evidencia

la potencialidad del modelo en cuanto al ajuste y correlación de la predicción de composición y

propiedades del gas asociado con la data espectral de las 23 muestras analizadas.

159

Por otro lado una comparación de los tiempos de corrida del algoritmo de predicción de

composición y propiedades permite crear otra base en cuanto a comparación de los modelos se

perfila, en este sentido la figura 77 muestra los tiempos medidos en segundo para un intervalo de

800 cm-1

y 100 cm-1

de numero de onda del espectro aplicando los modelos PLS y linear GNBR,

en la misma se puede apreciar que el modelo la corrida del modelo PLS es muy rápida con un

tiempo de respuestas de apenas 7,7 segundos para un intervalo de 800cm-1

y 4,1 segundos en un

intervalo de 100cm-1

en comparación con el modelo linear GNBR que consume un tiempo muy

superior.

Figura 77 Comparación del Tiempo de corrida del algoritmo de predicción por los modelos PLS y Linear GNBR.


160

CONCLUSIONES

La predicción optima de composición metano y etano mas se realizo uniendo varios

intervalos de la región de infrarrojo cercano, obteniendo resultados satisfactorios por PLS y

Linear GNBR para metano con un coeficiente de determinación R2 de 0,8716 y 0,8699, así

como el estadístico F de 7,7897 y 7,6153 respectivamente.

Los parámetros estadísticos determinaron que los datos de espectros en la región mediana

esta mejor adaptada para la predicción de propiedades del gas asociado (peso molecular

promedio, valor calorífico neto, valor calorífico total y densidad relativa del gas) aplicando los

modelos PLS y Linear GNBR, obteniendo resultados muy satisfactorios en el modelo PLS.

El pre-tratamiento de los datos por centrado y escalado y la aplicación de validación del

modelo de mínimos cuadrados parciales (PLS) y Regresión Bayesiana Lineal (linear GNBR) en

base a una validación cruzada por “Leave One Out” demostró la predicción de las propiedades

físico químicas del gas asociado.

Los parámetros estadísticos (estadístico F y coeficiente de determinación R2) señalan una

mejor predicción haciendo uso del modelo Mínimos Cuadrados Parciales (PLS) en comparación

con el modelo de Regresión Bayesiana Lineal.

El modelo PLS demostró producir mejor predicción con menor tiempo de procesamiento de

datos en comparación con el modelo de Regresión Bayesiana Lineal.

161

RECOMENDACIONES

Se recomienda conseguir una mayor base de datos de espectros de hidrocarburos y demás

componentes del gas natural para hacer interpretaciones e identificaciones de manera más

efectiva.

En la parte experimental, se recomienda hacer uso de celda para gas con longitud de 1cm con

ventanas de KBr para disminuir la intensidad de absorción en el infrarrojo medio para tener

medidas más precisas de Absorbancia.

Aplicar la metodología presentada en esta investigación para la predicción de composición y

propiedades en otros intervalos de espectroscopia por absorción en el infrarrojo cercano.

Aplicar los modelos de predicción por PLS y Linear GNBR con diferentes resoluciones del

espectro (0,25cm-1

, 0,5cm-1

y 1cm-1

) para analizar y comparar con los resultados obtenidos en

este estudio y determinar la influencia de la resolución de la data espectral en el ajuste de los

modelos de predicción.

Considerar la aplicación de los modelos PLS y Linear GNBR en la industria del petróleo y

gas natural como una alternativa para la predicción simultanea de propiedades físico químicas

con datos obtenidos por cromatografía y espectroscopia infrarroja por transformada de Fourier.

162

REFERENCIAS BIBLIOGRAFICAS

[1]

Alciaturi, C. (2003) La regresión de mínimos cuadrados parciales (PLS) y su

aplicación al análisis del carbón mineral. Revista Técnica de la Facultad de Ingeniería

Universidad del Zulia V 26(3).

[2]

Alciaturi, C. (2005) The use of the autocorrelation function in modeling of

multivariate data. Analytica Chimica Acta. 553.

[3]

Alciaturi, C., Escobar, M., De la Cruz, C. y Rincón, C. (2003). Partial least squares

(PLS) regression and its aplication to coal analysis. Rev. Tec. Univ. Zulia. Vol 26.

[4]

Alciaturi, C., Escobar, M, Vallejo, R. (1996) Prediction of coal properties by

derivate DRIFT spectroscopy. Fuel. V. 75

[5]

Alciaturi, C., Quevedo, G. (2009) Bayesian regularization: application to calibration

in NIR spectroscopy. J. of Chemom. V 23(11) 562.

[6]

Arias, Fidias G. (2006). Proyecto de Investigación: Introducción a la metodología

científica. Quinta Edicion. Caracas: Episteme.

[7]

Babbie, E. (1996). Fundamentos de la Investigación Social.

[8]

Balestrini A., Mirian (2002). Como se Elabora el Proyecto de Investigación. Sexta

Edicion. Editorial: Caracas BL Consultores Asociados , VENEZUELA

[9]

Beebe, K. R., Pell, R. J., Seasholtz, M. B. Chemometrics. A Practical Guide, John

Wiley & Sons, New York, 1998.

[10]

Beebe, K.R., Pell, R.J., Seasholtz, M.B. (1998) Chemometrics: A Practical Guide.

Wiley.

[11]

Bouveresse, E. Maintenance and Transfer of Multivariate Calibration Models Based

on Near-Infrared Spectroscopy, doctoral thesis, Vrije Universiteit Brussel, 1997.

[12]

Cervo, A. L., Bervian, P.A. (1989) Metodología Científica. McGraw Hill. México

[13]

Chapra SC y Canale RP. Numerical methods for engineers with programming and

software applications. The McGraw-Hill Companies, Inc.: U.S.A., 1998.

[14]

Chávez, N. (2004). Introducción a la Investigación Educativa. Venezuela: Editorial

Graficas, S.A

[15]

Corripio, A., Adebiyi, O. (2003) Dynamic neural networks partial least squares

(DNNPLS) identification of multivariable processes. Computers and Chemical

Enginerring. V.2 7.

[16] Egan, W. J., Morgan, S. L. Anal. Chem. 70, 1998.

163

[17]

Esbensen, K., Schönkopf, S., Midtgaard, T. Multivariate Analysis in Practice,

Camo, Trondheim, 1996.

[18]

Esteban-Díez, I., Gonzalez, J.M, Pizarro, C. (2004) OWAVEC: a combination of

wavelet analysis and an orthogonalization algorithm as pre-processing step in

multivariate calibration Analytica Chimica Acta. V 515.

[19]

Ferré, L. (1995) Selection of components in principal component analysis: a

comparison of methods. Computational Statistics and Data Analysis. V19.

[20]

Flores, J., MacGregor, J.F. (2003) Within-Batch and Batch-to-Batch Inferencial-

Adaptive Control of Semibatch Reactors: A partial least squares approach. Ind. Eng.

Chem. V. 42.

[21]

Foresee, F., Hagan, M. (1997) Gauss-Newton approximation to Bayesian Learning.

Proc. IEEE Int. Joint Conf. Neural Networks.

[22]

Geladi, P., Kowalski, B. (1986) Partial Least-Squares Regression: A tutorial.

Analytica Chimic Acta, 185, 1-17. Elsevier Science Publishers B.V., Amsterdam.

[23]

Gorry, P. A. Anal. Chem. 62, 1990.

[24]

Guzman, B. (2006) Curso Basico de Cromatografía de Gas. Punto Fijo, Venezuela.

[25]

Guzman, B. (2006) Interpretación de cromatografía de gases en la industria petrolera-

modulo gas. Punto Fijo, Venezuela.

[26]

Haaland, D. M., and Thomas, E. V. Anal. Chem, 60, 1988.

[27]

Hernández, R., Fernández C., y Baptista P. (2003). Metodología de la Investigación.

Tercera Edición. Editorial Mc Graw-Hill. México

[28]

Hollas, J. M. Modern Spectroscopy, John Wiley & Sons, 2nd ed. Chichester, England,

1992.

[29]

Hopkins, B. Ann. Bot. 18, 1954.

[30]

Indahl, U.G., Næs, T. (1998), Evaluation of alternative spectral feature extraction

methods of textural images for multivariate modelling. J. Chemom.

[31]

Khanchi, Ali. (2007) Simultaneous spectrophotometric determination of caffeine and

theobromine in Iranian tea by artificial neural networks and its comparison with PLS.

[32]

Keller, R., Mermet, J. M., Otto, M., Widmer, H. M. (ed). Analytical Chemistry,

John Wiley & Sons, New York, 1998.

[33]

Kelly, J. J., Barlow, C. H., Jinguji, T. M., Callis, J. B. Anal. Chem. 61, 1989.

164

[34]

Kennard, R. W., Stone, L. A. Technometrics 11, 1969.

[35]

Kramer, R. Chemometric Techniques for Quantitative Analysis, Marcel Dekker,

New York, 1998.

[36]

Kresta, J.V., Marlin, T.E., MacGregor, J.F. (1994) Development of inferential

process models using PLS. Computers and Chemical Engineering. V.18 (7).

[37]

Kubelka, V. P., Munk, Z. Tech. Physik. 12, 1931.

[38]

Lawson, R. G., Jurs, P. J. Chem. Inf. Comp. Sci. 30, 1990.

[39]

Lorber, A., Kowalski, B.R. (1988), The effect of interferences and calibration design

on accuracy: implications for sensor and sample selection. Chemom.

[40]

Macho, S. (2002). Metodologías analíticas basadas en espectroscopia de infrarrojo y

calibración multivariante. Tesis doctoral. Departamento de Quimica Analitica,

Quimica Organica Universitat Rovirai Virgili. Tarragona. España.

[41]

MacKay DJC. Ph.D. Thesis, California Institute of Technology, 1992.

[42]

MacKay DJC. Bayesian interpolation. Neural Comput. 1992; 4: 415–447.

[43]

Mardia, K. V., Kent, J. T., Bibby, J. M. Multivariate Analysis, Academic Press,

London, 1980.

[44]

Martens, H., Naes, T. Multivariate Calibration, John Wiley & Sons, Chichester,

1989.

[45]

Massart, D. L., Vandegiste, B. G. M., Buydens, L. M. C., De Jong, Lewi, S. P. J.,

and Smeyers-Verbeke, J. Haandbook of Chemometrics and Qualimetrics: Part A,

Elsevier, Amsterdam, 1997.

[46]

Massart et al, D.L. (1997) Handbook of Chemometrics and Qualimetics. Part A and

B. Data handling in science and technology. 20A, 20B. Elsevier, Amsterdam.

[47]

McAvoy, T. (1992) Nonlinear PLS Modeling using neural networks. Computers and

Chemical Engineering. V. 16 (4).

[48]

Miller, C. E. NIR news 4, 1996.

[49]

Miller, J. y Miller J. (2002). Estadistica y Quimiometria para química analítica.

Editorial Prentica Hall. Madrid, España.

[50]

Moody JE. The Effective Numbering of Parameters: An Analysis of Generalization

and Regularization in Nonlinear Learning Systems. En Neural Information Processing

Systems 4, Moody JE, Hanson SJ, Lippmann RP (Eds). Morgan Kaufmann: San

Mateo, CA, 1992; 847–854.

165

[51]

Morris, J., Martin, E., Li, B. (2001) Box-Tidwell transformation based partial least

squares regression. Computers and Chemical Engineering. V.25.

[52]

Morris, J., Martin, E., Baffi, G. (1999) Non-linear projection to latent structures

revisited (the neural network PLS algorithm). Computers and Chemical Engineering.

V. 23.

[53]

Næs, T., Isaksson, T., Kowalski, B. R. (1990), Locally weighted regression and

scatter correction for near-infrared reflectance data. Anal. Chem., 62(7)

[54]

Næs, T., Isaksson, T., Fearn, T., Davies, T., A User-Friendly Guide to Multivariate

Calibration and Classification. NIR Publications, Chichester UK, 2002.

[55]

Naes, T. , Isaksson, T. Appl. Spectrosc. 43, 1989.

[56]

Naes, T., J. Chemom. 1, 1987.

[57]

Spiegelman, C., Wikander, J., O´Neal, P. (2002) A simple method for linearizing

nonlinear spectra for calibration. Chemometrics and intelligent laboratory systems.

V.60.

[58]

Osborne, B. G., Fearn, T. And Hindle, P. H. Practical NIR spectroscopy with

applications in food and beverage analysis, Longman Scientific & Technical, 2nd ed.

Harlow, England, 1993.

[59]

Parisi, A. F. L., Nogueiras and Prieto, H. Anal. Chem. Acta. 238, 1990.

[60]

Ponton, J.W., Klemes, J. (1993) Alternatives to neural networks for inferential

measurement. Computers and Chemical Engineering. 17 (10).

[61]

Quevedo, G. (2005) Esquemas de Control de Secadores Rotatorios de Resinas

Poliméricas. Trabajo Especial de Grado. Universidad del Zulia. Facultad de Ingenieria.

Escuela de Ingenieria Quimica

[62]

Quevedo, G. (2008) Método de mínimos cuadrados parciales y su similitud con una

regresión bayesiana aplicada a una red neuronal. Trabajo de Grado. (Matematica

Aplicada). Facultad de Ingenieria. La Universidad del Zulia. Maracaibo, Venezuela.

[63]

Ramirez, N., Montes, J. (2002) Neural networks to model dynamic systems with time

delays. IIE Transactions.

[64]

Ramis, G., García, M.C. (2001) Quimiometría. Ed. Síntesis.

[65] Rubinson, K. A., Rubinson, J. F. Análisis instrumental, Pretice Hall, Madrid, 2001.

[66] Sabino, C. (1992) El proceso de investigacion. Caracas: Panapo

166

[67]

Salinas, M. y Carlos, S. (2008) Modelos de Regresión y Correlación IV. Aplicación

de Pruebas de Significancia Estadistica. Revista Tecnica Ciencia y Trabajo

Significación Estadística

[68] Sampieri, R. H. (2003). Metodologia de la investigacion. México McGraw Hill

[69] Savitzky, A. and Golay, M. J. E. Anal. Chem. 36, 1964, 1267.

[70]

Schwedt, G. The essential guide to analytical chemistry, John Wiley & Sons,

Chichester, 1997.

[71]

Silverstein, R. M., Webster,F. X. Spectrometric Identification of Organic

Compounds, 6a ed. John Wiley & SonNew York.

[72]

Skoog, D. Holler, F. y Nieman T. (2001) Analisis Instrumental. Quinta Edicion.

Editorial Mc Graw Hill. Madrid, España.

[73]

Szczubialka, K., Verdú-Andrés, J., Massart, D. L. Chemom. Intell. Lab Syst. 41,

1998.

[74]

The American Society for Testing and Materials (ASTM), Practice E1655- 00.

ASTM Annual Book of Standards, vol. 03.06, West Conshohocken, P A, 2001.

[75] The Mathworks, sitio web: www.mathworks.com/products/matlab/

[76] Thodberg H. A review of Bayesian neural networks with an application to near

infrared spectroscopy. IEEE Trans. Neural Network. 1996; 7(1): 56–72.

[77] Unscrambler User Manual, CAMO A/S, Trondheim, 1998

[78] Van Dalen, D. B., y Meyer, W. J. (2006), Manual de la investigacion educacional.

Buenos Aires:Paidos

[79] Wold, H. (1984) Partial Least Squares. Encyclopedia of Statistical Sciences. New

York: Wiley. V 6.

[80]

Yacoub, F., MacGregor, J.F (2004) Product optimization and control in the latent

variable space of nonlinear PLS models. Chemometrics and intelligent laboratory

systems V.70.

[81] Zeller, M. V., y Juszli, M.P. (1973), Reference spectra of gases. Perkin Elmer

Infrared Bulletin. U.S.A

universidad del zulia facultad de …07:05z-4769/...the purpose of this research was to develop and...

Documents