intervalos de prediccion

8/16/2019 Intervalos de Prediccion

1/30

Facultad de Ciencias F ı́sicas y Matem áticas

Departamento de Ingenier ı́a El éctrica

EL7012 Control Inteligente de Sistemas

Ejercicio 2

Intervalos de Predicci´ on

Pablo Fuentes - Mario Vergara


14 de Noviembre de 2015


2/30




1. Introduccí on

Para la operación óptima de las micro-redes es importante contar con modelos de pre-dicción conables de variables tales como: potencia solar, potencia e´ olica, consumo y estadode carga de las bateŕıas. Los modelos de predicción son importantes debido a la incertidum-bre asociada a la generaci ón con enerǵıa renovable y la variabilidad del consumo local. Elintervalo de predicci ón se compone de los ĺımites superior e inferior donde se espera que unafutura observación se encuentre, con un determinado nivel de conanza.

De esta manera los tipos de modelos a utilizar y las metodoloǵıas que subyacen paracalcular sus intervalos de predicción son de vital importancia, que dependiendo del tipode problema, algunos enfoques ser án más adecuados que otros. En este caso, los modelosde interés son los lineales, difusos y neuronales. Los modelos lineales act úan como primeraaproximaci ón al problema, ya que son fáciles de generar al igual que su intervalo de conanza,aportando claridad en su estructura y la determinaci´ on de los regresores más relevantes delproblema. En segundo lugar se encuentran los modelo difusos, en espećıco los T&S, los cualesmediante un set de reglas y consecuencias lineales puede caracterizar procesos altamente nolineales, siendo muy utilizados también en predicci´ on. Por último los modelos neuronalesocupados en predicci ón si bien son cajas negras en cuanto a su estructura, son altamenteutilizados en este ámbito debido a su capacidad de generalizar procesos altamente no lineales.

En esta ocasi ón se construyen estos tipos de modelos aplicados en la caracterizaci´ on futuradel consumo de enerǵıa, en donde ventajas y desventajas son analizadas para cada modelo.

1


3/30




2. Marco Te´ orico

2.1. Denici´ on de sistemas linealesSe considera que todo sistema lineal se puede escribir de la siguiente forma:

y =N r

i=1

θixi (1)

donde θi es el parámetro i-ésimo que pondera la entrada xi del sistema, y N r es la cantidadde entradas consideradas. Las entradas en términos generales pueden ser autoregresivas,exógenas, e incluso funciones no lineales de las dos anteriores, sin embargo lo que se debemantener es la linealidad con respecto a los parámetros. Para el caso de predicción de seriesde tiempo, se considera que el vector x = [x1, x2, . . . , x r ] son regresores de la salida y = y(t),es decir x(t) = [y(t − 1), y(t − 2), . . . , y(t − r )]. Dado que la estimaci ón del par ámetro θ estásujeto a la incertidumbre de la base de datos que se tenga, existe un ruido intŕınseco a laestimaci ón. Dentro de esta categoŕıa existen diferentes modelos, siendo los m´ as conocidos lostipo AR, ARMA, entre otros, que contienen la siguiente estructura:

A(z − 1)y(t) = C (z − 1)e(t) (2)

donde z − 1 es el operador de retardo, A(z − 1) = 1+ a1z − 1 + a2z − 2 + · · · + aN a z − N a , C (z − 1) =c0 + c1z − 1 + c2z − 2 + · · · + cN c z − N c y e(t) es un proceso estocástico de ruido blanco con mediacero y una varianza σ2e determinada. Para el caso en que C = 1, el modelo es AR, teniendo

solo ruido blanco, pero en caso que C = C (z − 1

) el proceso w(t) = C (z − 1

)e(t) se transforma enruido coloreado congurando un sistema ARMA. Cabe mencionar que existen modelos m´ asgenerales los cuales pueden ser abordados desde la metodoloǵıa de Box Jenkins [1], dondemediante un set de pasos se puede construir un modelo lineal en base a las correlaciones de labase de datos. A continuación se mencionan los pasos de la metodoloǵıa que ser án aplicados:

Establecer si la serie de tiempo es estacionaria o no. Si la serie no es estacionaria,diferenciarla sucesivamente hasta que lo sea. Para ello hay que observar los coecientesde autocorrelaci ón (ACF) y los coecientes de autocorrelación parcial (PACF) quedecaigan exponencialmente ( o que corten completamente después de algunos retardos).

Identicar un promedio condicional del modelo sujeto a los datos. En este caso loscoecientes del ACF y PACF pueden ayudar. Para un proceso autoregresivo (AR), elACF decae gradualmente, mientras que PACF lo hace abruptamente luego de algunosretardos. Por otro lado para un proceso con media m´ ovil (MA), ACF desaparece despuésde algunos retardos mientras que PACF lo hace gradualmente. Si los dos tipos decoecientes decaen similarmente entonces se trata de un modelo ARMA.

2


4/30




Se especica el modelo y se estiman sus parámetros. Cuando se identican modelosno estacionarios mediante un toolbox, no es necesario diferenciar a mano la serie de

tiempo, basta con crear un modelo ARIMA para prop´ ositos de predicci ón.Para comprobar que el modelo es adecuado, para ello es necesario que los residuosconstituyan un proceso aleatorio de ruido blanco con media cero y varianza constante.

Finalmente un modelo ARIMA tiene la siguiente forma:

1 − p

i=1

a iz − i 1 − z − 1d Y t = 1 +

q

i=1

ciz − i et (3)

donde z − 1

es el operador retardo unitario, Y t es la señal de salida en el instante t, et esel error en el instante t que constituye un proceso aleatorio de ruido blanco con media ceroy varianza constante; d es el grado de diferenciación de la señal de salida, p es la cantidadde autoregresores considerados, y nalmente q congura el polinomio que multiplica el ruidoblanco.

2.1.1. Estimaci´ on paramétrica para modelos lineales

Si se tiene una serie de tiempo {d}N di=1 , un sistema lineal y = N ri=1 θixi y un funcional de

costo cuadr ático:

J = 12

N d

i=1(ŷ(t) − di)2 (4)

en donde y = N ri=1 θixi , la estimaci ón óptima de par ámetros est á dada por:

θ̂ = XX T − 1 X T Y (5)

donde:

X =x1(1) . . . xN r (1)

... . . . ...

x1(N d) . . . xN r (nd)(6)

Y = y(1) . . . y(N d) (7)

3


5/30




2.1.2. Determinací on de intervalos de conanza para sistemas lineales

La construcci ón y entrenamiento de un sistema lineal puede considerarse como la apro-ximación de la media del proceso. Cuando se realiza predicci ón, no solamente es importanteestimar la media futura, sino también estimar los intervalos de conanza de predicci´ on delproceso para tener una idea de lo conable que resulta la estimaci´ on futura. Sea una basede datos de la forma {[x(1) , y(1) , [x(2) , y(2) ], . . . , [x(N ) , y(N )]} con la cual se entrena el modelolineal dado por µ̂y(x, θ), entonces el intervalo de conanza de predicci´on para un instante x0está dado por [2]:

µ̂y(x, θ) ± t0.025[N − 2] s 1N + (x0 − x̄)2N n =1 (xn − x̄)2 + 1 (8)donde s es la desviación estándar de y(1) , . . . , y (N ) , x̄ es la media de x(1) , . . . , x (N ) y t0.025[N − 2]es el valor del dominio para una distribuci´on t-student con N-2 grados de libertad donde elárea bajo la curva sea 0.025.

2.2. Denici´ on de intervalos de conanza difusosEl modelo de intervalos difusos es una metodoloǵıa para aproximaci´ on de sistemas no

lineales con un set nito de mediciones de entrada y salidas. Se construye una banda deconanza la cual contiene gran parte de los datos medidos del sistema. Para el uso de estabanda de conanza se utiliza el estadı́stico de varianza del modelo respecto a los datos medidosdel sistema, considerando un porcentaje de contenci´ on de datos, dado por una distribuci´ ont − student .

2.2.1. Modelos no-lineales difusos Takagi-Sugeno

Takagi-Sugeno es una estrategia de identicaci´ on difusa más utilizada para establecer elcomportamiento de un sistema lineal o no lineal. Fue propuesto por Takagi y Sugeno en 1988.Su modelo consiste en un set de reglas y funciones de pertenencias que identican un modelode manera local y que luego permiten, al mezclar la salida de cada una de las reglas con unpeso asociado a una función de pertenencia, calcular la salida global del sistema. Su formatot́ıpico para un modelo no lineal es:

Si y(k− 1) esta en Ar1 y ... y ... y(k− na − 1) esta en A rna − 1 entonces yr (k) = gr0+ gr1y(k−1) + gr2y(k − 2) + · · · + gn ar y(k − na )

4


6/30




Donde A ri es el set de regiones difusas para la variable i de la regla r , gri es el parámetrode consecuencia para la regla r e yr es la salida para la regla r. La salida global del sistema

queda dada por la siguiente expresión:

y(k) =N rr =1 wr yr

N rr =1 wr

(9)

Donde N r es la cantidad de reglas y wr es el grado de activación de la regla r dado eneste trabajo por wr = µr1 · · · µri · · · µrna , donde µri es la función de pertenencia para la regiónAri . Para simplicar la anotación se utiliza la partici ón unitaria de dada por:

β r (X ) = µr1(x1) · · · µri (xi) · · · µrna (xna )

N r

r =1 µr1(x1) · · · µ

ri (xi) · · · µ

rna (xna )

(10)

Donde x es el conjunto de variables de inteŕes del modelo. Usando esta denicion en laEcuación (9), es posible simplicar su expresion a la siguiente ecuaci ón:

y =N r

r =1

ψirθ r (11)

donde:ψir = β r (X i) · [1 xi1 xi2 . . . xin ] ; θr = [θr0 θ

r1 θ

r2 . . . θ

rn ] (12)

En este caso la salida esta denida a partir de una combinaci´ on lineal de las consecuencias θrde cada regla r y el set de variables con n + 1 elementos en su base tal y como se muestra enla Ecuaci ón (12). El modelo Takagi-Sugeno entregado en la Ecuación (11) puede ser usadopara aproximar cualquier función que vaya de un conjunto cerrado de reales de dimensión darbitraria a un espacio real unidimensional con un alto grado de precisi´ on.

El proceso de identicaci ón de sistemas es una tarea bastante iterativa y necesita de porlo menos de los siguientes tres puntos:

Identicar las variables base que se van a utilizar para identicar el comportamientode la planta, estas pueden ser tanto retrasos de la entrada como de la salida o algunacombinación de estas.

Identicaci ón de las zonas donde se presenta un comportamiento particular del sistema

y modelar dicha zona de manera difusa, caracteriz´ andolas con una funci ón de pertenen-cia denida. Con estas zonas es posible diseñar un set de reglas que permiten discernirla salida local del modelo.

Calcular para cada regla, los parámetros que caracterizaran el modelo local. Regular-mente este proceso se denomina como identicación de las consecuencias.

5


7/30




2.2.2. Identicací on de los intervalos de conanza del modelo Takagi-Sugeno

Se asume un set de mediciones dadas por la entradas X = [x(t)1 x(t)2 . . . x(t)N ] y salidasY = [y(t) y(t + 1) . . . y(t + N )]. Se dira que el sistema satisface la ecuaci ón no lineal dadapor:

y(t + i) = g(xi) i = 1, . . . , N (13)

Acorde al teorema de Stone-Weierstrass, para cualquier funci´ on continua g, existe unasistema difuso f y un > 0 que cumple con la Ecuación (14). Esta da a conocer la apro-ximación del sistema difuso a cualquier funci ón continua, siempre y cuando se considere unvalor de acorde al problema. En este caso este valor de entregara la banda de conanzadel proceso de estimaci ón del sistema.

maxx i ∈ X |g(xi) − f (xi)| < ∀i (14)

Tomando en consideraci´on la Ecuación (11) y deniendo el error ei que se genera entre elmodelo y la señal de salida real del sistema de la forma:

ei = yi −N r

r =1

ψr (xi)θr (15)

donde ei es un ruido blanco, de varianza igual a σ2(xi) dependiente de la entrada delmodelo. En este caso se trata de caracterizar dicha varianza, considerando algunos elementospreliminares. Se dene la matriz que recolecta todos los ψr de cada regla r para el set demediciones X = [x(t)1 x(t)2 . . . x(t)N ] como:

Ψr = [ψ1r ψ2r . . . ψNr ]T (16)

El análisis de la varianza del modelo Takagi-Sugeno se realizara usando los modelos localesque lo denen. Es por ello que en cada regla existir á un valor de σ2r que depender á del set dedatos de entrada. En este punto se necesita conocer ei , el cual muestra el comportamientodel error generado del modelo con la salida real del sistema en cada instante i de medición yel error medio generado por las salidas locales del modelo ēr . Según [4], un buen estimadorde cada varianza local esta dada por:

σ̂2r =N i=1 β 2ir (ei − ēr )2

N i=1 β

2ir

; r = 1, . . . , N r (17)

donde ē queda denido por:

ēr =N i=1 β ir ei

N i=1 β ir

; r = 1, . . . , N r (18)

6


8/30




La idea del intervalo de conanza de un modelo difuso es encontrar un funci´ on difusainferior f y una función difusa superior f tal que cumpla con:

f (xi) ≤ g(xi) ≤ f (xi) ; ∀xi (19)

Para construir dichas funciones, se realiza un ajuste en las salidas locales dadas por cadauna de las reglas que denen al modelo Takagi-Sugeno con tal de reproducir los intervalossuperior e inferior deseados en la Ecuaci ón (19). Según [4], los intervalos inferior y superiorpara cada uno de las salidas locales dado una entrada Xi esta dada por:

f (X i)r = ψir θr − tα,M − n σ̂ 1 + ψT ir Ψr ΨT r

− 1 ψir1/ 2

(20)

f (X i)r = ψir θr + tα,M − n σ̂ 1 + ψT

ir Ψr ΨT

r

− 1

ψir1/ 2

(21)donde tα,M − n es el percentil de una distribuci´on t − student para 100(1 − 2α) porcentaje

de conanza con M − n grados de libertad. La salida nal del modelo estar´a acotada por losintervalos de conanza:

ylower =N r

r =1

f (X i)r (22)

yupper =N r

r =1

f (X i)r (23)

2.3. Denici´ on de redes neuronalesLas redes neuronales son un conjunto de funciones no lineales que poseen una arquitectura

inspirada en las interconexiones de las redes neuronales a nivel biol´ ogico. Una neurona , esla unidad fundamental que puede ser descrita de la siguiente manera:

y = f N

i=1

W iX i + b (24)

donde, xi es la entrada i-ésima de la neurona , W i es el ponderador i-ésimo, b es el sesgoo bias, f es una funcíon no lineal pudiendo abarcar una gran variedad dependiendo de laaplicación e y es la salida.

En la Figura 1 se aprecia la arquitectura b´ asica de una red neuronal, la cual se componede diferentes capas, y cada una de ellas de diferentes neuronas. La capa de entrada es aquellaque recibe las señales de entrada, en donde para obtener las se˜ nales y j las entradas xi se

7


9/30




deben ponderar por los diferentes pesos W ij sumar las respectivas contribuciones y aplicarla función no lineal correspondiente. El mismo proceso ocurre en la capa oculta en donde se

reciben las señales u j para luego obtener las se ñales z k de la capa de salida. Por lo generalen la capa de salida solo act úa como un ponderador lineal de las entradas, de esta manera,una red neuronal con una capa de entrada, oculta y salida puede ser descrita como:

z k =N 2

j =1

V jk f j N 1

i=1

W ij xi + b j (25)

Figura 1: Arquitectura de una red neuronal t́ıpica.

2.3.1. Entrenamiento de redes neuronales para predicci´ on

Si se designa una red neuronal como una funci ón no lineal ŷ = g(x, θ) donde x es elvector de entrada y θ el vector de todos los par ámetros y la base de datos de entrenamientocomo el vector d. Cuando el enfoque es entrenar una red neuronal para realizar predicci´ on,necesariamente el vector de entrada x se transforma en regresores de la salida y, por lo que

x = [y(t − 1), y(t − 2), . . . , y(t − r )] y se puede encontrar los pesos minimizando un funcionalde costo cuadr ático:

J = 12

N d

l=1

g(xl, θ) − yl2 (26)

8


10/30




donde N d es la cantidad de datos disponibles, x l es el vector de entrada l-ésimo evaluado enlos datos e yl es el target l-ésimo al cual la red neuronal debe tender. Encontrar el vector θ

puede hacerse de manera iterativa mediante el algoritmo t́ıpico de Back Propagation :θt+1 = θt − γ ∇ θJ (27)

en donde γ es el factor de aprendizaje, θt es el vector de parámetros en la iteración t y ∇ θes el gradiente del funcional J con respecto al vector de par´ ametros. El c álculo del gradientepara V jk es:

dJ dV jk

=N d

l=1

g(xl, θt ) − yl dg(xl, θt )

dV jk(28)

=N d

l=1

g(xl, θt ) − yl f j N 1

i=1

W ij xli + b j (29)

consecutivamente para W ij es:

dJ dW ij

=N d

l=1

g(xl, θt ) − yl dg(xl, θt )

dW ij(30)

=N d

l=1

g(xl, θt ) − yl V jkdf j (u j )

du jdu j

dW ij(31)

=N d

l=1

g(xl, θt ) − yl V jkdf j (u j )

du jxli (32)

Una vez que se tiene el vector de par ámetros óptimo θ∗, luego para realizar predicci ón,de g(x(t), θ∗) solo basta introducir la condición inicial correspondiente x(t0) = x0 y luegoretroalimentar las salidas de una iteraci´ on como las entradas de la siguiente.

2.3.2. Intervalos de predicci´ on para redes neuronales

En la sección anterior, en términos estadı́sticos solo se est´ a haciendo una predicci ón de laesperanza de la serie de tiempo sin saber exactamente cu´ an conable es esta predicci ón. Enesta sección se introducen los conceptos para calcular los intervalos de conanza de predicci´ onpara redes neuronales. A modo de ejemplo, si y tiene una distribución gaussiana con media

9


11/30




E (y|x) y una varianza Var( y|x), un intervalo de predicción con un 95 % de conanza estádado por:

E (y|x) ± z 0.025 Var( y|x) (33)donde z 0.025 es el valor del soporte de una distribución estándar donde el área bajo la curvaes 0.025. Este mismo principio puede ser utilizado para el cálculo de intervalos de conanzapara redes neuronales. Para ello, consideraremos que una red neuronal ˆ µy = g1(x, θ) quese entrena bajo el funcional (26) puede aproximar E (y|x), por lo que si se desea aproximarVar( y|x), se genera otra red neuronal ˆσ2y = g2(x, θ) que aproxime ese estad́ıstico, por lo cualnecesariamente el funcional debe cambiarse. En este caso se introduce el siguiente [2]:

J = 12

N d

l=1σ̂

2y − µ̂y − y

l 22

(34)

= 12

N d

l=1

g2(xl, θ2) − g1(xl, θ1) − yl2 2 (35)

De esta manera el intervalo de predicción del 95 % seŕıa:

µ̂y ± z 0.025 σ̂2y (36)El cálculo de θ2 puede realizarse también mediante el algoritmo de gradiente descendente,

considerando por ejemplo que el par ámetro θ1 ya fue efectivamente encontrado con un set deentrenamiento aparte.

Otra metodologı́a que también puede ser aplicada, consiste en el uso de una red neuronalque tiene dos salidas; la primera aproxima la media y la segunda la varianza del procesomediante el uso de un solo funcional [2]:

J = 12

N d

l=1

µ̂y − yl2

σ̂2y+ ln σ̂2y

2

(37)

= 12

N d

l=1

g1(xl, θ) − yl2

g2(xl, θ) + ln g2(xl, θ)

2

(38)

con lo cual el intervalo de conanza del 95 % se calcula como:

µ̂y ± t0.025[v] V̂ar( µ̂y) + σ̂2 (39)10


12/30




donde t0.025[v] es el punto del soporte de una distribución t-student con v grados de libertaddonde al área bajo la curva es 0.025, V̂ar( µ̂y) es la varianza emṕırica de la salida de la red

que aproxima la media, y σ̂2 es la varianza estimada del ruido.

2.4. Medidas de desempe˜ no para cuanticar calidad de las predic-ciones

Para poder analizar la calidad de los modelos y poder contrastar las predicciones adecua-damente con la data de validación respectiva, existen diversas medidas de desempe˜ no paraello. Algunas de las medidas como RMSE, MAPE y MAE apuntan a comparar la predicci´ ondel modelo versus la data de validación, y existen otras medidas como PICP, NMPIW yCWC para evaluar la calidad de los intervalos de conanza [3]. A continuaci´ on se enuncia las

medidas que se aplican en el an álisis:

2.4.1. Root Mean Squared Error (RMSE)

Se dene como:

RMSE = 1nn

i=1

(yi − ŷi)2 (40)

en donde n es la cantidad de datos, yi es la data de validaci ón e ŷi es la respectiva predicci ón.

2.4.2. Mean Absolute Percentage Error (MAPE)

Se dene como:

MAPE = 1n

n

i=1

yi − ŷiyi

(41)


2.4.3. Mean Absolute Error (MAE)

Se dene como:

MAE = 1n

n

i=1

|yi − ŷi | (42)


11


13/30




2.4.4. Prediction Interval Coverage Probability (PICP)

Se dene como:

PICP = 1n

n

i=1

ci (43)

donde ci se dene como:

ci = 1, ti ∈ [Li , U i]0, ti /∈ [Li , U i]

(44)

donde Li y U i son los intervalos de conanza de predicci ón superiores e inferiores respectiva-

mente.

2.4.5. Normalizing Mean Prediction Interval Width (NMPIW)

Se dene como:

NMPIW = 1R · n

n

i=1

(U i − Li) (45)

U i y Li son los intervalos de predicci ón superiores e inferiores respectivamente, R es el máximorango entre los intervalos, y n es la cantidad de datos de validaci´on ocupados.

2.4.6. Coverage Width-based Criterion (CWC)

Se dene como:

CWC = NMPIW 1 + γe − η(PICP − µ) (46)

donde γ :

γ = 1, PICP ≥ µ0, PICP < µ (47)

Esta medida es un criterio h́ıbrido que recoge los otros dos criterios anteriores ponderados.En donde los valores de η y µ son seteados como 0.5 y 0.9.

12


14/30




3. Desarrollo

3.1. Preprocesamiento de datos y construcci´ on de Modelos linealesEn primer lugar la base de datos a utilizar corresponde a dos series de tiempo corres-

pondiente al consumo en potencia que se mide cada 15[min]. El primer set de datos es deentrenamiento y tiene un largo de 14112 datos, mientras que el segundo set de datos tieneun largo de 4500. En este caso el primer set se ocupa para poder entrenar los diferentesmodelos, y con el segundo se comprueba el desempeño en términos de la predicción. Comose especica en el primer paso de la metodoloǵıa de Box Jenkins, se calculan las se ñales deautocorrelaci ón y autocorrelaci ón parcial. Como se ve en la Figura 2 como es de esperarse, elconsumo es periódico en el tiempo, mostrando peaks en ACF y PACF de correlaciones cada96 iteraciones, es decir, el consumo tiene una periodicidad diaria.

0 20 40 60 80 100 120 140 160 180 200−0.5

0

0.5

1

Lag

S a m p

l e A u

t o c o r r e

l a t i o n

Sample Autocorrelation Function

0 20 40 60 80 100 120 140 160 180 200−0.5

0

0.5

1

Lag

S a m p

l e P a r t

i a l A u

t o c o r r e

l a t i o n s

Sample Partial Autocorrelation Function

Figura 2: ACF y PACF del set de datos de entrenamiento para 209 retardos.

Siguiendo la metodoloǵıa, se debe convertir el consumo a una señal estacionaria, paraeso se diferencia en repetidas ocasiones encontrándose que con solo una diferenciaci ón essuciente para hacer que los coecientes de ACF y PACF decaigan exponencialmente comose aprecia en la Figura 3.

13


15/30




0 20 40 60 80 100 120 140 160 180 200−0.5

0

0.5

1

Lag

S a m p

l e A u

t o c o r r e

l a t i o n


0 20 40 60 80 100 120 140 160 180 200−0.5

0

0.5

1

Lag

S a m p

l e P a r t

i a l A u t o c o r r e

l a t i o n s


Figura 3: ACF y PACF del set de datos de entrenamiento diferenciados una vez para 209retardos.

En este caso se considera que tanto ACF y PACF decaen similarmente, pero mostrandorelevancia en el componente 96, por lo cual se construye un modelo con 96 autoregresoresy una diferenciaci ón. Asimismo, se considera realizando diferentes pruebas, se encuentraque la cantidad de regresores adecuados para el ruido es de 48. De esta manera el modelogenerado es un ARIMA con los siguientes par ámetros: d = 1 ( por la diferenciación de la señaloriginal), p = 96 por las correlaciones de los autoregresores y jugando con los valores de q , seencuentra que q = 48 es adecuado para que et sea lo más cercano a ruido blanco gaussiano. Elsupuesto anterior se valida con la Figura 4, en donde los residuos est´ an centrados en cero, laautocorrelaci ón y la autocorrelaci ón parcial indican que los residuos est án descorrelacionadosy el gráco de Sample Data versus Standard Normal reeja una curva mayoritariamentelineal en contraste con la roja punteada.

De esta manera como se aprecia en la Figura 5 se genera una predicci´ on de la formaŷ(i + t|t) con i = 1 : 196 (dos d́ıas) y sus respectivos intervalos de conanza del 95 %comparado con los datos de validaci ón. En términos cualitativos, la se˜ nal de predicci ón logracaracterizar adecuadamente la data de validaci´ on, la cual no escapa del intervalo de conanza.Este resultado en particular indica que el modelo lineal si bien no logra predecir en gran

14


16/30




0 5000 10000 15000−10

−5

0

5

10

15Standardized Residuals

−4 −2 0 2 4−10

−5

0

5

10

15

Standard Normal Quantiles

Q u a n

t i l e s o

f I n p u

t S a m p l e

QQ Plot of Sample Data versus Standard Normal

0 5 10 15 20−0.5

0

0.5

1

Lag

S a m p

l e A u

t o c o r r e

l a t i o n


0 5 10 15 20−0.5

0

0.5

1

Lag

S

a m p

l e P a r t

i a l A u

t o c o r r e

l a t i o n s


Figura 4: Gr ácos de análisis que validan el modelo ARIMA escogido.

detalle el consumo en una resoluci ón menor que 1 hora, śı logra caracterizar adecuadamentelos perles para resoluciones mayores que 2 horas.

Hasta ahora solo se ha hecho una predicci´on del tipo ŷ(i + t|t) con i = 1 : 196 para un tjo, sin embargo como en todo sistema donde la informaci ón va llegando secuencialmente, esde vital importancia ir calculando las predicciones en cada iteraci´ on. De esta manera surgenlas predicciones del estilo ŷ(i0 + t |t) con i0 jo para diferentes t. En este caso en particular seefectúan pruebas para t = 1 : 96 (duraci ón de un dı́a) de la data de validaci´ on, para diferentespasos de predicción contemplados por i0 = {1, 4, 96, 192} que corresponden a predicci ón a 15minutos, 1 hora, 1 d́ıa y 2 d́ıas respectivamente. Los resultados se aprecian en la Figura 6,donde en términos cualitativos se aprecia como es de esperarse un buen desempe˜ no en las

15


17/30




0 20 40 60 80 100 120 140 160 180 2002

4

6

8

10

12

14

16

18

P o t e n c i a c o n s u m

i d a

[ W ]

Tiempo [15[m]]

PredicciónData validaciónIntervalos de confianza de 95%

Figura 5: Modelo Lineal: Comparación entre predicci ón Ŷ (i + t|t) para i = 1, . . . , 192 conintervalos de conanza del 95 % y data de validación para los primeros 192 datos.

predicciones de 1 y 4 pasos debido a que la predicción es acorde a los datos de validaci ón,y éstos a su vez est án dentro de los intervalos de predicción estimados por el modelo. Adiferencia de los casos anteriores, no se obtiene lo mismo para la predicción a 96 y 192pasos en donde la predicci ón con sus intervalos de conanza no calzan en todo el intervalocon la data de predicci ón. Esto último puede deberse a la incertidumbre acumulada quesignica hacer una predicci ón a largo plazo. De todas maneras en la secci ón de comparaci óny discusiones se analizan los resultados cuantitativamente en tablas con distintas medidas dedesempeño.

16


18/30




0 10 20 30 40 50 60 70 80 90 1000

2

4

6

8

10

12

14

16

18

20


i d a

[ W ]

Tiempo [15[m]]


(a) Predicción a un paso ŷ (1+ t |t ) para t = 1 : 96de datos de validación.

0 10 20 30 40 50 60 70 80 90 100−5

0

5

10

15

20

25


i d a

[ W ]

Tiempo [15[m]]


(b) Predicción a 4 pasos ŷ (4 + t | t ) para t = 1 : 96de datos de validación.

0 10 20 30 40 50 60 70 80 90 1002

4

6

8

10

12

14

16

18

20

22


i d a

[ W ]

Tiempo [15[m]]


(c) Predicción a 96 pasos ŷ (96 + t | t ) para t = 1 :96 de datos de validación.

0 10 20 30 40 50 60 70 80 90 1000

5

10

15

20

25


i d a

[ W ]

Tiempo [15[m]]


(d) Predicción a 192 pasos ŷ (192 + t |t ) para t =1 : 96 de datos de validaci ón.

Figura 6: Modelo Lineal: Comparaci ón entre predicci ón Ŷ (i0 + t|t), i0 = {1, 4, 96, 192}, t =1 : 96 e intervalos de conanza del 95 % con datos de validación.

17


19/30




3.2. Modelos difusosLa estructura del modelo difuso cumple con diferentes etapas de optimizaci´ on, con tal

de satisfacer de mejor manera el comportamiento general del sistema. Se da inicio con laseparaci ón de los datos para el proceso de entrenamiento, prueba y validaci´ on. Para ello seescoge una base que contiene las se ñales de salida del sistema hasta con 5 retardos. Estevalor fue escogido como cota máxima, dado que la iteración con mas cantidad de retardosse vuelve muy costoso para el procesamiento computacional, volvíendolo casi inmanejablepara el procesador y memoria f́ısica disponible para el alumno. No se realiza un an´ alisis desensibilidad de las variables del modelo dado a la reducida cantidad de retardos, los cualesconsideran el comportamiento del sistema dentro de 1 hora y 15 minutos.

Con los datos de entrenamiento se generan las premisas y consecuencias del modelo paracada una de las reglas. Se hace un estudio de la cantidad óptima de cl úster usando los datos de

prueba. En este caso se tiene que tres clúster son mas que suciente para describir de buenamanera el comportamiento de la planta, dado que es justo el punto rodilla de la Figura 7.Dada esta conguración se tienen 243 reglas diferentes. Cada una de ellas con sus respectivaspremisas generadas a partir del set de entrenamiento, utilizando técnicas de cl´ uster difuso yajustando funciones Gaussianas a cada una de ellas.

Figura 7: Desempe ño del modelo con distintos n úmero de clúster, utilizando los datos deprueba

Los parámetros de las consecuencias se calculan con la se ñal de salida real del sistema y

18


20/30


21/30




la señal de salida del conjunto de validación, la predicción del modelo Takagi-Sugeno y losintervalos de conanza del modelo. En este caso se puede observar que tanto estimaciones de

1 y 4 pasos siguen el la señal de salida del conjunto de validación. Además se puede observarque los intervalos de conanza contienen gran parte de los datos de validaci´ on, cumpliendocon su rol de diseño. Sin embargo, en la predicci ón a 96 y 192 pasos la señal estimada delmodelo es constante. Si bien el proceso de estimación es el mismo para todos los casos, unaventana de predicción mayor a la entregada por 3 horas (12 pasos) hará que la señal desalida estimada tienda a un valor jo constante. Esto puede ser debido a la condici´ on inicialentregada para el proceso de estimación, el cual empieza en una zona de bajada. Mientrasno se reciba una señal con algún peak de subida como entrada, el modelo no entregara unaseñal de salida creciente, si no m ás bien mantendrá su valor a la cota mı́nima de potenciaentregada en los datos de validación.

20


22/30








Figura 9: Modelo Difuso: Comparacíon entre predicci ón Ŷ (i0 + t |t), i0 = {1, 4, 96, 192},

t = 1 : 96 e intervalos de conanza del 90 % con datos de validación usando modelo Takagi-Sugeno.

21


23/30




3.3. Modelos neuronalesDebido a que en el análisis de autocorrelaci ón del set de datos de entrenamiento arroja

periodicidades cada 96 iteraciones, necesariamente la red neuronal se construye con esa can-tidad de regresores consecutivos. En este caso no hay problema en esa cantidad de regresoresdebido a que la cantidad de datos del set para entrenar supera los 10000 datos. La arqui-tectura de la red neuronal consiste en una capa de entrada, otra oculta con 10 neuronas yuna capa de salida con una neurona. La función no lineal de la capa oculta es la tangentehiperb ólica. Esta base de datos de entrenamiento se divide en tres subconjuntos, el primerocon un 70 % del total es para entrenar los pesos, el 15 % siguiente para realizar validacionescruzadas y el último 15 % para testear el error de generalizací on de la red neuronal. Unavez entrenada la red denominada ûy(w, x) que es la que aproxima la media del proceso, seentrena en segundo lugar con el mismo procedimiento y arquitectura la segunda red neuronal

σ̂2y(w, x) que aproxima la varianza de la estimación, por lo que en este caso el funcional decosto es el de la ecuación (35), donde se minimiza el error cuadr ático medio de la varianza

del proceso. Con la segunda red entrenada se procede a construir el intervalo de predicci´ onde acuerdo a la ecuaci ón (33). De esta manera como se ve en la Figura 10 se construye lapredicción Ŷ (i + t|t) en donde i = 1 : 192 representando al predicción de dos d́ıas, para un tque demarca el inicio de los datos de validaci ón.

La Figura 10 solo devela el comportamiento de la predicción para un t jo, sin embargo elverdadero objetivo es calcular predicciones a diferentes pasos en cada iteraci´ on del proceso,es decir, si se desea realizar una predicci ón a i0 pasos, entonces se debe obtener la curvaŷ(i0 + t |t) para un conjunto de t. En este caso se calcula para t = 1 : 96 (un dı́a), laspredicciones i0 = {1, 4, 96, 192} hacia adelante correspondiendo a 15 minutos, una hora, und́ıa y dos d́ıas en el futuro respectivamente. Los resultados se pueden apreciar en la Figura 11.

22


24/30




0 20 40 60 80 100 120 140 160 1802

4

6

8

10

12

14

16

18

20


i d a

[ W ]

Tiempo [15[m]]


Figura 10: Modelo Neuronal: Comparaci´on entre predicci ón Ŷ (i + t |t) para i = 1, . . . , 192 conintervalos de conanza del 95 % y data de validaci´on para los primeros 192 datos.

23


25/30




0 10 20 30 40 50 60 70 80 90 1002

4

6

8

10

12

14

16

18

20

22


i d a

[ W ]

Tiempo [15[m]]



0 10 20 30 40 50 60 70 80 90 1004

6

8

10

12

14

16

18

20

22


i d a

[ W ]

Tiempo [15[m]]



0 10 20 30 40 50 60 70 80 90 1004

6

8

10

12

14

16

18

20

22


i d a

[ W ]

Tiempo [15[m]]



0 10 20 30 40 50 60 70 80 90 1005

10

15

20

25

30


i d a

[ W ]

Tiempo [15[m]]



Figura 11: Modelo Neuronal: Comparaci´on entre predicci ón Ŷ (i0 + t|t), i0 = {1, 4, 96, 192},t = 1 : 96 e intervalos de conanza del 95 % con datos de validación.

24


26/30




4. Comparaci´ on y discusiones

En esta secci ón se realiza la comparaci ón de los distintos modelos de acuerdo a la calidadde su predicci ón. En primer lugar se analizan las predicciones de la forma ŷ(i + t |t) coni = 1, . . . , 192 con las medidas de desempeño denidas en la Sección de Marco Te órico.

Según la informaci ón entregada por el Cuadro 1 se puede denotar el orden de desempe˜ node los modelos, siendo el modelo lineal el con mejor desempeño tanto para las medidasasociadas al error como a los intervalos de conanza generados y la iclusion de los datosde validación en ellos. En este caso se denota el potencial que tiene este modelo para lapredicción a i pasos, teniendo en consideraci ón una sola condición inicial, entregando erroresRMSE bastante cercanos a la unidad, pero con tendencia a bajar como lo indica el MAPEy MAE. Para el caso de los intervalos de conanza el modelo permite capturar casi el 99 %de los datos de validaci ón, tal y como lo muestra en el factor de PICP, pero dado el valorentregado por la medida NMPIW, el ancho del intervalo de conanza permanece bastanteconstante, teniendo tan solo un 10 % de variaci´ on dentro del proceso de estimaci ón.

Otro modelo de gran desempe ño para este tipo de predicción es la red neuronal. Lasmedidas de error asociadas a este modelo indican un buen seguimiento entre la se˜ nal devalidaci ón y la salida del modelo, dando un error RMSE cercano a la unidad y valores deMAPE y MAE cercanos a 0. Comparado con el modelo lineal, el modelo neuronal tiene unmenor desempe ño al momento de generar los intervalos de conanza. El PICP indica que el91 % de los datos de validación están contenidos en el intervalo de conanza, menor que el99 % obtenido en el caso lineal. Sin embargo, existe un mejor ajuste de las curvas superior einferior que denen el intervalo de conanza. Es de esperar que las curvas contengan la mayorcantidad de datos entre ellas, pero que sean lo sucientemente angostas con tal de obteneruna estimaci ón adecuada. Todo esto debido a que el valor que toma la medida NMPIW,indica que el 60 % de las veces el proceso sufre de alguna disminución del ancho del intervalode conanza.

Por otra parte el modelo difuso es aquel que obtiene el peor desempeño, tomando valoresde error RMSE por sobre la unidad, denotando que la estimaci´ on del modelo no sigue a losdatos del set de validaci ón. Los intervalos de conanza corren con la misma suerte, entregandotan solo un 64 % de los datos de validacíon contenidos en el intervalo de conanza.

Como se aprecia en el Cuadro 2, se realizan las respectivas comparaciones de los tresmodelos para las diferentes tiempos de predicción para las medidas de desempe ño descritasanteriormente. Las medidas RMSE, MAPE y MAE nos entregan b´ asicamente cu ál es la

calidad de la predicci ón con respecto a los datos de validaci ón en términos de la media.Como se puede vericar, en todos los modelos se tiene un desempeño similar y mejor (RMSE,MAPE y MAE) para las predicciones a 1 y 4 pasos con respecto a 96 y 192 pasos. Esto se debeprincipalmente a que los funcionales utilizados para el entrenamiento de cada estructura solominimiza el error de predicci ón de un paso, de ah́ı que para predicciones largas se tenga peores

25


27/30




Modelo RMSE MAPE MAE PICP NMPIW CWCLineal 1.2477 0.1029 0.9042 0.9896 0.8974 0.8974

Difuso 4.3847 0.2339 2.9111 0.6458 0.8765 1.8717Neuronal 1.4361 0.1451 1.0319 0.9115 0.6054 0.6054

Cuadro 1: Comparación cuantitativa entre modelos lineales, difusos y neuronales para pre-dicción de la forma ŷ(i + t|t) con i = 1, . . . , 192 para t jo como instante inicial de la datade validación.

resultados aproximando la media. Ahora bien, analizando por modelo y mirando las medidasde desempeño RMSE, MAPE y MA, el modelo lineal posee mejores desempeños que los demásmodelos para predicciones de peque ños horizontes ( 1 y 4 ), esto porque predicciones de cortoalcance no requiere de aprendizajes no lineales complejos como lo aprenden los sistemasdifusos y neuronales. Es por esto que analizando las predicciones de más largo plazo, almenos el modelo neuronal presenta mejores desempeños que el lineal, debido a que la redes capaz de aprender las frecuencias claves del consumo de potencia para hacer correctaspredicciones.

Además de los análisis para medir la calidad de aproximación de la media, tambiénse hace necesario el análisis de los intervalos de conanza de predicci ón del modelo. Losintervalos de conanza son herramientas útiles para analizar cuán conable es la media quese está prediciendo, y para eso existen las métricas adhoc como: PICP, NMPIW y CWC;en donde PICP mide la proporción de puntos promedio de la data de validación que caedentro de los intervalos de conanza ( por lo cual entre m´ as cercana a uno es mejor) ,

NMPIW mide el promedio del ancho del intervalo de conanza normalizado ( por lo cualmientras m ás cercano a cero es mejor) y por último el CWC es aquel que se basa en la dosmedidas anteriores haciendo un trade-off entre ellas. El trade-off consiste en tratar de obtenerel intervalo de conanza de menor ancho posible cubriendo la mayor cantidad de datos devalidaci ón. De esta manera, mirando las métricas PICP, NMPIW y CWC en el Cuadro 2,los mejores desempeños se obtienen para horizontes pequeños de predicción contempladospor 1 y 4. Esto nuevamente porque los funcionales utilizados son adhoc para este tipo depredicciones. Ahora, para horizontes de predicci´ on más grandes, claramente los intervalosde conanza se vuelven más imprecisos ( NMPIW m ás grandes) y que no necesariamentetienen abarcan los datos de validación ( reejados en PICP más pequeños), esto debido aque en horizontes de tiempos m ás grandes las incertidumbres se van acumulando en cadaretroalimentación de las estructuras. Finalmente, analizando por modelos, para intervalospequeños de predicción, los intervalos de conanza de cada uno de los modelos no presentamayores diferencias, sin embargo para grandes horizontes el modelo neuronal tiene intervalosmenos anchos que los difusos, pero no son precisos a la hora de cubrir la data de validación.También cabe mencionar que los modelos difusos tienden a saturar su predicci´ on a grandes

26


28/30




horizontes, lo que puede deberse b ásicamente a que los modelos de las consecuencias no sonsucientes para caracterizar los perles de consumo.

Modelo Prediccí on RMSE MAPE MAE PICP NMPIW CWC

Lineal

1 paso 1.7495 0.13667 1.2170 0.9167 1 14 pasos 2.6485 0.2102 1.9435 0.7813 1 2.061296 pasos 3.8642 0.2436 2.8438 0.6979 1 2.1063192 pasos 4.8683 0.27827 3.5473 0.6667 1 2.1237

Difuso

1 paso 1.8358 0.1078 1.2292 0.9479 0.4885 0.48854 pasos 2.7116 0.1488 1.7571 0.9479 0.4209 0.420996 pasos 5.0537 0.4076 4.0217 0.5417 0.9928 2.1804192 pasos 4.5151 0.2752 3.3298 0.6979 0.9889 2.0830

Neuronal

1 paso 2.2433 0.1490 1.5913 0.5652 0.4132 0.90174 pasos 3.0171 0.1940 2.1616 0.4565 0.4095 0.920696 pasos 3.6122 0.2072 2.5725 0.3913 0.4218 0.9657192 pasos 2.5755 0.1732 1.8854 0.2935 0.5958 1.4027

Cuadro 2: Comparaci´on cuantitativa entre modelos lineales, difusos y neuronales para pre-dicción de la forma ŷ(i0 + t |t) con t = 1, . . . , 96 de la data de validaci ón e i0 = {1, 4, 96, 192}pasos de predicción.

27


29/30




5. Conclusiones

Como se ha estudiado en este trabajo, la conabilidad de los modelos no solamente est´ adado por la capacidad predecir adecuadamente la media para un horizonte determinado, sinoel poder adicionar los intervalos de conanza de predicción correspondientes al análisis. Enesta experiencia se ha trabajado con series de tiempos reales, y se han generado distintosmodelos de predicción incluyendo modelos lineales, difusos y neuronales. Cada uno de estosmodelos presentan ventajas y desventajas dependiendo del horizonte de predicci´ on al cualse esté trabajando, en donde se ha encontrado que modelo lineales predicen de una maneramás conable que los modelos difusos y neuronales para horizontes pequeños, mientras quelos modelos neuronales destacan para predicciones de más largo plazo. Cabe mencionar quela data utilizada teńıa periodicidades importantes ( cada 96 pasos), las cuales fueron apren-didas por todos los modelos utilizando la cantidad adecuada de regresores en las entradas.Finalmente es importante mencionar que los resultados a largo plazo pueden ser mejoradosutilizando funcionales que con predicciones a más de un paso.

28


30/30




Referencias

[1] George EP Box, Gwilym M Jenkins, and Gregory C Reinsel. Time series analysis: fore-casting and control , volume 734. John Wiley & Sons, 2011.

[2] Richard Dybowski and S Roberts. Condence intervals and prediction intervals for feed-forward neural networks. Clinical Applications of Articial Neural Networks , pages 298–326, 2001.

[3] Abbas Khosravi, Saeid Nahavandi, Doug Creighton, and Amir F Atiya. Comprehensivereview of neural network-based prediction intervals and new advances. Neural Networks,IEEE Transactions on , 22(9):1341–1356, 2011.

[4] I. Škrjanc. Fuzzy condence interval for ph titration curve. Appl. Math. Model , pages4083—-4090, 2011.

29

intervalos de prediccion

Documents