intervalos de prediccion

Upload: pablo-fuentes-poblete

Post on 05-Jul-2018

221 views

Category:

Documents


0 download

TRANSCRIPT

  • 8/16/2019 Intervalos de Prediccion

    1/30

    Facultad de Ciencias F ı́sicas y Matem áticas

    Departamento de Ingenier ı́a El éctrica

    EL7012 Control Inteligente de Sistemas

    Ejercicio 2

    Intervalos de Predicci´ on

    Pablo Fuentes - Mario Vergara

    EL7012 Control Inteligente de Sistemas

    14 de Noviembre de 2015

  • 8/16/2019 Intervalos de Prediccion

    2/30

    Facultad de Ciencias F ı́sicas y Matem áticas

    Departamento de Ingenier ı́a El éctrica

    EL7012 Control Inteligente de Sistemas

    1. Introduccí on

    Para la operaci´on óptima de las micro-redes es importante contar con modelos de pre-dicción conables de variables tales como: potencia solar, potencia e´ olica, consumo y estadode carga de las bateŕıas. Los modelos de predicci´on son importantes debido a la incertidum-bre asociada a la generaci ón con enerǵıa renovable y la variabilidad del consumo local. Elintervalo de predicci ón se compone de los ĺımites superior e inferior donde se espera que unafutura observaci´on se encuentre, con un determinado nivel de conanza.

    De esta manera los tipos de modelos a utilizar y las metodoloǵıas que subyacen paracalcular sus intervalos de predicci´on son de vital importancia, que dependiendo del tipode problema, algunos enfoques ser án más adecuados que otros. En este caso, los modelosde interés son los lineales, difusos y neuronales. Los modelos lineales act úan como primeraaproximaci ón al problema, ya que son fáciles de generar al igual que su intervalo de conanza,aportando claridad en su estructura y la determinaci´ on de los regresores más relevantes delproblema. En segundo lugar se encuentran los modelo difusos, en espećıco los T&S, los cualesmediante un set de reglas y consecuencias lineales puede caracterizar procesos altamente nolineales, siendo muy utilizados también en predicci´ on. Por último los modelos neuronalesocupados en predicci ón si bien son cajas negras en cuanto a su estructura, son altamenteutilizados en este ámbito debido a su capacidad de generalizar procesos altamente no lineales.

    En esta ocasi ón se construyen estos tipos de modelos aplicados en la caracterizaci´ on futuradel consumo de enerǵıa, en donde ventajas y desventajas son analizadas para cada modelo.

    1

  • 8/16/2019 Intervalos de Prediccion

    3/30

    Facultad de Ciencias F ı́sicas y Matem áticas

    Departamento de Ingenier ı́a El éctrica

    EL7012 Control Inteligente de Sistemas

    2. Marco Te´ orico

    2.1. Denici´ on de sistemas linealesSe considera que todo sistema lineal se puede escribir de la siguiente forma:

    y =N r

    i=1

    θixi (1)

    donde θi es el parámetro i-ésimo que pondera la entrada xi del sistema, y N r es la cantidadde entradas consideradas. Las entradas en términos generales pueden ser autoregresivas,exógenas, e incluso funciones no lineales de las dos anteriores, sin embargo lo que se debemantener es la linealidad con respecto a los par´ametros. Para el caso de predicci´on de seriesde tiempo, se considera que el vector x = [x1, x2, . . . , x r ] son regresores de la salida y = y(t),es decir x(t) = [y(t − 1), y(t − 2), . . . , y(t − r )]. Dado que la estimaci ón del par ámetro θ estásujeto a la incertidumbre de la base de datos que se tenga, existe un ruido intŕınseco a laestimaci ón. Dentro de esta categoŕıa existen diferentes modelos, siendo los m´ as conocidos lostipo AR, ARMA, entre otros, que contienen la siguiente estructura:

    A(z − 1)y(t) = C (z − 1)e(t) (2)

    donde z − 1 es el operador de retardo, A(z − 1) = 1+ a1z − 1 + a2z − 2 + · · · + aN a z − N a , C (z − 1) =c0 + c1z − 1 + c2z − 2 + · · · + cN c z − N c y e(t) es un proceso estocástico de ruido blanco con mediacero y una varianza σ2e determinada. Para el caso en que C = 1, el modelo es AR, teniendo

    solo ruido blanco, pero en caso que C = C (z − 1

    ) el proceso w(t) = C (z − 1

    )e(t) se transforma enruido coloreado congurando un sistema ARMA. Cabe mencionar que existen modelos m´ asgenerales los cuales pueden ser abordados desde la metodoloǵıa de Box Jenkins [1], dondemediante un set de pasos se puede construir un modelo lineal en base a las correlaciones de labase de datos. A continuaci´on se mencionan los pasos de la metodoloǵıa que ser án aplicados:

    Establecer si la serie de tiempo es estacionaria o no. Si la serie no es estacionaria,diferenciarla sucesivamente hasta que lo sea. Para ello hay que observar los coecientesde autocorrelaci ón (ACF) y los coecientes de autocorrelaci´on parcial (PACF) quedecaigan exponencialmente ( o que corten completamente después de algunos retardos).

    Identicar un promedio condicional del modelo sujeto a los datos. En este caso loscoecientes del ACF y PACF pueden ayudar. Para un proceso autoregresivo (AR), elACF decae gradualmente, mientras que PACF lo hace abruptamente luego de algunosretardos. Por otro lado para un proceso con media m´ ovil (MA), ACF desaparece despuésde algunos retardos mientras que PACF lo hace gradualmente. Si los dos tipos decoecientes decaen similarmente entonces se trata de un modelo ARMA.

    2

  • 8/16/2019 Intervalos de Prediccion

    4/30

    Facultad de Ciencias F ı́sicas y Matem áticas

    Departamento de Ingenier ı́a El éctrica

    EL7012 Control Inteligente de Sistemas

    Se especica el modelo y se estiman sus parámetros. Cuando se identican modelosno estacionarios mediante un toolbox, no es necesario diferenciar a mano la serie de

    tiempo, basta con crear un modelo ARIMA para prop´ ositos de predicci ón.Para comprobar que el modelo es adecuado, para ello es necesario que los residuosconstituyan un proceso aleatorio de ruido blanco con media cero y varianza constante.

    Finalmente un modelo ARIMA tiene la siguiente forma:

    1 − p

    i=1

    a iz − i 1 − z − 1d Y t = 1 +

    q

    i=1

    ciz − i et (3)

    donde z − 1

    es el operador retardo unitario, Y t es la señal de salida en el instante t, et esel error en el instante t que constituye un proceso aleatorio de ruido blanco con media ceroy varianza constante; d es el grado de diferenciación de la señal de salida, p es la cantidadde autoregresores considerados, y nalmente q congura el polinomio que multiplica el ruidoblanco.

    2.1.1. Estimaci´ on paramétrica para modelos lineales

    Si se tiene una serie de tiempo {d}N di=1 , un sistema lineal y = N ri=1 θixi y un funcional de

    costo cuadr ático:

    J = 12

    N d

    i=1(ŷ(t) − di)2 (4)

    en donde y = N ri=1 θixi , la estimaci ón óptima de par ámetros est á dada por:

    θ̂ = XX T − 1 X T Y (5)

    donde:

    X =x1(1) . . . xN r (1)

    ... . . . ...

    x1(N d) . . . xN r (nd)(6)

    Y = y(1) . . . y(N d) (7)

    3

  • 8/16/2019 Intervalos de Prediccion

    5/30

    Facultad de Ciencias F ı́sicas y Matem áticas

    Departamento de Ingenier ı́a El éctrica

    EL7012 Control Inteligente de Sistemas

    2.1.2. Determinací on de intervalos de conanza para sistemas lineales

    La construcci ón y entrenamiento de un sistema lineal puede considerarse como la apro-ximación de la media del proceso. Cuando se realiza predicci ón, no solamente es importanteestimar la media futura, sino también estimar los intervalos de conanza de predicci´ on delproceso para tener una idea de lo conable que resulta la estimaci´ on futura. Sea una basede datos de la forma {[x(1) , y(1) , [x(2) , y(2) ], . . . , [x(N ) , y(N )]} con la cual se entrena el modelolineal dado por µ̂y(x, θ), entonces el intervalo de conanza de predicci´on para un instante x0está dado por [2]:

    µ̂y(x, θ) ± t0.025[N − 2] s 1N + (x0 − x̄)2N n =1 (xn − x̄)2 + 1 (8)donde s es la desviación estándar de y(1) , . . . , y (N ) , x̄ es la media de x(1) , . . . , x (N ) y t0.025[N − 2]es el valor del dominio para una distribuci´on t-student con N-2 grados de libertad donde elárea bajo la curva sea 0.025.

    2.2. Denici´ on de intervalos de conanza difusosEl modelo de intervalos difusos es una metodoloǵıa para aproximaci´ on de sistemas no

    lineales con un set nito de mediciones de entrada y salidas. Se construye una banda deconanza la cual contiene gran parte de los datos medidos del sistema. Para el uso de estabanda de conanza se utiliza el estadı́stico de varianza del modelo respecto a los datos medidosdel sistema, considerando un porcentaje de contenci´ on de datos, dado por una distribuci´ ont − student .

    2.2.1. Modelos no-lineales difusos Takagi-Sugeno

    Takagi-Sugeno es una estrategia de identicaci´ on difusa más utilizada para establecer elcomportamiento de un sistema lineal o no lineal. Fue propuesto por Takagi y Sugeno en 1988.Su modelo consiste en un set de reglas y funciones de pertenencias que identican un modelode manera local y que luego permiten, al mezclar la salida de cada una de las reglas con unpeso asociado a una función de pertenencia, calcular la salida global del sistema. Su formatot́ıpico para un modelo no lineal es:

    Si y(k− 1) esta en Ar1 y ... y ... y(k− na − 1) esta en A rna − 1 entonces yr (k) = gr0+ gr1y(k−1) + gr2y(k − 2) + · · · + gn ar y(k − na )

    4

  • 8/16/2019 Intervalos de Prediccion

    6/30

    Facultad de Ciencias F ı́sicas y Matem áticas

    Departamento de Ingenier ı́a El éctrica

    EL7012 Control Inteligente de Sistemas

    Donde A ri es el set de regiones difusas para la variable i de la regla r , gri es el parámetrode consecuencia para la regla r e yr es la salida para la regla r. La salida global del sistema

    queda dada por la siguiente expresi´on:

    y(k) =N rr =1 wr yr

    N rr =1 wr

    (9)

    Donde N r es la cantidad de reglas y wr es el grado de activación de la regla r dado eneste trabajo por wr = µr1 · · · µri · · · µrna , donde µri es la función de pertenencia para la regi´onAri . Para simplicar la anotaci´on se utiliza la partici ón unitaria de dada por:

    β r (X ) = µr1(x1) · · · µri (xi) · · · µrna (xna )

    N r

    r =1 µr1(x1) · · · µ

    ri (xi) · · · µ

    rna (xna )

    (10)

    Donde x es el conjunto de variables de inteŕes del modelo. Usando esta denicion en laEcuación (9), es posible simplicar su expresion a la siguiente ecuaci ón:

    y =N r

    r =1

    ψirθ r (11)

    donde:ψir = β r (X i) · [1 xi1 xi2 . . . xin ] ; θr = [θr0 θ

    r1 θ

    r2 . . . θ

    rn ] (12)

    En este caso la salida esta denida a partir de una combinaci´ on lineal de las consecuencias θrde cada regla r y el set de variables con n + 1 elementos en su base tal y como se muestra enla Ecuaci ón (12). El modelo Takagi-Sugeno entregado en la Ecuaci´on (11) puede ser usadopara aproximar cualquier funci´on que vaya de un conjunto cerrado de reales de dimensi´on darbitraria a un espacio real unidimensional con un alto grado de precisi´ on.

    El proceso de identicaci ón de sistemas es una tarea bastante iterativa y necesita de porlo menos de los siguientes tres puntos:

    Identicar las variables base que se van a utilizar para identicar el comportamientode la planta, estas pueden ser tanto retrasos de la entrada como de la salida o algunacombinación de estas.

    Identicaci ón de las zonas donde se presenta un comportamiento particular del sistema

    y modelar dicha zona de manera difusa, caracteriz´ andolas con una funci ón de pertenen-cia denida. Con estas zonas es posible diseñar un set de reglas que permiten discernirla salida local del modelo.

    Calcular para cada regla, los par´ametros que caracterizaran el modelo local. Regular-mente este proceso se denomina como identicaci´on de las consecuencias.

    5

  • 8/16/2019 Intervalos de Prediccion

    7/30

    Facultad de Ciencias F ı́sicas y Matem áticas

    Departamento de Ingenier ı́a El éctrica

    EL7012 Control Inteligente de Sistemas

    2.2.2. Identicací on de los intervalos de conanza del modelo Takagi-Sugeno

    Se asume un set de mediciones dadas por la entradas X = [x(t)1 x(t)2 . . . x(t)N ] y salidasY = [y(t) y(t + 1) . . . y(t + N )]. Se dira que el sistema satisface la ecuaci ón no lineal dadapor:

    y(t + i) = g(xi) i = 1, . . . , N (13)

    Acorde al teorema de Stone-Weierstrass, para cualquier funci´ on continua g, existe unasistema difuso f y un > 0 que cumple con la Ecuación (14). Esta da a conocer la apro-ximación del sistema difuso a cualquier funci ón continua, siempre y cuando se considere unvalor de acorde al problema. En este caso este valor de entregara la banda de conanzadel proceso de estimaci ón del sistema.

    maxx i ∈ X |g(xi) − f (xi)| < ∀i (14)

    Tomando en consideraci´on la Ecuación (11) y deniendo el error ei que se genera entre elmodelo y la señal de salida real del sistema de la forma:

    ei = yi −N r

    r =1

    ψr (xi)θr (15)

    donde ei es un ruido blanco, de varianza igual a σ2(xi) dependiente de la entrada delmodelo. En este caso se trata de caracterizar dicha varianza, considerando algunos elementospreliminares. Se dene la matriz que recolecta todos los ψr de cada regla r para el set demediciones X = [x(t)1 x(t)2 . . . x(t)N ] como:

    Ψr = [ψ1r ψ2r . . . ψNr ]T (16)

    El análisis de la varianza del modelo Takagi-Sugeno se realizara usando los modelos localesque lo denen. Es por ello que en cada regla existir á un valor de σ2r que depender á del set dedatos de entrada. En este punto se necesita conocer ei , el cual muestra el comportamientodel error generado del modelo con la salida real del sistema en cada instante i de medición yel error medio generado por las salidas locales del modelo ēr . Según [4], un buen estimadorde cada varianza local esta dada por:

    σ̂2r =N i=1 β 2ir (ei − ēr )2

    N i=1 β

    2ir

    ; r = 1, . . . , N r (17)

    donde ē queda denido por:

    ēr =N i=1 β ir ei

    N i=1 β ir

    ; r = 1, . . . , N r (18)

    6

  • 8/16/2019 Intervalos de Prediccion

    8/30

    Facultad de Ciencias F ı́sicas y Matem áticas

    Departamento de Ingenier ı́a El éctrica

    EL7012 Control Inteligente de Sistemas

    La idea del intervalo de conanza de un modelo difuso es encontrar un funci´ on difusainferior f y una función difusa superior f tal que cumpla con:

    f (xi) ≤ g(xi) ≤ f (xi) ; ∀xi (19)

    Para construir dichas funciones, se realiza un ajuste en las salidas locales dadas por cadauna de las reglas que denen al modelo Takagi-Sugeno con tal de reproducir los intervalossuperior e inferior deseados en la Ecuaci ón (19). Según [4], los intervalos inferior y superiorpara cada uno de las salidas locales dado una entrada Xi esta dada por:

    f (X i)r = ψir θr − tα,M − n σ̂ 1 + ψT ir Ψr ΨT r

    − 1 ψir1/ 2

    (20)

    f (X i)r = ψir θr + tα,M − n σ̂ 1 + ψT

    ir Ψr ΨT

    r

    − 1

    ψir1/ 2

    (21)donde tα,M − n es el percentil de una distribuci´on t − student para 100(1 − 2α) porcentaje

    de conanza con M − n grados de libertad. La salida nal del modelo estar´a acotada por losintervalos de conanza:

    ylower =N r

    r =1

    f (X i)r (22)

    yupper =N r

    r =1

    f (X i)r (23)

    2.3. Denici´ on de redes neuronalesLas redes neuronales son un conjunto de funciones no lineales que poseen una arquitectura

    inspirada en las interconexiones de las redes neuronales a nivel biol´ ogico. Una neurona , esla unidad fundamental que puede ser descrita de la siguiente manera:

    y = f N

    i=1

    W iX i + b (24)

    donde, xi es la entrada i-ésima de la neurona , W i es el ponderador i-ésimo, b es el sesgoo bias, f es una funcíon no lineal pudiendo abarcar una gran variedad dependiendo de laaplicación e y es la salida.

    En la Figura 1 se aprecia la arquitectura b´ asica de una red neuronal, la cual se componede diferentes capas, y cada una de ellas de diferentes neuronas. La capa de entrada es aquellaque recibe las señales de entrada, en donde para obtener las se˜ nales y j las entradas xi se

    7

  • 8/16/2019 Intervalos de Prediccion

    9/30

    Facultad de Ciencias F ı́sicas y Matem áticas

    Departamento de Ingenier ı́a El éctrica

    EL7012 Control Inteligente de Sistemas

    deben ponderar por los diferentes pesos W ij sumar las respectivas contribuciones y aplicarla función no lineal correspondiente. El mismo proceso ocurre en la capa oculta en donde se

    reciben las señales u j para luego obtener las se ñales z k de la capa de salida. Por lo generalen la capa de salida solo act úa como un ponderador lineal de las entradas, de esta manera,una red neuronal con una capa de entrada, oculta y salida puede ser descrita como:

    z k =N 2

    j =1

    V jk f j N 1

    i=1

    W ij xi + b j (25)

    Figura 1: Arquitectura de una red neuronal t́ıpica.

    2.3.1. Entrenamiento de redes neuronales para predicci´ on

    Si se designa una red neuronal como una funci ón no lineal ŷ = g(x, θ) donde x es elvector de entrada y θ el vector de todos los par ámetros y la base de datos de entrenamientocomo el vector d. Cuando el enfoque es entrenar una red neuronal para realizar predicci´ on,necesariamente el vector de entrada x se transforma en regresores de la salida y, por lo que

    x = [y(t − 1), y(t − 2), . . . , y(t − r )] y se puede encontrar los pesos minimizando un funcionalde costo cuadr ático:

    J = 12

    N d

    l=1

    g(xl, θ) − yl2 (26)

    8

  • 8/16/2019 Intervalos de Prediccion

    10/30

    Facultad de Ciencias F ı́sicas y Matem áticas

    Departamento de Ingenier ı́a El éctrica

    EL7012 Control Inteligente de Sistemas

    donde N d es la cantidad de datos disponibles, x l es el vector de entrada l-ésimo evaluado enlos datos e yl es el target l-ésimo al cual la red neuronal debe tender. Encontrar el vector θ

    puede hacerse de manera iterativa mediante el algoritmo t́ıpico de Back Propagation :θt+1 = θt − γ ∇ θJ (27)

    en donde γ es el factor de aprendizaje, θt es el vector de parámetros en la iteraci´on t y ∇ θes el gradiente del funcional J con respecto al vector de par´ ametros. El c álculo del gradientepara V jk es:

    dJ dV jk

    =N d

    l=1

    g(xl, θt ) − yl dg(xl, θt )

    dV jk(28)

    =N d

    l=1

    g(xl, θt ) − yl f j N 1

    i=1

    W ij xli + b j (29)

    consecutivamente para W ij es:

    dJ dW ij

    =N d

    l=1

    g(xl, θt ) − yl dg(xl, θt )

    dW ij(30)

    =N d

    l=1

    g(xl, θt ) − yl V jkdf j (u j )

    du jdu j

    dW ij(31)

    =N d

    l=1

    g(xl, θt ) − yl V jkdf j (u j )

    du jxli (32)

    Una vez que se tiene el vector de par ámetros óptimo θ∗, luego para realizar predicci ón,de g(x(t), θ∗) solo basta introducir la condici´on inicial correspondiente x(t0) = x0 y luegoretroalimentar las salidas de una iteraci´ on como las entradas de la siguiente.

    2.3.2. Intervalos de predicci´ on para redes neuronales

    En la sección anterior, en términos estadı́sticos solo se est´ a haciendo una predicci ón de laesperanza de la serie de tiempo sin saber exactamente cu´ an conable es esta predicci ón. Enesta sección se introducen los conceptos para calcular los intervalos de conanza de predicci´ onpara redes neuronales. A modo de ejemplo, si y tiene una distribuci´on gaussiana con media

    9

  • 8/16/2019 Intervalos de Prediccion

    11/30

    Facultad de Ciencias F ı́sicas y Matem áticas

    Departamento de Ingenier ı́a El éctrica

    EL7012 Control Inteligente de Sistemas

    E (y|x) y una varianza Var( y|x), un intervalo de predicci´on con un 95 % de conanza estádado por:

    E (y|x) ± z 0.025 Var( y|x) (33)donde z 0.025 es el valor del soporte de una distribuci´on estándar donde el área bajo la curvaes 0.025. Este mismo principio puede ser utilizado para el c´alculo de intervalos de conanzapara redes neuronales. Para ello, consideraremos que una red neuronal ˆ µy = g1(x, θ) quese entrena bajo el funcional (26) puede aproximar E (y|x), por lo que si se desea aproximarVar( y|x), se genera otra red neuronal ˆσ2y = g2(x, θ) que aproxime ese estad́ıstico, por lo cualnecesariamente el funcional debe cambiarse. En este caso se introduce el siguiente [2]:

    J = 12

    N d

    l=1σ̂

    2y − µ̂y − y

    l 22

    (34)

    = 12

    N d

    l=1

    g2(xl, θ2) − g1(xl, θ1) − yl2 2 (35)

    De esta manera el intervalo de predicci´on del 95 % seŕıa:

    µ̂y ± z 0.025 σ̂2y (36)El cálculo de θ2 puede realizarse también mediante el algoritmo de gradiente descendente,

    considerando por ejemplo que el par ámetro θ1 ya fue efectivamente encontrado con un set deentrenamiento aparte.

    Otra metodologı́a que también puede ser aplicada, consiste en el uso de una red neuronalque tiene dos salidas; la primera aproxima la media y la segunda la varianza del procesomediante el uso de un solo funcional [2]:

    J = 12

    N d

    l=1

    µ̂y − yl2

    σ̂2y+ ln σ̂2y

    2

    (37)

    = 12

    N d

    l=1

    g1(xl, θ) − yl2

    g2(xl, θ) + ln g2(xl, θ)

    2

    (38)

    con lo cual el intervalo de conanza del 95 % se calcula como:

    µ̂y ± t0.025[v] V̂ar( µ̂y) + σ̂2 (39)10

  • 8/16/2019 Intervalos de Prediccion

    12/30

    Facultad de Ciencias F ı́sicas y Matem áticas

    Departamento de Ingenier ı́a El éctrica

    EL7012 Control Inteligente de Sistemas

    donde t0.025[v] es el punto del soporte de una distribuci´on t-student con v grados de libertaddonde al área bajo la curva es 0.025, V̂ar( µ̂y) es la varianza emṕırica de la salida de la red

    que aproxima la media, y σ̂2 es la varianza estimada del ruido.

    2.4. Medidas de desempe˜ no para cuanticar calidad de las predic-ciones

    Para poder analizar la calidad de los modelos y poder contrastar las predicciones adecua-damente con la data de validaci´on respectiva, existen diversas medidas de desempe˜ no paraello. Algunas de las medidas como RMSE, MAPE y MAE apuntan a comparar la predicci´ ondel modelo versus la data de validaci´on, y existen otras medidas como PICP, NMPIW yCWC para evaluar la calidad de los intervalos de conanza [3]. A continuaci´ on se enuncia las

    medidas que se aplican en el an álisis:

    2.4.1. Root Mean Squared Error (RMSE)

    Se dene como:

    RMSE = 1nn

    i=1

    (yi − ŷi)2 (40)

    en donde n es la cantidad de datos, yi es la data de validaci ón e ŷi es la respectiva predicci ón.

    2.4.2. Mean Absolute Percentage Error (MAPE)

    Se dene como:

    MAPE = 1n

    n

    i=1

    yi − ŷiyi

    (41)

    en donde n es la cantidad de datos, yi es la data de validaci ón e ŷi es la respectiva predicci ón.

    2.4.3. Mean Absolute Error (MAE)

    Se dene como:

    MAE = 1n

    n

    i=1

    |yi − ŷi | (42)

    en donde n es la cantidad de datos, yi es la data de validaci ón e ŷi es la respectiva predicci ón.

    11

  • 8/16/2019 Intervalos de Prediccion

    13/30

    Facultad de Ciencias F ı́sicas y Matem áticas

    Departamento de Ingenier ı́a El éctrica

    EL7012 Control Inteligente de Sistemas

    2.4.4. Prediction Interval Coverage Probability (PICP)

    Se dene como:

    PICP = 1n

    n

    i=1

    ci (43)

    donde ci se dene como:

    ci = 1, ti ∈ [Li , U i]0, ti /∈ [Li , U i]

    (44)

    donde Li y U i son los intervalos de conanza de predicci ón superiores e inferiores respectiva-

    mente.

    2.4.5. Normalizing Mean Prediction Interval Width (NMPIW)

    Se dene como:

    NMPIW = 1R · n

    n

    i=1

    (U i − Li) (45)

    U i y Li son los intervalos de predicci ón superiores e inferiores respectivamente, R es el máximorango entre los intervalos, y n es la cantidad de datos de validaci´on ocupados.

    2.4.6. Coverage Width-based Criterion (CWC)

    Se dene como:

    CWC = NMPIW 1 + γe − η(PICP − µ) (46)

    donde γ :

    γ = 1, PICP ≥ µ0, PICP < µ (47)

    Esta medida es un criterio h́ıbrido que recoge los otros dos criterios anteriores ponderados.En donde los valores de η y µ son seteados como 0.5 y 0.9.

    12

  • 8/16/2019 Intervalos de Prediccion

    14/30

    Facultad de Ciencias F ı́sicas y Matem áticas

    Departamento de Ingenier ı́a El éctrica

    EL7012 Control Inteligente de Sistemas

    3. Desarrollo

    3.1. Preprocesamiento de datos y construcci´ on de Modelos linealesEn primer lugar la base de datos a utilizar corresponde a dos series de tiempo corres-

    pondiente al consumo en potencia que se mide cada 15[min]. El primer set de datos es deentrenamiento y tiene un largo de 14112 datos, mientras que el segundo set de datos tieneun largo de 4500. En este caso el primer set se ocupa para poder entrenar los diferentesmodelos, y con el segundo se comprueba el desempeño en términos de la predicci´on. Comose especica en el primer paso de la metodoloǵıa de Box Jenkins, se calculan las se ñales deautocorrelaci ón y autocorrelaci ón parcial. Como se ve en la Figura 2 como es de esperarse, elconsumo es periódico en el tiempo, mostrando peaks en ACF y PACF de correlaciones cada96 iteraciones, es decir, el consumo tiene una periodicidad diaria.

    0 20 40 60 80 100 120 140 160 180 200−0.5

    0

    0.5

    1

    Lag

    S a m p

    l e A u

    t o c o r r e

    l a t i o n

    Sample Autocorrelation Function

    0 20 40 60 80 100 120 140 160 180 200−0.5

    0

    0.5

    1

    Lag

    S a m p

    l e P a r t

    i a l A u

    t o c o r r e

    l a t i o n s

    Sample Partial Autocorrelation Function

    Figura 2: ACF y PACF del set de datos de entrenamiento para 209 retardos.

    Siguiendo la metodoloǵıa, se debe convertir el consumo a una se˜nal estacionaria, paraeso se diferencia en repetidas ocasiones encontr´andose que con solo una diferenciaci ón essuciente para hacer que los coecientes de ACF y PACF decaigan exponencialmente comose aprecia en la Figura 3.

    13

  • 8/16/2019 Intervalos de Prediccion

    15/30

    Facultad de Ciencias F ı́sicas y Matem áticas

    Departamento de Ingenier ı́a El éctrica

    EL7012 Control Inteligente de Sistemas

    0 20 40 60 80 100 120 140 160 180 200−0.5

    0

    0.5

    1

    Lag

    S a m p

    l e A u

    t o c o r r e

    l a t i o n

    Sample Autocorrelation Function

    0 20 40 60 80 100 120 140 160 180 200−0.5

    0

    0.5

    1

    Lag

    S a m p

    l e P a r t

    i a l A u t o c o r r e

    l a t i o n s

    Sample Partial Autocorrelation Function

    Figura 3: ACF y PACF del set de datos de entrenamiento diferenciados una vez para 209retardos.

    En este caso se considera que tanto ACF y PACF decaen similarmente, pero mostrandorelevancia en el componente 96, por lo cual se construye un modelo con 96 autoregresoresy una diferenciaci ón. Asimismo, se considera realizando diferentes pruebas, se encuentraque la cantidad de regresores adecuados para el ruido es de 48. De esta manera el modelogenerado es un ARIMA con los siguientes par ámetros: d = 1 ( por la diferenciación de la señaloriginal), p = 96 por las correlaciones de los autoregresores y jugando con los valores de q , seencuentra que q = 48 es adecuado para que et sea lo más cercano a ruido blanco gaussiano. Elsupuesto anterior se valida con la Figura 4, en donde los residuos est´ an centrados en cero, laautocorrelaci ón y la autocorrelaci ón parcial indican que los residuos est án descorrelacionadosy el gráco de Sample Data versus Standard Normal reeja una curva mayoritariamentelineal en contraste con la roja punteada.

    De esta manera como se aprecia en la Figura 5 se genera una predicci´ on de la formaŷ(i + t|t) con i = 1 : 196 (dos d́ıas) y sus respectivos intervalos de conanza del 95 %comparado con los datos de validaci ón. En términos cualitativos, la se˜ nal de predicci ón logracaracterizar adecuadamente la data de validaci´ on, la cual no escapa del intervalo de conanza.Este resultado en particular indica que el modelo lineal si bien no logra predecir en gran

    14

  • 8/16/2019 Intervalos de Prediccion

    16/30

    Facultad de Ciencias F ı́sicas y Matem áticas

    Departamento de Ingenier ı́a El éctrica

    EL7012 Control Inteligente de Sistemas

    0 5000 10000 15000−10

    −5

    0

    5

    10

    15Standardized Residuals

    −4 −2 0 2 4−10

    −5

    0

    5

    10

    15

    Standard Normal Quantiles

    Q u a n

    t i l e s o

    f I n p u

    t S a m p l e

    QQ Plot of Sample Data versus Standard Normal

    0 5 10 15 20−0.5

    0

    0.5

    1

    Lag

    S a m p

    l e A u

    t o c o r r e

    l a t i o n

    Sample Autocorrelation Function

    0 5 10 15 20−0.5

    0

    0.5

    1

    Lag

    S

    a m p

    l e P a r t

    i a l A u

    t o c o r r e

    l a t i o n s

    Sample Partial Autocorrelation Function

    Figura 4: Gr ácos de análisis que validan el modelo ARIMA escogido.

    detalle el consumo en una resoluci ón menor que 1 hora, śı logra caracterizar adecuadamentelos perles para resoluciones mayores que 2 horas.

    Hasta ahora solo se ha hecho una predicci´on del tipo ŷ(i + t|t) con i = 1 : 196 para un tjo, sin embargo como en todo sistema donde la informaci ón va llegando secuencialmente, esde vital importancia ir calculando las predicciones en cada iteraci´ on. De esta manera surgenlas predicciones del estilo ŷ(i0 + t |t) con i0 jo para diferentes t. En este caso en particular seefectúan pruebas para t = 1 : 96 (duraci ón de un dı́a) de la data de validaci´ on, para diferentespasos de predicción contemplados por i0 = {1, 4, 96, 192} que corresponden a predicci ón a 15minutos, 1 hora, 1 d́ıa y 2 d́ıas respectivamente. Los resultados se aprecian en la Figura 6,donde en términos cualitativos se aprecia como es de esperarse un buen desempe˜ no en las

    15

  • 8/16/2019 Intervalos de Prediccion

    17/30

    Facultad de Ciencias F ı́sicas y Matem áticas

    Departamento de Ingenier ı́a El éctrica

    EL7012 Control Inteligente de Sistemas

    0 20 40 60 80 100 120 140 160 180 2002

    4

    6

    8

    10

    12

    14

    16

    18

    P o t e n c i a c o n s u m

    i d a

    [ W ]

    Tiempo [15[m]]

    PredicciónData validaciónIntervalos de confianza de 95%

    Figura 5: Modelo Lineal: Comparaci´on entre predicci ón Ŷ (i + t|t) para i = 1, . . . , 192 conintervalos de conanza del 95 % y data de validaci´on para los primeros 192 datos.

    predicciones de 1 y 4 pasos debido a que la predicción es acorde a los datos de validaci ón,y éstos a su vez est án dentro de los intervalos de predicci´on estimados por el modelo. Adiferencia de los casos anteriores, no se obtiene lo mismo para la predicci´on a 96 y 192pasos en donde la predicci ón con sus intervalos de conanza no calzan en todo el intervalocon la data de predicci ón. Esto último puede deberse a la incertidumbre acumulada quesignica hacer una predicci ón a largo plazo. De todas maneras en la secci ón de comparaci óny discusiones se analizan los resultados cuantitativamente en tablas con distintas medidas dedesempeño.

    16

  • 8/16/2019 Intervalos de Prediccion

    18/30

    Facultad de Ciencias F ı́sicas y Matem áticas

    Departamento de Ingenier ı́a El éctrica

    EL7012 Control Inteligente de Sistemas

    0 10 20 30 40 50 60 70 80 90 1000

    2

    4

    6

    8

    10

    12

    14

    16

    18

    20

    P o t e n c i a c o n s u m

    i d a

    [ W ]

    Tiempo [15[m]]

    PredicciónData validaciónIntervalos de confianza de 95%

    (a) Predicci´on a un paso ŷ (1+ t |t ) para t = 1 : 96de datos de validaci´on.

    0 10 20 30 40 50 60 70 80 90 100−5

    0

    5

    10

    15

    20

    25

    P o t e n c i a c o n s u m

    i d a

    [ W ]

    Tiempo [15[m]]

    PredicciónData validaciónIntervalos de confianza de 95%

    (b) Predicci´on a 4 pasos ŷ (4 + t | t ) para t = 1 : 96de datos de validaci´on.

    0 10 20 30 40 50 60 70 80 90 1002

    4

    6

    8

    10

    12

    14

    16

    18

    20

    22

    P o t e n c i a c o n s u m

    i d a

    [ W ]

    Tiempo [15[m]]

    PredicciónData validaciónIntervalos de confianza de 95%

    (c) Predicci´on a 96 pasos ŷ (96 + t | t ) para t = 1 :96 de datos de validaci´on.

    0 10 20 30 40 50 60 70 80 90 1000

    5

    10

    15

    20

    25

    P o t e n c i a c o n s u m

    i d a

    [ W ]

    Tiempo [15[m]]

    PredicciónData validaciónIntervalos de confianza de 95%

    (d) Predicci´on a 192 pasos ŷ (192 + t |t ) para t =1 : 96 de datos de validaci ón.

    Figura 6: Modelo Lineal: Comparaci ón entre predicci ón Ŷ (i0 + t|t), i0 = {1, 4, 96, 192}, t =1 : 96 e intervalos de conanza del 95 % con datos de validación.

    17

  • 8/16/2019 Intervalos de Prediccion

    19/30

    Facultad de Ciencias F ı́sicas y Matem áticas

    Departamento de Ingenier ı́a El éctrica

    EL7012 Control Inteligente de Sistemas

    3.2. Modelos difusosLa estructura del modelo difuso cumple con diferentes etapas de optimizaci´ on, con tal

    de satisfacer de mejor manera el comportamiento general del sistema. Se da inicio con laseparaci ón de los datos para el proceso de entrenamiento, prueba y validaci´ on. Para ello seescoge una base que contiene las se ñales de salida del sistema hasta con 5 retardos. Estevalor fue escogido como cota máxima, dado que la iteraci´on con mas cantidad de retardosse vuelve muy costoso para el procesamiento computacional, volvíendolo casi inmanejablepara el procesador y memoria f́ısica disponible para el alumno. No se realiza un an´ alisis desensibilidad de las variables del modelo dado a la reducida cantidad de retardos, los cualesconsideran el comportamiento del sistema dentro de 1 hora y 15 minutos.

    Con los datos de entrenamiento se generan las premisas y consecuencias del modelo paracada una de las reglas. Se hace un estudio de la cantidad ´optima de cl úster usando los datos de

    prueba. En este caso se tiene que tres cl´uster son mas que suciente para describir de buenamanera el comportamiento de la planta, dado que es justo el punto rodilla de la Figura 7.Dada esta conguraci´on se tienen 243 reglas diferentes. Cada una de ellas con sus respectivaspremisas generadas a partir del set de entrenamiento, utilizando técnicas de cl´ uster difuso yajustando funciones Gaussianas a cada una de ellas.

    Figura 7: Desempe ño del modelo con distintos n úmero de clúster, utilizando los datos deprueba

    Los parámetros de las consecuencias se calculan con la se ñal de salida real del sistema y

    18

  • 8/16/2019 Intervalos de Prediccion

    20/30

  • 8/16/2019 Intervalos de Prediccion

    21/30

    Facultad de Ciencias F ı́sicas y Matem áticas

    Departamento de Ingenier ı́a El éctrica

    EL7012 Control Inteligente de Sistemas

    la señal de salida del conjunto de validaci´on, la predicción del modelo Takagi-Sugeno y losintervalos de conanza del modelo. En este caso se puede observar que tanto estimaciones de

    1 y 4 pasos siguen el la señal de salida del conjunto de validaci´on. Además se puede observarque los intervalos de conanza contienen gran parte de los datos de validaci´ on, cumpliendocon su rol de diseño. Sin embargo, en la predicci ón a 96 y 192 pasos la señal estimada delmodelo es constante. Si bien el proceso de estimación es el mismo para todos los casos, unaventana de predicci´on mayor a la entregada por 3 horas (12 pasos) har´a que la señal desalida estimada tienda a un valor jo constante. Esto puede ser debido a la condici´ on inicialentregada para el proceso de estimaci´on, el cual empieza en una zona de bajada. Mientrasno se reciba una señal con algún peak de subida como entrada, el modelo no entregara unaseñal de salida creciente, si no m ás bien mantendr´a su valor a la cota mı́nima de potenciaentregada en los datos de validaci´on.

    20

  • 8/16/2019 Intervalos de Prediccion

    22/30

    Facultad de Ciencias F ı́sicas y Matem áticas

    Departamento de Ingenier ı́a El éctrica

    EL7012 Control Inteligente de Sistemas

    (a) Predicci´on a un paso ŷ (1+ t |t ) para t = 1 : 96de datos de validaci´on.

    (b) Predicci´on a 4 pasos ŷ (4 + t | t ) para t = 1 : 96de datos de validaci´on.

    (c) Predicci´on a 96 pasos ŷ (96 + t | t ) para t = 1 :96 de datos de validaci´on.

    (d) Predicci´on a 192 pasos ŷ (192 + t |t ) para t =1 : 96 de datos de validaci ón.

    Figura 9: Modelo Difuso: Comparacíon entre predicci ón Ŷ (i0 + t |t), i0 = {1, 4, 96, 192},

    t = 1 : 96 e intervalos de conanza del 90 % con datos de validación usando modelo Takagi-Sugeno.

    21

  • 8/16/2019 Intervalos de Prediccion

    23/30

    Facultad de Ciencias F ı́sicas y Matem áticas

    Departamento de Ingenier ı́a El éctrica

    EL7012 Control Inteligente de Sistemas

    3.3. Modelos neuronalesDebido a que en el análisis de autocorrelaci ón del set de datos de entrenamiento arroja

    periodicidades cada 96 iteraciones, necesariamente la red neuronal se construye con esa can-tidad de regresores consecutivos. En este caso no hay problema en esa cantidad de regresoresdebido a que la cantidad de datos del set para entrenar supera los 10000 datos. La arqui-tectura de la red neuronal consiste en una capa de entrada, otra oculta con 10 neuronas yuna capa de salida con una neurona. La funci´on no lineal de la capa oculta es la tangentehiperb ólica. Esta base de datos de entrenamiento se divide en tres subconjuntos, el primerocon un 70 % del total es para entrenar los pesos, el 15 % siguiente para realizar validacionescruzadas y el último 15 % para testear el error de generalizací on de la red neuronal. Unavez entrenada la red denominada ˆuy(w, x) que es la que aproxima la media del proceso, seentrena en segundo lugar con el mismo procedimiento y arquitectura la segunda red neuronal

    σ̂2y(w, x) que aproxima la varianza de la estimaci´on, por lo que en este caso el funcional decosto es el de la ecuación (35), donde se minimiza el error cuadr ático medio de la varianza

    del proceso. Con la segunda red entrenada se procede a construir el intervalo de predicci´ onde acuerdo a la ecuaci ón (33). De esta manera como se ve en la Figura 10 se construye lapredicción Ŷ (i + t|t) en donde i = 1 : 192 representando al predicci´on de dos d́ıas, para un tque demarca el inicio de los datos de validaci ón.

    La Figura 10 solo devela el comportamiento de la predicci´on para un t jo, sin embargo elverdadero objetivo es calcular predicciones a diferentes pasos en cada iteraci´ on del proceso,es decir, si se desea realizar una predicci ón a i0 pasos, entonces se debe obtener la curvaŷ(i0 + t |t) para un conjunto de t. En este caso se calcula para t = 1 : 96 (un dı́a), laspredicciones i0 = {1, 4, 96, 192} hacia adelante correspondiendo a 15 minutos, una hora, und́ıa y dos d́ıas en el futuro respectivamente. Los resultados se pueden apreciar en la Figura 11.

    22

  • 8/16/2019 Intervalos de Prediccion

    24/30

    Facultad de Ciencias F ı́sicas y Matem áticas

    Departamento de Ingenier ı́a El éctrica

    EL7012 Control Inteligente de Sistemas

    0 20 40 60 80 100 120 140 160 1802

    4

    6

    8

    10

    12

    14

    16

    18

    20

    P o t e n c i a c o n s u m

    i d a

    [ W ]

    Tiempo [15[m]]

    PredicciónData validaciónIntervalos de confianza de 95%

    Figura 10: Modelo Neuronal: Comparaci´on entre predicci ón Ŷ (i + t |t) para i = 1, . . . , 192 conintervalos de conanza del 95 % y data de validaci´on para los primeros 192 datos.

    23

  • 8/16/2019 Intervalos de Prediccion

    25/30

    Facultad de Ciencias F ı́sicas y Matem áticas

    Departamento de Ingenier ı́a El éctrica

    EL7012 Control Inteligente de Sistemas

    0 10 20 30 40 50 60 70 80 90 1002

    4

    6

    8

    10

    12

    14

    16

    18

    20

    22

    P o t e n c i a c o n s u m

    i d a

    [ W ]

    Tiempo [15[m]]

    PredicciónData validaciónIntervalos de confianza de 95%

    (a) Predicci´on a un paso ŷ (1+ t |t ) para t = 1 : 96de datos de validaci´on.

    0 10 20 30 40 50 60 70 80 90 1004

    6

    8

    10

    12

    14

    16

    18

    20

    22

    P o t e n c i a c o n s u m

    i d a

    [ W ]

    Tiempo [15[m]]

    PredicciónData validaciónIntervalos de confianza de 95%

    (b) Predicci´on a 4 pasos ŷ (4 + t | t ) para t = 1 : 96de datos de validaci´on.

    0 10 20 30 40 50 60 70 80 90 1004

    6

    8

    10

    12

    14

    16

    18

    20

    22

    P o t e n c i a c o n s u m

    i d a

    [ W ]

    Tiempo [15[m]]

    PredicciónData validaciónIntervalos de confianza de 95%

    (c) Predicci´on a 96 pasos ŷ (96 + t | t ) para t = 1 :96 de datos de validaci´on.

    0 10 20 30 40 50 60 70 80 90 1005

    10

    15

    20

    25

    30

    P o t e n c i a c o n s u m

    i d a

    [ W ]

    Tiempo [15[m]]

    PredicciónData validaciónIntervalos de confianza de 95%

    (d) Predicci´on a 192 pasos ŷ (192 + t |t ) para t =1 : 96 de datos de validaci ón.

    Figura 11: Modelo Neuronal: Comparaci´on entre predicci ón Ŷ (i0 + t|t), i0 = {1, 4, 96, 192},t = 1 : 96 e intervalos de conanza del 95 % con datos de validación.

    24

  • 8/16/2019 Intervalos de Prediccion

    26/30

    Facultad de Ciencias F ı́sicas y Matem áticas

    Departamento de Ingenier ı́a El éctrica

    EL7012 Control Inteligente de Sistemas

    4. Comparaci´ on y discusiones

    En esta secci ón se realiza la comparaci ón de los distintos modelos de acuerdo a la calidadde su predicci ón. En primer lugar se analizan las predicciones de la forma ŷ(i + t |t) coni = 1, . . . , 192 con las medidas de desempeño denidas en la Sección de Marco Te órico.

    Según la informaci ón entregada por el Cuadro 1 se puede denotar el orden de desempe˜ node los modelos, siendo el modelo lineal el con mejor desempeño tanto para las medidasasociadas al error como a los intervalos de conanza generados y la iclusion de los datosde validación en ellos. En este caso se denota el potencial que tiene este modelo para lapredicción a i pasos, teniendo en consideraci ón una sola condición inicial, entregando erroresRMSE bastante cercanos a la unidad, pero con tendencia a bajar como lo indica el MAPEy MAE. Para el caso de los intervalos de conanza el modelo permite capturar casi el 99 %de los datos de validaci ón, tal y como lo muestra en el factor de PICP, pero dado el valorentregado por la medida NMPIW, el ancho del intervalo de conanza permanece bastanteconstante, teniendo tan solo un 10 % de variaci´ on dentro del proceso de estimaci ón.

    Otro modelo de gran desempe ño para este tipo de predicci´on es la red neuronal. Lasmedidas de error asociadas a este modelo indican un buen seguimiento entre la se˜ nal devalidaci ón y la salida del modelo, dando un error RMSE cercano a la unidad y valores deMAPE y MAE cercanos a 0. Comparado con el modelo lineal, el modelo neuronal tiene unmenor desempe ño al momento de generar los intervalos de conanza. El PICP indica que el91 % de los datos de validación están contenidos en el intervalo de conanza, menor que el99 % obtenido en el caso lineal. Sin embargo, existe un mejor ajuste de las curvas superior einferior que denen el intervalo de conanza. Es de esperar que las curvas contengan la mayorcantidad de datos entre ellas, pero que sean lo sucientemente angostas con tal de obteneruna estimaci ón adecuada. Todo esto debido a que el valor que toma la medida NMPIW,indica que el 60 % de las veces el proceso sufre de alguna disminución del ancho del intervalode conanza.

    Por otra parte el modelo difuso es aquel que obtiene el peor desempe˜no, tomando valoresde error RMSE por sobre la unidad, denotando que la estimaci´ on del modelo no sigue a losdatos del set de validaci ón. Los intervalos de conanza corren con la misma suerte, entregandotan solo un 64 % de los datos de validacíon contenidos en el intervalo de conanza.

    Como se aprecia en el Cuadro 2, se realizan las respectivas comparaciones de los tresmodelos para las diferentes tiempos de predicci´on para las medidas de desempe ño descritasanteriormente. Las medidas RMSE, MAPE y MAE nos entregan b´ asicamente cu ál es la

    calidad de la predicci ón con respecto a los datos de validaci ón en términos de la media.Como se puede vericar, en todos los modelos se tiene un desempe˜no similar y mejor (RMSE,MAPE y MAE) para las predicciones a 1 y 4 pasos con respecto a 96 y 192 pasos. Esto se debeprincipalmente a que los funcionales utilizados para el entrenamiento de cada estructura solominimiza el error de predicci ón de un paso, de ah́ı que para predicciones largas se tenga peores

    25

  • 8/16/2019 Intervalos de Prediccion

    27/30

    Facultad de Ciencias F ı́sicas y Matem áticas

    Departamento de Ingenier ı́a El éctrica

    EL7012 Control Inteligente de Sistemas

    Modelo RMSE MAPE MAE PICP NMPIW CWCLineal 1.2477 0.1029 0.9042 0.9896 0.8974 0.8974

    Difuso 4.3847 0.2339 2.9111 0.6458 0.8765 1.8717Neuronal 1.4361 0.1451 1.0319 0.9115 0.6054 0.6054

    Cuadro 1: Comparaci´on cuantitativa entre modelos lineales, difusos y neuronales para pre-dicción de la forma ŷ(i + t|t) con i = 1, . . . , 192 para t jo como instante inicial de la datade validación.

    resultados aproximando la media. Ahora bien, analizando por modelo y mirando las medidasde desempeño RMSE, MAPE y MA, el modelo lineal posee mejores desempeños que los demásmodelos para predicciones de peque ños horizontes ( 1 y 4 ), esto porque predicciones de cortoalcance no requiere de aprendizajes no lineales complejos como lo aprenden los sistemasdifusos y neuronales. Es por esto que analizando las predicciones de m´as largo plazo, almenos el modelo neuronal presenta mejores desempe˜nos que el lineal, debido a que la redes capaz de aprender las frecuencias claves del consumo de potencia para hacer correctaspredicciones.

    Además de los análisis para medir la calidad de aproximaci´on de la media, tambiénse hace necesario el análisis de los intervalos de conanza de predicci ón del modelo. Losintervalos de conanza son herramientas ´utiles para analizar cu´an conable es la media quese está prediciendo, y para eso existen las métricas adhoc como: PICP, NMPIW y CWC;en donde PICP mide la proporci´on de puntos promedio de la data de validaci´on que caedentro de los intervalos de conanza ( por lo cual entre m´ as cercana a uno es mejor) ,

    NMPIW mide el promedio del ancho del intervalo de conanza normalizado ( por lo cualmientras m ás cercano a cero es mejor) y por último el CWC es aquel que se basa en la dosmedidas anteriores haciendo un trade-off entre ellas. El trade-off consiste en tratar de obtenerel intervalo de conanza de menor ancho posible cubriendo la mayor cantidad de datos devalidaci ón. De esta manera, mirando las métricas PICP, NMPIW y CWC en el Cuadro 2,los mejores desempeños se obtienen para horizontes peque˜nos de predicción contempladospor 1 y 4. Esto nuevamente porque los funcionales utilizados son adhoc para este tipo depredicciones. Ahora, para horizontes de predicci´ on más grandes, claramente los intervalosde conanza se vuelven más imprecisos ( NMPIW m ás grandes) y que no necesariamentetienen abarcan los datos de validaci´on ( reejados en PICP m´as pequeños), esto debido aque en horizontes de tiempos m ás grandes las incertidumbres se van acumulando en cadaretroalimentaci´on de las estructuras. Finalmente, analizando por modelos, para intervalospequeños de predicción, los intervalos de conanza de cada uno de los modelos no presentamayores diferencias, sin embargo para grandes horizontes el modelo neuronal tiene intervalosmenos anchos que los difusos, pero no son precisos a la hora de cubrir la data de validaci´on.También cabe mencionar que los modelos difusos tienden a saturar su predicci´ on a grandes

    26

  • 8/16/2019 Intervalos de Prediccion

    28/30

    Facultad de Ciencias F ı́sicas y Matem áticas

    Departamento de Ingenier ı́a El éctrica

    EL7012 Control Inteligente de Sistemas

    horizontes, lo que puede deberse b ásicamente a que los modelos de las consecuencias no sonsucientes para caracterizar los perles de consumo.

    Modelo Prediccí on RMSE MAPE MAE PICP NMPIW CWC

    Lineal

    1 paso 1.7495 0.13667 1.2170 0.9167 1 14 pasos 2.6485 0.2102 1.9435 0.7813 1 2.061296 pasos 3.8642 0.2436 2.8438 0.6979 1 2.1063192 pasos 4.8683 0.27827 3.5473 0.6667 1 2.1237

    Difuso

    1 paso 1.8358 0.1078 1.2292 0.9479 0.4885 0.48854 pasos 2.7116 0.1488 1.7571 0.9479 0.4209 0.420996 pasos 5.0537 0.4076 4.0217 0.5417 0.9928 2.1804192 pasos 4.5151 0.2752 3.3298 0.6979 0.9889 2.0830

    Neuronal

    1 paso 2.2433 0.1490 1.5913 0.5652 0.4132 0.90174 pasos 3.0171 0.1940 2.1616 0.4565 0.4095 0.920696 pasos 3.6122 0.2072 2.5725 0.3913 0.4218 0.9657192 pasos 2.5755 0.1732 1.8854 0.2935 0.5958 1.4027

    Cuadro 2: Comparaci´on cuantitativa entre modelos lineales, difusos y neuronales para pre-dicción de la forma ŷ(i0 + t |t) con t = 1, . . . , 96 de la data de validaci ón e i0 = {1, 4, 96, 192}pasos de predicción.

    27

  • 8/16/2019 Intervalos de Prediccion

    29/30

    Facultad de Ciencias F ı́sicas y Matem áticas

    Departamento de Ingenier ı́a El éctrica

    EL7012 Control Inteligente de Sistemas

    5. Conclusiones

    Como se ha estudiado en este trabajo, la conabilidad de los modelos no solamente est´ adado por la capacidad predecir adecuadamente la media para un horizonte determinado, sinoel poder adicionar los intervalos de conanza de predicci´on correspondientes al an´alisis. Enesta experiencia se ha trabajado con series de tiempos reales, y se han generado distintosmodelos de predicción incluyendo modelos lineales, difusos y neuronales. Cada uno de estosmodelos presentan ventajas y desventajas dependiendo del horizonte de predicci´ on al cualse esté trabajando, en donde se ha encontrado que modelo lineales predicen de una maneramás conable que los modelos difusos y neuronales para horizontes peque˜nos, mientras quelos modelos neuronales destacan para predicciones de m´as largo plazo. Cabe mencionar quela data utilizada teńıa periodicidades importantes ( cada 96 pasos), las cuales fueron apren-didas por todos los modelos utilizando la cantidad adecuada de regresores en las entradas.Finalmente es importante mencionar que los resultados a largo plazo pueden ser mejoradosutilizando funcionales que con predicciones a m´as de un paso.

    28

  • 8/16/2019 Intervalos de Prediccion

    30/30

    Facultad de Ciencias F ı́sicas y Matem áticas

    Departamento de Ingenier ı́a El éctrica

    EL7012 Control Inteligente de Sistemas

    Referencias

    [1] George EP Box, Gwilym M Jenkins, and Gregory C Reinsel. Time series analysis: fore-casting and control , volume 734. John Wiley & Sons, 2011.

    [2] Richard Dybowski and S Roberts. Condence intervals and prediction intervals for feed-forward neural networks. Clinical Applications of Articial Neural Networks , pages 298–326, 2001.

    [3] Abbas Khosravi, Saeid Nahavandi, Doug Creighton, and Amir F Atiya. Comprehensivereview of neural network-based prediction intervals and new advances. Neural Networks,IEEE Transactions on , 22(9):1341–1356, 2011.

    [4] I. Škrjanc. Fuzzy condence interval for ph titration curve. Appl. Math. Model , pages4083—-4090, 2011.

    29