bermejo. metodos estadisticos en series temporales

Upload: nestor-zschamueelle

Post on 02-Jun-2018

222 views

Category:

Documents


0 download

TRANSCRIPT

  • 8/10/2019 Bermejo. Metodos Estadisticos en Series Temporales

    1/159

    UNIVERSIDAD CARLOS III DE MADRID

    TESIS DOCTORAL

    Mtodos estadsticos en series temporalesno lineales, con aplicacin a la prediccin de

    energa elica

    Autor:

    Miguel ngel Bermejo

    Directores:

    Daniel Pea e Ismael Snchez

    DEPARTAMENTO DE ESTADSTICA

    Legans, Junio 2011

  • 8/10/2019 Bermejo. Metodos Estadisticos en Series Temporales

    2/159

  • 8/10/2019 Bermejo. Metodos Estadisticos en Series Temporales

    3/159

    a mis padres y hermana

  • 8/10/2019 Bermejo. Metodos Estadisticos en Series Temporales

    4/159

  • 8/10/2019 Bermejo. Metodos Estadisticos en Series Temporales

    5/159

    Agradecimientos

    Durante el inicio de mi vida acadmica no fui un alumno especialmente aplicado. Por

    ello, mi primer agradecimiento ha de ser para aquellos profesores que durante esos aos

    creyeron en mi a pesar de mi falta de atencin y de esfuerzo y me animaron y ayudaron

    para continuar. Poco a poco entre todos lograron que fuera convirtindome en mejor

    estudiante.

    Me gustaria agradecer especialmente su ayuda a mis directores, Daniel Pea e Is-

    mael Snchez. La primera vez que se me ocurri la idea de realizar un doctorado y de

    dedicarme a la investigacin fue durante el curso de series temporales que Daniel im-

    parta en la licenciatura de Estadstica, por lo que a l le debo el estar hoy aqu. Adems

    gracias a su sugerencia se incorpor como director Ismael que durante estos aos ha

    sido una gran ayuda y un gran apoyo. En estos cuatro aos trabajando junto a ellos he

    aprendido mucho como estudiante y como persona.

    Tambin quiero agradecer al profesor James W. Taylor y a su entonces estudiante

    Jooyoung Jeon su gran acogida y las diferentes charlas que me ayudaron a progresar en

    mis inicios en la tesis durante mi estancia en la Universidad de Oxford. Asimismo me

    gustara agradecer a los miembros del proyecto Safewind que con sus comentarios en

    las diferentes reuniones del proyecto han ayudado a la mejora de este trabajo.

    Llevo cursando titulaciones del departamento de Estadstica muchos aos: la diplo-

    matura, la licenciatura, el mster y el doctorado, por lo que creo que puedo decir que

    he aprendido algo de todos los profesores del departamento. Por ello, siempre le estar

    muy agradecido a un departamento al que entr, sin saber muy bien que era eso de Es-

    tadstica que haba elegido tras la selectividad y salgo tras completar un ciclo acadmico

    inimaginable para m el da que asist a clase por primera vez. Dentro de la gente que

    he podido conocer en el departamento me gustara agradecer especialmente su apoyo y

    amistad (y los partidos de squash) a mis compaeros de doctorado que al fin y al cabo

    son las nicas personas que consiguen comprenderte durante este periodo. Adems de

    llevarme un ttulo, me llevo muchos amigos, gente como Nuria, Kenedy, Henry, Sofa,

    Javi, Cristina, Alberto, Leo, Gabi, etc etc etc. Entre todos ellos me gustara agradecer

    especialmente a Roberto los grandes y duros momentos que pasamos durante el mster

    i

  • 8/10/2019 Bermejo. Metodos Estadisticos en Series Temporales

    6/159

    y el inicio de la tesis y lamentar que hoy no pueda estar en el departamento terminando

    su tesis como yo.Para los amigos que me conocen desde hace bastante tiempo, que est terminando

    un doctorado es algo impensable. Durante estos aos he cambiado mucho, pero ellos

    siguen ah. Sin todos los momentos pasados junto a ellos estos aos hubiesen sido

    insoportables. Por ello me gustara agradecerselo a todos, desde los que llevan ah

    desde los aos del instituto, gente como Rubn (por tres), Jose ngel, Javi, Jose Lus,

    Oscar o David, hasta los que fueron apareciendo durante los aos posteriores (para

    ellos no ser tan sorprendente que termine) como Laura, Kike o Pedroche.

    Para el final quedan mis padres y mi hermana Sara. La palabra agradecimiento

    se queda corta en este caso, ellos son sin duda lo mejor y lo ms importante de mivida. Si hoy puedo terminar mi doctorado es nicamente posible gracias al esfuerzo y

    dedicacin de mis padres, que trabajaron muy duro para darnos a mi hermana y a mi

    las posibilidades que ellos no pudieron tener. Les estar eternamente agradecido ya que

    gracias a ellos, a su esfuerzo y a su cario me he podido convertir en la persona que hoy

    soy.

    ii

  • 8/10/2019 Bermejo. Metodos Estadisticos en Series Temporales

    7/159

    ndice

    Lista de figuras vii

    Lista de tablas xi

    Lista de acrnimos xiii

    1 Introduccin 1

    1.1 Modelos no lineales para series temporales . . . . . . . . . . . . . . . . . . 2

    1.1.1 Modelos por umbrales . . . . . . . . . . . . . . . . . . . . . . . . . . 2

    1.1.2 Modelos autorregresivos exponenciales de amplitud dependiente. 3

    1.1.3 Modelos bilineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

    1.1.4 Modelos de heterocedasticidad condicional. . . . . . . . . . . . . . 4

    1.1.5 Modelos de segunda generacin . . . . . . . . . . . . . . . . . . . . 5

    1.1.6 Modelos no paramtricos . . . . . . . . . . . . . . . . . . . . . . . . 6

    1.2 Problemas tratados en la tesis . . . . . . . . . . . . . . . . . . . . . . . . . . 7

    1.2.1 Identificacin de modelos no lineales . . . . . . . . . . . . . . . . . 7

    1.2.2 Prediccin con modelos no lineales. . . . . . . . . . . . . . . . . . . 12

    1.2.3 Aplicaciones en energa elica . . . . . . . . . . . . . . . . . . . . . 13

    1.3 Estructura de la tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

    2 Modelos autorregresivos por umbrales 192.1 Tipos de modelos por umbrales . . . . . . . . . . . . . . . . . . . . . . . . . 20

    2.2 Estacionariedad en modelos SETAR . . . . . . . . . . . . . . . . . . . . . . 22

    2.3 Estimacin de modelos SETAR . . . . . . . . . . . . . . . . . . . . . . . . . 23

    2.3.1 Mnimos cuadrados ordinarios . . . . . . . . . . . . . . . . . . . . . 23

    2.3.2 Propiedades del estimador OLS . . . . . . . . . . . . . . . . . . . . 25

    2.4 Seleccin de la estructura autorregresiva. . . . . . . . . . . . . . . . . . . . 28

    2.4.1 Criterio de informacin de Akaike . . . . . . . . . . . . . . . . . . . 28

    2.4.2 Criterios de informacin Bayesianos . . . . . . . . . . . . . . . . . . 29

    iii

  • 8/10/2019 Bermejo. Metodos Estadisticos en Series Temporales

    8/159

    2.4.3 Criterios basados en Validacin Cruzada . . . . . . . . . . . . . . . 30

    2.4.4 Criterios de seleccin Bootstrap. . . . . . . . . . . . . . . . . . . . . 312.4.5 Mejora de criterios de seleccin . . . . . . . . . . . . . . . . . . . . . 32

    2.5 Identificacin de modelos SETAR . . . . . . . . . . . . . . . . . . . . . . . . 33

    2.5.1 Contrastes de linealidad . . . . . . . . . . . . . . . . . . . . . . . . . 33

    2.5.2 Algoritmos de bsqueda intensiva . . . . . . . . . . . . . . . . . . . 41

    2.6 Prediccin con modelos SETAR . . . . . . . . . . . . . . . . . . . . . . . . . 44

    3 Identificacin de modelos SETAR mediante estimacin recursiva 47

    3.1 Modelo autorregresivo ordenado con parmetros variables en el tiempo . 47

    3.2 Estimacin recursiva de de parmetros variables en el tiempo . . . . . . . 49

    3.2.1 Mnimos cuadrados recursivos y ponderados. . . . . . . . . . . . . 49

    3.2.2 Factores de olvido adaptativos . . . . . . . . . . . . . . . . . . . . . 51

    3.2.3 Propiedades del estimador RLS con factor de olvido. . . . . . . . . 53

    3.3 Herramienta de identificacin, ARLS . . . . . . . . . . . . . . . . . . . . . . 54

    3.3.1 Estimacin inicial de la recursividad . . . . . . . . . . . . . . . . . . 55

    3.3.2 Justificacin del factor de olvido . . . . . . . . . . . . . . . . . . . . 56

    3.3.3 Intervalos de confianza dest . . . . . . . . . . . . . . . . . . . . . . 57

    3.3.4 Rendimiento en muestras finitas de los intervalos asintticos . . . 58

    3.3.5 Eficacia del mtodo ARLS en muestras finitas . . . . . . . . . . . . 603.4 Procedimiento automtico, Aut-ARLS . . . . . . . . . . . . . . . . . . . . . 64

    3.5 Aplicacin en datos reales clsicos . . . . . . . . . . . . . . . . . . . . . . . 66

    3.5.1 Linces canadienses . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

    3.5.2 Manchas solares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

    3.5.3 Producto nacional bruto EEUU . . . . . . . . . . . . . . . . . . . . . 70

    3.6 Conclusiones y lneas futuras de investigacin . . . . . . . . . . . . . . . . 72

    4 Densidad predictiva basada en momentos condicionados y mxima entropa.

    Aplicacin a la prediccin de potencia elica 73

    4.1 Energa elica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 734.1.1 Anlisis descriptivo de la distribucin de la potencia generada . . 74

    4.1.2 Notacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

    4.2 Densidad predictiva en energa elica . . . . . . . . . . . . . . . . . . . . . 76

    4.3 Estimacin de los momentos condicionados . . . . . . . . . . . . . . . . . . 78

    4.3.1 Mtodo de estimacin recursiva . . . . . . . . . . . . . . . . . . . . 79

    4.4 Modelizacin adaptativa de densidades predictivas . . . . . . . . . . . . . 80

    4.4.1 Distribucin Normal truncada . . . . . . . . . . . . . . . . . . . . . 80

    4.4.2 Distribucin Normal censurada . . . . . . . . . . . . . . . . . . . . 83

    iv

  • 8/10/2019 Bermejo. Metodos Estadisticos en Series Temporales

    9/159

    4.4.3 Distribucin Beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

    4.4.4 Distribucin de Mxima Entropa . . . . . . . . . . . . . . . . . . . 874.4.5 Comparacin de las distribuciones empleadas . . . . . . . . . . . . 89

    4.5 Criterios de evaluacin de densidades predictivas . . . . . . . . . . . . . . 90

    4.5.1 Comprobacin de la estimacin. . . . . . . . . . . . . . . . . . . . . 90

    4.5.2 Verificacin de las predicciones . . . . . . . . . . . . . . . . . . . . . 92

    4.6 Seleccin de la distribucin ptima empleando criterios de evaluacin . . 93

    4.7 Comportamiento de la estimacin en diferentes parques elicos . . . . . . 94

    4.8 Conclusiones y lneas futuras . . . . . . . . . . . . . . . . . . . . . . . . . . 95

    5 Prediccin de produccin elica empleando modelos SETAR 105

    5.1 Predicciones a corto plazo de potencia elica . . . . . . . . . . . . . . . . . 105

    5.2 Modelos SETAR en potencia elica . . . . . . . . . . . . . . . . . . . . . . . 107

    5.2.1 Patrn comn detectado . . . . . . . . . . . . . . . . . . . . . . . . . 109

    5.2.2 Modelos SETAR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

    5.2.3 Modelos SETAR con densidad condicionada variable en el tiempo 112

    5.3 Prediccin empleando modelos SETAR-TVCD . . . . . . . . . . . . . . . . 113

    5.4 Predicciones puntuales de produccin elica . . . . . . . . . . . . . . . . . 115

    5.5 Conclusiones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

    6 Contribuciones de la tesis 125

    Referencias 129

    v

  • 8/10/2019 Bermejo. Metodos Estadisticos en Series Temporales

    10/159

    vi

  • 8/10/2019 Bermejo. Metodos Estadisticos en Series Temporales

    11/159

    Lista de figuras

    1.1 Realizacin de tamao 1000 a partir del modelo (1.2) para valores J =

    2, a(1)0 = 0, a(2)0 = 3, a(1)1 = :8, a(2)1 =:8, dependiendo el indicadortemporalJtdel valor deYt1. . . . . . . . . . . . . . . . . . . . . . . . . . . 3

    1.2 Realizacin de tamao 200 del modelo (1.3), con k = 2, = (2; 1),= (:5; :5)y= 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

    1.3 Realizacin de tamao 200 del modelo (1.4), con p = q = P = Q = 1,

    = :8, =:5y= :5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.4 Ejemplos de modelos con heterocedasticidad condicional . . . . . . . . . . 5

    1.5 Grfico de dispersin deYtrespecto aYt1. . . . . . . . . . . . . . . . . . . 8

    1.6 Comparacin del grfico de una serie procedente de modelos lineales y

    no lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.7 Diagramas de dispersin directos para datos provenientes de modelos

    lineales y no lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

    1.8 Ajuste lineal y suavizado no paramtrico sobre un proceso generado a

    partir de un modelo no lineal . . . . . . . . . . . . . . . . . . . . . . . . . . 10

    1.9 Evolucin del sistema elctrico espaol . . . . . . . . . . . . . . . . . . . . 14

    1.10 Ejemplo de serie de datos de produccin elica . . . . . . . . . . . . . . . . 15

    2.1 Grfico de dispersin deYtrespecto a la variable umbralYt1 . . . . . . . 25

    3.1 Ejemplo de funcionamiento del procedimiento ARLS . . . . . . . . . . . . 593.2 Curva de potencia para n=150 . . . . . . . . . . . . . . . . . . . . . . . . . . 62

    3.3 Curva de potencia para n=500 . . . . . . . . . . . . . . . . . . . . . . . . . . 62

    3.4 Histograma de los umbrales estimados para diferentes valores de . . . . 63

    3.5 Histograma de los umbrales estimados empleando Aut-ARLS sobre 1000

    rplicas del modelo (3.30) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

    3.6 Tasa de deteccin para diferentes valores de1y2obtenida empleando

    Aut-ARLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

    3.7 Porcentaje de acierto de Aut-ARLS . . . . . . . . . . . . . . . . . . . . . . . 67

    vii

  • 8/10/2019 Bermejo. Metodos Estadisticos en Series Temporales

    12/159

    3.8 Serie de los linces canadienses transformada con logaritmos . . . . . . . . 67

    3.9 Deteccin del umbral en los datos de los linces canadienses empleandoAut-ARLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

    3.10 Serie de las manchas solares . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

    3.11 Deteccin del umbral empleando Aut-ARLS para los datos de las man-

    chas solares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

    3.12 Tasa de crecimiento del producto nacional bruto de Estados Unidos desde

    1947 a 2003. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

    4.1 Potencia producida por un parque elico, datos horarios . . . . . . . . . . 74

    4.2 Grfico de caja para de la potencia medida respecto a diferentes nivelesde la prediccin puntual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

    4.3 Media de la estimacin de los momentos para diferentes horizontes . . . . 79

    4.4 Estimacin recursiva de los momentos centrados condicionados para h=1,3,6,12. 81

    4.5 Estimacin recursiva de los momentos condicionados para h=1,3,6,12. . . 82

    4.6 Ejemplo de la senda de densidades predictiva empleando la distribucin

    Normal Truncada para diferentes horizontes . . . . . . . . . . . . . . . . . 83

    4.7 Ejemplo de la senda de densidades predictiva empleando la distribucin

    Normal Censurada para diferentes horizontes . . . . . . . . . . . . . . . . 86

    4.8 Ejemplo de la senda de densidades predictiva empleando la distribucin

    Beta para diferentes horizontes . . . . . . . . . . . . . . . . . . . . . . . . . 87

    4.9 Ejemplo de la senda de densidades predictiva empleando la distribucin

    de mxima entropa para diferentes horizontes . . . . . . . . . . . . . . . . 90

    4.10 Densidades predictivas para diferentes instantes de tiempo y horizontes . 91

    4.11 Histograma de los valores PIT obtenidos para diferentes densidades pre-

    dictivas estimadas para un parque elico a horizonteh= 1.. . . . . . . . . 97

    4.12 Histograma de los valores PIT obtenidos para diferentes densidades pre-

    dictivas estimadas para un parque elico a horizonteh= 6.. . . . . . . . . 984.13 Histograma de los valores PIT obtenidos para diferentes densidades pre-

    dictivas estimadas para un parque elico a horizonteh= 12. . . . . . . . . 99

    4.14 Histograma de los valores PIT obtenidos para diferentes densidades pre-

    dictivas estimadas para un parque elico a horizonteh= 24. . . . . . . . . 100

    4.15 Valor del Brier Score obtenido para las diferentes distribuciones estimadas

    en un parque elico empleando para diferentes horizontes de prediccinh.101

    4.16 Valor del CRPS para las diferentes distribuciones predictivas empleadas

    en los diferentes parques elicos disponibles. . . . . . . . . . . . . . . . . . 102

    viii

  • 8/10/2019 Bermejo. Metodos Estadisticos en Series Temporales

    13/159

    4.17 Comparacin entre los percentiles obtenidos al evaluar la senda de den-

    sidades predictivas estimadas en 5 parques elico empleando diferentesdistribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

    5.1 Estimacin adaptativa de un modelo TV-AAR(1) sobre la potencia orde-

    nada de acuerdo al incremento del primer retardo . . . . . . . . . . . . . . 108

    5.2 Estimacin adaptativa de un modelo TV-AAR(1) sobre la potencia orde-

    nada de acuerdo a su primer retardo.. . . . . . . . . . . . . . . . . . . . . . 109

    5.3 Estimacin adaptativa de un modelo TV-AAR(1) sobre la potencia cre-

    ciente ordenada de acuerdo a su primer retardo . . . . . . . . . . . . . . . 110

    5.4 Estructura SETAR con 6 regmenes detectada en potencia elica. . . . . . . 110

    5.5 Graficos de caja para los umbrales detectados en los 76 ficheros de datosdisponibles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

    ix

  • 8/10/2019 Bermejo. Metodos Estadisticos en Series Temporales

    14/159

    x

  • 8/10/2019 Bermejo. Metodos Estadisticos en Series Temporales

    15/159

    Lista de tablas

    3.1 Medidas para comparar los lmites empricos con los asintticos emple-

    ando 1000 rplicas del modelo3.27para diferentes tamaos muestrales. . 603.2 Tasa de deteccin para diferentes contrastes en datos generados emple-

    ando el modelo (3.27) para diferentes valores de . . . . . . . . . . . . . . 61

    3.3 Tasa de deteccin obtenida empleando ARLS y el contraste de Tsay (1989)

    y el mejor de los resultados obtenido por los contrastes de Hansen (1996) 63

    3.4 Modelos propuestos por Tsay, Tong y Aut-ARLS con sus respectivos AIC

    y BIC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

    3.5 Modelos propuestos por Tsay, Tong y Aut-ARLS con sus respectivos AIC,

    error medio absoluto y raz del error cuadrtico medio. . . . . . . . . . . . 70

    3.6 Error cuadrtico medio de los errores de prediccin del PNB EE.UU.. . . . 72

    5.1 Media de la raz del error cuadrtico medio para los 31 parques elicos

    horarios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

    5.2 Valor relativo de la raz del error cuadrtico medio obtenido para los 31

    parques elicos horarios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

    5.3 Media del error absoluto medio para los 31 parques elicos horarios. . . . 119

    5.4 Valor relativo del error medio absoluto obtenido para los 31 parques eli-

    cos horarios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

    5.5 Media de la raz del error cuadrtico medio para los 19 parques elicos15 minutales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

    5.6 Valor relativo de la raz del error cuadrtico medio obtenido para los 19

    parques elicos 15 minutales. . . . . . . . . . . . . . . . . . . . . . . . . . . 120

    5.7 Media del error medio absoluto para los 19 parques elicos 15 minutales. 121

    5.8 Valor relativo del error medio absoluto obtenido para los 19 parques eli-

    cos 15 minutales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

    5.9 Media de la raz del error cuadrtico medio para los 21 aerogeneradores

    de un parque elico con una frecuencia de 10 minutos. . . . . . . . . . . . 122

    xi

  • 8/10/2019 Bermejo. Metodos Estadisticos en Series Temporales

    16/159

    5.10 Valor relativo de la raz del error cuadrtico medio de 21 aerogeneradores

    de un parque elico con una frecuencia de 10 minutos. . . . . . . . . . . . 1235.11 Media del error absoluto medio para 21 aerogeneradores de un parque

    elico con una frecuencia de 10 minutos.. . . . . . . . . . . . . . . . . . . . 123

    5.12 Valor relativo del error medio absoluto para predicciones de 21 aerogen-

    eradores de un parque elico con una frecuencia de 10 minutos.. . . . . . . 124

    xii

  • 8/10/2019 Bermejo. Metodos Estadisticos en Series Temporales

    17/159

    Lista de acrnimos

    AIC Criterio de seleccin de modelos de Akaike

    AAR Modelo lineal autorregresivo ordenado

    AR Modelo lineal autorregresivo

    ARCH Modelo no lineal autorregresivo con heterocedasticidad condicional

    ARLS Herramienta de identificacin de modelos por umbrales propuesta, de nombre

    mtodo de mnimos cuadrados recursivos y ordenados

    ARMA Modelo lineal autorregresivo con media movil

    Aut-ARLS Procedimiento automtico de la herramienta de identificacin ARLS

    BIC Criterio de seleccin bayesiano de modelos

    BL Modelo no lineal bilineal

    BS Brier Score, medida de evaluacin de estimacin de densidades

    CRPS Criterio de seleccin de densidades (Continuous Ranked Probability Score)

    EAM Error medio absoluto

    EAR Modelo no lineal autorregresivo exponencial

    ECM Error cuadrtico medio

    EWMA Mtodo de media movil exponencialmente ponderada

    EXPAR Modelo no lineal autorregresivo exponencial de amplitud dependiente

    FAR Modelo no paramtrico autorregresivo con coeficientes funcionales

    GARCH Modelo no lineal autorregresivo generalizado con heterocedasticidad condicional

    xiii

  • 8/10/2019 Bermejo. Metodos Estadisticos en Series Temporales

    18/159

  • 8/10/2019 Bermejo. Metodos Estadisticos en Series Temporales

    19/159

    Captulo 1

    Introduccin

    Moran (1953) al realizar un ajuste lineal sobre el nmero de linces capturados anual-

    mente en el distrito canadiense deMackenzie Riverdescubri un, como l lo llam, fen-

    meno curioso. Dicho fenmeno consista en que los residuos para las observaciones

    mayores que la media eran significativamente menores que los residuos para aquellas

    observaciones que eran menores que la media. Seguramente nos encontramos ante una

    de las primeras identificaciones de la existencia de heterocedasticidad condicional en

    una serie temporal de datos reales.

    Poco despus, Whittle (1954) realiz un estudio sobre las mediciones del nivel delagua cada 15 segundos en un canal de la Isla de Bay en Nueva Zelanda. Analizando la

    estimacin de la funcin de densidad espectral, Whittle descubri la existencia de una

    relacin aritmtica que permita relacionar los periodos de los picos existentes en dicha

    estimacin. Whittle explica que la relacin encontrada es debida a la existencia de no

    linealidad, realizando un anlisis basado en ecuaciones diferenciales lineales a trozos.

    Tong (2010, p. 5) afirma que el trabajo de Whittle es, seguramente, el primer estudio

    acerca de la importancia de la idea del umbral en el anlisis de las series temporales.

    Motivados por trabajos similares a los de Moran y Whittle, el inters de investi-

    gadores por el estudio de tcnicas no lineales en series temporales fue incrementndosede manera progresiva hasta nuestros das. Realmente, el primer estudio terico de un

    modelo temporal no lineal fue efectuado por Volterra (1930). En su estudio mostr

    como cualquier funcin continua no lineal puede ser ajustada mediante la expansin

    de Volterra, cuya forma viene definida por

    Yt=1Xu=0

    guUtu+1Xu=0

    1Xv=0

    guvUtuVtv

    +1

    Xu=01

    Xv=01

    Xw=0guvwUtuVtvWtw+ :::

    (1.1)

    1

  • 8/10/2019 Bermejo. Metodos Estadisticos en Series Temporales

    20/159

    2 Captulo 1. Introduccin

    El inters de la formulacin (1.1) es terico nicamente, pues su estimacin no es factible

    salvo que se impongan muchas restricciones.La paradoja del anlisis de series temporales no lineales es que, habitualmente, los

    fenmenos no lineales son ms complejos de identificar y de modelizar que los fen-

    menos lineales, sin embargo, las herramientas disponibles son menos comprensibles y

    efectivas. El objetivo de esta tesis ser desarrollar herramientas que faciliten el anlisis

    de series temporales no lineales.

    1.1 Modelos no lineales para series temporales

    A lo largo de los aos se han ido proponiendo diferentes tipos de modelos que intentanexplicar diferentes fenmenos no lineales. En esta seccin se hace un repaso de los mo-

    delos paramtricos habitualmente ms empleados, as como una introduccin a distin-

    tas tcnicas no paramtricas existentes. Adems de los modelos aqu mostrados existen

    otros ms generales como pueden ser, por ejemplo, los modelos estado-dependientes

    (Priestley, 1980) o los modelos doblemente estocsticos (Tjstheim, 1986).

    1.1.1 Modelos por umbrales

    Los modelos por umbrales, mencionados por vez primera por Tong (1977), asumen

    la existencia de diferentes funciones lineales en diferentes regiones del espacio de los

    estados. La divisin del espacio de los estados viene dada por la variable umbral Xtd,

    cond1. Basndose en esta idea Tong (1987) formul el principio del umbral, el cualdice que el anlisis de un sistema estocstico complejo puede ser realizado mediante

    su descomposicin en subsistemas ms sencillos (Tong 1990, p. 99).

    El modelo por umbrales ms conocido es el autorregresivo por umbrales (TAR,

    Threshold Autoregressive) que tiene la forma

    Yt= a(Jt)

    0 +

    p

    Xi=1 a(Jt)i Yti+ b(Jt)et; (1.2)donde losfetg son variables aleatorias independientes e idnticamente distribuidascon E[et] = 0y V[et] =

  • 8/10/2019 Bermejo. Metodos Estadisticos en Series Temporales

    21/159

    1.1. Modelos no lineales para series temporales 3

    !"" #"" $"" %"" &"" '"" ("" )"" *"" !"""!'

    !%

    !#

    "

    #

    %

    '

    +

    ,+

    (a) Serie temporal

    !! !" !# # " !!$

    !%

    !&

    '

    &

    %

    $

    ()!#

    ()

    (b) Grfico de dispersin de Ytrespecto a Yt1

    Figura 1.1: Realizacin de tamao 1000 a partir del modelo (1.2) para valores J = 2,a(1)0 = 0,a

    (2)0 = 3,a

    (1)1 =:8,a

    (2)1 =:8, dependiendo el indicador temporal Jtdel valor

    deYt1.

    1999), en finanzas (p.ej., Li and Lam, 1995; Potter, 1995), en ciencias actuariales (p.ej.,

    Chan et al., 2004), entre muchos otros. Un amplio estudio sobre el desarrollo de los

    modelos TAR ha sido efectuado por Tong (2010).

    1.1.2 Modelos autorregresivos exponenciales de amplitud dependienteLos modelos EXPAR (Amplitude-dependent Exponential Autoregressive) fueron introduci-

    dos de manera independiente por Jones (1976) y Ozaki y Oda (1978). Un modelo EX-

    PAR(k) est definido por

    Yt=kXj=1

    j+ jexp

    Y2t1Ytj+ et; >0; (1.3)donde fetg es una secuencia de variables aleatorias independientes e idnticamente dis-tribuidas. Haggan y Ozaki (1981) mostraron que el modelo es til para la modelizacinde la vibracin del sonido. En la figura1.2vemos un ejemplo de modelo EXPAR.

    1.1.3 Modelos bilineales

    Un procesoYtsigue un modelo Bilineal (BL(p,q,P,Q)) si est definido por

    Yt=

    p

    Xi=1iYti+ et+

    q

    Xj=1jetj+

    P

    Xi=1Q

    Xj=1ijYtietj; (1.4)

  • 8/10/2019 Bermejo. Metodos Estadisticos en Series Temporales

    22/159

    4 Captulo 1. Introduccin

    ! "! #! $! %! &!! &"! ! &$! &%! "!!!$!

    !#!

    !"!

    !

    "!

    #!

    $!

    %!

    '

    ('

    Figura 1.2: Realizacin de tamao 200 del modelo(1.3), con k = 2, = (2; 1), =(:5; :5)y= 1.

    y fueron introducidos por Granger y Andersen (1978). Son especialmente tiles para

    series temporales en las que ocasionalmente se produzcan grandes alejamientos de la

    media, como puede verse en la figura1.3. Ejemplos de posibles aplicaciones reales

    podran ser las mediciones realizadas por un sismgrafo, ya que stas, en general, sern

    estables salvo cuando se produzca un terremoto. Subba Rao y Gabr (1984) hicieron un

    amplio estudio sobre este tipo de modelos.

    ! "! #! $! %! &!! &"! ! &$! &%! "!!!&'!

    !&!!

    !'!

    !

    '!

    &!!

    &'!

    (

    )(

    Figura 1.3: Realizacin de tamao 200 del modelo (1.4), conp = q= P =Q = 1, = :8,=

    :5y= :5.

    1.1.4 Modelos de heterocedasticidad condicional

    Los modelos de heterocedasticidad condicional (ARCH, Autoregressive Conditional Het-

    eroscedastic) fueron introducidos por Engel (1982) para modelizar la tasa de inflacin

    de Reino Unido. Son modelos muy empleados en series temporales econmicas y fi-

    nancieras. Un procesoYtsigue un modelo ARCH(r) si est definido como

    Yt= t"t; (1.5)

  • 8/10/2019 Bermejo. Metodos Estadisticos en Series Temporales

    23/159

    1.1. Modelos no lineales para series temporales 5

    dondef"tges un proceso de variables aleatorias independientes e idnticamente dis-

    tribuidas, siendof"tgindependiente defYtk; k1g. La varianza seguir un procesoautorregresivo de ordenrdefinido por

    2t =0+ 1Y2t1+ : : : + rY

    2tr; (1.6)

    dondePri=1 i< 1. La prctica ha demostrado que muchas series requieren de valores

    dermuy altos. Para evitar ste efecto, Bollerslev (1986) y Taylor (1987) propusieron un

    modelo ms parsimonioso, los modelos autorregresivos generalizados de heterocedas-

    ticidad condicional (GARCH,Generalized Autoregressive Conditional Heteroscedastic). Un

    procesoYtsigue un modelo GARCH(p,q) si el procesoten (1.5) est definido como

    2t =c0+

    pXi=1

    ciz2ti+

    qXj=1

    bj2tj: (1.7)

    Los modelos GARCH tienen una estructura similar a los modelos ARMA, compar-

    tiendo con ellos muchas de sus propiedades. En la figura 1.4se pueden ver dos reali-

    zaciones eneradas a partir de modelos ARCH y GARCH. En el trabajo de De Gooijer

    y Hyndman (2006) se puede encontrar un resumen reciente de los diferentes estudios

    basados en modelos de heterocedasticidad condicional que se han ido proponiendo.

    ! "! #! $! %! &!! &"! ! &$! &%! "!!!"!

    !&'

    !&!

    !'

    !

    '

    &!

    &'

    "!

    (

    )(

    (a) ARCH(1) con = (1:5; :8).

    ! "! #! $! %! &!! &"! ! &$! &%! "!!!&'

    !&!

    !'

    !

    '

    &!

    &'

    "!

    (

    )(

    (b) GARCH(1,1) conc0= 1:5,c1= :6yb1 = :3

    Figura 1.4: Ejemplos de modelos con heterocedasticidad condicional

    1.1.5 Modelos de segunda generacin

    Los modelos mostrados hasta ahora intentan explicar un tipo de fenmeno no lineal,

    por ello Tong (1990, p.116) los llama modelos no lineales de primera generacin. Para

    aprovechar mejor sus ventajas, Tong propone crear modelos ms complejos que aunen

  • 8/10/2019 Bermejo. Metodos Estadisticos en Series Temporales

    24/159

    6 Captulo 1. Introduccin

    a varios de estos modelos, creando as modelos de segunda generacin, tercera genera-

    cin, y as.Un posible modelo de segunda generacin que empieza a ser empleado es un mo-

    delo por umbrales con heterocedasticidad condicional. Por ejemplo, un modelo SETAR-

    ARCH vendra definido por

    Yt= a(Jt)0 +

    pXi=1

    a(Jt)i Yti+ etVt;

    donde losfetgson variables aleatorias independientes e idnticamente distribuidas,yf

    Jtg

    es un indicador temporal que tomar valores enf

    1; 2;:::;Jg

    trabajando como

    mecanismo de intercambio. Adems V2t =0+ 1Y2t1 + : : : +rY

    2tr. Este modelo com-

    binar las ventajas de modelizar la media condicionada empleando un modelo lineal a

    trozos y la varianza condicionada a un proceso de heterocedasticidad condicional.

    1.1.6 Modelos no paramtricos

    En ocasiones los fenmenos no lineales subyacentes en los datos no pueden ser identifi-cados de manera particular, por ello ser adecuado el uso de modelos no parmetricos

    que permitan un ajuste no lineal ms general. La forma de un modelo no paramtrico

    ser

    Yt= f(Yt1;:::;Ytp) + (Yt1;:::;Ytp) et; (1.8)

    dondef()y ()son funciones desconocidas y fetg es un proceso de variables aleato-rias independientes e idnticamente distribuidas. El modelo (1.8) es conocido como

    proceso no paramtrico autorregresivo de heterocedasticidad condicional (NARCH,

    Nonparametric Autoregressive Conditional Heteroscedastic) o proceso no paramtrico au-

    torregresivo (NAR) en el caso de que ()sea constante. El problema de este tipo demodelos es que para un valor dep > 2, la estimacin de las funciones f()y ()serprcticamente imposible, salvo que el tamao muestral sea muy grande (ver, p.ej., Fan

    y Gijbels (1996)), debido a la maldicin de la dimensionalidad (Bellman, 1961).

    Debido al problema de la dimensionalidad para trabajar con modelos no paramtri-

    cos hay dos opciones. Por una parte existen diferentes tcnicas que permiten estimar las

    funcionesf()y ()empleando mtodos kernel, splines,... (ver, p.ej., Fan y Yao, 2005Caps. 5 y 8; Pea et al., 2001 Cap. 12). Otra opcin diferente es emplear modelos para

    ajustar dichas funciones. A continuacin vemos algunos de estos modelos.

  • 8/10/2019 Bermejo. Metodos Estadisticos en Series Temporales

    25/159

    1.2. Problemas tratados en la tesis 7

    Modelo de coeficientes funcionales

    El modelo de coeficientes funcionales (FAR,Functional-Coefficient Autoregressive), intro-ducido por Chen y Tsay (1993), tiene la forma

    Yt = f1(Ytd)Y1+ : : : + fp(Ytd)Ytp+ (Ytd)et; (1.9)

    dondefetg es una secuencia de variables aleatorias independientes e idnticamentedistribuidas, y ademsfetgser independiente defYtk; k1g. Los coeficientes fun-cionalesf1(); ; fp()son desconocidos. El modelo (1.9) depende de la variable de-pendienteYtd, que es un retardo del proceso, limitando el alcance de las aplicaciones

    posibles. Por ello, una generalizacin de esta clase de modelos es permitir una combi-nacin lineal de valores pasados como variable dependiente del modelo. Esta generali-

    zacin es conocida como modelo de coeficientes funcionales adaptativo.

    Modelos aditivos

    Los modelos aditivos (Ezekiel, 1924) son muy tiles para aproximar la funcin autorre-

    gresiva de alta dimensin del modelo (1.8)mediante la descomposicin de la funcin

    f(Yt1;:::;Ytp)en la suma de funciones univariantes, es decir, un modelo aditivo tiene

    la forma

    Yt= f1(Yt1) + ::: + fp(Ytp) + et; (1.10)

    donde fetg es una secuencia de variables aleatorias independientes e idnticamente dis-tribuidas. Las funcionesf1; : : : ; f pson univariantes y pueden ser estimadas mediante

    alguna tcnica de regresin no paramtrica. Lgicamente, esto disminuye la dimensin

    del problema, y nos da la ventaja de necesitar menos observaciones para obtener re-

    sultados precisos. El problema es que la aditividad es una condicin muy fuerte, que

    habitualmente no se cumple, y que adems es difcil de comprobar. En Chen et al. (1995)

    se propone un contraste que permite evaluar si se cumple la condicin de aditividad.

    1.2 Problemas tratados en la tesis

    En esta seccin se describen los problemas a los que nos hemos enfrentado durante la

    realizacin de esta tesis, as como las propuestas que ms adelante sern desarrolladas.

    1.2.1 Identificacin de modelos no lineales

    El uso de un modelo lineal para explicar un conjunto de datos que presenten algn

    tipo de fenmeno no lineal, provocar que el modelo no pueda recoger toda la informa-

  • 8/10/2019 Bermejo. Metodos Estadisticos en Series Temporales

    26/159

    8 Captulo 1. Introduccin

    cin contenida en los datos. En la figura1.5vemos un ejemplo de un proceso temporal

    Ytcuya relacin con su primer retardo Yt1es no lineal. Como vemos, si realizamosun ajuste lineal ser complicado que se pueda predecir su comportamiento futuro ade-

    cuadamente. Por ello, es importante identificar cundo tenemos existe algn fenmeno

    no lineal subyacente en los datos para as poder aplicar mtodos ms adecuados. El

    problema radica en cmo identificar estos fenmenos, cmo identificar la no linealidad.

    !!"# !! !$"# !$ !%"# % %"# $ $"# !!!"#

    !!

    !$"#

    !$

    !%"#

    %

    %"#

    $

    $"#

    !

    &'!$

    &'

    Figura 1.5: Grfico de dispersin deYtrespecto aYt1.

    Identificar un fenmeno no lineal particular suele ser una tarea compleja. Para ello

    se pueden emplear diferentes mtodos como pueden ser anlisis de los datos mediante

    mtodos grficos, realizacin de contrastes de linealidad

    Mtodos grficos

    El uso de mtodos grficos nos puede mostrar que algo anormal pasa en nuestros datos.

    Sin duda, son una herramienta muy til cuando se comienza a analizar cualquier tipo

    de datos. Mtodos como histogramas, correlogramas o funciones de densidad espectral,

    que son habitualmente empleados en los anlisis lineales puede darnos una idea de

    que algo no funciona bien, en caso de observar fenmenos no esperados. A dichas

    herramientas grficas aadimos aqu algunas propuestas realizadas en el mbito de las

    series temporales no lineales.

    Grfico inverso Una serie temporal estacionaria fYtg es reversible en el tiempo si paracada entero positivon, y para cada vector de ndices(t1;:::;tn)los vectores(Yt1 ;:::;Ytn)

    y (Yt1 ;:::;Ytn) tienen la misma distribucin conjunta. Tong (1990, p.197) explica cmo

    la falta de reversibilidad en el tiempo indica falta de linealidad en los datos. El problema

    es que existen modelos no lineales que pueden cumplir la propiedad de reversibilidad

    por lo que dicha propiedad no puede ser empleada para descartar que un proceso es no

    lineal.

  • 8/10/2019 Bermejo. Metodos Estadisticos en Series Temporales

    27/159

    1.2. Problemas tratados en la tesis 9

    Para comprobar que se cumple la propiedad de reversibilidad en el tiempo, Tong

    (1990, p.216) propone emplear los grficos inversos. Dichos grficos fueron propues-tos por Cleveland y McGill (1987) para poder detectar diferentes caractersticas intere-

    santes en los datos. En la figura1.6podemos ver ejemplos de procesos reversibles y no

    reversibles en el tiempo.

    !" #" $" %" &" '" (" )" *" !""!!%

    !#

    "

    #

    %

    +

    ,+

    -./01. 134051

    *"!"" )" (" '" &" %" $" #" !" !!%

    !#

    "

    #

    %-./01. 134051 346078.

    +

    ,+

    (a) Modelo lineal.

    10 20 30 40 50 60 70 80 90 10010

    25

    50

    75

    100

    t

    Yt

    Modelo no lineal

    90100 80 70 60 50 40 30 20 10 10

    25

    50

    75

    100

    t

    Yt

    Modelo no lineal invertido en el tiempo

    (b) Modelo no lineal.

    Figura 1.6: Comparacin del grfico de una serie procedente de modelos lineales y nolineales

    Diagrama de dispersin directo Se trata de grficos dispersin del procesofYtgres-pecto a su retardofYtkg, en el cual los puntos consecutivos se van uniendo mediantelneas. En la figura1.7vemos un ejemplo del diagrama para datos generados mediante

    un modelo AR lineal y un modelo SETAR no lineal. El diagrama perteneciente al pro-

    ceso lineal tiene un comportamiento completamente aleatorio, mientras que el proceso

    no lineal dibuja una especie de elipse, sin datos en el centro. Tong (1990, p.216) explica

    cmo este tipo de resultados muestran la existencia de ciclos. Este tipo de grficos ha

    sido muy empleado en el anlisis de tcnicas de caos.

    Suavizado no paramtrico El estudio del suavizado no paramtrico realizado sobre la

    relacin existente proceso fYtg respecto a su retardo fYtkg puede ser una herramientatil para identificar una posible relacin no lineal. En la figura1.8vemos la diferencia

    entre realizar un ajuste lineal y un suavizado no paramtrico, y cmo este ltimo ayuda

    a explicar mejor los datos, pudiendo indicar por lo tanto no linealidad.

  • 8/10/2019 Bermejo. Metodos Estadisticos en Series Temporales

    28/159

    10 Captulo 1. Introduccin

    !! !" !# $ # " !!"%&

    !"

    !#%&

    !#

    !$%&

    $

    $%&

    #

    #%&

    "

    "%&

    '(

    '(!#

    )*+,-* -/0,1-

    ! 2 & 3 4 5 6!

    2

    &

    3

    4

    5

    6

    '(

    '(!#

    )*+,-* 0* -/0,1-

    Figura 1.7: Diagramas de dispersin directos para datos provenientes de modelos line-ales y no lineales

    ! " # $ % &'

    !

    "

    #

    $

    %

    &

    ()!*

    ()

    ! " # $ % &'

    !

    "

    #

    $

    %

    &

    ()!+

    ()

    ! " # $ % &'

    !

    "

    #

    $

    %

    &

    ()!'

    ()

    ! " # $ % &'

    !

    "

    #

    $

    %

    &

    ()!!

    ()

    Figura 1.8: Ajuste lineal y suavizado no paramtrico sobre un proceso generado a partirde un modelo no lineal

    Contrastes de linealidad

    Una herramienta ms formal para comprobar la existencia de no linealidad en el pro-

    ceso es el uso de contrastes de hiptesis. Existen dos clases de contrastes de linealidad,

    por una parte estn los contrastes generales que no asumen ningn tipo de estructura

    no lineal en los datos, sino que solo contrastan la falta de linealidad en los mismos. Por

    otra parte, estn aquellos contrastes especficos que nos permiten comprobar si un tipode fenmeno no lineal en particular es correcto para el proceso estudiado.

    Contrastes generales La hiptesis a contrastar es, en general, se contrasta si la mejor

    representacin lineal del proceso es correcta o no, para ello existen multitud de con-

    trastes. Uno de los primeros que se propusieron es el contraste basado en la aproxi-

    macin bi-espectral, propuesto originalmente por Subba Rao y Gabr (1980) y mejorado

    poco despus por Hinich (1982). Se basa en la idea de que bajo el supuesto de linea-

    lidad las funciones de densidad espectrales acumuladas son constantes. Su principal

  • 8/10/2019 Bermejo. Metodos Estadisticos en Series Temporales

    29/159

    1.2. Problemas tratados en la tesis 11

    problema es la estimacin de las densidades espectrales.

    Ramsay (1969) desarroll un contraste de linealidad para modelos de regresin basadoen el contraste de no aditividad de Tukey (1949). Usando esta idea, Keenan (1985) di-

    se un contraste de no linealidad en series temporales. Dicho contraste fue mejorado

    por Tsay (1986).

    Otro tipo de contrastes generales se basan en la idea propuesta por Granger y An-

    dersen (1978). En su trabajo mostraron que sea Ytes un proceso gaussiano estacionario

    j

    Y2t

    =

    j(Yt)2

    ; para todoj; (1.11)

    dondej(Yt)es la funcin de autocorrelacin del procesof

    Ytg

    . Segn Granger y An-

    dersen el no cumplimiento de esta propiedad podra indicar falta de linealidad en los

    datos. Maravall (1983) mostr que los residuos resultantes de realizar un ajuste lineal

    en el proceso han de cumplir la relacin(1.11), ya que en caso contrario el proceso ser

    no lineal. Empleando esta idea, McLeod y Li (1983) propusieron un contraste de Ljung-

    Box que permite comprobar que la relacin(1.11) se mantiene en los residuos . Cu-

    riosamente, aunque McLeod y Li (1983) realizaron un contraste general, su propuesta

    funciona especialmente bien para detectar la existencia de modelos de heterocedasti-

    cidad condicional. Siguiendo esta misma va, Pea y Rodrguez (2005) proponen un

    contraste que mejora a los anteriores.

    Otros contrastes de linealidad existentes son el contraste BDS propuesto por Brocket al. (1996) que se basa en la relacin no lineal de los residuos del ajuste lineal y de

    su pasado, y el contraste del tipo Kolmogorov-Smirnov propuesto por Hong-zhi y Bing

    (1991).

    Contrastes especficos Los contrastes especificos tienen como hiptesis alternativa la

    existencia de un modelo no lineal. Repasamos brevemente algunas propuestas de los

    modelos ms empleados habitualmente.

    Para contrastar la existencia de modelos por umbrales existen diferentes tipos de

    propuestas. Los ms empleados son contrastes de ratio de verosimilitud (Chan y Tong,

    1990; Chan, 1990; Hansen, 1996, 1999; Ling y Tong, 2005) y contrastes basados en los

    residuos predictivos (Petruccelli y Davies, 1986; Tsay, 1989).

    Para detectar la existencia de heterocedasticidad condicional son muy tiles los con-

    trastes basados en los residuos al cuadrado, como dijimos anteriormente. El problema

    de estos es que simplemente dan un indicio de existencia de heterocedasticidad condi-

    cional en los residuos. Para comprobar de manera ms especifica la posible existencia

    de efectos ARCH o GARCH, existen contrastes como los de Lee y King (1993) o Hong

    (1997).

  • 8/10/2019 Bermejo. Metodos Estadisticos en Series Temporales

    30/159

    12 Captulo 1. Introduccin

    Fan y Yao (2005, Cap. 9) desarrollan un contraste de ratio de verosimilitud genera-

    lizado basado en el contraste para datos independientes de Fan et al. (2001). La ideaprincipal de este contraste es que la distribucin asinttica del estimador bajo la hipte-

    sis nula es independiente de los parmetros desconocidos ausentes de dicha hiptesis

    nula. Esta propiedad es conocida como fenmeno de Wilks. Fan y Yao (2005) muestran

    como siguiendo esta idea se puede desarrollar un contraste para series temporales, que

    permite contrastar la existencia de diferentes modelos no paramtricos o paramtricos,

    como el TAR, el EXPAR, el BL, el FAR,etc.

    Por ltimo, existen diferentes contrastes de bondad de ajuste que permiten com-

    parar diferentes modelos tanto lineales como no lineales entre s, como son las propues-

    tas de Escanciano (2006), Ling y Tong (2010) o Du y Escanciano (2011).

    Resultados propuestos en la tesis

    En el anlisis de las series temporales lineales existe una medida de dependencia ge-

    neral que permite la modelizacin del proceso, se trata de la autocorrelacin simple

    y parcial. Adems, esta medida permite una sencilla representacin grfica mediante

    el correlograma. Sin embargo, no existe ninguna medida ni ninguna herramienta, que

    permita de manera tan simple e ilustrativa analizar las relaciones no lineales. Por ello, el

    primer objetivo de esta tesis doctoral es el desarrollar una herramienta de identificacin

    y modelizacin de un fenmeno no lineal. En particular, durante esta tesis nos hemoscentrado en la identificacin de modelos por umbrales.

    Para ello vamos a proponer un procedimiento basado en una herramienta grfica

    que permita identificar la existencia de un modelo por umbrales. Adems, dicho proce-

    dimiento nos permitir modelizar de manera sencilla el proceso.

    1.2.2 Prediccin con modelos no lineales

    El clculo de predicciones es una de las tareas esenciales cuando se trabaja con series

    temporales. Existen dos tipos de caminos que se pueden emplear para calcular predic-ciones, por una parte el uso de modelos que expliquen el comportamiento de los datos,

    permitir adems obtener predicciones a partir de ellos. Mientras que otra opcin es el

    uso de tcnicas de prediccin no paramtricas que sin explicar el comportamiento de la

    serie permitirn calcular predicciones. En esta tesis nos hemos centrado en el clculo de

    predicciones empleando modelos no lineales.

    SeaYtun proceso conocido, el objetivo ser calcular predicciones a un horizonte h

    dada la informacin contenida en dicho proceso mediante

    Yt+hjt= f(Yt;:::;Y1) ; (1.12)

  • 8/10/2019 Bermejo. Metodos Estadisticos en Series Temporales

    31/159

    1.2. Problemas tratados en la tesis 13

    donde la funcin f(), si asumimos una funcin de prdida cuadrtica ser la esperanza

    condicionada (ver, p.ej. Chatfield 2001), es decir,

    Yt+hjt=Et[Yt+hjYt;:::;Y1] . (1.13)

    Si el modelo ajustado es no lineal la forma analtica de la esperanza condicionada

    ser muy complicada de calcular. Para estos casos, Tong (1990) propone estimar la

    densidad de las predicciones condicionada a la informacin conocida en el instante de

    tiempo t y a partir de ella calcular los momentos condicionados. A dicha densidad de las

    predicciones se le conoce habitualmente como densidad predictiva. Cuando trabajamos

    con modelos no lineales, lo habitual ser que el proceso no sea gaussiano, por lo que el

    clculo de la densidad predictiva ser complejo. Un estudio ms profundo acerca dela prediccin mediante modelos no lineales y mediante tcnicas no paramtricas puede

    encontrarse en Tong (1990, Cap.6) y Fan y Yao (2005, Cap. 10).

    Predicciones puntuales con modelos TAR

    Un modelo por umbrales est compuesto de modelos lineales, entre los que el proceso

    ir cambiando dependiendo de la variable umbral. Debido a la linealidad de los di-

    ferentes regmenes el uso de modelos TAR ser ventajoso respecto a otros modelos no

    lineales a la hora de calcular predicciones. Su principal problema surge cuando el hori-zonte de prediccinhes mayor que el retardo de la variable umbralYtd. En ese caso,

    la variable umbral no ser observada, con lo que ser complicado encontrar la forma

    analtica de las predicciones. Tong (1990) muestra como hacerlo mediante ecuaciones

    de Chapman-Kolmogorov las predicciones, lo que para estructuras TAR muy complejas

    puede resultar extremadamente dificultoso. Clements y Smith (1997) muestran diferen-

    tes mtodos de computacin que permiten el clculo de predicciones en modelos TAR

    mediante simulaciones. Para realizar estas simulaciones ser necesario estimar la den-

    sidad condicionada del proceso. En la seccin2.6mostraremos ms detenidamente las

    diferentes formas de calcular predicciones empleando un tipo de modelo TAR.

    1.2.3 Aplicaciones en energa elica

    El uso de la energa elica como fuente de energa renovable ha experimentado un gran

    incremento en la ltima dcada. Por ejemplo, como podemos ver en la figura1.9a,

    la potencia instalada en Espaa ha pasado de ser el 3.4% del total instalado en 2000

    (1875MW) a ser el 19.4% (19959MW) en 2010. Como vemos en la figura 1.9aen apenas

    10 aos la potencia instalada correspondiente a las energas renovables ha pasado de

    estar por debajo del 40% a rondar el 50% del total. En particular vemos como la energa

  • 8/10/2019 Bermejo. Metodos Estadisticos en Series Temporales

    32/159

    14 Captulo 1. Introduccin

    elica ha pasado de ser una energa residual dentro de las renovables a representar casi

    la mitad de la potencia instalada.Con la demanda cubierta por las diferentes fuentes energticas sucede algo seme-

    jante. Como vemos en la figura1.9b, la potencia elica adquirida en el mercado energ-

    tico ha pasado de ser prcticamente inexistente a cubrir en el ao 2010 el 15.6% del total

    demandado. Este aumento ha provocado la necesidad de obtener mejores predicciones

    tanto para poder optimizar su integracin en el mercado energtico como por motivos

    de operatividad del sistema elctrico.

    2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 20100

    0.2

    0.4

    0.6

    0.8

    1

    Energ a e li ca Res to de renovables Energ a nuclea r Res to de no renovables

    (a) Porcentaje de potencia instalada.

    2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 20100

    0.2

    0.4

    0.6

    0.8

    1

    Energ a e li ca Res to de renovables Energ a nuclea r Res to de no renovables

    (b) Porcentaje de demanda elctrica.

    Figura 1.9: Evolucin del sistema elctrico espaol

    Propuesta de clculo de predicciones puntuales

    La desventaja de la energa elica en el mercado elctrico respecto a otras fuentes de

    energa es su incertidumbre. Para minimizar esta incertidumbre es necesario obtener

    predicciones que permitan su integracin en el mercado elctrico. Estas predicciones

    deben ser a muy corto plazo, debido a la existencia de un mercado elctrico intradiario.

    La realizacin de predicciones puntuales de potencia elica empleando modelos es-

    tadsticos ha sido ampliamente estudiada en aos recientes (Snchez, 2006a; Costa et al.,

    2008; Giebel et al., 2011). El uso de un modelo que permite la existencia de diferentes

    regmenes de comportamiento entre los que ir cambiando dependiendo del valor de

    una variable observada puede ser muy til para modelar la potencia elica, puesto que

    es un proceso que cambia de manera abrupta como vemos en la figura1.10. Por ello,

    proponemos emplear modelos por umbrales para realizar predicciones a corto plazo en

    potencia elica, como tambin hiciera Pinson et al. (2008).

  • 8/10/2019 Bermejo. Metodos Estadisticos en Series Temporales

    33/159

    1.2. Problemas tratados en la tesis 15

    50 100 150 200 250 300 350 400 450 500 550 6000

    0.1

    0.2

    0.3

    0.4

    0.5

    0.6

    0.7

    0.8

    0.9

    1

    t

    pt

    Figura 1.10: Ejemplo de serie de datos de produccin elica

    Propuesta de estimacin de densidades condicionadas

    Las predicciones puntuales no son suficientes, ya que en ocasiones se hace necesario

    obtener la estimacin de la densidad predictiva, para as tener un mejor conocimiento

    acerca del comportamiento de las predicciones (Diebold y Lpez, 1996). En los ltimos

    aos han sido mltiples las propuestas de mtodos de estimacin de densidades pre-

    dictivas, como puede verse en Tay y Wallis (2000), Mitchell (2008) o Clements y Harvey

    (2010).

    En particular, la utilizacin de funciones de densidad predictiva para la energa

    elica permitir, entre otras cosas, mejorar la gestin de las reservas de energa elc-trica, mejorar la programacin de las centrales de energa elctrica convencionales y

    minimizar el riesgo que cometen los agentes que ofrecen energa elica en el mercado

    elctrico.

    El problema de estimacinde densidades predictivas no ha sido muy tratado cuando

    trabajamos con la potencia elica. En este caso la estimacin es ms compleja an que

    en los casos tratados tradicionalmente, ya que la variable es no gaussiana, y adems

    est acotada entre 0 y la potencia nominal. Como en general se trabaja estandarizando

    la potencia producida por la potencia nominal, los datos estarn acotados entre 0 y 1.

    Entre las propuestas realizadas en la literatura, existen diferentes puntos de vista

    desde los que abordar el problema de la estimacin de la densidad predictiva. Una

    posible opcin es trabajar directamente con la distribucin de la velocidad del viento

    para luego emplear la relacin no lineal existente entre velocidad y potencia generada

    para poder estimar la distribucin de la potencia (p.ej., Lange, 2005; Carta et al. 2009).

    Otra propuesta similar, aunque ms compleja, se basa en la realizacin de mltiples

    predicciones de variable metereolgicas a partir de las cuales se estima la distribucin

    de la produccin (p.ej., Nielsen et al. 2004; Pinson y Madsen 2009; Taylor et al. 2009).

    Por ltimo otras propuestas diferentes se basan la estimacin de la densidad pre-

  • 8/10/2019 Bermejo. Metodos Estadisticos en Series Temporales

    34/159

    16 Captulo 1. Introduccin

    dictiva a partir de los datos histricos de la potencia y de sus predicciones (p.ej., Blud-

    szuweit et al.,2008; Al-Awami y El-Sharkawi, 2009; Lau y McSharry, 2010; Pinson, 2010).Este punto de vista ser el empleado en nuestra propuesta de estimacin. Empleando

    las predicciones de potencia estimaremos de manera adaptativa los momentos condi-

    cionados de los errores de prediccin. Con estos momentos condicionados, estimare-

    mos la senda de predicciones predictiva ajustando diferentes distribuciones paramtri-

    cas.

    1.3 Estructura de la tesis

    La tesis consta de 6 captulos. En este primer captulo se han introducido los diferentesproblemas que hemos tratado a lo largo de la tesis. Para ello realizaremos una de-

    scripcin de diferentes tcnicas existentes para analizar series temporales no lineales.

    Adems se introducen los problemas bsicos a los que nos hemos enfrentado en esta

    tesis como son, por una parte, la identificacin de no linealidad en datos temporales,

    y por otra la estimacin de densidades predictivas y el clculo de predicciones pun-

    tuales empleando modelos no lineales. En particular, en estas ltimas tareas nos con-

    centraremos en su aplicacin a datos provenientes de la potencia producida por par-

    ques elicos, por lo que introduciremos diferentes tcnicas existentes que se emplean

    para este tipo de datos.A lo largo de esta tesis nos hemos centrado en un tipo de modelos no lineales, que

    son los modelos por umbrales, por ello en el captulo 2 repasamos de manera exhaus-

    tiva los diferentes tipos de modelos por umbrales que se han propuesto. En particular,

    repasaremos los modelos autorregresivos por umbrales.

    Los principales resultados de la tesis se encuentran en los captulos 3, 4 y 5. En el

    captulo 3 desarrollamos un procedimiento que permitir identificar y modelizar los

    modelos autorregresivos por umbrales. Dicho procedimiento se basa en dos puntos

    principales, por una parte ordenamos los datos respecto a la variable que provoca la no

    linealidad, como ya hicieron en sus propuestas de contrastes Petruccelli y Davies (1986)

    y Tsay (1989), y por otra parte, empleamos un mtodo de estimacin recursiva sobre

    los datos ordenados para as poder detectar posibles cambios estructurales provoca-

    dos por la variable que empleamos para realizar la ordenacin. A lo largo del captulo

    mostraremos el mtodo recursivo empleado as como sus principales propiedades y jus-

    tificaremos porqu la ordenacin no altera la dependencia temporal de la variable. Por

    ltimo compararemos el procedimiento propuesto con diferentes contrastes existentes

    mostrando como los mejoraremos.

    En el captulo 4 se trata la estimacin de la densidad predictiva, cuando la variable

  • 8/10/2019 Bermejo. Metodos Estadisticos en Series Temporales

    35/159

    1.3. Estructura de la tesis 17

    empleada es la potencia generada por un parque elico. Mostraremos de que manera

    las caractersticas principales de este tipo de datos que complican la estimacin de ladensidad predictiva, as como el mtodo de estimacin adaptativa mediante el que pro-

    ponemos estimar los momentos centrales de las predicciones puntuales. Empleando es-

    tos momentos detallaremos como estimar la densidad predictiva empleando diferentes

    distribuciones. Por ltimo, evaluaremos las estimaciones de las densidades predictivas.

    La estimacin de la densidad predictiva es empleada a lo largo del captulo 5 para

    realizar estimaciones puntuales empleando un modelo no lineal. Es conocido, que el

    clculo de modelos no lineales puede ser en ocasiones complejo. En particular, emple-

    ando modelos autorregresivos por umbrales a horizontes elevados es habitual emplear

    un procedimiento de Monte Carlo para calcular las predicciones. Para ello es necesa-rio realizar una estimacin de la densidad predictiva si queremos evitar el supuesto de

    normalidad en la variable, supuesto que en el caso de datos de potencia elica no se

    cumple.

    Por ltimo en el captulo 6, resumiremos las principales conclusiones as como las

    principales contribuciones contenidas en la tesis.

  • 8/10/2019 Bermejo. Metodos Estadisticos en Series Temporales

    36/159

    18 Captulo 1. Introduccin

  • 8/10/2019 Bermejo. Metodos Estadisticos en Series Temporales

    37/159

    Captulo 2

    Modelos autorregresivos porumbrales

    La forma general de un modelo por umbrales (TAR,Threshold Autoregressive) es

    Yt= a(Jt)0 +

    pXi=1

    a(Jt)i Yti+ b

    (Jt)et; (2.1)

    donde los fetg son variables aleatorias independientes e idnticamente distribuidas conE[et] = 0y V[et] =

  • 8/10/2019 Bermejo. Metodos Estadisticos en Series Temporales

    38/159

    20 Captulo 2. Modelos autorregresivos por umbrales

    2.1 Tipos de modelos por umbrales

    Un modelo autorregresivo por umbrales auto-alimentado (SETAR(k;p1,...,pk;d),Self-Exciting Threshold Autoregressive)conkregmenes, siendok2, se define como

    Yt=kXi=1

    (i)0 +

    (i)1 Yt1+ ::: +

    (i)piYtpi+ e

    (i)t

    I (Ytd2i) ; (2.2)

    dondeies una particin del dominio (1; 1)de manera que[ki=1i = (1; 1)yi\ j =;,8i6= j. Las particiones del dominio estn dictadas por el valor de la va-riable umbralYtd, donded (d

    2Z+) es conocido como parmetro delay,y se forman

    mediantei = (ri1; ri]. Los valores ri son los umbrales y cumplen que1 = r0 2, E(jYtjq)

  • 8/10/2019 Bermejo. Metodos Estadisticos en Series Temporales

    47/159

    2.4. Seleccin de la estructura autorregresiva 29

    Akaike (1973) desarrolla a partir de la divergencia de Kullback-Leibler el criterio de

    seleccin AIC, cuya forma para modelos SETAR ser,

    AIC([p1;:::;pk]) =kXi=1

    hnilog

    nb2(i)o+ 2 (pi+ 1)i : (2.15)Tong (1983, 1990) propuso seleccionar los ordenes autorregresivos de los diferentes

    rgimenes en un modelo SETAR empleando el criterio AIC, aunque no mostr ninguna

    justificacin terica.

    Hurvich y Tsai (1989) propusieron una modificacin del AIC para obtener una mejor

    correccin del sesgo, el criterio de informacin de Akaike corregido (AICc, corrected

    Akaike Information Criteria). El AICc para modelos SETAR fue hallado por Wong y Li(1998) y est definido como

    AICc( [p1;:::;pk] )=kXi=1

    nilog

    nb2(i)o+ ni(ni+pi+ 1)(nipi 3)

    : (2.16)

    McQuarrie et al. (1997) muestran que la correccin del sesgo del AICc no es ade-

    cuada. Por ello propusieron un criterio de informacin asintticamente insesgado. La

    forma del AICu (unbiased Akaike Information Criteria) para modelos SETAR, deducida

    por De Gooijer (2001) es

    AICu( [p1;:::;pk] )=AICc( [p1;:::;pk] )+kXi=1

    nilog

    ni

    nipi 2

    : (2.17)

    2.4.2 Criterios de informacin Bayesianos

    El principal problema de los criterios de informacin basados en la idea de Akaike es

    que la seleccin de los ordenes autorregresivos no es consistente. Una de las propuestas

    ms populares que soluciona el problema de la falta de consistencia es el criterio deinformacin Bayesiano (BIC,Bayesian Information Criteria). Su nombre se debe a que el

    criterio fue desarrollado empleando argumentos Bayesianos (ver, p.ej., Akaike, 1977;

    Schwarz, 1978). La forma del criterio BIC para modelos SETAR ser

    BIC( [p1;:::;pk] )=kXi=1

    hnilog

    nb2(i)o+ (pi+ 1) log (ni)i : (2.18)Ms recientemente, se han propuesto tcnicas bayesianas de seleccin de modelos

    basadas en mtodos de cadenas de Markov Monte Carlo (p.ej., Campbell, 2004; Unnikr-

  • 8/10/2019 Bermejo. Metodos Estadisticos en Series Temporales

    48/159

    30 Captulo 2. Modelos autorregresivos por umbrales

    ishnan, 2004).

    2.4.3 Criterios basados en Validacin Cruzada

    El concepto de validacin cruzada se basa en la divisin de la muestra en dos sub-

    muestras disjuntas, una de las cuales es la de calibracin que se emplea para estimar

    un modelo y otra la de validacin que se emplea para evaluar el rendimiento de dicho

    modelo. Para encontrar ms informacin sobre el tema ver, por ejemplo, Stone (1974).

    Stoica et al. (1986) proponen la siguiente generalizacin de esta idea. Sea m un valor

    positivo entero y n el tamao muestra, se define el enteroL que vendr definido por

    L = [n=m], donde

    []denota la parte entera. Entonces, la idea es dividir el proceso ensubmuestras, de manera que se creen L submuestras de calibracin y Lsubmuestras

    de validacin. Siguiendo esta idea Stoica et al. (1986) proponen un criterio de seleccin

    para modelos lineales. Sea ila estimacin de un modelo AR(p) en la submuestra de

    calibracin i-sima y sea Ii la muestra de validacin i-sima, entonces el criterio de

    seleccin basado en validacin cruzada se calcula mediante

    CVm(p) =LXi=1

    Xt2Ii

    nYt Xti

    o2; (2.19)

    Como puede verse el criterio (2.19) depender de la eleccin de m. Stone (1974) re-comienda emplearm= 1, en cuyo caso nos encontramos ante el mtodo habitualmente

    conocido como validacin cruzada dejar-uno-fuera (leave-one-out). El problema

    es que la propuesta de Stone (1974) fue en el mbito de modelos de regresin lineal, no

    para el mbito de las series temporales, a pesar de ello De Gooijer (2001) empleam= 1.

    El criterio de seleccin basado en validacin cruzada para modelos SETAR fue pro-

    puesto por De Gooijer (2001), y viene definido por

    C1([p1;:::;pk]) =L

    Xi=him

    Xt=im+1 e2t ni([p1;:::;pk])o ; (2.20)

    donde i es la estimacin en la submuestra de validacin i-sima de los parmetros

    autorregresivos del modelo SETAR (2.2)y los residuos predictivose2t sern calculados

    e2t

    ni([p1;:::;pk])

    o= Yt;i Yt;i; (2.21)

    donde Yt;i es la prediccin un paso adelante empleando la muestra de calibracin i-

    sima de la observacin Yt;i de la muestra i-sima de validacin. De Gooijer (2001)

    siguiendo el espiritu de las modificaciones que se han ido efectuando en el criterio AIC,

  • 8/10/2019 Bermejo. Metodos Estadisticos en Series Temporales

    49/159

    2.4. Seleccin de la estructura autorregresiva 31

    propuso un criterio de validacin cruzada corregido definido como

    CC([p1;:::;pk]) =n log 1

    nC1([p1;:::;pk])

    +

    kXj=1

    2 (pj+ 2) (pj+ 3)

    njpj 3 : (2.22)

    De igual manera propuso un criterio de validacin cruzada insesgado, que puede

    ser definido segn

    CU([p1;:::;pk]) =n log

    1

    nC1([p1;:::;pk])

    +

    kXj=1

    njlog

    nj

    njpj 2

    2 (pj+ 2) (pj+ 3)

    njpj 3

    :

    (2.23)

    2.4.4 Criterios de seleccin Bootstrap

    hrvik y Schoier (2005) proponen un procedimiento basado en mtodos Bootstrap para

    seleccionar los rdenes de modelos SETAR. Estos criterios se basan en la estimacin

    del error de prediccin por una media ponderada de la tasa de error aparente de la

    muestra y de la tasa de error media obtenida de muestras Bootstrap que no contienen

    a la observacin que estamos prediciendo. De esta manera corrige la subestimacin

    del error producido por la estimacin del error aparente. Sea Yt;g la prediccin de Yt

    empleando elg-simo modelo, el error aparente vendr dado por

    "g = 1

    n pnX

    t=p+1

    Yt Yt;g

    2: (2.24)

    El problema de los mtodos Bootstrap es que asumen que el remuestreo con reem-

    plazamiento se realiza sobre observaciones independientes e idnticamente distribuidas,

    asuncin que habitualmente no se cumple en series temporales. Para solucionarlo

    hrvik y Schoier (2005) emplean diferentes aproximaciones para obtener las mues-

    tras Bootstrap. Una vez obtenidas lasBmuestras Bootstrap, se puede diferenciar entre

    aquellas en las cuales la observacin a predecir Ytest incluida y en las que no lo est.

    La idea de hrvik y Schoier (2005) es emplear la media del error de las muestras Boot-

    strap que no contienen al punto que est siendo predicho para ajustar la tasa de error

    aparente. Dicha media vendr definida por

    "Bg = 1

    n pnX

    t=p+1

    Xb2At

    Yt Ybt;g

    2#At

    ; (2.25)

    donde At son los ndices de las muestras Bootstrap que no contienen la t-sima ob-

  • 8/10/2019 Bermejo. Metodos Estadisticos en Series Temporales

    50/159

    32 Captulo 2. Modelos autorregresivos por umbrales

    servacin e Ybt;g es la prediccin de Ytempleando el g-simo modelo sobre la b-sima

    muestra Bootstrap. Entonces, el criterio Bootstrap para seleccionar modelos SETARviene definido por

    BSC([p1;:::;pk]) = "g+ (1 exp(1))

    "Bg "g

    : (2.26)

    hrvik y Schoier (2005) proponen adems modificaciones del criterio corrigiendo

    los mismos defectos que las correcciones efectuadas al AIC. Entonces el criterio Boot-

    strap corregido ser

    BSCc([p1;:::;pk]) = (n p)log fBSC([p1;:::;pk])g 2k

    Xj=1

    (pj+ 1) +

    k

    Xj=1

    nj(nj+ pj+ 1)

    nj+pj 3 ;(2.27)

    y el criterio Bootstrap insesgado vendr definido por

    BSCu([p1;:::;pk]) =BSC([p1;:::;pk]) +kXj=1

    njlog

    nj

    njpj 2

    : (2.28)

    2.4.5 Mejora de criterios de seleccin

    Hurvich et al. (1990) proponen una mejora del criterio AIC para su uso en seleccin

    de ordenes de un proceso autorregresivo en muestras pequeas. Su mejora se basa en

    una aproximacin de la esperanza de la divergencia de Kullback-Leibler basada en el

    determinante de la estimacin de la matriz de covarianzas del proceso autorregresivo.

    Dado que el modelo SETAR se compone de procesos autorregresivos, Galeano y

    Pea (2007) emplean la idea de Hurvich para mejorar varios de los criterios de seleccin

    anteriormente mostrados. La modificacin de los criterios consiste en la adicin del

    determinante de la matriz de covarianzas al criterio de seleccin que se va a modificar.

    Por ejemplo, en el caso del AIC, la modificacin propuesta por Galeano y Pea (2007),que denotaron como AIC*, es

    AIC( [p1;:::;pk] )=kXi=1

    hnilog

    nb2(i)o+ 2 (pi+ 1) + log Q(i)i ; (2.29)donde el determinante en cada rgimen se calcula empleando (p.ej., van der Leeuw,

    1994)

    Q(i)

    = 1

    jM0M

    NN0

    j; (2.30)

  • 8/10/2019 Bermejo. Metodos Estadisticos en Series Temporales

    51/159

    2.5. Identificacin de modelos SETAR 33

    siendo M y N matrices de dimensin(pipi)que contienen los elementos dados por

    Mab=

    8>>>:0 ; sia < b

    1 ; sia= b

    (i)ab ; sia > b; Nab =

    ((i)pi+(ab) ; siab0 ; sia > b

    : (2.31)

    De manera anloga a la mostrada para el criterio AIC, Galeano y Pea (2007) pro-

    ponen modificar varios criterios de seleccin como son el AICc, el BIC, el C1, el Cc y el

    Cu.

    2.5 Identificacin de modelos SETARLa realizacin de un contraste de linealidad es una buena forma de comprobar si el

    modelo SETAR empleado resume de manera adecuada la informacin contenida por

    los datos. Una de las complicaciones de los contrastes para modelos SETAR es que

    los umbralesri, i = 1;:::;k 1, no estn identificados en la hiptesis nula, por lo quela distribucin asinttica habitual del estadstico no puede ser aplicada. As pues ser

    necesario realizar otra aproximacin de la distribucin.

    Adems, el uso de un modelo por umbrales conlleva la necesidad de estimar cul es

    la variable umbral y la particin del espacio de los estados. La estimacin de la variable

    umbral no es una gran complicacin puesto que se pueden probar diferentes variables

    y seleccionar entre ellas empleando algn criterio de seleccin.

    El problema ms complicado es la identificacin de la particin del espacio de los

    estados, o lo que es lo mismo la estimacin de los umbrales. Tsay (1989) y Tong (1990)

    identifican los valores de los umbrales mediante un anlisis visual de diferentes gr-

    ficos. Otra opcin propuesta es emplear algoritmos de bsqueda intensiva probando

    diferentes valores posibles.

    2.5.1 Contrastes de linealidad

    SeaYtun proceso estrictamente estacionario, se quiere contrastar la hiptesis nula

    H0 : Yt= 0+pXj=1

    jYtj+ et; (2.32)

    contra la alternativa

    H1: Yt= 0+p

    Xj=1jYtj+

    24

    0+

    p

    Xj=1jYtj

    35

    I (Ytdr) + et: (2.33)

  • 8/10/2019 Bermejo. Metodos Estadisticos en Series Temporales

    52/159

    34 Captulo 2. Modelos autorregresivos por umbrales

    El contraste a emplear ser diferente dependiendo de la forma del procesofetg, es

    decir, de si es homocedstico o heterocedstico. En ambos casos se supone que el ordendel proceso autorregresivop y el valor del parametro delay d sonconocidosyqueelvalor

    del umbralrpermanece dentro de un intervalo conocidoIr. Este intervalo es tomado,

    en general, seleccionando un porcentaje de puntos en el centro de la muestra. En esta

    seccin se repasan los diferentes contrastes de linealidad que se han ido proponiendo,

    centrndonos en aquellos contrastes especficos en los que la hiptesis alternativa a la

    linealidad es la existencia de un modelo SETAR.

    Contraste de ratio de verosimilitud

    Seafetgun proceso independiente e idnticamente distribuido segn N(0; ), siendo x jH0 g 1 exp(22p+1(x) xp + 1 1p+1Xi=1ZIr hi(y) dy) ; (2.35)

    donde 2j() denota la funcin de densidad de probabilidad de la distribucin ji-cuadradode Pearson conjgrados de libertad y

    hi(y) =dJi(y)

    dy ; (2.36)

    siendo

    Ji(y) =1

    2log

    P0(Yty)P0(Yt> y) ; 1i < p; (2.37)

  • 8/10/2019 Bermejo. Metodos Estadisticos en Series Temporales

    53/159

  • 8/10/2019 Bermejo. Metodos Estadisticos en Series Temporales

    54/159

    36 Captulo 2. Modelos autorregresivos por umbrales

    mediante

    Sn= maxr2Ir u0

    Mn(r

    ) u; (2.42)donde

    Mn(r) =

    hX10rX

    1rX10rX1r

    X0X

    1X10rX

    1r

    i1X10r ; (2.43)

    siendo X = [Yh;:::;Yn]0, donde Yt = (1; Yt1;:::;Ytp)

    0 y X1r = XI(Ytdr).Adems el vector use calcula empleando

    u= u X X0X1X0u; (2.44)donde u es un vector de nmeros aleatorios con distribucin N(0; In). Entonces, la

    distribucin asinttica de Snpuede ser aproximada a partir de la realizacin de replicasprovenientes de la expresin (2.42). De esta manera, ya que Fnconverge en distribucin

    aSnse hallan los niveles de significacin.

    Enelcasodeque fetg sea un proceso heterocedstico, el desarrollo es idntico al casohomocedstico, cambiando nicamente en el clculo del vector de nmeros aleatorios

    u, que para el caso heterocedstico se har mediante

    u= X X0X1X0; (2.45)donde = (u et) =, siendo u un vector de nmeros aleatorios con distribucin N(0; In).

    Distribucin asinttica basada en mtodos Bootstrap Hansen (1996) muestra que

    la distribucin asinttica de(2.34) puede aproximarse mediante el siguiente procedi-

    miento Bootstrap. Sea futg un proceso de nmeros aleatorios independientes muestrea-dos a partir de una distribucin N(0; 1). Entonces, el estadstico Bootstrap se calcula

    mediante

    FBn = supr2Ir

    (Fn(r)) ; (2.46)

    donde

    Fn(r) =n

    2 (r) 202 (r)

    ; (2.47)

    siendo 2 (r)la varianza residual de la regresin de los nmeros aleatorios utsobre

    el procesoYt mostrado en (2.33). Hansen (1996) muestra que la distribucin de FBnconverge dbilmente en probabilidad a la distribucin de la hiptesis nula de Fnbajo

    diferentes alternativas para en la expresin (2.33). Entonces, la aproximacin Boot-

    strap a los niveles de significacin asintticos ser el porcentaje de muestras Bootstrap

    en las cualesFBn es mayor queFn.

  • 8/10/2019 Bermejo. Metodos Estadisticos en Series Temporales

    55/159

    2.5. Identificacin de modelos SETAR 37

    El caso heterocedstico es diferente en el caso de la aproximacin Bootstrap. Sea

    fetg un proceso independiente e idnticamente distribuido segnN(0; t), siendot p + 1 ; (2.50)

    adems

    M(r) = 1

    n

    n

    Xi=1Xt(r

    )Xt(r)0 ; (2.51)

    y

    V (r) = 1

    n

    nXi=1

    Xt(r)Xt(r

    )0 e2t ; (2.52)

    siendoXt(r) = [Y0tI (Ytdr) ; Y0tI (Ytd> r)]0, dondeYt= (1; Yt1;:::;Ytp)0. En-tonces, el procedimiento para obtener los niveles de significacin asintticos del estads-

    ticoWnser idntico al detallado para el caso homocedstico, salvo que los nmeros

    aleatorios futg vendrn generados por una distribucin N(0; et).

    Contrastes de bondad de ajusteExisten multitud de contrastes de bondad de ajuste en diferentes campos. Ling y Tong

    (2011) hacen una revisin de los ms significativos en el campo de las series temporales.

    En esta seccin se van a revisar dos propuestas que permiten contrastar lo adecuado

    que es el uso de un modelo SETAR.

    Contraste basado en contrastes del tipo Score Ling y Tong (2011) proponen un con-

    traste de bondad de ajuste general que permite comparar entre dos modelos paramtri-

    cos cualesquiera. Seanel estimador mximo verosimil de 0bajo la hiptesis nula, se

  • 8/10/2019 Bermejo. Metodos Estadisticos en Series Temporales

    56/159

    38 Captulo 2. Modelos autorregresivos por umbrales

    supone que se cumple

    pn

    n 0

    = 1nXt=1

    Dt(0)pn

    + op(1) ; (2.53)

    dondeDt(0)denota elscorede evaluado en0y =E

    Dt(0) Dt(0)0es la matriz

    de informacin.

    El contraste propuesto por Ling y Tong (2011) se basa en el proceso emprico

    Tn(r; 0) = 1p

    n

    n

    Xt=1Dt(0) I (Ytdr) : (2.54)

    Entonces, estudiando el proceso(2.54)y observando el supuesto (2.53), se define la

    matriz de informacin r =E

    Dt(0) Dt(0)0 I (Ytdr)

    ,yelvalor A= inffr: = rg,

    siendo generalmenteA=1. Ling y Tong (2011) proponen entonces emplear el estads-tico

    San= maxarA

    h01nr Tn

    r; n

    i20

    1na 1n

    ; (2.55)

    siendoun vector de constantes diferentes a cero de dimensin(p

    1). Adems nry

    nson los estimadores dery de, y se calculan mediante

    nr =nXt=1

    Dt

    n

    Dt

    n

    0I (Ytdr)

    n ; (2.56)

    y

    n=nXt=1

    Dt

    n

    Dt

    n

    0n

    : (2.57)

    Ling y Tong (2011) explican que la eleccin de es un problema actualmente abierto,puesto que encontrar su ptimo llevara a buscar la distribucin asinttica de maxSanen lugar de la deSan, lo que complicara el problema. En la prctica proponen emplear

    = (1;:::; 1)0. Como valor deaproponen emplear el cuantil5p%de la muestra.

    La aproximacin a los valores crticos deSanpara rechazar la hiptesis nula con un

    nivel de significacinse podr calcular mediante P(San> C). Ling y Tong (2011)

    muestran que la constanteCes calculada empleando

    P max2[0;1] B2 ()C= ; (2.58)

  • 8/10/2019 Bermejo. Metodos Estadisticos en Series Temporales

    57/159

    2.5. Identificacin de modelos SETAR 39

    siendoB ()un movimiento Browniano estndar. Entonces, dado que segn Schorack

    y Wellner (1986, p.34),

    P

    max2[0;1]

    B2 ()x

    = 1 4

    1Xk=0

    (1)k2k+ 1

    exp

    "(2k+ 1)

    2 2

    8x

    #; x >0; (2.59)

    se puede obtener queC0:1= 3:83,C0:05= 5:00yC0:01 = 7:63.

    Modelo paramtrico contra modelo no paramtrico Generalmente los contrastes de

    bondad de ajuste comparan modelos no lineales con lineales, o con otros no lineales.Una opcin interesante sera comparar el modelo no lineal con uno no paramtrico. Cai

    et al. (2000) muestran como un posible ejemplo el contraste de un modelo SETAR contra

    un modelo de coeficientes variables. Un modelo SETAR puede ser escrito como

    Yt= a1(Ytd; ) Yt1+ ::: + ap(Ytd; ) Ytp+ et; (2.60)

    donde es un vector de parmetros desconocidos. Mientras que un modelo de coefi-

    cientes variables puede ser escrito en la forma general de un modelo autorregresivo

    funcional

    Yt= a1(Ytd) Yt1+ ::: + ap(Ytd) Ytp+ et: (2.61)

    Entonces, la suma de cuadrados residual bajo la hiptesis nula vendr dada por

    SC R0= 1

    n

    nXt=p+1

    nYt a1

    Ytd;

    Yt1 ::: ap

    Ytd;

    Ytp

    o2; (2.62)

    y bajo la hiptesis alternativa

    SC R1= 1

    n

    nXt=p+1

    fYt a1(Ytd) Yt1 ::: ap(Ytd) Ytpg2 : (2.63)

    De esta manera el estadstico vendr definido por

    Tn= SC R0 SC R1

    SC R1;

    donde la hiptesis nula ser rechazada para valores grandes de Tn. Cai et al. (2000)

    proponen un procedimiento Bootstrap para encontrar los valores crticos de Tn:

  • 8/10/2019 Bermejo. Metodos Estadisticos en Series Temporales

    58/159

    40 Captulo 2. Modelos autorregresivos por umbrales

    Contrastes basados en el contraste de aditividad de Tukey

    Tsay (1986) desarroll un contraste general de no linealidad basado en el contraste deaditividad de Tukey (1949), mostrando adems que era ms potente que el propuesto

    por Keenan (1985). Por otra parte, Petruccelli y Davies (1986) propusieron un contraste

    especfico para modelos SETAR basndose en la idea de ordenar los datos respecto a

    la variable umbral, para as conseguir agrupar las observaciones pertenecientes a cada

    rgimen de comportamiento. Finalmente, Tsay (1989) propuso un contraste para detec-

    tar modelos SETAR uniendo la idea de Petruccelli y Davies (1986) con la de Tsay (1986).

    El contraste propuesto por Tsay (1989) ha sido uno de los ms empleados a lo largo

    de la literatura, debido, principalmente, a que el valor del umbral rno influye en el con-

    traste, por lo que no es necesario asumir ningn tipo de estructura previa en el modeloSETAR contrastado. Esto se debe a que el modelo SETAR(k;p,d) de la hiptesis alterna-

    tiva no depende del parmetror, ya que Tsay (1989) escribe el modelo en forma de un

    proceso autorregresivo ordenado. Para ello la serieY1; : : : ; Y ndes ordenada de menor

    a mayor obteniendo una nueva serieY1 ; : : : ; Y nd , donde icontiene los ndices del

    vector ordenado. Entonces, el modelo de la hiptesis alternativa en forma de autorre-

    gresivo ordenado sera

    Yi+d= (k)0 +

    p

    Xj=1 (k)j Yi+dj+ e

    (k)i+d

    ; (2.64)

    siendo

    k=

    8 s ; (2.65)donde, como puede verse no ser necesario el conocimiento del umbral. La ordenacin

    de una serie temporal puede no ser un paso muy intuitivo. El ordenamiento realizado

    asegura que los trminos de la derecha en (2.64) son los retardos del trmino de la

    izquierda, por lo tanto las filas sern intercambiables si el proceso de las innovaciones

    es independiente de las observaciones. En la seccin3.1se darn ms detalles sobre elmodelo autorregresivo ordenado y sus propiedades.

    Empleando un proceso autorregresivo ordenado Tsay (1989) propuso el siguiente

    procedimiento para contrastar la existencia de un modelo SETAR.

    1. Coger las primerasmobservaciones de la serie ordenada (m= 30es lo recomen-

    dado por Tsay) y realizar por mnimos cuadrados la regresin siguiente,

    Yi+d= 0+

    p

    Xj=1jYi+dj+ ei+d; i= 1; : : : ; m : (2.66)

  • 8/10/2019 Bermejo. Metodos Estadisticos en Series Temporales

    59/159

    2.5. Identificacin de modelos SETAR 41

    De esta manera se estima el vector de coeficientes m.

    2. Calcular los residuos predictivos estandarizados un paso adelante mediante,

    em+1+d= Ym+1+d0;mpXj=1

    j;mYm+1+dj: (2.67)

    Incorporar el puntom + 1a la muestra y realizar el paso 1, actualizando el vec-

    tor de coeficientes empleando mnimos cuadrados recursivos, obteniendo m+1.

    Repetir de manera recursiva para todas las observaciones.

    (i) Realizar la regresin lineal

    ei+d= 0+

    pXj=1

    jYi+dj+ vt; i= m + 1; : : : ; n d m: (2.68)

    Entonces el estadstico del contraste se calcula mediante

    Fn=

    X2 X1

    X1

    n d m p

    p + 1

    ; (2.69)

    donde

    X1 =ndmXt=m+1

    v2t ; (2.70)

    X2 =

    npXt=1

    e2t ;

    y la distribucin lmite de Fnser una distribucin F tal que

    FnFp+1;ndmp: (2.71)

    2.5.2 Algoritmos de bsqueda intensiva

    El uso de contrastes nos dar una idea de si el uso del modelo SETAR es adecuado o

    no, pero no nos dar la forma de la particin del espacio de los estados en el modelo

    SETAR (2.2). La mayor parte de procedimientos existentes en la literatura que permiten

    la identificacin de los umbrales, estn basados en mtodos de bsqueda intensiva.

    Dada una coleccin fj; j = 1;:::;Jg de posibles particiones del espacio de los esta-dos, se calcula la funcin de costes S(fjg)que minimiza a (2.8) mediante la expresin(2.9), para todos losj = 1;:::;J, es decir, se busca la particinjque minimiza S(

    fj

    g).

  • 8/10/2019 Bermejo. Metodos Estadisticos en Series Temporales

    60/159

    42 Captulo 2. Modelos autorregresivos por umbrales

    En la mayora de los casos, el conjunto de posibles particiones fjg ser infinito, por lo

    que es necesario acotar las posibilidades. En la prctica se escoge un valor mximo deposibles regmeneskmax (4 como mucho) y un rango dentro de la muestra de posibles

    valores de umbrales, por ejemplo, el 60 por ciento de la muestra.