models avanÇats de demanda de … · models avanÇats de demanda de transport master de...

MODELS AVANÇATS DE DEMANDA DE TRANSPORT

MASTER DE LOGÍSTICA, TRANSPORT i MOBILITAT

MASTER D’ESTADÍSTICA i INVESTIGACIÓ OPERATIVA

APUNTS DE CLASSE PROF. LÍDIA MONTERO

TEMA 5: MODELS DE REPARTIMENT MODAL.

AUTORS:

Lídia Montero Mercadé – Esteve Codina Sancho

Departament d’Estadística i Investigació Operativa

Versió 1.0

Febrer del 2.007

Models Avançats de Demanda de Transport – MASTER LTM - UPC

Prof. Lídia Montero – Esteve Codina © Pàg. 5-2 Curs 2.006-2.007

TABLA DE CONTENIDOS 5-1. MODELOS DE REPARTO MODAL: TIPOLOGÍA ___________________________________________________________________________________4 5-1.1 ELEMENTOS QUE INTERVIENEN EN EL REPARTO MODAL ________________________________________________________________________________4 5-1.2 LOS MODELOS AGREGADOS DE DISTRIBUCIÓN Y REPARTO MODAL _______________________________________________________________________8 5-1.2.1 EJEMPLO DE ORTÚZAR ET AL. 6.1 _________________________________________________________________________________________________15 5-1.2.2 EJEMPLO LOGIT MULTINOMIAL VS LOGIT CONDICIONAL_______________________________________________________________________________20 5-2. MODELOS DE DEMANDA DIRECTA_____________________________________________________________________________________________31 5-3. MODELOS DE SELECCIÓN DE ALTERNATIVAS DISCRETAS _____________________________________________________________________32 5-3.1 INTRODUCCIÓN ________________________________________________________________________________________________________________32 5-3.2 TEORÍA DE LA UTILIDAD ALEATORIA ______________________________________________________________________________________________37 5-3.3 EJEMPLOS ____________________________________________________________________________________________________________________47 5-3.4 DEDUCCIÓN DEL MODELO LOGIT MULTINOMIAL _____________________________________________________________________________________51 5-4. SELECCIÓN DE ALTERNATIVAS DISCRETAS: MNL______________________________________________________________________________53 5-4.1 PROPIEDADES DEL MODELO MNL _________________________________________________________________________________________________57 5-4.1.1 VARIACIONES INDIVIDUALES EN LOS GUSTOS ________________________________________________________________________________________57 5-4.1.2 PATRONES DE SUSTITUCIÓN______________________________________________________________________________________________________59 5-4.1.2.1 Paradoja del autobús rojo-azul __________________________________________________________________________________________________60 5-4.1.2.2 Elasticidad directa y cruzada____________________________________________________________________________________________________62 5-4.1.3 BENEFICIO AL CONSUMIDOR (CONSUMER SURPLUS) ___________________________________________________________________________________63 5-4.1.4 ROL DEL TÉRMINO INDEPENDIENTE Y CHOICE-BASED SAMPLES __________________________________________________________________________64 5-5. SELECCIÓN DE ALTERNATIVAS DISCRETAS: HL (LOGIT JERARQUICO) _________________________________________________________66 5-5.1 FORMULACIÓN DEL MODELO LOGIT JERÁRQUICO ____________________________________________________________________________________66 5-5.2 MODELOS DE VALOR EXTREMO GENERALIZADO (GEV) _______________________________________________________________________________69 5-5.3 PROPIEDADES DEL MODELO LOGIT JERÁRQUICO (NESTED LOGIT) _______________________________________________________________________69 5-5.4 MNL LOGIT HETEROCEDÁSTICO__________________________________________________________________________________________________71 5-5.5 CASO PARTICULAR: ÁRBOL DE DOS NIVELES_________________________________________________________________________________________72 5-5.6 EJEMPLOS ____________________________________________________________________________________________________________________74 5-5.6.1 PROCESO SECUENCIAL DE ESTIMACIÓN DE LOS MODELOS LOGIT JERÁRQUICOS ______________________________________________________________77 5-5.6.2 OTROS PROCESOS DE ESTIMACIÓN DE LOS MODELOS LOGIT JERÁRQUICOS: FULL TREE LOGIT MODELS____________________________________________78 5-5.7 INTRODUCCIÓN A LA TEORÍA DE LOS MODELOS GEV __________________________________________________________________________________81 5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: OTROS PARADIGMAS _____________________________________________________________86 5-6.1 EL MODELO PROBIT MULTINOMIAL ________________________________________________________________________________________________86 5-6.2 PATRONES DE SUSTITUCIÓN NO IIA ________________________________________________________________________________________________90 5-6.3 VARIACIONES EN LOS GUSTOS NO OBSERVABLES (EFECTOS ALEATORIOS) ________________________________________________________________91 5-6.4 ESTIMACIÓN DE MODELOS PROBIT ________________________________________________________________________________________________94 5-7. MODELOS DESAGREGADOS: EL MODELO LOGIT MIXTO ______________________________________________________________________107 5-7.1 DEFINICIÓN Y PROBABILIDADES DE ELECCIÓN ______________________________________________________________________________________111



TABLA DE CONTENIDOS 5-7.2 EJEMPLO LOGIT JERÁRQUICO COMO CASO PARTICULAR LOGIT MIXTO ________________________________________________________________113 5-7.3 PATRONES DE SUSTITUCIÓN _____________________________________________________________________________________________________115 5-7.4 ESTIMACIÓN DEL MODELO LOGIT MIXTO __________________________________________________________________________________________116 5-7.5 CORRELACIÓN ENTRE SELECCIONES INDIVIDUALES: REPEATED CHOICES ________________________________________________________________117 5-8. ESPECIFICACIÓN Y ESTIMACIÓN DE MODELOS DE SELECCIÓN DE ALTERNATIVAS DISCRETAS ________________________________119 5-8.1 ESPECIFICACIÓN: DETERMINACIÓN DEL CONJUNTO DE ALTERNATIVAS DISPONIBLES ______________________________________________________120 5-8.2 ESTIMACIÓN DE LOS MODELOS DESAGREGADOS: VEROSIMILITUD (SIMULADA) ___________________________________________________________121 5-9. AGREGACIÓN EN DEMANDA: PREDICCIONES Y PORTABILIDAD _______________________________________________________________125



5-1. MODELOS DE REPARTO MODAL: TIPOLOGÍA

5-1.1 Elementos que intervienen en el reparto modal

Los modelos de reparto modal son probablemente los más importantes dentro del esquema de las cuatro fases. El transporte público utiliza los recursos energéticos e infraestructuras de manera más eficiente que el transporte privado y son imprescindibles para garantizar la calidad de vida de los habitantes de las ciudades medias y grandes, así como, satisfacer las cuotas de reducción de emisiones contaminantes a la atmósfera debidas al tráfico que han firmado los países europeos. El reparto modal resulta importante en entornos urbanos, pero también interurbanos. Se han desarrollado modelos sensibles a los atributos o características que influencian la elección individual del modo de transporte. Los modelos agregados de reparto modal suelen revelar una precaria validez.

Generación y Atracción de Viajes

Distribución

Reparto Modal

Asignación

DEMANDA

OFERTA



5-1.1 MODELOS DE REPARTO MODAL: CARACTERÍSTICAS A CONSIDERAR ...

La selección del modo de transporte depende de las características del VIAJERO

• Disponibilidad vehículo

• Renta • Estructura familiar • Densidad

residencial • Condicionantes del

resto del día

La selección del modo de transporte depende de las características del VIAJE

• Motivo del viaje• Hora del día • Origen-Destino:

multietapas.

La selección del modo de transporte depende de las características del MODO

• Tiempo de viaje • Tiempo de espera • Coste del viaje • Coste y

disponibilidad parking

• Confort • Regularidad • Seguridad




Los modelos de reparto modal son agregados si las variables explicativas que intervienen en la selección modal se consideran a nivel de zona de transporte o inter-zonas de transporte (por ejemplo: la densidad por zona o los tiempos de viajes modales entre zonas). Los modelos de reparto modal más obsoletos consideraron que las características más determinantes en el reparto modal eran las del viajero y por tanto, estos modelos se aplicaban después directamente de la etapa de generación/atracción de viajes y por tanto las características del viaje y del modo se omitían como variables explicativas, incluyéndose a lo sumo la disponibilidad de transporte público como un índice de accesibilidad. Esto resultó válido mientras el vehículo privado no estuvo al alcance de todo el mundo y no se daban índices elevados de congestión. En Europa, los modelos de reparto modal se aplicaron después de la etapa de distribución de los viajes y por tanto, las características del viaje, del modo y la competencia entre modos, se tuvieron en cuenta, pero resultaba más difícil de introducir las características del viajero, ya que éstas se habían agregado en la etapa de distribución anterior. Los modelos pioneros fueron bimodales (público, privado) e incluyeron una o dos características del modo y viaje como el tiempo de viaje o su coste generalizado y se observó una relación no lineal pero (monótona) creciente entre la incidencia de uso de uno de los modos sobre el resto con respecto a la diferencia de tiempos (o

coste, genéricamente, variable explicativa x) entre los modos: ( )21ijij xxx −−=∆ γ




Si xij1 < x ij

2 entonces p ij1 > p ij

2. Si x ij

1 > x ij2 entonces p ij

1 < p ij2.

Si x ij1=x ij

2 entonces p ij1=p ij

2=0.5

Las curvas empíricas que se observaron a partir de la captura de datos se denominaron curvas de dispersión (diversion curves), dado que al reparto modal se le atribuyó un mismo comportamiento que a la selección de rutas entre la tradicional y un bypass más largo, pero más rápido. Por ejemplo, en Londres se utilizaron curvas de dispersión público-privado para modelizar los viajes con destino al Centro y fuera del Centro para los distintos motivos de desplazamiento.

Técnicamente son poco sensibles a políticas de tarifas de transporte público, parking, etc ya que al ser modelos agregados las respuestas individuales de los viajeros ante cambios en política tarifaria resultan mal modelados. Las curvas logit se validaron contra la recogida de datos y surgen en el contexto de modelos de regresión generalizados con respuesta binaria, diferencia de tiempos (i,j) modales y función de enlace logít o lo que es equivalente una formulación en variable latente logística obtenida a partir de diferencias de tiempos OD modales con distribución de valor extremo máximo (ley de Gumbel, relacionada con la denominada log Weibull en contextos de fiabilidad y supervivencia, y con leyes de valor extremo mínimo o Gompertz para los estadísticos).

Probabilidad modo 1

00.10.20.30.40.50.60.70.80.9

1

-3.6

-3.2

-2.8

-2.4

-2.0

-1.6

-1.2

-0.8

-0.4 0.0 0.4 0.8 1.2 1.6 2.0 2.4 2.8 3.2 3.6 4.0

logitprobitgompitcloglog



5-1.2 ... REPARTO MODAL: MODELOS SINTÉTICOS

5-1.2 Los modelos agregados de distribución y reparto modal

Se pueden argumentar a partir de los modelos de maximización de entropía vistos en el apartado de modelos de distribución de viajes: en un contexto bimodal,

( ) ( )( )( )

( )1,2m J,q I,p 0,g C,Cg

Jq ,Dg

Ip ,Og s.t.

gglogggH MAX

mpq

m qp,

mpq

mpq

qmp,

mpq

pmq,

mpq

m qp,

mpq

mpq

mpq

=∈∀∈∀≥=

∈∀=

∈∀=

−−=

∑∑

∑

∑

∑∑

Es un problema de optimización convexo cuya función lagrangiana es:

( ) ( )( )( ) ( )

−+

−+

−+−−= ∑∑∑ ∑ ∑∑∑∑

m qp,

mpq

mpq

mq,

mpqqq

kj

mpqpp

m qp,

mpq

mpq

mpq CgCγgDβgOαggloggγβ,α,g,L

p q,

Donde las alfas y las betas representan respectivamente a los multiplicadores de Lagrange de las restricciones de generación y atracción total de las zonas y γ es el multiplicador de Lagrange de la restricción de coste total. Las condiciones de optimalidad de primer orden requieren que se anule de gradiente de la lagrangiana:




( ) { }mpqqp

mpq

mpqqp

mpqm

pq

γCβαexpgγCβαglog0gL

−−−=⇒−−−=⇒=∂∂

Y efectuando los cambios habituales de : ( ) ppp OAα- =exp ∀p∈I, ( ) qqq Dβ- Bexp = ∀q∈J la solución puede expresarse como:

{ }mpqqqpp

mpq γCexpDOAg −= B

Los coeficientes de balanceado As y Bs pueden calcularse con el algoritmo de Furness modificado y un valor inicial del parámetro a calibrar γ que sea la inversa del coste generalizado medio entre zonas. El reparto (bi)modal resultante es:

{ }{ } { }2

pq1pq

1pq

2pq

1pq

1pq1

pq γCexpγCexpγCexp

ggg

P−+−

−=

+=

En este modelo el parámetro γ juega un rol doble: actúa como parámetro de control de la dispersión en el reparto modal (inversamente proporcional al parámetro de escala de la ley logística) y también modela la selección de destinos en función del coste generalizado (p, q). Eso es demasiado para un único parámetro y en la práctica los modelos conjuntos de distribución y reparto modal empleados tienen formas más complejas. Primero, extendiendo a la posibilidad de M modos en competencia:




{ }{ }∑ −−

=++

=

k

kpq

1pq

Mpq

1pq

1pq1

pq γCexpγCexp

ggg

PK ∀p∈I, ∀q∈J

Después considerando una tipología de viajeros según sus características socio-económicas, que define H estratos

y definiendo el coste ponderado por modos de viaje entre (p, q) por estrato h como hpqK

{ } { }{ }∑ −

−−=

k

kh

h

pq

mpqh

pqhqqhp

hp

hm,pq Cexp

CexpKγexpDOAg

γγ

B donde ∑=

m

hm,pq

hm,pq

hpq CK p y

hm,pqp son

proporciones a priori (estudio anterior) de selección del modo m por el estrato h en la relación OD (p, q) Reparto modal multimodal: Multimodal split Son modelos agregados que pueden deducirse a partir de la formulación de entropía (ver apartado 0) y la hipótesis de independencia entre modos, en que la probabilidad de seleccionar el modo m se puede expresar como,

{ }{ }∑ −

−=

++=

k

kpq

mpq

Mpq

1pq

mpqm

pq γCexpγCexp

ggg

PK ∀p∈I, ∀q∈J, ∀m=1...M

Este modelo se denomina logit multinomial



5-1.3 ... REPARTO MULTIMODAL: MODELOS SINTÉTICOS

Los modelos agregados más sencillos de reparto modal son los modelos logit multinomiales que a decir verdad no pueden reflejar toda la complicación que implica la selección entre M modos en un entorno. Genéricamente la elección modal podría estructurarse a nivel conceptual de muy diferentes maneres:

Por ejemplo, M=4

1 2 3 4

↓ 1 2 3 4

1 2 3 4 1 2 3 4

↓ ↓ ↓

1 2 3 4 2 3 4

↓

3 4

La jerarquía de dicotomías es una alternativa natural y atractiva cuando las categorías de la politomía representan un proceso ordenado de selección independiente estadísticamente, por ejemplo, en un proceso de selección modal de alternativas de transporte en la ciudad de Barcelona, un viajero podría concebir el siguiente proceso de selección de modo de transporte,




Privado Colectivo

↓ ↓

Auto Taxi Bus Infraestrura Fija

↓

Metro Renfe

Veamos un ejemplo de sentido común que justifique la importancia de la independencia de las alternativas por niveles a la hora de poder formular un modelo jerárquico consistentemente. El Ejemplo procede de Mayberry (1973).

Supóngase los habitantes de una ciudad pequeña que dispone de una única línea de autobús, no existen otros modos de transporte colectivo, y la única alternativa de transporte mecanizado disponible es el transporte privado (en alguna de sus modalidades que se consideran agrupadamente).

Un estudio determina que la probabilidad de seleccionar un modo privado o el autobús para ir al centro de compras son equiprobables: P(privado)=0.5 y P(bus)=0.5 (odds de privado vs bus = 1).

Supóngase que un intento de incrementar el uso del autobús lleva pintar la mitad de la flota de rojo, y la otra mitad de azul, el nivel de servicio de la línea se mantiene igual. La selección modal por sentido común tendría que ser:

P(privado)=0.5 , P(bus rojo)=0.25 y P(bus azul)=0.25.




Selección Modal al Centro Selección Modal al Centro

↓ ↓

Privado Bus Rojo Bus Azul Privado Bus

0.5 0.25 0.25 Sentido Común 0.5 ↓

Rojo Azul 0.33 0.33 0.33 MNL

0.5 0.5

El problema es que el modelo de respuesta multinomial, no jerárquico no es adecuado, ya que los odds entre 2 categorías (modos) únicamente dependen de los costes de las 2 categorías, no se ve afectados por el coste de ninguna otra categoría, pero ésto es un problema si existen alternativas correlacionadas como es el caso de bus rojo y bus azul.

En efecto, los odds entre categorías se mantienen constantes, tal como eran antes de la brillante idea de pintar de 2 colores la flota, (odds de privado vs bus rojo = 1, privado vs bus azul = 1 y bus rojo vs bus azul = 1). Un modelo jerárquico mantendría el sentido común: odds de privado vs bus = 1 y en el segundo nivel, odds de bus rojo vs bus azul = 1. Las alternativas se agrupan en bloques de alternativas asociados o similares, no pueden haber alternativas de un grupo correlacionadas con alternativas de otro grupo.




En apartados posteriores se ilustrará la práctica de la estimación de un modelo jerárquico donde cada etapa contiene un modelo logit multinomial, en un supuesto concreto de selección de modo de transporte entre auto privado (C) , autobús (B) y metro (M), donde las 2 categorías de transporte colectivo se suponen correlacionadas.

Modelo MNL no jerárquico Modelo Jerárquico

↓ ↓

Auto Bus Metro Auto Transporte Colectivo

↓ (No válido para alternativas correlacionadas) Bus Metro

Técnicamente, estos modelos agregados de reparto modal son modelos lineales generalizados de respuesta politómica multinomial. La práctica se simplifica notablemente si se trabaja con dicotomías en cada nodo de la estructura de selección modal propuesta, ya que entonces los modelos estadísticos involucrados son modelos generalizados de respuesta binaria agregada (es decir, binomial), con procedimientos de estimación disponibles en todos los paquetes estadísticos y de planificación del transporte.




5-1.2.1 Ejemplo de Ortúzar et al. 6.1 Se dispone de los datos de una encuesta de selección modal entre automóvil y tren en un corredor que conecta 4 zonas residenciales (A,B,C,D) y 3 zonas con alta actividad económica (U, V, W). El servicio de tren del corredor es muy bueno, pero el de coche sufre de fuertes congestiones resultando a menudo más rápido el tren que el coche privado.

Se recoge información sobre INVEHTT (in vehicle travel time en min), EXCTT (tiempo a pie más de espera en min), TCOST (coste del viaje en peniques, gasolina o tarifa según el caso), PKCOST (tarifa del parking asociada con un viaje en peniques). Los datos se han introducido en R:

> bimodal od.pair car.invehtt car.exctt car.tcost car.pkcost train.invehtt train.exctt train.tcost train.pkcost pcar_train 1 A.U 23 3 120 40 19 10 72 0 0.82 2 B.U 20 3 96 40 17 8 64 0 0.80 3 C.U 18 3 80 40 14 10 28 0 0.88 4 D.U 15 3 68 40 14 12 20 0 0.95 5 A.V 26 4 152 60 23 10 104 0 0.72 6 B.V 19 4 96 60 18 9 72 0 0.90 7 C.V 14 4 60 60 11 9 36 0 0.76 8 D.V 12 4 56 60 12 11 28 0 0.93 9 A.W 30 5 160 80 25 10 120 0 0.51 10 B.W 20 5 100 80 16 8 92 0 0.56 11 C.W 15 5 64 80 12 9 36 0 0.58 12 D.W 10 5 52 80 8 9 24 0 0.64 > summary(bimodal) od.pair car.invehtt car.exctt car.tcost car.pkcost train.invehtt train.exctt train.tcost train.pkcost pcar_train A.U :1 Min. :10.00 Min. :3 Min. : 52 Min. :40 Min. : 8.00 Min. : 8.000 Min. : 20 Min. :0 Min. :0.5100 A.V :1 1st Qu.:14.75 1st Qu.:3 1st Qu.: 63 1st Qu.:40 1st Qu.:12.00 1st Qu.: 9.000 1st Qu.: 28 1st Qu.:0 1st Qu.:0.6250 A.W :1 Median :18.50 Median :4 Median : 88 Median :60 Median :15.00 Median : 9.500 Median : 50 Median :0 Median :0.7800 B.U :1 Mean :18.50 Mean :4 Mean : 92 Mean :60 Mean :15.75 Mean : 9.583 Mean : 58 Mean :0 Mean :0.7542 B.V :1 3rd Qu.:20.75 3rd Qu.:5 3rd Qu.:105 3rd Qu.:80 3rd Qu.:18.25 3rd Qu.:10.000 3rd Qu.: 77 3rd Qu.:0 3rd Qu.:0.8850 B.W :1 Max. :30.00 Max. :5 Max. :160 Max. :80 Max. :25.00 Max. :12.000 Max. :120 Max. :0 Max. :0.9500 (Other):6



5-1.3 ... REPARTO MULTIMODAL: EJEMPLO 6.1 ORTÚZAR ET AL.

1. Estimar el modelo logit de reparto modal asumiendo que el valor del tiempo es de 8 peniques por minuto y que el valor del tiempo adicional (car.exctt o train.exctt) es el doble.

2. Estimar el impacto en el reparto modal para cada pareja OD de un incremento de los precios de la gasolina que doblase el coste del viaje en coche pero no alterara la tarifa de tren.

3. Estimar cual sería el trasvase de viajes del coche al tren si la tarifa del tren fuera gratuïta. bimodal$dinvehtc <- bimodal$car.invehtc - bimodal$train.invehtc bimodal$dexctc<- bimodal$car.exctc - bimodal$train.exctc bimodal$dtcost<- bimodal$car.tcost - bimodal$train.tcost bimodal$dpkcost<- bimodal$car.pkcost - bimodal$train.pkcost resposta <- cbind( 100*pcar_train, 100*(1-pcar_train) ) > summary(m1) Call: glm(formula = resposta ~ dinvehtc + dexctc + dtcost + dpkcost, family = binomial, data = bimodal) Deviance Residuals: Min 1Q Median 3Q Max -0.6230 -0.5210 -0.1814 0.1343 1.4477 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.954013 0.948514 2.060 0.039391 * dinvehtc -0.029494 0.008490 -3.474 0.000512 *** dexctc -0.023840 0.008772 -2.718 0.006572 ** dtcost -0.023844 0.011499 -2.074 0.038116 * dpkcost -0.021760 0.007237 -3.007 0.002639 ** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 143.9910 on 11 degrees of freedom Residual deviance: 5.7255 on 7 degrees of freedom AIC: 70.032




4. Estimar el modelo logit de reparto modal sin añadir información sobre el valor del tiempo y con variable explicativa para el coste del viaje como coste total (coste del viaje más coste del aparcamento). Determinar el valor del tiempo en viaje y en espera.

5. Estimar el impacto en el reparto modal para cada pareja OD de un incremento de los precios de la gasolina que doblase el coste del viaje en coche pero no alterara la tarifa de tren.

6. Estimar cual sería el trasvase de viajes del coche al tren si la tarifa del tren fuera gratuíta.

> # Estimar l'impacte d'augment del petroli que porti a car.tcost a doblar-se > pdf1 <- bimodal > pdf1$dtcost<- 2*pdf1$car.tcost - pdf1$train.tcost > op1 <-predict( m1, newdata = pdf1, type="response", se=T ) > cbind( op1$fit, pcar_train ) pcar_train 1 0.23220594 0.82 2 0.31668039 0.80 3 0.41641245 0.88 4 0.81976150 0.95 5 0.07312894 0.72 6 0.36781262 0.90 7 0.46129143 0.76 8 0.78844946 0.93 9 0.02128689 0.51 10 0.10326707 0.56 11 0.23820584 0.58 12 0.34514269 0.64

>

> # Estimació de l'efecte de tarifa 0 en tren > pdf2 <- bimodal > pdf2$dtcost<- pdf1$car.tcost > op2 <-predict( m1, newdata = pdf2, type="response", se=T ) > cbind( op2$fit, pcar_train ) pcar_train 1 0.48715482 0.82 2 0.49848339 0.80 3 0.71143465 0.88 4 0.93457805 0.95 5 0.19859714 0.72 6 0.50765945 0.90 7 0.60279094 0.76 8 0.87902530 0.93 9 0.05343402 0.51 10 0.12231493 0.56 11 0.37873679 0.58 12 0.50679168 0.64 >



5-1.3 ... REPARTO MULTIMODAL: EJEMPLO 6.1 ORTÚZAR ET AL. > bimodal$dinvehtt <- bimodal$car.invehtt - bimodal$train.invehtt > bimodal$dexctt<- bimodal$car.exctt - bimodal$train.exctt > m2 <- glm( resposta ~ dinvehtt + dexctt + I(dtcost + dpkcost), family=binomial, data=bimodal ) > m0 <- glm( resposta ~ 1, family=binomial, data=bimodal ) > summary( m2 ) Call: glm(formula = resposta ~ dinvehtt + dexctt + I(dtcost + dpkcost), family = binomial, data = bimodal) … Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 2.055498 0.598467 3.435 0.000593 *** dinvehtt -0.239916 0.061481 -3.902 9.53e-05 *** dexctt -0.363570 0.053045 -6.854 7.18e-12 *** I(dtcost + dpkcost) -0.022440 0.005309 -4.227 2.37e-05 *** … Null deviance: 143.9910 on 11 degrees of freedom Residual deviance: 5.7445 on 8 degrees of freedom AIC: 68.051 > anova(m0, m2, test='Chisq' ) Analysis of Deviance Table Model 1: resposta ~ 1 Model 2: resposta ~ dinvehtt + dexctt + I(dtcost + dpkcost) Resid. Df Resid. Dev Df Deviance P(>|Chi|) 1 11 143.991 2 8 5.744 3 138.247 9.027e-30 > anova(m0, m2, test='Cp' ) Analysis of Deviance Table Model 1: resposta ~ 1 Model 2: resposta ~ dinvehtt + dexctt + I(dtcost + dpkcost) Resid. Df Resid. Dev Df Deviance Cp 1 11 143.991 145.991 2 8 5.744 3 138.247 13.745

Valor temps de viatge invehicle > coef(m2)[2]/coef(m2)[4] dinvehtt 10.69168 Valor temps d’espera (exctt) > coef(m2)[3]/coef(m2)[4] dexctt 16.20221




> # Estimar l'impacte d'augment del petroli > que porti a car.tcost a doblar-se > pdf1 <- bimodal > pdf1$dtcost<- 2*pdf1$car.tcost - pdf1$train.tcost > op11 <-predict( m2, newdata = pdf1, type="response")> cbind( op11$fit, pcar_train ) pcar_train 1 0.26374399 0.82 2 0.35063672 0.80 3 0.44552313 0.88 4 0.83021417 0.95 5 0.08971594 0.72 6 0.39994766 0.90 7 0.48058654 0.76 8 0.79725029 0.93 9 0.02635723 0.51 10 0.11587476 0.56 11 0.25548490 0.58 12 0.36345975 0.64

> # Estimació de l'efecte de tarifa 0 en tren > pdf2 <- bimodal > pdf2$dtcost<- pdf1$car.tcost > op20 <-predict( m2, newdata = pdf2, type="response") > cbind( op20$fit, pcar_train ) pcar_train 1 0.51262193 0.82 2 0.52543387 0.80 3 0.72072881 0.88 4 0.93488346 0.95 5 0.22443410 0.72 6 0.53316760 0.90 7 0.61321718 0.76 8 0.88053469 0.93 9 0.06228529 0.51 10 0.13557114 0.56 11 0.39144007 0.58 12 0.51697541 0.64




5-1.2.2 Ejemplo Logit Multinomial vs Logit Condicional Se dispone de datos hipotéticos (es decir, los generaremos aleatoriamente) de una encuesta de selección modal entre automóvil, autobús, tren y pie para n=100 individuos. Se dispone de las variables explicativas coste y tiempo de viaje para cada modo. Vamos a generar la muestra que dará pie a establecer la diferencia fundamental entre los modelos estadísticos estimados por defecto y los modelos combinados (con base condicional) empleados en la modelización del reparto modal.

> library(MASS)

> library(VGAM)

> # Example 4: The use of the xij argument (conditional logit model)

> n = 100 # Nb individus de la mostra

> M = 3 # Hi han M+1 modes de transport en competència

> # ymat: crea una matriu de zeros amb n files i M+1 columnes

> ymat = matrix(0, n, M+1)

> # Genera mostra de tamany 100 i sobre uniforme 1 a M+1:

> y <- sample(x=M+1, size=n, replace=TRUE)

> # Per cada individu, la mostra conté un numeret de 1 a 4 (el mode), cal posar un 1 en la columna corresponent al mode triat a ymat

> # Resultat: ymat(i,j)=1 si individu i ha triat el mode j, ymat(i,j)=0 altrament.

> ymat[cbind(1:n, y )] = 1

> dimnames(ymat) = list(NULL, c("auto","bus","tren","peu"))

> ymat[1:7, ] auto bus tren peu [1,] 0 0 1 0 [2,] 0 0 0 1 [3,] 0 0 1 0 [4,] 0 0 0 1 [5,] 0 1 0 0 [6,] 0 0 1 0 [7,] 0 0 1 0 > y[1:7] [1] 3 4 3 4 2 3 3 >



5-1.3 ... REP. MULTIMODAL: LOGIT MULTINOMIAL VS LOGIT CONDICIONAL

Crear el objeto de datos R (data.frame) con coste y durn (tiempo de viaje) por modo y las variables Cost i Durn que para cada modo son la diferencia de cost respecto el modo de referencia (cost.peu) y simetricamente para durn: > # Per cada mode es disposa de cost i durada, cadascun en una columna > transport = data.frame(ymat, y, cost.bus=runif(n), cost.tren=runif(n), + cost.auto=runif(n), cost.peu=runif(n), + durn.bus=runif(n), durn.tren=runif(n), + durn.auto=runif(n), durn.peu=runif(n)) > transport = round(transport, dig=2) # Per claretat > # Mode 4 (peu=) triat de referència: es creen Cost i Durn diferència respecte peu (4) > transport = transform(transport, + Cost.bus = cost.bus - cost.peu, + Cost.auto = cost.auto - cost.peu, + Cost.tren = cost.tren - cost.peu, + Durn.bus = durn.bus - durn.peu, + Durn.auto = durn.auto - durn.peu, + Durn.tren = durn.tren - durn.peu) > head(transport) auto bus tren peu y cost.bus cost.tren cost.auto cost.peu durn.bus durn.tren 1 0 0 1 0 3 0.04 0.52 0.96 0.08 0.46 0.80 2 0 0 0 1 4 0.14 0.35 0.61 0.54 0.72 0.23 3 0 0 1 0 3 0.77 0.69 0.85 0.72 0.44 0.08 4 0 0 0 1 4 0.69 0.68 0.45 0.69 0.60 0.13 5 0 1 0 0 2 0.28 0.34 0.03 0.64 0.54 0.52 6 0 0 1 0 3 0.78 0.01 0.95 0.82 0.38 0.72 durn.auto durn.peu Cost.bus Cost.auto Cost.tren Durn.bus Durn.auto Durn.tren 1 0.71 0.68 -0.04 0.88 0.44 -0.22 0.03 0.12 2 0.67 0.40 -0.40 0.07 -0.19 0.32 0.27 -0.17 3 0.89 0.40 0.05 0.13 -0.03 0.04 0.49 -0.32 4 0.50 0.92 0.00 -0.24 -0.01 -0.32 -0.42 -0.79 5 0.05 0.99 -0.36 -0.61 -0.30 -0.45 -0.94 -0.47 6 0.31 0.90 -0.04 0.13 -0.81 -0.52 -0.59 -0.18




Estimación del modelo logit condicional con método vglm(.) del paquete VGAM de Thomas W. Yee: # Model logit multinomial condicional on indica que els coeficients de Cost i Durn han de # ser els mateixos per cada mode: entren a la utilidad amb coeficient comú. m1.condicional = vglm(ymat ~ Cost.bus + Cost.tren + Cost.auto + Durn.bus + Durn.tren + Durn.auto, fam = multinomial, xij = list(Cost ~ Cost.bus + Cost.tren + Cost.auto, Durn ~ Durn.bus + Durn.tren + Durn.auto), data=transport) model.matrix(m1.condicional, type="lm")[1:7,] # LM model matrix model.matrix(m1.condicional, type="vlm")[1:7,] # Big VLM model matrix coef(m1.condicional) coef(m1.condicional, matrix=TRUE)

> summary(m1.condicional) Call: vglm(formula = ymat ~ Cost.bus + Cost.tren + Cost.auto + Durn.bus + Durn.tren + Durn.auto, family = multinomial, data = transport, xij = list(Cost ~ Cost.bus + Cost.tren + Cost.auto, Durn ~ Durn.bus + Durn.tren + Durn.auto)) … Coefficients: Value Std. Error t value (Intercept):1 0.193790 0.31031 0.624502 (Intercept):2 0.452096 0.29373 1.539175 (Intercept):3 0.384567 0.29766 1.291956 Cost 0.324269 0.40803 0.794727 Durn 0.038022 0.40337 0.094261 Number of linear predictors: 3 Names of linear predictors: log(mu[,1]/mu[,4]), log(mu[,2]/mu[,4]), log(mu[,3]/mu[,4]) Dispersion Parameter for multinomial family: 1 Residual Deviance: 273.5984 on 295 degrees of freedom Log-likelihood: -136.7992 on 295 degrees of freedom Number of Iterations: 3

> coef(m1.condicional, matrix=TRUE) log(mu[,1]/mu[,4]) log(mu[,2]/mu[,4]) log(mu[,3]/mu[,4]) (Intercept) 0.19379010 0.45209555 0.38456651 Cost 0.32426883 0.32426883 0.32426883

Durn 0.03802221 0.03802221 0.03802221




Estimación del modelo logit multinomial con método vglm(.) del paquete VGAM de Thomas W. Yee: no es correcto eliminar directamente las reestricciones: > # Model logit multinomial els coeficients de Cost i Durn no són > # els mateixos per cada mode: entren a la utilidad amb coeficient diferent. > m1.multi = vglm(ymat ~ Cost.bus + Cost.tren + Cost.auto + + Durn.bus + Durn.tren + Durn.auto, + fam = multinomial, + data=transport) > coef(m1.multi, matrix=TRUE) log(mu[,1]/mu[,4]) log(mu[,2]/mu[,4]) log(mu[,3]/mu[,4]) (Intercept) 0.16893659 0.5356045 0.4999525 Cost.bus 0.57936918 0.1599811 0.3446324 Cost.tren -0.09580872 0.1295857 -0.7330982 Cost.auto 0.54698547 -0.7696662 0.2897552 Durn.bus 0.10352308 -1.7803520 -1.9986496 Durn.tren -0.74342682 -0.2881240 -0.5135572 Durn.auto 0.24268914 -0.8861623 0.1203233 > summary(m1.multi) Call: vglm(formula = ymat ~ Cost.bus + Cost.tren + Cost.auto + Durn.bus + Durn.tren + Durn.auto, family = multinomial, data = transport) Pearson Residuals: ... Number of linear predictors: 3 Names of linear predictors: log(mu[,1]/mu[,4]), log(mu[,2]/mu[,4]), log(mu[,3]/mu[,4]) Dispersion Parameter for multinomial family: 1 Residual Deviance: 250.188 on 279 degrees of freedom Log-likelihood: -125.094 on 279 degrees of freedom Number of Iterations: 4

Coefficients: Value Std. Error t value (Intercept):1 0.168937 0.37149 0.454750 (Intercept):2 0.535604 0.34044 1.573265 (Intercept):3 0.499952 0.34163 1.463425 Cost.bus:1 0.579369 0.98967 0.585415 Cost.bus:2 0.159981 1.00725 0.158830 Cost.bus:3 0.344632 1.00399 0.343261 Cost.tren:1 -0.095809 0.99242 -0.096540 Cost.tren:2 0.129586 0.96520 0.134258 Cost.tren:3 -0.733098 0.98599 -0.743512 Cost.auto:1 0.546985 0.91870 0.595391 Cost.auto:2 -0.769666 0.87349 -0.881136 Cost.auto:3 0.289755 0.89663 0.323159 Durn.bus:1 0.103523 1.10301 0.093855 Durn.bus:2 -1.780352 1.07811 -1.651360 Durn.bus:3 -1.998650 1.07181 -1.864739 Durn.tren:1 -0.743427 0.93108 -0.798454 Durn.tren:2 -0.288124 0.92987 -0.309854 Durn.tren:3 -0.513557 0.92677 -0.554134 Durn.auto:1 0.242689 0.96564 0.251325 Durn.auto:2 -0.886162 0.92473 -0.958294 Durn.auto:3 0.120323 0.94846 0.126862




Estimación del modelo logit multinomial con método multinom(.) del paquete nnet del R: # Solució amb el mètode per defecte del package nnet: penseu format especificació # de la resposta és diferent i de fet la variable explicativa Cost o Durn s'ha de posar # segons la tria efectuada: transport$Cost <- transport$Cost.auto transport$Durn <- transport$Durn.auto transport[ y==2, ]$Cost <- transport[ y==2, ]$Cost.bus transport[ y==2, ]$Durn <- transport[ y==2, ]$Durn.bus transport[ y==3, ]$Cost <- transport[ y==3, ]$Cost.tren transport[ y==3, ]$Durn <- transport[ y==3, ]$Durn.tren transport[ y==4, ]$Cost<- 0 transport[ y==4, ]$Durn<- 0 > m1.mass <- multinom(y ~ Cost + Durn, data=transport) # weights: 16 (9 variable) initial value 138.629436 iter 10 value 129.671668 final value 129.659368 converged > m1.mass Call: multinom(formula = y ~ Cost + Durn, data = transport) Coefficients: (Intercept) Cost Durn 2 0.33945612 -1.627994 -2.912721 3 0.30513190 -1.528267 -2.651115 4 -0.01845862 -1.112796 -1.560384 Residual Deviance: 259.3187 AIC: 277.3187

El número de parámetros del modelo no coincide con m1.multi, éste es el logit multinomial !

> head(transport) auto bus tren peu y cost.bus cost.tren cost.auto cost.peu durn.bus durn.1 0 0 1 0 3 0.04 0.52 0.96 0.08 0.46 2 0 0 0 1 4 0.14 0.35 0.61 0.54 0.72 3 0 0 1 0 3 0.77 0.69 0.85 0.72 0.44 4 0 0 0 1 4 0.69 0.68 0.45 0.69 0.60 5 0 1 0 0 2 0.28 0.34 0.03 0.64 0.54 6 0 0 1 0 3 0.78 0.01 0.95 0.82 0.38 Cost.bus Cost.auto Cost.tren Durn.bus Durn.auto Durn.tren Durn Cost 1 -0.04 0.88 0.44 -0.22 0.03 0.12 0.12 0.44 2 -0.40 0.07 -0.19 0.32 0.27 -0.17 0.00 0.00 3 0.05 0.13 -0.03 0.04 0.49 -0.32 -0.32 -0.03 4 0.00 -0.24 -0.01 -0.32 -0.42 -0.79 0.00 0.00 5 -0.36 -0.61 -0.30 -0.45 -0.94 -0.47 -0.45 -0.36 6 -0.04 0.13 -0.81 -0.52 -0.59 -0.18 -0.18 -0.81




Estimación del modelo logit multinomial con método multinom(.) del paquete nnet del R con los mismos parámetros: > yp<-factor(y, levels=c('4','1','2','3')) > m2.mass <- multinom(yp ~ Cost.bus + Cost.tren + Cost.auto + + Durn.bus + Durn.tren + Durn.auto, data=transport) # weights: 32 (21 variable) initial value 138.629436 iter 10 value 125.159479 final value 125.094011 converged > m2.mass Call: multinom(formula = yp ~ Cost.bus + Cost.tren + Cost.auto + Durn.bus + Durn.tren + Durn.auto, data = transport) Coefficients: (Intercept) Cost.bus Cost.tren Cost.auto Durn.bus Durn.tren Durn.auto 1 0.1689013 0.5792480 -0.09602884 0.5472283 0.103583 -0.7435731 0.2429367 2 0.5356021 0.1600326 0.12932940 -0.7695516 -1.780200 -0.2882721 -0.8860066 3 0.4999457 0.3447692 -0.73345933 0.2899314 -1.998452 -0.5137646 0.1205029 Residual Deviance: 250.188 AIC: 292.188 >

Ahora si que coinciden los estimadores de m1.multi, pero hay que reconocer que puede no tener demasiado sentido que las variables de coste y tiempo de viaje de otros modos también participen en la descripción de la utilidad del modo auto (por ejemplo!): no es el modelo logit multinomial entendido en modelos de discretos.




Estimación del modelo logit combinado multinomial-condicional con método vglm(.) del package VGAM de Yee: contempla el coste con coeficiente común en todos los modos, pero el tiempo de viaje variable su coeficiente en la definición de la utilidad de los modos, así mismo los tiempos de viajes de otros modos no aparecen en la utilidad de cada uno de ellos. ¿Modelo M1 es incorrecto, asimismo M2, sabeís por qué? > # Model COMBINAT logit multinomial condicional on indica que els coeficients de Cost han de > # ser els mateixos per cada mode, però no els Durn: entren a la utilidad amb coeficient comú (Cost) i diferent (Durn). > m1.combinat = vglm(ymat ~ Cost.bus + Cost.tren + Cost.auto + + Durn.bus + Durn.tren + Durn.auto, + fam = multinomial, + xij = list(Cost ~ Cost.bus + Cost.tren + Cost.auto), + data=transport) > coef(m1.combinat, matrix=TRUE) log(mu[,1]/mu[,4]) log(mu[,2]/mu[,4]) log(mu[,3]/mu[,4]) (Intercept) 0.2179618 0.5504227 0.4885284 Cost 0.3697537 0.3697537 0.3697537 Durn.bus 0.1691331 -1.8395640 -2.0618982 Durn.tren -0.8274091 -0.2734426 -0.4801288 Durn.auto 0.1466325 -0.7766799 0.1338975 > # Model M1 fa intervenir tots els temps de viatge dels modes en cadascun d'ells: NO > m2.combinat = vglm(ymat ~ Cost.bus + Cost.tren + Cost.auto + + Durn, + fam = multinomial, + xij = list(Cost ~ Cost.bus + Cost.tren + Cost.auto), + data=transport) > coef(m2.combinat, matrix=TRUE) log(mu[,1]/mu[,4]) log(mu[,2]/mu[,4]) log(mu[,3]/mu[,4]) (Intercept) 0.1129710 0.3642013 0.3293322 Cost 0.4986201 0.4986201 0.4986201 Durn 1.4369845 -1.2663248 -1.0388187



5-1.3 ... REP. MULTIMODAL: LOGIT MULTINOMIAL VS LOGIT CONDICIONAL > summary(m2.combinat) Call: vglm(formula = ymat ~ Cost.bus + Cost.tren + Cost.auto + Durn, family = multinomial, data = transport, xij = list(Cost ~ Cost.bus + Cost.tren + Cost.auto)) Pearson Residuals: Min 1Q Median 3Q Max log(mu[,1]/mu[,4]) -1.3268 -0.51835 -0.23363 -0.10865 2.5754 log(mu[,2]/mu[,4]) -1.4084 -0.50197 -0.34649 1.09783 3.2263 log(mu[,3]/mu[,4]) -1.3660 -0.45787 -0.34779 1.22232 2.0632 Coefficients: Value Std. Error t value (Intercept):1 0.11297 0.32321 0.34953 (Intercept):2 0.36420 0.30347 1.20011 (Intercept):3 0.32933 0.30446 1.08171 Cost 0.49862 0.41923 1.18936 Durn:1 1.43698 0.99765 1.44037 Durn:2 -1.26632 0.93365 -1.35632 Durn:3 -1.03882 0.93810 -1.10737 Number of linear predictors: 3 Names of linear predictors: log(mu[,1]/mu[,4]), log(mu[,2]/mu[,4]), log(mu[,3]/mu[,4]) Dispersion Parameter for multinomial family: 1 Residual Deviance: 262.7987 on 293 degrees of freedom Log-likelihood: -131.3993 on 293 degrees of freedom Number of Iterations: 4



5-1.3 ... REP. MULTIMODAL: LOGIT MULTINOMIAL VS LOGIT CONDICIONAL > # Model COMBINAT logit multinomial condicional on indica que els coeficients de Cost han de # ser els mateixos per cada mode, però no les durades: entren a la utilidad amb coeficient comú (Cost) i diferent (Durn). # Model M1 fa intervenir tots els temps de viatge dels modes en cadascun d'ells: NO És el que es demana # Model M2 usa durada del mode triat en el càlcul de totes les utilitats: no és correcte. # Model M3 és un combinat, però de fet és un condicional amb interacció de mode a la Durada transport = transform(transport, DurnB.bus = durn.bus - durn.peu, DurnB.auto = 0, DurnB.tren = 0, DurnT.bus = 0, DurnT.auto = 0, DurnT.tren = durn.tren - durn.peu, DurnA.bus = 0, DurnA.auto = durn.auto - durn.peu, DurnA.tren = 0 ) m3.combinat = vglm(ymat ~ Cost.bus + Cost.tren + Cost.auto + DurnB.bus + DurnB.tren + DurnB.auto + DurnT.bus + DurnT.tren + DurnT.auto + DurnA.bus + DurnA.tren + DurnA.auto , fam = multinomial, xij = list(Cost ~ Cost.bus + Cost.tren + Cost.auto, DurnB ~ DurnB.bus + DurnB.tren + DurnB.auto, DurnT ~ DurnT.bus + DurnT.tren + DurnT.auto, DurnA ~ DurnA.bus + DurnA.tren + DurnA.auto ), data=transport) > coef(m3.combinat, matrix=TRUE) log(mu[,1]/mu[,4]) log(mu[,2]/mu[,4]) log(mu[,3]/mu[,4]) (Intercept) 0.09799303 0.4155546 0.3866297 Cost 0.31996453 0.3199645 0.3199645 DurnB 1.20484973 1.2048497 1.2048497 DurnT -0.53292382 -0.5329238 -0.5329238 DurnA -0.19980580 -0.1998058 -0.1998058



5-1.3 ... REP. MULTIMODAL: LOGIT MULTINOMIAL VS LOGIT CONDICIONAL > summary(m3.combinat) Call: vglm(formula = ymat ~ Cost.bus + Cost.tren + Cost.auto + DurnB.bus + DurnB.tren + DurnB.auto + DurnT.bus + DurnT.tren + DurnT.auto + DurnA.bus + DurnA.tren + DurnA.auto, family = multinomial, data = transport, xij = list(Cost ~ Cost.bus + Cost.tren + Cost.auto, DurnB ~ DurnB.bus + DurnB.tren + DurnB.auto, DurnT ~ DurnT.bus + DurnT.tren + DurnT.auto, DurnA ~ DurnA.bus + DurnA.tren + DurnA.auto)) ... Coefficients: Value Std. Error t value (Intercept):1 0.097993 0.32454 0.30194 (Intercept):2 0.415555 0.29800 1.39447 (Intercept):3 0.386630 0.29771 1.29867 Cost 0.319965 0.41066 0.77915 DurnB 1.204850 0.65216 1.84748 DurnT -0.532924 0.55292 -0.96383 DurnA -0.199806 0.59145 -0.33782 Number of linear predictors: 3 Names of linear predictors: log(mu[,1]/mu[,4]), log(mu[,2]/mu[,4]), log(mu[,3]/mu[,4]) Dispersion Parameter for multinomial family: 1 Residual Deviance: 267.4826 on 293 degrees of freedom Log-likelihood: -133.7413 on 293 degrees of freedom Number of Iterations: 4 >




En síntesis y expresado en la notación habitual para los modelos de regresión con respuesta politómica:

Modelo logit Multinomial (estimación por método vglm(.) en VGAM con variable auxiliar o multinom(.) en nnet):

( ) ( )( ) nikjV j

ik

ijijij ,,11,,1

,,

log, KK =−=+=== ijTj

ikk

ijjijj wγ

wxwx

wx αππ

η

Modelo logit Condicional (estimación por método vglm(.) en VGAM con constraints=list(.)):

( ) ( )( ) nikjV j

ik

ijijij ,,11,,1

,,

log, KK =−=+=== jT

ikk

ijjijj xβ

wxwx

wx αππ

η

Modelos logit combinado Multinomial-Condicional (estimación por método vglm(.) en VGAM con constraints=list(.), más variable auxiliar):

( ) ( )( ) nikjV j

ik

ijijij ,,11,,1

,,

log, KK =−=++=== ijTjj

T

ikk

ijjijj wγxβ

wxwx

wx αππ

η

Los modelos condicionales contienen variables explicativas ligadas a alternativas ( jx ), los parámetros β son comunes a los individuos y alternativas. Los modelos combinados contienen adicionalmente variables ligadas a características socio-demográficas ( ijw ) de los individuos que pueden intervenir en la utilidad observada de

manera distinta según la alternativa, de ahí jγ coeficiente que refleja la interacción individuo-alternativa.



5-2. MODELOS DE DEMANDA DIRECTA

Responden a la propuesta directa y simultanea de englobar las etapas de generación, distribución y reparto modal de viajes. Los modelos directos pioneros son de tipo multiplicativo (Kraft, 1968) y determinan la demana modal entre zonas como una función de tipo multiplicativo de variables relacionadas con la actividad económica y realidad social de las zonas.

( ) ( )∏ ∏∏=l l

pqlbpqlmpqlr

qrprm llr CCCAA βαφφ0pqg

donde βα,φ, son parámetros a calibrar, r

indexa los atributos vinculados a zonas (población, nivel económica, etc.) l indexa atributos de coste (tarifa, headway, travel time, etc.); pqlbC es el valor del mejor atributo l entre (p,q).

Técnicamente son modelos log-lineales, es decir, modelos de regresión generalizados que pueden calibrarse a partir de los datos en R, SPLUS, SPSS, SAS o GLIM.

Un caso más simple podría agrupar las etapas de generación y distribución, concretando en un ejemplo de demanda de un operador de transporte público (Ortúzar et al):

8.01210000 pqpqpq qct −−=pqg

Donde t, c y q modelan respectivamente el tiempo de viaje en horas, la tarifa en $ y el servicio en salidas/día.

Si cntqct pqpqpq =−− 8.012 la demanda no se ve afectada. Se han aplicado un análisis por elasticidad a formulaciones de

este estilo.



5-3. MODELOS DE SELECCIÓN DE ALTERNATIVAS DISCRETAS

5-3.1 Introducción

Los modelos de demanda de primera generación son agregados en el sentido en que se basan en magnitudes promedio a nivel zonal. Estos modelos se usaron masivamente hasta los inicios de los 80s.

Premio Nobel 2000 Dr. Mc Fadden “for his development of theory and methods for analyzing discrete choice” .

• Discurso de recogida del Premio: Economic Choices, The American Economic Review Vol 91 No 3 (June 2001), 351-378.

• Charles Manski, The Structure of Random Utility Models, Theory and Decision 8 (1977) 229-254

Los modelos de demanda de segunda generación se basan en las decisiones individuales de los viajeros y por tanto, se espera que puedan ofrecer modelos de selección modal más realistas. Estos modelos postulan que la probabilidad individual de seleccionar una determinada alternativa es una función de las características socioeconómicas del individuo y de lo atractivo de la alternativa, en términos relativos.



5-3. MODELOS DE SELECCIÓN ALTERNATIVAS DISCRETAS: INTRODUCCIÓN

Lo atractivo de una alternativa se suele englobar bajo el nombre de utilidad de la alternativa. La utilidad es tautológicamente lo que los individuos intentan maximizar. Las alternativas por ellas mismas no producen utilidad, sinó que ésta se deriva de sus características. La utilidad se compone de una parte observable o sistemática y una parte aleatoria, de ahí que la utilidad de la alternativa auto se pueda escribir como:

{ {aleatoriaasistemáticautoautoauto VU ε+=

y

autoV sea una combinación lineal de variables explicativas relacionadas con características de la alternativa, por ejemplo:

NCARICTAVTVauto ⋅+⋅−⋅−⋅−= 1.13.05.221.125.0

• En esta ecuación, una unidad más del tiempo de acceso (TA) implica una pérdida de utilidad de 2.5 unidades.

• El coeficiente en la ecuación de la utilidad sistemática traduce la importancia y contribución de cada atributo del modo en la cuantificación de su utilidad. De ahí que un aumento en 1 unidad del tiempo de acceso tenga un impacto de más del doble que el tiempo de viaje (TV).

• La constante se interpreta normalmente como la influencia neta de todas las características del modo que no son observables (por ejemplo, atributos de confort o conveniencia que resultan de difícil cuantificación e inclusión como parte sistemática de un modelo de selección de alternativas).




Los modelos desagregados se fundamentan en la teoría del comportamiento individual de los usuarios y no en analogías con modelos físicos.

Los modelos desagregados se construyen y estiman a partir de datos individuales y por tanto son más eficientes en cuanto al uso de la información, ya que requieren de menor volumen de datos.

Los modelos desagregados pueden incorporar todos los elementos de la variabilidad inherente en el proceso de selección. Son menos suceptibles a sufrir sesgo debido a la asociación entre los individuos y enmascaramientos del comportamiento individual debido a la agregación de la información a nivel zonal que sufren los modelos agregados. Existen ejemplos paradigmáticos de lo que se conoce como correlación ecológica.

Los modelos desagregados son modelos probabilísticos en el sentido que ofrecen una probabilidad de selección de cada una de las alternativas y por tanto, se debe trabajar con conceptos probabilísticos.

Por ejemplo, el número esperado de personas que en una determinada zona harán uso de un modo concreto es la suma de las probabilidades individuales,

∑==≡=

hni ijhMautojK1

1 π




Una jerarquía de selecciones puede modelarse separadamente utilizando los conceptos de distribuciones condicionales (probabilidad condicionada), por ejemplo la probabilidad de seleccionar la ruta r, dentro del modo j,

hacia el destino q, dentro del grupo de usuarios h, sería hhqhqjhqjrhqjhqjrhqjr πππππππ ⋅⋅⋅==⋅= |||| K .

Todas las variables explicativas observables pueden incluirse en el modelo y se les pueden estimar coeficientes, por tanto resultan modelos más flexibles y representativos de las políticas de movilidad, con coeficientes interpretables en términos de utilidad marginal.

Para realizar predicciones de la alternativa a seleccionar, el valor de la utilidad de todos las posibles opciones tiene que contrastarse (en principio, un valor real) y convertirse a probabilidad (un valor entre 0 y 1), para ello es necesario un cambio de escala desde la utilidad a la probabilidad y ese cambio se realiza a partir de la denominada función de enlace (link function) en terminología estadística. Supongamos el caso dicotómico, M=2 con

autoj ≡=1 y busj ≡= 2 .

• Si la función de enlace es la logit, entonces

( ) ( )( )

( )( ) ( ) 0

expexpexp

exp1exp

1loglogit =

+=

+=→=

−

= busautobus

auto

auto

autoautoauto

auto

autoauto V

VVV

VVV π

πππ o

bien, ( )

( ) ( ) 0expexp

exp≠

−+−−

= busbusautobus

busautoauto V

VVVVV

π




• Si la función de enlace es la probit, entonces ( ) ( ) [ ]( ) 0)(1 =≤=ΦΦ=→=Φ−

busautoZautoZautoautoautoZ VytipificadaVzZPzVV ππ o bien,

( ) ( ) ( )[ ]( )( )12

1

21212

212122

22

2

11

2121exp

dxdxxVV

autobusauto

xxxx

∫ ∫∞

∞−

+−

∞− −

−+−

−

=ρσπσ

σσρ

σσρπ .

Estos modelos son modelos de regresión generalizados o modelos lineales generalizados que no pueden estimarse por técnicas estándard de mínimos cuadrados (las incógnitas son los coeficientes que acompañan a las variables explicativas observables que caracterizan la utilidad de la alternativa).



5-3. SELECCIÓN DE ALTERNATIVAS DISCRETAS: UTILIDAD ALEATORIA

5-3.2 Teoría de la Utilidad Aleatoria

La base teórica para la selección de alternativas procede de la teoría de la utilidad aleatoria que postula:

1. Los individuos pertenecen a una población homogénea, actúan racionalmente y poseen información perfecta, de manera que ante una selección de alternativas siempre eligen la que maximiza su utilidad personal sujeta a restricciones legales, sociales, físicas y presupuestarias.

2. El conjunto de alternativas disponibles es A=1, 2 , …, k (categorías) y un conjunto de variables explicativas (factores y/o covariables) definen los atributos de los individuos, las alternativas y/o la interacción de ambos, genéricamente agrupadas en la matriz de diseño X nxp.

Un individuo i tiene como atributos la fila i -ésima de X, con un conjunto de alternativas disponibles A(i) (quizás todas) con variables explicativas vinculadas a cada una de ellas, más variables comunes a las alternativas pero específicas del individuo e interacciones entre ambas.

Las alternativas tienen que cumplir:

o Ser mutuamente excluyentes.

o El choice set (conjunto de alternativas) tiene que ser exhaustivo (todas las posibilidades deben estar contempladas).

o La cardinalidad del choice set debe ser finito.

La última de las características es la más restrictiva y diferencia la teoría de elección discreta de la regresión múltiple.




3. Cada alternativa j tiene asociada una utilidad para cada individuo i : ijU . Sin embargo, al estudiar el proceso de selección no se dispone de información completa sobre el sistema, sobre los elementos que considera un individuo al efectuar su selección, de manera que la utilidad de cada alternativa está compuesta

de: una componente sistemática ijV que es función (lineal) de las variables explicativas ( )ijj w,x y una

componente aleatoria ijε que refleja las particularidades de cada individuo y los errores de observación inherente al estudio empírico.

Los modelos de elección discreta de alternativas se derivan de la hipótesis comportamental de maximización de de la utilidad aleatoria (son RUM, random utility models). Son modelos que pueden contemplarse como una simple relación entre las variables explicativas y el resultado de la elección, sin detallar en como se realiza exactamente el proceso de selección.

La utilidad no es observable per se, sólamente los atributos que definen la utilidad sistemática. El término de error juega el rol de recoger el efecto de todos los factores que afectan a la selección de alternativas pero que no se incluyen en la utilidad sistemática, bien por simplificación o porqué no son directamente observables.

{ {aleatoriaasistemátic

ijijij VU ε+=




Dos individuos con los mismos atributos y disponibilidad de alternativas pueden no seleccionar la misma alternativa, debido a la componente aleatoria. Considérense por simplicidad los modelos condicionales, donde

intervienen sólo variables explicativas ligadas a alternativas: los parámetros β son comunes a los individuos

y alternativas y no se considera constante específica de alternativa, ijijijij VU εε +=+= jTxβ .

4. El individuo i selecciona la alternativa j si ésta tiene utilidad máxima:

jlVVVUVU ijililijilililijijij ≠∀−≥−→+=≥+= εεεε , y por tanto, la probabilidad de selección

de j viene dada por ( )[ ]( ) ( ) ( )∫ ≠∀−≤=≠∀−≤−=Ρ

ε

εεεεεε iiilijiilijijili dfjlVVIjlVV, lo

que requiere establecer alguna distribución de probabilidad para los errores.

La distribución de ijili εεε −= representa entre toda la población con idéntica utilidad observada para todas las alternativas l, la distribución de la parte de utilidad no observada.




Logit, GEV (General Extreme Value), probit y mixed logit son casos particulares que se derivan de la

especificación de la distribución de probabilidad de los factores no observados de la utilidad, ( )if ε .

• Los modelos de selección discreta logit son los más simples y se derivan de la hipótesis que ilε son i.i.d. de valor extremo. Es decir, los errores son no correlacionados entre las alternativas y tienen idéntica varianza, lo cual resulta muy restrictivo ya que los factores no observados ligados a una alternativa pueden ser similares a aquellos vinculados con alguna otra de las alternativas. Además si se desea aplicar un modelo logit de elección discreta a datos procedentes de un panel (secuencia de elecciones a lo largo del tiempo efectuadas por el mismo individuo), la independencia entre periodos resulta poco creíble. La estimación no requiere de simulación.

• Los modelos GEV permiten una correlación entre los factores no observados (errores aleatorios) de las alternativas y colapsa al modelo logit cuando son i.i.d. Hay múltiples formas en los modelos GEV, con una estructura de correlaciones más o menos complicada, la más popular responde al denominado logit jerárquico, donde se definen nidos o nodos de grupos de alternativas, con estructura arborescente, donde los factores no observados de la utilidad tienen la misma varianza dentro de un nido y las alternativas pertenecientes a nidos distintos no presentan correlación. La estimación no requiere de simulación.

• Los modelos probit asumen que los factores no observados (errores) tienen conjuntamente una distribución normal multivariante. Permiten cualquier patrón de asociación entre alternativas y heterocedasticidad. Son flexibles pero la estimación requiere de simulación.

• Los modelos logit mixtos presuponen que los factores no observados siguen una distribución cualquiera pero satisface que puede descomponerse en dos partes; una parte donde se incluye toda la componente de correlaciones y heterocedasticidad y otra parte i.i.d. de valor extremo. Es muy flexible y Train (2002) demuestra que puede aproximar cualquier modelo de elección discreta y es totalmente general.




La identificación y especificación del modelo de elección discreta afecta a cualquier modelo y debe contemplar dos características comunes a todos los modelos basados en la maximización de la utilidad:

1. Sólamente son relevantes las diferencias en la utilidad entre alternativas.

2. La escala de la utilidad es arbitraria e irrelevante.

El valor absoluto de la utilidad es irrelevante para el individuo que efectua la elección y tambien para el investigador. Si se añade una constante común a la utilidad de todas las alternativas, sus diferencias siguen siendo las mismas y la alternativa con màxima utilidad es la misma,

[ ]( ) [ ]( )jlVVjlUU ilijilij ≠∀≥−Ρ=≠∀≥−Ρ 00 o

[ ]( ) ( ) ( )∫ ≠∀−≤=≠∀−≤−=Ρε

εεεεεε iiilijiilijijili dfjlVVIjlVV

De hecho, sólo pueden identificarse en los modelos los parámetros que están relacionados con las diferencias en la utilidad entre alternativas, no aquellos ligados al valor absoluto de la utilidad de cada una de ellas.

Habitualmente, la utilidad observada (sistemática) es una combinación lineal de los factores observados de manera que puede expresarse:

jij κV += jTxβ , donde la constante específica jκ captura el efecto medio en la utilidad de todos los

factores no observados (no incluídos en el modelo) de la alternativa j.




Cuando se incluyen constante específicas en la utilidad entonces resulta equivalente a suponer que la esperanza de los errores es cero, ésto es,

*ijijU ε+= j

Txβ con [ ] [ ] 0* =Ε++=→=Ε ijijjijjij κUκ εεε jTxβ .

Por tanto resulta razonable incluir una constante por alternativa, sin embargo, como sólo son relevantes las diferencias entre alternativas, únicamente van a ser relevantes las diferencias entre las constantes específicas y de hecho no son identificables todas ellas, las k constantes, solamente k-1, lo que requiere una normalización de una de las constantes a 0, la de la alternativa de referencia.

Los factores relativos a las alternativas varían con las alternativas, pero los factores relacionados con el individuo permanecen constantes en las distintas alternativas (no su efecto en la utilidad). Conviene normalizar el efecto de las variables comunes a las alternativas para una alternativa de referencia, por ej. j=1,

jij κV ++= iTjj

T wγxβ pero 001 ++= i1TxβiV 01 =γ y por tanto T

jγ se interpretan como los efectos diferenciales en la utilidad respecto al grupo de referencia para las variables comunes a todas las alternativas (dependientes generalmente de las características socioeconómicas de los individuos). Si hay interacciones entre

individuo y alternativa no es necesaria la normalización: jij κV ++= ijTjj

T wγxβ .

El número de términos de error estadísticamente independientes debe considerarse afectado por el hecho que hay k-1 diferencias de errores y por tanto,

[ ]( ) [ ]( ) ( ) ( )∫ ≠∀−≤=≠∀−≤−=Ρ=≠∀≥Ρε

εεεεεε iiilijiilijijiliilij dfjlVVIjlVVjlUU




( )if ε hace referencia a la distribución de las diferencias.

• Si los errores son i.i.d. Gumbel entonces las diferencias son i.i.d. logísticas.

• Si los errores son normales multivariantes entonces las diferencias afectarán al patrón de la matriz de varianzas-covarianzas entre las alternativas (no independientes) que pasará a ser de dimensión k-1 y la normalización relacionada con la escala, que se detalla a continuación, resulta más compleja de realizar.

La escala de la utilidad resulta irrelevante ya que si se multiplica por una constante positiva común a la utilidad de todas las alternativas, sus diferencias son proporcionalmente las mismas y la alternativa con màxima utilidad es la

misma, ijijij εVU += y 0>+== λλελVλUU ijijijij~

entonces,

[ ]( ) [ ]( ) [ ]( )jlUUjlλUλUjlUU ilijilijilij ≠∀≥Ρ=≠∀≥Ρ=≠∀≥Ρ ~~

La escala de la utilidad afecta a las magnitudes de los parámetros de los factores observables (variables explicativas), por tanto se debe normalizar la escala de la utilidad.

La escala de la utilidad está relacionada con la escala de la componente aleatoria (errores), [ ] [ ]ijij εVλλεV 2= y por tanto normalizar la escala del término de error equivale a normalizar la escala de la utilidad.

El partworth de un atributo es el coeficiente del atributo en la función de utilidad, es por tanto el coeficiente en la utilidad y es un término empleado asiduamente en marketing.




Si los errores son i.i.d. la normalización es trivial y habitualmente en el modelo logit se presupone que los errores

tienen una distribución de valor extremo estándard (parámetro de escala 1) con varianza por tanto [ ] 62πεV ij = .

Si se normaliza para obtener unos errores i.i.d. con varianza 1 , [ ] 1=ijεV , entonces si la utilidad original es

ijijijij εεVU ~~~~ +=+= jTxβ con [ ] 2λεV ij =

~ , la utilidad normalizada es

( ) ( ) ( ) ijijijij ελλελλUU +=+== jT

jT xβxβ ~~

.

Los coeficientes de las variables explicativas aparecen divididos por la desviación tipo de la parte no observada de la utilidad, de hecho, no son identificables los parámetros y la escala de la utilidad simultaneamente y por tanto, la normalización es imperativa.

Cuando se interpretan modelos i.i.d. logit y probit, debe tenerse en cuenta la normalización efectuada a la hora de

interpretar los coeficientes de las variables explicativas. Habitualmente, en modelos probit [ ] 1=ijεV , y en logit

[ ] 62πεV ij = (pero si se contemplan las diferencias [ ] 32πεV i = , distribución logística estándard).

Cuando se interpretan modelos i.i.d. logit (o probit) idénticos estimados sobre conjuntos de datos distintos, los coeficientes representan un reescalado respecto la varianza de los errores, pero los errores son la parte de la utilidad no observada y por tanto, la varianza de la componente no observada de la utilidad puede ser distinta en cada conjunto de datos. Hay un ejemplo muy ilustrativo de Kenneth Train (pp. 29) relativo a un modelo de reparto modal binario logit aplicado a los datos de Chicago y de Boston.




El cociente entre los partworths (coeficientes en la utilidad) de coste y tiempo está alrededor de 0.3 para ambas ciudades. La magnitud de los coeficientes es un 50% mayor en Boston que en Chicago y ésto se puede interpretar:

o La utilidad no observada tiene una varianza menor en Boston que en Chicago o bien,

o factores que no son tiempo y coste tienen menor impacto en Boston que en Chicago o bien

o que la importancia del coste y el tiempo en la utilidad son mayores en Boston que Chicago.

Si los errores son independientes, pero con escala distinta (errores heterocedásticos) entonces es posible normalizar la escala de una alternativa y estimar el resto de escalas de manera relativa a la escala de la alternativa normalizada. Esto resulta muy útil cuando se usan datos de distintos ámbitos geográficos o cuando se desean combinar datos de preferencias declaradas y de preferencias reveladas.

Si los errores no son independientes, la normalización no es trivial, ya que normalizar la escala de una alternativa no implica automáticamente normalizar las diferencias entre alternativas ya que intervienen términos de covarianzas entre las alternativas. La normalización debe especificarse adhoc dado el patrón o estructura de la matriz de varianzas-covarianzas entre las alternativas.

BostonCostTimekVChicagoCostTimekV

j

j

⋅−⋅−=⋅−⋅−=

810692550781..'..




Por ejemplo, en matrices completas de varianzas-covarianzas entre alternativas, la normalización de las diferencias implica habitualmente una drástica reducción del número de parámetros de la matriz de varianzas-covarianzas, si K=4 entonces, la normalización de una de las diferencias lleva a una matriz reducida con K(K-1)/2-1 parámetros, es decir, 5 parámetros en lugar de los 10 originales (K(K+1)/2). Las interpretaciones deben referirse a la diferencia normalizada, lo que las hace resultar mucho más complejas.

La normalización es automática en modelos logit y logit jerárquicos (caso particular de modelos GEV), pero en modelos probit y mixed logit no es automática y se deben explicitar concretamente las hipótesis (hay diversas posibilidades), ya que afectan tanto a la especificación del modelo, como a la interpretación de los parámetros.




5-3.3 Ejemplos

• Si se asume que hay 2 alternativas (k=2), los errores son normales con media 0, varianzas respectivas 22lj σσ , y covarianza jlσ , entonces ( )jljlijil N 2σσσσεε 2 −+=≈− 220, y por tanto, la

probabilidad de seleccionar la alternativa j, notado Pi(j), es

( ) [ ]( ) ( )

−Φ=

−Φ=−≤−Ρ=Ρ=

σσεεπ lj

T xxβilijilijijiliij

VVVVj (Probit binario condicional).

Por conveniencia, la escala de la función de utilidad σ1 se asume 1.

• Si se asume que hay 2 alternativas (k=2), otra posibilidad consiste en suponer una distribución logística para

la diferencia de utilidades ijili εεε −= . Si Y tiene distribución logística con parámetros de posición a y de

escala b>0, entonce la media es a, la varianza es 322bπ y la función de distribución de probabilidad es:

( ) [ ]( ) ( )( ) ( )( )baybayyY

−−+=

−+

−=≤Ρ=exp1

1exp1

11yYF

En R, plogis(q, location = a, scale = b).

La inversa de la función de distribución es ( ) ( )πππ −

− +== 11 logbay YF .

En R, qlogis(p, location = a, scale = b).




La ley logística estandard tiene parámetro a=0 y b=1, siendo simétrica y con varianza 32π .

• Si ijili εεε −= tiene distribución logística centrada en 0 (a=0), requiere que ijil εε ,

sean errores independientes y idénticamente distribuidos según una ley Gumbel.

Si Y tiene distribución Gumbel con parámetros de posición a (la moda) y de escala b>0, entonces la media

es ( ) ba 57721.01'ba +=Γ− , la varianza es 622bπ y la función de distribución de probabilidad es:

( ) [ ]( ) ( )( )( )bayyY −−−=≤Ρ= expexpyYF

La inversa de la función de distribución es ( ) ( )( )ππ 11 loglogbay −== −YF .

• En general, la diferencia de 2 v.a. Gumbel i.i.d con escala b>0 es una ley logística con parámetro a=0 y b>0 (el parámetro de escala de las gumbel), siendo simétrica alrededor del 0 y con varianza 322bπ .

Si se asume que hay 2 alternativas (k=2), otra posibilidad consiste en suponer una distribución logística para la

diferencia de utilidades ijili εεε −= , entonces la probabilidad de seleccionar la alternativa j, notado Pi(j), es

( ) [ ]( ) ( )( )( )

( ) ( )bVbVbV

bVVVVj

ilij

ij

ilijilijijiliiij expexp

expexp1

1+

=−−+

=−≤−=Ρ=Ρ= εεεπ (Logit binario).




1. Si ∞→b entonces la selección de alternativas es equiprobable y si 0b → la varianza de la diferencia es 0 y por tanto la selección de las alternativas es determinista y depende exclusivamente de la diferencia entre utilidades sistemáticas (la alternativa con mayor utilidad observada se lleva el 100% de los viajes).

2. Por comodidad se puede considerar 1=b entonces las leyes Gumbel han de tener una moda 0 y varianza

62π y la ley logística diferencia entre ambas tiene media 0 y varianza 32π .

3. Una propiedad de las leyes Gumbel es que el máximo de k variables Gumbel independientes de idéntica escala

b y parámetros de posición kaaK1 sigue también una ley Gumbel con parámetro de escala b y posición

( )( )∑ ==

kj j babaK1

explog .

4. Otra propiedad es que si Y es de ley Gumbel(a,b) y c, d son constantes reales, entonces dY+c sigue una ley Gumbel( da+c, db ).




• Si se asume que hay k alternativas y los errores son independientes y idénticamente distribuidos según una ley Gumbel con moda 0 y b>0, entonces la probabilidad de seleccionar la alternativa j, notado Pi(j), es

( ) { }[ ]( ) ( )( )∑ ≤≤

≠ =+≤+Ρ=Ρ=kl il

ijijijililjliij bV

bVVVj

1exp

expmax εεπ

(Logit Multinomial)

Si 0b → , la selección de alternativas es determinista (depende únicamente de la componente sistemática) y si ∞→b la selección es equiprobable.

El modelo logit multinomial es el más simple de los modelos de selección discreta. Se debe a Domenich y McFadden (1975) y presupone que los errores aleatorios de la utilidad son IID Gumbel.

La ley Gumbel es una ley de distribución de valores extremos, concretamente es el máximo de muchos valores aleatorios y capturan atributos no observables, medidas y errores de especificación. El aspecto clave reside en la independencia de las errores.




5-3.4 Deducción del modelo logit multinomial

El individuo i selecciona la alternativa j si ésta tiene utilidad máxima:

jlVVjlVUVU ijililijilililijijij ≠∀−≥−→≠∀+=≥+= εεεε, que es equivalente a

iljlij UU ≠≥ max o bien

{ }ililjlijij VV εε +≥+ ≠max

y por tanto, la probabilidad de selección de j viene dada por { }[ ]( )ililjlijij VV εε +≥+Ρ ≠max

.

Sean los errores ilε i.i.d con distribución de probabilidad Gumbel(a=0,b) y ililV ε+ también es Gumbel(a= ilV ,b)

Se define { }ililjliljli VUU ε+=≥ ≠≠ maxmax* y ( )( )( )bbVbGumbelV

jl ili ,explog* ∑ ≠≡ , pero se

puede reescribir como ***iii VU ε+= y ( )bGumbeli ,0* ≡ε y ahora si,

( ) [ ]( ) ( )( )( )

( ) ( )( )

( ) ( )( )( )( )

( ) ( )( )( )( )∑∑∑

=+

=+

=

=+

=−−+

=+≥+Ρ=Ρ

≠≠ l il

ij

jl ilij

ij

jl ilij

ij

iij

ij

iijiiijiji

bVbV

bVbVbV

bbVbbVbV

bVbVbV

bVVVVj

expexp

expexpexp

explogexpexpexp

expexpexp

exp11

**** εε




El paradigma teórico de la maximización de utilidad permite modelizar las aparentes irracionalidades:

{ {aleatoriaasistemáticautoautoauto VU ε+=

1. Dos individuos con los mismos atributos observados y el mismo conjunto de alternativas pueden seleccionar opciones distintas.

2. No siempre los individuos seleccionan la alternativa con la utilidad sistemática (observada) máxima, ya que la componente aleatoria interviene en la selección.

3. Se requiere para que sea correcta la descomposición de la utilidad que los individuos sean homogeneos en el sentido que compartan el mismo conjunto de alternativas y sufran las mismas restricciones; éso se consigue segmentando la población.



5-4. SELECCIÓN DE ALTERNATIVAS DISCRETAS: MNL

( ) { }[ ]( ) ( )( )∑ ≤≤

≠ =+≤+Ρ=Ρ=kl il

ijijijililjliij bV

bVVVj

1exp

expmax εεπ

(MNL)

ijjijijij VU εε +++=+= ijTjj

T wγxβα con errores iid Gumbel(0,1)

La determinación de las variables que van a ser incluídas en el modelos recae en estrategias de construcción de modelos estadísticos de regresión generalizada. Se pueden emplear procedimientos step(.) (stepwise existentes en los paquetes estadísticos) y comparar modelos mediante inferencia por diferencias de devianzas (si son encajados) o bien por AIC (Akaike Information Criteria) si no lo son. La explicabilidad del modelo final se puede cuantificar en base al coeficiente de determinación generalizado (R2 de Naglekerke). Se puede medir la capacidad predictiva mediante el estadístico c (área bajo la curva ROC). En cualquier caso, la selección del mejor modelo dada una colección de variables explicativas, recae en técnicas estandard de carácter estadístico.

Los modelos estadísticos de respuesta politómica toman una de las alternativas como de referencia y se estiman el resto de parámetros en términos relativos a la referencia. Cada alternativa tiene un término constante en la especificación de la utilidad sistemática, salvo la de referencia (se supone 0) y el resto de variables explicativas pueden ser:

• Genéricas, ya que aparecen en la utilidad de todas las alternativas, con coeficientes idénticos

• Específicas, sólo son aplicables a la utilidad de alguna de las alternativas.




Los modelos estadísticos que suelen resultar más interpretables son los que adoptan la convención ( ) 0, =ikk wxikη (utilidad igual a valor del predictor lineal) en la reparametrización base-line con categoría base k, el término independiente se considera específico de

alternativa con 0=kα y los modelos se expresan en base a los log-odds respecto la categoría base k (la última) quedan: Modelo logit Multinomial (estimación por método vglm(.) en VGAM con variable auxiliar o multinom(.) en nnet):

( ) ( )( ) nikjV j

ik

ijijij ,,11,,1

,,

log, KK =−=+=== ijTj

ikk

ijjijj wγ

wxwx

wx αππ

η

Modelo logit Condicional (estimación por método vglm(.) en VGAM con constraints=list(.)):

( ) ( )( ) nikjV j

ik

ijijij ,,11,,1

,,

log, KK =−=+=== jT

ikk

ijjijj xβ

wxwx

wx αππ

η

Modelos logit combinado Multinomial-Condicional (estimación por método vglm(.) en VGAM con constraints=list(.), más variable auxiliar):

( ) ( )( ) nikjV j

ik

ijijij ,,11,,1

,,

log, KK =−=++=== ijTjj

T

ikk

ijjijj wγxβ

wxwx

wx αππ

η




Los modelos multinomiales habituales (estimables mediante nnet(.) en R) son estructuralmente distintos:

( )( )

( )( ) { } ( ) ( ) { } ( ) { }ijikjikijj

ik

ij

ik

ij Vexpexpexp,,

iiTjiii

Tj

i

i

ikk

ijj wwγwwwγww

wxwx

παππαππ

ππ

=+=→+==

El odds de la categoría j-ésima sobre la categoría l-ésima tiene por expresión, klkj ≠≠ , ,

( )( )

( ) ( )( ) ( ) ( ) ( ){ }iT

ljii

ii

i

i wββwwww

ww

−+−== ljikil

ikij

il

ij ααππππ

ππ

exp

Dado el tipo de reparametrización, nikj,,

,,K

K

111

=−=

se cumple ( ) ( )( )

( )( )( )( )∑∑

==r ir

ij

r ir

ijij V

Vexp

expexp

exp

i

ii w

ww

ηη

π

y

( ) ( )( ) ( ) ( ) ( )∑∑∑ ≠≠≠+

=+

=+

=kr ikijkr irkr ir

ik V iiii www

wππη

π1

1exp1

1exp11




Los modelos logit condicionales puros (estimables mediante vglm(.) de VGAM en R) son:

( )( )

( )( ) { } ( ) ( ) { } ( ) { }ijikjikijj

ik

ij

ik

ij Vexpexpexp,,

kjT

kjjT

k

j

ikk

ijj xxβxxxβxx

wxwx

παππαππ

ππ

=+=→+==

El odds de la categoría j-ésima sobre la categoría l-ésima tiene por expresión, klkj ≠≠ , ,

( )( )

( ) ( )( ) ( ) ( ) ( ){ }lj

T

kl

kj

l

j xxβxxxx

xx

−+−== ljikil

ikij

il

ij ααππππ

ππ

exp

Dado el tipo de reparametrización, nikj,,

,,K

K

111

=−=

se cumple ( ) ( )( )

( )( )( )( )∑∑

==r ir

ij

r ir

ijij V

Vexp

expexp

exp

r

jj x

xx

ηη

π

y

( ) ( )( ) ( ) ( ) ( )∑∑∑ ≠≠≠+

=+

=+

=kr ikijkr irkr ir

ik V kjik xxw

xππη

π1

1exp1

1exp11




5-4.1 Propiedades del modelo MNL

El modelo logit es aplicable como modelo de selección de alternativas (discretas) si:

1. Las variaciones individuales en los gustos están representadas en la componente sistemática (observable) de la utilidad. Si las variaciones del gustos son aleatorias (forman parte de la utilidad no observable) entonces no pueden tratarse mediante modelos logit.

2. El patrón de sustitución (efecto del cambio en alguna de las componentes observables de una alternativa) es proporcional entre las alternativas.

3. Si los factores no observables son independientes del tiempo en situaciones de selección repetida de alternativas. Si los factores no observables están correlacionadas en el tiempo no pueden capturarse mediante un modelo logit.

5-4.1.1 Variaciones individuales en los gustos

El valor o importancia de los factores que caracterizan las alternativas pueden variar según los individuos (enfrentados al proceso de selección). El precio de una tarifa de parking es más importante para los individuos con bajos ingresos que para los más ricos y ésta es una característica del individuo. Dos individuos con igual nivel socioeconómico pueden efectuar una elección distinta de tipo de vehículo, ya que depende de sus gustos individuales.




Por ejemplo, )/(€ hTarifaxxβVU ijjijijij ≡+=+= εε , pero si se relaciona la tarifa con el salario medio por hora del individuo, entonces el efecto individual de la tarifa quedará absorbido en la componente observable y por tanto, no invalidará un modelo de selección logit donde se presenta una interacción de individuo-alternativa:

( ) )/(€)/(€ hSalarioIhTarifaxIxVU iijijijijij ≡≡+=+= εθε

La limitación del modelo logit se da cuando se desea modelizar cambios en atributos no observables, es decir vinculados a la componente aleatoria de la utilidad. Por ejemplo, si se supone que la importancia de la tarifa tiene que ver con factores observables (salario) y no observables, de manera que ( ) iii bIθβ += , donde ib no es observable; de ahí,

( ) ( ) )/(€)/(€~ hSalarioIhTarifaxIxxbIxVU iijijijjiijijijij ≡≡+=++=+= εθεθε

Pero los errores ahora pueden ser correlacionados entre alternativas:

[ ] [ ] [ ] 0≠=++= kijikkiijjiikij xbVxxbxbCOVCOV εεεε ,~,~y

[ ] [ ] [ ] [ ] cntVbVxxbVV ijijijjiij ≠+=+= εεε 2~ , la varianza no es constante en las distintas alternativas.

Cuando hay variaciones aleatorias de los gustos entonces los modelos logit facilitan una aproximación al gusto medio, pero para incorporarlas plenamente se necesita una modelización más compleja mediante modelos probit o logit mixtos.



5-4. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PROPIEDADES MNL

5-4.1.2 Patrones de sustitución Los patrones de sustitución son los cambios en la demanda (cuota de mercado de las alternativas) cuando los atributos observables cambian. Los modelos logit presentan un patrón de sustitución proporcional entre las alternativas y ésto puede verse como una restricción en el cociente de las cuotas de mercado (odds relativos) o bien en las elasticidades cruzadas de las probabilidades. El modelo satisface la independencia entre alternativas irrelevantes (IIA, Independence from Irrelevant Alternatives ) que puede formularse como:

Donde haya dos alternativas con probabilidad no nula de ser elegidas, el cociente de una sobre la otra (odds) no se ve afectado por la presencia o ausencia de ninguna alternativa entre todas las posibles.

( )( )

{ } { }{ } { }

{ }{ } ( ) ( ) ( ){ } referenciakVV

VVVV

rjir

ij

l ilir

l ilij

ir

iji

Trjrj

T

ir

ij wγγxxβw,xwx

−+−+−===∑∑ αα

ππ

expexpexp

expexpexpexp,

1. Observar que no depende de la utilidad de ninguna otra alternativa.

2. Si hubiera muchas alternativas, entonces McFadden demostró que se pueden obtener estimadores no sesgados de los parámetros si el modelo se estima a partir de una muestra aleatoria del conjunto de alternativas disponibles para cada individuo.

Esta propiedad se consideró beneficiosa porque permitía tratar el problema de la introducción de nuevas alternativas (no presentes en la etapa de calibración). Sin embargo, convierte el modelo en inválido en presencia de alternativas correlacionadas: paradoja del autobús rojo-azul.




5-4.1.2.1 Paradoja del autobús rojo-azul

Supóngase los habitantes de una ciudad pequeña que dispone de una única línea de autobús, no existen otros modos de transporte colectivo, y la única alternativa de transporte mecanizado disponible es el transporte privado (en alguna de sus modalidades que se consideran agrupadamente). Un estudio determina que la probabilidad de seleccionar un modo privado o el autobús para ir al centro de compras son equiprobables: P(privado)=0.5 y P(bus)=0.5 (odds de privado vs bus = 1).

Supóngase que se llega a pintar la mitad de la flota de rojo, y la otra mitad de azul, el nivel de servicio de la línea se mantiene igual. La selección modal por sentido común tendría que ser:

P(privado)=0.5 , P(bus rojo)=0.25 y P(bus azul)=0.25.

Selección Modal al Centro Selección Modal al Centro ↓ ↓

Privado Bus Rojo Bus Azul Privado Bus

0.5 0.25 0.25 Sentido Común 0.5 ↓

Rojo Azul 0.33 0.33 0.33 MNL

0.5 0.5

El índice i indica individuo y j el modo, con valores arbitrarios j=1 privado, j=2 bus rojo y j=3 bus azul.




Si la utilidad percibida de cada modo viene reflejada en el valor del predictor lineal y ésta es constante, es decir ( ) nijpercntiij ,,,,x KK 131 ===η

, entonces el modelo de respuesta multinomial (MNL) daría como probabilidades de selección modal equiprobables,

( ) ( )( )( )( ) ( ) nijpercntiij

r iir

iijiij ,,,,x

xexpxexp

x KK 13131

=====∑

ηη

ηπ

lo que va contra el sentido común.

El problema es que el modelo de respuesta multinomial, no jerárquico no es adecuado, ya que los odds entre 2 categorías (modos) únicamente dependen de las diferencias entre los predictores lineales (utilidades) de las 2 categorías, no se ve afectado por la utilidad de ninguna otra categoría, pero esto es un problema si existen alternativas correlacionadas como es el caso de bus rojo y bus azul.

En efecto, los odds entre categorías se mantienen constantes, tal como eran antes de la brillante idea de pintar de 2 colores la flota, (odds de privado vs bus rojo = 1, privado vs bus azul = 1 y bus rojo vs bus azul = 1). Un modelo jerárquico mantendría el sentido común: odds de privado vs bus = 1 y en el segundo nivel, odds de bus rojo vs bus azul = 1.




5-4.1.2.2 Elasticidad directa y cruzada

Si el cociente de probabilidades de dos alternativas cambia con la introducción de una nueva alternativa o bien por el cambio en la utilidad de una tercera, entonces no se cumple la independencia entre alternativas irrelevantes, que puede expresarse también en términos de elasticidades cruzadas de las probabilidades logit.

La elasticidad directa de la alternativa j a un atributo es el porcentaje de cambio en la probabilidad de usar la alternativa con respecto al cambio marginal de un atributo que forma parte de la utilidad (l-ésimo) y tiene por expresión:

( ) ( )( ) ( ) lijlijijl

ij

ij

ijl

ijl

ijlijij

ijl

ij xx

xxx

βππ

ππ

βπππ

−=∂

∂=

∂

∂→−=

∂

∂1

loglog

1

La elasticidad cruzada directa es el porcentaje de cambio en la probabilidad de usar una alternativa con respecto al cambio marginal de un atributo de otra alternativa (fijemos el l-ésimo).

( )( ) liklikikl

ij

ij

ikl

ikl

ijlijik

ikl

ij xx

xxx

βππ

ππ

βπππ

⋅⋅−=∂

∂=

∂

∂→⋅⋅−=

∂

∂

loglog

Como consecuencia de la propiedad de independencia de alternativas irrelevantes, la elasticidad cruzada tiene un efecto idéntico en todas las alternativas (MNL es uniforme): una mejora en un atributo de una alternativa reduce la probabilidad del resto de alternativas en el mismo porcentaje. Este es un patrón de sustitución de decalaje proporcional. Patrones más complejos deben modelarse con modelos logit anidados, probit o logit mixto.




Por ejemplo, supóngase un reparto modal de auto, bus y metro de 0.4, 0.3 y 0.3. Si se mejora la calidad de la red de autobus sin ampliar su red y se consigue un incremento de la cuota de mercado del autobús del 0.3 al 0.37, entonces bajo un patrón de sustitución proporcional, implicaría que el decremento del auto y del metro sería proporcionalmente el mismo, es decir 0.36 y 0.27 para el auto y el metro. Este patrón no tiene porqué ser realista ya que es mucho más probable en un entorno urbano que el impacto se note más en el otro transporte público (el metro) que en el modo auto.

5-4.1.3 Beneficio al consumidor (consumer surplus) El anàlisis de la políticas de gestión del tráfico suelen evaluar el cambio percibido por el consumidor (utilidad). Por ejemplo, si se desea evaluar el impacto de la inclusión de un metro ligero, habrá que comparar costes de implantación con beneficios para los usuarios. Bajo la hipótesis logit, el beneficio para el consumidor toma una expresión cerrada y sencilla. Los ciudadanos seleccionan la alternativa modal que maximiza su utilidad y el

beneficio para el usuario es ( ) { }illii UβCS max1= donde dividir por iβ (valor absoluto del coeficiente de precio o de coste en la utilidad, muy crítica su precisión en la aplicación presentada) la utilidad marginal del ingreso es

IngresosXβdXdU ii := (derivada de la utilidad respecto los ingresos del individuo i, no depende de los ingresos es una constante), traslada la utilidad a unidades monetarias.

De ahí se puede demostrar que el beneficio esperado (€), es un término de log sum’s más una constante que se normaliza a 0:

[ ] ( ) { }[ ] ( ) { }[ ] ( ) { }( ) cntVβVβUβCSl iliililliillii +=+Ε=Ε=Ε ∑ explogmaxmax 111 ε



5-4. SELECCIÓN DE ALTERNATIVAS DISCRETAS: MÁS PROPIEDADES MNL

5-4.1.4 Rol del término independiente y choice-based samples El término independiente de la utilidad juega un rol de promedio de la parte de la utilidad no observada y todos los modelos con término independiente en la utilidad (salvo en la alternativa de referencia) cumplen el satisfacer las probabilidades marginales muestrales de las alternativas:

( )( )

{ }{ } { } { { } referenciakVVVV

jV

ikijik

ij

ik

ij

ik

iT

jjT

kr

ij wγxβw,xwx

++=−===

αππ

expexpexpexp,

0

Si los individuos proceden de un m.a.s. entonces el promedio de las probabilidades predecidas por el modelo con

constantes específicas, ijπ̂ , coincide con las probabilidades muestrales de las alternativas.

Si se intenta usar un modelo de elección discreta estimado en un estudio anterior para la predicción de las probabilidades individuales de elección de alternativa en la actualidad, entonces puede aparecer un ligero desajuste ya que las probabilidades marginales predecidas por el modelo pueden no ajustarse al reparto actual (cuota de mercado actual que puede conocerse a nivel agregado). La solución reside en actualizar convenientemente y en proceso iterativo las constantes específicas de alternativa en el modelo de elección discreta hasta que las probabilidades marginales predecidas coincidan con las probabilidades marginales de la realidad actual : los coeficientes de las variables explicativas son consistentes y deben mantenerse.



5-4. SELECCIÓN DE ALTERNATIVAS DISCRETAS: MÁS PROPIEDADES MNL

El rol de las constantes en la utilidad va más allá. A menudo si hay alternativas con poca cuota de mercado es habitual seleccionar para la estimación de los modelos discretos de elección muestras que no son m.a.s, es decir se seleccionan muestras donde se favorece la observación de elecciones con baja cuota de mercado; así se disponen de observaciones de las alternativas ‘raras’ sin necesidad de tener que aumentar demasiado la muestra (y por tanto el presupuesto destinado a la recogida de datos).

Si los planes de muestreo son complejos, la estimación de los parámetros de la utilidad pueden ser altamente complejos y requerir de software específico. Manski y Lerman (1977) demostraron un resultado muy útil que permite adaptar los modelos logit de selección discreta estimados bajo una muestra no aleatoria simple con los procedimientos habituales de la inferencia estadística. Si la utilidad contiene los términos independientes específicos de las alternativas y se estiman los modelos con la muestra choice-based y los procedimientos estadísticos habituales, entonces los estimadores de los coeficientes de las variables explicativas son consistentes con los que se obtendrían con una muestra aleatoria. Las constantes específicas de la utilidad en cada alternativa son sesgadas y deben reajustarse :

j

jjj CBS

MASlog+←αα

donde jMAS es la cuota de mercado de la alternativa j en la población y jCBS es la cuota de mercado en la muestra choice-based (no aleatoria).

Sólo es necesario disponer de las cuotas de mercado poblacionales a nivel agregado !



5-5. SELECCIÓN DE ALTERNATIVAS DISCRETAS: HL (LOGIT JERARQUICO)

5-5.1 Formulación del modelo logit jerárquico

Considérese la estructura de vector aleatorio para todas las posibles alternativas seleccionables por el individuo n-ésimo.

Si entonces aparece el modelo probit multinomial, para el que no hay una expresión cerrada para las probabilidades de las alternativas y se debe recurrir a integración numérica.

En el caso MNL, ),0( Σ≈Gumbelnε con JI2σ=Σ y Σ es la matriz de varianzas-covarianzas del vector aleatorio de errores de las utilidades de las alternativas.

• El MNL es extremadamente simple y puede no ajustarse a la realidad de la selección de alternativas cuando éstas no son independientes (es decir, hay grupos de alternativas más similares que otras, como los distintos modos de transporte público versus el auto privado).

• Tampoco resulta posible modelar las variaciones aleatorias en los gustos según los usuarios (es decir, la percepción de la tarifa varía con la renta, pero la variable percepción de la tarifa no es medible), en cuyo caso hay que trabajar con modelos de efectos aleatorios, en lugar de efectos fijos.

• Los modelos probit multinomiales permiten más capacidad modelística, pero no son tratables en general. Otra extensión posible de los MNL son los modelos generalizados de valor extremo (GEV models), que se expondrán en el próximo apartado.



5-5. SELECCIÓN DE ALTERNATIVAS DISCRETAS: LOGIT JERÁRQUICO

Una situación en que la estructura del proceso de selección alternativas se puede jerarquizar parece adecuado para los procesos combinados de selección de destino y modo de transporte. Primer nivel con la selección del destino y segundo nivel de la jerarquía de selección del modo de transporte. La función de utilidad se puede proponer con:

U(d, m) = U(d) + U(m | d )= V(d) + V(m | d )+ ε(d) + ε(m | d )

U(d) es la parte de la utilidad asociada al destino d y U(m | d ) es la parte de utilidad vinculada al coste de viaje con el modo m, dado que se ha elegido el destino d.

Se puede demostrar que si las componentes aleatorias ε son i.i.d Gumbel por niveles, entonces bajo ciertas

condiciones ( 21 bb ≤ ) aparece el modelo logit jerárquico o logit anidado (nested logit, Williams 1977), con una ecuación para la probabilidad conjunta:

( ) ( ) ( )( )( ) ( )( )( ) ( )( )( ) ( )( )∑ ∑+

+

r s iidsiiriir

iidmiidiidiidm bVbVV

bVbVV

12*

12*

expexpexpexp

xxxxxxxπ

con

( ) ( )( )( )∑=s iidsiid bVbV 11

* explog xx

Las alternativas se agrupan en bloques de alternativas correlacionadas, no pueden haber alternativas de un grupo correlacionadas con alternativas de otro grupo.



A-Auto I- B-Bus M-Metro

T-transit


Se puede ver, que para un mismo destino, la estructura jeràrquica refleja una correlación ligada al término ε(d), U(d, m) = U(d) + U(m | d )= V(d) + V(m | d )+ ε(d) + ε(m | d ) U(d, m’) = U(d) + U(m’ | d)= V(d) + V(m’ | d )+ ε(d) + ε(m’ | d )

Si los ε(d)’s tienen covarianzas 0 entonces el HL se convierte en MNL.

Por cuestiones de identificabilidad, se suele suponer que 121 == bb . La utilidad esperada compuesta de un nodo no terminal tiene dos elementos la parte EMU (Expected Maximum Utility) más la parte de variables comunes de todas las alternativas del nodo.

EMU: =

( ) ( )( )( )∑ ==

MBs iiTsiiT wVwV,

* explog

( ) iT

iiiT zEMUzwV βφ +=,

Donde

=

zw

x, con z variables con valores comunes

al nodo T y w las variables específicas de alternativa dentro del nodo T. Tβφ , son parámetros a estimar.




5-5.2 Modelos de valor extremo generalizado (GEV)

Estos modelos constituyen una generalización de la propuesta logit que permite patrones de sustitución más complejos que el decalaje proporcional. Son modelos en que la parte no observable de la utilidad en las distintas alternativas muestra una distribución conjunta de Valor Extremo Generalizado. Esta distribución permite correlaciones entre las componentes aleatorias de la utilidad, pero si las correlaciones son cero entonces a un modelo logit (MNL) :la distribución conjunta es producto de distribuciones Gumbel. Los modelos logit jerárquicos son los representantes más conocidos de la familia de modelos GEV.

5-5.3 Propiedades del modelo logit jerárquico (nested logit)

Son modelos apropiados cuando el conjunto de alternativas puede descomponerse en subconjuntos jerárquicos denominados nidos o nodos (nests ). La estructura logit jerárquica se puede representar de manera arborescente, con árboles n-arios y de profundidad variable según las ramas. Se deben cumplir las siguientes propiedades:

• Si dos alternativas estan en el mismo nodo, entonces el cociente de probabilidades es independiente de los atributos o de la existencia de todas las otras alternativas. IIA se cumple dentro del nodo.

• Si dos alternativas están en nodos distintos, entonces su cociente de probabilidades puede depender de los atributos de otras alternativas de los dos nodos, pero no de alternativas de otros nodos.




McFadden y Williams demostraron por vías distintas e independientes que los modelos logit jerárquicos son consistentes con la teoría de la maximización de la utilidad. Sean las K alternativas particionadas en J

subconjuntos disjuntos, denominados JBBK1 . La utilidad percibida por el individuo i-ésimo responde a una componente sistemática más una aleatoria,

ijjijijij VU εαε +++=+= iT

jjT wγxβ con errores de distribución de valor extremo generalizada con una

función de distribución { }( )

−−∑ ∑

=∈

J

jBl jilj

1λεexpexp

donde jλ mide el grado de dependencia en la parte no observable de la utilidad entre las alternativas del nodo j.

• Si 1→jλ entonces independencia intra nodo.

• Si 0→jλ entonces máxima dependencia intra nodo.

• Las ilε ’s están correlacionadas dentro del mismo nodo, pero no lo están si pertenecen a nodos distintos.

• Si todas las jλ son 1, entonces el logit jerárquico colapsa a logit MNL.

La probabilidad para la alternativa m del nodo j es,

( ) { }( ) { }( )∑=

∈−

∈ ∑∑=J

jBl jilBl jiljimim

j

j

j

jVVV

1

1 λλ λλλπ expexpexp




Los odds para las alternativas m y m’ pertenecientes a nodos distintos y notados j y j’ son:

( ) { }( )( ) { }( ) 1

1

−∈

−∈

∑

∑=

'

' '''' expexp

expexpj

j

j

j

Bl jiljim

Bl jiljim

im

im

VV

VVλ

λ

λλ

λλππ

independencia entre alternativas de nodos irrelevantes (IIN)

Los odds para las alternativas m y m’ pertenecientes al mismo nodo j: ( )( )jim

jim

im

im

VV

λλ

ππ

'' expexp

= .

5-5.4 MNL Logit Heterocedástico

Una de las múltiples posibilidades de los modelos GEV consiste en mantener la independencia entre alternativas pero incorporar una variación en la escala de la utilidad vinculada a cada nodo. Sea j el índice de las alternativas.

( ) '0,cov ' jjVU ijijijjijijij ≠=→+++=+= εεεαε iT

jjT wγxβ pero [ ] ( ) 62πθε jijV =

Las probabilidades de las distintas alternativas no responden a una fórmula cerrada, pero pueden aproximarse por simulación y resulta de gran utilidad modelística:

( )( )( ) ( )( ) ( )dωωωθωθVVθ

ωSiextremovalordensidadlj

jjilijijj

ij

4444 34444 21−−−

+−−−=→= ∫ ∏

≠

expexpexpexpexpπε




5-5.5 Caso particular: árbol de dos niveles

La utilidad observada se descompone en dos partes: una parte constante para las alternativas de un nodo concreto (W, variable entre nodos) y una parte que varía según las alternativas del nodo (Y, variable intranodo), de manera que la utilidad se puede reescribir para el modo m dentro del nodo j y el individuo i, como:

imimijimimim YWVU εε ++=+=

Ahora se puede reescribir la probabilidad conjunta logit jerárquica como producto de los probabilidades logit, una marginal por una condicional, es decir la probabilidad de elegir la alternativa m dentro del nodo j, es la probabilidad marginal de elegir el nodo j por la probabilidad condicional de elegir el modo m dado que se ha elegido el nodo j, ambas probabilidades toman la forma funcional de las probabilidades logit en el caso jerárquico de 2 niveles:

( ) ( )

( ) ( )( )∑

∑∑

∈

∈

=

=

++=

→

=

=

j

j

j

l

j

jj

Bkjikij

BkjikjimBim

BlililjijijiB

jij

BimiBim

YI

YYπ

IWIWπ

IEMUUtiliyMaximumExpected

πππ

λ

λλ

λλ

λexplog

expexp

expexp

)(

||

Hay que notar que los coeficientes del modelo de nivel inferior están divididos por jλ que afecta a su vez en la definición de la utilidad esperada por nodo, de otro modo se pierde la consistencia con el paradigma de maximización de utilidad.




• jλ es un parámetro a estimar y refleja el grado de independencia entre la parte no observada de la utilidad en el nodo j.

• ijI se denomina utilidad inclusiva del nodo j.

• ijj Iλ es la utilidad esperada por seleccionar una alternativa del nodo j. La utilidad esperada es la misma que para un modelo logit simple, ya que condicionado al nodo, la selección de alternativas es IIA.

• 1- jλ refleja la correlación entre las alternativas del nodo j ( ( ) 0, ' =imimCOV εε si las alternativas m y

m’ pertenecen a nodos distintos, pero si pertenecen al mismo nodo j ( ) jimimCorr λ−≈1, 'εε .

• No hay que confundir utilidad marginal con utilidad condicional: ( ) 0, |'| =jimjimCOV εε si las alternativas m y m’ pertenecen al mismo nodo j y de ahí que la propiedad IIA se cumpla en el interior del nodo.

Rango jλ Interpretación jλ Equivalencia RUM

10 << jλ Patrón de sustitución mayor dentro del propio nodo que entre nodos Si

1=jλ Patrón de sustitución proporcional: colapsa a MNLogit Si

1>jλ Patrón de sustitución mayor entre otros nodos que dentro del propio nodo No siempre

0<jλ No tiene No




5-5.6 Ejemplos

Ejemplo 1:

En el presente ejemplo se pretende ilustrar la práctica de la formulación y estimación de un modelo jerárquico donde cada etapa contiene un modelo logit multinomial, en un supuesto de selección de modo de transporte entre auto privado (C) , autobús (B) y metro (M), donde las 2 categorías de transporte colectivo se suponen correlacionadas.

Modelo MNL no jerárquico Modelo Jerárquico

↓ ↓ Auto Bus Metro Auto Transporte Colectivo

↓ (No válido para alternativas correlacionadas) Bus Metro

1. Sean las utilidades de las alternativas: iCU auto privado (C) , iBU autobús (B) y iMU metro (M).

2. Sean las utilidades sistemáticas de las alternativas: iCV auto privado (C) , iBV autobús (B) y iMV metro (M).

3. Las utilidades sistemáticas de los modos de transporte colectivo (TC) se dividen en componentes compartidas por los modos TC y componentes compartidas con el nivel anterior, auto privado, de manera que

TCiBiTCiB VVV /+= y TCiMiTCiM VVV /+= .




4. Una descomposición similar corresponde a las componentes aleatorias.

iCiCiC VU ε+= ,

TCiBiTCTCiBiTCiBiBiB YWVU // εεε +++=+= y TCiMiTCTCiMiTCiMiMiM YWVU // εεε +++=+= .

En el nivel superior, la selección entre auto privado (C) o transporte colectivo (TC) responde a otro logit binario,

( ) ( )( ) ( )iTCiC

iC

VVVCexpexp

exp+

=Ρ y ( ) ( )CTC ΡΡ −= 1

Para el nivel inferior, selección de Bus o Metro dentro del grupo de alternativas de transporte colectivo, se tendrá el logit binario,

( ) ( )( ) ( )TCTCiBTCTCiM

TCTCiM

YYYTCM

λλλ

//

/

expexpexp

+=Ρ

y ( ) ( )TCMTCB Ρ−=Ρ 1

( ) ( ) ( )TCTCMM ΡΡ=Ρ y ( ) ( ) ( )TCTCBB ΡΡ=Ρ (Ojo ! ( ) ( )MB Ρ−≠Ρ 1 )

La condición de contorno que deben satisfacer las probabilidades es que su suma sea 1: ( ) ( ) ( ) 1=Ρ+Ρ+Ρ CMB




Ahora bien, la utilidad sistemática del transporte colectivo contiene la utilidad máxima esperada (EMU) derivada del nivel inferior que se define para modelos logísticos:

( ) ( )( )TCTCiBTCTCiMTCijTC YYI λλλλ // expexplog +=

iTCijTCiTC WIV += λ

Ahora bien, los modelos jerárquicos no deben limitarse a respuestas binarias en cada uno de los niveles, los modelos jerárquicos tienen sentido per se y son enormemente potentes, a pesar de sus limitaciones:

• Comparten con los MNL el no poder tratar con las variaciones de gusto individuales, no son modelos de efectos aleatorios.

• Pueden tratar interdependencias a nivel de nodo, pero no puede modelar asociaciones entre alternativas de distintos nodos.

• La estructura del proceso jerárquico de decisiones puede no ser evidente y requerir de varias tentativas.

• La estimación de HL a partir de la estimación secuencial de modelos MNL a nivel de nodo es simple, pero se han documentado problemas de eficiencia si los nodos de menos jerarquía se quedan con pocas observaciones, situación que se ha de evitar a toda costa.

• La estimación de HL a partir de la estimación secuencial de modelos MNL produce modelos sobreparametrizados y requiere de normalización a la escala de los niveles inferiores.




5-5.6.1 Proceso secuencial de estimación de los modelos logit jerárquicos 1. Estructurar el proceso de decisión en forma de arbol jerárquico, donde se agrupan en un nodo las

alternativas más similares.

2. Estimar secuencialmente los modelos MNL de cada nodo, empezando por los nodos terminales (hojas) y subiendo hacia la raíz (down to top). Niveles 0 son las hojas y nivel s>0 es la raiz del árbol.

3. La introducción de la utilidad compuesta de un nodo (no raíz) en el nodo immediatamente superior (padre) requiere del cálculo de su EMU (Expected Maximum Utility) que vendrá afectado de un parámetro

10 1 ≤≤≤< sφφ K de nivel, más las variables explicativas comunes para las alternativas de un nodo (z’s), que tambien vendrán afectadas por parámetros a estimar en el MNL del nodo padre.

4. Despues de estimar todos los modelos MNL de los nodos del árbol de decisiones, las probabilidades absolutas de selección de cada alternativa se calculan de arriba a abajo (top-down) mediante formulas derivadas de la probabilidad condicional.

5. Los indicadores de bondad del ajuste se calculan como suma de los indicadores por nodo: AIC global es la suma de los AICs de cada nodo. La comparación entre estructuras de decisión (árboles de decisión) se puede efectuar por AIC (el modelo HL con mínimo AIC resulta preferible). Los estimadores son sesgados si el proceso de estimación se realiza top-down y contiene generalmente estimaciones redundantes de parámetros comunes que no pueden forzarse a la igualdad: alternativa cómoda, pero técnicamente incorrecta.

Si 10 1 ===< sφφ K el modelo logit jerárquico colapsa a un logit multinomial (MNL) con todas las alternativas del proceso de decisión en el mismo nivel.



A-Auto B-bus M-Metro

T-transit 10 10 ≤≤< φφ

Nivel 0

Nivel 1

A-Auto B-Bus M-Metro

T-transit


5-5.6.2 Otros procesos de estimación de los modelos logit jerárquicos: full tree logit models

Estimación simultánea de los modelos HL es más costosa computacionalmente y requiere de software específico no disponible en los paquetes de planificación del transporte habituales (EMME/2, TRANSCAD, AIMSUN, etc). En los 80s se desarrollaron LIMDEP, HIELOW, ALOGIT. Este último fue propuesto por Daly (1987) es muy eficiente y es posiblemente el más conocido entre los profesionales de la planificación del transporte.

10 ≤< jφ ALOGIT es fuente de controversia ya que para la estimación simultánea del modelo HL es necesario normalizar uno de los parámetros de escala, por ejemplo el del nivel superior fijarlo a 1, lo que conlleva reescalar convenientemente las utilidades de los nodos de niveles inferiores. En la práctica, la estimación simultánea de modelos estandarizados jerárquicos (un modelo es estandarizado si al añadir una constante a cada utilidad, las probabilidades de las alternativas no cambian) con ALOGIT lleva a la necesidad de definir para la alternativa primaría (de jerarquía de más alto nivel) un nodo particular donde esté ella sola. En el Ejemplo 1,



5-5. SELECCIÓN DE ALTERNATIVAS DISCRETAS: FULL TREE LOGIT MODELS

La teoria de la utilidad aleatoria y el comportamiento en que se basa el logit jerárquico es complejo y su derivación requiere de una formulación en desigualdades variacionales. Sin embargo, la expresión del modelo en forma de probabilidades predichas para cada una de las alternativas es más que suficiente para las aplicaciones prácticas y éste es el punto de vista que se va a detallar en este curso.

Se requiere del desarrollo de una notación específica y por razones históricas se toma la notación del artículo original de Andrew Daly (Transp. Research 1987 21 B). Se ilustra con un árbol binivel (Ejemplo 1).

jljjl ppp ⋅= Probabilidad conjunta de seleccionar el modo j en el nivel superior y el modo l en el nivel inferior, igual a probab absoluta de modo j en nivel superior por prob nivel l condicionado a j.

( )( )∑

=' 'exp

exp

l jl

jljl V

Vp

Utilidad observada de alternativa l de nivel inferior condicionada a alternativa j de nivel sup (errores Gumbel). El sumatorio es para todas las alternativas de nivel inferior (notadas l’)

( )( )∑

=' 'exp

exp

jj j

jj V

Vp

Utilidad observada de alternativa j de nivel de nivel sup (errores Gumbel). El sumatorio es para todas las alternativas de nivel superior (notadas j’)

jlT

jl βx=jlV Utilidad de l condicionada a j. Depende de variables explicativas jlX y han de

estimarse jlβ

( )( )∑+=' '

T explogβxl jljjjj VV φ

Utilidad del modo j de nivel superior. jX var. explicativas (las hay comunes a todos los modos de nivel inferior. Se calcula la utilidad compuesta del nodo

inferior. Restricción 10 ≤< jφ , se denominan parámetros estructurales.



5-5. SELECCIÓN DE ALTERNATIVAS DISCRETAS: FULL TREE LOGIT MODELS

La estructura del árbol jerárquico de decisiones es fija y se supone un input al proceso. Se pueden ensayar distintas propuestas, las cuales podrán compararse gracias al proceso de estimación por maximización de verosimilitud que permite definer para un model su AIC y comparar modelos cualesquiera en base al criterio de minimización del AIC.

La función de verosimilitud es complicada de escribir para una estructura arborescente general y requiere de la inclusión de un nodo ficticio que es el nodo raíz. Implicitamente hay restricciones en las probabibilidades, ya que

11 =∀= ∑∑ ' '' ' l jlj j pjp

En el Ejemplo binivel: 10 10 ≤≤< φφ y el cociente 11

0 ≤φφ

se interpreta en términos de correlación entre las

utilidades totales de dos alternativas que comparten el nodo 1 ( )2

1

0' 1,

−=

φφ

ll UUcorr o bien [ ]

[ ] [ ]

+=

jlj

jl

VVV

εεε

φφ

2

1

0 . El

cociente 11

0 ≤φφ

debe estimarse y se suele suponer 10 =φ (normalizar escala en las hojas).

Ojo ! en los apartados de exposición del nested logit (5-5.3 y5-5.5 ) es implícita una normalización del nodo raíz.

La varianza de las utilidades es mínima en el nodo de más profundidad y a medida que se ‘sube’ por el árbol va aumentando. La inferencia sobre los parámetros estructurales a 1=jφ implica la existencia de un modelo multinomial no jerárquico (HL colapsa a MNL).



5-5. SELECCIÓN DE ALTERNATIVAS DISCRETAS: GEV

5-5.7 Introducción a la teoría de los modelos gev

Modelos GEV (valor extremo generalizado) no pueden tratar todas las posibles estructuras de correlación entre alternativas, pero si muchas de ellas.

No pueden capturar la heterocedasticidad ni la heterogeneidad de los individuos.

En la práctica se ha de recurrir a modelos complejos basados en mixtures de funciones de probabilidad. Presentación de Bierlaire.

Los modelos de valor extremo generalizado fueron propuestos por McFadden (1978).

Idea: Un modelo viene generado por una función ℜ→ℜ JG : , donde G puede ser:

• Una función de distribución de un vector aleatorio multidimensional de los errores nε .

• Un modelo de probabilidad.

• La utilidad esperada máxima.



5-5. SELECCIÓN DE ALTERNATIVAS DISCRETAS: MODELOS GEV

• G es homogenea de grado µ , con 0>µ , si satisface que ( ) ( )xGxG µαα = .

• ( ) +∞=+∞→ Jix xxxG

i,,,,lim 1 KK , para cada Ji ,,1K=

• La derivada parcial k-ésima con respecto a k distintos ix es no negativa si k es impar y no positiva si k es

par, es decir, para cualquier subconjunto de indices ( ) ( ) J

ii

kk

kxx

G+ℜ∈∀≤

∂∂∂

− xx 011K .

• La función densidad de probabilidad ( ) ( )( )JeeGF Jεεεε −−−= KK 1exp,,1 .

• La probabilidad de selección de la alternativa j es

( )

( )

( )∑

∂∂

+

∂

∂+

=

jj

VV

j

i

VV

i

xeeGV

xeeGV

jPJ

J

K

K

1

1

ln

lnexp

y

tiene por tanto una expresión cerrada y es consistente con la hipótesis de selección por maximización de la utilidad (aleatoria).




• La utilidad màxima esperada del conjunto de alternativas ( )

+µ

γJVV eeG K1

lnes donde γ es la

constante de Euler.

• Por tanto, ( )i

C

VVjP∂∂

= .

Por ejemplo, el caso del modelo logit multinomial es un caso particular:

( ) ( )∑= j jVV VeeG J µexp1 K y

( )

( )

( )∑

∂

∂+

∂∂

+

=

ll

VV

l

j

VV

j

xeeGV

xeeGV

jPJ

J

K

K

1

1

lnexp

lnexp

con

( ) µµ ii

VV

xx

eeG J

=∂

∂ K1

De donde,




( ) ( ) ( ) ( )( ) ( )( )µµµµ lnexpln1lnexplnexp1

+=−++=

∂

∂+ i

Vi

i

VV

i VeVx

eeGV iJK

Y de ahí,

( )

( )

( )( )( )( )( )

( )( )∑∑∑

=++

=

∂

∂+

∂∂

+

=l l

j

l l

j

ll

VV

l

j

VV

j

VV

VV

xeeGV

xeeGV

jPJ

J

µµ

µµµµ

expexp

lnexplnexp

lnexp

lnexp

1

1

K

K




Por ejemplo, el caso del modelo logit jerárquico es un caso particular:

( ) ( )∑ ∑=

==

M

mJl l mm

mVG1

,,1µµ

µK

V

M es el número de nodos en el árbol que define la estructura de selección del modelo (también se suelen llamar nidos)

• ( ) ( )( ) ( )( )∑ ∑∑ ∑

==

==

==M

mJl l

M

mJl l m

m

mm

m

m VVG1

,,11

,,1µµ

µµµµ

µ αααKK

V.

• ( ) JixxxG Jixi,,1,,,,,lim 1 KKK =+∞=

+∞→ .

BIOGEME: BIerlaire’s Optimization toolbox for GEV Models Estimation



5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: OTROS PARADIGMAS

5-6.1 El modelo probit multinomial

En la estructura de vector aleatorio para todas las posibles alternativas seleccionables por el individuo n-ésimo, si

entonces aparece el modelo probit multinomial.

Únicamente en el caso binario (J=2), aparecen modelos simples sin necesidades de tratamiento numérico. Si ρ es el coeficiente de correlación lineal entre las utilidades de las 2 alternativas, la matriz de varianzas y covarianzas puede escribirse:

•

=Σ 2

2

BBA

BAA

σσσρσσρσ

• Entonces ( )BABAiAiB N σσρ2,0 22 −+=≈− σσσεε 2 y por tanto, la probabilidad de seleccionar la

alternativa A, notado Pi(A), es

( ) [ ]( ) [ ]( ) ( )

−

Φ=−≤−Ρ==+≤+=Ρ=Ρ=σ

εεεεπ iBiAiBiAiAiBiAiAiAiBiBiBiiA

VVVVUVVUA (Probit binario).

Por conveniencia, la escala de la función de utilidad σ1 se asume 1, lo que equivale a afirmar que sólo se puede identificar los partworths normalizados (es decir, coeficiente en la utilidad dividido por escala).



5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PROBIT

El modelo probit permite superar las 3 limitaciones del modelo MN Logit:

• Puede representar variaciones individuales aleatorias en los gustos.

• Puede representar cualquier patrón de sustitución, más general que el proporcional.

• Puede usarse en datos longitudinales (paneles) para modelar correlaciones en la parte no observada de la utilidad a lo largo del tiempo.

El problema reside en que hay que recurrir a la integración numérica o a la simulación porqué no hay una fórmula analítica cerrada para la probabilidad de elección de las alternativas (culpa de la distribución normal multivariante que modela la componente no observada de la utilidad).

( ) [ ]( ) ( ) ( ) ii εε djlVVIjlUVVUj ililijijilililijijijiij Φ≠∀+≥+=≠∀=+≥+=Ρ=Ρ= ∫ εεεεπ

La probabilidad anterior tiene una expresión cerrada, tiene dimensión J y debe evaluarse numéricamente, para facilitar la tarea resulta conveniente reescribir la integral.

Sea { } ( ) ( )∫ ∈Φ=Ρ→≠∀+≥+−==

ijBiililijijijilij djjlVVB

iεiii εεε εε|εε , que simplifica el

dominio de integración y además si se tiene en cuenta que sólo las diferencias en utilidad son caracterizables, la probabilidad de una alternativa puede reexpresarse como una integral de dimensión (J-1), sea la diferencia de utilidad respecto la alternativa j (la que estamos calculando),




( ) [ ]( ) ( )∫ ∈Φ=≠∀≤Ρ=Ρ→−=−=−=

ijBiljiijililjijililjijililj djlUjVVVUUU ~~

~~0~~,~,~ijε

ijij εεεεε

Donde { }jlVB iljiljij ≠∀<+= 0ε~~|ε~~ij y la integral tiene dimensión J-1 en ese dominio.

Hay que tener en cuenta que la diferencia de normales también es normal y que ijε~ tiene una matriz de

covarianzas j~Σ de dimensión J-1 que puede calcularse eficientemente a partir de Σ pre y post multiplicando ésta

por la matriz identidad de dimensión J-1 con una columna adicional de -1’s en la posición j.

Por ejemplo, Tjj

i

i

ii

iijj

j MMCOVM Σ=

=

−−

=Σ→

−−

=→

=Σ =

32

12

23

212

332313

232212

131211~

110011

εε

εεεε

σσσσσσσσσ

Ahora bien, los modelos tienen que normalizarse ya que sólo diferencias en utilidad son medibles y su escala es irrelevante, en general en los modelos logit y GEV una alternativa facilita una utilidad de esperanza nula y la escala responde a la distribución estándard, en los modelos probit es más complicado y debe normalizarse explícitamente no hay defecto. La normalización está relacionada con la identificabilidad de los parámetros y sólo los que son identificables y por tanto caracterizan la selección de la alternativa deben ser considerados en un modelo normalizado. Pero a veces no es evidente qué parámetros se asocian al nivel de referencia y a la escala.

Train propone un esquema de normalización que garantiza la identificabilidad de todos los parámetros y que siguiendo su exposición se describe a continuación a partir del ejemplo anterior.




Primero se diferencia de la primera alternativa j=1 (defecto en el método MNP del paquete R (sea J=3):

=Σ=

=

−−

=Σ→

−−

=→

=Σ =

3323

232211

31

21

13

1211

1

332313

232212

131211~

101011

θθθθ

εε

εεεε

σσσσσσσσσ

T

i

i

ii

iij MMCOVM

Después se normaliza la escala fijando a 1 la diagonal primera de la covarianza de las diferencias (defecto R) ( ) 121 =)iV ε , lo que resulta,

=

=Σ→=

3323

23

3323

23221

22

1**

*

**

**** ~

θθθ

θθθθ

θθ

θ jljl

Si la matriz original tiene J(J+1)/2=6 elementos por identificar, ahora la matriz normalizada tiene J(J-1)/2-1=2 parámetros y son éstos los únicos identificables, es decir, habrá valores de las covarianzas entre alternativas que no podrán identificarse y son los únicos con contenido relevante para el modelo de elección de alternativa. Podría darse el caso que después de aplicar el procedimiento descrito, todavía no fueran identificables todos los parámetros con lo que habría de añadirse alguna restricción adicional.

Por ejemplo en un modelo de J=3 alternativas donde el investigador propone una matriz de covarianzas de los errores originales donde sólo están asociadas la 1 y la 2 alternativa,

+

=Σ→

+

=Σ=Σ→

−−

=→

++

+=Σ =

ρρρ

ρρρρ

11~

2212~

101011

1000101

21

21

1*

211111

1 Tj MMM




Sólo tiene un parámetro identificable, no 2 y dado un estimador de la segunda diagonal de la matriz de covarianzas (normalizada), se puede inferir el parámetro ρ y de ahí la matriz de covarianzas original.

o Si las alternativas fuesen i.i.d, cual sería la matriz de covarianzas normalizada ?

=Σ→

=Σ=Σ→

−−

=→

=Σ =

11~

22~

101011

000000

21

21

1*

11111

σσσσ

σσ

σTj MMM

5-6.2 Patrones de sustitución no IIA

La matriz de covarianzas es la que caracteriza el patrón de sustitución, si las alternativas fuesen i.i.d. normales entonces se tendría una matriz diagonal, que acabaría normalizada y donde no sería posible identificar el parámetro único (quedaría absorbido en los partworths). El investigador debe determinar el patrón de sustitución más adecuado para los datos (la situación de elección discreta bajo estudio).

La primera tentativa podría ser modelar un patrón de sustitución no restringido mediante la estimación de la matriz de covarianzas completa (bien, de los J(J-1)/2-1 parámetros identificables). El problema reside en la falta de interpretabilidad de la matriz normalizada estimada, ya que no se puede inferir nada sobre la matriz original:

?~**

** =Σ→

=Σ

3323

231

1θθθ

Si se imponen restricciones a la matriz de covarianzas original Σ , los parámetros estimados por los métodos estadísticos (MNP en R) son más interpretables!



5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PROBIT NO IIA

5-6.3 Variaciones en los gustos no observables (efectos aleatorios)

Las variaciones de gusto individuales son intratables con los modelos de efectos fijos, hay que ir a parar a los modelos mixtos estadísticos, es decir, con coeficientes aleatorios.

El Ejemplo 7.3 del texto de Ortúzar & Willumsen considera un modelo binario de reparto modal con dos variables

explicativas numéricas, el coste y el tiempo y la función de utilidad ε+⋅+⋅= 2211 XXU ββ . Si se supone que la percepción del coste varía según los ingresos (I), entonces la utilidad se reformular como:

o ε+⋅+⋅= 2211' XIXU ββ y el modelo será correcto únicamente si 1β es una variable aleatoria con la

misma distribución que I1'β .

o En general, si ijjiijU ε+= xβT con ( )Σ,ββi Np distribuido según una normal multivariante, entonces el

modelo resultante es un modelo condicional de selección de alternativas discretas probit multinomial (Daganzo y Sheffi trabajaron esta formulación).

Supóngase una utilidad lineal en los parámetros, de alternativa o específicos de usuario, pero que estos no son fijos sinó que varían aleatoriamente entre los individuos. La utilidad puede expresarse como,

jTi xβ+= jijU α con ( )pxx K1=T

jx el vector de variables explicativas del individuo en la alternativa j y iβ el vector de coeficientes desconocidos que varían según el individuo.



5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PROBIT ALEATORIO

La variabilidad de iβ induce correlación entre las opciones. El vector de coeficientes (partworths) para un individuo se puede expresar como la suma de la media poblacional β (desconocida) más la perturbación del individuo iη y de ahí reescribir la utilidad (prescidiendo de las constantes específicas de la alternativa) como:

{ { {

aleatoriaobservablealeatoriaobservable

ijU ijjT

ijjTij

Tijj

Tij

Tijj

Ti xβεxηxβεxηxβεxβ ν+=++=++=+=

43421

Si ijiβ ε, se distribuyen según leyes normales multivariantes entonces sería un model probit de efectos

aleatorios. Se puede ver que la matriz de covarianzas de ijν depende de la varianza de iβ y de las variables explicativas, de individuo o de alternativa.

Por ejemplo, en un caso de J=3 alternativas con una variable explicativa dependiente de alternativa, pero variaciones individuales aleatorias, sin constantes específicas, con errores i.i.d. de varianza 2

εσ y con la variación individual i.i.d de varianza 2

βσ , con variaciones individuales y utilidad observable independientes, entonces

{ {aleatoriaobservable

iU 111111 iT

iTi

T xβεxηxβ ν+=++= y de ahí, 222222 iT

iTi

T xβεxηxβ ν+=++=iU y

333333 iT

iTi

T xβεxηxβ ν+=++=iU

donde ( )T321 iii ννν tienen una distribución normal trivariante con esperanza 0 (cada una) y varianza de

( ) ( ) 222εβην σσVV ijijijiij +=+= xεx y covarianzas ( ) ( ) 2

'''´ ,, βσηηνν ijijijijiijijiijij COVCOV xxεxεx =++= .



5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PROBIT ALEATORIO

De ahí,

+

=

++

+

=Σ100010001

2

233231

322221

312121

2

2223

232

231

232

2222

221

231

221

2221

εβ

εβββ

βεββ

ββεβ

σσ

σσσσσσσσσσσ

iiiii

iiiii

iiiii

iiiii

iiiii

iiiii

xxxxxxxxxxxxxxx

xxxxxxxxxxxxxxx

Una normalización habitual es imponer una varianza unidad para la componente no observable de la utilidad,

1=εσ . Los únicos parámetros a estimar son 2, βσβ . Se puede generalizar a más variables explicativas

directamente.



5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PACKAGE MNP EN R

5-6.4 Estimación de modelos probit

Imai, Kosuke and David A. van Dyk. (2005b) “MNP: R Package for Fitting the Multinomial Probit Models,” Journal of Statistical Software, Vol. 14, No. 3 (May), pp.1-32.

Fitting the Multinomial Probit Model via Markov chain Monte Carlo

mnp is used to fit (Bayesian) multinomial probit model via Markov chain Monte Carlo. mnp can also fit the model with different choice sets for each observation, and complete or partial ordering of all the available alternatives. The computation uses the efficient marginal data augmentation algorithm that is developed by Imai and van Dyk (2005a).

Usage mnp(formula, data = parent.frame(), choiceX = NULL, cXnames = NULL,

base = NULL, latent = FALSE, invcdf = FALSE, n.draws = 5000,

p.var = "Inf", p.df = n.dim+1, p.scale = 1, coef.start = 0,

cov.start = 1, burnin = 0, thin = 0, verbose = FALSE)

See Also coef.mnp, cov.mnp, predict.mnp, summary.mnp;

MNP home page at http://imai.princeton.edu/research/MNP.html




Detergent Brand Choice

This dataset gives the laundry detergent brand choice by households and the price of each brand. A data frame containing the following 7 variables and 2657 observations. choice factor a brand chosen by each household TidePrice numeric log price of Tide WiskPrice numeric log price of Wisk EraPlusPrice numeric log price of EraPlus SurfPrice numeric log price of Surf SoloPrice numeric log price of Solo AllPrice numeric log price of All

References

Chintagunta, P. K. and Prasad, A. R. (1998) “An Empirical Investigation of the `Dynamic McFadden' Model of Purchase Timing and Brand Choice: Implications for Market Structure”. Journal of Business and Economic Statistics vol. 16 no. 1 pp.2-12.

# Estimació MN logit i probit # Problem Set 3 - MNL - Tria de detergents

#Imai, Kosuke and David A. van Dyk. (2005b) “MNP: R Package for Fitting the Multinomial Probit Models,” Journal of Statistical Software, Vol. 14, No. 3 (May), pp.1-32. library(MASS) library(VGAM) library(MNP) # dades R



5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PACKAGE MNP EN R data(detergent) deter<-detergent summary(deter) head(deter) # Creo numèrica amb la resposta: All, EraPlus, Solo,Surf,Tide i Wisk (M=6) . # Canvio l'ordenació per facilitar un VGLM: Tide, Wisk,EraPlus,Surf,Solo, All. Ref. All deter$fdepvar <-factor(deter$choice, levels=c("Tide","Wisk","EraPlus","Surf","Solo","All" )) deter$depvar <-as.numeric(deter$fdepvar) deter$node <- 1 summary(deter) head(deter) dim(deter)[1] n = 2657 # Nb individus de la mostra, suposo no és SP M = 5 # Hi han M+1 alternatives en competència zeros<-rep(0,n) uns<-rep(1,n) # ymat: crea una matriu de zeros amb n files i M+1 columnes ymat = matrix(0, n, M+1) # Genera mostra de tamany 100 i sobre uniforme 1 a M+1: # y <- sample(x=M+1, size=n, replace=TRUE) # Per cada individu, la mostra conté un numeret de 1 a 4 (el mode), cal posar un 1 en la columna corresponent al mode triat a ymat # Resultat: ymat(i,j)=1 si individu i ha triat el mode j, ymat(i,j)=0 altrament. ymat[cbind(1:n, deter$depvar )] = 1 dimnames(ymat) <- list(NULL, c("Tide","Wisk","EraPlus","Surf","Solo","All" )) ymat[1:7, ] deter[1:7,]$depvar # Per cada alternativa es disposa de preu en una columna deter <- data.frame(deter, ymat )



head(deter)

5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PACKAGE MNP EN R ######## MNL : primer model # Alternativa 6 (All) triat de referència: es crea preu 'all' (6) deter = transform(deter , preu1.6 = TidePrice-AllPrice, preu2.6 = WiskPrice-AllPrice, preu3.6 = EraPlusPrice-AllPrice, preu4.6 = SurfPrice-AllPrice, preu5.6 = SoloPrice-AllPrice) head(deter) # Model logit multinomial condicional on indica que el coeficient de preu ha de # ser el mateix per cada alternativa: entren a la utilidad amb coeficient comú. # No hi ha terme independent. # S'usa diferencia d'utilitat respecte 6. # Probabilitats mostral de la resposta: table(deter$fdepvar)/n # Tinc definides variables y, ymat i dins deter tinc els preus m0 <- vglm(ymat ~ preu1.6+preu2.6+preu3.6+preu4.6+preu5.6 -1 , fam = multinomial, xij = list(preu ~ preu1.6+preu2.6+preu3.6+preu4.6+preu5.6 ), data=deter) model.matrix(m0, type="lm")[1:7,] # LM model matrix model.matrix(m0, type="vlm")[1:7,] # Big VLM model matrix coef(m0, matrix=TRUE) summary(m0) pm0 <-predict.vglm( m0, type="terms" ) # No va pm0 <-predict.vglm( m0, type="res" ) apply(pm0,2,mean)



5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PACKAGE MNP EN R # Model logit multinomial condicional on indica que el coeficient de preu ha de # ser el mateix per cada alternativa: entren a la utilidad amb coeficient comú. # SI hi ha terme independent. # S'usa diferencia d'utilitat respecte 6. # Probabilitats mostral de la resposta: table(deter$fdepvar)/n # Tinc definides variables y, ymat i dins deter tinc els preus m1 <- vglm(ymat ~ preu1.6+preu2.6+preu3.6+preu4.6+preu5.6 , fam = multinomial, xij = list(preu ~ preu1.6+preu2.6+preu3.6+preu4.6+preu5.6 ), data=deter) model.matrix(m1, type="lm")[1:7,] # LM model matrix model.matrix(m1, type="vlm")[1:7,] # Big VLM model matrix coef(m1, matrix=TRUE) summary(m1) pm1 <-predict.vglm( m1, type="terms" ) # No va pm1 <-predict.vglm( m1, type="res" ) pm1[ 1: 7,] apply(pm1,2,mean) logLik(m1) vcov(m1)



5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PACKAGE MNP EN R # MNPROBIT ## run the standard multinomial probit model with intercepts and the price

m3 <- mnp(choice ~ 1,

choiceX = list(Surf=SurfPrice, Tide=TidePrice, Wisk=WiskPrice, EraPlus=EraPlusPrice, Solo=SoloPrice, All=AllPrice),

cXnames = "price", data = deter, n.draws = 500, burnin = 100, thin = 3, verbose = TRUE)

## summarize the results

summary(m3)

attributes(m3) logLik.mnp(m3) # No n'hi ha cov.mnp(m3) # Indescriptible coef.mnp(m3)# Indescriptible ## calculate the quantities of interest for the first 3 observations

pm3 <- predict.mnp(m3, newdata = deter[1:3,])



5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PACKAGE MNP EN R > coef(m0, matrix=TRUE) log(mu[,1]/mu[,6]) log(mu[,2]/mu[,6]) log(mu[,3]/mu[,6]) log(mu[,4]/mu[,6]) log(mu[,5]/mu[,6]) preu -35.33106 -35.33106 -35.33106 -35.33106 -35.33106 > summary(m0) Call: vglm(formula = ymat ~ preu1.6 + preu2.6 + preu3.6 + preu4.6 + preu5.6 - 1, family = multinomial, data = deter, xij = list(preu ~ preu1.6 + preu2.6 + preu3.6 + preu4.6 + preu5.6)) Pearson Residuals: Min 1Q Median 3Q Max log(mu[,1]/mu[,6]) -1.09793 -0.22612 -0.18712 1.76697 3.6248 log(mu[,2]/mu[,6]) -1.10649 -0.32711 -0.26927 1.34406 2.8755 log(mu[,3]/mu[,6]) -0.85821 -0.22513 -0.19203 -0.15102 10.1056 log(mu[,4]/mu[,6]) -1.21323 -0.28298 -0.23687 -0.18845 5.9518 log(mu[,5]/mu[,6]) -0.94413 -0.23961 -0.20792 -0.17137 3.6736 Coefficients: Value Std. Error t value preu -35.331 1.8726 -18.868 Number of linear predictors: 5 Names of linear predictors: log(mu[,1]/mu[,6]), log(mu[,2]/mu[,6]), log(mu[,3]/mu[,6]), log(mu[,4]/mu[,6]), log(mu[,5]/mu[,6]) Dispersion Parameter for multinomial family: 1 Residual Deviance: 9161.362 on 13284 degrees of freedom Log-likelihood: -4580.681 on 13284 degrees of freedom Number of Iterations: 3



5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PACKAGE MNP EN R > coef(m1, matrix=TRUE) log(mu[,1]/mu[,6]) log(mu[,2]/mu[,6]) log(mu[,3]/mu[,6]) log(mu[,4]/mu[,6]) (Intercept) 4.782045 3.043896 4.599833 3.037336 preu -134.492372 -134.492372 -134.492372 -134.492372 log(mu[,5]/mu[,6]) (Intercept) 3.699452 preu -134.492372 > summary(m1) Call: vglm(formula = ymat ~ preu1.6 + preu2.6 + preu3.6 + preu4.6 + preu5.6, family = multinomial, data = deter, xij = list(preu ~ preu1.6 + preu2.6 + preu3.6 + preu4.6 + preu5.6)) Pearson Residuals: ... Coefficients: Value Std. Error t value (Intercept):1 4.7820 0.14015 34.121 (Intercept):2 3.0439 0.11947 25.479 (Intercept):3 4.5998 0.14385 31.977 (Intercept):4 3.0373 0.12945 23.463 (Intercept):5 3.6995 0.14605 25.329 preu -134.4924 3.82114 -35.197 Number of linear predictors: 5 Names of linear predictors: log(mu[,1]/mu[,6]), log(mu[,2]/mu[,6]), log(mu[,3]/mu[,6]), log(mu[,4]/mu[,6]), log(mu[,5]/mu[,6]) Dispersion Parameter for multinomial family: 1 Residual Deviance: 6974.065 on 13279 degrees of freedom Log-likelihood: -3487.033 on 13279 degrees of freedom



5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PACKAGE MNP EN R > table(deter$fdepvar)/n Tide Wisk EraPlus Surf Solo All 0.26383139 0.26458412 0.19081671 0.15280391 0.09522017 0.03274370 > pm0 <-predict.vglm( m0, type="res" ) > apply(pm0,2,mean) Tide Wisk EraPlus Surf Solo All 0.1286505 0.1990001 0.1226328 0.1649222 0.1261243 0.2586702 > apply(pm1,2,mean) Tide Wisk EraPlus Surf Solo All 0.26383139 0.26458412 0.19081671 0.15280391 0.09522017 0.03274370 > summary(m3) Call: mnp(formula = choice ~ 1, data = deter, choiceX = list(Surf = SurfPrice, Tide = TidePrice, Wisk = WiskPrice, EraPlus = EraPlusPrice, Solo = SoloPrice, All = AllPrice), cXnames = "price", n.draws = 500, burnin = 100, thin = 3, verbose = TRUE) Coefficients: mean std.dev. 2.5% 97.5% (Intercept):EraPlus 2.3146 0.1762 1.9504 2.630 (Intercept):Solo 1.3160 0.1194 1.1024 1.537 (Intercept):Surf 1.2962 0.1274 1.0582 1.522 (Intercept):Tide 2.4766 0.1446 2.1767 2.724 (Intercept):Wisk 1.3498 0.0830 1.1950 1.490 price -83.0981 5.0645 -90.7319 -72.398



5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PACKAGE MNP EN R Covariances: mean std.dev. 2.5% 97.5% EraPlus:EraPlus 1.00000 0.00000 1.00000 1.000 EraPlus:Solo 0.48106 0.10107 0.27539 0.666 EraPlus:Surf 0.03172 0.15313 -0.21417 0.356 ... Base category: All Number of alternatives: 6 Number of observations: 2657 Number of estimated parameters: 20 Number of stored MCMC draws: 100 > attributes(m3) $names [1] "param" "x" "y" "w" "call" "alt" "n.alt" "base" "invcdf" [10] "p.mean" "p.var" "p.df" "p.scale" "burnin" "thin" $class [1] "mnp"

o Sabrías estimar el modelo probit bajo la hipótesis i.i.d. de la componente no observable de la utilidad ¿? No se puede, no permite las restricciones.

M4<- mnp(choice ~ 1, choiceX = list(Surf=SurfPrice, Tide=TidePrice, Wisk=WiskPrice, EraPlus=EraPlusPrice, Solo=SoloPrice, All=AllPrice), cXnames = "price", data = deter, n.draws = 500, burnin = 100, thin = 3, verbose = TRUE, p.scale=diag(1.0,5,5), p.df=6 )




El modelo probit se calcula por simulación con muestras generadas mediante algoritmos MCMC (Markov Chain Monte Carlo) de los parámetros identificables y análisis bayesiano donde se debe especificar la distribución a priori de los estimadores de coeficientes de las variables explicativas (puede ser una distribución impropia constante, coeficientes fijos) y de la matriz de covarianzas de los parámetros identificables.

El paquete coda de R permite un análisis de convergencia de la cadena de Markov implícita en la generación de muestras y de alguna manera determinar si el número de muestras (n.draws) es suficiente o hay que augmentarlo. Se calculan 3 cadenas independientes que se almacenan como un objeto mcmc (mcmc.list(.) en coda package de R) y posteriormente se calcula el estadístico de Gelman-Rubin que para cada parámetro estimado tiene que facilitar un estimador puntual por debajo de 1.1 (si no es así hay que alargar las cadenas). También se puede ver la estabilización de los estimadores gráficamente mediante gelman.plot(.). He aquí los comandos y algunos de los resultados que validan que n.draws=50000 es suficiente y por tanto los estimadores convergen.

# Package coda per determinar si ha convergit la cadena MCMC

library(coda)

m41<- mnp(choice ~ 1, choiceX = list(Surf=SurfPrice, Tide=TidePrice, Wisk=WiskPrice, EraPlus=EraPlusPrice, Solo=SoloPrice, All=AllPrice), cXnames = "price", data = deter, n.draws = 50000, burnin = 100, thin = 3, verbose = TRUE )

m42<- mnp(choice ~ 1, choiceX = list(Surf=SurfPrice, Tide=TidePrice, Wisk=WiskPrice, EraPlus=EraPlusPrice, Solo=SoloPrice, All=AllPrice), cXnames = "price", data = deter, n.draws = 50000, burnin = 100, thin = 3, verbose = TRUE, coef.start=c(1,-1,1,-1,1,-1)*10, cov.start=matrix(0.5,5,5)+diag(0.5,5), p.df=6 )




m43<- mnp(choice ~ 1, choiceX = list(Surf=SurfPrice, Tide=TidePrice, Wisk=WiskPrice, EraPlus=EraPlusPrice, Solo=SoloPrice, All=AllPrice), cXnames = "price", data = deter, n.draws = 50000, burnin = 100, thin = 3, verbose = TRUE, coef.start=c(-1,1,-1,1,-1,1)*10, cov.start=matrix(0.9,5,5)+diag(0.1,5), p.df=6 ) mcoda<- mcmc.list(chain1=mcmc(m41$param[,-7]),chain2=mcmc(m42$param[,-7]), chain3=mcmc(m43$param[,-7]) ) gelman.diag( mcoda, transform=TRUE ) gelman.plot( mcoda, transform=TRUE, ylim=c(1,1.2) ) > gelman.diag( mcoda, transform=TRUE ) Potential scale reduction factors: Point est. 97.5% quantile (Intercept):EraPlus 1.01 1.03 (Intercept):Solo 1.01 1.03 (Intercept):Surf 1.01 1.02 (Intercept):Tide 1.01 1.04 (Intercept):Wisk 1.01 1.02 price 1.03 1.10 EraPlus:Solo 1.08 1.26 EraPlus:Surf 1.03 1.10 EraPlus:Tide 1.03 1.10 EraPlus:Wisk 1.01 1.04 Solo:Solo 1.04 1.12 Solo:Surf 1.03 1.09 Solo:Tide 1.04 1.12 Solo:Wisk 1.04 1.13 Surf:Surf 1.02 1.09 Surf:Tide 1.03 1.11 Surf:Wisk 1.01 1.03 Tide:Tide 1.03 1.11 Tide:Wisk 1.02 1.04 Wisk:Wisk 1.01 1.02 Multivariate psrf 1.11+0i



5-6. SELECCIÓN DE ALTERNATIVAS DISCRETAS: PACKAGE MNP EN R > gelman.plot( mcoda, transform=TRUE, ylim=c(1,1.2) ) Esperando para confirmar cambio de página... Esperando para confirmar cambio de página... >



5-7. MODELOS DESAGREGADOS: EL MODELO LOGIT MIXTO

Los modelos lineales generalizados con respuesta binaria o politómica son el referente para el tratamiento estadístico de los modelos de efectos fijos de selección de alternativas discretas.

Los modelos de selección de alternativas discretas y efectos aleatorios permiten modelizar las preferencias individuales e incluir variables subjetivas. El tratamiento más prometedor dentro del análisis de la demanda en planificación del transporte viene del modelo logit mixto. Denominado por muchos expertos como el modelo del nuevo milenio ha sido propuesta por dos grupos de investigación que trabajaban en paralelo, el grupo del MIT (Ben Akiva & Bolduc, 1996) y el grupo de Berkeley (Mc Fadden & Train, 2000).

La función de utilidad aleatoria para una alternativa se puede expresar como una combinación lineal (algunos autores consideran la posibilidad de cualquier función, nosotros no) de variables explicativas (comunes o específicas de alternativa) con coeficientes no fijos, sinó aleatorios dependientes del individuo (éso sí, con una cierta distribución de probabilidad en la población), más una componente aleatoria de error no observado con distribución i.i.d. Gumbel independiente de la distribución de los coeficientes,

jTi xβ+= jijU α con ( )pxx K1=T

jx el vector de variables explicativas del individuo en la alternativa j y iβ el vector de coeficientes desconocidos que varían según el individuo.




La variabilidad de iβ induce correlación entre las opciones. El vector coeficientes para un individuo se puede expresar como la suma de la media poblacional β (desconocida) más la perturbación del individuo iη y de ahí reescribir la utilidad (prescidiendo de las constantes específicas de la alternativa) como:

( ){ 43421

observablenoaleatoriaobservable

ijU≡

++=++=++=+= ijjTij

Tijj

Tij

Tijj

Tiijj

Ti εxηxβεxηxβεxηβεxβ

La componente aleatoria refleja la asociación entre alternativas debido a la influencia de iη y resulta posible conseguir un patrón muy general de correlaciones, variaciones de gusto y heterocedasticidad con la correcta especificación de los parámetros y las variables.

Si ijiβ ε, se distribuyen según leyes normales multivariantes entonces sería un model probit de efectos aleatorios.

Sea la distribución de ( )τββ i ,f≈ , dependiente de un parámetro de media y desviación (posición y escala, en general). Habitualmente se supone una distribución normal o lognormal (facilita la restricción en signos de los coeficientes).

Mc Fadden y Train han demostrado que cualquier modelo de selección de alternativas discretas basado en la maximización de la utilidad aleatoria puede aproximarse con la formulación logit mixta. Por ejemplo, un modelo HL (heterocedástico) se puede obtener definiendo una variable artificial (dummy) para cada nodo y permitiendo una variación aleatoria sobre los coeficientes de las dummies, de manera que se induce una correlación en la componente no observada de la utilidad a nivel de nodo y en cambio entre nodos no existen correlaciones.




La idea simplificada del modelo logit mixto es que las probabilidades de las alternativas se obtienen integrando las probabilidades ponderadas por la densidad de probabilidad de ( )ββ i f≈ , ésto en Estadística es una mixed function. El mixed logit es una mixtura de la función logit evaluada en distintos iβ con la mixing distribution ( )βf .

( ) ( ) βββ dfLijij ∫=π con ( ) ( )( )

( )( )∑=

l il

ijij V

VL

ββ

βexp

exp Mixed Logit

Dada una muestra, la función de verosimilitud no tiene una expresión cerrada y por tanto no se puede determinar el máximo analítico y se recurre a las técnicas de Monte-Carlo, concretamente a la maximización de la log-verosimilitud simulada (SLL). Esta técnica facilita estimadores consistentes y asintóticamente normales.

Si ( )βf es una función degenerada con ( ) 1=βf para un único vector β , entonces el modelo se convierte en el MN Logit clásico.

Si ( )βf es una función de probabilidad de una variable discreta con H valores, hβ , ( ) Hhsf h ,,1K==hβ entoces aparecen los modelos latentes y las probabilidades se convierten en:

( )( )( )( )∑ ∑=

=

H

h l il

ijhij V

Vs

1 expexp

h

h

ββ

π




Si ( )βf es la fdp de una normal multivariante ( )τb,β |f entonces los parámetros de media y matriz de covarianzas son una incógnita que se deben estimar durante el proceso de ahí que la formulación clásica basada en maximización de la verosimilitud esté dando paso a la entrada de los esquemas bayesianos que ofrecen simultaneamente información sobre los parámetros de la ( )τb,β |f y las iβ .

Si se supone que los coeficientes aleatorios son i.i.d, es decir, la matriz de covarianzas es diagonal con valor constante

2s (desconocido), y esperanza bl entonces la fdp conjunta será producto de fdp de los partworths. El cálculo de la LogV Simulada resulta simple de implementar. Incluso se puede pensar en otros modelos que permitan garantizar el signo o acote los valores, para un partworth específico (se omite el subíndice l), la b y la s no son parámetros de posición o escala ahora, son útiles sencillamente:

1. β lognormal, es decir, ( ) ),(log 2sbNβ ≈ . Las aplicaciones con Rayleigh suelen dar menos problemas.

2. [ ]sUβ ,0≈ o [ ]sbsbUβ +−≈ , .

3. β triangular con moda b y rango entre b-s y b+s, con b y s valores a estimar.

En la página personal de Kenneth Train se puede descargar software de libre distribución para la estimación SLL de modelos logit mixtos con distribución de los efectos aleatorios normal o lognormal, en GAUSS o MATLAB, mediante el esquema clásico y el paradigma bayesiano (Bayes jerárquico).

Los paquetes comerciales ALOGIT y LIMDEP-NLOGIT/ACA ofrecen modulos de estimación rápidos y fiables para los modelos logit mixtos. Este último se puede descargar libremente, con restricciones de uso, en la página web que acompaña el texto de Hensher,Rose & Greene, Applied Choice Analysis (2005): http://www.cambridge.org/0521605776.




5-7.1 Definición y probabilidades de elección

El modelo logit mixto se define sobre una forma funcional para las probabilidades individuales de elección y explicitamente un modelo logit mixto es todo aquel modelo cuyas probabilidades se pueden expresar como,

( ) ( ) βθ|ββ dfLijij ∫=π con las probabilidades logit ( ) ( )( )

( )( )( )( )∑∑

==ll il

ijij V

VL

lT

jT

xβxβ

ββ

βexp

expexp

exp

evaluadas en un punto concreto β y la función densidad de probabilidad de los parámetros ( )θ|βf .

Para simplificar la notación se va a denominar ( )τβθ ,= al vector de los parámetros de posición y escala de los coeficientes aleatorios. La utilidad se ha notado sin constantes específicas, ni variables explicativas asociadas a características de los individuos para relajar la notación.

Por tanto, el logit mixto es una suma ponderada según la distribución de los parámetros de las probabilidades logit. Existen dos conjuntos de parámetros a estimar:

• Los parámetros de posición y escala de la función fdp ( )θ|βf : ( )τβθ ,= . No siempre suelen ser de interés.

• Los partworths iβ que aparecen en la fórmula logit.

Los parámetros iβ juegan un papel semejante a los errores de la componente no observable de la utilidad ε : ambos términos deben integrarse para obtener las probabilidades de selección de cada alternativa e individuo.




El modelo logit mixto puede derivarse del paradigma de maximización de utilidad a partir de la perspectiva de los coeficientes aleatorios. El individuo i se enfrenta a J posibles alternativas y la utilidad de la alternativa j se define como:

ijijU ε+= jTi xβ donde T

iβ es el vector de coeficientes que acompañan la utilidad observada, variables según el

individuo lo que permite representar los gustos personales, con una fdp ( )θ|βf y ijε son los errores i.i.d. Gumbel.

El individuo conoce su Tiβ y su ijε para todas las alternativas disponibles y selecciona la j-ésima si y sólo si

jlUU ilij ≠∀> .

Por tanto si Tiβ fuera observable, las probabilidades serían las logit estándard, es decir, la probabilidad de

selección condicionada a Tiβ es

( ) ( )( )

( )( ) ( )∫ ∑∑

=→= βθβxβ

xβxβ

xββ

lT

jT

lTi

jTi df

lij

liij |

expexp

expexp

ππ.

El planificador fija la distribución de probabilidad de los coeficientes aleatorios, habitualmente normal o lognormal y se deben estimar sus parámetros θ . También se han usado la distribución Rayleigh, uniforme y la triangular recientemente.




El modelo logit mixto puede emplearse sin una interpretación subyacente de coeficientes aleatorios y simplemente representar componentes del error que creen correlaciones entre las utilidades de distintas alternativas, de ahí que la utilidad se especifique desde este punto de vista,

ijij zU εν ++= jTij

Txβ donde ji zx , son los vectores de variables de la utilidad observada, β son coeficientes

fijos y iν son coeficientes aleatorios variables según el individuo lo que permite representar los gustos

personales, con una fdp ( )D0,i f≈ν y ijε son los errores i.i.d. Gumbel, independientes de iν .

Por tanto, la parte no observable y por tanto estocástica de la utilidad es ijij z ενη += jTi , en función de jz se

pueden definir asociaciones entre alternativas.

• En el modelo logit estàndard: ljz ilij ≠=→= 0),cov( ηη0j .

• Si ljzzz ilij ≠=→≠ lTjj D0 ),cov( ηη y 6)( 2πη += j

Tj DzzV ij . Aunque ( )2

llσ=D sea diagonal, es decir los términos aleatorios no correlacionados con varianzas distintas, las alternativas están correlacionadas.

5-7.2 Ejemplo Logit Jerárquico como caso particular Logit Mixto

Por ejemplo, el modelo logit jerárquico con dos niveles no forzosamente binarios podría formularse en un esquema logit mixto especificando una variable dummy para cada nodo con 1s para todas las alternativas de ese nodo y ceros en el resto de alternativas. Sería necesario crear el factor Nodo e incluirlo como efecto aleatorio, centrado en 0 y distribuido normalmente.




Sea 1=jmd si la alternativa m pertenece al nodo j y 0 de otro modo. Supóngase que ( )20 jij fν σ,≈ , entonces

imjmijimim dν εεη +=+= mTi zν .

• Ahora si dos alternativas pertenecen al mismo nodo, sean m y m’ en el nodo j, entonces su covarianza es: 2jimjmijimjmijimim dνdν σεεηη =++= ),cov(),cov( '''

• Ahora si una alternativa m pertenece al nodo j, entonces su varianza es:

( )622 πdνdνV jimjmijimjmijimimim +=++== σεεηηη ),cov(),cov()(

• Ahora si dos alternativas pertenecen al mismo nodo, sean m y m’ en el nodo j, entonces su correlación es:

( )( )6222 πcorr jjimim += σσηη ),( '

• Ahora si dos alternativas pertenecen a distintos nodos, sean m y m’ en los nodos j y j’, entonces su covarianza es:

0=++= ),cov(),cov( ''''' immjijimjmijimim dνdν εεηη




5-7.3 Patrones de sustitución

El cociente de probabilidades entre dos alternatives, j y k, depende de todos los datos, incluyendo los atributos de alternativas distintas de j y k: los denominadores de la fórmula logit están dentro de la integral y por tanto no se cancelan, la elasticidad cruzada de la alternativa j ante un cambio del parámetro l de la alternativa k tiene por expresión:

( )( )

( )( ) ( )∫ ∑∑

−=∂

∂βθ|β

xβexpxβexp

xβexpxβexp

imTik

T

imT

ijT

dfβxx

mm

lijij

ikl

ikl

ij

πππ 1

El porcentaje de cambio en la probabilidad de la alternativa j al cambio en la variable l-ésima de la alternativa k depende de la correlación entre las alternativas para distintos valores del parámetro β , la cual viene especificada por el planificador a través de la especificación de las variables que intervienen en la utilidad sistemática y el patrón de mixtura que refleja la fdp especificada para los coeficientes aleatorios.




5-7.4 Estimación del modelo logit mixto

La estimación de los modelos logit mixtos se realiza por simulación, ya que no existe una fórmula cerrada para la integral,

( ) ( ) ( )( ) ( )∫ ∑∫ == βθ|β

xβexpxβexp

βθ|ββil

Tij

T

dfdfLl

ijijπ

Las probabilidades se pueden aproximar por simulación para cualquier valor θ fijado, de hecho el algoritmo podría ser:

1. Extraer rβ un vector aleatorio con componentes distribuídas ( )θ|βf .

2. Calcular el cociente logit ( )rijL β .

3. Repetir los pasos 1 y 2, R veces (varios millares de veces).

4. La probabilidad simulada es la media de los cocientes logit: ( )∑=

=R

r

rijij L

R 1

1 βπ̂ . Es un estimador consistente,

no sesgado, dos veces diferenciable en θ y que facilita una logverosimilitud simulada

( ) ( )∑∑=

=i

J

jijijdSLL

1π̂logθ con 1=ijd si el individuo i elige la alternativa j y 0 de otro modo.

El estimador máximo verosimil simulado (MSLE) es el vector θ̂ que maximiza ( )θSLL .




5-7.5 Correlación entre selecciones individuales: repeated choices El modelo logit mixto puede capturar la asociación entre respuestas del mismo individuo que suele darse en encuestas de preferencias declaradas o sencillamente pensar en los datos como un panel, no cross-sectional.

Sea la utilidad de la alternativa j en la situación de elección t para la persona i, ijtijtU ε+= jtTi xβ , condicional a

iβ , la probabilidad de la secuencia de elecciones del individuo i se puede expresar como producto de las probabilidades de cada situación de elección:

( ) ( )( )∏∑=

=T

t lijTL

1 expexp

ltT

jtT

xβxβ

β

Se supone que los ijtε son independientes dentro de cada tiempo, es decir que la utilidad en la situación t presenta

una componente de errores no observables i.i.d. Gumbel estándar, es decir ( ) tCOV iltijt ∀= 0,εε .

En prácticamente todas las aplicaciones, iβ se consideran fijos para un individuo en todo instante t, pero se puede emplear la idea de una variación del gusto aleatoria que dependa del instante para cada individuo de manera muy cómoda en el esquema logit mixto. Por ejemplo una correlación serial entre las situaciones de elección de una persona y con iβ escalar:

( ) itititijtijtitijtijtitijt xbxβU µηρηεηε +=++=+= −1 itµ i.i.d y b efecto fijo (a estimar).




La simulación de las probabilidades para cada individuo i, alternativa j y situación de elección t seguiría un esquema:

1. Calcular un valor aleatorio ri1µ para el primer instante y calcular la probabilidad logit condicionada a

ri

ri b 11 µβ += .

2. Calcular un valor aleatorio ri2µ para el segundo instante y calcular la probabilidad logit condicionada a

ri

ri

ri b 212 µµρβ ++= .

3. Continuar para t=3,...,T y al final calcular el producto de las T probabilidades logit.

4. Repetir los pasos 1 a 3, r=1,...,R.

5. Promediar los R resultados.

Si el número de variables explicativas es superior a 1 (lo habitual) y T es grande, el coste computacional puede ser muy elevado, pero es la única tentativa disponible. Las probabilidades resultantes del procedimiento anterior se usan para calcular la log verosimilitud simulada y en un proceso iterativo guiado por un método de optimización se conseguirá determinar los valores b y ρ. Este es el esquema clásico: maximización de la log verosimilitud que suele presentar problemas numéricos que pueden superarse saltando a un esquema bayesiano, tanto más eficiente como más compleja sea la estructura de covarianzas modelada, en estas técnicas el proceso de optimización se sustituye por el cálculo numérico de esperanzas matemáticas.



5-8. ESPECIFICACIÓN Y ESTIMACIÓN DE MODELOS DE SELECCIÓN DE ALTERNATIVAS DISCRETAS

La estimación de los modelos discretos involucrados en el análisis desagregada de la demanda de transporte (también extensible a otras aplicaciones de carácter econométrico) son objeto de estudio y aplicación de procedimientos de estimación, selección y diagnosis de modelos estadísticos de regresión lineal generalizada (con respuesta de la familia exponencial) sin/con efectos aleatorios. El problema de la comprensión estadística de los modelos y de la disponibilidad de software para su estimación han sido históricamente las principales dificultades de la perspectiva desagregada en el análisis de la demanda.

La especificación del modelo es una parte que concierne más al ingeniero de transporte, ya que tiene que identificar en el contexto del estudio concreto cuáles son las opciones o alternativas disponibles por los usuarios, es lo que se denomina en terminología anglosajona: choice-set determination. Las alternativas a considerar tienen que ser todas las posibles a considerar por los usuarios, consciente o inconscientemente; ya que la reducción del conjunto posible de alternativas (por carecer de importancia aparente algunas de ellas o para simplificar el proceso de estimación) casi siempre conduce a la formulación y estimación de modelos que resultan sesgados.

La formulación de los modelos discretos de selección de alternativas en planificación depende en gran medida de:

o Formación del ingeniero, conjuntamente con el tiempo y recursos disponibles para la etapa modelística.

o El grado de interrelación entre las alternativas disponibles (a más interelación, más complejidad es requerida).

o La precisión requerida para las predicciones.



5-8. ESPECIFICACIÓN Y ESTIMACIÓN DE MODELOS DESAGREGADOS

5-8.1 Especificación: determinación del conjunto de alternativas disponibles

Esta etapa tiene que resolver cuáles son realmente todas las alternativas disponibles para cada individuo de la muestra y es un trade-off entre realismo y complejidad modelística. En los modelos de reparto modal el número de alternativas no suele ser demasiado grande, sin embargo, en los modelos de distribución donde la alternativa es la zona de transporte de destino, el conjunto de alternativas puede ser muy grande.

Las posibilidades son:

1. Especificar el subconjunto de alternativas efectivas en la muestra disponible (trabajo de campo).

2. Especificar para cada individuo todas las posibles alternativas existentes, independientemente de si son realistas o no se han constatado en el trabajo de campo.

3. Efectuar una agregación que lleve a una jerarquía de decisiones.

4. Obtener información individual directamente de la muestra, preguntando a los individuos por su percepción de las opciones disponibles.

5. Considerar el proceso de decisión dividido en dos etapas: una primera etapa para determinar el subconjunto de alternativas disponibles (reglas de decisión compensatorias y no compensatorias) y el segundo, establecer las probabilidades para las alternativas disponibles.




5-8.2 Estimación de los modelos desagregados: verosimilitud (simulada)

La forma funcional de la utilidad observada es una combinación lineal de variables explicativas. Las variables explicativas ( )pij xx K1=Tx en jijijV βTx= pueden ser:

• Variables cuantitativas.

• Transformaciones de variables cuantitativas.

• Regresores polinómicos formados a partir de variables cuantitativas.

• Variables mudas (dummies) que representan variables cualitativas.

• Variables mudas que representan interacciones entre variables cualitativas o cuantitativas.

La estimación de los parámetros a partir de una muestra aleatoria se realiza por maximización de verosimilitud.

Sea ( )y,φθ,l , la función de log-verosimilitud de una observación de Y de distribución caracterizada por

parámetros de posición y escala φθ, . Algebraicamente, la función de verosimilitud ( ) ( )φθφθ, ,,, yfyL Y= tiene

la misma estructura que ( )φθ,,yfY , únicamente el cambio de orden de los parámetros enfatiza el contexto de

estimación de los parámetros dada la observación y. El máximo de ( )y,φθ,l coincide con el máximo de la función

de verosimilitud ( )yL ,φθ, puesto que la función logaritmo es monótona.




Las propiedades más representativas de los estimadores máximo verosímiles son:

• Son asintóticamente centrados: [ ] ββ =Ε ˆ . Para muestras pequeñas suelen ser sesgados.

• Son asintóticamente normales. La varianza del estimador MV (intuitivamente la variabilidad del máximo de

( )yL ,φθ, o ( )y,φθ,l en distintas muestras) es inversamente proporcional a la curvatura observada: si la curvatura es grande, el máximo está bien definido por los datos y varia poco de muestra en muestra (poca varianza del estimador, hessiana de la log-verosimilitud con valores propios muy negativos), si por el contrario

la curvatura es pequeña, la función ( )y,φθ,l es muy plana en el máximo y pequeñas variaciones muestrales modificarán mucho su posición (varianza elevada del estimador, hessiana de la log-verosimilitud con valores propios poco negativos) . No confundir curvatura con condicionamiento de la hessiana ¡!!

Fisher denominó información observada a menos la segunda derivada de ( )y,φθ,l en el máximo (menos la hessiana en el caso multivariante) y es la inversa de la varianza asintótica del estimador. La varianza

estimada del estimador máximo verosímil es, [ ] ( )[ ] ( ) ( ) 11

212 −

−−

=

∂∂∂

−=∇−= MVji

MVMVMV θ

θθθ

θIOy,y,V

θθφ,

φ,l

l .

Asintóticamente se verifica, [ ] ( ) ( ) ( ) ( )I0,NIOV →−=−−MVMVMVMV θθθθθθ 2

121




• Son asintóticamente eficientes, es decir, de mínima varianza (definida por la cota de Cramer-Rao en modelos que satisfacen ciertas condiciones de regularidad).

[ ] ( )[ ] ( ) ( ) 12112

−

−−

∂∂∂

−==∇−=ji

VVMV θθ

φ,φ,

y,EIy,V

θθθθ

θ

ll ΕΕ .

La matriz de información esperada de Fisher se ha notado por ( ) ℑ=θIE .

• Son invariantes, si ( )θh es una función del estimador, entonces el estimador MV de ( )θh es ( )MVh θ .

La normalidad de los estimadores MV, ( )( )1−≈ θθθ IEN p ,ˆ , bajo ciertas condiciones de regularidad en muestras grandes ofrece la base para construir test de hipótesis a través del denominado estadístico de Wald:

• 00 θθ =:Η por ( ) [ ] ( ) 20

1

0 p

TVW χθθθθθ ≈−−=

− ˆˆˆ . Donde [ ] ( ) ( ) ( )θθθθ ˆˆˆ IOIEIEV ≈≈=−1

.

• Si ( )TTT21 θθθ ,= con dim( 2θ )=q<p i 0: =20 θΗ entonces [ ] 2

2

1

22 qTVW χθθθ ≈=

− ˆˆˆ .

• Si dim( 2θ )=1 entonces 020 =θ:Η se toma la raíz cuadrada del estadístico de Wald y se trata habitualmente

el cociente como una normal estándar: [ ] ( )102

2 ,ˆ

ˆN

Vz ≈=

θ

θ.




Según Ortúzar, una guía práctica para examinar la coherencia de los valores estimados de los parámetros, se podría resumir genéricamente en la siguiente tabla:

Variable Significativamente distinta de 0 No significativamente distinta de cero

Signo correcto OK Mantener en el modelo Relevante ode Política Signo incorrecto Problema serio Problema

Signo correcto OK Probar si es posible sacarla del modelo Adicional

Signo incorrecto Sacar del modelo Sacar del modelo

Si el trabajo de campo conduce a una muestra no aleatoria simple, es decir, una choice-based sample. Entonces los procesos estadísticos de estimación por verosimilitud se vuelven intratables, pero el usar los procedimientos como si la muestra fuera aleatoria conduce a inconsistencias en los estimadores. Si se conoce la proporción poblacional para cada alternativa, entonces es posible establecer ponderaciones o pesos a los individuos de la muestra no aleatoria y con éstos entrar en un procedimiento standard de estimación MV. El peso de cada individuo es el cociente entre la proporción poblacional y la proporción muestral de la alternativa seleccionada.



5-9. AGREGACIÓN EN DEMANDA: PREDICCIONES Y PORTABILIDAD

En los modelos desagregados de demanda bajo el paradigma de la utilidad aleatoria, el problema de la agregación consiste en obtener a partir de modelos individuales, medidas agregadas esperadas de comportamiento en la población (no en una muestra), como la cuota de mercado de algún modo público o los volúmenes en los arcos, etc.

El uso de variables promedio (por zonas de transporte) en el proceso de estimación de los parámetros en los modelos desagregados lleva a la obtención de estimadores sesgados (Daly & Ortúzar, TEC-1990). En principio, el error de agregación puede reducirse técnicamento hasta no representar un problema, sin embargo, el coste de esa reducción implica un trade-off entre precisión y recursos invertidos para la correcta predicción agregada.

Los métodos de agregación descritos en la literatura son:

o Método naïve de uso de variables promedio en las ecuaciones de selección individuales.

o Clasificación.

o Enumeración explícita

El método naïve consiste en reemplazar las variables contínuas de la utilidad de cada alternativa por sus valores promedio (zonales, por ejemplo si la agregación se desea a ese nivel).

( ) )()( jij xx ffj aiij j

=→=Ρ= ππ



5-11. AGREGACIÓN EN DEMANDA: PREDICCIONES Y PORTABILIDAD

Si f(.) es lineal entonces el promedio de las f’s coincide con la imagen de los promedios de las variables explicativas (contínuas por simplicidad). De otro modo, NO. Imaginemos un caso muy sencillo con una zona definida por 2 usuarios, 1 i 2, y una elección MNL, para la alternativa j:

( ) ( ) 2)()(2 2121 jj VfVfjj +=+ππ , pero ( )( ) ( ) 22 2121 jja VVfj

πππ +≠+= jj

En general, para una población de M individuos la proporción de ellos que seleccionará la opción j es:

( ) ∑ ==→=Ρ=

Mi iMa

iij ffjj ,,1

1 )()(K jij xx ππ

Si la muestra de m individuos disponible es representativa, entonces el método se denomina de enumeración (sample enumeration) y da buenos resultados en predicciones a corto plazo. A medio y largo plazo, la muestra disponible seguro que ya no es representativa de la población en ese momento y por tanto, las predicciones resultan inválidas.

( ) ∑ ==→=Ρ=

mi ima

iij ffjj ,,1

1 )()(K jij xx ππ

Los métodos de clasificación responden a una estratificación en la población y están relacionados con los procedimientos de recomposición por post-estratificación en Teoría del Muestreo.

( ) ∑ ==→=Ρ=

Hh hMMa

iij ffj h

j ,,1)()(

K jij xx ππ

donde Mh es el número de individuos por estrato en la población y jxh es el promedio de las variables explicativas en el estrato h-ésimo.

Si H=1 entonces coincide con el método naïve y si H=m entonces coincide con el método de enumeración explícita.

models avanÇats de demanda de … · models avanÇats de demanda de transport master de...

Documents