bayes una herramienta para el modelamiento tesis

23
1 BAYES@PUCP UNA HERRAMIENTA PARA EL MODELAMIENTO DE RESPUESTA BINARIA Jorge Luis Bazan [email protected] Pontificia Universidad Católica del Perú Proyecto DAI-PUCP 3412

Upload: fredy-chungara

Post on 13-Aug-2015

32 views

Category:

Documents


6 download

TRANSCRIPT

Page 1: Bayes Una Herramienta Para El Modelamiento Tesis

1

BAYES@PUCP UNA HERRAMIENTA PARA EL MODELAMIENTO

DE RESPUESTA BINARIA

Jorge Luis Bazan

[email protected] Pontificia Universidad Católica del Perú

Proyecto DAI-PUCP 3412

Page 2: Bayes Una Herramienta Para El Modelamiento Tesis

2

A Classification of Binary Asymmetric Regression Models: The Use Of Brmuw in an application to the decision to eradicate illegal crops of coca leaf

Jorge Luis Bazan [email protected]

Oscar Millones [email protected]

Pontificia Universidad Católica del Perú Proyecto DAI-PUCP 3412

05/08/2008

Page 3: Bayes Una Herramienta Para El Modelamiento Tesis

3

Resumen

Los modelos de respuesta binaria son frecuentes en diversas áreas de aplicación como Ciencias Medicas, sociales, económicas y humanas. Ejemplos de tales modelos son la regresión binaria y la teoría de respuesta al ítem. En el primer caso, a partir de un conjunto de predictores se desea determinar la probabilidad de suceso de una determinada respuesta dicotomica. En el segundo caso se intenta determinar la respuesta correcta o no de un conjunto de ítems de una prueba.

Page 4: Bayes Una Herramienta Para El Modelamiento Tesis

4

Algunos de estos modelos se encuentran disponibles en programas estadísticos comerciales desde la perspectiva clásica o frecuentista. Bayes@PUCP es una herramienta para generar sintaxis para diversos modelos de respuesta binaria basado en la perspectiva bayesiana. Es un esfuerzo por hacer disponible para usuarios aplicados diversos modelos. Las sintaxis generadas pueden ser usadas fácilmente en el programa OPENBUGS. En esta conferencia se ilustra el uso de este programa para el caso de regresión binaria usando datos del área socioeconómica considerando el caso de predecir la probabilidad de erradicar el cultivo de coca en función de diversas características entre agricultores que participan de un programa alternativo..

Page 5: Bayes Una Herramienta Para El Modelamiento Tesis

5

1. INTRODUCION

1.1 Regresión Binaria

- La regresión logística es el modelo mas usado en regresión binaria especialmente en Epidemiología.

- Se obtiene por la formación de odds ratio (razón de chances) de éxitos vs

fracasos

- Las respuestas categorías, discretas y continuas pueden ser transformadas en dicotomicas

- Es una técnica ponderosa, bastante desarrollada desde el punto de vista

estadístico con muchas contribuciones científicas y aplicaciones.

Page 6: Bayes Una Herramienta Para El Modelamiento Tesis

6

Considere: v.a dependiente con n observaciones, covariables, y coeficientes de regresión.

Asuma que con probabilidad y con probabilidad . En el modelamiento de datos binarios se asume que (3.1) Donde denota la función de distribución acumulada (fda), es llamada la función de enlace es el i-ésimo predictor lineal. En la regresión Logística tenemos que en que es la acumulada de la distribución logística. En este caso es llamada enlace LOGIT.

Page 7: Bayes Una Herramienta Para El Modelamiento Tesis

7

Cuando corresponde a la acumulada de la normal estandar, es decir

, se tiene la regresión Probit y en este caso se llama enlace PROBIT. Cuando corresponde a la acumulada de la distribución Gumbel se tiene la regresión de valor extremo. En este caso se llama enlace COMPLEMENTO LOG-LOG.

Page 8: Bayes Una Herramienta Para El Modelamiento Tesis

8

1.2 Un caso social Investigación referida a los factores asociados a la erradicación de hoja de coca e de las percepciones sobre el Programa de desarrollo alternativo en el Perú (Millones, 2005)

1947 agricultores que cultivan coca fueron preguntados con relación a si son favorables a o no a erradicar el cultivo adicional al que necesitan (sierr), considerando,

a) Su percepción al respecto del impacto de la coca en el medio ambiente, (permedyc).

b) un indicador de participación comunal (partco)

Page 9: Bayes Una Herramienta Para El Modelamiento Tesis

9

c) su percepción al respecto del consume de coca, (concoca)

d) un indicador de pobreza, considerando sus necesidades básicas insatisfechas (pobrez) La proporción observada favorable a erradicar es 0,58. El modelo de regresión binaria a ser formulado es

Page 10: Bayes Una Herramienta Para El Modelamiento Tesis

1

1.3 Enlaces asimétricos

En datos binarios:

- Enlaces simétricos (en torno de ): probit y logit. - Enlaces simétricos pueden ser inadecuados y mal especificados.

- Enlaces asimétricos: Prentice (1976), Aranda-Ordaz (1981), Guerrero y

Johnson (1982), Stukel (1988), Czado y Santner (1992a,b), Chen et al., (1999), Basu and Mukhopadhyay (2000), Haro-López, et al. (2000).

- Enlaces probito asimétricos: Czado (1994), Chen et al. (1999) y Bazán et

al. (2005).

Page 11: Bayes Una Herramienta Para El Modelamiento Tesis

1

2. OBJETIVO DE LA INVESTIGACION

- Presentar diferentes estrategias para la construcción de enlaces. - Proponer diferentes formas de obtener enlaces asimétricos

- Proponer una clasificación de modelos de regresión binaria asimétrica.

- Desarrollar una aproximación de inferencia MCMC fácil de implementar

para los modelos clasificados

- Comparar los diferentes modelos según diferentes criterios de una aplicación económico social

Page 12: Bayes Una Herramienta Para El Modelamiento Tesis

1

3. CARACTERIZACION DE LOS ENLACES ASIMETRICOS

3.1 Estrategias para la construcción de enlaces

Considerando en (1)

- Transformación de : Ejemplo - Usando la acumulada de la función de densidad: - Introduciendo una variable aleatoria

- vía una función indicadora:

- vía una función de utilidad aleatoria: - Modificando el predictor linear por en que es una función

no lineal y continua, usualmente particionada y dependiente del intervalo de variación de

Page 13: Bayes Una Herramienta Para El Modelamiento Tesis

1

3.2 Formas de obtener enlaces asimétricos Considerando en (1) (a) correspondiente a fda de una distribución asimétrica: complemento log-log (Gumbel), Weibull y LogNormal (Greene, 2003). BBB skew-probit (Skew-normal) (Bazan, Branco, Bolfarine, 2006). Scobito (Scobit) y logito potencia (Burr tipo II) Prentice (1976), Aranda-Ordaz (1981), Nagler (1994) y Achen (2002) (b) Modificando el predictor linear por donde es una función no lineal es continua, generalmente particionada y dependiente del intervalo de variacion de : Guerrero e Johnson (1982) y Stukel (1988) usan la Logística y Czado (1994) la Normal. Tambien cae la regresion polinomial (Collet, 2003): (c) en la clase general de lasdistribuciones de probabilidad. Por ejemplo en la clase de mezclas de distribuciones simetricas y asimetricas: Basu e Mukhopadhyay, 2000, Haro-López, et al., 2000), CDS skew-probit (Chen Dey y Shao, 1999)

Page 14: Bayes Una Herramienta Para El Modelamiento Tesis

1

INFERENCIA BAYESIANA Verosimilitud La funcion de verosimilitud para los modelos de regresion binaria asimétrica y dada por

Donde denota la fda de una distribucion, con vector de parametros asociados al enlace y vector de parametros asociados a la transformacion del predictor linear . Pueden ser considerados los siguientes sistemas de prioris independientes

Page 15: Bayes Una Herramienta Para El Modelamiento Tesis

1

En la inferencia Bayesiana a diferencia de la inferencia clásica, los parámetros de interés , , se suponen variables aleatorias e por lo tanto se considera una distribución de probabilidades a priori para ellos que corresponde a nuestro conocimiento al respecto de la conducta aleatoria de dichos parámetros. Estos parámetros tienen significados diferentes. Los parámetros y están asociados con el enlace, y el parámetro corresponde a los datos observados y no depende del modelo escogido. En nuestro trabajo, consideramos prioris vagas (prioris propias con distribuciones conocidas con varianza grande) Asumimos independencia entre las prioris, esto es:

βπλθβπ= ( ) )()()(,, λπθπβπλθβπ =

Page 16: Bayes Una Herramienta Para El Modelamiento Tesis

1

Usamos prioris para β comunes en la literatura incluyendo prioris normales.

Especificaciones para )(θπ y )(λπ dependen de la elección particular del modelo considerando un intervalo de variación. En muchas situaciones esos intervalos son determinados de acuerdo a la literatura. También es posible obtener versiones aumentadas introduciendo variables auxiliares. La inferencia (Bayesiana) para los modelos de regresión binaria, es especialmente para los modelos citados antes, y puede ser facilitada por la simulacion MCMC implementada en el programa WinBUGS. Usando una programación mínima es posible implementar todos los modelos presentados.

Page 17: Bayes Una Herramienta Para El Modelamiento Tesis

1

5. APLICACION Nosotros implementamos varios modelos asimétricos como parte del proyecto bayes@pucp. Las sintaxis de estos modelos se pueden obtener usando BRMUW (Binary Regression Model using WinBUGS) y luego llevadas al programa WinBUGS. Ver http://videos.pucp.edu.pe/videos/ver/b55ab3b7633c6dab0cad8eec47066e40 http://videos.pucp.edu.pe/videos/ver/db8373ad4703990c51fd196ef2500c9f Para comparar los diferentes modelos usamos la Deviance Information Criteria (DIC) y los desvíos medios a posteriori (Dbar), que indica que el mejor modelo ajustado es aquel con menor valor en estos indicadores.

Page 18: Bayes Una Herramienta Para El Modelamiento Tesis

1

Graph 1. Syntax for the binary regression model using logito link

obtained in BRMUW

BRMUW is a program developed by the authors, which contains a set of syntaxes in WinBugs code, for the models (symmetric and asymmetric models) referred in this work. The BRMUW program can be obtained sending an e-mail to the first author. It is of free use with proper reference of the source. The models implemented in BRMUW are: Symmetric: probit, logit, Asymmetric: cloglog, scobit, power logit, skew logit, skew probit (CDS, BBB and standard). This program implements models of binary regression that are not implemented in other commercial programs. An illustration of how BRMUW can be used to generate syntax of the mentioned models as well as to generate the syntax to read the data can be seen at http://videos.pucp.edu.pe/videos/ver/b55ab3b7633c6dab0cad8eec47066e40

Page 19: Bayes Una Herramienta Para El Modelamiento Tesis

1

Tabla 1 Comparación de modelos de regresión binaria para la preferencia de agricultores a erradicar el cultivo de coca

Links Models Bur in Thin Dbar DIC

Symmetrical Probito 4000 5 2451.5 2456.8

Logito 4000 5 2450.9 2455.8

Asymmetric Cloglog 4000 5 2451.6 2457.0

Scobit 4000 25 2462.1 2441.2

Power Logit 54000 100 2458.5 1794.1

Skew logit 4000 25 2458.1 1708.4

BBB sp 4000 35 2345.2 2252.5

Standard sp 4000 15 1538.1 1751.7

Note: Based on a chain size of 2000, obtained after removing generated initial values (Bur in) and after using a systematic sampling with jumps (thin). The model CDS asymmetrized probito presented convergence problems and it was not considered.

Page 20: Bayes Una Herramienta Para El Modelamiento Tesis

2

6. FUTURO PROYECTO BAYES@PUCP a) Proyecto BRMUW Sintaxis para inferencia bayesiana b) Proyecto GRSM Documentación de soporte para inferencia bayesiana http://ceos.pucp.edu.pe/dia/proyectos/bayes/ c) Proyecto Legion Simulación intensiva con grid computacional

Page 21: Bayes Una Herramienta Para El Modelamiento Tesis

2

d) Proyectos personales Paginas personales http://www.ime.usp.br/~jbazan/ http://argos.pucp.edu.pe/~jlbazan/ Blog http://blog.pucp.edu.pe/index.php?blogid=757

Page 22: Bayes Una Herramienta Para El Modelamiento Tesis

2

REFERENCIAS BARDALES A. (2004). Esquemas de comportamiento para el análisis de las

percepciones sobre el PDA y el cultivo ilícito de Coca. Informe presentado al Programa de Desarrollo Alternativo (PDA), Diciembre 2004. Chemonics International INC.

BASU, S. AND MUKHOPADHYAY, S. (2000) Binary response regression with normal scale mixes links, in Generalized to Line Models: A Bayesian Perspective, eds. D.K. Dey, S.K. Ghosh, and B.K: Mallick, New York: Marcel Dekker.

BAZÁN, J. L., BOLFARINE, H. AND BRANCO, M. D. (2006) A generalized skew probit class link for binary regression. Technical report (RT-MAE-2006-05). Department of Statistics. University of São Paulo

BEDOYA E. (2003) Las estrategias productivas y el riesgo entre los cocaleros del valle de los ríos Apurímac y Ene.. En C. Aramburú, E. Bedoya (eds.) Amazonía: Procesos demográficos y ambientales. Lima: Consorcio de Investigación Económica y Social CIES.

Page 23: Bayes Una Herramienta Para El Modelamiento Tesis

2

CHEN, M. H., DEY, D. K., y SHAO, Q-M. 1999 A new skewed link model for dichotomous quantal response data.

Journal of the American Statistical Association, 94, 448, 1172-1186. NAGLER J. (1994) Scobit: an alternative estimator to logit and probit.

American Journal Political Science, 38, 230-255. MILLONES O. (2005) La decisión de erradicar el cultivo ilegal de hoja de

coca: Explorando asociaciones con el modelo logístico. Informe presentado al Programa de Desarrollo Alternativo (PDA), Agosto, 2005. Chemonics International INC.

PRENTICE, R. L. (1976). To Generalization of the probit and logit methods for dose-response you curve. Biometrika, 32,761-768.

STUKEL, T. (1988). Generalized logistic models. Journal of the American Statistical Association, 83,426-431.