volumen21 2 n - university of adelaide

Boletín Informativo Sociedad de Estadística e Investigación Operativa

Tenerife 2006 (XXIX Congreso SEIO)

Día de la Estadística en Castillay León

En la muerte de George B. Dantzig

Literatura y Estadística

Bioinformática y Estadística

REDACCION Editor: Jesús López Fidalgo [email protected] Universidad de Salamanca Editores Asociados: Estadística: Miguel Angel Gómez Villegas [email protected] Universidad Complutense de Madrid

Investigación Operativa: Justo Puerto Albandoz [email protected] Universidad de Sevilla

Aplicaciones: Manuel Molina Fernández [email protected] Universidad de Extremadura

Estadística pública: Montserrat Herrador Cansado [email protected] Instituto Nacional de Estadística

Edición técnica: Facultad de Ciencias Matemáticas. U.C.M. Despacho 502 Plaza de Ciencias, 3 28040 Madrid (Ciudad Universitaria) Tel: 91 544 91 02 e-mail: [email protected] - http://www.seio.es Imprime SEROTEL - Pº de la Castellana, 87. Dep. Legal: M-13647-1995 ISSN: 1699-8871 Copyright © 2005 SEIO

BOLETÍN DE LA SEIO

Volumen 21, número 2 JUNIO 2005 Normas para los envíos de colaboraciones: Los artículos se enviarán por correo electrónico al editor asociado correspondiente o al editor del Boletín. No deberán tener una longitud superior a 5 páginas. Las cartas al editor se dirigirán por correo electrónico al editor. La limitación será de 200 palabras. El resto de colaboraciones y noticias se dirigirán al corresponsal más cercano. Las referencias bibliográficas y de software se acompañarán de los datos necesarios para su localización y una reseña no superior a 120 palabras. Los resúmenes de tesis se limitarán a 200 palabras y contendrán: título, autor, directores, departamento, universidad y la fecha de lectura. Con relación a congresos y cursos bastará una breve reseña semejante a las publicadas en el Boletín. El formato preferible para todas las colaboraciones es MS-Word.

ÍNDICE

Editorial …………………………………………………………………………………………. 3 El rincón del Presidente …………………………………………………………………………. 5 1. Artículos de Estadística

*Literatura y Estadística: El problema de la autoría de Tirant Lo Blanc, F.J. Girón, J. Ginebra y A. Riba. ………………………………………………………………………. 6 *Estructura y Análisis de microarrays, M-J. Rivas-López, J.M. Sánchez-Santos y J. de las Rivas. ………………………………………………………………………………. 10

2. Artículos de Investigación Operativa

*Máquinas de vector de apoyo: problemas de programación matemática en clasificación, Emilio Carrizosa y Belén Martín-Barragán …………………………………… 15

3. Artículos de Aplicación

* Estudio de funcionalidad de centros de fitness o gimnasios, Arturo Alvear González ……………………………………………………………………………. 21

4. Estadística Oficial *Información estadística de educación en el INE, Inmaculada Martínez y Álvaro Cobo ………………………………………………………………………………….. 24 5. Estudios monográficos y opiniones sobre la profesión

*Nuevo Catálogo de título de grado, José Rodríguez Avi ……………………………………. 27 *En la muerte de George B. Dantzing, Laureano F. Escudero ………………………………... 29 *Grupos de investigación en la USC ………………………………………………………….. 31

6. Información académica y laboral Noticias …………………………………………………………………………..…………... 32 Tesis …………………………………………………………………….……………….…… 35 Nuestra revistas………………………………………………………………………………. 36 Oportunidades de trabajo ……………………………………………………………………. 37 Publicaciones y software …………………………………………………………..………… 38 Masters, Cursos y Seminarios ……………….……………………………………………….. 40 Congresos …………………………………………………………………………………….. 42 Altas y bajas de socios …………………………………………….…………………………. 45

EDITORIAL

3

EDITORIAL

TRES AÑOS COMO SOCIO DE PRIMERA FILA Pedro Gil Álvarez, Presidente saliente

Soy de los miembros de la SEIO de toda la vida. Acababa mis estudios de licenciatura en Madrid cuando me hice socio, treinta y tantos años de nada, pasando por todos los puestos (socio de a pie, consejo académico, consejo ejecutivo, vicepresidente y presidente). Ahora me piden que escriba sobre esta última etapa. Intentaré resumir los aspectos más significativos. Al concluir el pasado Congreso de nuestra Sociedad, celebrado en Cádiz a finales de octubre pasado, dejé la presidencia de la SEIO. Pasé entonces a la situación de “presidente saliente”, una figura que, junto con la de “presidente electo”, permite dar continuidad a la cabeza visible de nuestra SEIO. Lo que voy a relatar sólo tiene sentido si, en lo que sigue, se interpreta el plural empleado no como mayestático, sino como referente al dúo (creo que bien entonado) con Mª Jesús Ríos como Secretaria General. Han sido tres años ciertamente intensos. Cuando me hice cargo de la presidencia sólo tenía una prevención: los viajes. No me seduce viajar del modo que solemos hacerlo, yendo a una ciudad para formar parte de algún tribunal o comisión la tarde anterior al evento, celebrar este a la mañana del día señalado, y regresar a casa esa misma tarde. Además, desde que abandoné Madrid me he convertido en un “paisano” al que le disgusta profundamente el ruido, la prisa, la contaminación, ... Y me aterraba la posi-bilidad de tener que hacerlo más de dos veces al año (para celebrar las reuniones del Consejo Ejecutivo). La realidad fue mucho más cruel que lo imaginado; he tenido que viajar con excesiva frecuencia por razones que en seguida aflorarán. Tampoco imaginaba otros problemas que fueron surgiendo en esos años. Para comenzar la andadura nos echaban de la vieja sede de la calle Hortaleza y las cuestiones burocráticas estaban peor que mal. Las comunicaciones con los socios eran todas por correo ordinario y las llamadas a la oficina no tenían respuesta. Casi dos años llevó

solventar estos problemas (alguno todavía colea), pero finalmente conseguimos algo: tener una página web que se mueve entre 15.000 y 20.000 visitas anuales, la dirección de correo electrónico de la inmensa mayoría de los socios para poder comunicarnos con celeridad, una persona que responde al teléfono y una nueva oficina en un lugar más apropiado, la Facultad de Matemáticas de la Universidad Complutense. No ha sido una tarea agradable: la búsqueda por internet de muchas direcciones electrónicas, porque los socios colaboraron menos de lo que cabía esperar, fue una tediosa labor llevada a cabo esencialmente por María, la becaria que mantiene actualizadas nuestras bases de datos y nuestra página www.seio.es; los traslados se los comió y bebió Mª Jesús en nombre de todos, ahorrándome viajes y malos ratos. Pero sin duda lo que ha marcado esta etapa ha sido el “reencuentro” con los matemáticos. Creo que durante mucho tiempo nos habíamos mantenido alejados de los matemáticos más o menos puros, sin que las causas del distanciamiento estén muy claras. Entre las consecuencias estaba, a más del desconocimiento mutuo, la consideración de la Estadística y la Investigación Operativa como “matemáticas inferiores” (por usar un calificativo suave) que nos ha mantenido relegados a un segundo plano en las decisiones que afectan a todas las Mate-máticas. No es que ahora estemos en todos los foros con la parte que nos debería corresponder, pero algo hemos avanzado (véase, por ejemplo, el Plan Nacional de Matemáticas). Es cierto que la Estadística y la Investigación Operativa tienen sus propios circuitos científicos (ISI, EURO, etc.), pero no es menos cierto que, como rama de las Matemáticas, debe participar de las actividades generales de estas. Los primeros contactos se tuvieron ya en la etapa de la presidencia de mi predecesor, Rafael Infante, con motivo de la celebración del “Año Mundial de las Matemáticas” en 2000. Fruto de esas reuniones fue la

EDITORIAL

4

reconstitución del Comité Español de la IMU. (International Mathematical Union) en el que se nos asignaron dos de los ocho “escaños” que lo componen. Nuestra Sociedad está representada por el Presidente en ejercicio y el “saliente” o “electo” según la época. En la actualidad, dicho comité es el Comité Ejecutivo y, junto con las Co-misiones de Educación, Desarrollo y Cooperación, Historia e Información y Comunicación Electrónicas, constituye el CEMAT (Comité Español de Matemáticas), órgano que representa a España ante la IMU. Se reúne dos veces al año en alguna Uni-versidad nacional (las dos últimas en Oviedo y A Coruña). Como resultado de esta participación, la SEIO no sólo ha estado y está representada en reuniones como la de Sociedades Matemáticas Iberoamericanas (Santiago 2003) o MATES (Valencia 2005), sino que ha sido co-organizadora de las mismas, encontrando su logotipo y el enlace corres-pondiente en los carteles y páginas anunciadoras de tales eventos. También ha sido fruto de esta colaboración la Primera Jornada Conjunta con la RSME, celebrada con gran éxito en Elche el pasado año. Como actividad estrella se celebrará el próximo año el ICM2006, en el que ostenta el que suscribe una vicepresidencia por las razones de co-organización antes apuntadas. Sin duda, los planteamientos del Congreso Internacional de Matemáticos no son acordes con los desarrollos reales de la Estadística y la I.O. Sólo una sesión y una parte de otra (entre 19) contemplan los tópicos habituales entre nosotros. Pero no debemos desesperar; hemos tomado contacto y ahora, por los vehículos a nuestro alcance (CEMAT, EMS, IFORS, etc.), debemos intentar que ese panorama cambie. El Comité Ejecutivo del ICM2006 se reúne cuatro veces al año en una Universidad española. Como se va viendo, son muchos los viajes que el cargo ha generado. Y, ya que ha sido citada, señalaré que una última vertiente del reencuentro matemático ha sido, a invitación de su presidente, J.C: Kingman (probabilista reconocido), nuestro ingreso en la Asamblea del pasado año en la European Mathematical Society (EMS).

No quiero ni puedo olvidar el trabajo de muchos en la elaboración de los libros blancos de Matemáticas y Estadística, los desvelos para hacer valer nuestras convic-ciones. Aunque el éxito no sea total y aún no esté confirmado, en el momento en que escribo estas líneas parece que ambos grados van a permanecer en nuestra Universidad. ¡Que sea enhorabuena para todos nosotros por lo que ello entraña! Y gracias a todos los que hicieron el trabajo. Todo lo anterior me ha producido indudables satisfacciones que compensan con creces el trabajo extra que haya podido tener en estos años. ¿Y cómo olvidar los Congresos? Lleida y Cádiz nos han dejado un recuerdo imborrable. ¿Quién olvidará el valle de Boí o la Bodega de Jerez? ¿Quién borrará de sus recuerdos aquel ayuntamiento al que llaman La paería (la casa de los “hombres de paz”) o esa chirigota que nos alegró el día? Todo gracias a que unos cuantos se preocuparon de que todos los miembros de la Sociedad tuviéramos algo más que ciencia de lo que ocuparnos. Con todo, las mayores satisfacciones las he tenido sobre todo con los apoyos recibidos. Ya he indicado el papel esencial que ha jugado Mª Jesús en esta etapa. Espero que su ánimo no decaiga en la labor que sigue realizando. También sé lo que han trabajado los vicepresidentes Mariano Valderrama e Ignacio Gª Jurado, todos los miembros del Comité Ejecutivo y de los Consejos Académicos y sé que, en alguna ocasión, han hecho cosas por el mero hecho de que yo se las pedía, sin plantear objeciones de ningún tipo y dando por hecho que el beneficio sería para la Sociedad, siempre sin pedir nada a cambio de su esfuerzo. A todos ellos, gracias. Y gracias también a todos los socios que han aprobado nuestra gestión porque sin ellos nuestra labor no tendría sentido. Y ahora, a seguir avanzando; estoy convencido, por lo que hasta ahora he visto, de que la etapa de Domingo Morales como Presidente superará la prueba con mejor nota que la nuestra.

EL RINCÓN DEL PRESIDENTE

5

EL RINCÓN DEL PRESIDENTE

¿SE INFRAVALORA LA I+D DE LOS ESTADÍSTICOS E INVESTIGADORES OPERATIVOS?

Domingo Morales González

La investigación española en Estadística e Investigación Operativa (EIO) ha experimentado un aumento espectacular, tanto en cantidad como en calidad, en la década de los 90. Se trata de un cambio extraordinario, paralelo al desarrollo general del país, que en EIO ha sido especialmente significativo. España ha pasado de tener unos pocos estadísticos e investigadores operativos (eios) en los departamentos universitarios, a tener una base amplia de investigadores en estas disciplinas, razonablemente financia-dos, con especialistas en casi todas las áreas de la Estadística, la Probabilidad y la Investigación Operativa, incluyendo las más innovadoras. Hoy en día basta visitar una hemeroteca científica y ojear revistas de EIO para darse cuenta de la alta frecuencia con la que aparecen artículos publicados por autores españoles. Esto ocurre así incluso en las revistas mejor situadas en el JCR (Journal Citation Report), distribuyéndose la produc-ción con bastante uniformidad a lo largo de la geografía española. Las oficinas para la transferencia de tecno-logía de las universidades españolas han venido observando con el paso de los años la creciente implicación de los departamentos de EIO en la realización de contratos con empresas y organismos públicos de su entorno. En ese sentido, los estadísticos cada vez cooperan más en el análisis de los datos procedentes de encuestas de opinión, estudios de mercado, de predicción, bio-sanitarios, medio-ambientales, socioeconómicos, demo-gráficos, etc. Análogamente los investiga-dores operativos intervienen con modelos y algoritmos en la toma de decisiones en el mundo empresarial y de la administración pública, en sus planificaciones estratégicas, tácticas y operacionales, con mucha frecuencia en entornos dinámicos incier-tos.

La interrelación con la industria en problemas de planificación, optimización, control y gestión de la calidad, la cooperación con el sistema Estadístico Público Español, las aplicaciones actuariales y financieras y otras, hacen de la EIO y de los modelos probabilísticos una herramienta imprescindible para conseguir que España esté en la vanguardia de los países desarrollados. El panorama esbozado es un reflejo de lo que debe ser la EIO como ciencia. Por una parte la EIO es una rama de las matemáticas y los eios hacen investigaciones que se traducen en publicaciones en revistas científicas y proyectos de investigación competitivos. Por otra parte la EIO es algo más que matemáticas debido a su alta aplicabilidad y los eios hacen desarrollo (investigación aplicada) por medio de contratos con entidades públicas o privadas. En consecuen-cia, esta doble vertiente de la EIO (meto-dología y aplicación) debe recogerse y valorarse en los curricula de los propios eios. Contrariamente a lo que ocurre en EIO, las otras ramas de las matemáticas (salvo quizás en algunos sectores de la Matemática Aplicada) están principalmente enfocadas a la investigación teórica. Ello hace que sus investigadores apenas cultiven las actividades de desarrollo por contrato. En las secciones del ISI Journal Citation Report de Estadística e Investigación Operativa se pueden encontrar revistas de metodología y de aplicaciones. En las primeras publican los colegas con líneas de investigación más teóricas, mientras que en las segundas se publican trabajos que requieren aplicaciones a otras ciencias o técnicas. Las revistas de carácter multidis-ciplinar ocupan generalmente la parte más alta de la sección ISI puesto que son leídas por colectivos de científicos más numerosos, teniendo en consecuencia un impacto más

ARTÍCULOS DE ESTADÍSTICA

6

alto. Así se produce un fenómeno adverso de infravaloración de la investigación básica en fundamentos de la EIO. Las comisiones que valoran los curricula de los científicos muestran una tendencia progresiva a dividir el conjunto de revistas de una sección en tercios o cuartos, y a identificar la calidad de una revista con su ubicación dentro de la partición (catego-rización ordinal). Puesto que las secciones ISI de EIO no están divididas en Funda-mentos y Aplicaciones (al contrario que en matemáticas), la citada práctica penaliza fuertemente a los eio de orientación más teórica. Posiblemente, tales comisiones deberían hacer el esfuerzo de asignar las etiquetas “teórica”, “aplicada” o “ambas” a las revistas ISI de EIO y aplicar el proceso de categorización en las dos subclases resultan-tes.

Estas dos diferencias con el resto de las áreas de Matemáticas hacen que, en el caso de la EIO, las actividades de desarrollo no sean suficientemente valoradas y que las activi-dades de investigación sean generalmente infravaloradas por las comisiones de evaluación de carácter multi-disciplinar. Este fenómeno afecta a procesos de evaluación para la concesión de proyectos competitivos, acciones especiales, premios de doctorado, menciones de calidad a programas de doctorado, tramos de investigación, becarios, etc. El problema está ahí y en ocasiones se agudiza al participar en las citadas comisio-nes colegas matemáticos que desconocen la idiosincrasia y la relevancia de la EIO. Me temo que aun debemos hacer grandes esfuerzos por dar a conocer las especifi-cidades de la EIO.

1. ARTÍCULOS DE ESTADÍSTICA

LITERATURA Y ESTADÍSTICA: EL PROBLEMA DE LA AUTORÍA DE TIRANT LO BLANC

F. J. Girón, J. Ginebra y A. Riba 1 INTRODUCCIÓN AL PROBLEMA

Tirant lo Blanc es una obra principal de la literatura catalana y para muchos —véase Cervantes (1605), D. Alonso (1951) y M. Vargas Llosa (1991)—, la primera novela moderna en Europa. Escrita entre 1460 y 1465, no fue publicada hasta 1490 en Valencia por Nicolau Spindeler. Consta de 487 capítulos de longitudes muy desiguales y de un total de 418 000 palabras aproximadamente. Existe un debate, que viene de muy antiguo, acerca de su autoría. En la edición original hay un prólogo debido a Joanot Martorell y un colofón escrito por el que se supone pudiera ser el segundo autor, Martí Joan de Galba. Tanto Martorell como Galba fallecieron antes de que se publicase la primera edición. Los argumentos a favor de la autoría única se basan en la dedicatoria y el análisis literario

de la obra (véase, p. ej., Givanel i Mas (1911), Vaeth (1918), Marinesco (1978), Martín de Riquer (1990), Hauf (1993), Chiner (1991, 93), Casanova (1994), Badia (1993)), mientras que los de la doble autoría (véase, p. ej., Martínez y Martínez (1916), Entwistle (1927), Moll (1933), Menéndez y Pelayo (1934), Martín de Riquer (1947), Alonso (1951), Coromines (1956), Nicolau d’Olwer (1961), Goerz (1967), Ferrando (1987, 89, 95), Bosh (1987), Rubiera (1990, 92), Wittlin (1990, 93), Hintz (1992)) se basan en el colofón y en el estudio estilístico del lenguaje. La mayoría cree que Galba fue algo más que simplemente un editor de la novela. Capdevila en el prólogo a su edición de 1924–29 resolvió, al parecer, el misterio de las cuatro partes del libro a las que se refiere el colofón, a saber: las aventuras en Inglaterra, la conquista de Rodas, el período en Constantinopla y las guerras del norte de África. Hay diversas y muy dispares opiniones acerca de las partes que escribió cada uno.


7

Dedicatoria Y para que en la presente obra ningún otro pueda ser increpado si algún error fuere encontrado, yo, Joanot Martorell, caballero, sólo yo quiero llevar la carga, y no otro conmigo; pues por mi sólo ha sido ventilada en servicio del muy ilustre Príncipe y señor rey expectante Don Fernando de Portugal la presente obra, y comenzada el dos de enero del año mil cuatrocientos sesenta.

Colofón

Aquí acaba el libro del virtuoso y valiente caballero Tirant lo Blanc, ..., que fue traducido del inglés a la lengua portuguesa, y después en vulgar lengua valenciana, por el magnífico y virtuoso caballero Mossèn Joanot Martorell el cual, a causa de su muerte, no pudo acabar de traducir más que tres partes. La cuarta parte, que es el final del libro, ha sido traducida, ..., por el magnífico caballero Mossèn Martí Joan de Galba; y si desfallecimiento fuera hallado, quiere sea atribuido a su ignorancia; ....

La Estilometría —es decir, el análisis estadístico de características cuantificables, no controlables de forma consciente y propias del autor y no del género, época o editor—, sería la herramienta adecuada para tratar el problema de la autoría de Tirant lo Blanc. En nuestro caso, se trataría de determinar si existe un estilo o más de un estilo y, en el caso en que se detecte más de un estilo, determinar la frontera (o fronteras) de estilo y qué es lo que caracteriza cada

estilo; también saber si el cambio de estilo es progresivo o repentino y si éste se puede atribuir a la existencia de dos autores. Lo que hace interesante y, a la vez, difícil el análisis de la autoría del Tirant lo Blanc comparado con otros problemas de autoría es que no tenemos textos de Martorell ni de Galba con los que comparar, por lo que hemos desarrollado técnicas estadísticas bayesianas novedosas para abordar el problema (véase Girón et al. 2005) en contraposición a los análisis basados en técnicas más informales del análisis de datos como el análisis de correspondencias o la regresión logística (véase, p. ej., Ginebra y Cabos (1998) y Riba y Ginebra (2000, 2005). Para la obtención de los datos se ha utilizado la edición de Martín de Riquer de 1983 y se han excluído los títulos de los capítulos y las palabras en cursiva que suelen corresponder a citas en latín, con lo que queda un total de 398 242 palabras distribuídas en un total de 489 capítulos. En el análisis estadístico solamente se utilizan los 425 capítulos que tienen más de 200 palabras. El criterio estilístico que hemos utilizado en esta nota se refiereala longitud de palabra (número de letras), ya usado desde muy antiguo (Mendenhall, 1887) para discriminar entre obras de Shakespeare, Bacon y Marlowe. Mosteller y Wallace (1964, 1984) lo usaron en su famoso estudio de la autoría de los Papeles Federalistas. Los resultados del análisis usando otros criterios estilísticos pueden verse en las referencias.

L.P. 1 2 3 4 5 6 7 8 9 10+ Ni Ii

Cap.1 21 59 44 19 33 20 16 17 9 17 255 4.47 2 53 113 80 49 52 33 28 36 16 16 476 4.15 3 109 274 239 128 112 110 76 51 43 32 1174 4.06 4 69 150 126 71 60 71 47 32 23 21 670 4.14 ··· ··· ··· ··· ··· ··· ··· ··· ··· ··· ··· ··· ···

484 59 67 68 37 26 32 15 14 17 6 341 3.82 485 96 174 106 57 77 86 42 54 24 25 741 4.18 486 45 88 91 46 40 28 13 30 11 10 402 3.94 487 48 49 62 53 41 36 21 9 16 13 348 4.2

Tabla 1. Longitud de palabra en número de letras por palabra: ijy es el número de palabras de j letras en el capítulo i-ésimo.


8

Los datos, según este criterio, se categorizan en una tabla de contingencia de 425 filas ordenadas por 10 columnas de la que la Tabla 1 ofrece un extracto. 2 MODELOS DE PUNTO DE CAMBIO

EN SUCESIONES DE DATOS MULTI-NOMIALES

El detectar un cambio de estilo a lo largo de la obra se puede abordar mediante un modelo estadístico estándar conocido como modelo de punto de cambio para las filas de una tabla de contingencia como es la distribución multinomial. Para cada capítulo i, las filas yi de las Tabla 1 siguen una distribución multinomial

yi | Ni, θi ∼ Mul−1(Ni,θi)

donde iN es el total de la fila i-ésima, iθ el vector de probabilidades de las l categorías de la fila i-ésima. Una sucesión de variables multinomiales ordenadas 1( ,..., )ny y presenta un cambio de modelo (change-point) en el punto r si

1

1

( , ) ,, ,

( , ) ,l i a

i iil i d

Mu N si i rN r

Mu N si i rθ −

−

≤ >

θy

θ

con a d≠θ θ . El análisis bayesiano del modelo de un punto de cambio se basa en el cálculo de la distribución a posteriori conjunta de los tres parámetros de interés: el punto de cambio r y los parámetros de las distribuciones multinomiales antes del cambio aθ y después del cambio dθ . Como las dos teorías sobre la autoría están en marcado conflicto, para ser neutrales usamos como distribuciones a priori sobre r, aθ , dθ distribuciones no informativas e independientes. Así, contrastar la hipótesis de que solamente hay un autor es equivalente a que no hay punto de cambio en la sucesión de capítulos; es decir, contrastar

H0: r = n frente a H1: r = n. La evidencia a favor de la hipótesis de la autoría única se calcula a partir de la

probabilidad a posteriori de H0 para la Tabla 1, y resultó ser muy próxima a 0.

Como las distribuciones a posteriori de aθ y

dθ son complejas, su comparación se hace a través de las muestras simuladas lo que nos permite determinar las diferencias estilísticas que hay antes y después del cambio. El análisis de la distribución a posteriori de r reveló la existencia de un cambio de estilo principal a partir del capítulo 372 y de un número indeterminado de pequeños cambios de estilo, probablemente fruto de intervenciones menores de cada autor en la parte del otro. Se decidió, en vez de estudiar los posibles cambios de estilo múltiple, realizar un análisis bayesiano de conglomerados, lo que además nos proporcionó mayor información acerca de la autoría de cada uno de los capítulos. 3 ANÁLISIS BAYESIANO DE CONGLOMERADOS

En el anterior análisis de cambio de estilo, la sucesión de filas original se particiona en dos subsucesiones más homogéneas que la original, forzando a que se respete el orden original de las observaciones, mientras que el análisis de conglomerados particiona el conjunto de todos los datos en dos grupos más homogéneos que el total pero sin imponer ninguna restricción en el orden para formar los dos grupos. El análisis de conglomerados bayesiano se basa en modelos de mixtura tal como se describe a continuación. Cada una de lasfilas yi de la Tabla proviene de una distribución multinomial

1 1( , )l iMu N− θ con probabilidad p, y con probabilidad 1- p de una distribución multinomial 1 2( , )l iMu N− θ , es decir yi|Ni ,p, θ1 ,θ2 ∼ pMul-1 (Ni, θ1)

+ (1-p) Mul-1 (Ni, θ2),

donde p representa la proporción de capítulos escritos por el primer autor.


9

El modelo de mixtura (M) presenta un problema de identificabilidad que se resuelve imponiendo la restricción p ≥ .5 compatible con las dos hipótesis de autoría. La asignación de los capítulos a cada uno de los autores, que es problema central del análisis de conglomerados, no se deduce directamente del modelo de mixtura (M). Sin embargo, la posibilidad de asignación de cada capítulo a cada uno de los dos autores se consigue introduciendo variables latentes dicotómicas zi, i =1,...,425, definidas por

1 si yi es del primer autor,

zi =

0 si yi es del segundo autor.

La introducción de las variables latentes zi permite simplificar no solo el modelo de mixtura (M), sino también el cálculo de la distribución a posteriori de los parámetros p,

1θ , 2θ y la asignación de los capítulos

1( ,..., )nz z z= mediante la aplicación del algoritmo de muestreo de Gibbs cuando la distribución a priori es conjugada respecto de la verosimilitud, como ocurre en nuestro caso al utilizar distribuciones no informativas. La probabilidad a posteriori de pertenencia del capítulo i-ésimo al primer autor es precisamente la esperanza a posteriori

1( ,..., )i nE z y y , que se obtiene fácilmente como subproducto de aplicar el algoritmo de Gibbs. Las inferencias sobre la proporción de capítulos del primer autor p se recogen en la siguiente gráfica que refuerza la hipótesis de que aproximadamente unas tres cuartas partes del manuscrito se deben al primer autor.

Figura 1. Histograma de una muestra simulada de la distribución a posteriori de p —proporción de capítulos del primer autor—, para las filas de la Tabla 1.

La evidencia a favor de la hipótesis de la autoría única (hipótesis H0: p = 1) frente a la doble autoría (hipótesis H1: p< 1) se calcula, en este caso, aplicando métodos bayesianos de selección de modelos. El resultado es que la Pr(H0| datos) ≈ 0. Las muestras de las distribuciones a posteriori de los parámetros θ1y θ2, obtenidas de la muestra producida por el algoritmo de Gibbs, son muy similares a las resultantes del análisis del punto de cambio de los parámetros aθ y bθ , lo que refuerza la consistencia de los dos procedimientos. 4 CONCLUSIONES La longitud de palabra, usada como criterio estilístico, detecta un cambio de autor en la transición del capítulo 371 a l 372, en línea con lo dicho en el colofón, de modo que hay evidencia estadística muy fuerte a favor de la doble autoría, aunque no descartamos otras explicaciones alternativas. El análisis de conglomerados bayesiano muestra además que hay consistencia entre los resultados de cambio en la autoría detectados por el análisis de un cambio de estilo al pasar del capítulo 371 al 372 y el análisis de conglomerados, en el sentido de que minimiza el número de capítulos mal clasificados por el punto de cambio. Al parecer, hay intervenciones menores —retoques en algunos capítulos— de ambos autores en las partes respectivas atribuidas al otro autor. Serían los capítulos mal clasificados por el cambio de estilo. Los gráficos de cajas, que no se incluyen en esta nota, son una herramienta muy útil a la hora de entender cuáles son las características que cambian en la frontera de estilo y detectar éstas. Si comparamos el análisis Bayesiano del problema con los basados en el análisis de datos, resulta que aquel —el bayesiano— no solamente es más informativo sino que también es más sencillo.


10

5 REFERENCIAS Ginebra, J. i Cabos, S. (1998). Anàlisi

Estadística de l’estil Literari: Aproximació a l’autoria del Tirant lo Blanc. Afers, 29, 185–206.

Riba, A. i Ginebra, J. (2000). Riquesa de Vocabulari i Homogeneitat d’estil en el Tirant lo Blanc. Revista de Catalunya, 13, 99–118.

Riba, A. and Ginebra, J. (2005). Change-Point Estimation in a Multinomial Sequence and Homogeneity of Literary Style. Journal of Applied Statistics, (to appear).

Girón, J., Ginebra, J. and Riba, A. (2005). Bayesian Analysis of a Multinomial Sequence and Homogeneity of Literary Style. The American Statistician, 59, nº 1, 1–12.

ESTRUCTURA Y ANÁLISIS DE MICROARRAYS 1Rivas-López, M.J., 1Sánchez-Santos, J.M. y 2De las Rivas, J.

1 Dpto. Estadística. Universidad de Salamanca 2 Centro de Investigación del Cáncer. Universidad de Salamanca

A menudo hemos escuchado que los genes, o sus mutaciones, pueden ser muy influyentes a la hora de desarrollar una determinada enfermedad. El DNA existente en el núcleo de las células contiene las instrucciones para la fabricación de proteínas. Un gen es un segmento de DNA que contiene la secuencia codificante específica para construir una proteína concreta. Cuando un gen está activo en una célula, decimos que ese gen está "expresado" en ella. En una célula hay una gran cantidad de genes diferentes activos, que dan lugar a todas las proteínas que funcionan en ese tipo celular. Así por ejemplo, las células humanas epiteliales son diferentes a las células humanas musculares porque a nivel biomolecular los genes expresados y las proteínas presentes en ellas son distintos. Como la actividad y expresión de los genes da información sobre los procesos biológicos y el comportamiento celular, tanto en estados normales como patológicos, su medición es importante para el avance científico. Hasta hace poco tiempo en los laboratorios de biología y genética molecular se podía medir la actividad de cada gen por separado, pero actualmente con las modernas técnicas de genómica puede medirse simultáneamente la actividad de decenas de miles de genes usando una herramienta nueva conocida como microarray de oligonucleótidos de DNA (Harrington et al. 2000). Los microarrays son dispositivos construidos usando microtécnicas de alta precisión

capaces de sintetizar en superficies muy pequeñas (del orden de uno o varios cm2) miles de copias de moléculas. En el caso de los microarrays para medir la expresión génica lo que se sintetizan son oligonucleótidos de DNA; es decir, fragmentos cortos de DNA. La información obtenida de los microarrays de expresión génica ayuda a contestar importantes preguntas biológicas y biomédicas como son: • ¿Existen diferencias de actividad

génica entre personas sanas y personas con una determinada enfermedad?

• ¿Existen subgrupos genéticos de personas con una determinada enfermedad que responden positiva-mente a un tratamiento específico?

DISEÑO BASE DE UN MICROARRAY El DNA es ácido desoxirribonucléico, una biomolécula formada por dos hebras ó cadenas cuyos eslabones son nucleótidos, cada uno incluyendo molecularmente un azúcar (la desoxirribosa), un fosfato y una base nitrogenada. Las bases nitrogenadas son de 4 tipos: adenina (A), citosina (C), guanina (G) y tiamina (T), de modo que cualquier DNA puede ser identificado específicamente por la secuencia lineal de las bases de sus nucleótidos, “secuencia genética”, por ejemplo: ATTGCGCATA. De este modo, en


11

la secuencia reside la llamada “información genética” que es la que tienen los genes. La tecnología utilizada en el diseño de los microarrays se apoya en la propiedad biomolecular fundamental del DNA que es la de "complementariedad” de las bases nitrogenadas, pues A y T, y C y G, se unen específicamente por puentes de hidrógeno. Es decir, si una porción de un DNA presenta en una hebra la secuencia TGAAACT se puede deducir que la hebra complementaria de ese fragmento de DNA será necesariamente la secuencia ACTTTGA. Resumiendo lo anterior, la doble cadena de DNA está constituida por dos hebras que tienen secuencias de nucleótidos complementarias y se unen por las bases nitrogenadas de cada hebra dando lugar a una estructura de doble-hélice, especie de escalera helicoidal, que es tan característica del DNA (Figura 1). En cada escalón o peldaño de la estructura del DNA aparecen ligadas dos bases complementarias. Así pues, si desligamos la escalera de DNA nos encontramos con dos hebras simples, cada una complementaria de la otra.

Todas las células de nuestro cuerpo tienen en su núcleo el mismo contenido genético, constituido por el conjunto de moléculas de DNA que es propio de cada especie. En nuestro caso, especie humana Homo sapiens, son 23 moléculas distintas de DNA duplicadas, es decir 46 moléculas. Cada molécula cuando se condensa y compacta se puede ver al microscopio como una unidad llamada cromosoma. Todo el conjunto de moléculas de DNA es lo que se llama genoma. Sin embargo, cada tipo de célula

tiene activado un tipo de genes del genoma y esa activación corresponde a los llamados “genes expresados”, es decir genes que han sido transcritos por la maquinaria de trascripción celular a mRNA (moléculas de ácido ribonucleico mensajero), que son copias de una hebra del DNA génico. Los mRNA salen del núcleo y se van a traducir, por la maquinaria celular de traducción, en proteínas. Por tanto, podemos determinar qué genes están expresados o activados en una célula midiendo la cantidad de mRNA correspondiente a ese gen que hay en ella. Sin embargo, el mRNA libre es muy inestable, por lo que para poder manipularlo la biotecnología ha diseñado herramientas para pasarlo a DNA y esos DNA que provienen de “retro-trascripción” in vitro de mRNA se llaman cDNA. En 1996 se comercializaron los primeros microarrays de DNA que, aunque con gran variedad de formas, tienen el mismo diseño base. Un microarray es un "chip" del tamaño aproximado de un sello donde, sobre una matriz inerte, se depositan miles de “hebras simples” de DNA de secuencias génicas, oligonucleótidos, de modo que sobre ellos pueden hibridar las secuencias complementarias correspondientes que son las que se obtienen del mRNA de las muestras biológicas que queremos analizar. Aunque hay diferentes técnicas para la construcción de microarrays de DNA (Schena et al. 1995; Lockhart et al. 1996), el procedimiento básico para trabajar con ellos es el siguiente: 1. Marcar la muestra del tejido a estudiar

con un tinte fluorescente. 2. Aislar el mRNA de las células de

interés y proceder a copiarlo mediante una síntesis in vitro para pasarlo a cDNA.

3. Desnaturalizar ese cDNA para obtener hebras simples.

4. Poner el cDNA troceado sobre el microarray donde las hebras simples de cDNA son atraídas por las hebras simples de oligonucleótidos del microarray uniéndose a ellas para volver a conformar la estructura de doble-hélice similar a la del DNA (proceso conocido como hibridación).

Adenina Timina

Guanina Citosina

Pares de bases

Cadena de azúcar y fosfato

Figura 1: Doble-hélice de DNA


12

5. Lavar el microarray para quitar las hebras simples de la muestra que no han hibridado.

6. Escanear el microarray con un láser para cuantificar la fluorescencia de cada gen.

En general, la actividad de un gen está representada por el número de copias de mRNA de ese gen en una muestra de células. Un alto (bajo) nivel de fluorescencia indica que muchas (pocas) copias del mRNA de ese gen han hibridado en el chip y que, por tanto, el gen tiene mucha (poca) actividad en la célula. A. Malcolm Campbell del Davidson College, ha realizado una animación del proceso del microarray de DNA que puede encontrarse en:

http://www.bio.davidson.edu/courses/ genomics/chip/chip.html

ANÁLISIS DE DATOS DE MICRO-ARRAYS CON MAS5.0 (AFFYMETRIX) Nos centraremos en un tipo específico de microarrays como son los microarrays de oligonucleótidos, de los cuales los más famosos son los microarrays GeneChip de la compañía americana Affymetrix. Un

oligonucleótido es una cadena de nucleótidos, que en el caso de los microarrays de Affymetrix son 25. Un microarray de este tipo consiste en una matriz inerte sobre un substrato de vidrio en donde se han sintetizado miles de cadenas de oligonucleótidos de secuencias distintas. A su vez, el microarray está dividido en celdas donde se colocan miles de copias de cada tipo de oligonucleótido. Para cada gen, el microarray contiene un conjunto de sondas o “probe-set” que son oligonucleótidos de 11 tipos distintos (así es en el caso del microarray modelo U133 de genes humanos); esto es, 11 hebras simples distintas de oligonucleotidos de tamaño 25. Cada oligonucleótido está miles de veces pegado en una celda constituyendo una sonda o “probe”. Ahora bien, para cuantificar de alguna manera el número de “falsas” hibridaciones de estas hebras simples cada celda está dividida en dos partes: una con copias del oligonucleótido correcto y otra al lado con ese oligonucleótido modificado en la base central de su secuencia. Estos dos tipos de oligos constituyen un “probe-pair” y el que tiene la cadena correcta, se llama “perfect match” (PM), y el que tiene la cadena alterada se llama “mismatch” (MM) (Figura 2).

Antes de comenzar el análisis de los datos hay que depurarlos pues hay muchas fuentes de variación: diferentes lecturas de los niveles de fluorescencia (dependiendo del escáner utilizado), microarrays con cantidad variable de tinción fluorescente, etc. Este proceso de depuración se lleva a cabo mediante el ajuste, escalado y normalización de la señal de fluorescencia. El ajuste de la señal de fluorescencia se realiza restando a la fluorescencia inicial una estimación de la fluorescencia debida al fondo (background) del microarray. El escalado consiste en multiplicar las intensidades del microarray “muestra” por un factor de escalado (SF) para que su media de

intensidad sea igual a una intensidad predeterminada. La normalización se utiliza cuando se pretende comparar varios microarrays “muestra” entre sí, y consiste en multiplicar las intensidades de cada microarray “muestra” por un factor de normalización (NF) para que sus medias de intensidad sean iguales a la de un microarray “referencia”. Si sólo tenemos una “muestra” y la queremos comparar con la “referencia” el NF será 1. Para los procesos de escalado y normalización se considera como media de intensidad de un microarray a la media recortada excluyendo el 2% menor y mayor de las intensidades.

Hebra simple de un gen → ..... TATGGTGGGAATGGGTCAGAAGGACTCCTATGTGCGTGAC .....

Perfect Match Oligo → TTACCCAGTCTTCCTGAGGATACAC

Mismatch Oligo → TTACCCAGTCTTGCTGAGGATACAC

Figura 2: Probe-pair para un gen


13

ANÁLISIS DE DATOS DE UN ÚNICO MICROARRAY Si nos proponemos estudiar un gen en un único microarray, el MAS5.0 (Microarray Analysis Suite 5.0) de Affymetrix nos informa sobre: 1. Detección del gen (gen presente/ausente) 2. Señal de intensidad (medida de la expre- sión del gen) 1. Detección del gen Para cada “probe pair” j (1, 2, …, 11) del “probe set” que representa al gen, se calcula el cociente Rj = (PMj – MMj) / (PMj + MMj), y se compara con un umbral predeterminado (τ) para evitar falsas presencias (que se producen cuando MMj y PMj son parecidos); de modo que a las diferencias (Rj – τ) se les aplica el test unilateral de los rangos con signo de Wilcoxon, generándose así un p-valor de detección del gen. Es decir, este test nos indica al final si un “probe set” concreto correspondiente a un gen se puede tomar como “presente” (P) o “ausente” (A) en la muestra analizada. 2. Señal de intensidad Se pretende cuantificar la fluorescencia de cada “probe-pair” y dar un valor de expresión del “probe-set”; es decir, la señal de intensidad del gen. Los pasos en la construcción de la señal de un gen i son: 1.- La intensidad total de cada “probe-pair” j

del gen i es la diferencia de la dada por la hibridación “verdadera” del gen y la “dispersa” ó debida a otras causas. Aunque debería poder estimarse por PM – MM, no es así pues pueden aparecer intensidades negativas cuando MM > PM. Por ello se define el Ideal Mismatch (IM) de cada “probe-pair” como el MM si MM < PM y como una modificación del MM si MM ≥ PM, de modo que las diferencias PM - IM sean siempre positivas.

2.- Se calcula el valor de cada “probe-pair” j

del gen i, denominado “probe value” (PV), siendo: PVij = log2 (Vij) donde Vij = max PMij – IMij , 2-20 . El logaritmo de la señal correspondiente al gen i (Signal

Log Value (i)) será la media biponderada de Tukey de sus 11 “probe values”: Signal Log Value (i) = Tbi (PVi1 , … , PVi11).

3.- La señal final correspondiente al gen i es:

Signal (i) = NF · SF · 2SignalLogValue(i). Es decir, nos da un valor absoluto de intensidad de señal para cada “probe set” concreto, correspondiente a un gen, en números que oscilan normalmente entre 1 y 10000. ANÁLISIS DE DATOS DE DOS MICROARRAYS, UNO DE MUESTRA Y OTRO DE REFERENCIA Si ahora queremos estudiar el cambio experimentado en la señal de un gen en dos microarrays “muestra” y “referencia”, el MAS5.0 de Affymetrix nos informa sobre: 1. Detección de cambio en la señal (genes que cambian y en qué sentido) 2. Señal relativa (medida de la expresión relativa de cambio) 1. Detección de cambio en la señal Para cada gen se calculan tres vectores, v[k], k = 0,1,2, de longitud 22 a partir de los valores de los 11 “probe-pairs” que lo representan en los microarrays “muestra” y “referencia” y de un rango para los factores de normalización, por defecto de ±10%. Para cada k = 0, 1, 2, se realiza el test unilateral de los rangos con signo de Wilcoxon y se extiende a un contraste bilateral, con lo que se obtienen tres p-valores, p0, p1 y p2, que se utilizan para definir un p-valor de cambio del gen, p, bastante restrictivo a la hora de considerar que existe cambio (incremento ó disminución) en la expresión del gen en la “muestra” respecto a la “referencia”. Es decir, este test nos indica para cada “probe set” concreto si su señal disminuye respecto al control (p ~ 1), si su señal se incrementa respecto al control (p ~ 0), ó si no hay cambio significativo en la señal (p ~ 0.5). También se admite la distinción de disminución marginal (MD) o de incremento marginal (MI) cuando el p-valor esté muy cerca del que delimita la región de aceptación


14

de disminución o incremento respectiva-mente. 2. Señal relativa Se pretende cuantificar el cambio en la señal de intensidad del gen. Los pasos en la construcción de esta señal relativa para un gen i son: a.- Para cada “probe-pair” j del gen i se

calcula su señal escalada y normalizada SPVij = log2 (SF · NF · Vij) donde Vij = max PMij – IMij , 2-20 , y como señal relativa del “probe-pair” se toma la diferencia PLRij = SPVij (muestra) – SPVij (control).

b.- La señal relativa correspondiente al gen i

(Signal Log Ratio (i)) será la media biponderada de Tukey de las señales relativas correspondientes a sus 11 “probe-pairs”: (Signal Log Ratio (i)) = Tbi (PVi1 , … , PVi11).

Es decir, nos da para cada “probe set” concreto (correspondiente a un gen) un valor relativo de cambio de intensidad de señal en escala 2-logarítmica, en números que oscilan normalmente entre -4 y 4. PROBLEMAS A LA HORA DE REALIZAR EL ANÁLISIS ESTADÍSTICO DE MICROARRAYS Un problema a la hora de analizar datos procedentes de microarrays es que el número de genes es mucho más grande que el número de individuos. Es decir en términos estadísticos tenemos el caso de miles de variables frente a sólo unas pocas muestras. Este tipo de datos hace imposible invertir las matrices de dispersión y por tanto los métodos de reducción de variables como la regresión han de desestimarse pues usan dichas inversas para calcular las estimaciones mínimo-cuadráticas. Aunque se han desarrollado algunas técnicas de reducción de datos, hay aún que desarrollar métodos para averiguar qué conjunto de genes es el más informativo. Como a menudo estamos interesados en estudiar la variación significativa de ciertos genes particulares, usamos técnicas de contraste gen-a-gen como t-tests, ANOVA ó regresión. Estas técnicas presentan el

problema grave de que cada vez que un gen es considerado significativo en alguna de estas pruebas, se produce un error de Tipo I. Si predeterminamos un nivel de significación de 0.05 y ejecutamos un t-test individual sobre 10000 genes, entonces cabe esperar que 500 genes sean considerados significativos, aunque ni tan siquiera tengan señal alguna. Aunque el control de este tipo de errores se había estudiado ampliamente (Benjamini y Hochberg, 1995), se ha retomado en el contexto específico de datos de microarrays (Storey, 2002). Otro problema es que los datos de microarrays no verifican las suposiciones usuales de muchos tests estadísticos estándar. Suelen presentar asimetría por la derecha y varianzas desiguales. Considerando los datos log-transformados conseguimos mejorar la asimetría pero las varianzas siguen siendo bastante desiguales, lo cual hace que muchas técnicas (como el ANOVA) no sean robustas. Por ello se está investigando sobre transformaciones y normalizaciones de datos de microarrays que permitan que los análisis estadísticos estándares sean fiables (Durbin et al, 2002). ¿QUÉ SOFTWARE EXISTE PARA EL ANÁLISIS DE MICROARRAYS? El software para realizar análisis de datos de microarrays está siendo desarrollado constantemente. Algunos de estos programas y métodos disponibles gratuitamente son: • Bioconductor: Conjunto de programas y aplicaciones gratuito que trabaja con el lenguaje R y que precisa de conocimiento básico de programación en R ó S-Plus. Está diseñado específicamente para extraer información de microarrays y tiene muchos tipos de gráficos (www.bioconductor.org). • SAM & PAM: Programas gratuitos para Microsoft Excel ó R. El SAM descubre genes significativos, controlando la tasa de falsos positivos, y el PAM los clasifica mediante métodos centróides (www-stat.stanford.edu/ ~tibs). • BRB ArrayTools: Este software está diseñado para Microsoft Excel y se utiliza para la visualización y el análisis estadístico de datos de microarrays. Realiza


15

comparación y predicción de clases y tests de permutaciones para los niveles de significación (http://linus.nci.nih.gov/BRB-ArrayTools.html). REFERENCIAS Affymetrix 2002. Statistical algorithms

description document (MAS v5.0). Benjamini, Y., and Hochberg, Y. 1995.

Controlling the false discovery rate: a practical and powerful approach to multiple testing, Journal of the Royal Statistical Society, B, 57:289-300.

Durbin, B., Hardin, J., Hawkins, D., and Rocke, D. 2002. A variance-stabilizing transformation for gene-expression microarray data, Bioinformatics, 18:105S-110S.

Hardin, J. 2005. Microarray data from a statistician´s point of view, STATS, 42:4-13.

Harrington, C.A., Rosenow, C. and Retief, J. 2000. Monitoring gene expression using DNA microarrays, Current opinion in Microbiology, 3:285-291.

Lockhart, D., Dong, H., Bryne, M., Follettie, M., Gallo, M., Chee, M., Mittmann, M., Wang, C., Kobayashi, M., Horton, H., and Brown, E. 1996. Expression monitoring by hybridization to high-density oligonucleotide arrays, Nature Biotechnology, 14:1675-1680.

Schena, M., Shalon, D., Davis, R., and Brown, P. 1995. Quantitative monitoring of gene expression patterns with a complementary DNA microarray, Science, 270:467-470.

Storey, J. 2002. A direct approach to false discovery rates, Journal of the Royal Statistical Society, B, 64:479-498.

2. ARTÍCULOS DE INVESTIGACIÓN OPERATIVA

MÁQUINAS DE VECTOR DE APOYO: PROBLEMAS DE PROGRAMACIÓN MATEMÁTICA EN CLASIFICACIÓN

Emilio Carrizosa y Belén Martín-Barragán Dpto. Estadística e Investigación Operativa. Universidad de Sevilla

[email protected],[email protected]

1. Introducción

En la última década, la capacidad de almacenamiento de información digital se ha duplicado cada nueve meses. Crece, por tanto, a una velocidad muy superior a la prevista por la ley de Moore para el crecimiento de la capacidad de cálculo, [18, 25], provocando la aparición de las denominadas fosas de datos, [18]: datos que son almacenados y descansan en paz, sin que nadie los reclame o los recuerde.

La constatación de la existencia de tales fosas de datos, y la consiguiente pérdida de oportunidades de avance en el conocimiento o de negocio, está provocando un enorme interés por el desarrollo de técnicas que,

complementando a las previamente existentes, permitan obtener información desconocida y potencialmente útil de datos provinientes de campos tan diversos como la Bioinformática (expresión genética,…), gestión de clientes (fuga de clientes, análisis de la cesta de la compra,…), la banca (valoración de riesgo en créditos, detección de uso fraudulento de tarjetas de crédito, …), Internet (clasificación de páginas web, filtrado de correo indeseado, …), [1, 2, 3, 16, 19, 20, 22, 35].

Hablamos, usando una denominación de moda en los medios científicos, y, en particular, en las líneas editoriales de algunas de las revistas de más alto índice de impacto en nuestra área de conocimiento, de la

ARTÍCULOS DE INVESTIGACIÓN OPERATIVA

16

Minería de Datos. Las referencias [2, 8, 22, 23, 34] pueden servir de introducción al tema.

Examinando, por ejemplo, las distintas opciones del software de código abierto Weka, [33], descrito en [34], se observa que uno de los pilares de la Minería de Datos, aunque bastante anterior a ésta, es la Clasificación. Encontramos junto a procedimientos bien conocidos en la comunidad estadística, como la regresión logística, los árboles de clasificación, los modelos bayesianos o las redes de neuronas artificiales, otros más recientes, como el que nos ocupa en estas líneas: las Máquinas de Vector de Apoyo (en inglés, Support Vector Machines), que ha saltado del mundo del Aprendizaje Estadístico, [12, 31, 32] al de las aplicaciones pasando por el de la Programación Matemática. Véase [4, 5, 6, 11, 26, 27, 29, 30, 36] para otros métodos de clasificación que, como las Máquinas de Vector de Apoyo, usan técnicas avanzadas de Programación Matemática.

2. El problema de clasificación Tenemos un conjunto de objetos .Ω Cada objeto u∈Ω tiene dos componentes

( , )u uu x c= , donde u px ∈ ¡ representa el vector de variables predictoras, y uc C∈ es la clase a la que pertenece u . Por simplicidad en la exposición, supondremos el caso binario, 1, 1C = − .

Se dispone de un conjunto no vacío de objetos I ⊂Ω , la muestra de aprendizaje. El objetivo es predecir, a partir de I , la clase

vc a la que pertenece un objeto v∈Ω conociendo solo vx . Para ello se buscan

pω∈ ¡ , β ∈ ¡ , se construye la función de evaluación f ,

( ) Tf x xω β= + , (1)

y con ésta, la regla lineal de clasificación que clasifica en el grupo 1 a aquellos px∈ ¡ con

( ) 0f x > y en el grupo -1 a los x con ( ) 0.f x < Los x con ( ) 0f x = serán

clasificados siguiendo alguna regla predeter-minada.

La primera pregunta que nos hacemos es si existen o no ,ω β tales que la correspondiente regla lineal clasifique correctamente el 100% de los individuos de

,I

( ) 0 .u T uy x u Iω β+ > ∀ ∈ (2)

Cuando el sistema (2) sea factible, diremos que I es separable linealmente. Es fácil comprobar (usando, por ejemplo, resultados básicos de dualidad en Programación Lineal), que la separabilidad lineal de I es equivalente a que los cierres convexos de los conjuntos : , 1u ux u I c∈ = , : , 1u ux u I c∈ = − sean disjuntos. Esta condición puede comprobarse numéricamente en tiempo polinómico en el cardinal de I y la dimensión p de los datos.

2.1. El caso separable. Cualquier ( , )ω β solución de (2) satisface que 0.ω ≠ En particular, ( , )ω β genera un hiperplano, : 0p Tx xω β∈ + =¡ , de modo que el semiespacio : 0p Tx xω β∈ + >¡ contiene al conjunto : , 1,u ux u I c∈ = y el semiespacio : 0p Tx xω β∈ + <¡ contiene al conjunto : , 1.u ux u I c∈ = − Cuando I es linealmente separable, el sistema (2) tiene infinitas soluciones, que generan infinitos hiperplanos distintos. ¿Cómo elegimos una de estas soluciones? La calidad de la clasificación, sobre la muestra de aprendizaje, es idéntica: todas clasifican correctamente el 100% de I. Sin embargo, no todas parecen igualmente razonables. En la Figura 1 podemos ver dos hiperplanos que separan los grupos de I (círculos y cuadrados). Intuitivamente, podemos pensar que el hiperplano representado por un trazo grueso es más conveniente que el de trazo fino. En particular, este último asigna al objeto representado con ‘?’ la clase cuadrado, cuando parece mucho más verosímil que pertenezca a la clase de los círculos.


17

Figura 1. ¿Dos reglas que clasifican igual de

bien?

El ejemplo anterior nos indica intuitivamente la conveniencia de elegir un hiperplano que esté alejado de las dos clases. Las Máquinas de Vector de Apoyo se basan precisamente en este principio, como a continuación se describe. Se fija una norma g en p¡ para medir las distancias (usualmente la euclídea). Para un objeto ,u I∈ la distancia entre ux y el semiespacio en el que quedará clasificado incorrectamente viene dada por

( )( , ) max , 0 ,u T u

u y xω βρ ω βω

+ =

o (3)

e.g. [7], donde og denota la norma dual a

g . Se define el margen en la muestra de aprendizaje I como el mínimo uρ :

( , ) min ( , ).I u

u Iρ ω β ρ ω β

∈= (4)

El clasificador buscado es aquél que no sólo clasifique correctamente a todos los objetos de I, sino que tenga margen máximo. Geométricamente, la búsqueda del clasificador de máximo margen puede verse como un problema de Localización, [8], pues el problema es equivalente a construir la banda de máxima anchura (las distancias medidas con la norma g ) que deja un grupo a cada lado, como se muestra en las Figuras (2)-(3).

Figura 2. Máximo margen (norma 2l )

Figura 3. Máximo margen (norma ∞l ) Usando la homogeneidad de la función

margen, el problema de maximización del margen puede ser formulado como el siguiente problema convexo con restricciones lineales:

( )min

s.a.: 1

, .

u T u

p

y x u I

ω

ω β

ω β

+ ≥ ∀ ∈

∈ ∈

o

¡ ¡

(5)

Si, para medir las distancias hemos usado, como en el ejemplo de la Figura 3, una norma g poliédrica, (i.e., cuya bola unidad

es un poliedro) su dual og también es poliédrica, y por tanto (5) puede reformularse como un problema de Programación Lineal, resoluble, incluso para grandes bases de datos, con optimizadores comerciales como CPLEX, [21]. El caso más estudiado en la literatura, no es, sin embargo, el que tiene como g una norma poliédrica, sino la euclídea. Entonces (5) es equivalente al


18

siguiente problema cuadrático convexo con restricciones lineales:

( )min

s.a.: 1

, ,

T

u T u

p

y x u I

ω ω

ω β

ω β

+ ≥ ∀ ∈

∈ ∈¡ ¡

(6)

que puede resolverse, por ejemplo, usando planos de corte, [28].

2.2. El caso no separable.

En la Sección 2.1 hemos supuesto que I era linealmente separable. Si no es el caso, el problema (5) es infactible, por lo que deben aplicarse enfoques alternativos. Uno de estos enfoques consiste en aplicar a los datos, como preprocesamiento, una transformación

: ,p Fφ →¡ donde F es un espacio vectorial de mayor dimensión (posiblemente infinita), de manera que, en el nuevo espacio, la muestra de aprendizaje ˆ ( ( ), ) : u uI x c u Iφ= ∈ sea linealmente

separable, [10, 14, 15, 17, 24]. Conseguido esto, se buscan ,Fω∈ ,β ∈ ¡ y se construye la regla de clasificación, que estaría basada en la función ,f

( ) ( ) ,Tf x xω φ β= + (7)

que asigna, como es habitual, al grupo 1 si ( ) 0,f x > y al grupo -1 si ( ) 0.f x < Esta

regla es lineal sobre los datos transformados, pero no lineal en el espacio original .p¡ El problema de maximización del margen es

( )min

s.a.: ( ) 1

, .

u T uy x u I

F

ω

ω φ β

ω β

+ ≥ ∀ ∈

∈ ∈

o

¡

(8)

Para el caso en que g sea poliédrica y F tenga dimensión grande (pero finita), (8) se escribe como un problema lineal de gran tamaño, para cuya resolución son especialmente convenientes técnicas de generación de columnas, permitiendo al mismo tiempo hacer selección automática de variables, [10].

Si, en cambio, usamos la norma euclídea

para medir las distancias en el espacio

transformado, (8) es un problema cuadrático convexo cuyo dual es

1

,2max ( ) ( )s.a.: 0

0,

u u v u v u T vu I u v I

u uu I

u

y y x xy

u I

λ λ λ φ φλ

λ

∈ ∈

∈

−∑ ∑=∑

≥ ∀ ∈(9)

Definiendo el núcleo

: ( , ) ( ) ( ) ,p p TK x y x yφ φ∈ × → ∈¡ ¡ ¡ (9) se convierte en

1,2max ( , )

s.a.: 00, .

u u v u v u vu I u v I

u uu I

u

y y K x xy

u I

λ λ λλ

λ

∈ ∈

∈

−∑ ∑=∑

≥ ∀ ∈(10)

Para poder resolver (10), ni siquiera es necesario conocer ,φ sino un algoritmo de evaluación del núcleo K que induce.

El problema de maximización resultante es cóncavo cuadrático, con tantas variables como elementos en I, y con una única restricción, lineal, junto a las de no negatividad. La dimensión de este problema es, por tanto, independiente de la dimensión p de los datos del problema original y de la dimensión de F. Esto hace de (10) una formulación especialmente atractiva en aplicaciones con no demasiados datos, pero de alta dimensionalidad, como las de, por ejemplo, [16, 35]. Para más detalles, véase, por ejemplo [13, 24].

Una estrategia alternativa (y a veces complementaria) para abordar el caso no separable, es la que se basa en la maximización del margen débil, [12, 13, 24], en la que, partiendo del problema infactible (6), se perturban sus restricciones para hacerlo factible, introduciendo una penalización en el objetivo para controlar la perturbación introducida. Así se obtiene el problema (siempre factible)

( )| |

min ( )

s.a.: 1,

, , ,

T rr

u T u u

p I

C

y x u I

ω ω ξ

ω β ξ

ω β ξ

+

+ + ≥ ∀ ∈

∈ ∈ ∈¡ ¡ ¡

(11)


19

donde r

g denota la norma rl y C>0 es una constante que se usa para equilibrar la perturbación ξ y el margen en los puntos correctamente clasificados, usualmente elegida por técnicas de validación cruzada. Terminamos el análisis comentando que, en una gran variedad de aplicaciones, la importancia del error cometido al clasificar incorrectamente un objeto depende fuertemente del grupo al que éste pertenece: los costes asociados a los falsos positivos y a los falsos negativos pueden ser muy distintos, y, como en el caso del diagnostico de enfermedades, puede ser difícil cuantificar esa importancia asignando costes. En tal caso podemos plantear el problema biobjetivo de maximización simultánea del margen en cada uno de los dos grupos. Como se prueba en [9], para el caso euclídeo, las soluciones eficientes resultan ser hiperplanos paralelos a la solución del problema de máximo margen clásico (8).

Fijando el ω obtenido al resolver (8), y dejando variar ,β se obtienen las distintas soluciones eficientes, que dan distintos niveles de compromiso entre los falsos positivos y los falsos negativos sobre la muestra de aprendizaje I. Esto se ilustra en la Figura 4, en la que aparecen en línea gruesa los distintos compromisos así obtenidos entre falsos positivos y falsos negativos en I, siendo éstos una guía a los que obtendríamos sobre ,Ω representados en trazo fino.

Figura 4. Clasificadores eficientes

3. Conclusiones

La construcción de reglas de clasificación basadas en la maximización del margen está mostrando ser extraordinariamente eficaz en diversos campos aplicados de la Minería de Datos.

A pesar de los grandes avances obtenidos en los últimos años, son aún muchos los aspectos (de modelado, de tipo numérico, algorítmico) por explorar.

Con estas líneas esperamos haber despertado la curiosidad por una técnica de la que no hemos explicado ni el origen de su exótico nombre (por cierto, el término inglés Support Vector Machines no debe traducirse como “¡Apoye las máquinas vectoriales!”), que goza de creciente aceptación entre los usuarios de la Minería de Datos, y, esperemos que cada vez más, de los estadísticos y los investigadores de operaciones españoles.

Agradecimientos

El trabajo ha sido parcialmente subvencionado por el Ministerio de Ciencia y Tecnología, a través de los proyectos BFM2002-04525-C02-02 y BFM2002-11282-E, y por el Plan Andaluz de Investigación, proyecto FQM-329

Referencias [1] Alexe, S., Blackstone, E., Hammer, P.,

Ishwaran, H., Lauer, M. y Pothier Snader, C.E. Coronary risk prediction by logical analysis of data. Annals of Operations Research, 119:15-42, 2003.

[2] Apte, C. The big (data) dig. OR/MS Today, February 2003.

[3] Apte, C., Liu, B., Pednault, E.P.D. y Smyth, P. Business applications of Data Mining. Communications of the ACM, 45:49-53, 2002.

[4] Bennet, K.P. y Mangasarian, O.L. Robust linear programming discrimination of two linearly inseparable sets. Optimization Methods and Software, 1:23-24, 1992.

[5] Bradley, P., Mangasarian, O. y Musicant, D. Optimization methods in massive datasets. En Abello, J., Pardalos, P.M., and Resende, M.G.C.,


20

editores, Handbook of Massive Datasets, pag. 439-472. Kluwer Academic Pub., 2002.

[6] Bradley, P.S., Fayyad, U.M. y Mangasarian, O.L. Mathematical programming for data mining: formulations and challenges. INFORMS Journal on Computing, 11(3):217-238, 1999.

[7] Carrizosa, E. y Fliege, J. Generalized goal programming: Polynomial methods and applications. Mathematical Programming, 93:281-303, 2002.

[8] Carrizosa, E. y Martín-Barragán, B. Problemas de clasificación: una mirada desde la localización. En Avances en localización de servicios y sus aplicaciones. B. Pelegrín (Ed.), pp. 249-276. Servicio de Publicaciones de la Universidad de Murcia, 2005.

[9] Carrizosa, E. y Martín-Barragán, B. Two-group classification via a biobjective margin maximization model. Por aparecer en European Journal of Operational Research.

[10] Carrizosa, E., Martín-Barragán, B. y Romero-Morales, M.D. A Biobjective Model to Select Features With Good Classification Quality and Low Cost. Proceedings of the Fourth IEEE International Conference on Data Mining. IEEE Publications, 2004. Pag. 339-342.

[11] Carrizosa, E. y Plastria, F. Optimal expected-distance separating halfspace. Report MOSI/7, Vrije Universiteit Brussel, 2004.

[12] Cortes, C. y Vapnik, V. Support-vector network. Machine Learning, 1:113-141, 1995.

[13] Cristianini, N. y Shawe-Taylor, J. An Introduction to Support Vector Machines. Cambridge University Press, 2000.

[14] Demiriz, A., Bennett, K.P. y Shawe-Taylor, J. Linear programming boosting via column generation. Machine Learning, 46(1):225-254, 2002.

[15] Duarte Silva, A.P. y Stam, A. Second order mathematical programming formulations for discriminant analysis. European Journal of Operational Research, 72:4-22, 1994.

[16] Efron, B., Tibshirani, R., Storey, J. y Tusher, V. Empirical bayes analysis of a microarray experiment. Journal of the American Statistical Association, 96:1151-1160, 2001.

[17] Falk, J.E. y Karlov, V.E. Robust separation of finite sets via quadratics. Computers and Operations Research, 28:537-561, 2001.

[18] Fayyad, U. y Uthurusamy, R. Evolving data mining into solutions for insight. Communications of the ACM, 45:28-31, 2002.

[19] Golub, T.R., Slonim, D.K., Tamayo, P., Huard, C., Gaasenbeek, M., Mesirov, J.P., Coller, H., Loh, M.L., Downing, J.R., Caligiuri, M.A., Bloomfield, C.D. y Lander, E.S. Molecular classification of cancer: Class discovery and class prediction by gene expression monitoring. Science, 286(5439):531-537, 1999.

[20] Han, J., Altman, R.B., Kumar, V., Mannila, H. y Pregibon, D. Emerging scientific applications in Data Mining. Communications of the ACM, 45:54-58, 2002.

[21] ILOG CPLEX 8.1 User's Manual. http://www.pcs.cnu.edu/~riedl/software/cplex81/doc/userman/onlinedoc/

[22] Hand, H., Mannila, H. y Smyth, P. Principles of Data Mining. MIT Press, 2001.

[23] Hastie, T., Tibshirani, R., y Friedman, J. The Elements of Statistical Learning: Data Mining, Inference, and Prediction Springer, 2001.

[24] Herbrich, R. Learning Theory Classifiers. Theory and Algorithms. MIT Press, 2002.

[25] Informe de Intel sobre la ley de Moore. http://www.intel.com/research/silicon/mooreslaw.htm

[26] Mangasarian, O.L. Mathematical programming in data mining. Data Mining and Knowledge Discovery, 42(1):183-201, 1997.

[27] Piramuthu, S. Evaluating feature selection methods for learning in data mining applications. European Journal of Operational Research, 156:483-494, 2004.

[28] Platt, J. Fast training of support vector machines using sequential minimal optimization. En Advances in Kernel


21

Methods - Support Vector Learning B. Schlkopf, C. J. C. Burges, y A. J. Smola (Eds.), pp. 185-208. MIT Press, 1999.

[29] Rubinov, A.M., Bagirovand, A.M., Soukhoroukova, N.V. y Yearwood, J. Unsupervised and supervised data classification via nonsmooth and global optimization. TOP, 11(1):1-93, 2003.

[30] Stam, A. Nontraditional approaches to statisical classification: Some

perspectives on pl -norm methods. Annals of Operations Research, 74:1-36, 1997.

[31] Vapnik, V. The Nature of Statistical Learning Theory. Springer-Verlag, 1995.

[32] Vapnik, V. Statistical Learning Theory. Wiley, 1998.

[33] Weka 3: Data Mining Software in Java. http://www.cs.waikato.ac.nz/ml/weka/

[34] Witten, I.H., y Frank, E. Data Mining: Practical Machine Learning Tools and Techniques. Morgan Kaufmann, 2005.

[35] Xie, D., Singh, S.B., Fluder, E.M. y Schlick, T. Principal component analysis combined with truncated-Newton minimization for dimensionality reduction of chemical databases. Mathematical Programming, 95:161-185, 2003.

[36] Zopounidis, C. y Doumpos, M. Multicriteria classification and sorting methods. European Journal of Operational Research, 138:229-246, 2002.

3. ARTÍCULOS DE APLICACIÓN

ESTUDIO DE FUNCIONALIDAD EN CENTROS DE FITNESS O GIMNASIOS

Arturo Alvear González Estudiante de Estadística

Universidad de Salamanca INTRODUCCIÓN Son bien conocidas las ventajas que conlleva la práctica de cualquier disciplina deportiva: mejor calidad de vida, reducción de estrés, mejora física y de la autoestima, prevención de enfermedades, etc. En los últimos años, la incorporación de nuevas disciplinas deportivas, como por ejemplo aeróbic o determinadas modalidades orientales, a nuestra práctica deportiva han contribuido a reducir la monotonía y a aumentar la versatilidad a la hora de ejercitarse. La finalidad que se persigue en este estudio es la de tratar de probar estadísticamente algunas de las ventajas que se consiguen en los centros de fitness o en gimnasios, así como estudiar las posibles relaciones, estadísticamente significativas, entre las variables de interés consideradas en este tipo de centros.

Algunos estudios anteriores, fundamental-mente llevados a cabo por los propios preparadores y deportistas, ya han puesto de manifiesto que aunque en tales centros no se consiguen milagros, si que ayudan a mejorar nuestra calidad de vida y nuestra salud, siendo su utilidad de gran importancia para personas mayores (véase en este sentido el libro de Beraldo y Pollet (1995)). POBLACIÓN CONSIDERADA Y VARIABLES ANALIZADAS El estudio se ha realizado en base a los datos suministrados por un gimnasio de capacidad media (360 sujetos, 73% hombres y 27% mujeres) localizado en la provincia de Burgos, siendo nuestras conclusiones extrapolables a centros de características similares al considerado.

ARTÍCULOS DE APLICACIÓN

22

Como variables explicativas se han considerado el sexo, la edad, la altura y el mes en el que se ha tomado el dato. Se dispone de datos correspondientes a cuatro meses (octubre , noviembre y diciembre de 2003 y enero de 2004). Como variables respuesta de interés se han analizado, el porcentaje de grasa, el peso y la tensión arterial. A través de fichas especialmente diseñadas, los monitores toma diversos datos a las personas que realizan ejercicio, incluyendo información sobre su edad, sexo, altura (en cm.), días de entrenamiento (2, 3 y todos) y tipo de ejercicio realizado (según sea la finalidad de los usuarios). Con periodicidad mensual, se realizan pruebas con objeto de valorar la evolución del porcentaje de grasa, el peso y la tensión arterial, información que es anotada en las fichas. Aplicando la metodología estadística apropiada, se trata de probar, a partir de la información disponible, la importancia, para nuestra calidad de vida en general y para nuestra salud en particular, de tales centros y establecer las posibles correlaciones entre las variables analizadas. ANÁLISIS ESTADÍSTICO DE LOS DATOS Análisis de Regresión Primeramente, se ha realizado un análisis de regresión lineal sobre algunas variables temporalmente fijas (días de entrenamiento y tipo de ejercicio). De dicho análisis, se concluye que existe relación estadísticamente significativa entre las variables altura y sexo y los días de entrenamiento o el tipo de ejercicio, respectivamente. Se han obtenido ajustes significativos con altos coeficientes de determinación (> 85 %). Tanto los modelos de regresión obtenidos para días de entrenamiento como para tipo de ejercicio con el resto de variables fijas en el tiempo muestran diferencias por sexo (véase Figura 1). Mientras que en mujeres se explica una tendencia a clases específicas de pocos días de entrenamiento, en hombres la tendencia es a un ejercicio más continuado, principal-mente debido a entrenamiento específico de preparación de oposiciones a cuerpos del

estado, como policía o bomberos. También se aprecia una relación estadísticamente significativa de las variables anteriores con los porcentajes de grasa, siendo más notorio en el tipo de ejercicio, que se relaciona con primeros y últimos porcentajes de grasa. Análisis Comparativo Dada la fluctuante temporalidad de variables como el porcentaje de grasa, peso y tensión arterial, y el hecho de que sólo de dispone de cuatro niveles, se ha considerado como técnica estadística más apropiada el ANOVA de medidas repetidas. Conviene destacar, como ya se indicó anteriormente, que la temporalidad es constante, mes a mes desde la entrada en el centro. También se ha utilizado un contraste multivariado con prueba de comparación de Bonferroni, para demostrar si existen o no diferencias estadísticamente significativas entre los distintos periodos de tiempo de las variables de estudio. A continuación se proporcionan y comentan los resultados obtenidos para el porcentaje de grasa, el peso y la tensión arterial.

Figura 1. Porcentaje por sexo del tipo de ejercicio PORCENTAJE DE GRASA Las comparaciones que se obtienen para el porcentaje de grasa son significativas con la edad (p=0,001), el sexo (p=0,002) y el tipo de ejercicio (p=0,01), siendo éstas positivas para la edad y negativas para el tipo de ejercicio, esto es, como parece claro pensar, que a mayor número de ejercicios que se practiquen menor será el porcentaje de grasa, Mientras que para la variable sexo los valores son mayores para mujeres que para hombres. El contraste multivariado para esta variable señala que existen diferencias estadísticamente significativas de la primera

ARTÍCULOS DE APLICACIÓN

23

medición con la tercera y de la primera medición con la cuarta (como se ve en la Figura 2), con un valor de significación para la lambda de Wilks de p=0,019. Figura 2. Media de porcentaje de grasa y medias significativas PESO El estudio del peso muestra relaciones significativas con el tipo de ejercicio (p=0,002) y la altura (p=0,001), obteniendo que cuantas más disciplinas deportivas se practiquen mayor es la disminución del peso y a mayor altura mayor peso, como cabría esperar. El contraste multivariado para estos periodos constantes de medición del peso muestra una significación en la Lambda de Wilks de p=0,266, por lo que se concluye que no hay diferencias estadísticamente significativas para los distintos periodos de tiempo. TENSIÓN ARTERIAL Por último, en relación a la tensión arterial, se ha considerado su estudio en tres apartados, los correspondientes a las tensiones arteriales máxima (sistólica), mínima (diastólica) y total, es decir, la diferencia media entre tensión arterial máxima y tensión arterial mínima. La tensión arterial máxima muestra relación

significativa únicamente con la altura, hecho destacado, porque tal y como se piensa en la sociedad, la tensión se ve afectada por el peso, mientras que no existen diferencias entre los espacios temporales con una significación de la Lambda de Wilks de p=0,370. En la tensión arterial mínima el ANOVA de medidas repetidas muestra relaciones con el primer porcentaje de grasa, dando aquí el contraste multivariado diferencias significativas entre grupos (significación de la Lambda de Wilks es p=0,043), concretamente entre la medición de entrada al gimnasio y la última medición efectuada. Por último, la variable tensión arterial total muestra significación con el sexo y el primer porcentaje de grasa, siendo siempre mayor en hombres que en mujeres, pero siempre son valores por debajo de los valores estándar. Como una de las conclusiones mas destacables, se deduce que un descenso del porcentaje de grasa no implica (al menos estadísticamente) un descenso de peso, lo que explica en cierto modo, la efectividad de tales centros, puesto que entre sus objetivos no figura la rápida reducción de peso, sino la transformación, de manera gradual, de la materia grasa en materia muscular. Figura 3. Relación explicativa de la conclusión.

REFERENCIAS: Beraldo, S., y Mollet, C. 1995. Preparación física total. Hipano Europea Barcelona

Perdida de

peso ⇒ Descenso de Porcentaje

de grasa

4ºPorcentaje de gras3ºPorcentaje de gras

2ºPorcentaje de gras1ºPorcentaje de gras

Med

ia

19,2

19,0

18,8

18,6

18,4

18,2

18,0

17,8

ESTADÍSTICA OFICIAL

24

4. ESTADÍSTICA OFICIAL

INFORMACIÓN ESTADÍSTICA DE EDUCACIÓN EN EL INE

Inmaculada Martínez, Alvaro Cobo Instituto Nacional de Estadística

RESUMEN Actualmente se dispone de estadísticas de educación y de encuestas dirigidas al estudio del mercado laboral que proporcionan una valiosa información tanto de la situación del sistema educativo como del mercado laboral. Sin embargo, en estos momentos, no se dispone de una encuesta que estudie las características del proceso de inserción laboral de un colectivo tan importante como son los jóvenes. El artículo describe una nueva encuesta que trata de cubrir esta laguna y además hace un breve recorrido por las diferentes estadísticas educativas llevadas a cabo por el INE.

1. INTRODUCCIÓN

La variable estadística “educación / formación” se encuentra presente en todas las investigaciones estadísticas dirigidas a los hogares y a los miembros que los componen puesto que es una variable auxiliar de gran potencia explicativa para cruzar los resultados de las mismas. Por ejemplo, la variable “nivel de educación/formación” (nivel de estudios) está fuertemente correlacionada con las expectativas de inserción laboral y las aptitudes sociológicas de los individuos. Así, tenemos que en todas las operaciones estadísticas del Instituto Nacional de Estadística (INE) dirigidas a los hogares dicha variable figura en el cuestionario (Encuesta de Población Activa, de Presupuestos Familiares, Encuestas de Salud y de Empleo del Tiempo, Censos Generales, etc.). Asimismo, en el Censo Electoral la variable “nivel de estudios” tiene una gran importancia a la hora de elegir el presidente y vocales de las mesas electorales.

Por lo que respecta a las estadísticas educativas -basadas en fuentes administrativas- que el INE lleva a cabo, importa señalar en primer lugar la Estadística

de Pruebas de Aptitud para el Acceso a la Universidad la cual se publica con carácter monográfico y en la que se ofrece información de los alumnos que se presentan a las mencionadas pruebas (comúnmente denominadas pruebas de selectividad) desglosada por universidad, sexo y opción por la cual se presentan.

En segundo lugar, para ofrecer una rápida visión del panorama universitario en lo que al número de alumnos matriculados se refiere, durante el primer semestre del año se publica el Avance de la Estadística de la Enseñanza Universitaria. Los resultados recabados tienen el carácter de provisionales ya que se refieren a los plazos de matrícula de junio y septiembre. Este hecho conlleva que la información puede variar sensiblemente con arreglo a los resultados definitivos obtenidos al cerrarse la matrícula de febrero ya que cada vez con mayor frecuencia las asignaturas carácter cuatrimestral o semestral, se generan al tener varios períodos de matriculación a lo largo de todo el curso académico.

Como ya se ha indicado, una vez cerrado el plazo de febrero, se recaban de nuevo datos de las Universidades sobre alumnado, de nuevo ingreso, matriculado y graduado (desglosado por sexo y edad), personal docente (ídem por categoría, dedicación, sexo, edad y área de conocimiento) y personal de administración y servicios. Este arsenal de datos constituye la base para la confección de la Estadística de la Enseñanza Universitaria en España.

La comparación de los datos de alumnado de nuevo ingreso en primer curso recogidas en esta estadística con los reflejados en la de las pruebas de selectividad, permite extraer provechosas conclusiones en cuanto al acceso a la Universidad de los alumnos en un curso dado.


25

Llegados a este punto, debe señalarse que los estudios incluidos en dicha estadística son aquéllos de primer y segundo ciclo que tienen el carácter de oficial. También se demanda información acerca de los estudios de Doctorado, tanto de alumnado matriculado como graduados (Doctores). Estos datos así recabados, de manera agregada, constituyen el punto de partida para la realización de indicadores sociales requeridos por organismos internacionales. Es precisamente la necesidad de una garantía de comparación internacional, junto a la ausencia de una clasificación de los programas educativos en el sistema estadístico español, lo que lleva a que en febrero de 2000 se apruebe mediante un Real Decreto la Clasificación Nacional de Educación (CNED-2000), basada en la Clasificación Internacional Normalizada de Educación 1997, que proporciona una estructura única de estos programas educativos de modo que toda la información estadística relativa a la educación se pueda tratar homogéneamente.

Por otra parte hay que señalar que los cambios legislativos y administrativos en nuestro sistema educativo afectan significativamente a la realización de esta estadística. En este contexto, hay que enmarcar los cambios introducidos por la Ley Orgánica de Universidades 6/2001 (LOU) en cuanto a las nuevas categorías de personal docente, la proliferación de títulos propios y aquellos que conducen a la obtención de dos titulaciones oficiales.

Carácter muy relevante de estas modificaciones legislativas que obligarán a un replanteamiento drástico de las estadísticas sobre la educación universitaria, son los derivados de la Declaración de Bolonia que tiene por objetivo desarrollar un Espacio Europeo de Educación Superior antes del año 2010. El sistema que se pretende implantar está basado fundamentalmente en dos ciclos, pregrado y grado. El título otorgado al terminar el primer ciclo tendrá un valor específico en el mercado de trabajo de la Unión Europea y el segundo llevará a la obtención de un Master y/o Doctorado.

2. ENCUESTA DE TRANSICIÓN EDUCATIVA FORMATIVA E INSERCIÓN LABORAL (ETEFIL)

El INE, en colaboración con los Ministerios de Educación y Ciencia (Instituto Nacional de Cualificaciones) y Trabajo/Asuntos Sociales (Instituto Nacional de Empleo), ha abordado la realización de Encuesta de Transición Educativa Formativa e Inserción Laboral (ETEFIL) que estudia el proceso de inserción laboral relacionando formación con empleo para diferentes colectivos de jóvenes.

Cierto es que la Encuesta de Población Activa (EPA) viene suministrando una valiosa información sobre este campo de investigación al poner en relación la variable educación (nivel alcanzado y estudios en curso) con otras variables de la encuesta y especialmente con la situación laboral de la persona (ocupada, desempleada, inactiva). La mayor demanda de información por parte de los órganos rectores de la Unión Europea, ha llevado a introducir en el segundo trimestre de los años 2000 y 2003, sendos módulos sobre la Transición de la educación al Mercado Laboral y los Cursos de Educación/ Formación impartidos fuera del sistema educativo (recibidos por las personas entrevistadas). Ahora bien, el objeto de la ETEFIL es más ambicioso ya que su objetivo es el estudio de la formación y el empleo así como la relación entre los mismos. Para ello se trata de estudiar cómo son los itinerarios educativo-formativo y laborales seguidos por los individuos a lo largo de un periodo, haciendo especial incidencia en el estudio de la inserción laboral y la formación de cara al empleo.

En efecto, una de las principales características de la situación del mercado laboral en la mayor parte de los países desarrollados, es la existencia de tasas de desempleo muy elevadas entre los jóvenes y, en cualquier caso, más altas que las de la población adulta. Ahora bien, es preciso señalar que el fenómeno que se quiere estudiar por la ETEFIL, no está señalizado por un principio y un final fijados nítidamente, sino que es un proceso complejo en el cual se alternan y se solapan períodos de ocupación, desempleo e inactividad


26

(estudio u otras situaciones). Esta combinación de diferentes actividades y experiencias laborales conforma pues una trayectoria dinámica de esta inserción la cual depende, por otra parte, de factores exógenos al individuo como la demografía o la actividad del ciclo económico. También se deben tener en cuenta variables adscritas al individuo pero que no forman parte de su educación/ formación como pudieran ser sus expectativas y metas profesionales, entorno socio-económico, etc.

La dificultad del estudio estadístico de la transición y la inserción se acrecienta debido al hecho de que el mismo colectivo a estudiar no se encuentra bien definido. En efecto, el propio concepto de joven se ha difuminado teniendo en cuenta que la edad no es ya la variable básica que conforma dicho concepto. Por otra parte, conceptos que se venían utilizando (estudiante a tiempo completo, empleo estable, carrera profesional en un mismo centro de trabajo, etc.) han de ser revisados para dejar paso a situaciones académicas, laborales y personales más complejas, que se entretejen y destejen a lo largo del tiempo. Otra cuestión básica objeto de debate en el asunto que nos ocupa es la adecuación entre los requerimientos de cualificaciones del mercado laboral y la formación recibida por los estudiantes que pretenden insertarse en él.

El universo investigado son los alumnos que en el curso 2000-2001 finalizaron sus estudios de Educación Secundaria Obligatoria (ESO), Bachillerato y Ciclos formativos de Grado Medio y Superior. También estudian los abandonos de la ESO en dicho curso así como los alumnos que recibieron y finalizaron con suficiencia durante el año 2001, un curso del Plan FIP (Formación e Inserción Profesional) o terminaron ese año su formación en una Escuela Taller o Casa de Oficios. No se contempla por el momento el estudio de los alumnos que finalizaron sus estudios universitarios aunque dicho estudio podría abordarse a medio plazo en colaboración con otros organismos interesados en este asunto. Aunque en este campo de investigación existían en España estudios parciales (especialmente en lo que respecta a la Formación Profesional), es la primera vez

que se aborda un estudio de alcance nacional. La metodología que se va a utilizar es muy novedosa y fruto de la colaboración técnica de los organismos anteriormente reseñados.

La muestra constará de unos cincuenta mil individuos que han sido seleccionados aleatoriamente en los centros públicos y privados que imparten estudios reglados del Sistema Educativo. Las Consejerías de Educación de las Comunidades Autónomas han proporcionado el directorio de establecimientos para llevar a cabo dicha selección, siguiendo las recomendaciones técnicas de la Oficina de Estadística del Ministerio de Educación y Ciencia. Para estudiar los complejos itinerarios educativos y laborales, se generarán para cada persona diferentes módulos de empleo, desempleo o inactividad dependiendo de los períodos acaecidos en dichas situaciones laborales. También, se obtendrán unos módulos que versarán sobre las valoraciones del entrevistado en relación con el trabajo y su itinerario laboral.

El período de recogida de datos está previsto sea el segundo trimestre del año 2005 y se prevé se dispongan de un primer avance de resultados para el tercer trimestre de ese año sin perjuicio de los análisis estadísticos posteriores.

Los resultados se desagregarán por Comunidad Autónoma para los graduados en ESO y Bachillerato y para los que abandonan la ESO. Por su estrecha relación con la formación en relación al empleo, los resultados se desagregarán por familias profesionales para los restantes colectivos, es decir, para los graduados en Ciclos Formativos de Grado Medio y Superior así como los que han finalizados los cursos del plan FIP y programas de Escuelas Taller o Casas de Oficios.

No cabe duda de que los resultados de la ETEFIL serán de gran utilidad para evaluar la eficiencia del Sistema Educativo, estimar la idoneidad de los estudios impartidos de cara a los requerimientos del mercado de trabajo y por ende, permitirá implantar las medidas legislativas y administrativas pertinentes para corregir las deficiencias observadas.

ESTUDIOS MONOGRÁFICOS Y OPINIONES SOBRE LA PROFESIÓN

27

5. ESTUDIOS MONOGRÁFICOS Y OPINIONES SOBRE LA PROFESIÓN

NUEVO CATÁLOGO DE TÍTULOS DE GRADO

José Rodríguez Avi Cuando se edite esta revista ya tendremos noticias más fiables sobre el nuevo catálogo de títulos de grado, adaptados a las necesidades de la convergencia europea, en el que –esperamos y deseamos- esté incluido uno con la denominación de “Estadística”, que sea la transformación de los actuales estudios de Diplomatura y licenciatura y la confirmación de la existencia de unos estudios de estadística diferenciados y plenamente capaces de proporcionar la adecuada formación científica y capacitación profesional a los futuros estudiantes. Para llegar a este punto hay un largo camino recorrido desde las primeras escuelas de Estadística de Madrid y Granada, las cuales se continuaron con la inclusión en el catálogo de títulos oficiales de la Diplomatura de Estadística, primero, y posteriormente de la Licenciatura en CC. Y TT. Estadísticas. Este nuevo título de grado, si se consigue, habrá sido posible, al menos en parte, por el consenso alcanzado por las 15 universidades españolas en las que se imparte, al menos, uno de los dos títulos antes mencionados: Autónoma de Barcelona, Barcelona, Carlos III, Complutense de Madrid, Extremadura, Granada, Jaén, La Laguna, Miguel Hernández, Politécnica de Cataluña, Salamanca, Sevilla, Valencia, Valladolid y Zaragoza. El proceso de elaboración ha sido breve pero intenso. Desde los primeros comentarios sobre la necesidad de proceder a la adaptación del catálogo de titulaciones surge una gran inquietud entre el profesorado de las titulaciones sobre el futuro de las mismas, ante la posibilidad –bastante real- de volver a ser “absorbidos” por la titulación de Matemáticas y ante el convencimiento de que las titulaciones de estadística tienen un hueco importante que ocupar para la formación de profesionales capacitados en nuestro ámbito de conocimiento. Así, en la reunión plenaria de la SEIO realizada en el congreso de Lérida

en abril de 2003 ya se plantea la necesidad de trabajar conjuntamente en defensa de estos estudios y en reflexionar sobre la situación actual y problemas que se nos plantean. La Universidad de Jaén se ofrece como anfitriona y así, el 12 y 13 de junio de 2003 se convoca una reunión a la que están invitados todos los responsables de titulaciones de estadística en las 15 universidades y 17 centros. Esta reunión goza de una gran aceptación y recoge la asistencia de decanos, responsables de titulaciones y directores de departamento de prácticamente todos los centros implicados. En esas calurosas jornadas se acuerda, por unanimidad, la creación de un grupo de trabajo y la participación en la primera convocatoria de ayudas de la ANECA para la elaboración de títulos de grado. Con celeridad se elaboró un primer proyecto de participación, sometido a la Agencia y que fue rechazado en primera instancia, por lo que no pudo participar en la citada convocatoria. No obstante, el proyecto no fue rechazado tajantemente, dado que se me convocó, como coordinador del grupo, a una reunión en la sede de la agencia para informarnos de las carencias-defectos encontradas en el proyecto, y que debían ser corregidos si deseábamos participar en la siguiente convocatoria. Inmediatamente se reanudaron los trabajos con gran optimismo y en una reunión plenaria en la Facultad de Ciencias de la U.C.M. el día 20 de noviembre de 2003 se acordó formalmente la participación en la segunda convocatoria y se aprobó el proyecto modificado que fue presentado en la Agencia en los primeros días de diciembre de 2003. El trabajo fue fructífero y el 23 de diciembre de 2003 se recibió la aprobación por parte de la ANECA y la concesión de una ayuda de 33.000€ para este fin. Tras la concesión de la ayuda, comienza la fase de confección del Libro Blanco del


28

Grado de Estadística en la que continúan participando las 15 universidades antes citadas. Con la idea de alcanzar el más alto grado de operatividad y consenso en la propuesta, se decide trabajar a dos niveles: en Comisiones, entre las que se distribuirían las distintas partes del trabajo, y en Reuniones Plenarias, donde se analizarían y discutirían las propuestas de las Comisiones hasta llegar a acuerdos. En todo momento hubo una constante comunicación entre los miembros de la comisión a través del correo electrónico, generando un gran volumen “electro-epistolar”. La primera reunión plenaria se celebró en la Universidad de Jaén, los días 11 y 12 de marzo de 2004. Desgraciadamente esta reunión coincidió en el tiempo con el execrable crimen de la estación de Atocha en Madrid, del que varios miembros de la comisión fueron testigos presenciales, dado que la hora de salida del tren para Jaén estaba fijada a las nueve y media. Este acontecimiento motivó el retraso en incluso la no asistencia de algunos miembros. En ella se acordó la creación de las tres Comisiones siguientes, con las funciones que se indican:

Comisión A: Estudio de los modelos posibles del Grado de Estadística.

Comisión B: Análisis de perfiles profesionales.

Comisión C: Diseño del título.

La segunda reunión plenaria tuvo lugar en Getafe, el 23 de abril de 2004, en la Universidad Carlos III, donde se analizaron las dificultades y los avances en los trabajos de las distintas Comisiones. Finalmente, en una última reunión, celebrada en la Universidad de Jaén los días 3 y 4 de junio de 2004 se analizó el trabajo en conjunto y se aprobó por unanimidad el contenido del Libro Blanco del Grado de Estadística, presentado el día 14 de junio de 2003, dentro del plazo fijado. Previamente a esta aprobación, existieron reuniones de discusión y debate en los distintos centros y departamentos de las universidades participantes. En consecuencia, puede afirmarse que este Libro Blanco estuvo avalado por la totalidad de la comunidad universitaria en donde se impartían alguno de los títulos actuales de Estadística.

El Libro blanco se elaboró atendiendo al modelo proporcionado por la ANECA como Anexo 5 en la II convocatoria para la elaboración de títulos de grado. El documento se estructura en 5 partes (4 de documento y una en la que se recoge, como anexos, la documentación manejada que se considera más interesante) de la siguiente manera:

1. Síntesis de la propuesta, en donde se recogen, a modo de conclusiones, las características más destacadas del título de Grado en Estadística que se propone.

2. Parte I: Introducción.

3. Parte II: Situación actual nacional e internacional de los estudios de estadística. En ella se recoge la información solicitada en los puntos 1 al 4 del modelo de libro blanco propuesto por la ANECA.

4. Parte III: Justificación y objetivos del título, en donde se recoge la información solicitada en los puntos 5-11, relativos a perfiles profesionales, valoración de las competencias, destrezas y habilidades que los futuros titulados han de poseer, y la definición de los objetivos del título de grado propuesto.

5. Parte IV: Estructura del Título y Criterios de calidad, en donde se explicita la información solicitada relativa a los puntos 12-14, sobre estructura del título y propuesta de indicadores para posibles procedimientos de acreditación.

6. Parte V: Anexos, que recogen aquellos documentos de interés, pero que se han separado del texto principal para facilitar la lectura, junto con los apoyos manifestados por diferentes organizaciones públicas y privadas para la puesta en marcha de este título, y recabados hasta la fecha de entrega.

La base del proceso fue la profunda convicción de la oportunidad y necesidad de este título de Grado en Estadística. Esta convicción nos ayudó en el franco y cordial ambiente de trabajo desarrollado, en el que hubo debates intensos y profundos sobre aspectos de gran calado, así como resaltar el


29

esfuerzo realizado a la hora de llegar a un libro con el que todos estuviésemos de acuerdo, al menos en un alto grado. Una vez entregado el proyecto –del que hasta esta fecha no tenemos informes desde la ANECA- el campo de batalla cambió hacia la conferencia de rectores que son, los que en definitiva han adoptado la decisión. Dentro de este ámbito se decidió, por parte de la comisión, la elaboración de un breve resumen de las características, contenidos y objetivos del proyecto presentado y su envío a los rectores de todas las universidades públicas españolas, con el fin de recabar su apoyo. Este escrito fue enviado a finales de enero de 2005, y he de decir que bastantes rectores tuvieron a bien responder al escrito, manifestando su apoyo. En estos momentos estamos aún a la espera de lo que todos los miembros de la comisión encargada deseamos sea la noticia de la inclusión del título de Grado de Estadística en el catálogo de títulos oficiales que han de implantarse próximamente, y a la que esperamos haber contribuido en mayor o menor medida. Hace dos años estábamos en una posición muy desfavorable y ha habido que vencer las reticencias, en muy diversos y

altos niveles, de todos aquellos que opinaban que los estudios de estadística debían ofertarse como un postgrado de matemáticas -decisión mayoritaria hasta hace muy poco tiempo- y creo que esta comisión ha tenido un alto grado de responsabilidad en ese cambio. Hemos cumplido nuestro objetivo y podemos alegrarnos del reconocimiento de nuestros estudios. Sin embargo este punto es el comienzo de una nueva etapa, llena de interrogantes y de oportunidades. Así hemos de replantear los estudios para definir un título con gran calidad científica, que se presente como una apuesta de futuro para los jóvenes que desean emprender estudios universitarios, adecuado para formar profesionales muy preparados y atractivos para los empleadores, así como en el diseño de postgrados adecuados e incluso audaces. Para ello creo necesario mantener la comunicación alcanzada entre las universidades, así como una mayor implicación de todos los ámbitos implicados, incluyendo la Sociedad de Estadística e Investigación Operativa.

EN LA MUERTE DE GEORGE B. DANTZIG

Laureano F. Escudero.

El prof. George B. Dantizg murió el pasado 13 de mayo a los 90 años en su casa de Palo Alto (California, EE. UU.) de un problema

diabético complicado con un problema cardiovascular. Es una perdida enorme para la comunidad de científicos y profesionales de la Investigación Operativa, en general, y Programación Matemática, en particular. Yo distinguiría tres grandes cualidades presentes en el prof. G.B. Dantzig. En primer lugar su enorme cualidad humana, siempre tenía tiempo para discutir problemas con sus discípulos y, en general, con sus colegas que fueran a visitarle. La segunda cualidad a distinguir es su enorme talento científico de un matemático de su talla y la tercera ser un paladín de restringir la utilización de términos y expresiones matemáticas a aquellas esferas en la que sin ellos el problema no puede ni expresado, ni resuelto.


30

Su talla matemática se estaba construyendo desde su juventud. Parece ser que el joven George B. Dantzig alguna vez llegaba tarde a la clase del prof. Jerzy Neyman en Berkeley y éste tenía por costumbre poner en la pizarra un par de ejercicios a resolver por los alumnos y cuyos resultados había que entregar al comienzo de la siguiente clase. George copió los enunciados en su libro de notas y a los pocos días volvió con los problemas resueltos. ¡La gran sorpresa del prof. Neyman fue que esta vez había puesto en la pizarra dos problemas abiertos y George los había resuelto en pocos días¡ El prof. G.B. Dantzig centró básicamente sus desarrollos científicos, cronológi-camente, en la RAND Corporation y las universidades de Berkeley y Stanford en California, con asignaciones temporales en otros centros como el IIASA en Viena. (Es gozosa la anécdota que él cuenta como la razón principal para moverse de Berkeley a Stanford, la “culpa” es de un aparcamiento de coches para los profesores en la misma puerta de su nuevo Dpto. con tal mala fortuna que este aparcamiento ya había desaparecido cuando él se incorporó a Stanford). El prof. G.B. Dantzig no pudo conseguir el premio Nobel, pero recibió un cúmulo de distinciones, entre otras, el premio Von Neumann Theory en 1975, National Medal of Science de EE.UU. en 1976, Premio en Matemáticas Aplicadas y Análisis Numérico de la National Academy of Sciences en 1977, Harvey Prize en Ciencia y Tecnología de Technion, Israel, en 1985. Fue miembro de la Academia de Ciencias y de la Academia Nacional de Ingeniería de EE.UU. Las Sociedades de Programación Matemática y SIAM instituyeron hace años un premio que lleva su nombre, premio que es uno de los más prestigiosos de nuestra comunidad. Con intención de resumir su currículo vitae (que tiene decenas de páginas), pero sí con intención de citar los temas que más ha trabajado el prof. G.B. Dantzig, siendo sus trabajos seminales, podemos distinguir a gran distancia de otros muchos logros en programación matemática, su invención de la Programación Lineal y la creación del método Simplex en 1947 y la teoría que le sustenta para resolver problemas de optimización lineal con variables continuas.

Si importante es este método que hoy en día sigue siendo el gran método en optimización, junto con el método de puntos interiores, a la misma altura podemos situar su contribución para que hoy día se piense en condiciones a satisfacer y funciones objetivo a optimizar. Se puede indicar sin exageración que el método Simplex inicia la utilización de la Investigación Operativa a gran escala. Difícil sería encontrar un entorno académico-científico fuera de nuestra especialidad que no tenga, al menos, una vaga idea de lo que es el Metodo Simplex y la Programación Matemática. Esto y la correspondiente terminología se lo debemos a él. Aunque la Programación Lineal se empezó utilizando en la optimización de programas (de aquí le viene el nombre) logísticos en el sector militar (que envolvían cientos de miles de diferentes clases de material y quizá 50.000 seres humanos) su aplicación se extiende fácilmente a problemas de la Administra-ción y la industria privada. Otro de sus grandes logros es la teoría de la dualidad, también desarrollada de una forma independiente por el prof. John von Neuman y los profesores Harold Khun y Williams Tucker de la Universidad de Princeton. El método ideado conjuntamente con Fulkerson y Johnson en 1954 para resolver el paradigmático problema del Agente Viajero (resolviendo entonces problemas con 49 ciudades cuando, hoy día, mediante modernas implementaciones del método, se resuelven problemas con varios miles de ciudades y hasta un millón de nodos) es el precursor de los hoy utilísimos métodos de Branch-and Cut (Bifurcación y corte) tan utilizados en programación entera para resolver problemas de grandes dimensiones. Muchos de los problemas a resolver mediante Programación Matemática se enmarcan en planificación dinámica a través de un horizonte temporal. Muchos de los parámetros se refieren al futuro y no se pueden determinar con exactitud. Surge entonces la programación estocástica o programación bajo incertidumbre. Esta rama, con un gran desarrollo hoy día, y un tremendo potencial para el futuro, debe su desarrollo a dos trabajos seminales que de forma independiente son debidos a los


31

profesores E.Martin L Beale y George B. Dantzig en 1955. Así mismo es de gran utilización su método denominado Descomposición de Dantzig-Wolfe (desarrollado conjuntamente con Philip Wolfe en 1959-1960) (cuyo dual es el método de Descomposición de Benders, tan utilizado hoy día en Programación Estocástica), para resolver problemas de programación lineal estructurados. El libro "Linear Programming and Extensions" (1963), ha sido su gran libro de referencia durante los 42 años que median desde su publicación. Ha cerrado el ciclo de

su extensa bibliografía con el libro en dos tomos "Linear Programming" (1997 y 2003), escrito conjuntamente con N. Thapa. Por último, pero no lo último, es importante reseñar la aplicación de programación matemática que el prof. Dantzig fue desarrollando a lo largo de los años para diversos sectores industriales y de la Administración, destacando a título de ejemplo el proyecto PILOT, para una mejor planificación del sector energético y, por tanto, un mayor ahorro energético. Descanse en paz.

GRUPOS DE INVESTIGACIÓN EN LA USC

La actividad investigadora desarrollada en el Departamento de Estadística e Investigación Operativa de la Universidad de Santiago de Compostela, se debe principalmente a dos grupos de investigación: GRUPO DE MODELIZACIÓN ESTA-DÍSTICA Y APLICACIONES El perfil que presenta este grupo es el siguiente:

Líneas de Investigación: Inferencia estadística; bioestadística; geoestadística; técnicas de muestreo y remuestreo; series temporales; inferencia no paramétrica; datos categóricos; datos censurados y/o truncados; predicción; análisis multivariante. Servicios y Recursos: Asesoramiento estadístico y análisis de datos; predicción en series de tiempo; elaboración de mapas a partir de datos espaciales; aplicaciones estadísticas en industria; modelización en finanzas; estadística medioambiental; bioestadística; estadística de turismo.

Palabras clave: Inferencia estadística; modelización estadística; predicción; bioestadística; geoestadística; mapas estadísticos. Colaboradores externos: J. de Uña Álvarez (Univ. de Vigo), A. Rodríguez Casal (Univ. de Vigo), J. C. Pardo Fernández (Univ. de Vigo), J. Roca Pardiñas (Univ. de Vigo), J.M. Matías Fernández (Univ. de Vigo), A. Pérez González (Univ. de Vigo), R. Fernández-Casal (Univ. de Vigo), A. Cuevas González (UAM), J. Mateu (Univ. Jaime I), D. Morales (Univ. Miguel Hernández), W. Stute (Univ. Giessen, Alemania), I. Van Keilegom (Univ. Lovain-Le Neuve, Bélgica), P. Vieu (Univ. Paul Sabatier, Francia), S. Guillas (Georgia Institute of Technology, EEUU), R. Fraiman (Univ. San Andés, Argentina), G. Boente (Univ. Buenos Aires, Argentina). Página web: eio.usc.es/pub/stat El coordinador del grupo de investigación es Manuel Febrero Bande ([email protected]).

INFORMACIÓN ACADÉMICA Y LABORAL

32

GRUPO DE INVESTIGACIÓN OPERA-TIVA Y TEORÍA DE JUEGOS El perfil que presenta este grupo es el siguiente:

Líneas de Investigación: Equilibrios en juegos no cooperativos; juegos cooperativos; votación e índices de poder; asignación de costes y diseño de tarifas; aplicaciones de la teoría de juegos; modelos interactivos de la IO; decisión y programación multicriterio y multinivel; programación matemática. Servicios y Recursos: Asesoramiento en toma de decisiones estratégicas; arbitraje de conflictos; asesoramiento en problemas de asignación y distribución de recursos; diseño de tarifas; diseño de estructuras de votación; resolución de problemas de optimización.

Palabras clave: Teoría de juegos; votación; investigación operativa; teoría de la decisión; programación matemática; optimización; decisión multicriterio. Colaboradores externos: M.L. Carpente Rodríguez (Univ. da Coruña), M.G. Fiestras Janeiro (Univ. de Vigo), S. Lorenzo Freire (Univ. de Vigo), M.E. Sánchez Rodríguez (Univ. de Vigo). Página web: eio.usc.es/pub/io El coordinador del grupo de investigación es Ignacio García Jurado ([email protected]).

6. INFORMACIÓN ACADÉMICA Y LABORAL

NOTICIAS

XXIX CONGRESO NACIONAL DE ESTADÍSTICA E INVESTIGACIÓN OPERATIVA, TENERIFE, 15-19 MAYO 2006

Es una buena ocasión para conocer los recientes avances científicos en estas disciplinas y, al mismo tiempo, tener también la oportunidad de disfrutar unos días del clima, la gastronomía y los paisajes de esta tierra.

SEDE DEL CONGRESO El Congreso se celebrará en el Centro Internacional de Congresos del Puerto de la Cruz (www.congresostenerife.com), situado en el centro de esta ciudad, próximo al Casino Taoro. JORNADAS DE ESTADÍSTICA PÚBLICA

El Instituto de Estadística de Canarias (ISTAC) (www.gobiernodecanarias.org/istac/) colabora en la organización del Congreso y, durante la celebración del evento, llevará a cabo junto con el Instituto Nacional de Estadística (INE) (www.ine.es) las III Jornadas de Estadística Pública, las cuales versarán sobre varias líneas temáticas, presentándose ponencias invitadas a cargo de especialistas en estas materias. Con el fin de hacer las jornadas más participativas, la organización anima a investigadores y técnicos de los Institutos de Estadística (tanto nacional como autonómicos) para que también presenten sus trabajos en dichas jornadas. Las comuni-caciones deberán confeccionarse según las plantillas que estarán disponibles en la web del Congreso. DIRECCIÓN DEL COMITÉ ORGANI-ZADOR Dpto. de Estadística, Investigación Operativa y Computación. Facultad de Matemáticas, Universidad de La Laguna. 38271 – La Laguna, Tenerife, Islas Canarias (España) Tf: 922.318.169 (Secretaría del Depto.),


33

Fax: 922.319.202 Email: [email protected] www.seio2006.ull.es FECHAS IMPORTANTES - Inscripción reducida: hasta el 30

noviembre 2005. - Inscripción normal: desde el 1 de

diciembre del 2005 hasta el 15 marzo 2006.

- Inscripción extraordinaria: desde el 16 marzo 2006.

- Recepción de resúmenes: hasta el 31 enero 2006 (máximo dos páginas).

- Notificación de aceptación: Del 1 al 20 de febrero 2006.

- Recepción de trabajos completos: hasta el 15 marzo 2006. Es intención de la organización del congreso editar un CD con los trabajos completos (de 15 páginas como máximo).

DÍA DE LA ESTADÍSTICA EN CASTILLA Y LEÓN

Con motivo de la 4ª entrega de premios de Estadística el día 3 de Junio de 2005 se celebró por primera vez, en la Feria Internacional de Muestras de Valladolid, el día de la Estadística en Castilla y León bajo el lema “más cerca de todos”. En los últimos años, la evolución de la demanda de datos estadísticos ha experimentado un gran aumento, al considerarse requisito indispensable para fundamentar la toma de decisiones por las autoridades y los agentes económicos y sociales, así como para la valoración de sus resultados. La necesidad de conocimiento y disposición de información estadística actualizada afecta prácticamente a todos los campos y actividades. Estos premios, convocados por la Consejería de Hacienda a través de la Dirección General

de Estadística y que ya van por su cuarta edición, constan de dos categorías: - Una para los trabajos relacionados con la actividad estadística realizados por alumnos de centros docentes no universitarios de Castilla y León. - Otra para los mejores expedientes académicos de alumnos que hayan finalizado sus estudios universitarios en materias relacionadas con la estadística en las Universidades de Castilla y León. En la primera de ellas, el objetivo es promover e incentivar el acercamiento de la actividad estadística a la sociedad y a los centros docentes, para que los alumnos se familiaricen con el tratamiento de datos como futuros usuarios de la estadística. En la segunda, promover e incentivar el acercamiento de la actividad estadística a las instituciones académicas de Castilla y León, para que los jóvenes se familiaricen con el tratamiento de datos y tomen conciencia de las ventajas y las necesidades de abordar sus estudios y planteamientos fundamentados sobre datos estadísticos. En esta edición los premiados son los siguientes: - Colegio de Fomento Pinoalbar, de Simancas (Valladolid), por su trabajo “Estudio Estadístico de la Televisión Digital en Valladolid”. - Pablo César Porterla Talegón, como mejor expediente académico en la licenciatura de Estadística (Universidad de Valladolid). - Juan Manuel García González, como mejor expediente académico en la diplomatura de Estadística (Universidad de Salamanca). - Francisco Javier Montenegro Pedriza, como mejor expediente académico en otras licenciaturas (Universidad de Valladolid). - Sonsoles Mozo Romero, como mejor expediente académico en otras diplomaturas (Universidad de Valladolid). La Jornada se desarrolló como sigue: A las 12:00 horas se firmó un Convenio de colaboración en materia estadística entre la Consejería de Hacienda de la Junta de Castilla y León y la Federación Regional de


34

Municipios y Provincias. A partir de las 12:30 horas se organizó una Ginkana Estadística en la que participaron alumnos de Secundaria y Bachillerato de Castilla y León. Paralelamente tuvo lugar una interesante mesa redonda sobre “La Estadística en el Espacio Europeo de Educación Superior”, en la que intervinieron: Dña. Ana Lorente (Universidad de Burgos), Dña. Mª Jesús Mures (Universidad de León), Dña. Purificación Galindo (Universidad de Salamanca) y D. Jose Antonio Menéndez (Universidad de Valladolid) A las 18:00 horas el Premio Nobel de Economía Dr. Lawrence Klein impartió una Conferencia magistral. Finalmente a las 19:30 horas se celebró la Gala de Entrega de los IV Premios de Estadística de Castilla y León.

APOYO A LA CREACIÓN E IMPUL-SO DE REDES TECNOLÓGICAS Resolución de 30 de abril de 2005, de la Secretaría de Estado de Universidades e Investigación, por la que se efectúa la convocatoria del año 2005, para la concesión de las ayudas del Plan Nacional de Investigación Científica, Desarrollo e Innovación Tecnológica (I+D+I 2004-2007), en la parte dedicada al fomento de la investigación técnica para el apoyo a la creación e impulso de redes tecnológicas. Más información en el BOE núm. 132, de 3 de junio de 2005, pág. 18840 y ss., en http://www.mec.es/.

NUEVA REVISTA EN LA UNIVER-SIDAD DE LEÓN La Facultad de Ciencias Económicas y Empresariales de la Universidad de León publica la Revista PECVNIA. Se trata de una publicación que saca dos números al año junto con un monográfico que está a cargo de una de las áreas de conocimiento que imparten docencia en la Facultad (entre ellas Estadística e Investigación Operativa). Los interesados en enviar trabajos, pueden dirigirse a la dirección de correo electrónico [email protected] y recibirán información inmediata sobre normas de publicación,

proceso de selección de artículos y demás pormenores editoriales.

CALL FOR PAPERS GROUP DECISION AND NEGOTIATION. Editor: Melvin Shakun. Special Issue on e-democracy. Guest Editor: David Rios Insua ([email protected]) Notification of interest in submission: July 31st 2005. Submission of full papers for refereeing: September 30th 2005. Acceptance decision: December 15th 2005. TED programme web page: http://infodoc.escet.urjc.es/ted/ Group Decision and Negotiation journal web page: http://www.kluweronline.com/issn/0926-2644 ALGUNAS NOTICIAS PROPORCIO-NADAS POR EL INE El número medio de hijos por mujer en España se eleva a 1,32, su valor más alto desde 1993 El número medio de hijos por mujer en edad fértil se situó en el año 2004 en 1,32, alcanzando su valor más elevado desde 1993, según la estadística Movimiento Natural de la Población del INE. Durante el año 2004 hubo 453.278 nacimientos, 13.415 más que los registrados en el año anterior. Este incre-mento se debió, en parte, a los 62.150 nacidos de madres extranjeras, un 16,6% más que en 2003. En cuanto a las defunciones, en 2004 se registraron 370.698 fallecimientos, 13.031 menos que en 2003. El crecimiento vegetativo de la población (diferencia entre el número de nacimientos y defunciones) fue de 82.580 habitantes en 2004, cifra superior a la registrada en 2003, que fue de 56.134. Por su parte, en 2004 se registraron 215.322 matrimonios, 5.167 más que en el año anterior. En el 14,23% de estos matrimonios al menos uno de los cónyuges fue extranjero. Las cifras proceden de los datos provisionales del Movimiento Natural de la


35

Población 2004, recientemente publicados por el INE. Más información en http:/www.ine.es El 86,4% de los alumnos universitarios se matricula en centros públicos En el curso 2004/2005 se han matriculado 1.449.118 alumnos en las Universidades españolas, lo que supone un descenso del 1,7% respecto al curso anterior. Las carreras más solicitadas han sido Derecho (con 108.191 alumnos), Administración y Dirección de Empresas (con 88.871) y Psicología (con 57.342). El 86,4% de los alumnos se han matriculado en centros de titularidad pública y el 13,6%

en centros de titularidad privada. En cuanto al alumnado, éste ha descendido un 2,4% en las universidades públicas y ha aumentado un 5,6% en las privadas. Las universidades públicas con más alumnos matriculados son la Complutense de Madrid (79.833 alumnos), la de Sevilla (61.649) y la de Granada (56.431). Por su parte, las universidades privadas con mayor número de alumnos son la Oberta de Catalunya (31.330 alumnos), la Ramón Llull (11.794) y la de Deusto (9.688). Las cifras proceden del Avance de la Estadística de la Enseñanza Universitaria 2004-2005, recientemente publicado por el INE. Más información en http:/www.ine.es

TESIS

APLICACIONES BAYESIANAS A PROBLEMAS NO PARAMETRICOS Autora: Beatriz González Pérez Director: Miguel A. Gómez Villegas Lugar: Universidad Complutense de Madrid. Departamento de Estadística e Investigación Operativa. Resumen: La relación entre la respuesta clásica y la bayesiana a un mismo problema de Inferencia Estadística ha sido objeto de estudio en numerosas publicaciones. En la memoria se desarrolla un procedimiento bayesiano para el contraste de homogeneidad de poblaciones multinomiales independientes utilizando tablas de contingencia r*s, cuando el vector de proporciones que define la hipótesis nula es conocido, desconocido o de forma funcional conocida. La aproximación que se sigue consiste en trabajar directamente con la hipótesis nula puntual, se estudia la relación entre la hipótesis nula y la de intervalo y se propone un método para construir una distribución apriori de tipo mixto. La metodología consiste en asignar una masa a priori inicial a la hipótesis nula puntual y repartir la probabilidad restante en los puntos de la alternativa bilateral mediante una función de densidad. Se estudia el mismo problema cuando la distribución inicial se elige en la clase de las

distribuciones epsilón-contaminadas y se considera la posibilidad de utilizar una densidad a priori en el conjunto de las distribuciones de Dirichelet. Se compara el p-valor del método clásico con la probabilidad a posteriori de la hipótesis nula de homogeneidad correspondiente en cada caso. Con este procedimiento es posible precisar cómo y cuándo es posible obtener la misma conclusión desde los dos puntos de vista, obteniéndose una reconciliación entre ambos métodos, en los términos de una conclusión suficiente. Se estudian además condiciones bajo las cuales se satisface la citada condición suficiente. En el contexto general de la hipótesis nula puntual multivariante, en el que se puede plantear el problema de homogeneidad, se obtiene un teorema que pone de manifiesto los términos en los que es posible llegar a un acuerdo entre las aproximaciones clásica y bayesiana. Finalmente, como aplicación de los resultados obtenidos, cuando la verosimilitud es normal, se realiza una revisión de la Paradoja de Lindley y se estudian cotas inferiores de la probabilidad a posteriori cuando la distribución a priori pertenece a la clase de las distribuciones unimodales y simétricas o a la clase de las mixturas de normales con parámetro de escala.


36

NUESTRAS REVISTAS

Test ha realizado importantes mejoras en su página web (http://www.seio.es/test/), donde se pueden consultar los resúmenes y artículos completos en formato PDF. Una muy buena noticia es el incremento del índice de impacto de la revista en el JCR de 2004, que pasa a una distinguida posición 27 de entre las 77 revistas que aparecen en la lista de “Statistics and Probability”.

TEST Volume 14, Number 1, June 2005

LIU AND A. AGRESTI. The Analysis of Ordered Categorical Data: An Overview and a Survey of Recent Developments 1 1 G. TUTZ. (comment) 30 J. S. SIMONOFF. (comment) 33 M. KATERI. (comment) 36 E. LESAFFRE. (comment) 39 T. M. LOUGHIN.(comment) 41 E. SVENSSON. (comment) 44 A. M. AGUILERA. (comment) 47 I. LIU AND A. AGRESTI. (rejoinder) 48 D. LOUANI. Uniform L1-Distance Large Deviations in Nonparametric Density Estimation 75 A. MARTÍN, M. J. SÁNCHEZ, J. M. TAPIA AND A. SILVA-MATO. On the Validity Condition of the Chi-Squared Test in 2 x 2 Tables 99 A. D. AKKAYA AND M. L. TIKU. Robust Estimation and Hypothesis Testing Under Short-Tailedness and Inliers 129 T. HOBZA, I. MOLINA AND I. VAJDA. On Convergence of Fisher Informations in Continuous Models with Quantized Observations 151 E. MORENO. Objective Bayesian Methods for One-Sided Testing 181 M. GONZÁLEZ, R. MARTÍNEZ AND I. DEL PUERTO. Estimation of the Variance for a Controlled Branching Process 199

T. PRIETO-RUMEAU. Central Limit Theorem for the Estimator of the Value of an Optimal Stopping Problem 215 P. IBARROLA AND R. VÉLEZ. Multi-Armed Bandit Processes with Optimal Selection of the Operating Times 239 R. CAO, P. JANSSEN AND N. VERAVERBEKE. Relative Hazard Rate Estimation for Right Censored and Left Truncated Data 257 M. A. ARCONES. Convergence of the Optimal M--Estimator over a Parametric Family of M—Estimators 281

TOP Volume 13, Number 1, June 2005

J. Kalcsics, S. Nickel and M. Schröder Towards a Unified Territorial Design Approach – Appli-cations, Algorithmsand GIS Integration 1 B. Bozcaya (comment) 56 B. Fleischman (comment) 59 G. Laporte (comment) 61 Z.-J. Max Shen (comment) 64 D. Romero Morales (comment) 66 J. Kalcsics, S. Nickel and M. Schröder (rejoinder) 68 K. Sikdar and U.C. Gupta. The Queue Length Distributions in the Finite Buffer Bulk-Service MAP/G/1 Queue with Multiple Vacations 75 A.M. Rodríguez-Chía, J. Puerto, D. Pérez-Brito and J.A. Moreno. The p-Facility Ordered Median Problem on Networks 105 J. Dutta. Necessary Optimality Conditions and Saddle Points for Approximate Optimization in Banach Spaces 127 F. Costa and E. Fernandes. A Primal-Dual Interior-Point Algorithm for Nonlinear Least Squares Constrained Problems 145 M.A. Goberna, V. Jornet and M. Molina. Uniform Saturation in Linear Inequality Systems 167


37

OPORTUNIDADES DE TRABAJO

BECAS EN EUSTAT

En el BOPV de 2 de junio de 2005 se ha publicado la Resolución del Director General de Eustat-Instituto Vasco de Estadística por la que se convocan dos becas de formación e investigación en el campo de las Metodologías Estadístico-matemáticas de la producción estadística de tipo oficial. Para más información consultar nuestra página web: www.eustat.es o el Boletín indicado más arriba. EIGHT LECTURESHIP POSTS AVAI-LABLE AT LANCASTER UNIVER-SITY Applications are invited for four indefinite and four fixed term positions in Lancaster's top rated Statistics research group within the Department of Mathematics and Statistics, UK. Lancaster already is one of the largest UK Statistics research groups with 17 academic staff, 5 research associates, 30 research students and 12 MSc students. This major new growth in posts stems from a range of successful initiatives and candidates are required in a variety of areas of Statistics. For more information see the detailed job advert at http://www.maths.lancs.ac.uk/department/info/news/statsjobs.pdf Or contact Amanda Chetwynd at [email protected] EN EEUU (FUENTE: AMSTAT) University of Alabama at Birmingham Keywords: tenured, tenure-track, Ph.D., biostatistics, statistics, genetics, genomics, research E-mail: [email protected] University of Miami Miller School of Medicine Keywords: senior biostatistician, design, analysis, oncology research, tenured

URL:careers.med.miami.edu/ Credigy Solutions, Inc. Keywords: senior statistician, Ph.D., statistics, statistical modeling, analysis, data mining, SAS E-mail: [email protected]. University of Illinois at Chicago Keywords: Ph.D., statistics, biometry, analyses, teaching, research E-mail: [email protected]. Louisiana Health Care Review, Inc. Keywords: statistician, MS, health care, SAS, TABULATE, GRAPH, MACRO, Excel, Word, data sets URL: lhcr.org Harvard School of Public Health Keywords: Ph.D., research associate, research scientist, MS, MA, research analyst E-mail: [email protected] Dana-Farber Cancer Institute 1. Keywords: Ph.D., biostatistics, statistics, data analysis, SAS, clinical trials 2. Keywords: MS, biostatistician, research, design, analysis, cancer clinical trials, SAS E-mail: [email protected]. BD (Becton, Dickinson and Company) Keywords: senior statistician, clinical statistician, MS, Ph.D., statistics, biostatistics, mathematics URL: www.bdcareers.com Placemart Personnel Service Keywords: biostatistician, design, analysis, clinical trials URL: www.placemart.com Wake Forest University School of Medicine Keywords: statistician, MS, biostatistics, statistics, genetics, analysis E-mail: [email protected]. North Dakota State University Keywords: assistant professor, Ph.D., statistics, applied statistics, teaching, research, consult


38

URL: www.ndsu.edu/statistics Memorial Sloan-Kettering Cancer Center Keywords: biostatistician, research, clinical, MS, statistics, biostatistics, biology, genomics, epidemiologic methods E-mail: [email protected]. American College of Radiology

Keywords: biostatistician, clinical trials, design, monitor, analyze, MS, biostatistics, statistics, biometry, SAS URL: www.ACRIN.org Milliken & Company Keywords: statistician, consulting, probabilistic analysis, simulations, Ph.D. URL: www.milliken.com

PUBLICACIONES Y SOFTWARE

BIOESTADÍSTICA BÁSICA Agustín García Nogales (2004). Bioestadística Básica. Ed. @becedario (C/ América, 22, local 1, 06010-Badajoz). ISBN 84-933414-0-1. Este libro contiene un buen puñado de técnicas estadísticas elementales apropiadas para la extracción de la información que contienen los datos obtenidos de experimentos diseñados con el propósito de describir nuevas (o de confirmar sospechadas) relaciones entre variables de interés en ciencias de la salud. Sus contenidos han sido especialmente diseñados para impartir un curso de 75 horas en primero de la licenciatura en Medicina. A destacar: 1) su reducida extensión, sin sacrificio de conceptos relevantes, con la intención de no disuadir al lector de adentrarse en su lectura, 2) definiciones lo más rigurosas posibles, y 3) la organización de los contenidos que, junto con el prólogo e índice terminológico puede encontrarse en http://kolmogorov.unex.es/~nogales/bioestadistica. AVANCES EN LOCALIZACIÓN DE SERVICIOS Y SUS APLICACIONES Editado por BLAS PELEGRÍN PELEGRÍN. Editorial: Servicio de Publicaciones de la Universidad de Murcia. C/ Actor Isidoro Miquez, 9 . 30007-MURCIA . Número de páginas: 381 Precio: 12 euros. Preámbulo: En este libro se recogen los estudios más recientes sobre localización realizados por miembros del Grupo Español de Localización (GELOCA), integrado en la S.E.I.O. Los trabajos fueron previamente presentados y debatidos en el IV Seminario

Español de Localización, celebrado del 26 al 29 de noviembre de 2003 en el Centro de Estudios Sociales y Territoriales de Lorca (Murcia). La mayor parte de los temas tratados son objeto de diferentes Proyectos de Investigación, subvencionados por el Ministerio de Ciencia y Tecnología. El contenido de cada conferencia, después de pasar por un proceso de revisión, realizado por especialistas en cada tema, aparece publicado como un capítulo. Contenido: En los modelos que se presentan hay una gran variedad de aspectos y características de los distintos problemas de localización. Se han utilizado diferentes criterios de elección (uni-objetivo, multi-objetivo, ordenación, equidad) y diferentes ambientes (competencia, monopolio, incertidumbre). Algunos están estrechamente relacionados con otros problemas (rutas óptimas, diseño de redes de transporte), o con otras disciplinas (geometría computacional, clasificación de datos). También se consideran espacios discretos y continuos, donde los problemas planteados se resuelven por técnicas avanzadas de optimización (combinatoria, global), y se incluye una revisión de métodos heurísticos que permiten dar solución a problemas de gran tamaño. Cada capítulo va acompañado de una gran cantidad de referencias bibliográficas actualizadas. Interés: Este libro pude ser de gran utilidad para investigadores, estudiantes de doctorado y cualquier persona interesada en localización, así como a entidades relacionadas con sus posibles aplicaciones. Más información: http://www.um.es/~geloca/


39

INFERENCIA ESTADISTICA M.A. Gómez Villegas (2005). "Inferencia Estadística" Ed. Díaz de Santos. Madrid. El libro constituye un texto básico sobre Inferencia Estadística para los estudios que necesiten modelizar la incertidumbre mediante la probabilidad para extraer conclusiones de esta modelización. Tres aspectos hacen singular a este libro. el primero es que los métodos bayesianos y los clásicos son desarrollados a la vez sin ningún tipo de menoscabo de unos frente a otros. A continuación de los estimadores por punto clásicos se estudian los estimadores por punto bayesianos; despues de los intervalos de confianza, los intervalos creibles; y siguiendo a los contrastes de hipótesis mediante la teoría de Neyman y Pearson, los contrastes bayesianos y el factor Bayes. Se incluye también el tratamiento clásico y bayesiano del análisis de la varianza, la teoría de la decisión y la inferencia no paramétrica. El segundo aspecto es que al final de cada capítulo se incluye una aproximación histórica de cómo han surgido las ideas desarrolladas en el mismo, incluyendo unas pinceladas biográficas de los autores que más han contribuido al desarrollo de las mismas. El tercer aspecto es la inclusión en el texto de la solución detallada de los ejercicios de final de capítulo, como un eficaz complemento de las ideas desarrolladas. Con frecuencia el estudiante echa de menos una colección de ejercicios resueltos -en el texto son 162- que le permitan aclarar y comprobar si ha asimilado correctamente los conocimientos expuestos. PUBLICACIONES EDITADAS POR EL INE EN MAYO Y JUNIO DE 2005

Población de los Municipios Españoles. Revisión del Padrón Municipal a 1 de enero de 2004. 236 páginas. 13,50 € IVA incluido Censos de Población y Viviendas 1991. Resultados por secciones censales. Población, viviendas y hogares CD-Rom. 104,84 € IVA incluido

Anuario Estadístico de España 2005 818 páginas, publicación en papel que incluye CD-Rom. 34,50 € IVA incluido Actuaciones de la Oficina del Censo Electoral. Elecciones al Parlamento Europeo 2004 144 páginas. 9,50 € IVA incluido España en Cifras 2005 56 páginas. 2,20 € IVA incluido Indicadores de Ciencia y Tecnología. Año 2003 566 páginas. 42 € IVA incluido Contabilidad Nacional de España. Base 1995. Serie Contable 1995-2003. Marco input-output 2000 CD-Rom. 17,28 € IVA incluido Padrón 2004. Explotación estadística, Secciones censales y Nomenclátor a 1 de enero de 2004 CD-Rom. 67,48 € IVA incluido INEbase. Abril 2005 CD-Rom. Precio del ejemplar: 17,28 € IVA incluido. Suscripción anual: 151,14 € IVA incluido Contenido: Boletín Mensual de Estadística. Número 160 - abril 2005 Estadística de Hipotecas 2003. Nueva base metodológica Producción editorial 2004 Contabilidad Regional de España. Base 1995. Serie 1995-2004 Elecciones municipales y autonómicas de 25 de mayo de 2003 Elecciones a la Asamblea de Madrid de 26 de octubre de 2003 Elecciones al Parlamento de Cataluña de 16 de noviembre de 2003 Elecciones a Cortes Generales y al Parlamento de Andalucía de 14 de marzo de 2004 INEbase. Mayo 2005 CD-Rom. Precio del ejemplar: 17,28 € IVA incluido. Suscripción anual: 151,14 € IVA incluido Contenido:


40

Boletín Mensual de Estadística. Número 161 - mayo 2005 Encuesta continua de presupuestos familiares 2003. Tercer Trimestre Proyecciones de población. Base Censo 2001 Evolución de la población en España entre los Censos de 1970, 1981, 1991 y 2001 Secciones censales a 1 de enero de 2004 Encuesta Nacional de Salud 2003 Boletín Mensual de Estadística. Número 160. Abril 2005. 348 páginas, incluye CD-Rom. Precio del ejemplar: 17 €. IVA incluido. Suscripción anual: 135,50 € IVA incluido Reseña de alguna de las publicaciones Anuario Estadístico de España 2005 El Anuario Estadístico de España es una de las obras más emblemáticas del INE, que se

viene editando desde el año 1858. Se trata de una obra de información estadística general, que recopila datos procedentes de diversas fuentes, internas y externas al INE y que tiene como objetivo ofrecer un reflejo cuantitativo de la realidad económica, social y demográfica de España, con abundante riqueza de contenido. Cada edición incluye, además, una pequeña síntesis de datos internacionales. La publicación en formato impreso se acompaña de un CD-Rom con un contenido similar, si bien añade más detalle temporal, mayor nivel de desagregación en algunas tablas y abundante información metodológica. Publicación en papel que incluye CD-Rom. 818 páginas. Precio: 34,50 € IVA incluido.

MASTERS, CURSOS Y SEMINARIOS

MÁSTER DE BIOESTADÍSTICA. Desde el Departamento de Estadística e Investigación Operativa de la Universidad de Santiago de Compostela queremos informar de la puesta en marcha de una nueva titulación propia de la USC: Máster de Bioestadística. Más información en: http://eio.usc.es/pub/master_bio Consciente de la demanda social existente en el ámbito de la biomedicina y la bioinformática, y de la creciente demanda de profesionales expertos en metodología estadística avanzada y computación, el Departamento de Estatística e Investigación Operativa de la USC va a poner en marcha una titulación propia denominada: Máster de Bioestadística, el primero de estas características en España e Iberoamérica. TITULACIONES: Máster de Bioestadística: 63 créditos (MAT1-MAT22+Proyecto). Especialista Universitario de Bioestadística: 20 créditos (MAT1-MAT9).

DURACIÓN DEL MÁSTER: dos cursos académicos (2005-2006, 2006-2007).

- Primer año: docencia presencial. - Segundo año: elaboración de

proyectos y posibilidad de realización de prácticas en empresas y organismos involucrados.

OBJETIVOS: - Formar bioestadísticos a un nivel de máster y/o especialista, con capacidad para colaborar con investigadores en diversas disciplinas de las ciencias biomédicas. - Establecer puntos de encuentro entre bioestadísticas e industria farmacéutica, hospitales, instituciones de investigación biomédica y las distintas organizaciones gubernamentales de salud pública. DIRIGIDO A:

- Titulados de segundo ciclo, preferentemente en: Matemáticas, Estadística, Medicina, Veterinaria, Biología, Farmacia, Psicología,…,

- Diplomados en Estadística,… y otras titulaciones que presenten perfil apropiado al máster.


41

- Profesionales que desarrollan su trabajo en campos afines.

PREINSCRIPCIÓN : del 1 al 16 de septiembre de 2005. MATRíCULA: del 19 de septiembre al 4 de octubre de 2005. Máster: 4000 Euros (en dos plazos). Especialidad: 2000 Euros. NÚMERO DE PLAZAS: 25 plazas para el máster y 15 para la especialidad. DIRECCIÓN: Carmen M. Cadarso Suárez ([email protected]) Xosé Luis Otero Cepeda ([email protected])

ESCUELA DE VERANO

Próximamente se realizará una escuela de verano en Aranjuez, del 4 al 8 de Julio, sobre democracia electrónica, patrocinada por la ESF y el Laboratorio de Ingeniería de la Decisión de la Universidad Rey Juan Carlos. Participarán politólogos, políticos, abogados, tecnólogos, estadísticos e investigadores operativos. Hay becas de pensión completa y autobús diario para ir y volver a Madrid. Más información en: http://www.urjc.es/fundacion/archivos/c_verano.htm.

ESCUELA DE VERANO DE GOBIERNO Y POLÍTICAS PÚBLICAS. CURSO SOBRE INDICADORES ESTADÍSTI-COS PARA LA TOMA DE DECISIONES

La Fundación Internacional y para Ibero-américa de Administración y Políticas Públicas (FIIAPP) organiza la primera edición de la Escuela de Verano de Gobierno y Políticas Públicas con el fin de promocionar los estudios de especialización relacionados con la gobernabilidad y con la gestión de políticas públicas, enmarcados en el ámbito de la cooperación internacional española. Esta Escuela nace con el objetivo de consolidar sus actividades en los próximos años y construir una red de relaciones entre

los distintos Organismos para el intercambio de información, experiencias y colaboración. Dentro de su programación formativa se incluye el Curso sobre Indicadores Estadísticos para la toma de decisiones, dirigido y coordinado por el Instituto Nacional de Estadística, que tendrá una duración de 50 horas y que se impartirá en Madrid, del 11 al 22 de julio de 2005. Toda la información está disponible en http://www.ine.es/ine/escver/escver05.htm PRÓXIMOS CURSOS QUE ORGANIZA LA ESCUELA DE ESTADÍSTICA DE LAS ADMINISTRACIONES PÚBLICAS La Escuela de Estadística de las Administraciones Públicas (EEAP), dependiente del INE, tiene por objetivo la formación en Estadística del personal de las Administraciones Públicas y otros colectivos sociales que así lo requieran. Los cursos que imparte la EEAP versan sobre encuestas y estadísticas que realiza el INE, sobre técnicas estadísticas, sobre el marco legal de la función estadística pública, y otros temás de interés. El programa para los meses de septiembre y octubre es el siguiente: 27 y 28 de septiembre curso sobre Planificación Estadística. Instrumentos de coordinación entre las Estadísticas Estatales y las Estadísticas de las Comunidades Autónomas 4, 5 y 6 de octubre curso sobre Técnicas avanzadas de Análisis de Coyuntura 18, 19 y 20 de octubre curso sobre Contabilidad Regional. Base año 2000 25, 26 y 27 de octubre curso sobre Proyecciones de población. Fuentes para estudiar sus componentes: Movimiento Natural de Población y Padrón municipal Toda la información sobre la Escuela de Estadística en http://www.ine.es/ine/eeaapp/escuela.htm


42

CONGRESOS

2005

JULIO *24-28 25TH EUROPEAN MEETING OF STATISTICIANS, Oslo, NORWAY. Inf:

www.ems2005.no 31-4 THE 18TH INTERNATIONAL CONFERENCE ON PRODUCTION RESEARCH,

Fisciano (SA), Italy. Inf: http://icpr18.unisa.it/default.htm AGOSTO 7-11 2005 JOINT STATISTICAL MEETINGS, Minneapolis, Minnesota, USA. To be held at he

Minneapolis Convention Center. Sponsored by ASA,ENAR,WNAR,IMS and SSC. Inf: [email protected]

7-12 MAXENT 2005, 25TH INTERNATIONAL WORKSHOP ON BAYESIAN INFERENCE

AND MAXIMUM ENTROPY METHODS IN SCIENCE AND ENGINEERING, San Jose State University, San Jose CA USA. Inf:http://maxent2005.org

22-24 X SEMINARIO DE ESTADISTICA APLICADA DEL IASI, SOBRE “ ESTADISTICA

COMPUTACIONAL”. Se realizará en la Pontifica Universidad Católica del Perú, en la ciudad de Lima, Perú. Inf: [email protected], [email protected]

22-25 14TH EUROPEAN YOUNG STATISTICIANS MEETING (14TH. EYSM), Debrecen

(Hungría). Inf: [email protected]. *22-26 MIC 2005:6TH METAHEURISTICS INTERNATIONAL CONFERENCE, Wien, Austria. SEPTIEMBRE *6 GOR-TUTORIAL “BUSINESS INTELLIGENCE”, Bremen, Germany. 6-10 OPERATIONAL RESEARCH PERIPATETIC POST-GRADUATE PROGRAMME

(ORP3) 2005, Valencia, Spain. http://www.orp3.com 7-9 2005 ANNUAL INTERNATIONAL SCIENTIFIC CONFERENCE OF THE GERMAN

OPERATIONS RESEARCH SOCIETY (GOR) , Bremen, Germany. Inf: http://www.logistik.uni-bremen.de

8-9 IX CONGRESO DE INGENIERÍA DE ORGANIZACIÓN que se celebrará en Gijón. Inf:

http://cio2005.uniovi.es 12-16 CURSO ECAS "REGRESSION QUANTILES AND APPLICATIONS", this course will

focuse on Regression Quantiles and Applications, Belgium. Inf: http://www.ulb.ac.be/soco/lmtd/ecas2005

*13-16 JOINT EWGT MEETING AND MINI-EURO CONFERENCE, Poznan, Poland. 14-16 IX CONGRESO DE METODOLOGÍA DE LAS CIENCIAS SOCIALES Y DE LA

SALUD, Universidad de Granada. Inf: http://www.ugr.es/~cmetodo/ *14-16 FIFTH ANNUAL MEETING OF ENBIS. Newcastle upon Tyne, UK Inf: www.enbis.org


43

16-17 EIGHTH WORKSHOP ON CASE STUDIES IN BAYESIAN STATISTICS, Carnegie

Mellon University, Pittsburgh, PA. Inf: http://www.stat.cmu.edu/bayesworkshop/2005/goodstudy.html.

18-22 2005 INTERNATIONAL WORKSHOP ON GLOBAL OPTIMIZATION GO05, Almeria, Spain. Inf: http://dali.ace.ual.es/~go05/

*19-21 IX ZARAGOZA-PAU CONFERENCE ON APPLIED MATHEMATICS AND

STATISTICS. It is held in Jaca (Spain). Inf: http://pcmap.unizar.es/~jaca2005/. 21-23 SEMINARIO SOBRE “SISTEMAS ESTADÍSTICOS NACIONALES EN EL

CONTEXTO REGIONAL DEL MERCOSUR”. Organizado conjuntamente por el IASI y el Instituto Nacional de Estadística (INE) de Uruguay. Inf: [email protected], [email protected]

*21-23 TALLER REGIONAL SOBRE “SISTEMAS ESTADISTICOS NACIONALES”. Inf: e-

mail: [email protected] , [email protected] OCTUBRE *4-6 LM 05: LOGISTIK MANAGEMENT 2005, Dresden, Germany. 5-8 WORKSHOP ON STATISTICS IN GENOMICS AND PROTEOMICS,Hotel Estoril

Eden, Monte Estoril, Portugal. Inf: http://wsgp.deio.fc.ul.pt 19-21 THE 2ND COMPOSITIONAL DATA ANALYSIS WORKSHOP (CODAWORK’05).

Universitat de Girona Inf: http://ima.udg.es/Activitats/CoDaWork05/ *26-28 I CONGRESSO DE ESTATÍSTICA E INVESTIGAÇÃO OPERACIONAL DA GALIZA

E NORTE DE PORTUGAL / VII CONGRESO GALEGO DE ESTATÍSTICA E INVESTIGACIÓN DE OPERACIÓNS. Guimarães (Portugal). Inf: http://www.mct.uminho.pt/ceio2005/

28-31 3RD WORLD CONFERENCE ON COMPUTATIONAL STATISTICS & DATA

ANALYSIS Amathus Beach Hotel, Limassol, Cyprus. Inf: http://www.csdassn.org/europe/csda2005/

NOVIEMBRE *10-12 HIBIT 05: INTERNATIONAL SYMPOSIUM ON HEALTH INFORMATICS AND

BIOINFORMATICS, Belek, Antalya, Turkey. 13-16 INFORMS ANNUAL MEETING 2005, New Orleans, USA. 23-25 18TH MINI EURO CONFERENCE ON VNS, Tenerife, Spain. Inf:

http://www.mecvns.com *24-25 11. MAGDEBURGER LOGISTIKTAGUNG, Magdeburg, Germany. DICIEMBRE *4-7 INFORMS WINTER SIMULATION CONFERENCE, Orlando, USA.


44

2006

MARZO 20-24 CONFERENCE ON STOCHASTICS IN SCIENCE. In Honor of Ole E. Barndorff-

Nielsen’s 71st birthday. CIMAT, Guanajuato, Mexico. Inf: www.cimat.mx/Eventos/oebn-conference, [email protected]

MAYO *15-17 ILS 06: INTERNATIONAL CONFERENCE ON INFORMATION SYSTEMS,

LOGISTICS AND SUPPLY CHAIN, Lyon, France. 17-19 12TH IFAC SYMPOSIUM ON INFORMATION CONTROL PROBLEMS IN

MANUFACTURING INCOM'2006, 2006 à Saint Etienne France. Inf: www.emse.fr/incom06/call_for_papers.html

28-31 SSC-2006: ANNUAL MEETING OF THE STATISTICAL SOCIETY OF CANADA,

London, Ontario, Canada. Inf: [email protected] JUNIO *3-7 SECOND MADRID CONFERENCE ON QUEUEING THEORY, Faculty of Informatics,

Complutense University of Madrid. Inf: [email protected], http://www.mat.ucm.es/~mcqt/confe06/conf06.html

5-9 PROBASTAT 2006 FIFTH INTERNATIONAL CONFERENCE ON PROBABILITY and

STATISTICS, Smolenice Castle, Slovakia. Inf: http://aiolos.um.savba.sk/~viktor/probastat.html

8-11 XIX REUNIÓN ANUAL DE LA SOCIEDAD DE ECONOMÍA APLICADA ASEPELT

ESPAÑA. Badajoz. Inf: http://asepelt2005.eweb.unex.es/ JULIO 2-5 EURO XXI CONFERENCE 2006, Reykjavik, Iceland. 2-7 ICOTS-7: SEVENTH INTERNATIONAL CONFERENCE ON TEACHING

STATISTICS, to be held in Salvador, Bahía, Brazil. Inf:http://www.maths.aotago.ac.bz/icots7, [email protected]

16-21 XXIIIRD INTERNATIONAL BIOMETRIC CONFERENCE, to be held in Montreal,

Quebec, Canada.Inf: http://www.tibs.org AGOSTO 6-10 2006 JOINT STATISTICAL MEETINGS, to be held in Seattle, Washington, USA. Inf:

www.amstat.org/meetings/index.cfm?fuseaction=main, [email protected] 22-30 INTERNATIONAL CONGRESS OF MATHEMATICIANS MADRID 2006 (ICM-2006).

Inf: http://www.icm2006.org 28-1 17TH COMPSTAT SYMPOSIUM OF THE INTERNATIONAL ASSOCIATION FOR

STATISTICAL COMPUTING (COMPSTAT 2006), Rome. Inf: http://w3.uniroma1.it/compstat2006/

SEPTIEMBRE *6-8 OR 2006 :JAHRESTAGUNG 2006 DER GOR, Karlsruhe, Germany.


45

2007

JUNIO *18-21 INTERNATIONAL CONFERENCE ON ESTABLISHMENT SURVEYS III, in Montreal,

Quebec, Canada. Inf: [email protected] JULIO 29-2 2007 JOINT STATISTICAL MEETINGS, to be held in Salk Lake City, Utah, USA. Inf:

www.amstat.org/meetings/index.cfm?fuseaction=main, [email protected] AGOSTO 22-29 INTERNATIONAL STATISTICAL INSTITUTE (ISI) to be held in Lisboa, PortugalS

MADRID 2006 (ICM-2006). Inf: [email protected]

2008

AGOSTO

3-7 2008 JOINT STATISTICAL MEETINGS, to be held in Denver, Colorado, USA. Inf: www.amstat.org/meetings/index.cfm?fuseaction=main, [email protected]

2009

AGOSTO *2-6 2009 JOINT STATISTICAL MEETING to be held in Washington, D.C., USA. Inf:

[email protected], http:// www.amstat.org/meetings/index.cfm?fuseaction=main. 16-22 INTERNATIONAL STATISTICAL INSTITUTE (ISI) 57th BIENNAL SESSION, to be

held in Durban, South Africa. Inf: [email protected]

ALTAS Y BAJAS DE SOCIOS

ALTAS MES DE ABRIL Alberto Olivares González Elías Moreno Bas Beatriz López Sánchez ALTAS MES DE MAYO David Gómez-Cabrero López Maurizio Brizzi Carposio

BAJAS MES DE MAYO Paula Lagares Barreiro Irene García Sáez BAJAS MES DE JUNIO Antonio Rodríguez Socorro Antonio Rua Vieytes Inmaculada Rodríguez Martín Fermín Antonio Suárez García

CORRESPONSALES

46

Corresponsales: Cristina Jiménez los Arcos, [email protected] Instituto Nacional de Estadística Ana Justel [email protected] Universidad Autónoma de Madrid Isabel Molina Peralta [email protected] Universidad Carlos III de Madrid Javier Yañez Gestoso [email protected] Universidad Complutense de Madrid Francisco Callealta Barroso [email protected] Universidad de Alcalá de Henares Fernando Reche Lorite [email protected] Universidad de Almería Luis Antonio Sarabia Peinador [email protected] Universidad de Burgos Araceli Tuero [email protected] Universidad de Cantabria Juan Luis González Caballero [email protected] Universidad de Cádiz José María Caridad y Ocerín [email protected] Universidad de Córdoba Miguel González Velasco [email protected] Universidad de Extremadura Rocío Raya Miranda [email protected] Universidad de Granada Beatriz Hernández Jiménez [email protected] Universidad de Huelva

Emilio Lozano Aguilera [email protected] Universidad de Jaén David Alcaide López de Pablo [email protected] Universidad de la Laguna Juan Carlos Fillat Ballesteros [email protected] Universidad de la Rioja María Eva Vallejo Pascual [email protected] Universidad de León Lázaro Cánovas [email protected] Universidad de Murcia Carmen Morcillo Aixelá [email protected] Universidad de Málaga Susana Montes Rodríguez [email protected] Universidad de Oviedo María Teresa Santos Martín [email protected] Universidad de Salamanca Antonio Beato Moreno [email protected] Universidad de Sevilla Mª Cruz Valsero Blanco [email protected] Universidad de Valladolid Fernando Plo [email protected] Universidad de Zaragoza Marc Almiñana Alemany [email protected] Universidad Miguel Hernandez Maria del Pilar Moreno Navarro [email protected] Universidad Pablo de Olavide

Ana Fernández Militino [email protected] Universidad Pública de Navarra Antonio Alonso Ayuso [email protected] Universidad Rey Juan Carlos José Antonio Vilar Fernández [email protected] Universidade da Coruña María José Lombardía Cortiña [email protected] Universidade de Santiago de Compostela Alberto Rodriguez Casal [email protected] Universidade de Vigo Jordi Ocaña [email protected] Universitat de Barcelona Vera PAWLOWSKY-Glahn [email protected] Universitat de Girona Carles Capdevila Marques [email protected] Universitat de Lleida José Domingo Bermúdez Edo [email protected] Universitat de Valencia Pilar Muñoz [email protected] Universitat Politécnica de Catalunya Javier Alcaraz Soria [email protected] Universitat Politécnica de Valencia Dolores Romero Morales [email protected] University of Oxford

volumen21 2 n - university of adelaide

Documents