aplicaciÓn de tÉcnicas cluster al anÁlisis de

88
UNIVERSIDAD POLITÉCNICA DE MADRID ESCUELA TÉCNICA SUPERIOR DE INGENIEROS INDUSTRIALES APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE RESPONSABILIDAD DE LOS CONDUCTORES EN ACCIDENTES DE TRÁFICO Autor: Oscar Arturo Garrido Agenjo Tutores: José Manuel Mira McWilliams M a Almudena Sanjurjo de No 20 de julio de 2017

Upload: others

Post on 14-Jul-2022

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

UNIVERSIDAD POLITÉCNICA DE MADRID

ESCUELA TÉCNICA SUPERIOR DE INGENIEROSINDUSTRIALES

APLICACIÓN DE TÉCNICAS CLUSTER

AL ANÁLISIS DE RESPONSABILIDAD

DE LOS CONDUCTORES EN

ACCIDENTES DE TRÁFICO

Autor:Oscar Arturo Garrido Agenjo

Tutores:José Manuel Mira McWilliamsMa Almudena Sanjurjo de No

20 de julio de 2017

Page 2: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

“Data do not give up theirsecrets easily. They must betortured to confess”

JEFF HOPPER

Page 3: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

Aplicación de técnicas cluster al análisis de responsabilidad de los conductores en accidentes de tráfico

AGRADECIMIENTOS

Gracias a Pepe, Almudena y Blanca por todo el tiempo y la ayuda que me han dedicado, porsu paciencia y sobre todo por darme la oportunidad de trabajar en este proyecto con el que heaprendido tanto.

Por último gracias a mis padres y mi hermano por su apoyo constante que me ha ayudado a seguiradelante y por tener que aguantarme durante el tiempo que ha durado este trabajo.

Oscar Arturo Garrido Agenjo 3

Page 4: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

4 Escuela Técnica Superior de Ingenieros Industriales (UPM)

Page 5: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

Aplicación de técnicas cluster al análisis de responsabilidad de los conductores en accidentes de tráfico

RESUMEN

Introducción y objetivos

El objetivo del TFG es la aplicación de técnicas de análisis clúster, kmeans y SOM, al análisis dedatos micro sobre accidentes de tráfico en España en el periodo entre 2004 y 2013.

El TFG se enmarca dentro de las investigaciones de la tesis doctoral de una codirectora, AlmudenaSanjurjo de No, sobre estimación de la movilidad de transporte por carretera en España, a través delllamado método de exposición cuasi inducida, que permite obtener proporciones relativas de kmrecorridos por distintos colectivos de conductores, ej. varones entre 18 y 25 años. La determinaciónde la exposición es clave como denominador del riesgo de accidentes y es uno de los desafíos másimportantes en investigación actual de accidentes de tráfico, para poder estudiar la evolución de lasiniestralidad.

Los accidentes de tráfico representan hoy en día un problema de alto impacto social y económicoy son una de las mayores preocupaciones en las sociedades modernas. Ha habido una fuerte reduc-ción de la siniestralidad durante la última década pero esta reducción se ha interrumpido en los dosúltimos años. El pequeño repunte de la siniestralidad este último año no tiene por qué deberse apeores campañas de prevención o a una mayor imprudencia de los conductores si no a una mayorexposición; de aquí la importancia de estimar correctamente la exposición a la hora de evaluar eléxito de la administraciones en la lucha contra los accidentes.

Las técnicas de análisis no supervisado tipo clúster permiten identificar patrones de accidentalidadde los conductores que pueden ayudar a asignar responsabilidades (culpabilidad o no) de aquellosinvolucrados en el accidente.

La idea de la exposición cuasi inducida es que los conductores no culpables en los accidentesconstituyen una muestra aleatoria razonablemente representativa de los diferentes colectivos; porejemplo, si existen 1000 conductores varones no culpables del segmento 18-25 años y 500 conduc-

Oscar Arturo Garrido Agenjo 5

Page 6: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

tores mujeres, esto indicaría que los varones de esa edad recorren el doble de km que las mujeres.

Base de datos

La DGT dispone de una base de datos de accidentes de tráfico en España de forma que cada registrocorresponde un conductor de los involucrados en el accidente (podría ser también el único) del quese dan los valores de 111 variables; para este estudio se ha filtrado la base escogiendo sólo losregistros de accidentes con 2 turismos involucrados y solo 6 de estas 111 variables. Estas variablesha habido que modificarlas de forma que puedan ser utilizadas por los algoritmos para el análisisclúster. Las 6 variables seleccionadas son infracción del conductor, infracción de velocidad, defectofísico del conductor, condición psicofísica del conductor, infracción administrativa y estado delvehículo.

Al no disponer de la variable respuesta (culpabilidad o no) se trata de un análisis no supervisadocomo es el clúster. Se estudia como las variables de entrada que condicionan la culpabilidad seagrupan “por si solas” en clusters o conglomerados, que se piensa pueden corresponder a patronesde culpabilidad nítida o difusa.

Técnicas utilizadas

La primera técnica de análisis que se ha utilizado es k-means. El objetivo de este algoritmo es en-contrar grupos en los datos, con el número de grupos representado por la variable k. Este algoritmotrabaja de forma iterativa asignando cada dato a uno de los k grupos o clusters, basándose en ladistancia de cada dato al centro del grupo. K-means es uno de los algoritmos más simples y másutilizados que resuelven el problema de clustering.

La siguiente técnica que se usará es el mapa auto organizado o SOM, es otra herramienta deanálisis clúster cuyo objetivo es representar conjuntos de datos multidimensionales en un espaciode dimensiones mucho más reducidas, normalmente en un plano de 2 dimensiones. Esta reducciónde dimensiones se realiza conservando la topología inicial del espacio de los datos, por lo queaccidentes con características similares (vectores de variables próximos) aparecerán en el mismonodo (clúster) del SOM o en nodos vecinos, mientras que los accidentes que sean muy distintos(vectores de variables alejados) suelen aparecer en nodos muy alejados.

Para la realización de los análisis k-means y SOM se han utilizado las librerías del Software R, un

6 Escuela Técnica Superior de Ingenieros Industriales (UPM)

Page 7: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

Aplicación de técnicas cluster al análisis de responsabilidad de los conductores en accidentes de tráfico

entorno y lenguaje de programación de código abierto con enfoque al análisis estadístico.

Implementación y resultados

Antes de aplicar k-means hay que determinar el número K de clusters en que se quiere que elalgoritmo agrupe los datos de entrada, para esto se ha comparado la suma de la distancia de losdatos a cada centro de clúster para casos de 2 a 15 clusters, teniendo en cuenta esto y la finalidadpara la que se está usando este algoritmo (identificar grupos de potencialmente culpables o noculpables) se aplica el algoritmo de kmeans utilizando de 2 a 8 clusters y se estudian sus resultados.

Entre los resultados que proporciona k-means se encuentran las coordenadas de los 8 clustersque ha agrupado. Estas coordenadas nos ayudan a identificar el tipo de conductores que ha sidoasignado a cada clúster.

Analizando estos resultados se observa que la variable más importante a la hora de agrupar losdatos es la de infracción de conductor, los conductores se asignan a unos grupos u otros segúnhayan cometido o no esta infracción. Esta será la variable más determinante a la hora de asignarculpabilidad en el accidente, hasta el punto de que solo el hecho de haber cometido dicha infracciónpuede ser indicativo de culpabilidad. No obstante se ha observado que tienen bastante importanciatambién las variables de infracción de velocidad y condición psicofísica en el agrupamiento. Hayotras variables como la de estado del vehículo que no influye nada en el agrupamiento y por tantono servirá para determinar la responsabilidad del accidente.

Para aplicar SOM no es necesario determinar un número de clusters a priori pero sí que hace faltadeterminar el número de nodos (las dimensiones del mapa) que son el equivalente a los clusters dek-means. Teniendo en cuenta la distribución de los datos por el mapa (que no haya muchos nodosvacíos y los datos se distribuyan lo más equitativamente posible) se ha concluido que la mejoropción es la de utilizar un mapa de 5x5 nodos.

En el mapa SOM se representan cada uno de los nodos cada uno con un vector de pesos asigna-do, cada conductor se colocará en el nodo del mapa que tenga el vector de pesos más similar asu vector de variables. En el mapa obtenido se observa como la variable infracción del conductordivide claramente el mapa en dos zonas, zona con conductores que han cometido dicha infracción(potencialmente culpables) y zona en la que no (potencialmente inocentes o inocencia difusa).También se observan zonas de tamaño relevante para las variables infracción de velocidad, con-dición psicofísica e infracción administrativa que servirán para determinar si se trata de casos deculpabilidad/inocencia clara o difusa.

Oscar Arturo Garrido Agenjo 7

Page 8: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

El resto de variables apenas aparecen en el mapa o están muy dispersas, como la variable estadoque solo aparece en un nodo de los veinticinco, por tanto no contribuye en la clasificación de losconductores.

Conclusiones

Ambas técnicas han proporcionado resultados muy similares, lo cual no es de extrañar debido alsimilar funcionamiento de los algoritmos. En general se ha concluido que la variable con másimportancia y la que más contribuye a clasificar los datos es la de infracción de conductor. Noobstante con este trabajo también se demuestra la importancia de otras variables a la hora de deter-minar la responsabilidad como son las de infracción de velocidad o la condición psicofísica. Estainformación podría ser útil para ayudar a clasificar casos dudosos y aporta información adicionalacerca de la asignación de responsabilidad. También se han identificado variables que presentanmuy poca o nula relevancia como las de estado del vehículo y defecto físico del conductor, que sepodrán desestimar en futuros análisis.

Por tanto, se ha demostrado la importancia de la evaluación exhaustiva de las variables que inter-vienen sobre la responsabilidad de un conductor ya que afecta en la estimación de la exposiciónrelativa y por ello en el cálculo del nivel de riesgo de diferentes colectivos de conductores.

Palabras Clave

Accidente, conductor, exposición, responsabilidad, K-means, SOM, cluster, nodo, variable, infrac-ción.

Códigos UNESCO

120903, 120302, 120323, 332702, 332907

8 Escuela Técnica Superior de Ingenieros Industriales (UPM)

Page 9: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

Aplicación de técnicas cluster al análisis de responsabilidad de los conductores en accidentes de tráfico

Índice general

1. INTRODUCCIÓN 15

1.1. Justificación del proyecto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.1.1. Importancia de la exposición . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.1.2. Exposición cuasi inducida . . . . . . . . . . . . . . . . . . . . . . . . . . 16

1.1.3. Asignación de responsabilidad . . . . . . . . . . . . . . . . . . . . . . . . 17

1.2. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

1.3. Estado del arte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2. MÉTODOS Y HERRAMIENTAS 19

2.1. Aprendizaje supervisado vs no supervisado . . . . . . . . . . . . . . . . . . . . . 19

2.2. Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.3. K-means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

Oscar Arturo Garrido Agenjo 9

Page 10: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

ÍNDICE GENERAL

2.3.2. Concepto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.3.3. Algoritmo de k-means . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.3.4. Inicialización aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.3.5. Elegir el número de clusters K . . . . . . . . . . . . . . . . . . . . . . . . 23

2.3.6. Ventajas de k-means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

2.3.7. Limitaciones y desventajas de k-means . . . . . . . . . . . . . . . . . . . 24

2.4. Self-Organizing Map . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

2.4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

2.4.2. Algoritmo de SOM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3. BASE DE DATOS 29

3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.2. Filtrado de la base de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.3. Modificación de las variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

4. RESULTADOS DE LA APLICACIÓN 33

4.1. Clustering: K-means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

4.1.1. Selección del número de clusters . . . . . . . . . . . . . . . . . . . . . . . 33

4.1.2. Resultados de K-means . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

10 Escuela Técnica Superior de Ingenieros Industriales (UPM)

Page 11: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

Aplicación de técnicas cluster al análisis de responsabilidad de los conductores en accidentes de tráfico

4.1.2.1. Resultados con K=2 . . . . . . . . . . . . . . . . . . . . . . . . 36

4.1.2.2. Resultados con K=3 . . . . . . . . . . . . . . . . . . . . . . . . 37

4.1.2.3. Resultados con K=4 . . . . . . . . . . . . . . . . . . . . . . . . 38

4.1.2.4. Resultados con K=5 . . . . . . . . . . . . . . . . . . . . . . . . 39

4.1.2.5. Resultados con K=6 . . . . . . . . . . . . . . . . . . . . . . . . 40

4.1.2.6. Resultados con K=7 . . . . . . . . . . . . . . . . . . . . . . . . 41

4.1.2.7. Resultados con K=8 . . . . . . . . . . . . . . . . . . . . . . . . 42

4.1.3. Conclusiones de K-means . . . . . . . . . . . . . . . . . . . . . . . . . . 43

4.2. Clustering: SOM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

4.2.1. Determinación de las dimensiones del mapa . . . . . . . . . . . . . . . . . 45

4.2.2. Resultados de SOM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

4.2.2.1. Mapa de vectores de pesos . . . . . . . . . . . . . . . . . . . . 47

4.2.2.2. Recuento de datos asignados por nodo . . . . . . . . . . . . . . 49

4.2.2.3. Mapas de calor . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

4.2.2.4. Calidad del mapa . . . . . . . . . . . . . . . . . . . . . . . . . 57

4.2.3. Conclusiones del SOM . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

4.3. Comparación del mapa SOM con nuevas variables . . . . . . . . . . . . . . . . . . 59

4.3.1. Comparación del mapa SOM con la variable Género . . . . . . . . . . . . 60

Oscar Arturo Garrido Agenjo 11

Page 12: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

ÍNDICE GENERAL

4.3.2. Comparación del mapa SOM con la variable Edad . . . . . . . . . . . . . 62

4.3.3. Comparación del mapa SOM con la variable Tipo de Accidente . . . . . . 63

4.3.4. Comparación del mapa SOM con la variable Tipo de Vía . . . . . . . . . . 64

4.4. Comparación entre K-means y SOM . . . . . . . . . . . . . . . . . . . . . . . . . 64

5. CONCLUSIONES Y LINEAS FUTURAS 67

5.1. Conclusiones generales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

5.2. Futuras lineas de investigación . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

6. IMPACTO SOCIAL Y AMBIENTAL 69

7. PLANIFICACIÓN TEMPORAL 71

8. PRESUPUESTO 75

8.1. Presupuesto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

REFERENCIAS 79

Índice de figuras 81

Índice de tablas 83

ANEXOS 85

12 Escuela Técnica Superior de Ingenieros Industriales (UPM)

Page 13: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

Aplicación de técnicas cluster al análisis de responsabilidad de los conductores en accidentes de tráfico

ANEXO 1: Sentencias de R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

ANEXO 2: Tabla de vectores de pesos del SOM . . . . . . . . . . . . . . . . . . . . . . 88

Oscar Arturo Garrido Agenjo 13

Page 14: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

ÍNDICE GENERAL

14 Escuela Técnica Superior de Ingenieros Industriales (UPM)

Page 15: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

Aplicación de técnicas cluster al análisis de responsabilidad de los conductores en accidentes de tráfico

Capítulo 1

INTRODUCCIÓN

1.1. Justificación del proyecto

1.1.1. Importancia de la exposición

Estimar el riesgo de accidente absoluto y relativo de los distintos grupos de conductores ha sido untema de gran interés para los investigadores y los profesionales de la seguridad vial durante muchosaños. Una estimación precisa del riesgo de accidente es crítica a la hora de planificar medidas deprevención y atenuación de lesiones para grupos específicos de conductores.

Para calcular y posteriormente comparar el riesgo de que se produzca un accidente entre los dis-tintos colectivos de conductores se necesita estimar la exposición de cada grupo. En este caso laexposición se refiere a la medida en que un conductor esta expuesto al entorno en el que se provo-can los accidentes. Los investigadores tienen distintas teorías sobre que medida se debería usar pararepresentar la exposición, aunque por lo general se acepta que el número de kilómetros recorridospor un determinado colectivo de conductores o vehículos proporciona la mejor representación desu exposición.

Las técnicas de análisis descriptivo son relativamente simples de aplicar y son muy útiles a la horade obtener una rápida evaluación de los factores asociados con el riesgo de accidente, sin embargoeste método tiene serias limitaciones debido a la falta de datos sobre exposición o casos de controlpara estimar riesgos de accidente.

Oscar Arturo Garrido Agenjo 15

Page 16: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

CAPÍTULO 1. INTRODUCCIÓN

Nivel de riesgo = N oaccidentes/victimas

Exposición (1.1)

Para que las comparaciones entre riesgos de accidente sean válidas, lo ideal sería disponer demedidas precisas y a niveles finamente desagregados de exposición. Desafortunadamente no sedisponen de fuentes de información fidedignas para obtener estas medidas. Normalmente se obtie-nen mediante encuestas, pero estas suponen elevado coste y tienen muchas limitaciones sobre todoen países como España donde estas encuestas no se realizan de forma rutinaria.

Otro inconveniente de utilizar la distancia recorrida como medida de exposición es que su uso escuestionable en análisis donde interesan grupos específicos de conductores o condiciones ambien-tales. Por ejemplo, si se quisiera estudiar la relación entre la edad del conductor y las condicionesde iluminación, para determinar la exposición de forma precisa se necesitaría saber los kilómetrosde viaje realizados por distintos grupos de conductores bajo diferentes condiciones de luz.

1.1.2. Exposición cuasi inducida

Para solucionar los problemas de obtención de indicadores de exposición, se han desarrolladomedidas indirectas que tratan de solventar los problemas de las medidas de exposición directacomentados anteriormente. Las medidas indirectas engloban el método de la exposición induciday el método de la exposición cuasi inducida, siendo este último el más ampliamente utilizado(Carr, 1969; DeYoung et al., 1997; Stamatiadis & Deacon, 1997). La principal característica deeste método es que hace uso de la base de datos sobre accidentes para estimar la exposición relativade distintos grupos de conductores. Pero no cualquier tipo de accidente es válido, solo se utilizanaccidentes en los que haya dos vehículos involucrados y este claramente definido un conductorresponsable del accidente y otro no responsable que haya jugado un papel pasivo en el accidente.

El método de la exposición cuasi inducida se basa en una asunción fundamental: que los conducto-res no responsables de los accidentes no han tenido nada que ver con el y por lo tanto representanuna muestra aleatoria aproximada de la población total de conductores.

Además de esto, el método implica una serie de hipótesis básicas cuyo incumplimiento puedeproducir sesgos en las estimaciones de la exposición y el riesgo (Gómez y Aparicio, 2010). Paraminimizar estos sesgos lo que se hace es desagregar las colisiones en los tipos más frecuentesy después seleccionar el tipo de colisión que minimice el sesgo de la estimación o que sea masrelevante para nuestro estudio.

16 Escuela Técnica Superior de Ingenieros Industriales (UPM)

Page 17: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

Aplicación de técnicas cluster al análisis de responsabilidad de los conductores en accidentes de tráfico

1.1.3. Asignación de responsabilidad

La asignación de responsabilidad del accidente es uno de los puntos más cruciales en la teoríade la exposición cuasi inducida. Cómo se asocia la culpa del accidente a unos de los conductoresinvolucrados influye significativamente en la precisión que tendrá la técnica de exposición cuasiinducida.

Tradicionalmente, se utilizaba principalmente la opinión del agente de policía que había realizadoel informe del accidente para determinar la culpabilidad de los conductores. Autores de estudiosrelacionados con exposición cuasi inducida (Carr, 1969; Hall, 1970; Carlson, 1970; Joksch, 1973;Cerrelli, 1973) muestran el uso de la opinión del agente como estándar para asignar la responsabi-lidad del accidente.

Usar la solo la opinión del agente a la hora de determinar la culpabilidad en accidentes entre dosvehículos puede causar resultados impredecibles e inintencionados. La validez del asignamientode responsabilidad por la policía fue cuestionada por Haight (1970). Por ejemplo, puede darse elcaso de que un conductor no haya realizado ningún tipo de acción peligrosa que pudiera habercausado el accidente, siendo inocente y aún así acabar siendo identificado como culpable por elagente de policía, debido a otros factores como tener el carnet de conducir caducado, tener unaelevada tasa de alcohol en sangre o algún otro factor previo al accidente. Este fenómeno se conocecomo “efecto halo negativo” (DeYoung et al., 1997).

Por lo tanto, no existe un procedimiento claro de asignación de la responsabilidad del accidente yeste aspecto suscita uno de los mayores debates entre la comunidad de tráfico.

1.2. Objetivos

Ya se ha hablado en los puntos anteriores sobre la importancia de la asignación de responsabilidada la hora de utilizar el método de la exposición cuasi inducida y que si se realiza de forma incorrectapuede producir sesgos en las estimaciones.

El objetivo del presente Trabajo Fin de Grado consiste en el análisis de casos reales de accidentes detráfico registrados en España en los últimos años mediante la aplicación de técnicas de clustering.A partir de la utilización de ciertas características del accidente relacionadas con los conductoresimplicados (estado psicofísico, realización de infracciones, etc) se busca clasificar estos conduc-tores en grupos con distintos grados de culpabilidad e inocencia para facilitar el procedimiento deasignación de responsabilidad.

Oscar Arturo Garrido Agenjo 17

Page 18: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

CAPÍTULO 1. INTRODUCCIÓN

Una vez realizado el agrupamiento el siguiente paso consiste en la comparación de los resultadosobtenidos con las distintas técnicas y estudiar su efectividad y similitudes a la hora de determinara los culpables del accidente. Las dos técnicas de clustering que se estudiaran son el agrupamientok-means y el self-organizing map (SOM).

Este trabajo pertenece a la linea de investigación de la tesis de Almudena Sanjurjo de No y pretendeservir como contribución a la misma.

1.3. Estado del arte

Un problema general al que se enfrentan los investigadores de las diferentes áreas de investigaciónes el de organizar y clasificar los datos observados en estructuras que además tengan sentido. Elanálisis cluster se encarga de descubrir estructuras ocultas en los datos pero sin explicar el porquéestán ahí.

Las técnicas de clustering se utilizan cada vez con más frecuencia en una amplia variedad deproblemas de investigación, por ejemplo, en el campo de la medicina se utiliza el análisis clusterpara clasificar grupos de pacientes según los síntomas que presentan y así poder identificar lasposibles enfermedades que pueden padecer (Dilts D, Khamalah J, Plotkin A, 1995; McLachlanGJ, 1992). También en el campo de la psiquiatría utilizando síntomas psíquicos para determinar lamejor terapia posible para los pacientes (Blashfield R, 1984).

En los últimos años con la tecnología de la información y el rápido desarrollo de las tecnologías debases de datos que nos permiten acceder y almacenar grandes cantidades de datos, ha ganado espe-cial importancia el uso de técnicas de análisis cluster, sobre todo para dividir los datos previamenteal uso de técnicas de minería de datos.

La seguridad vial siempre ha sido un tema de gran importancia y cada vez es más relevante segúnaumenta el número de vehículos en circulación. Muchos investigadores han realizado estudiossobre el análisis de accidentes y su prevención (Gómez y Aparicio, 2010; Carr, 1969; DeYoung etal, 1997). La mayoría de los análisis de datos de accidentes de tráfico utilizan técnicas de mineríade datos, las cuales han demostrado proveer resultados productivos y de confianza.

18 Escuela Técnica Superior de Ingenieros Industriales (UPM)

Page 19: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

Aplicación de técnicas cluster al análisis de responsabilidad de los conductores en accidentes de tráfico

Capítulo 2

MÉTODOS Y HERRAMIENTAS

2.1. Aprendizaje supervisado vs no supervisado

El aprendizaje supervisado se basa en predecir los valores de una o mas variables respuesta Y =(Y1, ..., Ym) para un conjunto dado de variables de entrada XT = (X1, ..., Xp). La hipótesis estabasada en la muestra de entrenamiento (x1, y1), ..., (xN , yN) de casos resueltos previamente, dondelos valores asignados a todas las variables son conocidos.

Las técnicas de clustering que se usaran en este Trabajo Fin de Grado pertenecen a la categoríade aprendizaje no supervisado. En el aprendizaje no supervisado se parte de un conjunto de Nobservaciones (x1, x2, ..., xN) sin ningun valor asignado a y. El objetivo es darle este conjuntode entrenamiento sin valores asignados a un algoritmo y pedirle al algoritmo que encuentre unaestructura en los datos. En los métodos de clustering esta estructura consiste en un agrupamientode los datos en distintos clusters según criterios de similitud.

2.2. Clustering

Una de las técnicas más básicas en el análisis de datos consiste en dividir los datos en un conjuntode grupos de forma que los que estén dentro de un mismo grupo tengan características similares.Hay multitud de algoritmos de clustering, diferenciándose unos de otros en la definición de lo queconstituye un grupo y que hacen para encontrarlos.

Oscar Arturo Garrido Agenjo 19

Page 20: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

CAPÍTULO 2. MÉTODOS Y HERRAMIENTAS

Aldenderfer y Blashfield (1984) resumieron los objetivos del analísis cluster en los siguientes cua-tro aspectos principales:

Desarrollo de una clasificación

Investigación de esquemas conceptuales útiles para agrupar entidades

Generación de hipótesis a través de la exploración de datos

Testeo de la hipótesis o el intento de determinar si los tipos definidos mediante otros procesosestán de hecho presentes en el conjunto de datos

2.3. K-means

2.3.1. Introducción

El agrupamiento K-means (Forgy, 1965 ; MacQueen, 1967 ) es un tipo de aprendizaje no super-visado que se usa cuando se tienen datos sin clasificar. El objetivo de este algoritmo es encontrargrupos en los datos, con el número de grupos representado por la variable k. Este algoritmo trabajade forma iterativa asignando cada dato a uno de los k grupos o clusters, basándose en sus caracte-rísticas. K-means es uno de los algoritmos más simples y más utilizados que resuelven el problemade clustering.

2.3.2. Concepto

La idea principal comienza por definir k centroides, uno para cada cluster. Estos centroides seseleccionan inicialmente de forma aleatoria, aunque hay que tener cuidado ya que distintas posi-ciones pueden llevar a un resultado final diferente. El siguiente paso es seleccionar cada uno de losdatos de entrada y asignarlos al centroide mas cercano. Cuando ya no queden datos sin asociar sehabrá completado el agrupamiento inicial. En este punto hay que recalcular k nuevos centroidessegun la media de cada grupo resultante del paso anterior. Después debe comenzar una nueva eta-pa de asignamiento de los datos más cercanos a estos nuevos centroides. Como resultado de esteproceso iterativo los centroides se van desplazando poco a poco, hasta que llega un momento enque dejan de moverse y alcanzan su posición final.

20 Escuela Técnica Superior de Ingenieros Industriales (UPM)

Page 21: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

Aplicación de técnicas cluster al análisis de responsabilidad de los conductores en accidentes de tráfico

En la Figura 2.1 se observa de forma gráfica este proceso para un caso con dos clusters donde lospuntos representan los datos y las cruces los dos centroides.

Figura 2.1: Algoritmo de K-means. (a) Conjunto original (b) Inicialización aleatoria de centroides(c)-(f) Ejemplo de dos iteraciones de k-means.

Andrew Ng. 2009. Stanford, CS229 Lecture notes <http://cs229.stanford.edu/notes/cs229-notes7a.pdf>

2.3.3. Algoritmo de k-means

Partiendo del conjunto de entrenamiento x(1), ..., x(m) queremos agrupar los datos en clusters. Setienen los vectores de variables para cada dato x(i) ∈ R pero no categorias y(i) como es propiode los problemas de aprendizaje no supervisado. Nuestro objetivo es predecir k centroides y unacategoria c(i) para cada dato. El algoritmo kmeans actúa de la siguiente forma:

1. Inicializar de forma aleatoria K centroides µ1, µ2, ..., µk ∈ Rn

2. Asignar cada dato al grupo con el centroide mas cercano (distancia euclidea mínima). Siendoc(i) el índice del centroide al que el dato x(i) esta asignado.

c(i) := argmin||x(i) − µk||2 (2.1)

3. Cuando todos los datos han sido asignados, recalcular la posición de los k centroides.

µk := media de los puntos asginados al cluster k (2.2)

Oscar Arturo Garrido Agenjo 21

Page 22: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

CAPÍTULO 2. MÉTODOS Y HERRAMIENTAS

4. El algoritmo itera entre los puntos 2 y 3 hasta que se cumpla alguno de los criterios deparada(los datos no cambian de cluster, se minimiza la suma de las distancias o se alcanza elnúmero máximo de iteraciones).

Finalmente, este algoritmo como muchos otros busca minimizar una función objetivo, que en estecaso se trata de:

J(c(1), ..., c(m), µ1, ..., µK) = 1m

m∑i=1||x(i) − µc(i)||2 (2.3)

También conocida como función de distorsión, mide la distancia al cuadrado entre cada dato y sucentroide asignado. El algoritmo de K-means minimiza esta función de dos formas:

En el paso de asignación de clusters se minimiza J con respecto a c(1), c(2), ..., c(m)

En el paso de mover los centroides se minimiza J con respecto a µ1, µ2, ..., µk

Está demostrado que K-means siempre converge a un resultado (Selim e Ismail, 1984 ). Este re-sultado puede ser un óptimo local, que no siempre es la mejor opción, por lo que realizar más deuna ejecución del algoritmo puede proporcionar una mejor alternativa.

2.3.4. Inicialización aleatoria

La inicialización de los centroides en K-means no es algo trivial, una mala elección de centroidespuede llevar a que el algoritmo se quede “atascado” en un óptimo local, impidiendo así que sealcance una mejor solución.

Para evitar esto lo ideal es que los centroides iniciales estén suficientemente alejados unos de otros.Una solución para este problema con bastante buenos resultados es realizar un inicio múltiple alea-torio que consiste en elegir los centroides iniciales entre los puntos de la muestra de entrenamiento;e iniciar y ejecutar K-means varias veces para quedarse con la solución que minimice la funciónde distorsión "J" Ec.(2.3)

Si el número de clusters es relativamente pequeño (entre 2 y 10), el realizar un inicio múltiple alea-torio ayudara mucho a reducir la posibilidad de acabar con soluciones subóptimas. Sin embargo,para problemas en los que el número k de clusters es muy elevado, es más probable que el inicioaleatorio proporcione una solución aceptable a la primera, por lo que realizar múltiples inicios solomejorará la solución muy ligeramente.

22 Escuela Técnica Superior de Ingenieros Industriales (UPM)

Page 23: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

Aplicación de técnicas cluster al análisis de responsabilidad de los conductores en accidentes de tráfico

2.3.5. Elegir el número de clusters K

El algoritmo de K-means no es capaz de determinar el número de clusters por su cuenta por lo queel parámetro K deberá ser fijado antes de ejecutar K-means.

No siempre es buena idea resolver este problema de forma automática. Para elegir K se necesitaejecutar el algoritmo de K-means para un rango de valores de K y comparar los resultados. Engeneral no hay forma de determinar el mejor K de forma exacta pero si que se puede conseguir unaestimación bastante acertada utilizando las siguientes técnicas.

Si nuestros datos contienen 3 o menos variables sería muy fácil representarlos gráficamente yobservar la estructura que forman para detectar posibles agrupamientos y determinar así un valorK estimado. Desafortunadamente este no suele ser el caso y se deberán usar otros métodos paradeterminar K.

Una de las medidas mas comúnmente utilizadas para comparar resultados entre distintos valores deK es la distancia media entre los datos y los centroides de los clusters. Como al aumentar el númerode clusters se reduce la distancia a los datos, incrementar K siempre conllevara una reducción dela distancia media a los centroides, hasta el punto de llegar a cero cuando K es igual al número dedatos.

El método Elbow o método del codo utiliza esta distancia representada frente a K para determinarel número de clusters ideal para el problema en cuestión.

Figura 2.2: Ejemplo método del codo

Andrea Trevino. 2016. <https://www.datascience.com/blog/introduction-to-k-means-clustering-algorithm-

Oscar Arturo Garrido Agenjo 23

Page 24: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

CAPÍTULO 2. MÉTODOS Y HERRAMIENTAS

learn-data-science-tutorials>

Si aplicamos K-means con distintos valores de K mientras a su vez calculamos la distancia mediade los puntos a cada centroide, acabaremos con una gráfica parecida a la de la Figura2.2. Sitenemos suerte, se puede comprobar que en la gráfica llega un punto en el que un aumento de K noconlleva una reducción significativa de la distancia, este punto se llama “codo” e indica el númerode clusters K que se debe tomar para el algoritmo de K-means.

No obstante el método el codo no se utiliza mucho debido a que lo mas común es que no salga unagráfica como la del ejemplo, sino que la distancia se vaya reduciendo de forma continua y que elpunto de inflexión para obtener K no este tan claro.

Otra forma de seleccionar K es teniendo en cuenta el propósito por el cual se ejecuta k-means y enbase a eso determinar cuál es el número de clusters K que mejor sirve para el cumplimiento de esepropósito.

2.3.6. Ventajas de k-means

El algoritmo de K-means es uno de los métodos de clustering más sencillos y más utilizados pornumerosas razones:

Muy sencillo de implementar y ejecutar

Funciona bien con grandes cantidades de datos y requiere tiempos de computación muchomás reducidos que otros métodos de clustering

Genera clusters más concentrados que otros métodos, especialmente si los clusters son glo-bulares

Resultados fáciles de interpretar

Ideal solución para hacer un pre-clustering reduciendo el espacio para poder aplicar otrosalgoritmos de clustering

2.3.7. Limitaciones y desventajas de k-means

Dificultad para predecir el valor de K

24 Escuela Técnica Superior de Ingenieros Industriales (UPM)

Page 25: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

Aplicación de técnicas cluster al análisis de responsabilidad de los conductores en accidentes de tráfico

Solo funciona con datos numéricos, las variables categóricas deben ser modificadas

Baja capacidad de evitar óptimos locales

Muy sensible a casos aislados y ruido

No funciona bien con clusters no globulares

Diferentes particiones iniciales pueden resultar en distintos clusters obtenidos. Es necesarioejecutarlo varias veces para comparar resultados

Es difícil comparar la calidad de los clusters

Solo se pueden visualizar los clusters en espacios de hasta 3 dimensiones

2.4. Self-Organizing Map

2.4.1. Introducción

El mapa autoorganizado o SOM (Kohonen, 1990) es uno de los modelos de redes neuronalesmás populares. Pertenece a la categoría de redes de aprendizaje competitivo, esto significa que separte de un conjunto de unidades similares excepto por una serie de parámetros aleatoriamentedistribuidos que de cierto modo “compiten” por el derecho a responder frente a un subconjunto deentradas (Rumelhart and Zipser, 1985)

El objetivo de SOM es representar conjuntos de datos multidimensionales en un espacio de di-mensiones mucho más reducidas, normalmente en un plano de 2 dimensiones. Esta reducción dedimensiones se realiza conservando la topología inicial del espacio de los datos, por lo que puntosque estan cerca en el espacio de entrada también estarán cerca cuando se coloquen en el mapabidimensional.

Se puede considerar SOM como una version de K-means constreñida en el espacio(Ripley 1996).Además ambos algoritmos pertenecen a la categoría de aprendizaje no supervisado.

2.4.2. Algoritmo de SOM

Durante el proceso de SOM se pueden diferenciar cuatro etapas principales: Inicialización, com-petición, cooperación y adaptación.

Oscar Arturo Garrido Agenjo 25

Page 26: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

CAPÍTULO 2. MÉTODOS Y HERRAMIENTAS

En la inicialización se comienza con una red de nodos cuyo tamaño se ha determinado previamentey cada nodo se le asigna un vector de pesos con valores aleatorios.

Durante la siguiente fase de competición, para cada dato de entrada x se selecciona el nodo J conel que tiene menor distancia euclidea. A este nodo se le llama nodo “ganador”.

J := argminj

(||x− wj||) (2.4)

En otras palabras, el nodo cuyo vector de pesos es mas parecido al dato de entrada, es declaradoganador.

No obstante no solo el nodo ganador actualiza su vector de pesos, también lo hacen los nodoscercanos, aunque estos en menor medida según se alejen del ganador. A esto corresponde la fasede cooperación del algoritmo y se consigue gracias a la función de vecindad h(t) que dependedel tiempo (es decir, del número de iteraciones).

Normalmente la función de vecindad toma la forma de una función gaussiana:

h(t) = exp(−||rJ − rj||2

2σ(t)

)(2.5)

Donde rJ y rj representan la posición de los nodos correspondientes y σ(t) una función decrecientecon el tiempo (Haykin, 1999 ) que comúnmente se utiliza como:

σ(t) = σ0exp(−t/τ) (2.6)

Donde σ0 es el valor inicial y τ la constante de tiempo.

Por último en la etapa de adaptación es cuando se actualizan los vectores de pesos del nodoganador y sus vecinos mediante la siguiente ecuación:

w(t+ 1) = w(t) + η(t)h(t)(x− w(t)) (2.7)

En la que se incluye el coeficiente de aprendizaje η(t) que disminuye monotonamente con el tiem-po. El resultado de esta ecuación es que el vector de pesos del ganador y sus vecinos se acercan alvector del dato de entrada x, con lo que sucesivas iteraciones llevan a una ordenación topológicadel mapa.

Resumen de los pasos de SOM:

1. Inicialización de los vectores de pesos aleatoriamente.

2. Presentar un dato de entrada a la red y elegir el nodo ganador con la mínima distancia eucli-dea.

26 Escuela Técnica Superior de Ingenieros Industriales (UPM)

Page 27: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

Aplicación de técnicas cluster al análisis de responsabilidad de los conductores en accidentes de tráfico

3. Calcular el coeficiente de aprendizaje y función de vecindad actuales.

4. Actualizar los vectores de peso del nodo ganador y sus vecinos con la Ec.2.7

5. Repetir los pasos del 2 al 4 hasta que el cambio de los vectores de pesos deje de ser signifi-cativo.

Oscar Arturo Garrido Agenjo 27

Page 28: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

CAPÍTULO 2. MÉTODOS Y HERRAMIENTAS

28 Escuela Técnica Superior de Ingenieros Industriales (UPM)

Page 29: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

Aplicación de técnicas cluster al análisis de responsabilidad de los conductores en accidentes de tráfico

Capítulo 3

BASE DE DATOS

3.1. Introducción

La base de datos utilizada para el estudio fue proporcionada por el departamento de ingenieríamecánica y el Instituto Universitario de Investigación del Automóvil (INSIA), gracias a su reco-lección y tratamiento de la información a partir de fuentes oficiales como la Dirección General deTráfico.

La base de datos inicial consiste en un fichero de Excel con un total de 836.598 registros donde cadafila representa a un conductor implicado en un accidente de tráfico entre dos vehículos ocurridoentre 2004 y 2013, por lo que cada dos filas corresponderán a dos conductores implicados enel mismo accidente. Con cada fila hay asociadas 111 variables relacionadas con el conductor,vehículo y condiciones en las que se produjo la colisión, además de dos identificadores, uno parael conductor y otro para el accidente.

3.2. Filtrado de la base de datos

Se van a estudiar únicamente los siguientes tipos de accidentes: Frontal, Frontolateral, Lateral yde Alcance; por lo que se realiza un primer filtrado seleccionando estos accidentes, finalmente seobtienen 763.114 registros. Además, sólo se va a analizar la zona interurbana, quedándonos con lacarretera y variante. Por lo que si filtramos por zona la BBDD anteriormente resultante, obtenemos281.157 registros.

Oscar Arturo Garrido Agenjo 29

Page 30: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

CAPÍTULO 3. BASE DE DATOS

Sobre estos 281.157 registros solo se estudiaran los accidentes con implicación de dos turismos:

1. Accidente entre dos turismos SP de hasta nueve plazas

2. Accidente entre un turismo de SP de hasta nueve plazas y un turismo sin remolque

3. Accidente entre dos turismos sin remolque

Ya con la BBDD filtrada se observa la presencia de algunos accidentes en los que solo hay infor-mación de uno de los conductores implicados, esto registros pueden producir sesgos a la hora deanalizar los datos por lo que deben de ser eliminados de la BBDD antes de realizar el estudio. Unavez hecho esto el recuento final de registros de la BBDD es de 145.902 conductores.

3.3. Modificación de las variables

De entre todas las variables disponibles en la BBDD, solo se utilizaran 6, que son las siguientes:Defecto físico previo, Condición psicofísica, Presuntas infracciones sobre velocidad, Presuntasinfracciones administrativas, Presuntas infracciones del conductor y Estado del vehículo.

Todas las variables de la BBDD, incluidas las seleccionadas para el estudio, son de carácter cate-górico ya que hacen referencia a características cualitativas. Esto supone un problema ya que lastécnicas de clustering que vamos a utilizar en el entorno estadístico R, requieren el uso de variablesnuméricas para poder funcionar. Para solucionar esto se han convertido las variables categóricasen variables ternarias que toman los valores 0, 1 y 2. El valor 0 corresponde a la situación en laque no se cumple la infracción o defecto descrito por la variable, valor 1 cuando el resultado de lavariable es “se ignora” y por último, el valor 2 corresponde a la situación en la que se cumple lainfracción o defecto descrito.

Esto nos ayuda a solucionar el problema y a su vez nos permite cuantificar la gravedad del valortomado por la variable, por ejemplo, se puede considerar que el no haber cometido una infracción(valor 0), indica menor implicación en el accidente que el sí haberla cometido (valor 2); y su vezel hecho de que se ignore si ha cometido una infracción (valor 1) se puede considerar que esta amedio camino entre los otros dos casos.

Convertir las variables a ternario implica que haya que simplificarlas o modificarlas:

Defecto físico previo hace referencia a defectos de visión, audición o movilidad del conduc-

30 Escuela Técnica Superior de Ingenieros Industriales (UPM)

Page 31: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

Aplicación de técnicas cluster al análisis de responsabilidad de los conductores en accidentes de tráfico

tor. Se ha simplificado de forma que tome valor 2 si hay alguno o varios defectos y valor 0si no hay ninguno.

Condición psicofísica del conductor, se ha dividido en tres variables distintas: Drogas oalcohol (valor 2 si hay consumo, valor 0 si no); Sueño, cansancio o preocupación (valor 2si se cumple alguno de los tres casos, valor 0 si no); y Enfermedad súbita (valor 2 si se haproducido enfermedad, valor 0 si no).

Presuntas infracciones sobre velocidad indica si se ha cometido infracción de exceso develocidad o marcha lenta entorpeciendo de la circulación, valor 2 si se comete infracción yvalor 0 si no.

Presuntas infracciones administrativas hace referencia a infracciones del tipo de excesode pasajeros o carga, permiso de conducción caducado o inadecuado, no tener efectuada lainspección técnica del vehículo, etc. En ternario toma valor 2 si hay algún tipo de infracciónadministrativa y valor 0 si no.

Presuntas infracciones del conductor hace referencia a las infracciones de conduccióncometidas como por ejemplo no respetar señales de circulación, adelantamientos antirregla-mentarios, no mantener la distancia de seguridad, etc. Se simplifica de forma que toma valor2 si ha cometido alguna infracción (da igual del tipo que sea) y valor 0 si no ha cometido.Esta es la única de las variables seleccionadas en la que no hay ningún registro en la BBDDque tome el valor 1 “se ignora”, siempre tiene valor 0 ò 2.

Estado del vehículo indica los defectos que presenta el vehículo previos al accidente, valor2 si había algún defecto y valor 0 si no.

En la Tabla 3.1 se muestra un resumen de las variables utilizadas.

Oscar Arturo Garrido Agenjo 31

Page 32: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

CAPÍTULO 3. BASE DE DATOS

Tabla 3.1: Tabla de variables utilizadas

32 Escuela Técnica Superior de Ingenieros Industriales (UPM)

Page 33: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

Aplicación de técnicas cluster al análisis de responsabilidad de los conductores en accidentes de tráfico

Capítulo 4

RESULTADOS DE LA APLICACIÓN

4.1. Clustering: K-means

4.1.1. Selección del número de clusters

Antes de poder aplicar k-means hay que determinar el número K de clusters en que queremos queel algoritmo clasifique los datos de entrada. Como lo que se busca con este método es clasificarlos conductores de forma que se puedan identificar patrones de responsabilidad en la causa delaccidente, un buen primer punto de partida sería realizar el clustering con K = 2 y observar side los dos grupos que se forman puede calificarse uno como grupo de potencialmente culpablesy el otro como grupo de potencialmente inocentes. Aunque este sería el caso ideal, también esinteresante estudiar como varían los resultados para valores de K más altos y ver si existe un valorde K óptimo para agrupar nuestros datos.

Para obtener una primera aproximación de como se comportan los clusters para diferentes valoresde K se aplica el método del codo. En este caso comparando la suma del total de las distancias alcuadrado de los datos de cada cluster a su centroide para un número de clusters K entre 2 y 15, seobtiene en la Figura 4.1.

Oscar Arturo Garrido Agenjo 33

Page 34: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

CAPÍTULO 4. RESULTADOS DE LA APLICACIÓN

Figura 4.1: Método del codo hasta K=15

Se observa en la gráfica como disminuye de forma casi continua la distancia, por lo que es muydifícil determinar el punto de inflexión que nos da un K óptimo, no obstante esta disminución dela distancia intra-cluster apenas se aprecia al aumentar el número de clusters por encima de 9, locual puede indicar que el estudio de k-means con valores de K > 9 no será tan interesante.

De forma análoga se puede estudiar la variabilidad explicada según K utilizando esta vez la frac-ción entre la distancia entre clusters y la suma total de distancias.

34 Escuela Técnica Superior de Ingenieros Industriales (UPM)

Page 35: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

Aplicación de técnicas cluster al análisis de responsabilidad de los conductores en accidentes de tráfico

Figura 4.2: Variabilidad explicada según K

Como era de esperar los resultados son muy parecidos, aunque a diferencia del método anterior eneste caso la diferencia empieza a ser menos relevante a partir de K = 8. Teniendo esto en conside-ración ahora se estudiaran los distintos resultados obtenidos por K-means variando el número declusters entre 2 y 8.

Oscar Arturo Garrido Agenjo 35

Page 36: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

CAPÍTULO 4. RESULTADOS DE LA APLICACIÓN

4.1.2. Resultados de K-means

En esta sección se van a realizar consecutivos análisis de K-means, inicialmente utilizando dosclusters y añadiendo un cluster más con cada análisis hasta llegar a ocho.

4.1.2.1. Resultados con K=2

Tabla 4.1: Coordenadas de los centros para k=2

Tabla 4.2: Valores obtenidos en el clustering para k=2

En este apartado analizamos los resultados obtenidos con K-means utilizando únicamente 2 clus-ters.

Para el caso de K-means con dos clusters se observa una evidente división entre los datos segúnla variable de infracción del conductor “infcond” que es la única que está claramente definida,tomando valor 2 en el centro del primer cluster y valor 0 en el centro del segundo. Del resto devariables solo destacan la de drogas o alcohol “drogas” y la de infracción de velocidad “infveloc”,ambas toman valores significativamente más altos en el cluster con centro en infcond = 2 en estecluster se encuentran los conductores que sí han cometido infracción del conductor.

Como todas las variables indican la presencia de defectos o infracciones que suponen un aumentode la probabilidad de causar accidentes, si se tuviera que clasificar a los conductores basándose ex-clusivamente en estos dos clusters, sería seguro asumir que los conductores del cluster 1 que tienenvalores más altos de las variables mas significativas ( especialmente de la variable “infcond”) sonlos posiblemente culpables mientras que los conductores del cluster 2 son posiblemente inocentes.

Estos dos clusters tienen tamaños muy similares, siendo ligeramente más grande el cluster de los“inocentes” el cual alberga aproximadamente el 55 % de los datos.

36 Escuela Técnica Superior de Ingenieros Industriales (UPM)

Page 37: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

Aplicación de técnicas cluster al análisis de responsabilidad de los conductores en accidentes de tráfico

4.1.2.2. Resultados con K=3

Tabla 4.3: Coordenadas de los centros para k=3

Tabla 4.4: Valores obtenidos en el clustering para k=3

En este apartado se realiza el análisis de K-means utilizando K=3 clusters. Aquí el cluster concentro en infcond=0 se mantiene exactamente igual que en el caso anterior (K-means con K=2clusters), mismas coordenadas y tamaño, sin embargo el cluster con infcond=2 se ha dividido endos nuevos clusters (en la Tabla 4.3 Cluster 1 y Cluster 3) con el mismo valor de “infcond” perodiferencias en el resto de variables.

Se ha remarcado en el texto el nuevo cluster que aparece, el Cluster 1, en concreto en este clusterla variable “infveloc” toma un valor muy alto 1.41 respecto al valor 0 que tiene en el cluster 3.Esto indica que los conductores que han cometido una infracción de velocidad además de unainfracción de conductor se situarán en el cluster 1. El resto de variables también toma valoresligeramente mayores en el cluster 1.

En este caso los conductores tanto del cluster 1 como el 3 ya se podrían considerar potencialmente“culpables” solo por el hecho de que han cometido infracción de conductor, aunque con muchamás certeza los conductores del cluster 1 ya que además hay alta probabilidad de que tambiénhayan cometido infracción de velocidad.

Teniendo en cuenta el tamaño de los clusters se observa que más 36 % de los conductores de lamuestra que han cometido alguna infracción de conductor, han cometido también una infracciónde velocidad.

Se observa también una reducción de las distancias intra-cluster y las distancias entre clustersrespecto al caso con K = 2, esta tendencia continuara según vayamos aumentando el número declusters como es de esperar dado el funcionamiento del algoritmo de K-means.

Oscar Arturo Garrido Agenjo 37

Page 38: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

CAPÍTULO 4. RESULTADOS DE LA APLICACIÓN

4.1.2.3. Resultados con K=4

Tabla 4.5: Coordenadas de los centros para k=4

Tabla 4.6: Valores obtenidos en el clustering para k=4

Ahora se analizaran los resultados de k-means con K=4 clusters. Esta vez los clusters de potenciales“culpables” apenas han variado ni en tamaño ni en coordenadas, sin embargo el cluster que se hadivido en dos ha sido el de los “inocentes” con centro en infcond = 0 y que aparecen en la Tabla4.5 como cluster 1 y cluster 4.

Estos dos clusters se diferencian principalmente en las variables “defecto” e “infadm” que tomanvalor 0,99 y 0,9 respectivamente en el cluster 4 y valor 0 en el cluster 1. De estos dos se ha remar-cado en la tabla el cluster 4, que es el que más se diferencia de los clusters hasta ahora observados.Ya se ha visto en las clusterizaciones anteriores que estas variables no son tan importantes a la horade determinar culpabilidad y que por tanto no supondrán mucha diferencia entre estos clusters, porlo que se podrían seguir considerando inocentes los conductores asignados a ellos.

38 Escuela Técnica Superior de Ingenieros Industriales (UPM)

Page 39: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

Aplicación de técnicas cluster al análisis de responsabilidad de los conductores en accidentes de tráfico

4.1.2.4. Resultados con K=5

Tabla 4.7: Coordenadas de los centros para k=5

Tabla 4.8: Valores obtenidos en el clustering para k=5

En este apartado se analizan los resultados de k-means utilizando K=5. En este caso aparece unnuevo cluster (cluster 2 remarcado en la Tabla 4.7) con valor de infcond = 1,99 y drogas = 1.51,similar a lo que sucedía en el caso con K = 3 solo que esta vez con la variable “drogas” en lugar de lavariable “infveloc”. La mayoría de los conductores asignados a este cluster habrán cometido algunainfracción de conductor mientras estaban bajo los efectos de drogas o alcohol. Como en el resto delos clusters que tienen infracción de conductor, la variable drogas vale 0 lo cual significa que nopresentan esta condición psicofísica desfavorable, de haber algún conductor que haya consumidoalcohol o drogas y además haya cometido infracción de conductor pertenecerá a este nodo.

En el cluster 2 también toman valores más altos que en el resto de clusters las variables “sueño”y “enfsubita” aunque eso es debido a que estas dos variables junto con “drogas” provienen de lamisma variable, condición psicofísica del conductor, por lo que cuando esta variable tome valor 1(se ignora) también tomarán valor 1 estas tres variables simultáneamente. También en el cluster 2la variable “infveloc” tiene un valor relativamente alto respecto al resto de clusters (sin tener encuenta el cluster 3 que es el específico asociado a esta variable). Esto puede ser indicativo de quelos conductores bajo los efectos de las drogas o alcohol son más propensos a cometer infraccionesde velocidad.

Oscar Arturo Garrido Agenjo 39

Page 40: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

CAPÍTULO 4. RESULTADOS DE LA APLICACIÓN

4.1.2.5. Resultados con K=6

Tabla 4.9: Coordenadas de los centros para k=6

Tabla 4.10: Valores obtenidos en el clustering para k=6

En el análisis de K-means con K=6 clusters se mantienen los 5 tipos de cluster observados hastaeste momento y aparece otro nuevo, el cluster 6 marcado en la Tabla 4.9, con valor infcond=0pero valores relativamente altos para del resto de variables en relación a lo que se ve en el resto declusters. Aquí aparecerían los conductores cuya variable “infcond” vale 0 pero alguna otra u otrasvariables, específicamente “drogas”, “sueño”, “enfsubita” e “infveloc”, toman valor 1 ó 2.

En este cluster la inocencia del conductor no está completamente asegurada ya que aunque nohaya cometido infracción de conductor si ha cometido muchas otras infracciones, se incrementanmucho la probabilidad de que haya sido el causante del accidente. La mayoría de los conductoresen este cluster serian inocentes pero no todos, habría que determinar su culpabilidad en función deltipo y cantidad de infracciones cometidas, lo que requeriría análisis complementarios que pudiesenjustificar su responsabilidad.

Este nuevo cluster es el más pequeño hasta ahora, representado solo a un 4 % de los conductoresde la muestra, lo cual resulta satisfactorio dado que este cluster por sí solo y sin aplicar análisisadicionales no aportaría información relevante para la asignación de responsabilidad, aunque seexistencia puede ser positiva ya que nos da una pista de la necesidad de aplicar técnicas comple-mentarias.

Con la aparición de nuevos clusters se van “refinando” los clusters que se obtenían al principiopara valores inferiores de K. Por ejemplo, en en el caso con K = 2, el cluster original de inocentestenia infcond = 0 y el resto de variables valores bajos, ahora con K = 6, el cluster análogo coninfcond = 0 tiene el resto de variables valores nulos o casi nulos, esto ocurre ya que al haber mayornúmero de clusters los datos pertenecientes a estos clusters cada vez se parecen más entre ellos ytoman valores más parecidos de las variables, valor 0 en este ejemplo.

40 Escuela Técnica Superior de Ingenieros Industriales (UPM)

Page 41: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

Aplicación de técnicas cluster al análisis de responsabilidad de los conductores en accidentes de tráfico

4.1.2.6. Resultados con K=7

Tabla 4.11: Coordenadas de los centros para k=7

Tabla 4.12: Valores obtenidos en el clustering para k=7

En este apartado se va a realizar el análisis de K-means utilizando K=7 clusters.

Otra vez aparecen los mismos tipos de cluster con alguna diferencia, el cluster de “inocencia di-fusa” que aparecía nuevo en el caso con K=6 ahora también aparece pero esta vez con “infveloc”como variable dominante.

El nuevo cluster que aparece en este caso, cluster 4 en la Tabla 4.11, es similar al que aparecía enK = 4, con valores de “defecto” e “infadm” altos, solo que esta vez la variable “infcond” vale 2.El hecho de que estas dos variables, que no tienen tanta importancia como otras en la implicacióndel accidente, aparezcan juntas de nuevo, puede significar que hay algún tipo de correlación entreellas, pero se deberían hacer análisis complementarios, como el análisis de la matriz de correlaciónde esas 2 variables para confirmar este aspecto. En principio no tiene por qué haber correlaciónentre estas 2 variables.

Cada vez los clusters se dividen más y se van haciendo más pequeños pero aún así hay algunosque destacan por su mayor tamaño, los dos clusters más grandes son el cluster 6 cuyo centro tomavalor 0 para todas las variables (ninguna infracción) y el cluster 7 cuyo centro toma valor 0 paratodas las variables excepto “infcond” con valor 2 (solo infracción de conductor) y representanrespectivamente el 33 % y 22 % de los datos de la muestra. El primero de estos 2 clusters incluyea los conductores que podrían ser considerados inocentes, mientras que en el segundo de estosclusters se encuentran conductores que han cometido una infracción de conductor y, por lo tanto,son potencialmente responsables de una parte o de la totalidad del accidente (esto dependerá de lascaracterísticas del otro conductor).

Oscar Arturo Garrido Agenjo 41

Page 42: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

CAPÍTULO 4. RESULTADOS DE LA APLICACIÓN

4.1.2.7. Resultados con K=8

Tabla 4.13: Coordenadas de los centros para k=8

Tabla 4.14: Valores obtenidos en el clustering para k=8

En este apartado se va a realizar un análisis análogo a los anteriores, pero realizando una divisióncon 8 clusters. Los resultados obtenidos son los que se muestran en las Tablar 4.13 y 4.14. A partirde estos se va a realizar una descripción detallada de los resultados obtenidos en cada cluster:

Cluster 1 Este cluster se caracteriza por tener infcond = 2 y resto de variables valor 0, por lotanto incluye conductores que solo han cometido infracción de conductor. En consecuenciase trata de un posible cluster de conductores responsables del accidente con 37.624 con-ductores asignados a este cluster, siendo este el segundo cluster más grande de todos losgenerados.

Cluster 2 En este la cluster la variable “infcond” es 0 y el resto de variables toma valores re-lativamente altos, especialmente la variable “drogas”. Se revierte el cambio observado en K= 7 en el que había un cluster similar pero más centrado en “infveloc”. Este cluster mayorita-riamente de potenciales inocentes pero con posibles conductores culpables que requerirán deanálisis complementarios para determinarlos. Hay un total de 6.160 conductores asignadosa este cluster.

Cluster 3 Tiene infcond = 2 y valores altos de las variables “defecto” y “infadm” en tornoa 1(se ignora). Como los conductores de este cluster han cometido infracción de conduc-tor, aunque se ignore (valor 1) si han cometido “infadm” y “defecto”, serán probablementeculpables. Hay un total de 9.557 conductores asignados a este cluster.

Cluster 4 Este cluster se caracteriza por tener infcond = 2 y drogas = 2, tiene valores tambiénrelativamente altos de “infveloc” e “infadm”. Los conductores que han cometido infraccio-nes de conductor bajos los efectos de drogas o alcohol tendran mayor probabilidad de ser

42 Escuela Técnica Superior de Ingenieros Industriales (UPM)

Page 43: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

Aplicación de técnicas cluster al análisis de responsabilidad de los conductores en accidentes de tráfico

asignados a este cluster. Es un cluster de conductores potencialmente culpables con 5.529conductores asignados, además es el cluster más pequeño de los ocho obtenidos.

Cluster 5Este cluster tiene infcond = 0 y el resto de variables también con valor 0, se inclui-rían aqui los conductores que no han cometido ninguna infracción ni presentan ninguna clasede defecto o condición, por tanto los conductores presentes en este cluster se consideraránpotencialmente inocentes. Hay un total de 51.949 conductores asignados, es el cluster másgrande de los obtenidos en esta aplicación de K-means.

Cluster 6 En este cluster la variable infcond tiene valor 0 y las variables “defecto” y “in-fadm” tienen valores altos en torno a 1, es el cluster análogo al cluster 3 diferenciándose soloen la variable “infcond”. Este cluster es más probablemente de inocentes dado que las varia-bles “defecto” e “infadm” se caracterizan por adoptar valores de “se ignora” o desconocidos,por lo que es más posible que no existan tales defectos o infracciones, ya que si el agente en-cargado de la cumplimentación del formulario ha señalado estar causas como desconocidas,es porque no existían evidencias claras acerca de las mismas y , por lo tanto, la hipótesis quese adopta es que sea más probable que esto se deba a la inexistencia de estas infracciones.Además estos defectos o infracciones no determinan por sí solas la responsabilidad del acci-dente, por lo que, en este caso, puede considerarse que los conductores que caen dentro delcluster 6 son, con una probabilidad muy alta, inocentes. Este es el tercer cluster de mayortamaño con 19.720 conductores asignados a él.

Cluster 7 Este cluster se caracteriza por tener infcond = 1.63, el único que no tiene estavariable con valor 0 o 2 y le da más importancia a la variable infveloc=2. Pertenece a con-ductores que han cometido infracciones de conductor a la vez que infracciones de velocidad,estas dos infracciones juntas pueden ser muy determinantes en la ocurrencia de un accidentepor lo que este cluster será de conductores potencialmente culpables con un total de 9.094conductores asignados.

Cluster 8 Por último, en este cluster la variable infcond toma valor 2 y el resto de variablestoma valores relativamente altos (con respecto a otros clusters). Es el nuevo cluster queaparece con K = 8, similar al cluster 2 pero con distinto valor de “infcond”. A diferencia delcluster 2 en el que la culpabilidad/inocencia no estaba claramente definida, los conductoresde este cluster son probablemente culpables ya que habrán cometido infracción del conductory alguna o varias infracciones más.

4.1.3. Conclusiones de K-means

Estudiando los resultados obtenidos en las consecutivas aplicaciones de K-means, se observa quela variable de mayor importancia y la que mayor peso tendrá a la hora de clasificar los conductorescomo potencialmente inocentes o culpables es la variable “infcond” que representa si un conductorha cometido infracción del conductor (infcond = 2) o no ha cometido infracción del conductor(infcond = 0). Casi todos los clusters obtenidos se centran en esta variable para clasificar los datos

Oscar Arturo Garrido Agenjo 43

Page 44: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

CAPÍTULO 4. RESULTADOS DE LA APLICACIÓN

según tome valor 2 o 0. Esto se debe a que es la variable que con más frecuencia aparece enlos datos y que, viendo los resultados para K=2, los divide en dos grupos de tamaño similar,conductores para los que esta variable tiene valor 2 y conductores con valor 0. Además entrelos clusters obtenidos para K=8 destacan los dos de mayor tamaño, el 1 y el 5. Estos dos clusterssolo se diferencian en el valor de la variable “infcond” según hayan cometido esta infracción o norespectivamente, lo que refuerza la teoría sobre la importancia de esta variable.

También tiene sentido que la variable “infcond” sea la mas importante para determinar culpabili-dad ya que el haber cometido esta infracción el conductor implica que ha habido una acción deconducción peligrosa, que son las que causan los accidentes, mientras que el resto de infraccio-nes aunque si que aumentan la probabilidad de causar un accidente no constituyen una condiciónnecesaria para que estos ocurran.

Las siguientes variables que con más frecuencia aparecen son la de “infveloc” y “drogas” inclusohay dos clusters dedicados para casos específicos en los que aparecen estas variables junto a lavariable “infcond”. Estas dos variables se complementan ya que los conductores que beben suelencometer más infracciones, especialmente las de velocidad. Aunque no se cumple el caso inversocomo se observa en los clusters 4 y 7, donde el cluster con drogas = 2, es decir, ha habido consumode alcohol y/o drogas, presenta también un valor relativamente alto respecto a otros clusters de lavariable infveloc = 0.67, pero el cluster con infveloc = 2 tiene valor de drogas = 0.

Las variables “infadm” y “defecto” también aparecen bastante y siempre en conjunto. A priorino parece que haya nada que pueda relacionar el cometer una infracción administrativa con lapresencia de defectos físicos del conductor previos al accidente. Estas variables aparecen muchoen los datos pero casi siempre tomando las dos valor 1 (valor equivalente a “se ignora”), estopuede deberse a que correspondan a características más difíciles de determinar o que no se les damucha importancia en el accidente y, por tanto, el agente que rellena el informe no se preocupade comprobarlas. No obstante, se podrían hacer análisis complementarios como el análisis de lamatriz de correlación para evaluar si existe alguna relación entre las mismas.

Las variables “sueño” y “enfsubita” suelen tomar valores similares aunque no muy elevados, estose debe a que junto con “drogas” las tres provienen de la misma variable “Condición psicofísica”que se dividió para facilitar la clusterización, por lo que siempre que esta variable tome valor 1 ó0, lo harán también las tres variables formadas a partir de esta.

El resto de variables que se observan tienen menos peso y no aparece representada de forma espe-cialmente significativa en ninguno de los clusters. Sobre todo la variable “estado” que en ningunode los centros de cluster aparece con valor superior a 0.2, por lo que se considera que esta variableno ayudara en nada a determinar la responsabilidad del accidente.

De los ocho clusters obtenidos en la última clusterización solo tres corresponden a casos con

44 Escuela Técnica Superior de Ingenieros Industriales (UPM)

Page 45: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

Aplicación de técnicas cluster al análisis de responsabilidad de los conductores en accidentes de tráfico

infcond = 0, el resto de clusters están divididos según que otras infracciones cometen aparte de la“infcond”. La mayoría de los casos en los que un conductor no comete infracción de conductortampoco ha cometido ningún otro tipo de infracción, mientras que en los casos en los que hayalguna infracción, especialmente de drogas o velocidad, también se ha cometido infracción deconductor. Esto indica que estas dos variables se complementan con la de “infcond” lo cual refuerzala clusterización.

En general, con la información obtenida de K-means se puede estimar con cierta seguridad en lamayoría de los clusters cuales corresponderán a conductores culpables y cuales a inocentes.

4.2. Clustering: SOM

4.2.1. Determinación de las dimensiones del mapa

Uno de los parámetros que hay que seleccionar previamente antes de poder aplicar SOM son lasdimensiones del mapa. Saber como de grande queremos que sea el mapa es muy importante pararealizar un buen análisis, hay que tener en cuenta que el tamaño del mapa es un parámetro especí-fico de la aplicación que tengamos pensada para el algoritmo, es decir, depende de lo que se quierahacer con los grupos generados. Mapas grandes producen un mayor número de clusters pequeñosy compactos mientras que mapas pequeños producen menos clusters pero más complejos. Comoocurría con k-means, no existe el número “correcto” de clusters, especialmente con conjuntos dedatos del mundo real. Todo depende de con qué nivel de detalle se quiera examinar el conjunto.

En este caso buscamos identificar básicamente dos clases dentro de nuestro conjunto de datos, cul-pables e inocentes, aunque también esperamos que aparezcan grupos con culpabilidad/inocenciadifusa. Como punto de partida se van a entrenar varios mapas de distintas dimensiones y se com-parará la distribución de los datos para elegir el mapa más apropiado, una primera aproximaciónes utilizar 10 nodos del mapa por cada clase esperada.

En nuestro caso no sabemos el número exacto de clases que pueden aparecer pero como se buscaidentificar grupos de culpabilidad/inocencia clara/difusa, podemos esperar que aparezcan entre 2 y4 clases distintas, por lo que las dimensiones valoradas serán 6x6, 6x5, 5x5 y 4x5.

Oscar Arturo Garrido Agenjo 45

Page 46: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

CAPÍTULO 4. RESULTADOS DE LA APLICACIÓN

Figura 4.3: Mapas según no de unidades por nodo

En la Figura 4.3 se muestran los mapas de cuentas para cada una de las dimensiones consideradas.En estos mapas cuanto más rojo es el color de un nodo, menos datos tiene asignados y los nodosde color gris representan nodos completamente vacíos. En los mapas de dimensiones 6x6 y 6x5aparecen muchos nodos vacíos y varios nodos con muy pocos datos asignados (menos de 100datos en algunos casos). Los mapas de 5x5 y 4x5 tienen solo dos nodos vacíos y el resto de nodosbastante equilibrados, excepto los dos nodos blanco y amarillo que tienen una gran cantidad dedatos asignados y que aparecen en los cuatro mapas. Como entre los mapas 5x5 y 4x5 no haymucha diferencia utilizaremos el de 5x5 ya que al ser más grande será más fácil de analizar y nosproporcionara más información.

46 Escuela Técnica Superior de Ingenieros Industriales (UPM)

Page 47: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

Aplicación de técnicas cluster al análisis de responsabilidad de los conductores en accidentes de tráfico

4.2.2. Resultados de SOM

4.2.2.1. Mapa de vectores de pesos

Figura 4.4: Mapa SOM con vectores de pesos

La Figura 4.4 muestra la forma por defecto de representar el SOM, una red de nodos en la que encada celda aparece representado el vector de pesos mediante segmentos coloreados. Cada segmentocorresponde a una variable según el color y cuanto más largo sea el segmento mayor será el valordel peso de la variable en ese nodo. El valor de la variable de un nodo indica el valor promedio delos datos asignados a ese nodo, ya que cada dato se asigna al nodo que tiene el vector de pesos mássimilar al vector de variables de ese dato. En nuestro caso es un mapa de 5x5 con 25 nodos cadauno con las 8 variables representadas.

Se ha indicado también en la Figura 4.4 el número de datos que hay asignados a cada nodo, eneste caso cada dato representa un conductor implicado en un accidente. Como se ha visto tambiénen el apartado anterior hay dos nodos vacíos en el centro del mapa y dos nodos con una granconcentración de datos asignados en esquinas opuestas del mapa. El más grande de estos nodostiene valor 0 en todas las variables y el otro nodos tiene también valor 0 en todas las variablesexcepto en la variable de infracción del conductor.

Oscar Arturo Garrido Agenjo 47

Page 48: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

CAPÍTULO 4. RESULTADOS DE LA APLICACIÓN

A primera vista se observa que la variable que aparece con más frecuencia en el mapa es la deinfracción del conductor “infcond” (representada en color morado) y que además divide este endos mitades; a la derecha se encuentran los nodos cuyo vector de pesos tiene un valor 0 para estavariable y a la izquierda los nodos en los que el valor del peso de esta variable es igual a 2. El hechode que esta variable aparezca con tanta frecuencia en el mapa en relación con el resto de variableses un indicativo de la elevada importancia que tendrá a la hora de clasificar a los conductores.

También se aprecian el resto de variables en pequeños grupos o dispersas por el mapa, para poderestudiar cómo se organizan individualmente las variables en el mapa y que sea más fácil identificarpatrones en su agrupación hará falta el uso de otras técnicas de visualización del mapa.

48 Escuela Técnica Superior de Ingenieros Industriales (UPM)

Page 49: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

Aplicación de técnicas cluster al análisis de responsabilidad de los conductores en accidentes de tráfico

4.2.2.2. Recuento de datos asignados por nodo

Otra característica del paquete Kohonen es que nos permite ver el número de datos que ha acabadoen cada nodo una vez finalizado el periodo de entrenamiento. Esto es útil para determinar la calidaddel mapeado, si aparecen muchos nodos vacíos significaría que hace falta un mapa más pequeño,por el contrario la presencia de nodos muy sobrecargados puede indicar la necesidad de un mapamayor. En un caso ideal la distribución de los datos sería uniforme a lo largo del mapa, pero estono siempre es así. En nuestro caso como lo que nos interesa es clasificar los conductores en dosgrupos, lo ideal sería que hubiera dos nodos opuestos que albergaran entre los dos la inmensamayoría de los datos.

Figura 4.5: Mapa con recuento de los nodos

En el centro del mapa aparecen dos nodos completamente vacíos. Viendo el mapa SOM de laFigura 4.4, se comprueba que estos dos nodos corresponden a los dos únicos nodos que tiene pesode la variable “infcond” igual a 1. Era de esperar que estos nodos albergaran muy pocos datos(correspondientes a posibles erratas de la base de datos) o estuvieran vacíos ya que ninguno de losdatos de conductores de la base de datos tiene valor de esta variable igual a 1.

Por otro lado, destacan ocho de los veinticinco nodos del mapa debido a la gran cantidad de datosque contienen en relación al resto de nodos (de mayor a menor 44.539, 29.492, 14.756, 8.068,6.853, 6.141, 4.262 y 4.057 datos cada nodo). En estos ocho nodos hay contenidos el 80 % de

Oscar Arturo Garrido Agenjo 49

Page 50: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

CAPÍTULO 4. RESULTADOS DE LA APLICACIÓN

todos los datos de entrada en el mapa. De estos nodos destacan a su vez los dos que más datostienen, el nodo de 44.539 con todas las variables igual a 0 y el nodo de 29.497 con “infcond” iguala 2 y el resto a 0. Solo estos nodos acumulan ya más del 50 % de los datos de la muestra. En laFigura 4.6 se muestra esta distribución de los datos por los nodos.

Figura 4.6: Distribución de datos por nodo

Al contener estos ocho nodos un porcentaje tan elevado de los datos totales puede resultar intere-sante su estudio de forma individual a la hora de clasificar los datos. En el resto de nodos los datosse distribuyen de forma más uniforme albergando entre 1000 y 3000 datos cada uno aproximada-mente.

4.2.2.3. Mapas de calor

Una herramienta de visualización muy utilizada con SOM son son los “heatmaps” o mapas decalor. Estos mapas permiten mostrar la distribución de una variable en concreto a lo largo delSOM, habitualmente representando con colores cálidos los nodos en los que el peso de la variabletoma un valor más alto y colores más frios los nodos en los que toma valores bajos. El estudiocomparativo de distintos mapas de calor permite observar las posibles relaciones que hay entresubconjuntos de las variables de entrada.

50 Escuela Técnica Superior de Ingenieros Industriales (UPM)

Page 51: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

Aplicación de técnicas cluster al análisis de responsabilidad de los conductores en accidentes de tráfico

Infracción del conductor (infcond)

Figura 4.7: Mapa de calor para “infcond”

La división de la que se hablaba en el mapa SOM se aprecia con más claridad ahora en la Figura4.7 en el mapa de calor correspondiente a la variable “infcond”, donde los nodos coloreados enrojo están en una mitad y los nodos en azul en la otra, siendo la zona en rojo ligeramente mayorque la azul. Como en los vectores de entrada hay un mayor número de casos con valor “infcond”igual a 0 que casos con valor 2, es de esperar que en la parte derecha azul del mapa aparezcannodos con una concentración de datos mayor que los nodos de la izquierda.

Destacan también los dos nodos verdes situados en el centro del mapa, en estos nodos el peso dela variable “infcond” es 1. En los datos de conductores no hay ningún caso en el que la variable“infcond” tenga este valor, motivo por el que estos dos nodos están vacíos.

Oscar Arturo Garrido Agenjo 51

Page 52: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

CAPÍTULO 4. RESULTADOS DE LA APLICACIÓN

Infracción de velocidad (infvel)

Figura 4.8: Mapa de calor para “infveloc”

La otra variable que aparece con mayor frecuencia en el mapa es la de infracción de velocidad“infveloc” aunque no tanto como “infcond” y de forma ligeramente dispersa. Tiene más presenciaen la parte izquierda del mapa, zona en el que también predominaba la variable “infcond”, estopuede indicar que las dos variables están relacionadas de modo que el hecho de que una estépresente puede favorecer que lo esté la otra también.

52 Escuela Técnica Superior de Ingenieros Industriales (UPM)

Page 53: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

Aplicación de técnicas cluster al análisis de responsabilidad de los conductores en accidentes de tráfico

Infracción administrativa (infadm)

Figura 4.9: Mapa de calor para “infadm”

El mapa de calor para la variable infracción administrativa “infadm” es bastante similar al de“infveloc” en términos de la importancia de esta variable en el mapa, aunque “infadm” aparececon algo menos de frecuencia y bastante más dispersa a lo largo del mapa. No obstante, al igualque ocurría antes, con esta variable también se observa una mayor presencia en la zona izquierdadel mapa, es decir, la zona en la que domina la variable “infcond”

Oscar Arturo Garrido Agenjo 53

Page 54: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

CAPÍTULO 4. RESULTADOS DE LA APLICACIÓN

Defecto físico previo (defecto)

Figura 4.10: Mapa de calor para “defecto”

La variable defecto aparece igualmente dispersa y ocupa una área del mapa similar a la que ocupala variable “infadm” aunque tiene una importancia en el mapa significativamente menor y tomavalores mas bajos que las dos anteriores. Se sigue manteniendo la misma tendencia que ocurríacon las otras variables de que los vectores con pesos más altos se sitúan en la zona izquierda delmapa.

54 Escuela Técnica Superior de Ingenieros Industriales (UPM)

Page 55: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

Aplicación de técnicas cluster al análisis de responsabilidad de los conductores en accidentes de tráfico

Drogas/alcohol (drogas), sueño (sueño) y enfermedad súbita (enfsubita)

Figura 4.11: Mapa de calor para “drogas”, “sueño” y “enfsubita”

Los mapas de calor de la Figura 4.11 tienen forma similar al ocupar las tres variables una mismaregión del SOM, pero nunca coinciden cuando toman valor igual a 2. Esto se debe las variables“drogas”, “sueño” y “enfsubita” en las que se basan estos tres mapas de calor provienen todas dela misma variable “Condición Psicofísica” que se dividió anteriormente para facilitar su estudio ypoder aplicar las técnicas de clustering. Por lo tanto solo una de ellas a la vez podrá tomar valor 2pero siempre coincidirán al tomar valor igual a 1 ya que es el correspondiente al valor “se ignora”de la variable original y que es común para estas tres variables creadas a partir de ella.

Oscar Arturo Garrido Agenjo 55

Page 56: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

CAPÍTULO 4. RESULTADOS DE LA APLICACIÓN

De estas tres variables destaca la de drogas y alcohol (“drogas”), que es la que aparece con valoresmás altos en el mapa y que mayor importancia tendrá. Tanto para esta variable como para “sueño”sigue ocurriendo que la mayoría de nodos con valores altos de las variables se sitúan en la zona enla que “infcond” también tiene valores altos.

Estado del vehículo(estado)

Figura 4.12: Mapa de calor para “estado”

La variable estado del vehículo “estado” es con diferencia la que menos peso tiene a lo largo detodo el mapa. Solo en dos nodos aparece en el vector de pesos con un valor distinto de 0 y enambos casos son nodos que albergan mucha diversidad de variables. Esto puede ser indicativo dela reducida importancia que tendrá esta variable a la hora de clasificar los datos.

56 Escuela Técnica Superior de Ingenieros Industriales (UPM)

Page 57: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

Aplicación de técnicas cluster al análisis de responsabilidad de los conductores en accidentes de tráfico

4.2.2.4. Calidad del mapa

Figura 4.13: Gráfico de calidad del mapa

Este gráfico representa la calidad del mapeado, es decir, la distancia entre los datos asignados a unnodo y el vector de pesos de ese nodo. Cuanto más grande sea un mapa mayor será la calidad delmapeado ya que habrá más nodos, por tanto más variedad de nodos y cada dato se podrá colocaren el que mejor le represente, no obstante mayor calidad de mapa no quiere decir que el mapasea bueno, no interesa hacer los mapas demasiado grandes ya que aparecerían demasiados nodosvacíos y se dificultaría el estudio del mapa por lo que hay que llegar a un solución de compromisoentre tamaño y calidad. Similar a lo que ocurría con K-means, si aumentamos mucho el númerode clusters habrá menos distancia entre los datos dentro de cada cluster, pero esto no siempre esnecesariamente bueno para una correcta clusterización.

Comparando el mapa de recuento de nodos de la Figura 4.11 con el mapa de calidad de la Figura4.13 se observa que los nodos de color rojo más intenso (nodos de mejor calidad) coinciden conlos nodos que mayor cantidad de datos contienen y los nodos de color amarillo/blanco (nodos depeor calidad) coinciden con nodos casi vacíos.

Concretamente el nodo que aparece de color blanco, que es en el más distancia hay entre los datosasignados y el vector de pesos correspondiente a ese nodo, es además el nodo que menos datoscontiene del mapa (sin contar los dos nodos vacíos) y a su vez es el único nodo en el que aparecela variable “estado” con valor igual a 2.

Oscar Arturo Garrido Agenjo 57

Page 58: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

CAPÍTULO 4. RESULTADOS DE LA APLICACIÓN

4.2.3. Conclusiones del SOM

Tras estudiar los mapas obtenidos aplicando el algoritmo de SOM se observa que la variable “inf-cond” tiene un papel determinante cuando se trata de clasificar los datos de conductores. Estavariable divide el mapa claramente en dos, esa división se usara para determinar las zonas delmapa según se consideren los conductores situados en ellas culpables o inocentes.

Figura 4.14: Mapa SOM con zonas de culpabilidad/inocencia

El mapa de la Figura 4.14 corresponde al mismo mapa original de la Figura 4.4 pero en este se hanmarcado dos zonas, una de color naranja y la otra de color verde, según tome la variable “infcond”valor 2 o 0.

En la zona verde esta variable toma valor 0, no hay infracción de conductor, por lo que se consi-derara la zona de los conductores potencialmente inocentes, no obstante se han marcado con coloramarillo dos nodos en concreto. En uno de estos nodos aparecen representadas gran cantidad devariables, los conductores asignados a este nodo, aunque no hayan cometido infracción del con-ductor si que pueden que hayan cometido varias otras infracciones de forma simultánea por lo queno se puede asegurar su inocencia completamente. En el otro nodo remarcado en amarillo, la va-riable “infveloc” toma valor 2, por lo que los conductores asignados a este nodo habrán cometidouna infracción de velocidad, este tipo de infracción puede ser también bastante determinante en laocurrencia de un accidente aunque no haya habido infracción de conductor.

58 Escuela Técnica Superior de Ingenieros Industriales (UPM)

Page 59: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

Aplicación de técnicas cluster al análisis de responsabilidad de los conductores en accidentes de tráfico

Para determinar la culpabilidad de los conductores que pertenecen a los nodos remarcados en ama-rillo será necesario observar dentro de qué categoría podríamos clasificar a los otros conductoresimplicados en el mismo accidente, así como realizar análisis complementarios, si fuesen necesa-rios, para ayudar a clasificar la responsabilidad de los dos conductores implicados en un mismoaccidente.

En este sentido, es importante señalar también que puede ocurrir que, a pesar de los análisis adicio-nales, no sea posible atribuir la responsabilidad del accidente a ninguno de los conductores o queesta pueda ser asignada a los dos, en cuyo caso, habrá que descartarlos para futuras aplicacionesdel método de exposición cuasi-inducida.

En la zona naranja la variable “infcond” vale 2 por lo que se considerara como la zona de los con-ductores culpables. Por lo general se observa que en esta zona hay más concentración de variablesque en la zona de los inocentes, lo que indica que conductores que cometen múltiples infraccio-nes tienen mayor probabilidad de cometer también infracción de conductor. Esta teoría también seconfirma al ver en los mapas de calor que cuando una variable aparece en varios nodos tomandovalor 2, la mayoría de esos nodos también tenían valor 2 de la variable “infcond”.

Aparte de la variable “infcond”, hay otras variables que aparecen con bastante frecuencia y convalores bastante altos. Estas variables son las de “infveloc”, “infadm” y “drogas”; y aunque princi-palmente sea la variable “infcond” la que determine culpabilidad, la presencia o ausencia de estasvariables determinaran si se trata de casos de culpabilidad/inocencia difusa o clara. Sin embargootras variables como la de “estado” apenas tienen importancia y no nos proporcionan ningún tipode información sobre el accidente que sea relevante para determinar la responsabilidad.

Hay que tener en cuenta las limitaciones de SOM, principalmente las relativas la reducción dedimensiones que lleva a cabo para facilitar la visualización del clustering y que lleva consigo unaperdida de precisión. Esta perdida de precisión causa que se puedan interpretar de forma errónealos patrones que se observan en los mapas, por lo que es muy difícil llegar a conclusiones exactassolo a partir de un mapa SOM. La utilidad de SOM suele ser como ayuda a la visualización de losdatos y como primer paso antes de aplicar otras técnicas de clustering a los mapas.

4.3. Comparación del mapa SOM con nuevas variables

En este apartado se va a realizar un análisis adicional sobre el mapa SOM obtenido previamente.Primero se han representado los conductores incluidos en cada nodo como puntos de colores, cadapunto tiene un color diferente según pertenezca a una categoría distinta dentro de las siguientesvariables estudiadas: Género del conductor, edad del conductor, tipo de accidente que se ha pro-ducido y tipo de vía en que ha ocurrido el accidente. Luego se han calculado los porcentajes de

Oscar Arturo Garrido Agenjo 59

Page 60: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

CAPÍTULO 4. RESULTADOS DE LA APLICACIÓN

conductores de cada categoría que hay en cada nodo respecto del total de conductores que perte-necen a dicha categoría (ej. En un nodo se indica el porcentaje de mujeres que hay en ese nodorespecto al número de mujeres total en el mapa).

Estos dos mapas (nube de puntos y porcentajes) se van a comparar con el mapa SOM para estudiarlas posibles relaciones que haya entre las infracciones cometidas y las nuevas variables estudiadas(género, edad, tipo de accidente y tipo de vía)

Cómo hay una gran cantidad de datos asignados a cada nodo, en los mapas de nubes de puntos nose aprecian diferencias en cuanto a la concentración de cada colectivo de conductores, por lo quese ha decidido no utilizarlos en el análisis.

4.3.1. Comparación del mapa SOM con la variable Género

Figura 4.15: Mapa con porcentajes para género y Mapa SOM

Primero se va a comparar el género del conductor (hombre o mujer) con el tipo de infraccionescometidas por el conductor. En la Figura 4.15 aparecen representados los porcentajes de hom-bres y los porcentajes de mujeres que hay en cada nodo respecto del total de hombres y mujeresrespectivamente.

La diferencia de porcentajes más clara se observa en los nodos con la variable “drogas” (segmentonaranja en el SOM) donde estarán asignados los conductores que hayan cometido una infracciónde consumo de alcohol y/o drogas. En estos nodos el porcentaje de hombres es varias veces mayoral porcentaje de mujeres, lo que indica que los hombres son mucho más propensos a cometerinfracciones de consumo de alcohol y/o drogas que las mujeres.

60 Escuela Técnica Superior de Ingenieros Industriales (UPM)

Page 61: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

Aplicación de técnicas cluster al análisis de responsabilidad de los conductores en accidentes de tráfico

En los nodos con “infveloc” (segmentos de color cian) de conductores que hayan cometido infrac-ciones de velocidad también hay un mayor porcentaje de hombres que de mujeres, aunque no haytanta diferencia como se observaba en los nodos con “drogas”. No obstante, dada la importancia deestos nodos y la gran cantidad de datos asignados también puede ser indicativo de que las mujerescometan menos infracciones de velocidad.

En el resto de nodos los porcentajes se reparten de forma más o menos equitativa, con pequeñasdiferencias. El porcentaje de mujeres en el nodo de los conductores que no han cometido ningunainfracción es mayor que el de hombres. Lo mismo ocurre en el nodo que solo tiene las variables“infadm” y “defecto” con valor 1 (se ignora), como estas variables no son tan representativas de laocurrencia de un accidente y además en este nodo toman el valor de “se ignora”, es probable quelos conductores de este nodo no hayan cometido infracciones tampoco. Esto indica que las mujerescometen en general menos infracciones que los hombres y que esto no se limita a infracciones develocidad y consumo de alcohol y/o drogas (aunque en estas dos la diferencia sea más clara que enel resto).

También se observa que en la mayoría de nodos con “infcond”, perteneciente a conductores coninfracción del conductor, hay mayor porcentaje de hombres que de mujeres. Esto también refuerzala teoría anterior de que las mujeres cometen menos infracciones en general.

Oscar Arturo Garrido Agenjo 61

Page 62: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

CAPÍTULO 4. RESULTADOS DE LA APLICACIÓN

4.3.2. Comparación del mapa SOM con la variable Edad

Figura 4.16: Mapa con porcentajes para edad y Mapa SOM

En este apartado se va analizar cómo se relaciona la edad de los conductores con el tipo de infrac-ciones cometidas. En el mapa de la izquierda de la Figura 4.16 están representados los porcentajesde los conductores de cada rando de edad en cada nodo.

En este caso las diferencias entre los porcentajes son menos acusadas que en el caso del género, noobstante se observa que en el nodo de conductores sin infracciones hay menor porcentaje de con-ductores mayores de 75 años, lo que puede indicar que estos conductores tienen más probabilidadde cometer algún tipo de infracción.

También se observa que en el nodo con sólo infracción del conductor “infcond” y en general, en lamayoría de nodos con “infcond” (en 7 de los 13) hay un mayor porcentaje de conductores de másde 75 años que del resto de rangos de edad, esto significa que los conductores de más de 75 añostienen mayor probabilidad de cometer infracciones del conductor y dado que esta es la variableque normalmente implica culpabilidad en el accidente, los conductores de más de 75 años tendránmayor probabilidad de ser los culpables en accidentes de tráfico.

También hay mayor porcentaje según aumenta la edad en los nodos con variables “infadm” y“defecto” con valor 1, equivalente al valor “se ignora” de dichas variables. Estas variables y conestos valores no implican culpabilidad en el accidente pero tampoco hay una razón explicable porla que, cuanto mayor sea el conductor mayor probabilidad tenga de tener asignadas estas variablescon valor 1 (se ignora). Habría que realizar análisis complementarios para explicar esta tendencia.

Para el resto de rangos de edades apenas hay diferencias remarcables entre los nodos, esto quieredecir que, para conductores con edades por debajo de los 75 años, no hay apenas relación entre laedad y el tipo de infracciones cometidas.

62 Escuela Técnica Superior de Ingenieros Industriales (UPM)

Page 63: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

Aplicación de técnicas cluster al análisis de responsabilidad de los conductores en accidentes de tráfico

4.3.3. Comparación del mapa SOM con la variable Tipo de Accidente

Figura 4.17: Mapa con porcentajes para tipo de accidente y Mapa SOM

En este apartado se va a analizar cómo se relaciona el tipo de accidente ocurrido con las infrac-ciones cometidas por los conductores. En la Figura 4.17 esta el mapa con los porcentajes de con-ductores implicados en cada tipo de accidente según el total de cada uno. Los tipos de accidenteestudiados son frontal, frontolateral, lateral y de alcance.

La única diferencia notable ocurre en los nodos con infracción administrativa y defecto físico delconductor tomando ambas valor 1, correspondiente a que se ignora si se han cometido o no. Enestos dos nodos los accidentes de tipo frontolateral aparecen con menor porcentaje. Como ocurríaen los casos anteriores habría que realizar análisis complementarios para estudiar por qué ocurreesto, ya que a priori no hay ninguna causa que justifique que en este tipo de accidentes se desestimeo se desconozca el valor de estas variables con menos frecuencia que en el resto.

En principio no se observan otras diferencias significativas entre los porcentajes de los distintostipos de accidentes en los nodos, lo que lleva a pensar que el tipo de infracción cometida no afectaal tipo de accidente que haya ocurrido. Para los nodos de conductores inocentes esto tiene sentidoya que habrían tenido un papel pasivo en la ocurrencia del accidente (cada accidente estudiadoaquí implica dos conductores, presumiblemente uno culpable y el otro inocente).

Aunque se pueda pensar que el tipo de infracción sí que influye en el tipo de accidente, en esteanálisis no estamos teniendo en cuenta los distintos tipos de infracción de conductor, solo si secomete la infracción o no. Por ejemplo, la infracción de conductor de no respetar la distancia deseguridad podría ser con más probabilidad la causa de accidentes de alcance y la infracción de norespetar las señales de tráfico podría causar con más probabilidad accidentes frontales y laterales,pero en este estudio no se tienen en cuenta individualmente estas infracciones. Habría que realizaranálisis complementarios para estudiar su relación.

Oscar Arturo Garrido Agenjo 63

Page 64: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

CAPÍTULO 4. RESULTADOS DE LA APLICACIÓN

4.3.4. Comparación del mapa SOM con la variable Tipo de Vía

Figura 4.18: Mapa con porcentajes para tipo de vía y Mapa SOM

Por último se van a comparar el mapa SOM con el mapa de porcentajes para la variable tipo devía. Los tipos de vía estudiados son: Autopista, autovía y vía rápida, vía convencional y otros tiposde vía (incluye camino vecinal, vía de servicio, ramal de enlace y otros).

Como en el caso anterior, con la variable sobre el tipo de accidente, no se observan diferencias entrelos porcentajes lo suficientemente grandes como para determinar que las infracciones cometidastienen alguna relación con el tipo de vía en el que se produce el accidente.

El único nodo con diferencias significativas es el mismo en el que se observaba disparidad enlos porcentajes de los casos anteriores, el nodo con las variables “infadm” y “defecto” igual a1 y todas las demás igual a 0, aunque esta vez las diferencias observadas entre los porcentajesno se mantienen en su nodo análogo con las mismas variables excepto “infcond” igual 2 (sí hayinfracción de conductor).

4.4. Comparación entre K-means y SOM

En este apartado se va a realizar la comparación de resultados obtenidos a partir de la aplicaciónde las metodologías K-means y SOM, centrándonos en los aspectos más relevantes de las mismas.

En primer lugar, en ambos casos la clusterización se ha centrado en torno a la variable de infracciónde conductor, en K-means era la variable que marcaba la diferencia entre los clusters y en SOM era

64 Escuela Técnica Superior de Ingenieros Industriales (UPM)

Page 65: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

Aplicación de técnicas cluster al análisis de responsabilidad de los conductores en accidentes de tráfico

la variable que dividía el mapa. También coinciden en la importancia que dan al resto de variablesen la frecuencia y valor con los que aparecen en los clusters y en el mapa.

Las coordenadas de los centroides de los clusters más poblados obtenidos con K-means coincidencon los vectores de pesos de los nodos más poblados obtenidos con SOM. Así el cluster másgrande, el que tenía todas las variables igual a 0, coincide con el nodo más grande que tambiéntiene todas las variables igual a 0. Esto ocurre tambien para los clusters con “infcond”, “infveloc”ó “drogas” y para los de “infadm” y “defecto”, todos estos clusters tienen nodos representativos enel mapa SOM también. La diferencia fundamental entre los dos métodos es que en el mapa SOMademás aparecen más nodos con combinación de más variables que, aunque contengan menornúmero de datos asignados, también contribuyen al análisis.

En definitiva los resultados obtenidos con ambos algoritmos guardan muchas semejanzas, lo cualno es de extrañar ya que SOM y K-means funcionan de forma similar e incluso se puede considerara SOM como un caso particular de K-means en el que cada cluster es un nodo del mapa y el númerode clusters viene determinado por el tamaño del mapa. Hay que tener en cuenta que los algoritmosde SOM y K-means serán totalmente idénticos cuando el radio de vecindad de la función de SOMsea igual a cero.

A la hora de elegir entre uno de los dos métodos para el análisis habrá que tener en cuenta que engeneral, SOM genera resultados menos “precisos” que K-means, en el sentido en que los resultadosestán más suavizados debido a la actualización de nodos vecinos(Martinetz and Schulten, 1994 ),pero también es más robusto frente a óptimos locales. También proporciona más flexibilidad en laetapa de seleccionar los parámetros iniciales (elegir dimensiones del mapa en SOM frente a elegirnúmero de clusters en K-means).

Oscar Arturo Garrido Agenjo 65

Page 66: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

CAPÍTULO 4. RESULTADOS DE LA APLICACIÓN

66 Escuela Técnica Superior de Ingenieros Industriales (UPM)

Page 67: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

Aplicación de técnicas cluster al análisis de responsabilidad de los conductores en accidentes de tráfico

Capítulo 5

CONCLUSIONES Y LINEAS FUTURAS

5.1. Conclusiones generales

A partir de datos sobre parejas de conductores implicados en accidentes de tráfico se ha analizadopara este trabajo fin de grado la importancia, a la hora de determinar el conductor responsable delaccidente, de algunas de las variables asociadas. Para realizar este estudio se han utilizado dostécnicas de análisis cluster, K-means y SOM, pudiéndose considerar esta última como un casoparticular de K-means que obtiene resultados más suavizados.

Las conclusiones obtenidas con los resultados de ambas técnicas han sido muy similares. En gene-ral, se ha concluido que la variable con más importancia y que más contribuye a agrupar los datoses la de infracción del conductor. Esta es la variable que generalmente han usado los investigado-res para determinar la responsabilidad en estudios anteriores. Este trabajo serviría entonces parareafirmar esta teoría mediante el uso de unas técnicas más novedosas.

No obstante, con este trabajo también se comprueba la importancia de otras variables a la hora dedeterminar la responsabilidad del accidente y que hasta ahora no todos los investigadores tenían encuenta, como por ejemplo la variable infracción de velocidad o la condición psicofísica del con-ductor. Esta información podría ser útil para ayudar a clarificar casos dudosos e indudablemente esimportante porque puede aportar información adicional acerca de la asignación de responsabilidadde conductores implicados en accidentes de tráfico entre 2 vehículos, por lo tanto, es importanteno obviarla.

También se han identificado variables que presentan muy poca o nula relevancia, como la variable

Oscar Arturo Garrido Agenjo 67

Page 68: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

CAPÍTULO 5. CONCLUSIONES Y LINEAS FUTURAS

de estado del vehículo ó defecto físico del conductor, que aparecen con muy poca frecuencia y noayudan en la clasificación de los conductores. Se puede desestimar el uso de este tipo de variablesen futuros análisis.

Por tanto, se ha demostrado la importancia de la evaluación exhaustiva de las variables que posi-blemente intervienen sobre la responsabilidad de un conductor en un accidente de tráfico, dado queesto afecta en la estimación de la exposición relativa y, por ello, en el cálculo del nivel de riesgo dediferentes colectivos de conductores.

5.2. Futuras lineas de investigación

Las conclusiones obtenidas con este trabajo sobre la importancia de las variables, pueden ser útilesen la parte de asignación de la responsabilidad en accidentes de tráfico, que es totalmente necesariacuando se aplica el método de la exposición cuasi inducida. Este trabajo también puede servir debase para el estudio de otras variables distintas a las utilizadas y determinar su relevancia en lacausa de accidentes de tráfico.

Los mapas SOM obtenidos también se pueden aplicar a diferentes colectivos de conductores paraestudiar posibles relaciones entre esos conductores y el tipo de infracciones cometidas, como ya seha hecho en el apartado 4.3 con las variables de género del conductor, edad del conductor, tipo deaccidente y tipo de vía.

Una posible continuación de este trabajo seria la realización de análisis utilizando otras técnicas declustering que no sean tan similares entre ellas como las dos que se han usado aquí. Al principiode este trabajo ha sido necesario transformar las variables categóricas en variables numéricas parapoder aplicar las técnicas de clustering estudiadas. Esta transformación puede haber producidoun sesgo en los resultados obtenidos, por lo que sería recomendable que en el nuevo estudio seutilizaran técnicas de análisis cluster, que puedan trabajar con variables categóricas, como porejemplo K-modes (extensión de K-means que permite usar variables categóricas) y comprobarcomo difieren los resultados a los obtenidos en este trabajo.

Además se podría pensar en la aplicación de otras técnicas incluidas dentro de la minería de datos,como la metodología CART o Random Forest.

68 Escuela Técnica Superior de Ingenieros Industriales (UPM)

Page 69: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

Aplicación de técnicas cluster al análisis de responsabilidad de los conductores en accidentes de tráfico

Capítulo 6

IMPACTO SOCIAL Y AMBIENTAL

La seguridad vial es un tema que afecta a todas las personas, todo el mundo usa las vías públicasya sea como peatón, conductor o viajero. Los accidentes de tráfico afectan negativamente a lasociedad y la economía y son una de las mayores preocupaciones en las sociedades modernas. Enlos peores casos tienen efectos devastadores en la vida y la salud de las personas hasta el punto queconstituyen una de las principales causas de mortalidad actuales, especialmente en las personasjóvenes de entre 15 y 39 años, por lo que no hay dudas sobre la gravedad social de este fenómeno.

Todas las personas que mueren, se lesionan o quedan discapacitadas por un accidente de tráficotienen una red de personas allegadas, como familiares y amigos, que resultan profundamente afec-tadas. En el mundo, millones de personas se enfrentan a la muerte o la discapacidad de familiaresdebido a lesiones causadas por el tráfico.

Los accidentes de tráfico tienen también un fuerte impacto económico en forma de costes de aten-ción sanitaria y rehabilitación, perdidas en servicios domésticos y en ingresos para los supervivien-tes, los cuidadores y las familias, destrucción de bienes materiales e incluso las pérdidas del poderde producción de las víctimas y accidentados.

Por ello, cada vez hay una mayor preocupación por la seguridad vial y sus consecuencias. Elanálisis de los datos sobre accidentes de tráfico es de suma importancia en este aspecto. Este tipode análisis ayudan a identificar colectivos y factores de riesgo que posteriormente se utilizarán enla determinación de las medidas de seguridad más efectivas para la prevención de accidentes y parala concienciación de la población.

Por esto, resulta de gran interés para la sociedad el estudio de nuevas técnicas de análisis, que nospermitan obtener los mejores resultados posibles y ayuden a determinar elementos de riesgo de

Oscar Arturo Garrido Agenjo 69

Page 70: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

CAPÍTULO 6. IMPACTO SOCIAL Y AMBIENTAL

forma más rigurosa y también poder detectar otros que hasta ahora hayan permanecido ocultos.

Además todo lo relacionado con el sector del automóvil esta especialmente ligado al medio am-biente. Es innegable que el tráfico de vehículos también genera un impacto ambiental de granimportancia. En el caso del tráfico terrestre, y en concreto del vehículo automóvil, las fuentes deenergía que necesita para desplazarse son los carburantes, estos genera una serie de gases conta-minantes perjudiciales para la salud y el medio ambiente. Pero no solo eso, los vehículos tambiéngeneran contaminación acústica. Por todo ello, no debemos desdeñar nada la capacidad de conta-minación que tienen los vehículos a motor, mucho más si tenemos en cuenta que contamos con unparque de vehículos tan inmenso.

70 Escuela Técnica Superior de Ingenieros Industriales (UPM)

Page 71: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

Aplicación de técnicas cluster al análisis de responsabilidad de los conductores en accidentes de tráfico

Capítulo 7

PLANIFICACIÓN TEMPORAL

En este apartado se incluyen la planificación y la dimension temporal del trabajo. Para ello se hanutilizado dos herramientas: la Estructura de Descomposición del Proyecto (que consiste en unadescomposición de todos los trabajos que va a ser necesario realizar) y el diagrama de Gantt (querepresenta la duración en el tiempo de cada una de las actividades realizables en que se divide elproyecto).

El proyecto comenzó el 13 de Enero de 2017 con una reunión inicial con los tutores para determinarlos objetivos y el alcance del trabajo y concluyó el 17 de Julio de 2017 con la la redacción completade la memoria escrita del proyecto.

En las Figuras 7.1 y 7.2 se incluyen respectivamente la EDP y el diagrama de Gantt de este TrabajoFin de Grado.

Oscar Arturo Garrido Agenjo 71

Page 72: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

CAPÍTULO 7. PLANIFICACIÓN TEMPORAL

Figura 7.1: Estructura de descomposición del proyecto

72 Escuela Técnica Superior de Ingenieros Industriales (UPM)

Page 73: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

Aplicación de técnicas cluster al análisis de responsabilidad de los conductores en accidentes de tráfico

Figura 7.2: Diagrama de Gantt

Oscar Arturo Garrido Agenjo 73

Page 74: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

CAPÍTULO 7. PLANIFICACIÓN TEMPORAL

74 Escuela Técnica Superior de Ingenieros Industriales (UPM)

Page 75: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

Aplicación de técnicas cluster al análisis de responsabilidad de los conductores en accidentes de tráfico

Capítulo 8

PRESUPUESTO

8.1. Presupuesto

Todos los trabajos, independientemente de su tipología o naturaleza, utilizan una serie de recursospara su consecución y por lo tanto, requieren de un cierto presupuesto que evalué económicamentelos recursos utilizados, en forma de material u horas de trabajo empleadas.

Para calcular el coste de personal se ha estimado que el sueldo medio de un ingeniero júnior rondalos 20 e/hora y el de un ingeniero senior ronda los 30 e/hora, el total teniendo en cuenta las horasempleadas será:

Tabla 8.1: Costes de personal

Oscar Arturo Garrido Agenjo 75

Page 76: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

CAPÍTULO 8. PRESUPUESTO

Los recursos materiales que se han utilizado son un ordenador de mesa y el subsecuente mobiliarioasociado, escritorio y silla. La vida útil del mobiliario son 10 años y la del ordenador de mesa 5años. Este trabajo ha tenido una duración de 6 meses por lo que los costes de amortización serán:

Tabla 8.2: Costes de amortización

Para la realización de este trabajo se ha requerido la adquisición de software, gasto que deberáverse reflejado en el presupuesto. Los programas utilizados han sido Microsoft Office, que suponeun coste de 7 e/mes y R que es un software de libre distribución por lo que no supone ningúncoste.

Hay que tener en cuenta también los costes indirectos derivados del consumo de electricidad,material de oficina, mantenimiento y otros servicios. Se estima que estos gastos representan un15 % del coste total del proyecto.

Al coste total del proyecto se le debe imputar un IVA del 21 % por lo que la estimación final delcoste del trabajo fin de grado es de 15536,88 e.

Tabla 8.3: Presupuesto total

76 Escuela Técnica Superior de Ingenieros Industriales (UPM)

Page 77: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

Aplicación de técnicas cluster al análisis de responsabilidad de los conductores en accidentes de tráfico

ABREVIATURAS, UNIDADES YACRÓNIMOS

BBDD: Base de datos

CART:Classification And Regression Trees

DGT: Dirección General de Tráfico

enfsubita: Enfermedad súbita

infadm: Infracción administrativa

infcond: Infracción de conductor

infvel: Infracción de velocidad

INSIA: Instituto Universitario de Investigación del Automóvil

e: Euro

km: Kilómetro

SOM: Self-organizing map

Oscar Arturo Garrido Agenjo 77

Page 78: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

CAPÍTULO 8. PRESUPUESTO

78 Escuela Técnica Superior de Ingenieros Industriales (UPM)

Page 79: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

Aplicación de técnicas cluster al análisis de responsabilidad de los conductores en accidentes de tráfico

REFERENCIAS BIBLIOGRÁFICAS

Aldenderfer , M. and Blashfield , R. ( 1984 ). Cluster analysis . Newbury Park, CA : Sage Publica-tions .

Blashfield R. The classification of psychopathology: Neo-Kraepelinian and quantitative approa-ches. 1. New York: Springer; 1984. p. 328.

Carr, B.R. (1969). A statistical analysis of rural ontario traffic accidents using induced exposuredata. 1(4), 343-357.

DeYoung, D.J., Peck, R.C., Helander, C.J. (1997). Estimating the exposure and fatal crash rates ofsuspended/revoked and unlicensed drivers in California. 29(1), 17-23.

Dilts D, Khamalah J, Plotkin A. Using cluster analysis for medical resource decision making. MedDecis Making. 1995;15(4):333–47

Forgy , E. ( 1965 ). Cluster analysis of multivariate data: efficiency vs. interpretability of classifi-cations . Biometrics , 21 : 768 – 780 .

Gómez, A.; Aparicio, F. (2010) Quasi-induced exposure: The choice of exposure metrics. AccidentAnalysis and Prevention, Vol. 42, pp. 582-588.

Kohonen , T. ( 1990 ). The self - organizing map . Proceedings of the IEEE , 78 ( 9 ): 1464 – 1480

Martinetz , T. and Schulten , K. ( 1994 ). Topology representing networks . Neural Net- works , 7( 3 ): 507 – 522 .

McLachlan GJ. Cluster analysis and related techniques in medical research. Stat Methods Med

Oscar Arturo Garrido Agenjo 79

Page 80: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

CAPÍTULO 8. PRESUPUESTO

Res. 1992;1(1):27–48

Haykin , S. ( 1999 ). Neural networks: A comprehensive foundation, 2 nd edition . Upper SaddleRiver, NJ : Prentice Hall .

Ron Wehrens and Lutgarde M. C. Buydens (2007) Self- and Super-organizing Maps in R: Thekohonen Package

Rui Xu Donald C. Wunsch, II (2009) Clustering

Rumelhart , D. and Zipser , D. ( 1985 ). Feature discovery by competitive learning. CognitiveScience , 9 : 75 – 112 .

Selim , S. and Ismail , M. ( 1984 ). K - means - type algorithms: A generalized convergence theoremand characterization of local optimality . IEEE Transactions on Pattern Analysis and MachineIntelligence , 6 ( 1 ): 81 – 87 .

Stamatiadis, N., Deacon, J.A. (1997). Quasi-induced exposure: Methodology and insight. 29(1),37-52.

80 Escuela Técnica Superior de Ingenieros Industriales (UPM)

Page 81: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

Aplicación de técnicas cluster al análisis de responsabilidad de los conductores en accidentes de tráfico

Índice de figuras

2.1. Algoritmo de K-means. (a) Conjunto original (b) Inicialización aleatoria de cen-troides (c)-(f) Ejemplo de dos iteraciones de k-means. . . . . . . . . . . . . . . . . 21

2.2. Ejemplo método del codo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

4.1. Método del codo hasta K=15 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

4.2. Variabilidad explicada según K . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

4.3. Mapas según no de unidades por nodo . . . . . . . . . . . . . . . . . . . . . . . . 46

4.4. Mapa SOM con vectores de pesos . . . . . . . . . . . . . . . . . . . . . . . . . . 47

4.5. Mapa con recuento de los nodos . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

4.6. Distribución de datos por nodo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

4.7. Mapa de calor para “infcond” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

4.8. Mapa de calor para “infveloc” . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

4.9. Mapa de calor para “infadm” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

4.10. Mapa de calor para “defecto” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

Oscar Arturo Garrido Agenjo 81

Page 82: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

ÍNDICE DE FIGURAS

4.11. Mapa de calor para “drogas”, “sueño” y “enfsubita” . . . . . . . . . . . . . . . . . 55

4.12. Mapa de calor para “estado” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

4.13. Gráfico de calidad del mapa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

4.14. Mapa SOM con zonas de culpabilidad/inocencia . . . . . . . . . . . . . . . . . . . 58

4.15. Mapa con porcentajes para género y Mapa SOM . . . . . . . . . . . . . . . . . . . 60

4.16. Mapa con porcentajes para edad y Mapa SOM . . . . . . . . . . . . . . . . . . . . 62

4.17. Mapa con porcentajes para tipo de accidente y Mapa SOM . . . . . . . . . . . . . 63

4.18. Mapa con porcentajes para tipo de vía y Mapa SOM . . . . . . . . . . . . . . . . . 64

7.1. Estructura de descomposición del proyecto . . . . . . . . . . . . . . . . . . . . . 72

7.2. Diagrama de Gantt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

82 Escuela Técnica Superior de Ingenieros Industriales (UPM)

Page 83: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

Aplicación de técnicas cluster al análisis de responsabilidad de los conductores en accidentes de tráfico

Índice de tablas

3.1. Tabla de variables utilizadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

4.1. Coordenadas de los centros para k=2 . . . . . . . . . . . . . . . . . . . . . . . . . 36

4.2. Valores obtenidos en el clustering para k=2 . . . . . . . . . . . . . . . . . . . . . 36

4.3. Coordenadas de los centros para k=3 . . . . . . . . . . . . . . . . . . . . . . . . . 37

4.4. Valores obtenidos en el clustering para k=3 . . . . . . . . . . . . . . . . . . . . . 37

4.5. Coordenadas de los centros para k=4 . . . . . . . . . . . . . . . . . . . . . . . . . 38

4.6. Valores obtenidos en el clustering para k=4 . . . . . . . . . . . . . . . . . . . . . 38

4.7. Coordenadas de los centros para k=5 . . . . . . . . . . . . . . . . . . . . . . . . . 39

4.8. Valores obtenidos en el clustering para k=5 . . . . . . . . . . . . . . . . . . . . . 39

4.9. Coordenadas de los centros para k=6 . . . . . . . . . . . . . . . . . . . . . . . . . 40

4.10. Valores obtenidos en el clustering para k=6 . . . . . . . . . . . . . . . . . . . . . 40

4.11. Coordenadas de los centros para k=7 . . . . . . . . . . . . . . . . . . . . . . . . . 41

Oscar Arturo Garrido Agenjo 83

Page 84: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

ÍNDICE DE TABLAS

4.12. Valores obtenidos en el clustering para k=7 . . . . . . . . . . . . . . . . . . . . . 41

4.13. Coordenadas de los centros para k=8 . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.14. Valores obtenidos en el clustering para k=8 . . . . . . . . . . . . . . . . . . . . . 42

8.1. Costes de personal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

8.2. Costes de amortización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

8.3. Presupuesto total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

8.4. Vectores de pesos de los nodos del mapa SOM (nodos más importantes resaltados) 88

84 Escuela Técnica Superior de Ingenieros Industriales (UPM)

Page 85: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

Aplicación de técnicas cluster al análisis de responsabilidad de los conductores en accidentes de tráfico

ANEXOS

ANEXO 1: Sentencias de R

K-means

# I n t r o d u c i r d a t o s> d a t o s <− read . csv ( "C : / Users / TFG / Base de d a t o s / d a t o s t e r n a r i o c s v . csv " , sep =" ; " )> d a t o s . v a r i a b l e s <− d a t o s> d a t o s . v a r i a b l e s $ co d i go <− NULL> d a t o s . v a r i a b l e s $ c o d i g t o t <− NULL

# De terminar K>k . max <− 15> wss <− sapply ( 1 : k . max ,

f u n c t i o n ( k ) { kmeans ( d a t o s . v a r i a b l e s , k , n s t a r t =30 ) $ t o t . w h i t i n s s } )> p l o t ( 1 : k . max , wss ,

x l a b = ‘ ‘ Number o f c l u s t e r s K’ ’y l a b = ‘ ‘ T o t a l w i t h i n−c l u s t e r s sum of s q u a r e s ’ ’ )

> b e t s s <− sapply ( 1 : k . max ,f u n c t i o n ( k ) { kmeans ( d a t o s . v a r i a b l e s , k , n s t a r t =30 ) $ b e t w e e n s s } )

> t o s s <− sapply ( 1 : k . max , f u n c t i o n ( k ) { kmeans ( d a t o s . v a r i a b l e s , k , n s t a r t =30 ) $ t o t s s } )> v a r i a b <− b e t s s / t o s s> b a r p l o t ( v a r i a b , names . a r g =1: k . max ,

x l a b = ‘ ‘ Numero de c l u s t e r s K’ ’ ,y l a b = ‘ ‘ Betweenss / T o t s s ’ ’ )

# kmeans ( x , c e n t e r s , i t e r . max = 10 , n s t a r t = 1 ,# a l g o r i t h m = c ( " Har t igan−Wong " , " L loyd " , " Forgy " , " MacQueen " ) , t r a c e=FALSE )

# O b j e t o para almacenar r e s u l t a d o s

> r e s u l t a d o s <− s e t C l a s s ( " r e s u l t a d o s " ,s l o t s = c ( c e n t e r s =" m a t r i x " , t o t s s =" numer ic " , w i t h i n s s =" numer ic " ,t o t . w i t h i n s s =" numer ic " , b e t w e e n s s =" numer ic " , s i z e =" i n t e g e r " ) )

# kmeans de 2 a 8 c l u s t e r s

Oscar Arturo Garrido Agenjo 85

Page 86: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

ÍNDICE DE TABLAS

> r e s u l t a d o s 2 <− kmeans ( d a t o s . v a r i a b l e s , 2 , n s t a r t =30)> r2 <− r e s u l t a d o s ( c e n t e r s = r e s u l t a d o s 2 $ c e n t e r s , t o t s s = r e s u l t a d o s 2 $ t o t s s ,

w i t h i n s s = r e s u l t a d o s 2 $ w i t h i n s s , t o t . w i t h i n s s = r e s u l t a d o s 2 $ t o t . w i t h i n s s ,b e t w e e n s s = r e s u l t a d o s 2 $ be tweenss , s i z e = r e s u l t a d o s 2 $ s i z e )

# C l u s t e r a s i g na d o segun c o d i g o t> t a b l a r e s u l t a d o s 2 <− t a b l e ( d a t o s $ c o d i g t o t , r e s u l t a d o s 2 $ c l u s t e r )> w r i t e . csv ( t a b l a r e s u l t a d o s , ‘ ‘C : / Users / TFG / r2 . csv ’ ’ )

> r e s u l t a d o s 3 <− kmeans ( d a t o s . v a r i a b l e s , 3 , n s t a r t =30)> r3 <− r e s u l t a d o s ( c e n t e r s = r e s u l t a d o s 3 $ c e n t e r s , t o t s s = r e s u l t a d o s 3 $ t o t s s ,

w i t h i n s s = r e s u l t a d o s 3 $ w i t h i n s s , t o t . w i t h i n s s = r e s u l t a d o s 3 $ t o t . w i t h i n s s ,b e t w e e n s s = r e s u l t a d o s 3 $ be tweenss , s i z e = r e s u l t a d o s 3 $ s i z e )

> t a b l a r e s u l t a d o s 3 <− t a b l e ( d a t o s $ c o d i g t o t , r e s u l t a d o s 3 $ c l u s t e r )> w r i t e . csv ( t a b l a r e s u l t a d o s , ‘ ‘C : / Users / TFG / r3 . csv ’ ’ )

> r e s u l t a d o s 4 <− kmeans ( d a t o s . v a r i a b l e s , 4 , n s t a r t =30)> r4 <− r e s u l t a d o s ( c e n t e r s = r e s u l t a d o s 4 $ c e n t e r s , t o t s s = r e s u l t a d o s 4 $ t o t s s ,

w i t h i n s s = r e s u l t a d o s 4 $ w i t h i n s s , t o t . w i t h i n s s = r e s u l t a d o s 4 $ t o t . w i t h i n s s ,b e t w e e n s s = r e s u l t a d o s 4 $ be tweenss , s i z e = r e s u l t a d o s 4 $ s i z e )

> t a b l a r e s u l t a d o s 4 <− t a b l e ( d a t o s $ c o d i g t o t , r e s u l t a d o s 4 $ c l u s t e r )> w r i t e . csv ( t a b l a r e s u l t a d o s , ‘ ‘C : / Users / TFG / r4 . csv ’ ’ )

> r e s u l t a d o s 5 <− kmeans ( d a t o s . v a r i a b l e s , 5 , n s t a r t =30)> r5 <− r e s u l t a d o s ( c e n t e r s = r e s u l t a d o s 5 $ c e n t e r s , t o t s s = r e s u l t a d o s 5 $ t o t s s ,

w i t h i n s s = r e s u l t a d o s 5 $ w i t h i n s s , t o t . w i t h i n s s = r e s u l t a d o s 5 $ t o t . w i t h i n s s ,b e t w e e n s s = r e s u l t a d o s 5 $ be tweenss , s i z e = r e s u l t a d o s 5 $ s i z e )

> t a b l a r e s u l t a d o s 5 <− t a b l e ( d a t o s $ c o d i g t o t , r e s u l t a d o s 5 $ c l u s t e r )> w r i t e . csv ( t a b l a r e s u l t a d o s , ‘ ‘C : / Users / TFG / r5 . csv ’ ’ )

> r e s u l t a d o s 6 <− kmeans ( d a t o s . v a r i a b l e s , 6 , n s t a r t =30)> r6 <− r e s u l t a d o s ( c e n t e r s = r e s u l t a d o s 6 $ c e n t e r s , t o t s s = r e s u l t a d o s 6 $ t o t s s ,

w i t h i n s s = r e s u l t a d o s 6 $ w i t h i n s s , t o t . w i t h i n s s = r e s u l t a d o s 6 $ t o t . w i t h i n s s ,b e t w e e n s s = r e s u l t a d o s 6 $ be tweenss , s i z e = r e s u l t a d o s 6 $ s i z e )

> t a b l a r e s u l t a d o s 6 <− t a b l e ( d a t o s $ c o d i g t o t , r e s u l t a d o s 6 $ c l u s t e r )> w r i t e . csv ( t a b l a r e s u l t a d o s , ‘ ‘C : / Users / TFG / r6 . csv ’ ’ )

> r e s u l t a d o s 7 <− kmeans ( d a t o s . v a r i a b l e s , 7 , n s t a r t =30)> r7 <− r e s u l t a d o s ( c e n t e r s = r e s u l t a d o s 7 $ c e n t e r s , t o t s s = r e s u l t a d o s 7 $ t o t s s ,

w i t h i n s s = r e s u l t a d o s 7 $ w i t h i n s s , t o t . w i t h i n s s = r e s u l t a d o s 7 $ t o t . w i t h i n s s ,b e t w e e n s s = r e s u l t a d o s 7 $ be tweenss , s i z e = r e s u l t a d o s 7 $ s i z e )

> t a b l a r e s u l t a d o s 7 <− t a b l e ( d a t o s $ c o d i g t o t , r e s u l t a d o s 7 $ c l u s t e r )> w r i t e . csv ( t a b l a r e s u l t a d o s , ‘ ‘C : / Users / TFG / r7 . csv ’ ’ )

> r e s u l t a d o s 8 <− kmeans ( d a t o s . v a r i a b l e s , 8 , n s t a r t =30)> r8 <− r e s u l t a d o s ( c e n t e r s = r e s u l t a d o s 8 $ c e n t e r s , t o t s s = r e s u l t a d o s 8 $ t o t s s ,

w i t h i n s s = r e s u l t a d o s 8 $ w i t h i n s s , t o t . w i t h i n s s = r e s u l t a d o s 8 $ t o t . w i t h i n s s ,b e t w e e n s s = r e s u l t a d o s 8 $ be tweenss , s i z e = r e s u l t a d o s 8 $ s i z e )

> t a b l a r e s u l t a d o s 8 <− t a b l e ( d a t o s $ c o d i g t o t , r e s u l t a d o s 8 $ c l u s t e r )> w r i t e . csv ( t a b l a r e s u l t a d o s , ‘ ‘C : / Users / TFG / r8 . csv ’ ’ )

86 Escuela Técnica Superior de Ingenieros Industriales (UPM)

Page 87: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

Aplicación de técnicas cluster al análisis de responsabilidad de los conductores en accidentes de tráfico

SOM

> d a t o s . som <− as . matrix ( d a t o s . v a r i a b l e s )>som1 <− som ( d a t o s . som , gr id = somgr id ( 5 , 5 , ‘ ‘ h e x a g o n a l ’ ’ ) , r l e n =300)

# G r a f i c o s p r i n c i p a l e s> par ( mfrow = c ( 1 , 4 ) )> p l o t ( som1 , main = ‘ ‘SOM’ ’ , p a l e t t e . name = rainbow , shape = ‘ ‘ s t r a i g h t ’ ’ )> p l o t ( som1 , t y p e = ‘ ‘ c o u n t s ’ ’ )> p l o t ( som1 , t y p e = ‘ ‘ q u a l i t y ’ ’ )> p l o t ( som1 , t y p e = ‘ ‘ d i s t . n e i g h b o u r s ’ ’ )

# Heatmaps para cada v a r i a b l e# P a l e t a de c o l o r e s para l o s heatmaps> coolBlueHotRed <− f u n c t i o n ( n , a l p h a = 1) { rainbow ( n , end=4 / 6 , a l p h a = a l p h a ) [ n : 1 ] }> par ( mfrow = c ( 4 , 4 ) )> p l o t ( som1 , t y p e =" p r o p e r t y " , p r o p e r t y = ge tCodes ( som1 , 1 ) [ , 8 ] ,

main = colnames ( ge tCodes ( som1 , 1 ) ) [ 8 ] , p a l e t t e . name= coolBlueHotRed )> p l o t ( som1 , t y p e =" p r o p e r t y " , p r o p e r t y = ge tCodes ( som1 , 1 ) [ , 7 ] ,

main = colnames ( ge tCodes ( som1 , 1 ) ) [ 7 ] , p a l e t t e . name= coolBlueHotRed )> p l o t ( som1 , t y p e =" p r o p e r t y " , p r o p e r t y = ge tCodes ( som1 , 1 ) [ , 6 ] ,

main = colnames ( ge tCodes ( som1 , 1 ) ) [ 6 ] , p a l e t t e . name= coolBlueHotRed )> p l o t ( som1 , t y p e =" p r o p e r t y " , p r o p e r t y = ge tCodes ( som1 , 1 ) [ , 5 ] ,

main = colnames ( ge tCodes ( som1 , 1 ) ) [ 5 ] , p a l e t t e . name= coolBlueHotRed )> p l o t ( som1 , t y p e =" p r o p e r t y " , p r o p e r t y = ge tCodes ( som1 , 1 ) [ , 4 ] ,

main = colnames ( ge tCodes ( som1 , 1 ) ) [ 4 ] , p a l e t t e . name= coolBlueHotRed )> p l o t ( som1 , t y p e =" p r o p e r t y " , p r o p e r t y = ge tCodes ( som1 , 1 ) [ , 3 ] ,

main = colnames ( ge tCodes ( som1 , 1 ) ) [ 3 ] , p a l e t t e . name= coolBlueHotRed )> p l o t ( som1 , t y p e =" p r o p e r t y " , p r o p e r t y = ge tCodes ( som1 , 1 ) [ , 2 ] ,

main = colnames ( ge tCodes ( som1 , 1 ) ) [ 2 ] , p a l e t t e . name= coolBlueHotRed )> p l o t ( som1 , t y p e =" p r o p e r t y " , p r o p e r t y = ge tCodes ( som1 , 1 ) [ , 1 ] ,

main = colnames ( ge tCodes ( som1 , 1 ) ) [ 1 ] , p a l e t t e . name= coolBlueHotRed )

> tab l a som5x5 <− t a b l e ( d a t o s $ c o d i g t o t , som1$ u n i t . c l a s s i f ) # Nodo a s i gn a d o segun c o d i g t o t> w r i t e . csv ( t ab lasom5x5 , "C : / Users / TFG /SOM/ t ab l a som5x5 . csv " )

Oscar Arturo Garrido Agenjo 87

Page 88: APLICACIÓN DE TÉCNICAS CLUSTER AL ANÁLISIS DE

ÍNDICE DE TABLAS

ANEXO 2: Tabla de vectores de pesos del SOM

Tabla 8.4: Vectores de pesos de los nodos del mapa SOM (nodos más importantes resaltados)

88 Escuela Técnica Superior de Ingenieros Industriales (UPM)