mineria de datos y data warehouse
TRANSCRIPT
1
DATA MINING
Y
DATA WAREHOUSING
Abril-2008
2
Parte inicial
DATA MINING
Mladen W. Nadinic
3
1. Introducción a la Minería de Datos (DM)
2. El proceso de KDD
3. Técnicas de Minería de Datos
4. Evaluación de modelos
Minería de Datos (Data Mining)
4
Berry M.J.A.; Linoff, G.S. “Mastering Data Mining”, Wiley, 2000.
Berthold, M.; Hand, D.J. (ed). “Intelligent Data Analysis. An Introduction” ( 2nd ed.), Springer, 2002.
Dunham, M.H. “Data Mining. Introductory and Advanced Topics”, Prentice Hall, 2003.
Dzeroski, S.; Lavrac, N. “Relational Data Mining”, Springer, 2001.
Etzioni, O. “The World- Wide Web. Quagmire or Gold Mine” Communications of the ACM, November 1996, Vol. 39, nº 11, 1996.
Fayyad, U.M.; Piatetskiy-Shapiro, G.; Smith, P.; Ramasasmy, U. “Advances in Knowledge Discovery and Data Mining”, AAAI Press / MIT Press, 1996.
Fayyad, U.M.; Grinstein, G.; Wierse, A., “Information Visualization in Data Mining and Knowledge Discovery”, Morgan Kaufmann, Harcourt Intl, 2001.
Han, J.; Kamber, M. “Data Mining: Concepts and Techniques”, Morgan Kaufmann, 2001.
Hernández, J. et al. “Introducción a la Minería de Datos”, Prentice-Hall, 2004.
Bibliografía
5
1. Introducción a la Minería de Datos (DM)
2. El proceso de KDD
3. Técnicas de Minería de Datos
4. Evaluación de modelos
Minería de Datos (Data Mining)
6
Situación actual: uso extendido de los SGBD
BD son el soporte del Sistema de Información de las organizaciones
BD son diseñadas para dar soporte (eficiente) a las funciones básicas de la organización (ventas, producción, personal...)
SISTEMAS OPERACIONALES (OLTP On Line Transaction Processing)
las organizaciones almacenan grandes volúmenes de datos con información histórica
1970 2000evolución de la tecnología de gestión de datos
- SGBD eficientes
- SGBD robustos
- lenguajes y herramientas de uso de alto nivel
Situación actual de la tecnología de gestión de datos.
1. Introducción a la Minería de datos (DM)
7
Una vez satisfecha la necesidad de tener un soporte informático para los procesos básicos de la organización: sistemas de información para la gestión.
La organizaciones exigen nuevas prestaciones de los sistemas de información: sistemas de información para la toma de decisiones.
1. Introducción a la Minería de datos (DM)
Tecnología de almacenes de datos
8
Almacenes de datos (AD) (data warehouse)
Disponer de Sistemas de Información de apoyo a la
toma de decisiones*
Disponer de bases de datos que permitan extraer conocimiento de la información histórica almacenada en la organización
motivación
análisis de la organización
previsiones de evolución
diseño de estrategias
* DSS: Decision Support Systems
objetivos
1. Introducción a la Minería de datos (DM)
9
Datos Op. 1
Datos Op. 2
Datos Op. 3
metadatos
datos de detalle
datos agregados
datos agregados
AD
gestor de carga
gestor del AD
gestor del AD
gestor de consultas
copias
Herramientas de consultas e informes
Herramientas de OLAP
Herramientas de Data Mining
SAD
área de almacenamiento
intermedio
1. Introducción a la Minería de datos (DM)
Arquitectura de un sistema de Almacén de Datos
10
Herramientas de consultas e informes
Herramientas de OLAP
Herramientas de Data Mining
1. Introducción a la Minería de datos (DM)
DW
- visión relacional de los datos
- ejecución de consultas SQL sobre el esquema relacional
- preparación de los resultados de la consulta: informe
clasificación y agrupación de filas
cálculo de totales por grupos
adición de datos calculados
consultas (informes) muy estáticos
11
Herramientas de consultas e informes
Herramientas de OLAP
Herramientas de Data Mining
1. Introducción a la Minería de datos (DM)
DW
- visión multidimensional de los datos
- ejecución de consultas sobre el esquema multidimensional
- navegación sobre las consultas: DRILL DOWN, ROLL UP
- facilidades para (dinámicamente):
aplicar filtros a los datos seleccionados
calcular funciones estadísticas (totales, porcentajes, ...)
resumir (agregar) o refinar (disgregar) los datos seleccionados
algunas funciones adicionales (rango, ...)
consultas (informes) muy dinámicos
12
Herramientas de consultas e informes
Herramientas de OLAP
Herramientas de Data Mining
1. Introducción a la Minería de datos (DM)
DW
Presentación (mas o menos sofisticada) de los datos almacenados
exploración de los datos
Estas herramientas no son capaces de extraer conocimiento de los datos consultados: patrones, tendencias, pautas, ..., que permitan hacer previsiones y tomar decisiones.
Los datos por sí sólos tienen un valor relativo, lo que de verdad es interesante es el conocimiento que se puede inferir de ellos.
13
Herramientas de consultas e informes
Herramientas de OLAP
Herramientas de Data Mining
1. Introducción a la Minería de datos (DM)
DW
datos conocimiento
Las herramientas de minería de datos permiten extraer conocimiento a partir de los datos almacenados.
DWpatrones, pautas, reglas, ...
14
Herramientas de consultas e informes
Herramientas de OLAP
Herramientas de Data Mining
1. Introducción a la Minería de datos (DM)
DW
En el contexto de un Servicio Público de Salud:
- Porcentaje de enfermos que han sido tratados de gripe este año.
- Número de pacientes de gripe durante este año, por franjas de edad.
- Crecimiento porcentual de casos de gripe en este año respecto al año anterior.
- Número de casos de gripe previsibles para los próximos años.
- Perfiles de pacientes sensibles a la gripe (grupos de riesgo).
- Relación de la gripe con otras enfermedades.
15
Herramientas de consultas e informes
Herramientas de OLAP
Herramientas de Data Mining
1. Introducción a la Minería de datos (DM)
DW
información extensional (datos)
información intensional (conocimiento)
16
Herramientas de consultas e informes
Herramientas de OLAP
Herramientas de Data Mining
1. Introducción a la Minería de datos (DM)
DW
El analista parte de una pregunta o hipótesis, explora los datos y valida o rechaza su hipótesis hasta construir su modelo de los datos.
(proceso deductivo)
El sistema encuentra y sugiere modelos de los datos.
(proceso inductivo)
17
Herramientas de consultas e informes
Herramientas de OLAP
Herramientas de Data Mining
1. Introducción a la Minería de datos (DM)
DW
Proceso inductivo:
Razonamiento hipotético de casos particulares (ejemplos) a casos
generales (reglas)
18
Minería de datos [Witten & Frank 2000]: proceso de extracción de conocimiento válido, útil, comprensible, y desconocido, a partir de datos almacenados.
1. Introducción a la Minería de datos (DM)
válido: el conocimiento obtenido debe ser preciso ("correcto") para nuevos conjuntos de datos (no sólo para el conjunto utilizado en su obtención).
útil: el conocimiento obtenido debe servir a la organización para tomar decisiones que le reporten algún beneficio.
comprensible: el conocimiento obtenido debe ser fácil de interpretar y usar.
novedoso: el conocimiento obtenido debe aportar a la organización, información desconocida hasta ese momento.
19
1. Introducción a la Minería de datos (DM)
Ejemplo1: análisis de riesgo en préstamos bancarios.
Un banco desea disponer de un modelo que le permita predecir qué tipo de clientes podrían no devolver un préstamo solicitado. La entidad dispone de información sobre préstamos anteriores, así como datos personales de los titulares de esos préstamos.
ID D-crédito
(años) C-crédito (euros)
Salario (euros)
Casa propia
Cuentas morosas
... Devuelto-préstamo
101 15 60.000 2.200 sí 2 no 102 2 30.000 3.500 sí 0 sí 103 9 9.000 1.700 sí 1 no 104 15 18.000 1.900 no 0 sí 105 10 24.000 2.100 no 0 no ... ... ... ... ... ... ...
20
1. Introducción a la Minería de datos (DM)
Ejemplo1: análisis de riesgo en préstamos bancarios.
ID D-crédito
(años) C-crédito (euros)
Salario (euros)
Casa propia
Cuentas morosas
... Devuelto-préstamo
101 15 60.000 2.200 sí 2 no 102 2 30.000 3.500 sí 0 sí 103 9 9.000 1.700 sí 1 no 104 15 18.000 1.900 no 0 sí 105 10 24.000 2.100 no 0 no ... ... ... ... ... ... ...
A partir de estos datos, las técnicas de DM podrían generar un modelo de los datos, consistente en un conjunto de reglas, que permitiesen predecir en el futuro, el posible comportamiento de un cliente que solicitase un préstamo.
21
1. Introducción a la Minería de datos (DM)
Ejemplo1: análisis de riesgo en préstamos bancarios.
ID D-crédito
(años) C-crédito (euros)
Salario (euros)
Casa propia
Cuentas morosas
... Devuelto-préstamo
101 15 60.000 2.200 sí 2 no 102 2 30.000 3.500 sí 0 sí 103 9 9.000 1.700 sí 1 no 104 15 18.000 1.900 no 0 sí 105 10 24.000 2.100 no 0 no ... ... ... ... ... ... ...
Para nuestro estudio, existen dos clases de cliente: los que devuelven los préstamos y los que no los devuelven.
Las reglas generadas en el proceso de DM, deben predecir la clase de un cliente (variable objetivo) a partir de sus características (variables predictivas).
22
1. Introducción a la Minería de datos (DM)
Ejemplo1: análisis de riesgo en préstamos bancarios.
ID D-crédito (años)
C-crédito (euros)
Salario (euros)
Casa propia
Cuentas morosas
... Devuelto-préstamo
101 15 60.000 2.200 sí 2 no 102 2 30.000 3.500 sí 0 sí 103 9 9.000 1.700 sí 1 no 104 15 18.000 1.900 no 0 sí 105 10 24.000 2.100 no 0 no ... ... ... ... ... ... ...
Regla 1:
Si cuentas-morosas > 0 entonces devuelve-préstamo = no
Regla 2:
Si cuentas-morosas = 0 Y ( salario>2.500 O D-credito>10)
entonces devuelve-préstamo = sí
...
23
1. Introducción a la Minería de datos (DM)
Ejemplo2: análisis de la cesta de la compra.
Un supermercado desea obtener información sobre los hábitos de compra de sus clientes, con el objetivo de mejorar la ubicación de los productos en el local. La organización dispone de información reciente sobre los productos adquiridos en las compras realizadas por los clientes.
ID Huevos Aceite Pañales Vino Leche Mantequilla Salmón Lechugas ... 1 sí no no sí no sí sí sí 2 no sí no no sí no no sí 3 no no sí no sí no no no 4 no sí sí no sí no no no 5 sí sí no no no sí no sí 6 sí no no sí sí sí sí no 7 no no no no no no no no 8 sí sí sí sí sí sí sí no ...
24
1. Introducción a la Minería de datos (DM)
Ejemplo2: análisis de la cesta de la compra.
ID Huevos Aceite Pañales Vino Leche Mantequilla Salmón Lechugas ... 1 sí no no sí no sí sí sí 2 no sí no no sí no no sí 3 no no sí no sí no no no 4 no sí sí no sí no no no 5 sí sí no no no sí no sí 6 sí no no sí sí sí sí no 7 no no no no no no no no 8 sí sí sí sí sí sí sí no ...
A partir de estos datos, las técnicas de DM podrían generar un modelo de los datos, consistente en un conjunto de reglas de asociación entre los productos que con frecuencia son adquiridos conjuntamente. Este modelo proporcionaría una descripción "mas significativa" de los datos disponibles.
25
1. Introducción a la Minería de datos (DM)
Ejemplo2: análisis de la cesta de la compra.
ID Huevos Aceite Pañales Vino Leche Mantequilla Salmón Lechugas ... 1 sí no no sí no sí sí sí 2 no sí no no sí no no sí 3 no no sí no sí no no no 4 no sí sí no sí no no no 5 sí sí no no no sí no sí 6 sí no no sí sí sí sí no 7 no no no no no no no no 8 sí sí sí sí sí sí sí no ...
Algunas asociaciones que se observan en los datos son:
"El 100% de las veces que se compran pañales también se compra leche"
"El 50% de las veces que se compran huevos también se compra aceite"
"El 33% de las veces que se compran vino y salmón también se compran lechugas"
26
1. Introducción a la Minería de datos (DM)
ID Descripción mes-12 ... ... mes-4 mes-3 mes-2 mes-1 1 televisor 20 52 14 139 74 2 video 11 ... ... 43 32 26 59 3 MP3 50 ... ... 61 14 5 28 4 frigorífico 3 ... ... 21 27 1 49 5 microondas 14 ... ... 27 2 25 12 6 ... ... ... ... ... ... ... ...
Ejemplo3: previsión de ventas.
Una cadena de tiendas de electrodomésticos desea optimizar el funcionamiento de su almacén, manteniendo un stock de cada producto que sea suficiente para poder servir rápidamente los pedidos de sus clientes. La organización dispone de información sobre las ventas de cada producto en cada mes del último año.
27
1. Introducción a la Minería de datos (DM)
ID Descripción mes-12 ... ... mes-4 mes-3 mes-2 mes-1 1 televisor 20 52 14 139 74 2 video 11 ... ... 43 32 26 59 3 MP3 50 ... ... 61 14 5 28 4 frigorífico 3 ... ... 21 27 1 49 5 microondas 14 ... ... 27 2 25 12 6 ... ... ... ... ... ... ... ...
Ejemplo3: previsión de ventas.
A partir de estos datos, las técnicas de DM podrían generar un modelo de los datos, consistente en un conjunto de funciones, que permitiesen predecir el número de unidades, de cada producto, que serán vendidas el próximo mes en función de sus ventas en los meses anteriores.
28
1. Introducción a la Minería de datos (DM)
ID Descripción mes-12 ... ... mes-4 mes-3 mes-2 mes-1 1 televisor 20 52 14 139 74 2 video 11 ... ... 43 32 26 59 3 MP3 50 ... ... 61 14 5 28 4 frigorífico 3 ... ... 21 27 1 49 5 microondas 14 ... ... 27 2 25 12 6 ... ... ... ... ... ... ... ...
Ejemplo3: previsión de ventas.
mes
ventas
producto 5
29
1. Introducción a la Minería de datos (DM)
Ejemplo4: definir grupos diferenciados de empleados.
El departamento de recursos humanos de una gran empresa, desea categorizar a sus empleados en distintos grupos, con el objetivo de establecer una trato personalizado con ellos y definir las políticas sociales de la empresa. La organización dispone en sus bases de datos de información sobre sus empleados.
30
1. Introducción a la Minería de datos (DM)
Ejemplo4: definir grupos diferenciados de empleados.
ID Sueldo Casado Coche Hijos Alq/Prop Sindic. Bajas/Año Antigüedad Sexo1 10000 Sí No 0 Alquiler No 7 15 H2 20000 No Sí 1 Alquiler Sí 3 3 M3 15000 Sí Sí 2 Propietario Sí 5 10 H4 30000 Sí Sí 1 Alquiler No 15 7 M5 10000 Sí Sí 0 Propietario Sí 1 6 H6 40000 No Sí 0 Alquiler Sí 3 16 M7 25000 No No 0 Alquiler Sí 0 8 H8 20000 No Sí 0 Propietario Sí 2 6 M9 20000 Sí Sí 3 Propietario No 7 5 H10 30000 Sí Sí 2 Propietario No 1 20 H11 50000 No No 0 Alquiler No 2 12 M12 8000 Sí Sí 2 Propietario No 3 1 H13 20000 No No 0 Alquiler No 27 5 M14 10000 No Sí 0 Alquiler Sí 0 7 H15 8000 No Sí 0 Alquiler No 3 2 H
31
1. Introducción a la Minería de datos (DM)
Ejemplo4: definir grupos diferenciados de empleados.
ID Sueldo Casado Coche Hijos Alq/Prop Sindic. Bajas/Año Antigüedad Sexo1 10000 Sí No 0 Alquiler No 7 15 H2 20000 No Sí 1 Alquiler Sí 3 3 M3 15000 Sí Sí 2 Prop Sí 5 10 H4 30000 Sí Sí 1 Alquiler No 15 7 M5 10000 Sí Sí 0 Prop Sí 1 6 H6 40000 No Sí 0 Alquiler Sí 3 16 M7 25000 No No 0 Alquiler Sí 0 8 H8 20000 No Sí 0 Prop Sí 2 6 M9 20000 Sí Sí 3 Prop No 7 5 H10 30000 Sí Sí 2 Prop No 1 20 H11 50000 No No 0 Alquiler No 2 12 M12 8000 Sí Sí 2 Prop No 3 1 H13 20000 No No 0 Alquiler No 27 5 M14 10000 No Sí 0 Alquiler Sí 0 7 H15 8000 No Sí 0 Alquiler No 3 2 H
A partir de estos datos, las técnicas de DM podrían generar un modelo de los datos, consistente en un conjunto de grupos de empleados con características similares. Este modelo proporcionaría una descripción "mas significativa" de los datos disponibles.
32
1. Introducción a la Minería de datos (DM)
Ejemplo4: definir grupos diferenciados de empleados.
Grupo 1: 5 ejemplos Sueldo : 22600 Casado : No -> 0.8
Sí -> 0.2 Coche : No -> 0.8
Sí -> 0.2 Hijos : 0 Alq/Prop : Alquiler -> 1.0 Sindic. : No -> 0.8
Sí -> 0.2 Bajas/Año : 8 Antigüedad : 8 Sexo : H -> 0.6
M -> 0.4
Grupo 2: 4 ejemplos Sueldo : 22500 Casado : No -> 1.0 Coche : Sí -> 1.0 Hijos : 0 Alq/Prop : Alquiler -> 0.75
Prop -> 0.25
Sindic. : Sí -> 1.0 Bajas/Año : 2 Antigüedad : 8 Sexo : H -> 0.25
M -> 0.75
Grupo 3: 6 ejemplos Sueldo : 18833 Casado : Sí -> 1.0 Coche : Sí -> 1.0 Hijos : 2 Alq/Prop : Alquiler -> 0.17
Prop -> 0.83
Sindic. : No -> 0.67 Sí -> 0.33
Bajas/Año : 5 Antigüedad : 8 Sexo : H -> 0.83
M -> 0.17
• GRUPO 1: Solteros, sin hijos y de alquiler. Poco sindicados. Muchas bajas.
• GRUPO 2: Solteros, sin hijos y de alquiler. Muy sindicados. Pocas bajas. Normalmente mujeres.
• GRUPO 3: Casados, con hijos y propietarios. Poco sindicados. Normalmente hombres.
33
1. Introducción a la Minería de datos (DM)
Ejemplo5: análisis de visitas.
Un Centro de Salud, desea analizar los factores que influyen en la asistencia (visita) de un paciente al Centro de Salud.
Factores:
Salud: salud del paciente (capacidad para acudir al centro). (1-10) Necesidad: convicción del paciente de que la visita es importante. (1-10) Transporte: disponibilidad de transporte para trasladarse al centro. (1-10) Niños: disponibilidad de dejar a los niños. (1-10) Laboral: posibilidad de darse de baja laboral. (1-10) Satisfacción: satisfacción del paciente con su médico. (1-10) Cita: facilidad del paciente para concertar una cita. (1-10) Asistencia: indica si el paciente se ha pasado por el Centro de Salud durante
el último año (0: se ha pasado, 1: no se ha pasado).
34
1. Introducción a la Minería de datos (DM)
Ejemplo5: análisis de visitas.
ID Salud Necesidad Transporte Niños Laboral Satisf. Cita Asistencia1 4 5 1 10 10 8 1
2 4 8 1 1 6 2 0 3 6 10 1 8 1 6 8 1
A partir de los datos de estos siete factores para un conjunto de pacientes, las técnicas de DM podrían generar un modelo de los datos consistente en un cuadro de relaciones entre los factores y la asistencia (o no asistencia) del paciente al Centro de Salud. Este modelo proporcionaría una descripción "mas significativa" de los datos disponibles
35
1. Introducción a la Minería de datos (DM)
Ejemplo5: análisis de visitas.
Salud Necesidad Transporte Niños Laboral Satisfacción Cita Asistencia Salud 1 Necesidad -0.7378 1 Transporte 0.3116 -0.1041 1 Niños 0.3116 -0.1041 1 1 Laboral 0.2771 0.0602 0.6228 0.6228 1 Satisfacción 0.22008 -0.1337 0.6538 0.6538 0.6257 1 Cita 0.3887 -0.0334 0.6504 0.6504 0.6588 0.8964 1 Asistencia 0.3955 -0.5416 -0.5031 -0.5031 -0.7249 -0.3988 -0.3278 1
El cuadro de correlaciones obtenido es:
El coeficiente de correlación r (r[-1 ... 1]) se interpreta de la siguiente forma: si r es positivo los atributos tienen un comportamiento similar (ambos crecen o ambos decrecen al mismo tiempo), si r es negativo cuando un atributo crece el otro decrece, si r es cero no existe relación entre ambos atributos.
36
• estadística.
• aprendizaje automático / IA.
• visualización de datos.
• recuperación de información (Information Retrieval).
• computación paralela / distribuida.
• bases de datos.
Relación de DM con otras disciplinas:
1. Introducción a la Minería de datos (DM)
37
•estadística.
•aprendizaje automático / IA.
•visualización de datos.
•recuperación de información (Information Retrieval).
•computación paralela / distribuida.
•bases de datos.
Relación de DM con otras disciplinas:
1. Introducción a la Minería de datos (DM)té
cnic
as d
e D
Mso
port
e te
cnol
ógic
o
38
• estadística: ha proporcionado muchos conceptos, técnicas y algorítmos utilizados en DM:
− conceptos: media, varianza, desviación, ...
− técnicas: regresión lineal y no lineal, modelización paramétrica y no paramétrica, técnicas bayesianas, ...
• aprendizaje automático / IA: ha proporcionado los principios y algoritmos para el aprendizaje de modelos a partir de ejemplos.
Relación de DM con otras disciplinas:
1. Introducción a la Minería de datos (DM)té
cnic
as
de
DM
39
• visualización de datos: ha proporcionado técnicas de representación visual de datos, útiles en DM:
- visualización previa: comprender mejor los datos y decidir posibles tareas de DM a utilizar.
- visualización posterior: mostrar a los usuarios, los patrones obtenidos en el proceso de DM de una forma inteligible.
• recuperación de información (Information Retrieval): ha proporcionado técnicas y algoritmos para la extracción de información a partir de datos textuales, útiles para algunas aplicaciones de DM.
Relación de DM con otras disciplinas:
1. Introducción a la Minería de datos (DM)té
cnic
as
de
DM
40
• bases de datos: los avances en tecnología de gestión de datos han favorecido el desarrollo del DM (mejora de la eficiencia de los algoritmos)
− sistemas de DW, herramientas de OLAP
− técnicas de optimización de consultas
− técnicas de indexación, ...
• computación paralela / distribuida: los avances en computación paralela y distribuida han favorecido el desarrollo del DM: el coste computacional de las tareas de DM se reparte entre varios procesadores (escabilidad de las soluciones).
Relación de DM con otras disciplinas:
1. Introducción a la Minería de datos (DM)so
po
rte
tecn
oló
gico
41
• Aplicaciones financieras y de banca:− obtención de patrones de uso fraudulento de tarjetas.− obtención de perfiles de clientes en el uso de tarjetas.− obtención de correlaciones entre indicadores financieros.− análisis de riesgos en la concesión de préstamos, ...
Áreas de Aplicación1. Introducción a la Minería de datos (DM)
• Análisis de mercado, distribución y comercio:− análisis de la cesta de la compra.− evaluación de campañas publicitarias.− obtención de perfiles de clientes.− análisis de la fidelidad de los clientes, ...
42
• Seguros:− identificación de clientes potencialmente caros.− identificación de clientes que pueden contratar nuevas pólizas.− identificación de clientes con comportamiento fraudulento...
Áreas de Aplicación1. Introducción a la Minería de datos (DM)
• Medicina:− diagnóstico de enfermedades.− grupos de riesgo para distintas patologías.− recomendación priorizada de fármacos.− gestión de servicios sanitarios, ...
43
• Otros sectores:− compañías de servicios: telecomunicaciones, agua, gas, ....− correo electrónico, agendas personales.− turismo− tráfico− uso de web− ...
Áreas de Aplicación1. Introducción a la Minería de datos (DM)
44
1. Introducción a la Minería de Datos (DM)
2. El proceso de KDD
3. Técnicas de Minería de Datos
4. Evaluación de modelos
Minería de Datos (Data Mining)
45
2. El proceso de KDD
KDD (Knowledge Discovery in Databases)
El proceso de KDD (extracción de conocimiento en bases de datos) es el proceso global que permite la extracción de conocimiento a partir de datos almacenados.
Sistemas deInformación
KD
D
Conocimiento
Evaluación /Interpretación /Visualización
Preparación delos Datos
Minería de Datos
Patrones
46
2. El pro
ceso
de K
DD
Fuentes de datos
ETL
Data Warehouse
Preparación de los datos
Extracción
Limpieza
Transformación
Selección
Limpieza
Transformación
Minería de datos
Modelos de datos
Evaluación
Conocimiento
Difusión y uso
Decisiones
Vista minable
47
2. El pro
ceso
de K
DD
Fuentes de datos
ETL
Data Warehouse
Preparación de los datos
Extracción
Limpieza
Transformación
Selección
Limpieza
Transformación
Minería de datos
Modelos de datos
Evaluación
Conocimiento
Difusión y uso
Decisiones
Vista minable
1
2
3
4
48
2. El proceso de KDDFase de preparación de los datos.
Fuentes de datos
ETL
Data Warehouse
Preparación de los datos
Extracción
Limpieza
Transformación
Selección
Limpieza
Transformación
Vista minable
Fuentes de datos
Vista minable
Extracción
Limpieza
Transformación
Selección
Preparación de los datos
Vista minable: subconjunto de los datos sobre el que se va a aplicar una técnica de DM.
La “calidad del conocimiento extraido” en el proceso de KDD no depende sólo de la técnica de DM utilizada, depende
también de la calidad de los datos utilizados.
49
2. El proceso de KDDFase de preparación de los datos.
Fuentes de datos
ETL
Data Warehouse
Preparación de los datos
Extracción
Limpieza
Transformación
Selección
Limpieza
Transformación
Vista minable
Fuentes de datos
Vista minable
Extracción
Limpieza
Transformación
Selección
Preparación de los datos
Estas actividades de preparación de los datos
dependen de la tarea de DM que se vaya a realizar y de los requisitos de la técnica o del
algoritmo utilizado.
50
2. El proceso de KDDFase de preparación de los datos.
Fuentes de datos
ETL
Data Warehouse
Preparación de los datos
Extracción
Limpieza
Transformación
Selección
Limpieza
Transformación
Vista minable
Fuentes de datos
Vista minable
Extracción
Limpieza
Transformación
Selección
Preparación de los datos
La selección de datos es una de las tareas más importantes en la fase de preparación de los datos:
• selección vertical: los atributos (campos) seleccionados deben ser significativos para el conocimiento que se desea obtener y la tarea de DM que se pretende realizar.
• selección horizontal: a veces es suficiente realizar la tarea de DM sobre un subconjunto (muestra) de los datos disponibles.
51
2. El proceso de KDDFase de Minería de Datos.
Minería de datos
Modelos de datos
Vista minable
Minería de datos: extracción de conocimiento a partir de datos almacenados.
Modelo de los datos
Descripción de los patrones o relaciones existentes en los datos.
52
2. El proceso de KDDFase de Minería de Datos.
Minería de datos
Modelos de datos
Vista minable
Decisiones previas a la fase de DM
analizar el tipo de conocimiento que se desea obtener.
determinar la tarea de DM que es mas apropiada para extraer dicho conocimiento.
elegir una técnica de DM para realizar la tarea.
elegir el algoritmo mas adecuado para aplicar la técnica de DM elegida.
53
2. El proceso de KDDFase de Minería de Datos.
Minería de datos
Modelos de datos
Vista minable
Ejemplo 1: análisis de riesgo en préstamos bancarios.
se desea poder predecir si un cliente devolverá o no un préstamo.
la clasificación de los clientes en "clientes de confianza" y "clientes de riesgo" a partir de sus caracterísiticas, sería una tarea de DM adecuada para la obtención del conocimiento que se busca.
la técnica de generación de reglas en forma de árboles de decisión puede producir un modelo de datos sencillo y comprensible para los empleados.
los algoritmo CART o C5.0 son algoritmos para la generación de árboles de decisión disponibles en el sistema de DM de la organización.
54
2. El proceso de KDD
Minería de datos
Modelos de datos
Vista minable
Tarea de DM Problema Tipo de
conocimiento
Técnica de DM
... Técnica de DM
Algoritmo ... Algoritmo
Modelo de los datos
Fase de Minería de Datos.
55
Minería de datos
Modelos de datos
Vista minable
Tar
eas
de D
M
Pre
dict
ivas
De
scri
ptiv
as
Estimación de valores futuros o desconocidos de variables de interés (variable objetivo) a partir de otras variables independientes (predictivas).
Identificación de patrones en los datos que los explican o resumen.
Ejemplos: 1 y 3
Ejemplos: 2, 4 y 5
2. El proceso de KDDFase de Minería de Datos.
56
2. El proceso de KDD
Fase de Evaluación.
Modelos de datos
Evaluación
Conocimiento
Principio ("escandalo") de la Inducción:
Las hipótesis inducidas se pueden refutar, pero no se pueden confirmar.
57
2. El proceso de KDD
Fase de Evaluación.
Modelos de datos
Evaluación
Conocimiento
Evaluación: Medida de la validez (calidad) del modelo obtenido por una tarea de DM.
Medidas de validez: dependen de la tarea de DM aplicada.
58
Ejemplo2: análisis de la cesta de la compra.
ID Huevos Aceite Pañales Vino Leche Mantequilla Salmón Lechugas ... 1 sí no no sí no sí sí sí 2 no sí no no sí no no sí 3 no no sí no sí no no no 4 no sí sí no sí no no no 5 sí sí no no no sí no sí 6 sí no no sí sí sí sí no 7 no no no no no no no no 8 sí sí sí sí sí sí sí no ...
A partir de estos datos, las técnicas de DM podrían generar un modelo de los datos, consistente en un conjunto de reglas de asociación entre los productos que con frecuencia son adquiridos conjuntamente. Este modelo proporcionaría una descripción "mas significativa" de los datos disponibles.
2. El proceso de KDD
59
Ejemplo2: análisis de la cesta de la compra.
ID Huevos Aceite Pañales Vino Leche Mantequilla Salmón Lechugas ... 1 sí no no sí no sí sí sí 2 no sí no no sí no no sí 3 no no sí no sí no no no 4 no sí sí no sí no no no 5 sí sí no no no sí no sí 6 sí no no sí sí sí sí no 7 no no no no no no no no 8 sí sí sí sí sí sí sí no ...
Algunas asociaciones que se observan en los datos son:
"El 100% de las veces que se compran pañales también se compra leche"
"El 50% de las veces que se compran huevos también se compra aceite"
"El 33% de las veces que se compran vino y salmón también se compran lechugas"
2. El proceso de KDD
60
Ejemplo2: análisis de la cesta de la compra.
Algunas asociaciones que se observan en los datos son:
"El 100% de las veces que se compran pañales también se compra leche"
"El 50% de las veces que se compran huevos también se compra aceite"
"El 33% de las veces que se compran vino y salmón también se compran lechugas"
2. El proceso de KDD
¿Cuál es la validez de estas reglas?
¿Qué garantía tenemos de no equivocarnos si tomamos decisiones usando estas reglas?
61
Ejemplo2: análisis de la cesta de la compra.
Algunas asociaciones que se observan en los datos son:
"El 100% de las veces que se compran pañales también se compra leche"
"El 50% de las veces que se compran huevos también se compra aceite"
"El 33% de las veces que se compran vino y salmón también se compran lechugas"
2. El proceso de KDD
La primera regla tiene una confianza del 100%, es decir en todos
los ejemplos (en la muestra) en los que se ha comprado pañales
también se ha comprado leche. Pero, ¿cuántos ejemplos tenemos
en la muestra en los que se haya comprado pañales?. Este valor
podría ser 1, con lo cual la regla sería poco significativa.
62
2. El proceso de KDD
Fase de difusión y uso.
Una vez generado y validado el modelo, éste se puede usar con distintas fines:
- los analistas toman decisiones sobre las actividades del negocio en base al conocimiento proporcionado por el modelo.
- se aplica el modelo a distintos conjuntos de datos para obtener información (conocimiento).
- se difunde el modelo (reglas, funciones, ...) entre los empleados de la organización para apoyar su trabajo.
ConocimientoDifusión y uso Decisiones
63
1. Introducción a la Minería de Datos (DM)
2. El proceso de KDD
3. Técnicas de Minería de Datos
4. Evaluación de modelos
Minería de Datos (Data Mining)
64
3. Técnicas de Minería de DatosTareas de Minería de Datos.
Minería de datos
Modelos de datos
Vista minable
Tarea de DM Problema Tipo de
conocimiento
Técnica de DM
... Técnica de DM
Algoritmo ... Algoritmo
Modelo de los datos
65
Tareas de Minería de Datos.Minería de datos
Modelos de datos
Vista minable
Tar
eas
de D
M
Pre
dict
ivas
De
scri
ptiv
as
Estimación de valores futuros o desconocidos de variables de interés (variable objetivo) a partir de otras variables independientes (predictivas).
Identificación de patrones en los datos que los explican o resumen.
Ejemplos: 1 y 3
Ejemplos: 2, 4 y 5
3. Técnicas de Minería de Datos
66
Tareas de Minería de Datos.Minería de datos
Modelos de datos
Vista minable
Tar
eas
de D
M
Pre
dict
ivas
De
scri
ptiv
asClasificación
Regresión
Asociación
Agrupamiento (clustering)
Correlación
3. Técnicas de Minería de Datos
67
Tareas de Minería de Datos.Minería de datos
Modelos de datos
Vista minable
Dominio de ejemplos: D
tipo_ejemplo = {A1:D1, A2:D2, ..., An:Dn}
ejemplo e = {A1:v1, A2:v2, ..., An:vn} / viDi
e = <v1, v2, ..., vn> / viDi
D = {e: <v1, v2, ..., vn> / viDi}
3. Técnicas de Minería de Datos
68
Tareas de Minería de Datos.Minería de datos
Modelos de datos
Vista minable
Tar
eas
de D
M
Pre
dict
ivas
De
scri
ptiv
asClasificación
Regresión
Asociación
Agrupamiento (clustering)
Correlación
3. Técnicas de Minería de Datos
69
Tareas de Minería de Datos.T
area
s de
DM
Pre
dict
ivas
De
scri
ptiv
asClasificación
Regresión
Asociación
Agrupamiento (clustering)
Correlación
3. Técnicas de Minería de Datos
Clasificación
Clasificación suave
Estimación de probabilidad de clasificación
Categorización
70
Tareas de Minería de Datos.Minería de datos
Modelos de datos
Vista minable
Tareas predictivas.
La clasificación:
A cada ejemplo del tipo de objeto a clasificar (registro de la base de datos) se le asigna una clase, representada por el valor de un atributo (atributo de clase). El dominio del atributo de clase es discreto, cada valor representa una clase de objeto.
Los restantes atributos que sean significativos para determinar la clase, son utilizadas por las técnicas de clasificación para generar funciones (reglas) que permiten determinar la clase de un ejemplo a partir de los valores de sus atributos significativos.
El objetivo de la tarea es poder predecir la clase de nuevos ejemplos a partir del valor de sus atributos significativos, utilizando las reglas generadas.
3. Técnicas de Minería de Datos
71
Tareas de Minería de Datos.Minería de datos
Modelos de datos
Vista minable
Tareas predictivas.
La clasificación:
Entrada:
- tipo_ejemplo = {A1:D1, A2:D2, ..., An:Dn}
- D = {e: <v1, v2, ..., vn> / viDi}: dominio de ejemplos
- E D: conjunto de ejemplos (muestra)
- S = {c1, c2, ..., cm}: m clases,
- {<e, s>: eE, sS}: conjunto de ejemplos etiquetado
Salida:
: E S: función clasificador
3. Técnicas de Minería de Datos
72
Ejemplo1: análisis de riesgo en préstamos bancarios.
Un banco desea disponer de un modelo que le permita predecir qué tipo de clientes podrían no devolver un préstamo solicitado. La entidad dispone de información sobre préstamos anteriores, así como datos personales de los titulares de esos préstamos.
ID D-crédito
(años) C-crédito (euros)
Salario (euros)
Casa propia
Cuentas morosas
... Devuelto-préstamo
101 15 60.000 2.200 sí 2 no 102 2 30.000 3.500 sí 0 sí 103 9 9.000 1.700 sí 1 no 104 15 18.000 1.900 no 0 sí 105 10 24.000 2.100 no 0 no ... ... ... ... ... ... ...
Tareas predictivas: la clasificación.
3. Técnicas de Minería de Datos
73
Ejemplo1: análisis de riesgo en préstamos bancarios.
ID D-crédito (años)
C-crédito (euros)
Salario (euros)
Casa propia
Cuentas morosas
... Devuelto-préstamo
101 15 60.000 2.200 sí 2 no 102 2 30.000 3.500 sí 0 sí 103 9 9.000 1.700 sí 1 no 104 15 18.000 1.900 no 0 sí 105 10 24.000 2.100 no 0 no ... ... ... ... ... ... ...
Regla 1:
Si cuentas-morosas > 0 entonces devuelve-préstamo = no
Regla 2:
Si cuentas-morosas = 0 Y ( salario>2.500 O D-credito>10)
entonces devuelve-préstamo = sí
... Modelo de datos
3. Técnicas de Minería de Datos
74
Ejemplo1: análisis de riesgo en préstamos bancarios.
ID D-crédito (años)
C-crédito (euros)
Salario (euros)
Casa propia
Cuentas morosas
... Devuelto-crédito
101 15 60.000 2.200 sí 2 no 102 2 30.000 3.500 sí 0 sí 103 9 9.000 1.700 sí 1 no 104 15 18.000 1.900 no 0 sí 105 10 24.000 2.100 no 0 no ... ... ... ... ... ... ...
(x, y, z, w, n, ...) = 'no' : n > 0
(x, y, z, w, n, ...) = 'si' : n = 0, z > 2500
(x, y, z, w, n, ...) = 'si' : n = 0, x > 10
...Modelo de datos
3. Técnicas de Minería de Datos
75
Ejemplo1: análisis de riesgo en préstamos bancarios.
ID D-crédito C-crédito Salario Casa propia Cuentas morosas ...
111 15 60.000 2.600 sí 0
Devuelve-préstamo = SÍ
(x, y, z, w, n, ...) = 'no' : n > 0
(x, y, z, w, n, ...) = 'si' : n = 0, z > 2500
(x, y, z, w, n, ...) = 'si' : n = 0, x > 10
... Modelo de datos
3. Técnicas de Minería de Datos
76
Tareas de Minería de Datos.Minería de datos
Modelos de datos
Vista minable
Tareas predictivas.
La clasificación suave:
Entrada:
- D = {e: <v1, v2, ..., vn> / viDi}: dominio de ejemplos
- E D: conjunto de ejemplos (muestra)
- S = {c1, c2, ..., cm}: m clases,
- {<e, s>: eE, sS}: conjunto de ejemplos etiquetado
Salida:
: E S: función clasificador
: E R: función de certeza (grado de certeza de la predicción hecha por la función )
3. Técnicas de Minería de Datos
77
Tareas de Minería de Datos.Minería de datos
Modelos de datos
Vista minable
Tareas predictivas.
La estimación de probabilidad de clasificación:
Entrada:
- D = {e: <v1, v2, ..., vn> / viDi}: dominio de ejemplos
- E D: conjunto de ejemplos (muestra)
- S = {c1, c2, ..., cm}: m clases,
- {<e, s>: eE, sS}: conjunto de ejemplos etiquetado
Salida:
i: E R (i: 1..m): funciones de certeza (grado de certeza de que un
ejemplo sea de la clase i).
3. Técnicas de Minería de Datos
78
Tareas de Minería de Datos.Minería de datos
Modelos de datos
Vista minable
Tareas predictivas.
La categorización:
Entrada:
- D = {e: <v1, v2, ..., vn> / viDi}: dominio de ejemplos
- E D: conjunto de ejemplos (muestra)
- S = {c1, c2, ..., cm}: m clases,
- {<e, s>: eE, sS}: conjunto de ejemplos etiquetado
Salida:
E × S: correspondencia de clasificación
3. Técnicas de Minería de Datos
79
Tareas de Minería de Datos.T
area
s de
DM
Pre
dict
ivas
De
scri
ptiv
asClasificación
Regresión
Asociación
Agrupamiento (clustering)
Correlación
3. Técnicas de Minería de Datos
80
Tareas de Minería de Datos.Minería de datos
Modelos de datos
Vista minable
Tareas predictivas.
La regresión:
A partir de los datos de un conjunto de ejemplos, se busca una función real entre un atributo (atributo objetivo) y un conjunto de atributos significativos del tipo de objeto.
Los dominios de los atributos deben ser numéricos.
El objetivo de la tarea es poder predecir el valor del atributo objetivo de nuevos ejemplos a partir del valor de sus atributos significativos, utilizando la función generada.
Nota: Es un caso particular de la tarea de clasificación, cuando el dominio de salida de la función es numérico.
3. Técnicas de Minería de Datos
81
Tareas de Minería de Datos.Minería de datos
Modelos de datos
Vista minable
Tareas predictivas.
La regresión:
Entrada:
- tipo_ejemplo = {A1:D1, A2:D2, ..., An:Dn} / Di es numérico
- D = {e: <v1, v2, ..., vn> / viDi}: dominio de ejemplos
- E D: conjunto de ejemplos (muestra)
- S = R|Z, (dominio numérico)
- {<e, s>: eE, sS}: conjunto de ejemplos etiquetado
Salida:
: E S: función de regresión
3. Técnicas de Minería de Datos
82
Tareas de Minería de Datos. Minería de datos
Modelos de datos
Vista minable
Tareas predictivas.
Regresión Lineal Global.Se buscan los coeficientes de una función lineal:
Una manera fácil (si es lineal simple, es decir con dos dimensiones x e y):
obteniendo y = w0 + w1x (n es el número de ejemplos de la muestra)
nn xwxwwy ...110
221
xxn
yxxynw
22
2
0
xxn
xyxxyw
3. Técnicas de Minería de Datos
83
ID Descripción mes-12 ... ... mes-4 mes-3 mes-2 mes-1 1 televisor 20 52 14 139 74 2 video 11 ... ... 43 32 26 59 3 MP3 50 ... ... 61 14 5 28 4 frigorífico 3 ... ... 21 27 1 49 5 microondas 14 ... ... 27 2 25 12 6 ... ... ... ... ... ... ... ...
Ejemplo3: previsión de ventas.
Una cadena de tiendas de electrodomésticos desea optimizar el funcionamiento de su almacén, manteniendo un stock de cada producto que sea suficiente para poder servir rápidamente los pedidos de sus clientes. La organización dispone de información sobre las ventas de cada producto en cada mes del último año.
Tareas predictivas: la regresión.
3. Técnicas de Minería de Datos
84
ID Descripción mes-12 ... ... mes-4 mes-3 mes-2 mes-1 1 televisor 20 52 14 139 74 2 video 11 ... ... 43 32 26 59 3 MP3 50 ... ... 61 14 5 28 4 frigorífico 3 ... ... 21 27 1 49 5 microondas 14 ... ... 27 2 25 12 6 ... ... ... ... ... ... ... ...
Ejemplo3: previsión de ventas.
mes
ventas
producto 5
Tareas predictivas: la regresión.
3. Técnicas de Minería de Datos
85
Tareas de Minería de Datos. Minería de datos
Modelos de datos
Vista minable
Tar
eas
de D
M
Pre
dict
ivas
De
scri
ptiv
asClasificación
Regresión
Asociación
Agrupamiento (clustering)
Correlación
3. Técnicas de Minería de Datos
86
Tareas de Minería de Datos.T
area
s de
DM
Pre
dict
ivas
De
scri
ptiv
asClasificación
Regresión
Asociación
Agrupamiento (clustering)
Correlación
3. Técnicas de Minería de Datos
87
Tareas de Minería de Datos. Minería de datos
Modelos de datos
Vista minable
Tareas descriptivas.
El agrupamiento o segmentación (clustering):
Se buscan grupos naturales en el conjunto de ejemplos, a partir de los valores de sus atributos.
Las técnicas de DM agrupan los ejemplos basándose en el principio de maximizar la similitud entre los elementos de un grupo y de minimizar la similitud entre los elementos de grupos distintos.
El objetivo de la tarea es poder describir de forma resumida el conjunto de ejemplos: cada grupo formado se considera un resumen de los elementos que lo forman.
3. Técnicas de Minería de Datos
88
Tareas de Minería de Datos. Minería de datos
Modelos de datos
Vista minable
Tareas descriptivas.
El agrupamiento:
Entrada:
- D = {e: <v1, v2, ..., vn> / viDi}: dominio de ejemplos
- E D: conjunto de ejemplos (muestra)
Salida:
- S = {c1, c2, ..., cm}: m grupos,
- : E S: función de agrupación.
3. Técnicas de Minería de Datos
89
Ejemplo4: definir grupos diferenciados de empleados.
El departamento de recursos humanos de una gran empresa, desea categorizar a sus empleados en distintos grupos, con el objetivo de establecer una trato personalizado con ellos y definir las políticas sociales de la empresa. La organización dispone en sus bases de datos de información sobre sus empleados.
Tareas descriptivas: el agrupamiento.
3. Técnicas de Minería de Datos
90
Ejemplo4: definir grupos diferenciados de empleados.
ID Sueldo Casado Coche Hijos Alq/Prop Sindic. Bajas/Año Antigüedad Sexo1 10000 Sí No 0 Alquiler No 7 15 H2 20000 No Sí 1 Alquiler Sí 3 3 M3 15000 Sí Sí 2 Propietario Sí 5 10 H4 30000 Sí Sí 1 Alquiler No 15 7 M5 10000 Sí Sí 0 Propietario Sí 1 6 H6 40000 No Sí 0 Alquiler Sí 3 16 M7 25000 No No 0 Alquiler Sí 0 8 H8 20000 No Sí 0 Propietario Sí 2 6 M9 20000 Sí Sí 3 Propietario No 7 5 H10 30000 Sí Sí 2 Propietario No 1 20 H11 50000 No No 0 Alquiler No 2 12 M12 8000 Sí Sí 2 Propietario No 3 1 H13 20000 No No 0 Alquiler No 27 5 M14 10000 No Sí 0 Alquiler Sí 0 7 H15 8000 No Sí 0 Alquiler No 3 2 H
Tareas descriptivas: el agrupamiento.
3. Técnicas de Minería de Datos
91
Ejemplo4: definir grupos diferenciados de empleados.
Grupo 1: 5 ejemplos Sueldo : 22600 Casado : No -> 0.8
Sí -> 0.2 Coche : No -> 0.8
Sí -> 0.2 Hijos : 0 Alq/Prop : Alquiler -> 1.0 Sindic. : No -> 0.8
Sí -> 0.2 Bajas/Año : 8 Antigüedad : 8 Sexo : H -> 0.6
M -> 0.4
Grupo 2: 4 ejemplos Sueldo : 22500 Casado : No -> 1.0 Coche : Sí -> 1.0 Hijos : 0 Alq/Prop : Alquiler -> 0.75
Prop -> 0.25
Sindic. : Sí -> 1.0 Bajas/Año : 2 Antigüedad : 8 Sexo : H -> 0.25
M -> 0.75
Grupo 3: 6 ejemplos Sueldo : 18833 Casado : Sí -> 1.0 Coche : Sí -> 1.0 Hijos : 2 Alq/Prop : Alquiler -> 0.17
Prop -> 0.83
Sindic. : No -> 0.67 Sí -> 0.33
Bajas/Año : 5 Antigüedad : 8 Sexo : H -> 0.83
M -> 0.17
Tareas descriptivas: el agrupamiento.
3. Técnicas de Minería de Datos
• GRUPO 1: Solteros, sin hijos y de alquiler. Poco sindicados. Muchas bajas.
• GRUPO 2: Solteros, sin hijos y de alquiler. Muy sindicados. Pocas bajas. Normalmente mujeres.
• GRUPO 3: Casados, con hijos y propietarios. Poco sindicados. Normalmente hombres.
92
Tareas de Minería de Datos.T
area
s de
DM
Pre
dict
ivas
De
scri
ptiv
asClasificación
Regresión
Asociación
Agrupamiento (clustering)
Correlación
3. Técnicas de Minería de Datos
Asociación
Dependencias funcionales
Patrones secuenciales
93
Minería de datos
Modelos de datos
Vista minable
La asociación:
Se buscan relaciones no explícitas entre los valores de atributos discretos; ejemplo: "si el atributo X toma el valor v1 entonces el atributo Y toma el valor v2"
La existencia de una asociación entre atributos no siempre implica la existencia de una relación causa-efecto.
El objetivo de la tarea es poder describir de forma concisa relaciones existentes entre los valores de los atributos del conjunto de ejemplos.
3. Técnicas de Minería de Datos
Tareas de Minería de Datos.
Tareas descriptivas.
94
Tareas de Minería de Datos.Minería de datos
Modelos de datos
Vista minable
Tareas descriptivas.
La asociación:
Entrada:
- tipo_ejemplo = {A1:D1, A2:D2, ..., An:Dn} (Di es generalmente discreto)
- D = {e: <v1, v2, ..., vn> / vi Di}: dominio de ejemplos
- E D: conjunto de ejemplos (muestra)
Salida:
Ri: Ai=a Aj=b ... Ak = k Ar=c Aw=d ... Am=e
(regla direccional o dependencia de valores), o
Ri: Ai=a Aj=b ... Ak = k Ar=c Aw=d ... Am=e
(regla bidireccional)
3. Técnicas de Minería de Datos
95
Ejemplo2: análisis de la cesta de la compra.
Un supermercado desea obtener información sobre los hábitos de compra de sus clientes, con el objetivo de mejorar la ubicación de los productos en el local. La organización dispone de información reciente sobre los productos adquiridos en las compras realizadas por los clientes.
ID Huevos Aceite Pañales Vino Leche Mantequilla Salmón Lechugas ... 1 sí no no sí no sí sí sí 2 no sí no no sí no no sí 3 no no sí no sí no no no 4 no sí sí no sí no no no 5 sí sí no no no sí no sí 6 sí no no sí sí sí sí no 7 no no no no no no no no 8 sí sí sí sí sí sí sí no ...
Tareas descriptivas: la asociación.
3. Técnicas de Minería de Datos
96
Ejemplo2: análisis de la cesta de la compra.
ID Huevos Aceite Pañales Vino Leche Mantequilla Salmón Lechugas ... 1 sí no no sí no sí sí sí 2 no sí no no sí no no sí 3 no no sí no sí no no no 4 no sí sí no sí no no no 5 sí sí no no no sí no sí 6 sí no no sí sí sí sí no 7 no no no no no no no no 8 sí sí sí sí sí sí sí no ...
Algunas asociaciones que se observan en los datos son:
"El 100% de las veces que se compran pañales también se compra leche"
"El 50% de las veces que se compran huevos también se compra aceite"
"El 33% de las veces que se compran vino y salmón también se compran lechugas"
Tareas descriptivas: la asociación.
3. Técnicas de Minería de Datos
97
Ejemplo2: análisis de la cesta de la compra.
ID Huevos Aceite Pañales Vino Leche Mantequilla Salmón Lechugas ... 1 sí no no sí no sí sí sí 2 no sí no no sí no no sí 3 no no sí no sí no no no 4 no sí sí no sí no no no 5 sí sí no no no sí no sí 6 sí no no sí sí sí sí no 7 no no no no no no no no 8 sí sí sí sí sí sí sí no ...
R1 : pañales='si' leche='si'
R2 : huevos='si' aceite ='si'
R3 : vino='si' salmón='si' lechugas ='si'
Tareas descriptivas: la asociación.
3. Técnicas de Minería de Datos
98
Tareas de Minería de Datos.Minería de datos
Modelos de datos
Vista minable
Clasificación de reglas de asociación.
Dominios de los atributos:
- Binarios: indican la presencia o ausencia de un item en el ejemplo.
pañales = 'si' leche = 'si' (pañales leche)
- Discretos:
país = 'Alemania' precio = 'caro'
- Numéricos:
15< edad <20 riesgo = 'alto'
3. Técnicas de Minería de Datos
99
Tareas de Minería de Datos.Minería de datos
Modelos de datos
Vista minable
Clasificación de reglas de asociación.
Niveles de abstracción: reglas multinivel.
Las reglas de asociación no se definen al nivel básico en una dimensión, sino basándose en niveles superiores jerárquicamente en la dimensión.
Vino = 'sí' Gaseosa = 'sí'
3. Técnicas de Minería de Datos
producto categoría departamento
100
Tareas de Minería de Datos.Minería de datos
Modelos de datos
Vista minable
Tareas descriptivas.
La asociación: dependencias funcionales.
Entrada:
- tipo_ejemplo = {A1:D1, A2:D2, ..., An:Dn} / Di es discreto
- D = {e: <v1, v2, ..., vn> / vi Di}: dominio de ejemplos
- E D: conjunto de ejemplos (muestra)
Salida:
- Ri: Ai Aj ... Ak Ar
Para cualquier conjunto de valores (x, y, ..., z, w), si existe un ejemplo para el que Ai=x Aj=y ... Ak = z Ar=w entonces para cualquier otro ejemplo
para el que Ai=x Aj=y ... Ak = z se cumple que Ar=w.
3. Técnicas de Minería de Datos
101
Minería de datos
Modelos de datos
Vista minable
Los patrones secuenciales:
Se trata de buscar asociaciones de la forma: "si sucede el evento X en el instante de tiempo t entonces sucederá el evento Y en el instante t+n"
El objetivo de la tarea es poder describir de forma concisa relaciones temporales que existen entre los valores de los atributos del conjunto de ejemplos.
3. Técnicas de Minería de Datos
Tareas de Minería de Datos.
Tareas descriptivas.
102
Tareas de Minería de Datos.Minería de datos
Modelos de datos
Vista minable
Tareas descriptivas.
Los patrones secuenciales:
Entrada:
- tipo_ejemplo = {A1:D1, A2:D2, ..., An:Dn} / Di es discreto
- D = {e: <v1, v2, ..., vn> / vi Di}: dominio de ejemplos
- E D: conjunto de ejemplos (muestra)
Salida:
Ri: Ai=a Aj=b ... Ak = k (t) Ar=c Aw=d ... Am=e (t'>t)
(regla direccional o dependencia de valores), o
Ri: Ai=a Aj=b ... Ak = k (t) Ar=c Aw=d ... Am=e (t'>t)
(regla bidireccional)
3. Técnicas de Minería de Datos
103
Tareas de Minería de Datos. Minería de datos
Modelos de datos
Vista minable
Tareas descriptivas: patrones secuenciales
3. Técnicas de Minería de Datos
104
Tareas de Minería de Datos. Minería de datos
Modelos de datos
Vista minable
Tareas descriptivas: patrones secuenciales
3. Técnicas de Minería de Datos
105
Tareas de Minería de Datos. Minería de datos
Modelos de datos
Vista minable
Tareas descriptivas: patrones secuenciales
3. Técnicas de Minería de Datos
106
Tareas de Minería de Datos.T
area
s de
DM
Pre
dict
ivas
De
scri
ptiv
asClasificación
Regresión
Asociación
Agrupamiento (clustering)
Correlación
3. Técnicas de Minería de Datos
107
Tareas de Minería de Datos. Minería de datos
Modelos de datos
Vista minable
Tareas descriptivas.
La correlación
Se busca el grado de similitud de los valores de dos atributos numéricos.
El grado de similitud se mide por el coeficiente de correlación r (r[-1 ... 1]): si r es positivo los atributos tienen un comportamiento similar (ambos crecen o ambos decrecen al mismo tiempo), si r es negativo cuando un atributo crece el otro decrece, si r es cero no existe relación entre ambos atributos.
El objetivo de la tarea es poder describir de forma concisa relaciones existentes entre atributos del conjunto de ejemplos.
3. Técnicas de Minería de Datos
108
Tareas de Minería de Datos.Minería de datos
Modelos de datos
Vista minable
Tareas predictivas.
La correlación:
Entrada:
- tipo_ejemplo = {A1:D1, A2:D2, ..., An:Dn} / Di es numérico
- D = {e: <v1, v2, ..., vn> / viDi}: dominio de ejemplos
- E D: conjunto de ejemplos (muestra)
Salida:
R: {A1, A2 ,An} x {A1, A2 ,An} [-1 .. 1]
Función que asigna a cada par de atributos del esquema del ejemplo un valor de correlación.
3. Técnicas de Minería de Datos
109
Ejemplo5: análisis de visitas.
Un Centro de Salud, desea analizar los factores que influyen en la asistencia de un paciente al Centro de Salud.
Factores:
Salud: salud del paciente. (1-10) Necesidad: convicción del paciente de que la visita es importante. (1-10) Transporte: disponibilidad de transporte para trasladarse al centro. (1-10) Niños: disponibilidad de dejar a los niños. (1-10) Laboral: posibilidad de darse de baja laboral. (1-10) Satisfacción: satisfacción del paciente con su médico. (1-10) Cita: facilidad del paciente para concertar una cita. (1-10) Asistencia: indica si el paciente se ha pasado por el Centro de Salud durante el último
año (0: se ha pasado, 1: no se ha pasado).
Tareas descriptivas: la correlación.
3. Técnicas de Minería de Datos
110
Ejemplo5: análisis de visitas.
Salud Necesidad Transporte Niños Laboral Satisfacción Cita Asistencia Salud 1 Necesidad -0.7378 1 Transporte 0.3116 -0.1041 1 Niños 0.3116 -0.1041 1 1 Laboral 0.2771 0.0602 0.6228 0.6228 1 Satisfacción 0.22008 -0.1337 0.6538 0.6538 0.6257 1 Cita 0.3887 -0.0334 0.6504 0.6504 0.6588 0.8964 1 Asistencia 0.3955 -0.5416 -0.5031 -0.5031 -0.7249 -0.3988 -0.3278 1
El cuadro de correlaciones obtenido es:
El coeficiente de correlación r (r[-1 ... 1]) se interpreta de la siguiente forma: si r es positivo los atributos tienen un comportamiento similar (ambos crecen o ambos decrecen al mismo tiempo), si r es negativo cuando un atributo crece el otro decrece, si r es cero no existe correlación entre ambos atributos.
Tareas descriptivas: la correlación.
3. Técnicas de Minería de Datos
111
Minería de datos
Modelos de datos
Vista minable
Tarea de DM Problema Tipo de
conocimiento
Técnica de DM
... Técnica de DM
Algoritmo ... Algoritmo
Modelo de los datos
Fase de Minería de Datos.
3. Técnicas de Minería de Datos
112
Fase de Minería de Datos.
Técnicas de Minería de Datos.
3. Técnicas de Minería de Datos
Clasificación:
-Ténicas estadísticas -Técnicas
bayesianas
-Técnicas de conteo de frecuencias
-Técnicas basadas en árboles de decisión
-Técnicas relacionales declarativas
-Técnicas basadas en redes neuronales
-Técnicas basadas en núcleo
-Técnicas estocásticas o difusas
-Técnicas basadas en densidad o distancia.
113
Minería de datos
Modelos de datos
Vista minable
Fase de Minería de Datos.
Técnicas de Minería de Datos.
3. Técnicas de Minería de Datos
Técnicas estadísticas: expresan los modelos y patrones mediante el uso de
funciones lineales, funciones no lineales, distribuciones, correlaciones,
medidas estadísticas, etc.
Ejemplos: regresión lineal, regresión logarítmica, regresión logística,
discriminantes lineales y no lineales.
114
Minería de datos
Modelos de datos
Vista minable
Fase de Minería de Datos.
Técnicas de Minería de Datos.
3. Técnicas de Minería de Datos
Técnicas bayesianas: se basan en estimar la probabilidad de pertenencia (a una clase o un grupo) mediante la estimación de las probabilidades condicionales inversas, utilizando el teorema de Bayes.
Técnicas basadas en conteo de frecuencias: se basan en contar la frecuencia con la que dos o mas sucesos se presentan conjuntamente.
115
Minería de datos
Modelos de datos
Vista minable
Fase de Minería de Datos.
Técnicas de Minería de Datos.
3. Técnicas de Minería de Datos
Técnicas basadas en árboles de decisión y sistemas de aprendizaje de reglas: representan los modelos aprendidos en forma de reglas.
Ejemplos: algoritmos "divide y vencerás" (ID3/C4.5, CART), algoritmos "separa y vencerás" (CN2).
Técnicas relacionales declarativas: se basan en la representación de los modelos mediante lenguajes declarativos (lógicos, funcionales, lógico-funcionales).
Ejemplo: técnicas basadas en ILP (programación lógica inductiva) denominada "minería de datos relacional".
116
Minería de datos
Modelos de datos
Vista minable
Fase de Minería de Datos.
Técnicas de Minería de Datos.
3. Técnicas de Minería de Datos
Técnicas basadas en redes neuronales artificiales: se trata de técnicas que aprenden un modelo mediante el entrenamiento de los pesos que conectan un conjunto de nodos o neuronas. La topología de la red y los pesos de las conexiones determinan el patrón aprendido.
Ejemplos: perceptón simple, redes multicapa, redes de base radial, redes de Kohonen, etc.
Técnicas basadas en núcleo y máquinas de soporte vectorial: se trata de técnicas que intentan maximizar el margen entre los grupos o las clases formadas.
117
Minería de datos
Modelos de datos
Vista minable
Fase de Minería de Datos.
Técnicas de Minería de Datos.
3. Técnicas de Minería de Datos
Técnicas estocásticasy difusas: se trata de técnicas en las que los componentes aleatorios son fundamentales o en las que se utilizan funciones de pertenencia difusa.
Técnicas basadas en casos, densidad o distancia: se trata de técnicas que se basan en medir las distancias entre los elementos, ya sea directamente, como el método de los vecinos más próximos (los casos más similares) o mediante la estimación de funciones de densidad.
Ejemplos: algoritmos de vecinos más próximos (K-NN), algoritmos jerárquicos (Two-step, COBWED), algoritmos no jerárquicos (K-means).
118
Predictivas Descriptivas
Técnica Clasificación Regresión Agrupamiento Asociación Correlación
Redes Neuronales
Árboles de decisión (ID.3, C4.5, C5.0)
Árboles de decisión (CART)
Otros árboles de decisión
Redes de Kohonen
Regresión lineal y logarítmica
Regresión logística
K-means
Apriori
Naive Bayes
119
Predictivas Descriptivas
Técnica Clasificación Regresión Agrupamiento Asociación Correlación
Vecinos mas próximos
Análisis factorial
Twostep, Cobwed
Algoritmos genéticos y evolutivos
Máquinas de vectores soporte
CN2 reglas
Análisis discriminante multivariante
120
Tareas de DM
Pre
dict
ivas
De
scri
ptiv
as
Clasificación
Regresión
Asociación
Agrupamiento (clustering)
Correlación
3. Técnicas de Minería de Datos
Técnicas de DM
k-NN (Nearest Neighbor).
k-means (Competitive learning).
Perceptron Learning.
Multilayer ANN methods (e.g. backpropagation).
Decision Tree Learning (e.g. ID3, C4.5, CART).
Bayes Classifiers.
Center Splitting Methods.
Pseudo-relational: Supercharging, Pick-and-Mix.
Relational: ILP, IFLP, SCIL.
121
Tareas de DM
Pre
dict
ivas
De
scri
ptiv
as
Clasificación
Regresión
Asociación
Agrupamiento (clustering)
Correlación
3. Técnicas de Minería de Datos
Técnicas de DM
k-NN (Nearest Neighbor).
k-means (Competitive learning).
Redes neuronales de Kohonen
EM (Estimated Means) (Dempster et al. 1977).
Cobweb (Fisher 1987).
AUTOCLASS
...
122
Tareas de DM
Pre
dict
ivas
De
scri
ptiv
as
Clasificación
Regresión
Asociación
Agrupamiento (clustering)
Correlación
3. Técnicas de Minería de Datos
Técnicas de DM
Técnicas estadísticas
Técnicas estadísticas
Técnicas de conteo de frecuencia
123
Tareas de DM
Pre
dict
ivas
De
scri
ptiv
as
Clasificación
Regresión
Asociación
Agrupamiento (clustering)
Correlación
3. Técnicas de Minería de Datos
Técnicas de DM
Técnicas de conteo de frecuencia
Técnicas estadísticas
Técnicas estadísticas
124
Técnicas de búsqueda de asociaciones:
Técnica APRIORI (Agrawal & Srikant 1994)
• es una técnica de conteo de frecuencias: se basa en contar la frecuencia con la que dos o mas sucesos ocurren conjuntamente.
• es una técnica para atributos con dominios binarios: (si/no).
.
125
Técnicas de búsqueda de asociaciones: Técnica APRIORI
• FASE A: BÚSQUEDA DE “LARGE ITEMSETS”. Se buscan conjuntos de atributos con soporte >= s (soporte deseado), llamados ‘large itemsets’ (conjuntos de atributos grandes).
• FASE B: BÚSQUEDA DE DEPENDENCIAS (REGLAS). Se hacen particiones binarias y disjuntas (reglas) de los conjuntos formados en la fase anterior, y se calcula la confianza de cada partición (regla). Se seleccionan aquellas reglas que tienen una confianza >= c (confianza deseada).
Soporte (absoluto) de un atributo: número de ejemplos de la muestra en los que el atributo toma el valor 'si'.Confianza de una regla de asociación: proporción del número de ejemplos de la muestra para los que la regla funciona bien respecto al número de ejemplos de la muestra a los que se puede aplicar la regla.
126
Técnicas de búsqueda de asociaciones: Técnica APRIORI
FASE A:
Dado un soporte deseado s:
Paso 1. i=1 (tamaño de los conjuntos)
Paso 2. Generar un conjunto unitario para cada atributo, {Ak}: k:1..n.
Construir el conjunto Si = {{Ak}: k:1..n }.
Paso 3. Comprobar el soporte de cada conjuntos en Si. Eliminar
aquellos con soporte < s.
Paso 4. Combinar los conjuntos en Si para crear conjuntos de
tamaño i+1 para formar Si+1.
Paso 5. Si Si no es vacío entonces i:= i+1. Ir a Paso 3.
Paso 6. Si Si es vacío entonces devolver Sfinal=S2 S3 ... Si
127
Técnicas de búsqueda de asociaciones: Técnica APRIORI
FASE B:
BÚSQUEDA DE DEPENDENCIAS (REGLAS). Se hacen particiones binarias y disjuntas (reglas) de los conjuntos de Sfinal, y se calcula la confianza de cada partición (regla). Se seleccionan aquellas reglas que tienen una confianza >= c (confianza deseada).
128
FASE A:
S1= { {1}, {2}, {3}, {4}, {5} } S'1= { {1}:2, {2}:3, {3}:3, {4}:1, {5}:3 }S2= { {1,2}, {1,3}, {1,5}, {2,3}, {2,5}, {3,5} } S'2 = { {1,3}:2, {2,3}:2, {2,5}:3, {3,5}:2 }S3= { {1,2,3}, {1,2,5}, {1,3,5}, {2,3,5} } S'3 = { {2,3,5}:2 }
Sfinal = S'2 S'3 = { {1,3}, {2,3}, {2,5}, {3,5}, {2,3,5} }
FASE B:
Fila 1 2 3 4 51 x x x2 x x x3 x x x x4 x x
muestra
soporte = 2
confianza = 0.75
{1} {3} : 1 {3} {1} : 0.67 {2} {3} : 0.67 {3} {2} : 0.67 {2} {5} : 1 {5} {2} : 1 {3} {5} : 0.67 {5} {3} : 0.67 {2,3} {5} : 1 {2,5} {3} : 0.67 {3,5} {2} : 1
atributos
ejem
plos
129
Tareas de DM
Pre
dict
ivas
De
scri
ptiv
as
Clasificación
Regresión
Asociación
Agrupamiento (clustering)
Correlación
3. Técnicas de Minería de Datos
Técnicas de DM
Minimal Spaning Tree
k-NN (Nearest Neighbor).
k-means (Competitive learning).
Redes neuronales de Kohonen
EM (Estimated Means) (Dempster et al. 1977).
Cobweb (Fisher 1987).
AUTOCLASS
...
130
3. Técnicas de Minería de DatosTécnicas de agrupamiento: métodos jerárquicos.
Un método sencillo consiste en ir agrupando ejemplos según la distancia entre ellos, e ir aumentando el límite de distancia para hacer nuevos grupos. Esto genera agrupaciones a distintos niveles, de una manera jerárquica.
Se denomina Dendograma o Hierarchical Tree Plot:
131
3. Técnicas de Minería de Datos
Técnicas de agrupamiento: métodos jerárquicos. Minimal Spanning Tree Clustering
Sea C el número de grupos (clusters) deseado.
Paso 1. Se define un grupo con cada ejemplo.
Paso 2. Se agrupa el par de grupos más cercanos (distnacia mínima) para formar un nuevo grupo.
Paso 3. Si número de grupos < C entonces ir a Paso 2.
132
3. Técnicas de Minería de Datos
Técnicas de agrupamiento: "vecinos más próximos". K-means clustering
Se utiliza para encontrar los k puntos más densos en un conjunto arbitrario de puntos.
Algoritmo:
Paso 1. Dividir aleatoriamente la muestra en k conjuntos y
calcular la media (el punto medio) de cada conjunto.
Paso 2. Reasignar cada ejemplo al conjunto con el punto medio
más cercano (distancia mínima).
Paso 3. Calcular los puntos medios de los k conjuntos.
Paso 4. Repetir los pasos 2 y 3 hasta que los conjuntos no varíen.
133
3. Técnicas de Minería de Datos
Técnicas de agrupamiento: "vecinos más próximos". K-means clustering
El valor de k se suele determinar heurísticamente. Problemas:
Si se sabe que hay n clases, hacer k=n puede producir que, algunas veces, algún grupo use dos centros y dos grupos separados tengan que compartir centro.
Si k se elige muy grande, la generalización es pobre y las agrupaciones futuras serán malas.
Determinar el k ideal es difícil.
134
Tareas de DM
Pre
dict
ivas
De
scri
ptiv
as
Clasificación
Regresión
Asociación
Agrupamiento (clustering)
Correlación
3. Técnicas de Minería de Datos
Técnicas de DM
k-NN (Nearest Neighbor).
k-means (Competitive learning).
Perceptron Learning.
Multilayer ANN methods (e.g. backpropagation).
Decision Tree Learning (ID3, C4.5, CART).
Bayes Classifiers.
Center Splitting Methods.
Pseudo-relational: Supercharging, Pick-and-Mix.
Relational: ILP, IFLP, SCIL.
135
3. Técnicas de Minería de Datos
Árboles de Decisión (ID3 (Quinlan), C4.5 (Quinlan), CART).Algoritmo "Divide y Vencerás":
Paso 1. Se crea un nodo raíz con S:= conjunto de ejemplos.
Paso 2. Si todos los elementos de S son de la misma clase, el subárbol se cierra. Solución encontrada.
Paso 3. Si todos los elementos de S no son de la misma clase entonces
- se elige una condición de partición para el conjunto S
- se aplica la condición a S (S queda subdividido en dos
subconjuntos (subárboles): los que cumplen la condición y los que
no la cumplen)
- ir al Paso 2 para cada uno de los dos subárboles.
Técnicas de clasificación: árboles de decisión.
136
3. Técnicas de Minería de Datos
PARTICIÓN
CUADRICULAR.
0 1
1
0
X>0.25
No
X>0.25
X>0.66X>0.75
Y>0.25 Y>0.6
Sí
Y>0.25
No Sí
Sí
X>0.75 X>0.66
Y>0.6
Sí
No No
No
Sí
Árboles de Decisión (ID3 (Quinlan), C4.5 (Quinlan), CART).
Algoritmo "Divide y Vencerás":
137
3. Técnicas de Minería de DatosÁrboles de Decisión: Ejemplo de C4.5 con datos discretos:
Example Sky Temperature Humidity Wind PlayTennis1 Sunny Hot High Weak No2 Sunny Hot High Strong No3 Overcast Hot High Weak Yes4 Rain Mild High Weak Yes5 Rain Cool Normal Weak Yes6 Rain Cool Normal Strong No7 Overcast Cool Normal Strong Yes8 Sunny Mild High Weak No9 Sunny Cool Normal Weak Yes10 Rain Mild Normal Weak Yes11 Sunny Mild Normal Strong Yes12 Overcast Mild High Strong Yes13 Overcast Hot Normal Weak Yes14 Rain Mild High Strong No
138
3. Técnicas de Minería de DatosÁrboles de Decisión: Ejemplo de C4.5 con datos discretos:
Reglas:Outlook=Sunny AND Humidity=Normal PlayTenis=si Outlook=Overcast PlayTenis=si Outlook=Rain AND Wind=Weak PlayTenis=si Other case PlayTenis='no'
Outlook?
YESHumidity?
SunnyOvercast
Rain
Wind?
YES YESNONO
High NormalStrong Weak
139
3. Técnicas de Minería de Datos
Técnicas de clasificación: "vecinos más próximos".
k-NN (Nearest Neighbour):Paso 1. Se miran los k ejemplos más cercanos (distancia mínima).Paso 2. Si todos los ejemplos son de la misma clase, el nuevo
ejemplo se clasifica en esa clase.Paso 3. Si los ejemplos no son de la misma clase, se calcula la
distancia media por clase y se asigna a la de menor distancia, o bien se asigna a la clase con más elementos.
• El valor de k se suele determinar heurísticamente.
7-nearest neighbor1-nearest neighbor
? ?Clasificacírculo
Clasificacuadrado
PARTICIÓN 1-nearest neighbor
(Poliédrica o de Voronoi)
140
3. Técnicas de Minería de Datos
Técnicas de clasificación: Naive Bayes
Estas técnicas permiten determinar la probabilidad de que un nuevo ejemplo sea de una clase. Eligiendo la clase de mayor probabilidad.
p(H|E)=p(E|H)× p(H)
p(E)
donde:
- H es la hipótesis,
- E es el ejemplo,
- p(A|B) es la probabilidad del suceso A condicinada al suceso B
141
3. Técnicas de Minería de Datos
Técnicas de clasificación: Naive Bayes
ID Edad Hijos Practica-
deporte Salario Buen-
cliente 101 joven si no alto si 102 joven no no medio no 103 joven si si medio no 104 joven si no bajo sí 105 mayor si no bajo si 106 mayor no si medio si 107 joven no si medio si 108 joven si si alto si 109 mayor si no medio si 110 mayor no no bajo no
Una compañia de seguros dispone de los siguientes datos sobre sus clientes, clasificados en buenos y malos clientes.
142
3. Técnicas de Minería de Datos
Técnicas de clasificación: Naive Bayes
Edad Hijos Practica-deporte
Salario Buen-cliente
mayor no no
medio ?
Hipótesis H: el nuevo cliente es "buen cliente"
Nuevo ejemplo E:
p(edadE|'si'): se calcula dividiendo el número de ejemplos en la muestra que tienen los
valores edad='mayor' y buen-cliente='si', dividido por el número de ejemplos en la muestra que tienen el valor buen-cliente='sí'.
p(edad|'si'): 3/7
p('sí'|E)=p(edadE|'si') × p(hijosE|'si') × p(practica_deporteE|'si') × p(salarioE|'si')
p(E)
143
3. Técnicas de Minería de Datos
Técnicas de clasificación: Naive Bayes
Edad Hijos Practica-deporte
Salario Buen-cliente
mayor no no
medio ?
Hipótesis H: el nuevo cliente es "buen cliente"
Nuevo ejemplo E:
p('sí'|E)=p(edadE|'si') × p(hijosE|'si') × p(practica_deporteE|'si') × p(salarioE|'si')
p(E)
p('si'): se calcula como el número de ejemplos en la muestra que tienen el valor buen-
cliente='si', dividido por el número de ejemplos en la muestra.
p('si'): 7/10
144
3. Técnicas de Minería de Datos
Técnicas de clasificación: Naive Bayes
Edad Hijos Practica-deporte
Salario Buen-cliente
mayor no no
medio ?
Nuevo ejemplo E:
p('si'|E)=p(edadE|'si') × p(hijosE|'si') × p(practica_deporteE|'si') × p(salarioE|'si')
p(E)
p('no'|E)=p(edadE|'no') × p(hijosE|'no') × p(practica_deporteE|'no') × p(salarioE|'no')
p(E)
Se elige la clase para la que la probabilidad de clasificación es mayor.
145
1. Introducción a la Minería de Datos (DM)
2. El proceso de KDD
3. Técnicas de Minería de Datos
4. Evaluación de modelos
Minería de Datos (Data Mining)
146
4. Evaluación de modelos Modelos de datos
Evaluación
Conocimiento
Evaluación: Medida de la validez (calidad) del modelo obtenido por una tarea de DM.
Medidas de validez: dependen de la tarea de DM aplicada.
147
Modelos de datos
Evaluación
Conocimiento
Generación de modelos: división del conjunto de ejemplos.
conjunto de entrenamiento (training set): subconjunto de ejemplos utilizado en la obtención del modelo.
conjunto de prueba o validación (test set): subconjunto de ejemplos utilizado para validar el modelo obtenido.
Tareas Predictivas.
4. Evaluación de modelos
148
Modelos de datos
Evaluación
Conocimiento
Generación de modelos: división del conjunto de ejemplos.
Validación simple: si se dispone de un conjunto de ejemplos numeroso, la división se hace equitativamente (50%) y de forma aleatoria.
Validación cruzada: se utiliza cuando no se dispone de un conjunto grande de ejemplos.
Tareas Predictivas.
149
Modelos de datos
Evaluación
Conocimiento
Generación de modelos: división del conjunto de ejemplos.
Validación cruzada:
- Validación cruzada simple: se divide el conjunto de ejemplos, aleatoriamente, en dos subconjuntos iguales S1 y S2. Primero se genera un modelo con S1 y se prueba con S2, obteniendo una medida para la validez del modelo. Luego se genera otro modelo con S2 y se prueba con S1, obteniendo una medida de la validez del modelo. Por último se genera un modelo con todos los datos y se le asocia como medida de validez la media de las medidas anteriores.
Tareas Predictivas.
4. Evaluación de modelos
150
Modelos de datos
Evaluación
Conocimiento
Generación de modelos: división del conjunto de ejemplos.
Validación cruzada:
- Validación cruzada con n pliegues: se divide el conjunto de ejemplos, aleatoriamente, en n subconjuntos iguales. Un subconjunto se reserva para la prueba y con los otros n-1 se genera un modelo que será probado con el subconjunto reservado, obteniendo una medida de la validez del modelo. Este proceso se repite n veces, reservando en cada ocasión un subconjunto de prueba distinto. Por último se genera un modelo con todos los ejemplos y se le asocia como medida de la validez la media de las medidas de validez anteriores.
Tareas Predictivas.
4. Evaluación de modelos
151
Modelos de datos
Evaluación
Conocimiento
La clasificación
Medida de la validez del modelo: precisión predictiva
Precisión =
X: Nro. de ejemplos del conjunto de prueba (ejemplos etiquetados) clasificadas correctamente por el modelo.
Y: Nro. de ejemplos del conjunto de prueba
X
Y
Tareas Predictivas.
4. Evaluación de modelos
152
Modelos de datos
Evaluación
Conocimiento
La regresión
Medida de la validez del modelo: error cuadrático medio del valor predicho por el modelo, respecto al valor real del ejemplo de prueba.
Error =
Tareas Predictivas.
4. Evaluación de modelos
1
ni=1
n
(yti - yi )2
Yt : representa el valor devuelto por el modelo para el ejemplo.
Y: representa el valor real para el ejemplo.
n. Número de ejemplos.
153
Modelos de datos
Evaluación
Conocimiento
El agrupamiento
Medida de la validez del modelo: basadas en el concepto de distancia
Tareas Descriptivas.
Concepto de Similitud: ejemplos similares deben pertenecer al mismo grupo.
Concepto de Distancia: inversa de similitud.
Definición de Distancia: euclidea, de Manhattan, de Chebychev, del coseno, por diferencia, ..
4. Evaluación de modelos
154
Modelos de datos
Evaluación
Conocimiento
El agrupamiento
Medida de la validez del modelo: basadas en el concepto de distancia
Tareas Descriptivas.
las medidas de validez son función de la cohesión de los grupos y de la separación entre ellos.
la cohesión se puede medir por la distancia de los miembros de un grupo al centro del grupo.
la separación entre grupos se puede medir calculando la distancia media entre grupos.
4. Evaluación de modelos
155
Modelos de datos
Evaluación
Conocimiento
La asociación
Se mide la validez de cada una de las reglas de asociación generadas.
Medidas de la validez:
Cobertura (support): Nro. de ejemplos del conjunto de prueba a los que la regla se aplica (antecedente cierto) y funciona correctamente (consecuente cierto).
Confianza (confidence/accuracy): Proporción del nro. de ejemplos del conjunto de prueba para los que la regla funciona correctamente
Tareas Descriptivas.
4. Evaluación de modelos
156
Modelos de datos
Evaluación
Conocimiento
La asociación
Se mide la validez de cada una de las reglas de asociación generadas.
n: nro. de ejemplos
na: nro. de ejemplos a los que se aplica una regla (antecedente cierto)
nc: nro. ejemplos para los que la regla funciona correctamnete (antecedente cierto y consecuente cierto)
Tareas Descriptivas.
Cobertura relativa = nc / n
Cobertura absoluta = nc
Confianza = nc / na
4. Evaluación de modelos
157
Modelos de datos
Evaluación
Conocimiento
La asociación
Se mide la validez de cada una de las reglas de asociación generadas.
Cobertura relativa = nc / n
Cobertura absoluta = nc
Tareas Descriptivas.
Confianza = nc / na
Valores deseables:
Cobertura absoluta: > 20, Cobertura relativa: 0.5 (50%)
Confianza: 0.95 (95%)
4. Evaluación de modelos
158
Ejemplo2: análisis de la cesta de la compra.
ID Huevos Aceite Pañales Vino Leche Mantequilla Salmón Lechugas ... 1 sí no no sí no sí sí sí 2 no sí no no sí no no sí 3 no no sí no sí no no no 4 no sí sí no sí no no no 5 sí sí no no no sí no sí 6 sí no no sí sí sí sí no 7 no no no no no no no no 8 sí sí sí sí sí sí sí no ...
Algunas asociaciones que se observan en los datos son:
"El 100% de las veces que se compran pañales también se compra leche"
"El 50% de las veces que se compran huevos también se compra aceite"
"El 33% de las veces que se compran vino y salmón también se compran lechugas"
Tareas descriptivas: la asociación.
4. Evaluación de modelos
159
Ejemplo2: análisis de la cesta de la compra.
ID Huevos Aceite Pañales Vino Leche Mantequilla Salmón Lechugas ... 1 sí no no sí no sí sí sí 2 no sí no no sí no no sí 3 no no sí no sí no no no 4 no sí sí no sí no no no 5 sí sí no no no sí no sí 6 sí no no sí sí sí sí no 7 no no no no no no no no 8 sí sí sí sí sí sí sí no ...
R1 : pañales='si' leche='si' (Confianza=1)
R2 : huevos='si' aceite ='si' (Confianza=0.5)
R3 : vino='si' salmón='si' lechugas ='si' (Confianza=0.3)
Tareas descriptivas: la asociación.
4. Evaluación de modelos
160
Ejemplo: .
Tareas descriptivas: la asociación.
Reglas de asociación:
R1: Casado Hijos > 0 (Confianza: 0.8, Soporte: 4 casos).
R2: Obeso Casado (Confianza: 0.8, Soporte: 4 casos)
R3: Hijos > 0 Casado (Confianza: 1, Soporte: 2 casos).
R4: Casado Obeso (Confianza: 1, Soporte: 3 casos)
DNI Renta Familiar Ciudad Profesión Edad Hijos Obeso Casado11251545 5.000.000 Barcelona Ejecutivo 45 3 S S30512526 1.000.000 Melilla Abogado 25 0 S N22451616 3.000.000 León Ejecutivo 35 2 S S25152516 2.000.000 Valencia Camarero 30 0 S S23525251 1.500.000 Benidorm Animador
ParqueTemático
30 0 N N
4. Evaluación de modelos