mineria de datos y data warehouse

1

DATA MINING

Y

DATA WAREHOUSING

Abril-2008

2

Parte inicial

DATA MINING

Mladen W. Nadinic

3

1. Introducción a la Minería de Datos (DM)

2. El proceso de KDD

3. Técnicas de Minería de Datos

4. Evaluación de modelos

Minería de Datos (Data Mining)

4

Berry M.J.A.; Linoff, G.S. “Mastering Data Mining”, Wiley, 2000.

Berthold, M.; Hand, D.J. (ed). “Intelligent Data Analysis. An Introduction” ( 2nd ed.), Springer, 2002.

Dunham, M.H. “Data Mining. Introductory and Advanced Topics”, Prentice Hall, 2003.

Dzeroski, S.; Lavrac, N. “Relational Data Mining”, Springer, 2001.

Etzioni, O. “The World- Wide Web. Quagmire or Gold Mine” Communications of the ACM, November 1996, Vol. 39, nº 11, 1996.

Fayyad, U.M.; Piatetskiy-Shapiro, G.; Smith, P.; Ramasasmy, U. “Advances in Knowledge Discovery and Data Mining”, AAAI Press / MIT Press, 1996.

Fayyad, U.M.; Grinstein, G.; Wierse, A., “Information Visualization in Data Mining and Knowledge Discovery”, Morgan Kaufmann, Harcourt Intl, 2001.

Han, J.; Kamber, M. “Data Mining: Concepts and Techniques”, Morgan Kaufmann, 2001.

Hernández, J. et al. “Introducción a la Minería de Datos”, Prentice-Hall, 2004.

Bibliografía

5






6

Situación actual: uso extendido de los SGBD

BD son el soporte del Sistema de Información de las organizaciones

BD son diseñadas para dar soporte (eficiente) a las funciones básicas de la organización (ventas, producción, personal...)

SISTEMAS OPERACIONALES (OLTP On Line Transaction Processing)

las organizaciones almacenan grandes volúmenes de datos con información histórica

1970 2000evolución de la tecnología de gestión de datos

- SGBD eficientes

- SGBD robustos

- lenguajes y herramientas de uso de alto nivel

Situación actual de la tecnología de gestión de datos.

1. Introducción a la Minería de datos (DM)

7

Una vez satisfecha la necesidad de tener un soporte informático para los procesos básicos de la organización: sistemas de información para la gestión.

La organizaciones exigen nuevas prestaciones de los sistemas de información: sistemas de información para la toma de decisiones.


Tecnología de almacenes de datos

8

Almacenes de datos (AD) (data warehouse)

Disponer de Sistemas de Información de apoyo a la

toma de decisiones*

Disponer de bases de datos que permitan extraer conocimiento de la información histórica almacenada en la organización

motivación

análisis de la organización

previsiones de evolución

diseño de estrategias

* DSS: Decision Support Systems

objetivos


9

Datos Op. 1

Datos Op. 2

Datos Op. 3

metadatos

datos de detalle

datos agregados

datos agregados

AD

gestor de carga

gestor del AD

gestor del AD

gestor de consultas

copias

Herramientas de consultas e informes

Herramientas de OLAP

Herramientas de Data Mining

SAD

área de almacenamiento

intermedio


Arquitectura de un sistema de Almacén de Datos

10





DW

- visión relacional de los datos

- ejecución de consultas SQL sobre el esquema relacional

- preparación de los resultados de la consulta: informe

clasificación y agrupación de filas

cálculo de totales por grupos

adición de datos calculados

consultas (informes) muy estáticos

11





DW

- visión multidimensional de los datos

- ejecución de consultas sobre el esquema multidimensional

- navegación sobre las consultas: DRILL DOWN, ROLL UP

- facilidades para (dinámicamente):

aplicar filtros a los datos seleccionados

calcular funciones estadísticas (totales, porcentajes, ...)

resumir (agregar) o refinar (disgregar) los datos seleccionados

algunas funciones adicionales (rango, ...)

consultas (informes) muy dinámicos

12





DW

Presentación (mas o menos sofisticada) de los datos almacenados

exploración de los datos

Estas herramientas no son capaces de extraer conocimiento de los datos consultados: patrones, tendencias, pautas, ..., que permitan hacer previsiones y tomar decisiones.

Los datos por sí sólos tienen un valor relativo, lo que de verdad es interesante es el conocimiento que se puede inferir de ellos.

13





DW

datos conocimiento

Las herramientas de minería de datos permiten extraer conocimiento a partir de los datos almacenados.

DWpatrones, pautas, reglas, ...

14





DW

En el contexto de un Servicio Público de Salud:

- Porcentaje de enfermos que han sido tratados de gripe este año.

- Número de pacientes de gripe durante este año, por franjas de edad.

- Crecimiento porcentual de casos de gripe en este año respecto al año anterior.

- Número de casos de gripe previsibles para los próximos años.

- Perfiles de pacientes sensibles a la gripe (grupos de riesgo).

- Relación de la gripe con otras enfermedades.

15





DW

información extensional (datos)

información intensional (conocimiento)

16





DW

El analista parte de una pregunta o hipótesis, explora los datos y valida o rechaza su hipótesis hasta construir su modelo de los datos.

(proceso deductivo)

El sistema encuentra y sugiere modelos de los datos.

(proceso inductivo)

17





DW

Proceso inductivo:

Razonamiento hipotético de casos particulares (ejemplos) a casos

generales (reglas)

18

Minería de datos [Witten & Frank 2000]: proceso de extracción de conocimiento válido, útil, comprensible, y desconocido, a partir de datos almacenados.


válido: el conocimiento obtenido debe ser preciso ("correcto") para nuevos conjuntos de datos (no sólo para el conjunto utilizado en su obtención).

útil: el conocimiento obtenido debe servir a la organización para tomar decisiones que le reporten algún beneficio.

comprensible: el conocimiento obtenido debe ser fácil de interpretar y usar.

novedoso: el conocimiento obtenido debe aportar a la organización, información desconocida hasta ese momento.

19


Ejemplo1: análisis de riesgo en préstamos bancarios.

Un banco desea disponer de un modelo que le permita predecir qué tipo de clientes podrían no devolver un préstamo solicitado. La entidad dispone de información sobre préstamos anteriores, así como datos personales de los titulares de esos préstamos.

ID D-crédito

(años) C-crédito (euros)

Salario (euros)

Casa propia

Cuentas morosas

... Devuelto-préstamo

101 15 60.000 2.200 sí 2 no 102 2 30.000 3.500 sí 0 sí 103 9 9.000 1.700 sí 1 no 104 15 18.000 1.900 no 0 sí 105 10 24.000 2.100 no 0 no ... ... ... ... ... ... ...

20



ID D-crédito


Salario (euros)

Casa propia

Cuentas morosas



A partir de estos datos, las técnicas de DM podrían generar un modelo de los datos, consistente en un conjunto de reglas, que permitiesen predecir en el futuro, el posible comportamiento de un cliente que solicitase un préstamo.

21



ID D-crédito


Salario (euros)

Casa propia

Cuentas morosas



Para nuestro estudio, existen dos clases de cliente: los que devuelven los préstamos y los que no los devuelven.

Las reglas generadas en el proceso de DM, deben predecir la clase de un cliente (variable objetivo) a partir de sus características (variables predictivas).

22



ID D-crédito (años)

C-crédito (euros)

Salario (euros)

Casa propia

Cuentas morosas



Regla 1:

Si cuentas-morosas > 0 entonces devuelve-préstamo = no

Regla 2:

Si cuentas-morosas = 0 Y ( salario>2.500 O D-credito>10)

entonces devuelve-préstamo = sí

...

23


Ejemplo2: análisis de la cesta de la compra.

Un supermercado desea obtener información sobre los hábitos de compra de sus clientes, con el objetivo de mejorar la ubicación de los productos en el local. La organización dispone de información reciente sobre los productos adquiridos en las compras realizadas por los clientes.

ID Huevos Aceite Pañales Vino Leche Mantequilla Salmón Lechugas ... 1 sí no no sí no sí sí sí 2 no sí no no sí no no sí 3 no no sí no sí no no no 4 no sí sí no sí no no no 5 sí sí no no no sí no sí 6 sí no no sí sí sí sí no 7 no no no no no no no no 8 sí sí sí sí sí sí sí no ...

24




A partir de estos datos, las técnicas de DM podrían generar un modelo de los datos, consistente en un conjunto de reglas de asociación entre los productos que con frecuencia son adquiridos conjuntamente. Este modelo proporcionaría una descripción "mas significativa" de los datos disponibles.

25




Algunas asociaciones que se observan en los datos son:

"El 100% de las veces que se compran pañales también se compra leche"

"El 50% de las veces que se compran huevos también se compra aceite"

"El 33% de las veces que se compran vino y salmón también se compran lechugas"

26


ID Descripción mes-12 ... ... mes-4 mes-3 mes-2 mes-1 1 televisor 20 52 14 139 74 2 video 11 ... ... 43 32 26 59 3 MP3 50 ... ... 61 14 5 28 4 frigorífico 3 ... ... 21 27 1 49 5 microondas 14 ... ... 27 2 25 12 6 ... ... ... ... ... ... ... ...

Ejemplo3: previsión de ventas.

Una cadena de tiendas de electrodomésticos desea optimizar el funcionamiento de su almacén, manteniendo un stock de cada producto que sea suficiente para poder servir rápidamente los pedidos de sus clientes. La organización dispone de información sobre las ventas de cada producto en cada mes del último año.

27




A partir de estos datos, las técnicas de DM podrían generar un modelo de los datos, consistente en un conjunto de funciones, que permitiesen predecir el número de unidades, de cada producto, que serán vendidas el próximo mes en función de sus ventas en los meses anteriores.

28




mes

ventas

producto 5

29


Ejemplo4: definir grupos diferenciados de empleados.

El departamento de recursos humanos de una gran empresa, desea categorizar a sus empleados en distintos grupos, con el objetivo de establecer una trato personalizado con ellos y definir las políticas sociales de la empresa. La organización dispone en sus bases de datos de información sobre sus empleados.

30



ID Sueldo Casado Coche Hijos Alq/Prop Sindic. Bajas/Año Antigüedad Sexo1 10000 Sí No 0 Alquiler No 7 15 H2 20000 No Sí 1 Alquiler Sí 3 3 M3 15000 Sí Sí 2 Propietario Sí 5 10 H4 30000 Sí Sí 1 Alquiler No 15 7 M5 10000 Sí Sí 0 Propietario Sí 1 6 H6 40000 No Sí 0 Alquiler Sí 3 16 M7 25000 No No 0 Alquiler Sí 0 8 H8 20000 No Sí 0 Propietario Sí 2 6 M9 20000 Sí Sí 3 Propietario No 7 5 H10 30000 Sí Sí 2 Propietario No 1 20 H11 50000 No No 0 Alquiler No 2 12 M12 8000 Sí Sí 2 Propietario No 3 1 H13 20000 No No 0 Alquiler No 27 5 M14 10000 No Sí 0 Alquiler Sí 0 7 H15 8000 No Sí 0 Alquiler No 3 2 H

31



ID Sueldo Casado Coche Hijos Alq/Prop Sindic. Bajas/Año Antigüedad Sexo1 10000 Sí No 0 Alquiler No 7 15 H2 20000 No Sí 1 Alquiler Sí 3 3 M3 15000 Sí Sí 2 Prop Sí 5 10 H4 30000 Sí Sí 1 Alquiler No 15 7 M5 10000 Sí Sí 0 Prop Sí 1 6 H6 40000 No Sí 0 Alquiler Sí 3 16 M7 25000 No No 0 Alquiler Sí 0 8 H8 20000 No Sí 0 Prop Sí 2 6 M9 20000 Sí Sí 3 Prop No 7 5 H10 30000 Sí Sí 2 Prop No 1 20 H11 50000 No No 0 Alquiler No 2 12 M12 8000 Sí Sí 2 Prop No 3 1 H13 20000 No No 0 Alquiler No 27 5 M14 10000 No Sí 0 Alquiler Sí 0 7 H15 8000 No Sí 0 Alquiler No 3 2 H

A partir de estos datos, las técnicas de DM podrían generar un modelo de los datos, consistente en un conjunto de grupos de empleados con características similares. Este modelo proporcionaría una descripción "mas significativa" de los datos disponibles.

32



Grupo 1: 5 ejemplos Sueldo : 22600 Casado : No -> 0.8

Sí -> 0.2 Coche : No -> 0.8

Sí -> 0.2 Hijos : 0 Alq/Prop : Alquiler -> 1.0 Sindic. : No -> 0.8

Sí -> 0.2 Bajas/Año : 8 Antigüedad : 8 Sexo : H -> 0.6

M -> 0.4

Grupo 2: 4 ejemplos Sueldo : 22500 Casado : No -> 1.0 Coche : Sí -> 1.0 Hijos : 0 Alq/Prop : Alquiler -> 0.75

Prop -> 0.25

Sindic. : Sí -> 1.0 Bajas/Año : 2 Antigüedad : 8 Sexo : H -> 0.25

M -> 0.75

Grupo 3: 6 ejemplos Sueldo : 18833 Casado : Sí -> 1.0 Coche : Sí -> 1.0 Hijos : 2 Alq/Prop : Alquiler -> 0.17

Prop -> 0.83

Sindic. : No -> 0.67 Sí -> 0.33

Bajas/Año : 5 Antigüedad : 8 Sexo : H -> 0.83

M -> 0.17

• GRUPO 1: Solteros, sin hijos y de alquiler. Poco sindicados. Muchas bajas.

• GRUPO 2: Solteros, sin hijos y de alquiler. Muy sindicados. Pocas bajas. Normalmente mujeres.

• GRUPO 3: Casados, con hijos y propietarios. Poco sindicados. Normalmente hombres.

33


Ejemplo5: análisis de visitas.

Un Centro de Salud, desea analizar los factores que influyen en la asistencia (visita) de un paciente al Centro de Salud.

Factores:

Salud: salud del paciente (capacidad para acudir al centro). (1-10) Necesidad: convicción del paciente de que la visita es importante. (1-10) Transporte: disponibilidad de transporte para trasladarse al centro. (1-10) Niños: disponibilidad de dejar a los niños. (1-10) Laboral: posibilidad de darse de baja laboral. (1-10) Satisfacción: satisfacción del paciente con su médico. (1-10) Cita: facilidad del paciente para concertar una cita. (1-10) Asistencia: indica si el paciente se ha pasado por el Centro de Salud durante

el último año (0: se ha pasado, 1: no se ha pasado).

34



ID Salud Necesidad Transporte Niños Laboral Satisf. Cita Asistencia1 4 5 1 10 10 8 1

2 4 8 1 1 6 2 0 3 6 10 1 8 1 6 8 1

A partir de los datos de estos siete factores para un conjunto de pacientes, las técnicas de DM podrían generar un modelo de los datos consistente en un cuadro de relaciones entre los factores y la asistencia (o no asistencia) del paciente al Centro de Salud. Este modelo proporcionaría una descripción "mas significativa" de los datos disponibles

35



Salud Necesidad Transporte Niños Laboral Satisfacción Cita Asistencia Salud 1 Necesidad -0.7378 1 Transporte 0.3116 -0.1041 1 Niños 0.3116 -0.1041 1 1 Laboral 0.2771 0.0602 0.6228 0.6228 1 Satisfacción 0.22008 -0.1337 0.6538 0.6538 0.6257 1 Cita 0.3887 -0.0334 0.6504 0.6504 0.6588 0.8964 1 Asistencia 0.3955 -0.5416 -0.5031 -0.5031 -0.7249 -0.3988 -0.3278 1

El cuadro de correlaciones obtenido es:

El coeficiente de correlación r (r[-1 ... 1]) se interpreta de la siguiente forma: si r es positivo los atributos tienen un comportamiento similar (ambos crecen o ambos decrecen al mismo tiempo), si r es negativo cuando un atributo crece el otro decrece, si r es cero no existe relación entre ambos atributos.

36

• estadística.

• aprendizaje automático / IA.

• visualización de datos.

• recuperación de información (Information Retrieval).

• computación paralela / distribuida.

• bases de datos.

Relación de DM con otras disciplinas:


37

•estadística.

•aprendizaje automático / IA.

•visualización de datos.

•recuperación de información (Information Retrieval).

•computación paralela / distribuida.

•bases de datos.


1. Introducción a la Minería de datos (DM)té

cnic

as d

e D

Mso

port

e te

cnol

ógic

o

38

• estadística: ha proporcionado muchos conceptos, técnicas y algorítmos utilizados en DM:

− conceptos: media, varianza, desviación, ...

− técnicas: regresión lineal y no lineal, modelización paramétrica y no paramétrica, técnicas bayesianas, ...

• aprendizaje automático / IA: ha proporcionado los principios y algoritmos para el aprendizaje de modelos a partir de ejemplos.



cnic

as

de

DM

39

• visualización de datos: ha proporcionado técnicas de representación visual de datos, útiles en DM:

- visualización previa: comprender mejor los datos y decidir posibles tareas de DM a utilizar.

- visualización posterior: mostrar a los usuarios, los patrones obtenidos en el proceso de DM de una forma inteligible.

• recuperación de información (Information Retrieval): ha proporcionado técnicas y algoritmos para la extracción de información a partir de datos textuales, útiles para algunas aplicaciones de DM.



cnic

as

de

DM

40

• bases de datos: los avances en tecnología de gestión de datos han favorecido el desarrollo del DM (mejora de la eficiencia de los algoritmos)

− sistemas de DW, herramientas de OLAP

− técnicas de optimización de consultas

− técnicas de indexación, ...

• computación paralela / distribuida: los avances en computación paralela y distribuida han favorecido el desarrollo del DM: el coste computacional de las tareas de DM se reparte entre varios procesadores (escabilidad de las soluciones).


1. Introducción a la Minería de datos (DM)so

po

rte

tecn

oló

gico

41

• Aplicaciones financieras y de banca:− obtención de patrones de uso fraudulento de tarjetas.− obtención de perfiles de clientes en el uso de tarjetas.− obtención de correlaciones entre indicadores financieros.− análisis de riesgos en la concesión de préstamos, ...

Áreas de Aplicación1. Introducción a la Minería de datos (DM)

• Análisis de mercado, distribución y comercio:− análisis de la cesta de la compra.− evaluación de campañas publicitarias.− obtención de perfiles de clientes.− análisis de la fidelidad de los clientes, ...

42

• Seguros:− identificación de clientes potencialmente caros.− identificación de clientes que pueden contratar nuevas pólizas.− identificación de clientes con comportamiento fraudulento...


• Medicina:− diagnóstico de enfermedades.− grupos de riesgo para distintas patologías.− recomendación priorizada de fármacos.− gestión de servicios sanitarios, ...

43

• Otros sectores:− compañías de servicios: telecomunicaciones, agua, gas, ....− correo electrónico, agendas personales.− turismo− tráfico− uso de web− ...


44






45


KDD (Knowledge Discovery in Databases)

El proceso de KDD (extracción de conocimiento en bases de datos) es el proceso global que permite la extracción de conocimiento a partir de datos almacenados.

Sistemas deInformación

KD

D

Conocimiento

Evaluación /Interpretación /Visualización

Preparación delos Datos

Minería de Datos

Patrones

46

2. El pro

ceso

de K

DD

Fuentes de datos

ETL

Data Warehouse

Preparación de los datos

Extracción

Limpieza

Transformación

Selección

Limpieza

Transformación

Minería de datos

Modelos de datos

Evaluación

Conocimiento

Difusión y uso

Decisiones

Vista minable

47

2. El pro

ceso

de K

DD

Fuentes de datos

ETL

Data Warehouse


Extracción

Limpieza

Transformación

Selección

Limpieza

Transformación

Minería de datos

Modelos de datos

Evaluación

Conocimiento

Difusión y uso

Decisiones

Vista minable

1

2

3

4

48

2. El proceso de KDDFase de preparación de los datos.

Fuentes de datos

ETL

Data Warehouse


Extracción

Limpieza

Transformación

Selección

Limpieza

Transformación

Vista minable

Fuentes de datos

Vista minable

Extracción

Limpieza

Transformación

Selección


Vista minable: subconjunto de los datos sobre el que se va a aplicar una técnica de DM.

La “calidad del conocimiento extraido” en el proceso de KDD no depende sólo de la técnica de DM utilizada, depende

también de la calidad de los datos utilizados.

49


Fuentes de datos

ETL

Data Warehouse


Extracción

Limpieza

Transformación

Selección

Limpieza

Transformación

Vista minable

Fuentes de datos

Vista minable

Extracción

Limpieza

Transformación

Selección


Estas actividades de preparación de los datos

dependen de la tarea de DM que se vaya a realizar y de los requisitos de la técnica o del

algoritmo utilizado.

50


Fuentes de datos

ETL

Data Warehouse


Extracción

Limpieza

Transformación

Selección

Limpieza

Transformación

Vista minable

Fuentes de datos

Vista minable

Extracción

Limpieza

Transformación

Selección


La selección de datos es una de las tareas más importantes en la fase de preparación de los datos:

• selección vertical: los atributos (campos) seleccionados deben ser significativos para el conocimiento que se desea obtener y la tarea de DM que se pretende realizar.

• selección horizontal: a veces es suficiente realizar la tarea de DM sobre un subconjunto (muestra) de los datos disponibles.

51

2. El proceso de KDDFase de Minería de Datos.

Minería de datos

Modelos de datos

Vista minable

Minería de datos: extracción de conocimiento a partir de datos almacenados.

Modelo de los datos

Descripción de los patrones o relaciones existentes en los datos.

52


Minería de datos

Modelos de datos

Vista minable

Decisiones previas a la fase de DM

analizar el tipo de conocimiento que se desea obtener.

determinar la tarea de DM que es mas apropiada para extraer dicho conocimiento.

elegir una técnica de DM para realizar la tarea.

elegir el algoritmo mas adecuado para aplicar la técnica de DM elegida.

53


Minería de datos

Modelos de datos

Vista minable

Ejemplo 1: análisis de riesgo en préstamos bancarios.

se desea poder predecir si un cliente devolverá o no un préstamo.

la clasificación de los clientes en "clientes de confianza" y "clientes de riesgo" a partir de sus caracterísiticas, sería una tarea de DM adecuada para la obtención del conocimiento que se busca.

la técnica de generación de reglas en forma de árboles de decisión puede producir un modelo de datos sencillo y comprensible para los empleados.

los algoritmo CART o C5.0 son algoritmos para la generación de árboles de decisión disponibles en el sistema de DM de la organización.

54


Minería de datos

Modelos de datos

Vista minable

Tarea de DM Problema Tipo de

conocimiento

Técnica de DM

... Técnica de DM

Algoritmo ... Algoritmo

Modelo de los datos

Fase de Minería de Datos.

55

Minería de datos

Modelos de datos

Vista minable

Tar

eas

de D

M

Pre

dict

ivas

De

scri

ptiv

as

Estimación de valores futuros o desconocidos de variables de interés (variable objetivo) a partir de otras variables independientes (predictivas).

Identificación de patrones en los datos que los explican o resumen.

Ejemplos: 1 y 3

Ejemplos: 2, 4 y 5


56


Fase de Evaluación.

Modelos de datos

Evaluación

Conocimiento

Principio ("escandalo") de la Inducción:

Las hipótesis inducidas se pueden refutar, pero no se pueden confirmar.

57


Fase de Evaluación.

Modelos de datos

Evaluación

Conocimiento

Evaluación: Medida de la validez (calidad) del modelo obtenido por una tarea de DM.

Medidas de validez: dependen de la tarea de DM aplicada.

58



A partir de estos datos, las técnicas de DM podrían generar un modelo de los datos, consistente en un conjunto de reglas de asociación entre los productos que con frecuencia son adquiridos conjuntamente. Este modelo proporcionaría una descripción "mas significativa" de los datos disponibles.


59








60







¿Cuál es la validez de estas reglas?

¿Qué garantía tenemos de no equivocarnos si tomamos decisiones usando estas reglas?

61







La primera regla tiene una confianza del 100%, es decir en todos

los ejemplos (en la muestra) en los que se ha comprado pañales

también se ha comprado leche. Pero, ¿cuántos ejemplos tenemos

en la muestra en los que se haya comprado pañales?. Este valor

podría ser 1, con lo cual la regla sería poco significativa.

62


Fase de difusión y uso.

Una vez generado y validado el modelo, éste se puede usar con distintas fines:

- los analistas toman decisiones sobre las actividades del negocio en base al conocimiento proporcionado por el modelo.

- se aplica el modelo a distintos conjuntos de datos para obtener información (conocimiento).

- se difunde el modelo (reglas, funciones, ...) entre los empleados de la organización para apoyar su trabajo.

ConocimientoDifusión y uso Decisiones

63






64

3. Técnicas de Minería de DatosTareas de Minería de Datos.

Minería de datos

Modelos de datos

Vista minable


conocimiento

Técnica de DM

... Técnica de DM


Modelo de los datos

65

Tareas de Minería de Datos.Minería de datos

Modelos de datos

Vista minable

Tar

eas

de D

M

Pre

dict

ivas

De

scri

ptiv

as

Estimación de valores futuros o desconocidos de variables de interés (variable objetivo) a partir de otras variables independientes (predictivas).

Identificación de patrones en los datos que los explican o resumen.

Ejemplos: 1 y 3

Ejemplos: 2, 4 y 5


66


Modelos de datos

Vista minable

Tar

eas

de D

M

Pre

dict

ivas

De

scri

ptiv

asClasificación

Regresión

Asociación

Agrupamiento (clustering)

Correlación


67


Modelos de datos

Vista minable

Dominio de ejemplos: D

tipo_ejemplo = {A1:D1, A2:D2, ..., An:Dn}

ejemplo e = {A1:v1, A2:v2, ..., An:vn} / viDi

e = <v1, v2, ..., vn> / viDi

D = {e: <v1, v2, ..., vn> / viDi}


68


Modelos de datos

Vista minable

Tar

eas

de D

M

Pre

dict

ivas

De

scri

ptiv

asClasificación

Regresión

Asociación


Correlación


69

Tareas de Minería de Datos.T

area

s de

DM

Pre

dict

ivas

De

scri

ptiv

asClasificación

Regresión

Asociación


Correlación


Clasificación

Clasificación suave

Estimación de probabilidad de clasificación

Categorización

70


Modelos de datos

Vista minable

Tareas predictivas.

La clasificación:

A cada ejemplo del tipo de objeto a clasificar (registro de la base de datos) se le asigna una clase, representada por el valor de un atributo (atributo de clase). El dominio del atributo de clase es discreto, cada valor representa una clase de objeto.

Los restantes atributos que sean significativos para determinar la clase, son utilizadas por las técnicas de clasificación para generar funciones (reglas) que permiten determinar la clase de un ejemplo a partir de los valores de sus atributos significativos.

El objetivo de la tarea es poder predecir la clase de nuevos ejemplos a partir del valor de sus atributos significativos, utilizando las reglas generadas.


71


Modelos de datos

Vista minable

Tareas predictivas.

La clasificación:

Entrada:

- tipo_ejemplo = {A1:D1, A2:D2, ..., An:Dn}

- D = {e: <v1, v2, ..., vn> / viDi}: dominio de ejemplos

- E D: conjunto de ejemplos (muestra)

- S = {c1, c2, ..., cm}: m clases,

- {<e, s>: eE, sS}: conjunto de ejemplos etiquetado

Salida:

: E S: función clasificador


72


Un banco desea disponer de un modelo que le permita predecir qué tipo de clientes podrían no devolver un préstamo solicitado. La entidad dispone de información sobre préstamos anteriores, así como datos personales de los titulares de esos préstamos.

ID D-crédito


Salario (euros)

Casa propia

Cuentas morosas



Tareas predictivas: la clasificación.


73



C-crédito (euros)

Salario (euros)

Casa propia

Cuentas morosas



Regla 1:

Si cuentas-morosas > 0 entonces devuelve-préstamo = no

Regla 2:

Si cuentas-morosas = 0 Y ( salario>2.500 O D-credito>10)

entonces devuelve-préstamo = sí

... Modelo de datos


74



C-crédito (euros)

Salario (euros)

Casa propia

Cuentas morosas

... Devuelto-crédito


(x, y, z, w, n, ...) = 'no' : n > 0

(x, y, z, w, n, ...) = 'si' : n = 0, z > 2500

(x, y, z, w, n, ...) = 'si' : n = 0, x > 10

...Modelo de datos


75


ID D-crédito C-crédito Salario Casa propia Cuentas morosas ...

111 15 60.000 2.600 sí 0

Devuelve-préstamo = SÍ

(x, y, z, w, n, ...) = 'no' : n > 0

(x, y, z, w, n, ...) = 'si' : n = 0, z > 2500

(x, y, z, w, n, ...) = 'si' : n = 0, x > 10

... Modelo de datos


76


Modelos de datos

Vista minable

Tareas predictivas.

La clasificación suave:

Entrada:



- S = {c1, c2, ..., cm}: m clases,


Salida:

: E S: función clasificador

: E R: función de certeza (grado de certeza de la predicción hecha por la función )


77


Modelos de datos

Vista minable

Tareas predictivas.

La estimación de probabilidad de clasificación:

Entrada:



- S = {c1, c2, ..., cm}: m clases,


Salida:

i: E R (i: 1..m): funciones de certeza (grado de certeza de que un

ejemplo sea de la clase i).


78


Modelos de datos

Vista minable

Tareas predictivas.

La categorización:

Entrada:



- S = {c1, c2, ..., cm}: m clases,


Salida:

E × S: correspondencia de clasificación


79


area

s de

DM

Pre

dict

ivas

De

scri

ptiv

asClasificación

Regresión

Asociación


Correlación


80


Modelos de datos

Vista minable

Tareas predictivas.

La regresión:

A partir de los datos de un conjunto de ejemplos, se busca una función real entre un atributo (atributo objetivo) y un conjunto de atributos significativos del tipo de objeto.

Los dominios de los atributos deben ser numéricos.

El objetivo de la tarea es poder predecir el valor del atributo objetivo de nuevos ejemplos a partir del valor de sus atributos significativos, utilizando la función generada.

Nota: Es un caso particular de la tarea de clasificación, cuando el dominio de salida de la función es numérico.


81


Modelos de datos

Vista minable

Tareas predictivas.

La regresión:

Entrada:

- tipo_ejemplo = {A1:D1, A2:D2, ..., An:Dn} / Di es numérico



- S = R|Z, (dominio numérico)


Salida:

: E S: función de regresión


82

Tareas de Minería de Datos. Minería de datos

Modelos de datos

Vista minable

Tareas predictivas.

Regresión Lineal Global.Se buscan los coeficientes de una función lineal:

Una manera fácil (si es lineal simple, es decir con dos dimensiones x e y):

obteniendo y = w0 + w1x (n es el número de ejemplos de la muestra)

nn xwxwwy ...110

221

xxn

yxxynw

22

2

0

xxn

xyxxyw


83



Una cadena de tiendas de electrodomésticos desea optimizar el funcionamiento de su almacén, manteniendo un stock de cada producto que sea suficiente para poder servir rápidamente los pedidos de sus clientes. La organización dispone de información sobre las ventas de cada producto en cada mes del último año.

Tareas predictivas: la regresión.


84



mes

ventas

producto 5

Tareas predictivas: la regresión.


85


Modelos de datos

Vista minable

Tar

eas

de D

M

Pre

dict

ivas

De

scri

ptiv

asClasificación

Regresión

Asociación


Correlación


86


area

s de

DM

Pre

dict

ivas

De

scri

ptiv

asClasificación

Regresión

Asociación


Correlación


87


Modelos de datos

Vista minable

Tareas descriptivas.

El agrupamiento o segmentación (clustering):

Se buscan grupos naturales en el conjunto de ejemplos, a partir de los valores de sus atributos.

Las técnicas de DM agrupan los ejemplos basándose en el principio de maximizar la similitud entre los elementos de un grupo y de minimizar la similitud entre los elementos de grupos distintos.

El objetivo de la tarea es poder describir de forma resumida el conjunto de ejemplos: cada grupo formado se considera un resumen de los elementos que lo forman.


88


Modelos de datos

Vista minable


El agrupamiento:

Entrada:



Salida:

- S = {c1, c2, ..., cm}: m grupos,

- : E S: función de agrupación.


89


El departamento de recursos humanos de una gran empresa, desea categorizar a sus empleados en distintos grupos, con el objetivo de establecer una trato personalizado con ellos y definir las políticas sociales de la empresa. La organización dispone en sus bases de datos de información sobre sus empleados.

Tareas descriptivas: el agrupamiento.


90


ID Sueldo Casado Coche Hijos Alq/Prop Sindic. Bajas/Año Antigüedad Sexo1 10000 Sí No 0 Alquiler No 7 15 H2 20000 No Sí 1 Alquiler Sí 3 3 M3 15000 Sí Sí 2 Propietario Sí 5 10 H4 30000 Sí Sí 1 Alquiler No 15 7 M5 10000 Sí Sí 0 Propietario Sí 1 6 H6 40000 No Sí 0 Alquiler Sí 3 16 M7 25000 No No 0 Alquiler Sí 0 8 H8 20000 No Sí 0 Propietario Sí 2 6 M9 20000 Sí Sí 3 Propietario No 7 5 H10 30000 Sí Sí 2 Propietario No 1 20 H11 50000 No No 0 Alquiler No 2 12 M12 8000 Sí Sí 2 Propietario No 3 1 H13 20000 No No 0 Alquiler No 27 5 M14 10000 No Sí 0 Alquiler Sí 0 7 H15 8000 No Sí 0 Alquiler No 3 2 H



91


Grupo 1: 5 ejemplos Sueldo : 22600 Casado : No -> 0.8

Sí -> 0.2 Coche : No -> 0.8

Sí -> 0.2 Hijos : 0 Alq/Prop : Alquiler -> 1.0 Sindic. : No -> 0.8

Sí -> 0.2 Bajas/Año : 8 Antigüedad : 8 Sexo : H -> 0.6

M -> 0.4

Grupo 2: 4 ejemplos Sueldo : 22500 Casado : No -> 1.0 Coche : Sí -> 1.0 Hijos : 0 Alq/Prop : Alquiler -> 0.75

Prop -> 0.25

Sindic. : Sí -> 1.0 Bajas/Año : 2 Antigüedad : 8 Sexo : H -> 0.25

M -> 0.75

Grupo 3: 6 ejemplos Sueldo : 18833 Casado : Sí -> 1.0 Coche : Sí -> 1.0 Hijos : 2 Alq/Prop : Alquiler -> 0.17

Prop -> 0.83

Sindic. : No -> 0.67 Sí -> 0.33

Bajas/Año : 5 Antigüedad : 8 Sexo : H -> 0.83

M -> 0.17



• GRUPO 1: Solteros, sin hijos y de alquiler. Poco sindicados. Muchas bajas.

• GRUPO 2: Solteros, sin hijos y de alquiler. Muy sindicados. Pocas bajas. Normalmente mujeres.

• GRUPO 3: Casados, con hijos y propietarios. Poco sindicados. Normalmente hombres.

92


area

s de

DM

Pre

dict

ivas

De

scri

ptiv

asClasificación

Regresión

Asociación


Correlación


Asociación

Dependencias funcionales

Patrones secuenciales

93

Minería de datos

Modelos de datos

Vista minable

La asociación:

Se buscan relaciones no explícitas entre los valores de atributos discretos; ejemplo: "si el atributo X toma el valor v1 entonces el atributo Y toma el valor v2"

La existencia de una asociación entre atributos no siempre implica la existencia de una relación causa-efecto.

El objetivo de la tarea es poder describir de forma concisa relaciones existentes entre los valores de los atributos del conjunto de ejemplos.


Tareas de Minería de Datos.


94


Modelos de datos

Vista minable


La asociación:

Entrada:

- tipo_ejemplo = {A1:D1, A2:D2, ..., An:Dn} (Di es generalmente discreto)

- D = {e: <v1, v2, ..., vn> / vi Di}: dominio de ejemplos


Salida:

Ri: Ai=a Aj=b ... Ak = k Ar=c Aw=d ... Am=e

(regla direccional o dependencia de valores), o

Ri: Ai=a Aj=b ... Ak = k Ar=c Aw=d ... Am=e

(regla bidireccional)


95


Un supermercado desea obtener información sobre los hábitos de compra de sus clientes, con el objetivo de mejorar la ubicación de los productos en el local. La organización dispone de información reciente sobre los productos adquiridos en las compras realizadas por los clientes.


Tareas descriptivas: la asociación.


96









97



R1 : pañales='si' leche='si'

R2 : huevos='si' aceite ='si'

R3 : vino='si' salmón='si' lechugas ='si'



98


Modelos de datos

Vista minable

Clasificación de reglas de asociación.

Dominios de los atributos:

- Binarios: indican la presencia o ausencia de un item en el ejemplo.

pañales = 'si' leche = 'si' (pañales leche)

- Discretos:

país = 'Alemania' precio = 'caro'

- Numéricos:

15< edad <20 riesgo = 'alto'


99


Modelos de datos

Vista minable

Clasificación de reglas de asociación.

Niveles de abstracción: reglas multinivel.

Las reglas de asociación no se definen al nivel básico en una dimensión, sino basándose en niveles superiores jerárquicamente en la dimensión.

Vino = 'sí' Gaseosa = 'sí'


producto categoría departamento

100


Modelos de datos

Vista minable


La asociación: dependencias funcionales.

Entrada:

- tipo_ejemplo = {A1:D1, A2:D2, ..., An:Dn} / Di es discreto



Salida:

- Ri: Ai Aj ... Ak Ar

Para cualquier conjunto de valores (x, y, ..., z, w), si existe un ejemplo para el que Ai=x Aj=y ... Ak = z Ar=w entonces para cualquier otro ejemplo

para el que Ai=x Aj=y ... Ak = z se cumple que Ar=w.


101

Minería de datos

Modelos de datos

Vista minable

Los patrones secuenciales:

Se trata de buscar asociaciones de la forma: "si sucede el evento X en el instante de tiempo t entonces sucederá el evento Y en el instante t+n"

El objetivo de la tarea es poder describir de forma concisa relaciones temporales que existen entre los valores de los atributos del conjunto de ejemplos.


Tareas de Minería de Datos.


102


Modelos de datos

Vista minable


Los patrones secuenciales:

Entrada:

- tipo_ejemplo = {A1:D1, A2:D2, ..., An:Dn} / Di es discreto



Salida:

Ri: Ai=a Aj=b ... Ak = k (t) Ar=c Aw=d ... Am=e (t'>t)

(regla direccional o dependencia de valores), o

Ri: Ai=a Aj=b ... Ak = k (t) Ar=c Aw=d ... Am=e (t'>t)

(regla bidireccional)


103


Modelos de datos

Vista minable

Tareas descriptivas: patrones secuenciales


104


Modelos de datos

Vista minable



105


Modelos de datos

Vista minable



106


area

s de

DM

Pre

dict

ivas

De

scri

ptiv

asClasificación

Regresión

Asociación


Correlación


107


Modelos de datos

Vista minable


La correlación

Se busca el grado de similitud de los valores de dos atributos numéricos.

El grado de similitud se mide por el coeficiente de correlación r (r[-1 ... 1]): si r es positivo los atributos tienen un comportamiento similar (ambos crecen o ambos decrecen al mismo tiempo), si r es negativo cuando un atributo crece el otro decrece, si r es cero no existe relación entre ambos atributos.

El objetivo de la tarea es poder describir de forma concisa relaciones existentes entre atributos del conjunto de ejemplos.


108


Modelos de datos

Vista minable

Tareas predictivas.

La correlación:

Entrada:

- tipo_ejemplo = {A1:D1, A2:D2, ..., An:Dn} / Di es numérico



Salida:

R: {A1, A2 ,An} x {A1, A2 ,An} [-1 .. 1]

Función que asigna a cada par de atributos del esquema del ejemplo un valor de correlación.


109


Un Centro de Salud, desea analizar los factores que influyen en la asistencia de un paciente al Centro de Salud.

Factores:

Salud: salud del paciente. (1-10) Necesidad: convicción del paciente de que la visita es importante. (1-10) Transporte: disponibilidad de transporte para trasladarse al centro. (1-10) Niños: disponibilidad de dejar a los niños. (1-10) Laboral: posibilidad de darse de baja laboral. (1-10) Satisfacción: satisfacción del paciente con su médico. (1-10) Cita: facilidad del paciente para concertar una cita. (1-10) Asistencia: indica si el paciente se ha pasado por el Centro de Salud durante el último

año (0: se ha pasado, 1: no se ha pasado).

Tareas descriptivas: la correlación.


110


Salud Necesidad Transporte Niños Laboral Satisfacción Cita Asistencia Salud 1 Necesidad -0.7378 1 Transporte 0.3116 -0.1041 1 Niños 0.3116 -0.1041 1 1 Laboral 0.2771 0.0602 0.6228 0.6228 1 Satisfacción 0.22008 -0.1337 0.6538 0.6538 0.6257 1 Cita 0.3887 -0.0334 0.6504 0.6504 0.6588 0.8964 1 Asistencia 0.3955 -0.5416 -0.5031 -0.5031 -0.7249 -0.3988 -0.3278 1

El cuadro de correlaciones obtenido es:

El coeficiente de correlación r (r[-1 ... 1]) se interpreta de la siguiente forma: si r es positivo los atributos tienen un comportamiento similar (ambos crecen o ambos decrecen al mismo tiempo), si r es negativo cuando un atributo crece el otro decrece, si r es cero no existe correlación entre ambos atributos.

Tareas descriptivas: la correlación.


111

Minería de datos

Modelos de datos

Vista minable


conocimiento

Técnica de DM

... Técnica de DM


Modelo de los datos



112


Técnicas de Minería de Datos.


Clasificación:

-Ténicas estadísticas -Técnicas

bayesianas

-Técnicas de conteo de frecuencias

-Técnicas basadas en árboles de decisión

-Técnicas relacionales declarativas

-Técnicas basadas en redes neuronales

-Técnicas basadas en núcleo

-Técnicas estocásticas o difusas

-Técnicas basadas en densidad o distancia.

113

Minería de datos

Modelos de datos

Vista minable




Técnicas estadísticas: expresan los modelos y patrones mediante el uso de

funciones lineales, funciones no lineales, distribuciones, correlaciones,

medidas estadísticas, etc.

Ejemplos: regresión lineal, regresión logarítmica, regresión logística,

discriminantes lineales y no lineales.

114

Minería de datos

Modelos de datos

Vista minable




Técnicas bayesianas: se basan en estimar la probabilidad de pertenencia (a una clase o un grupo) mediante la estimación de las probabilidades condicionales inversas, utilizando el teorema de Bayes.

Técnicas basadas en conteo de frecuencias: se basan en contar la frecuencia con la que dos o mas sucesos se presentan conjuntamente.

115

Minería de datos

Modelos de datos

Vista minable




Técnicas basadas en árboles de decisión y sistemas de aprendizaje de reglas: representan los modelos aprendidos en forma de reglas.

Ejemplos: algoritmos "divide y vencerás" (ID3/C4.5, CART), algoritmos "separa y vencerás" (CN2).

Técnicas relacionales declarativas: se basan en la representación de los modelos mediante lenguajes declarativos (lógicos, funcionales, lógico-funcionales).

Ejemplo: técnicas basadas en ILP (programación lógica inductiva) denominada "minería de datos relacional".

116

Minería de datos

Modelos de datos

Vista minable




Técnicas basadas en redes neuronales artificiales: se trata de técnicas que aprenden un modelo mediante el entrenamiento de los pesos que conectan un conjunto de nodos o neuronas. La topología de la red y los pesos de las conexiones determinan el patrón aprendido.

Ejemplos: perceptón simple, redes multicapa, redes de base radial, redes de Kohonen, etc.

Técnicas basadas en núcleo y máquinas de soporte vectorial: se trata de técnicas que intentan maximizar el margen entre los grupos o las clases formadas.

117

Minería de datos

Modelos de datos

Vista minable




Técnicas estocásticasy difusas: se trata de técnicas en las que los componentes aleatorios son fundamentales o en las que se utilizan funciones de pertenencia difusa.

Técnicas basadas en casos, densidad o distancia: se trata de técnicas que se basan en medir las distancias entre los elementos, ya sea directamente, como el método de los vecinos más próximos (los casos más similares) o mediante la estimación de funciones de densidad.

Ejemplos: algoritmos de vecinos más próximos (K-NN), algoritmos jerárquicos (Two-step, COBWED), algoritmos no jerárquicos (K-means).

118

Predictivas Descriptivas

Técnica Clasificación Regresión Agrupamiento Asociación Correlación

Redes Neuronales

Árboles de decisión (ID.3, C4.5, C5.0)

Árboles de decisión (CART)

Otros árboles de decisión

Redes de Kohonen

Regresión lineal y logarítmica

Regresión logística

K-means

Apriori

Naive Bayes

119

Predictivas Descriptivas

Técnica Clasificación Regresión Agrupamiento Asociación Correlación

Vecinos mas próximos

Análisis factorial

Twostep, Cobwed

Algoritmos genéticos y evolutivos

Máquinas de vectores soporte

CN2 reglas

Análisis discriminante multivariante

120

Tareas de DM

Pre

dict

ivas

De

scri

ptiv

as

Clasificación

Regresión

Asociación


Correlación


Técnicas de DM

k-NN (Nearest Neighbor).

k-means (Competitive learning).

Perceptron Learning.

Multilayer ANN methods (e.g. backpropagation).

Decision Tree Learning (e.g. ID3, C4.5, CART).

Bayes Classifiers.

Center Splitting Methods.

Pseudo-relational: Supercharging, Pick-and-Mix.

Relational: ILP, IFLP, SCIL.

121

Tareas de DM

Pre

dict

ivas

De

scri

ptiv

as

Clasificación

Regresión

Asociación


Correlación


Técnicas de DM



Redes neuronales de Kohonen

EM (Estimated Means) (Dempster et al. 1977).

Cobweb (Fisher 1987).

AUTOCLASS

...

122

Tareas de DM

Pre

dict

ivas

De

scri

ptiv

as

Clasificación

Regresión

Asociación


Correlación


Técnicas de DM

Técnicas estadísticas


Técnicas de conteo de frecuencia

123

Tareas de DM

Pre

dict

ivas

De

scri

ptiv

as

Clasificación

Regresión

Asociación


Correlación


Técnicas de DM

Técnicas de conteo de frecuencia



124

Técnicas de búsqueda de asociaciones:

Técnica APRIORI (Agrawal & Srikant 1994)

• es una técnica de conteo de frecuencias: se basa en contar la frecuencia con la que dos o mas sucesos ocurren conjuntamente.

• es una técnica para atributos con dominios binarios: (si/no).

.

125

Técnicas de búsqueda de asociaciones: Técnica APRIORI

• FASE A: BÚSQUEDA DE “LARGE ITEMSETS”. Se buscan conjuntos de atributos con soporte >= s (soporte deseado), llamados ‘large itemsets’ (conjuntos de atributos grandes).

• FASE B: BÚSQUEDA DE DEPENDENCIAS (REGLAS). Se hacen particiones binarias y disjuntas (reglas) de los conjuntos formados en la fase anterior, y se calcula la confianza de cada partición (regla). Se seleccionan aquellas reglas que tienen una confianza >= c (confianza deseada).

Soporte (absoluto) de un atributo: número de ejemplos de la muestra en los que el atributo toma el valor 'si'.Confianza de una regla de asociación: proporción del número de ejemplos de la muestra para los que la regla funciona bien respecto al número de ejemplos de la muestra a los que se puede aplicar la regla.

126


FASE A:

Dado un soporte deseado s:

Paso 1. i=1 (tamaño de los conjuntos)

Paso 2. Generar un conjunto unitario para cada atributo, {Ak}: k:1..n.

Construir el conjunto Si = {{Ak}: k:1..n }.

Paso 3. Comprobar el soporte de cada conjuntos en Si. Eliminar

aquellos con soporte < s.

Paso 4. Combinar los conjuntos en Si para crear conjuntos de

tamaño i+1 para formar Si+1.

Paso 5. Si Si no es vacío entonces i:= i+1. Ir a Paso 3.

Paso 6. Si Si es vacío entonces devolver Sfinal=S2 S3 ... Si

127


FASE B:

BÚSQUEDA DE DEPENDENCIAS (REGLAS). Se hacen particiones binarias y disjuntas (reglas) de los conjuntos de Sfinal, y se calcula la confianza de cada partición (regla). Se seleccionan aquellas reglas que tienen una confianza >= c (confianza deseada).

128

FASE A:

S1= { {1}, {2}, {3}, {4}, {5} } S'1= { {1}:2, {2}:3, {3}:3, {4}:1, {5}:3 }S2= { {1,2}, {1,3}, {1,5}, {2,3}, {2,5}, {3,5} } S'2 = { {1,3}:2, {2,3}:2, {2,5}:3, {3,5}:2 }S3= { {1,2,3}, {1,2,5}, {1,3,5}, {2,3,5} } S'3 = { {2,3,5}:2 }

Sfinal = S'2 S'3 = { {1,3}, {2,3}, {2,5}, {3,5}, {2,3,5} }

FASE B:

Fila 1 2 3 4 51 x x x2 x x x3 x x x x4 x x

muestra

soporte = 2

confianza = 0.75

{1} {3} : 1 {3} {1} : 0.67 {2} {3} : 0.67 {3} {2} : 0.67 {2} {5} : 1 {5} {2} : 1 {3} {5} : 0.67 {5} {3} : 0.67 {2,3} {5} : 1 {2,5} {3} : 0.67 {3,5} {2} : 1

atributos

ejem

plos

129

Tareas de DM

Pre

dict

ivas

De

scri

ptiv

as

Clasificación

Regresión

Asociación


Correlación


Técnicas de DM

Minimal Spaning Tree



Redes neuronales de Kohonen

EM (Estimated Means) (Dempster et al. 1977).

Cobweb (Fisher 1987).

AUTOCLASS

...

130

3. Técnicas de Minería de DatosTécnicas de agrupamiento: métodos jerárquicos.

Un método sencillo consiste en ir agrupando ejemplos según la distancia entre ellos, e ir aumentando el límite de distancia para hacer nuevos grupos. Esto genera agrupaciones a distintos niveles, de una manera jerárquica.

Se denomina Dendograma o Hierarchical Tree Plot:

131


Técnicas de agrupamiento: métodos jerárquicos. Minimal Spanning Tree Clustering

Sea C el número de grupos (clusters) deseado.

Paso 1. Se define un grupo con cada ejemplo.

Paso 2. Se agrupa el par de grupos más cercanos (distnacia mínima) para formar un nuevo grupo.

Paso 3. Si número de grupos < C entonces ir a Paso 2.

132


Técnicas de agrupamiento: "vecinos más próximos". K-means clustering

Se utiliza para encontrar los k puntos más densos en un conjunto arbitrario de puntos.

Algoritmo:

Paso 1. Dividir aleatoriamente la muestra en k conjuntos y

calcular la media (el punto medio) de cada conjunto.

Paso 2. Reasignar cada ejemplo al conjunto con el punto medio

más cercano (distancia mínima).

Paso 3. Calcular los puntos medios de los k conjuntos.

Paso 4. Repetir los pasos 2 y 3 hasta que los conjuntos no varíen.

133


Técnicas de agrupamiento: "vecinos más próximos". K-means clustering

El valor de k se suele determinar heurísticamente. Problemas:

Si se sabe que hay n clases, hacer k=n puede producir que, algunas veces, algún grupo use dos centros y dos grupos separados tengan que compartir centro.

Si k se elige muy grande, la generalización es pobre y las agrupaciones futuras serán malas.

Determinar el k ideal es difícil.

134

Tareas de DM

Pre

dict

ivas

De

scri

ptiv

as

Clasificación

Regresión

Asociación


Correlación


Técnicas de DM



Perceptron Learning.

Multilayer ANN methods (e.g. backpropagation).

Decision Tree Learning (ID3, C4.5, CART).

Bayes Classifiers.

Center Splitting Methods.

Pseudo-relational: Supercharging, Pick-and-Mix.

Relational: ILP, IFLP, SCIL.

135


Árboles de Decisión (ID3 (Quinlan), C4.5 (Quinlan), CART).Algoritmo "Divide y Vencerás":

Paso 1. Se crea un nodo raíz con S:= conjunto de ejemplos.

Paso 2. Si todos los elementos de S son de la misma clase, el subárbol se cierra. Solución encontrada.

Paso 3. Si todos los elementos de S no son de la misma clase entonces

- se elige una condición de partición para el conjunto S

- se aplica la condición a S (S queda subdividido en dos

subconjuntos (subárboles): los que cumplen la condición y los que

no la cumplen)

- ir al Paso 2 para cada uno de los dos subárboles.

Técnicas de clasificación: árboles de decisión.

136


PARTICIÓN

CUADRICULAR.

0 1

1

0

X>0.25

No

X>0.25

X>0.66X>0.75

Y>0.25 Y>0.6

Sí

Y>0.25

No Sí

Sí

X>0.75 X>0.66

Y>0.6

Sí

No No

No

Sí

Árboles de Decisión (ID3 (Quinlan), C4.5 (Quinlan), CART).

Algoritmo "Divide y Vencerás":

137

3. Técnicas de Minería de DatosÁrboles de Decisión: Ejemplo de C4.5 con datos discretos:

Example Sky Temperature Humidity Wind PlayTennis1 Sunny Hot High Weak No2 Sunny Hot High Strong No3 Overcast Hot High Weak Yes4 Rain Mild High Weak Yes5 Rain Cool Normal Weak Yes6 Rain Cool Normal Strong No7 Overcast Cool Normal Strong Yes8 Sunny Mild High Weak No9 Sunny Cool Normal Weak Yes10 Rain Mild Normal Weak Yes11 Sunny Mild Normal Strong Yes12 Overcast Mild High Strong Yes13 Overcast Hot Normal Weak Yes14 Rain Mild High Strong No

138

3. Técnicas de Minería de DatosÁrboles de Decisión: Ejemplo de C4.5 con datos discretos:

Reglas:Outlook=Sunny AND Humidity=Normal PlayTenis=si Outlook=Overcast PlayTenis=si Outlook=Rain AND Wind=Weak PlayTenis=si Other case PlayTenis='no'

Outlook?

YESHumidity?

SunnyOvercast

Rain

Wind?

YES YESNONO

High NormalStrong Weak

139


Técnicas de clasificación: "vecinos más próximos".

k-NN (Nearest Neighbour):Paso 1. Se miran los k ejemplos más cercanos (distancia mínima).Paso 2. Si todos los ejemplos son de la misma clase, el nuevo

ejemplo se clasifica en esa clase.Paso 3. Si los ejemplos no son de la misma clase, se calcula la

distancia media por clase y se asigna a la de menor distancia, o bien se asigna a la clase con más elementos.

• El valor de k se suele determinar heurísticamente.

7-nearest neighbor1-nearest neighbor

? ?Clasificacírculo

Clasificacuadrado

PARTICIÓN 1-nearest neighbor

(Poliédrica o de Voronoi)

140


Técnicas de clasificación: Naive Bayes

Estas técnicas permiten determinar la probabilidad de que un nuevo ejemplo sea de una clase. Eligiendo la clase de mayor probabilidad.

p(H|E)=p(E|H)× p(H)

p(E)

donde:

- H es la hipótesis,

- E es el ejemplo,

- p(A|B) es la probabilidad del suceso A condicinada al suceso B

141



ID Edad Hijos Practica-

deporte Salario Buen-

cliente 101 joven si no alto si 102 joven no no medio no 103 joven si si medio no 104 joven si no bajo sí 105 mayor si no bajo si 106 mayor no si medio si 107 joven no si medio si 108 joven si si alto si 109 mayor si no medio si 110 mayor no no bajo no

Una compañia de seguros dispone de los siguientes datos sobre sus clientes, clasificados en buenos y malos clientes.

142



Edad Hijos Practica-deporte

Salario Buen-cliente

mayor no no

medio ?

Hipótesis H: el nuevo cliente es "buen cliente"

Nuevo ejemplo E:

p(edadE|'si'): se calcula dividiendo el número de ejemplos en la muestra que tienen los

valores edad='mayor' y buen-cliente='si', dividido por el número de ejemplos en la muestra que tienen el valor buen-cliente='sí'.

p(edad|'si'): 3/7

p('sí'|E)=p(edadE|'si') × p(hijosE|'si') × p(practica_deporteE|'si') × p(salarioE|'si')

p(E)

143





mayor no no

medio ?

Hipótesis H: el nuevo cliente es "buen cliente"

Nuevo ejemplo E:

p('sí'|E)=p(edadE|'si') × p(hijosE|'si') × p(practica_deporteE|'si') × p(salarioE|'si')

p(E)

p('si'): se calcula como el número de ejemplos en la muestra que tienen el valor buen-

cliente='si', dividido por el número de ejemplos en la muestra.

p('si'): 7/10

145






146

4. Evaluación de modelos Modelos de datos

Evaluación

Conocimiento

Evaluación: Medida de la validez (calidad) del modelo obtenido por una tarea de DM.

Medidas de validez: dependen de la tarea de DM aplicada.

147

Modelos de datos

Evaluación

Conocimiento

Generación de modelos: división del conjunto de ejemplos.

conjunto de entrenamiento (training set): subconjunto de ejemplos utilizado en la obtención del modelo.

conjunto de prueba o validación (test set): subconjunto de ejemplos utilizado para validar el modelo obtenido.

Tareas Predictivas.


148

Modelos de datos

Evaluación

Conocimiento


Validación simple: si se dispone de un conjunto de ejemplos numeroso, la división se hace equitativamente (50%) y de forma aleatoria.

Validación cruzada: se utiliza cuando no se dispone de un conjunto grande de ejemplos.

Tareas Predictivas.

149

Modelos de datos

Evaluación

Conocimiento


Validación cruzada:

- Validación cruzada simple: se divide el conjunto de ejemplos, aleatoriamente, en dos subconjuntos iguales S1 y S2. Primero se genera un modelo con S1 y se prueba con S2, obteniendo una medida para la validez del modelo. Luego se genera otro modelo con S2 y se prueba con S1, obteniendo una medida de la validez del modelo. Por último se genera un modelo con todos los datos y se le asocia como medida de validez la media de las medidas anteriores.

Tareas Predictivas.


150

Modelos de datos

Evaluación

Conocimiento


Validación cruzada:

- Validación cruzada con n pliegues: se divide el conjunto de ejemplos, aleatoriamente, en n subconjuntos iguales. Un subconjunto se reserva para la prueba y con los otros n-1 se genera un modelo que será probado con el subconjunto reservado, obteniendo una medida de la validez del modelo. Este proceso se repite n veces, reservando en cada ocasión un subconjunto de prueba distinto. Por último se genera un modelo con todos los ejemplos y se le asocia como medida de la validez la media de las medidas de validez anteriores.

Tareas Predictivas.


151

Modelos de datos

Evaluación

Conocimiento

La clasificación

Medida de la validez del modelo: precisión predictiva

Precisión =

X: Nro. de ejemplos del conjunto de prueba (ejemplos etiquetados) clasificadas correctamente por el modelo.

Y: Nro. de ejemplos del conjunto de prueba

X

Y

Tareas Predictivas.


152

Modelos de datos

Evaluación

Conocimiento

La regresión

Medida de la validez del modelo: error cuadrático medio del valor predicho por el modelo, respecto al valor real del ejemplo de prueba.

Error =

Tareas Predictivas.


1

ni=1

n

(yti - yi )2

Yt : representa el valor devuelto por el modelo para el ejemplo.

Y: representa el valor real para el ejemplo.

n. Número de ejemplos.

153

Modelos de datos

Evaluación

Conocimiento

El agrupamiento

Medida de la validez del modelo: basadas en el concepto de distancia

Tareas Descriptivas.

Concepto de Similitud: ejemplos similares deben pertenecer al mismo grupo.

Concepto de Distancia: inversa de similitud.

Definición de Distancia: euclidea, de Manhattan, de Chebychev, del coseno, por diferencia, ..


154

Modelos de datos

Evaluación

Conocimiento

El agrupamiento

Medida de la validez del modelo: basadas en el concepto de distancia


las medidas de validez son función de la cohesión de los grupos y de la separación entre ellos.

la cohesión se puede medir por la distancia de los miembros de un grupo al centro del grupo.

la separación entre grupos se puede medir calculando la distancia media entre grupos.


155

Modelos de datos

Evaluación

Conocimiento

La asociación

Se mide la validez de cada una de las reglas de asociación generadas.

Medidas de la validez:

Cobertura (support): Nro. de ejemplos del conjunto de prueba a los que la regla se aplica (antecedente cierto) y funciona correctamente (consecuente cierto).

Confianza (confidence/accuracy): Proporción del nro. de ejemplos del conjunto de prueba para los que la regla funciona correctamente



156

Modelos de datos

Evaluación

Conocimiento

La asociación


n: nro. de ejemplos

na: nro. de ejemplos a los que se aplica una regla (antecedente cierto)

nc: nro. ejemplos para los que la regla funciona correctamnete (antecedente cierto y consecuente cierto)


Cobertura relativa = nc / n

Cobertura absoluta = nc

Confianza = nc / na


157

Modelos de datos

Evaluación

Conocimiento

La asociación


Cobertura relativa = nc / n

Cobertura absoluta = nc


Confianza = nc / na

Valores deseables:

Cobertura absoluta: > 20, Cobertura relativa: 0.5 (50%)

Confianza: 0.95 (95%)


158









159



R1 : pañales='si' leche='si' (Confianza=1)

R2 : huevos='si' aceite ='si' (Confianza=0.5)

R3 : vino='si' salmón='si' lechugas ='si' (Confianza=0.3)



160

Ejemplo: .


Reglas de asociación:

R1: Casado Hijos > 0 (Confianza: 0.8, Soporte: 4 casos).

R2: Obeso Casado (Confianza: 0.8, Soporte: 4 casos)

R3: Hijos > 0 Casado (Confianza: 1, Soporte: 2 casos).

R4: Casado Obeso (Confianza: 1, Soporte: 3 casos)

DNI Renta Familiar Ciudad Profesión Edad Hijos Obeso Casado11251545 5.000.000 Barcelona Ejecutivo 45 3 S S30512526 1.000.000 Melilla Abogado 25 0 S N22451616 3.000.000 León Ejecutivo 35 2 S S25152516 2.000.000 Valencia Camarero 30 0 S S23525251 1.500.000 Benidorm Animador

ParqueTemático

30 0 N N


mineria de datos y data warehouse

Documents

datos herramientas

ad datos

datos dmen

carga datos

datos dmsadgestor

datos conocimientopatrones

datos data mining1

los datos dwherramientas