datamining4.ppt

39
DATA MINING Caballero, Mauricio Ruiz, Jose Luis

Post on 19-Feb-2016

214 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: datamining4.ppt

DATA MINING

Caballero, MauricioRuiz, Jose Luis

Page 2: datamining4.ppt

Que es DM?

• Proceso Automatico para Identificar Patrones novedosos, utiles y entendibles en los Datos.

• Permite Predecir comportamientos futuros

Page 3: datamining4.ppt

Donde es Aplicable?

• Marketing• Ventas• Finanzas• Bancos, seguros• Seguridad• Medicina• Control Calidad

Page 4: datamining4.ppt

Clases de Modelos

• Modelos Predictivos– Predicen el valor de un atributo

• Modelos Descriptivos– Permiten examinar los factores asociados

Page 5: datamining4.ppt

Modelos Predictivos

• Clasificadores– Predicen un valor discreto

• Regresores – Predicen un valor continuo

Page 6: datamining4.ppt

Modelos Descriptivos

• Agrupamiento– Tambien llamado clustering o segmentacion– Juntan gente, cosas o eventos

• Asociación– Determinan Afinidad (2 cosas juntas)

Page 7: datamining4.ppt

Implementacion

• Descriptivos– Clasificadores

• Redes Neuronales• Arboles de decisión• Bayes Simple• K-vecinos

– Regresores• Redes Neuronales• Arboles de decisión

Page 8: datamining4.ppt

Criterios

• Precisión

• Interpretabilidad

• Velocidad

Page 9: datamining4.ppt

Modelos

• Generar• Entrenar

– Ejemplos, datos usados para aprendizaje, induccion o entrenamiento, de manera de poder predecir los valores.

• Probar

Page 10: datamining4.ppt

Modelos

• Matriz de Confusión

Utilizada en Modelos PredictivosCompara Predicción con lo real

Page 11: datamining4.ppt

Matriz Confusión• Predicción

• REALSí

Sí No

No

Bien

Bien

Mal

Mal

Page 12: datamining4.ppt

Técnicas Modelado Predictivo

• Redes Neuronales– Entrenamiento Supervisado– Utilizan Pares Entrenamiento– Cuantificar Error– Rápida Respuesta

Page 13: datamining4.ppt

Técnicas Modelado Descriptivo

• Clustering– Grupos Afinidad de datos– Redes Kohonen, algoritmos demograficos

• Asociacion y Secuenciamiento– Ayuda Descubrir Patrones datos ocultos que

pueden usarse p/promociones, aumento ventas..

Page 14: datamining4.ppt

Redes Neuronales

• Entrada Intermedio Salida

• Real

wij

Page 15: datamining4.ppt

Análisis de Canasta (Market Basket Analysis

• Utiliza Método de asociación, determinar afinidad, cuando ocurren 2 o mas cosas juntas.

• Usado supermercados, ventas minoristas.

Page 16: datamining4.ppt

USDA Rural Housing Services

• Departamento Agricultura EEUU– Programa préstamos hipotecarios para gente

que vive zonas rurales– 600.000 préstamos y mucha información en su

DWH• Necesidades

– Patrones que permitan predecir cuando el tomador préstamo empieza a tener problemas

Page 17: datamining4.ppt

Estudio Preliminar

• Muestra 12.000 datos– Prestamo (monto, cuotas, fechas, proposito)– Objeto (tipo vivienda, propiedad)– Tomador (edad, E.C, raza, cat. Ingresos)– Región (estado y minorías dentro estado)

Page 18: datamining4.ppt

USDA

• Utilizaron clasificador 5 grupos– Sin Problemas– Substandard– Perdido– No clasificado– No disponible

Page 19: datamining4.ppt

Construcción Modelo

• Se utilizaron 8000 filas para la construcción del modelo

• 4000 filas se dejaron para prueba• Se comparaba el resultado de la predicción

con el real y se obtenía un puntaje de precisión

• Utilizo una herramienta Bayes

Page 20: datamining4.ppt

Problemas

• Primer Modelo muy pobre. 50% casos• Distribución no uniforme préstamos, pocos

con mas de 60000 dols. Mayoria con menos de 400

• Algoritmo armaba franjas en forma automática, 5 con paso de 12000

• El binning ocultaba relación entre monto y conducta del préstamo

Page 21: datamining4.ppt

1 Solución• Ajustaron los rangos de las franjas• Precisión llego al 67% y 76% para los casos

sin problemas y perdidos

El binning standard había eliminado patrones importantes

Page 22: datamining4.ppt

Eliminar Datos Irrelevantes

• Datos incluían valor total adeudado• Modelo lo tomaba como excelente predictor• No útil, dato que refleja cosas que ya

pasaron… Credito con problemas• Al eliminarlo, precisión cayo al 46% y 37%

en casos perdidos

Page 23: datamining4.ppt

Que hacer?

• Recategorizar : Las categorías no clasificable y no disponible representaban menos del 1% de los prestamos

• Se descartan estas filas, quedan solo 3, agrupando y dejando solo OK y No OK

• Solo predecía el 20% de los préstamos con problemas

Page 24: datamining4.ppt

Refinamiento adicional

• Arboles de decisión – Mejoro predicción al 85%, los no OK fue del

23%– Es buen resultado, permite un ahorro estimado

de 9 a 11 U$S

Page 25: datamining4.ppt

Resultado

• Revelaron Factores Importantes– Tipo Prestamo– Estado Civil– Monto Cuota

• Futuro : – Incorporar mas atributos del DWH para DM

Page 26: datamining4.ppt

Precisión

• Se mide generando predicciones para casos con resultados ya conocidos

• Clasificadores es Correcta o Incorrecta, la precisión se mide como porcentaje

• Depende del conjunto de datos, no se puede saber de antemano

• Frecuentemente Redes Neuronales y Arboles de Decisión son mas precisos

Page 27: datamining4.ppt

Data Mining

• Definir el Problema– Entender el Negocio– Entender los datos

• Construir BD para DM– Recolección– Selección– Depuración– Carga

Page 28: datamining4.ppt

Data Mining

• Explorar los Datos– Distribución– Relación– Influencia

• Preparar los Datos– Se eligen Variables– Se eligen Filas– Se crean Nuevas Variables

Page 29: datamining4.ppt

Data Mining

• Construir el modelo• Entrenar y Ejecutar el Modelo

– Datos Entrenamiento– Datos Prueba

• Se Prueba el Modelo

Page 30: datamining4.ppt

Data Mining

• Se Evalúan los resultados• Se Realizan corridas adicionales• Se guardan los resultados

Page 31: datamining4.ppt

PRACTICA BD

• Cadena de Hoteles• Manejar reservas habitaciones

Page 32: datamining4.ppt

Entidades Contempladas

• Hoteles• Tipos Habitaciones• Habitaciones• Reservas• Clientes

Page 33: datamining4.ppt

Tablas• * Hoteles

• CodHot N 3• Nombre C

25• Categoria N 1• Ciudad C 25

• *TipoHab

• CodT N 2• Tipo C 25

• * Clientes

• CodCli N 3• NomCli C

25

• Habitaciones• CodHabit N 5• CodHotel N 3• CodTip N 2• Numero N 4

• *Reservas

• CodHab N 5• Estado C 1• CodCliente N 3• FIng Date• FSal Date

Page 34: datamining4.ppt

Consultas1) Habitación doble en Excelsior entre 24 y 31 Julio

• SELECT NUMERO FROM HABITACIONES H • RESERVAS R • TIPOHAB T• HOTELES O• WHERE H.CODHABIT = R.CODHAB• AND O.CODHOT = H.CODHOTEL• AND T.CODT = H.CODTIP• AND T.TIPO = “DOBLE MATRIMONIAL”• AND H.NOMBRE =”EXELSIOR”• AND ((R.FING<=25/07 AND R.FSAL>=24/7)• OR (R.FING<=31/07 AND R.FSAL>=31/7)• OR (R.FING>=24/07 AND R.FSAL<=31/7))

Page 35: datamining4.ppt

Consultas2) Cuantas Triples en Luxor para 14 y 15 Agosto

• SELECT COUNT* FROM HABITACIONES H • RESERVAS R • TIPOHAB T• HOTELES O• WHERE H.CODHABIT = R.CODHAB• AND O.CODHOT = H.CODHOTEL• AND T.CODT = H.CODTIP• AND T.TIPO = “TRIPLE”• AND H.NOMBRE =”LUXOR”• AND R.ESTADO = “R”• AND (R.FING<=14/08 AND R.FSAL>=14/8)• OR (R.FING<=15/08 AND R.FSAL>=15/8))

Page 36: datamining4.ppt

Consultas3) clientes Reservaron en Splendid cuyas reservas vencen hoy

• SELECT NOMCLI FROM HABITACIONES H • RESERVAS R • CLIENTES C• HOTELES O• WHERE H.CODHABIT = R.CODHAB• AND O.CODHOT = H.CODHOTEL• AND R.NUMCLI = C.NUMC• AND R.ESTADO = “R”• AND H.NOMBRE =”SPLENDID”• AND R.FING<=DATE + 5 •

Page 37: datamining4.ppt

Consultas4) Hoteles 4*, MDP, libres 2 dobles entre 28/07 y 3/8

• SELECT NOMBRE FROM HABITACIONES H • RESERVAS R • TIPOHAB T• HOTELES O• WHERE H.CODHABIT = R.CODHAB• AND O.CODHOT = H.CODHOTEL• AND T.CODT = H.CODTIP• AND O.CIUDAD = “MAR DEL PLATA”• AND O.CATEGORIA >3• AND 2 <= (SELECT COUNT * FROM HABITACIONES HH • RESERVAS RR • TIPOHAB TT• HOTELES OO• •

Page 38: datamining4.ppt

• WHERE HH.CODHABIT = RR.CODHAB• AND OO.CODHOT = HH.CODHOTEL• AND TT.CODT = HH.CODTIP• AND H.CODHABIT=HH.CODHABIT• AND T.TIPO = “DOBLE”• AND ((R.FING<=28/07 AND R.FSAL>=28/7)• OR (R.FING<=3/08 AND R.FSAL>=3/8)• OR (R.FING>=28/07 AND R.FSAL<=3/8))

Page 39: datamining4.ppt

Consultas5) Necesita 2 dobles Contiguas Atlantic del 9 al 13/08

• No se puede responder, no disponemos informacion de Dobles Contiguas