datamining4.ppt
Post on 19-Feb-2016
214 views
TRANSCRIPT
![Page 1: datamining4.ppt](https://reader035.vdocuments.us/reader035/viewer/2022081520/5695d3db1a28ab9b029f7328/html5/thumbnails/1.jpg)
DATA MINING
Caballero, MauricioRuiz, Jose Luis
![Page 2: datamining4.ppt](https://reader035.vdocuments.us/reader035/viewer/2022081520/5695d3db1a28ab9b029f7328/html5/thumbnails/2.jpg)
Que es DM?
• Proceso Automatico para Identificar Patrones novedosos, utiles y entendibles en los Datos.
• Permite Predecir comportamientos futuros
![Page 3: datamining4.ppt](https://reader035.vdocuments.us/reader035/viewer/2022081520/5695d3db1a28ab9b029f7328/html5/thumbnails/3.jpg)
Donde es Aplicable?
• Marketing• Ventas• Finanzas• Bancos, seguros• Seguridad• Medicina• Control Calidad
![Page 4: datamining4.ppt](https://reader035.vdocuments.us/reader035/viewer/2022081520/5695d3db1a28ab9b029f7328/html5/thumbnails/4.jpg)
Clases de Modelos
• Modelos Predictivos– Predicen el valor de un atributo
• Modelos Descriptivos– Permiten examinar los factores asociados
![Page 5: datamining4.ppt](https://reader035.vdocuments.us/reader035/viewer/2022081520/5695d3db1a28ab9b029f7328/html5/thumbnails/5.jpg)
Modelos Predictivos
• Clasificadores– Predicen un valor discreto
• Regresores – Predicen un valor continuo
![Page 6: datamining4.ppt](https://reader035.vdocuments.us/reader035/viewer/2022081520/5695d3db1a28ab9b029f7328/html5/thumbnails/6.jpg)
Modelos Descriptivos
• Agrupamiento– Tambien llamado clustering o segmentacion– Juntan gente, cosas o eventos
• Asociación– Determinan Afinidad (2 cosas juntas)
![Page 7: datamining4.ppt](https://reader035.vdocuments.us/reader035/viewer/2022081520/5695d3db1a28ab9b029f7328/html5/thumbnails/7.jpg)
Implementacion
• Descriptivos– Clasificadores
• Redes Neuronales• Arboles de decisión• Bayes Simple• K-vecinos
– Regresores• Redes Neuronales• Arboles de decisión
![Page 8: datamining4.ppt](https://reader035.vdocuments.us/reader035/viewer/2022081520/5695d3db1a28ab9b029f7328/html5/thumbnails/8.jpg)
Criterios
• Precisión
• Interpretabilidad
• Velocidad
![Page 9: datamining4.ppt](https://reader035.vdocuments.us/reader035/viewer/2022081520/5695d3db1a28ab9b029f7328/html5/thumbnails/9.jpg)
Modelos
• Generar• Entrenar
– Ejemplos, datos usados para aprendizaje, induccion o entrenamiento, de manera de poder predecir los valores.
• Probar
![Page 10: datamining4.ppt](https://reader035.vdocuments.us/reader035/viewer/2022081520/5695d3db1a28ab9b029f7328/html5/thumbnails/10.jpg)
Modelos
• Matriz de Confusión
Utilizada en Modelos PredictivosCompara Predicción con lo real
![Page 11: datamining4.ppt](https://reader035.vdocuments.us/reader035/viewer/2022081520/5695d3db1a28ab9b029f7328/html5/thumbnails/11.jpg)
Matriz Confusión• Predicción
• REALSí
Sí No
No
Bien
Bien
Mal
Mal
![Page 12: datamining4.ppt](https://reader035.vdocuments.us/reader035/viewer/2022081520/5695d3db1a28ab9b029f7328/html5/thumbnails/12.jpg)
Técnicas Modelado Predictivo
• Redes Neuronales– Entrenamiento Supervisado– Utilizan Pares Entrenamiento– Cuantificar Error– Rápida Respuesta
![Page 13: datamining4.ppt](https://reader035.vdocuments.us/reader035/viewer/2022081520/5695d3db1a28ab9b029f7328/html5/thumbnails/13.jpg)
Técnicas Modelado Descriptivo
• Clustering– Grupos Afinidad de datos– Redes Kohonen, algoritmos demograficos
• Asociacion y Secuenciamiento– Ayuda Descubrir Patrones datos ocultos que
pueden usarse p/promociones, aumento ventas..
![Page 14: datamining4.ppt](https://reader035.vdocuments.us/reader035/viewer/2022081520/5695d3db1a28ab9b029f7328/html5/thumbnails/14.jpg)
Redes Neuronales
• Entrada Intermedio Salida
• Real
wij
![Page 15: datamining4.ppt](https://reader035.vdocuments.us/reader035/viewer/2022081520/5695d3db1a28ab9b029f7328/html5/thumbnails/15.jpg)
Análisis de Canasta (Market Basket Analysis
• Utiliza Método de asociación, determinar afinidad, cuando ocurren 2 o mas cosas juntas.
• Usado supermercados, ventas minoristas.
![Page 16: datamining4.ppt](https://reader035.vdocuments.us/reader035/viewer/2022081520/5695d3db1a28ab9b029f7328/html5/thumbnails/16.jpg)
USDA Rural Housing Services
• Departamento Agricultura EEUU– Programa préstamos hipotecarios para gente
que vive zonas rurales– 600.000 préstamos y mucha información en su
DWH• Necesidades
– Patrones que permitan predecir cuando el tomador préstamo empieza a tener problemas
![Page 17: datamining4.ppt](https://reader035.vdocuments.us/reader035/viewer/2022081520/5695d3db1a28ab9b029f7328/html5/thumbnails/17.jpg)
Estudio Preliminar
• Muestra 12.000 datos– Prestamo (monto, cuotas, fechas, proposito)– Objeto (tipo vivienda, propiedad)– Tomador (edad, E.C, raza, cat. Ingresos)– Región (estado y minorías dentro estado)
![Page 18: datamining4.ppt](https://reader035.vdocuments.us/reader035/viewer/2022081520/5695d3db1a28ab9b029f7328/html5/thumbnails/18.jpg)
USDA
• Utilizaron clasificador 5 grupos– Sin Problemas– Substandard– Perdido– No clasificado– No disponible
![Page 19: datamining4.ppt](https://reader035.vdocuments.us/reader035/viewer/2022081520/5695d3db1a28ab9b029f7328/html5/thumbnails/19.jpg)
Construcción Modelo
• Se utilizaron 8000 filas para la construcción del modelo
• 4000 filas se dejaron para prueba• Se comparaba el resultado de la predicción
con el real y se obtenía un puntaje de precisión
• Utilizo una herramienta Bayes
![Page 20: datamining4.ppt](https://reader035.vdocuments.us/reader035/viewer/2022081520/5695d3db1a28ab9b029f7328/html5/thumbnails/20.jpg)
Problemas
• Primer Modelo muy pobre. 50% casos• Distribución no uniforme préstamos, pocos
con mas de 60000 dols. Mayoria con menos de 400
• Algoritmo armaba franjas en forma automática, 5 con paso de 12000
• El binning ocultaba relación entre monto y conducta del préstamo
![Page 21: datamining4.ppt](https://reader035.vdocuments.us/reader035/viewer/2022081520/5695d3db1a28ab9b029f7328/html5/thumbnails/21.jpg)
1 Solución• Ajustaron los rangos de las franjas• Precisión llego al 67% y 76% para los casos
sin problemas y perdidos
El binning standard había eliminado patrones importantes
![Page 22: datamining4.ppt](https://reader035.vdocuments.us/reader035/viewer/2022081520/5695d3db1a28ab9b029f7328/html5/thumbnails/22.jpg)
Eliminar Datos Irrelevantes
• Datos incluían valor total adeudado• Modelo lo tomaba como excelente predictor• No útil, dato que refleja cosas que ya
pasaron… Credito con problemas• Al eliminarlo, precisión cayo al 46% y 37%
en casos perdidos
![Page 23: datamining4.ppt](https://reader035.vdocuments.us/reader035/viewer/2022081520/5695d3db1a28ab9b029f7328/html5/thumbnails/23.jpg)
Que hacer?
• Recategorizar : Las categorías no clasificable y no disponible representaban menos del 1% de los prestamos
• Se descartan estas filas, quedan solo 3, agrupando y dejando solo OK y No OK
• Solo predecía el 20% de los préstamos con problemas
![Page 24: datamining4.ppt](https://reader035.vdocuments.us/reader035/viewer/2022081520/5695d3db1a28ab9b029f7328/html5/thumbnails/24.jpg)
Refinamiento adicional
• Arboles de decisión – Mejoro predicción al 85%, los no OK fue del
23%– Es buen resultado, permite un ahorro estimado
de 9 a 11 U$S
![Page 25: datamining4.ppt](https://reader035.vdocuments.us/reader035/viewer/2022081520/5695d3db1a28ab9b029f7328/html5/thumbnails/25.jpg)
Resultado
• Revelaron Factores Importantes– Tipo Prestamo– Estado Civil– Monto Cuota
• Futuro : – Incorporar mas atributos del DWH para DM
![Page 26: datamining4.ppt](https://reader035.vdocuments.us/reader035/viewer/2022081520/5695d3db1a28ab9b029f7328/html5/thumbnails/26.jpg)
Precisión
• Se mide generando predicciones para casos con resultados ya conocidos
• Clasificadores es Correcta o Incorrecta, la precisión se mide como porcentaje
• Depende del conjunto de datos, no se puede saber de antemano
• Frecuentemente Redes Neuronales y Arboles de Decisión son mas precisos
![Page 27: datamining4.ppt](https://reader035.vdocuments.us/reader035/viewer/2022081520/5695d3db1a28ab9b029f7328/html5/thumbnails/27.jpg)
Data Mining
• Definir el Problema– Entender el Negocio– Entender los datos
• Construir BD para DM– Recolección– Selección– Depuración– Carga
![Page 28: datamining4.ppt](https://reader035.vdocuments.us/reader035/viewer/2022081520/5695d3db1a28ab9b029f7328/html5/thumbnails/28.jpg)
Data Mining
• Explorar los Datos– Distribución– Relación– Influencia
• Preparar los Datos– Se eligen Variables– Se eligen Filas– Se crean Nuevas Variables
![Page 29: datamining4.ppt](https://reader035.vdocuments.us/reader035/viewer/2022081520/5695d3db1a28ab9b029f7328/html5/thumbnails/29.jpg)
Data Mining
• Construir el modelo• Entrenar y Ejecutar el Modelo
– Datos Entrenamiento– Datos Prueba
• Se Prueba el Modelo
![Page 30: datamining4.ppt](https://reader035.vdocuments.us/reader035/viewer/2022081520/5695d3db1a28ab9b029f7328/html5/thumbnails/30.jpg)
Data Mining
• Se Evalúan los resultados• Se Realizan corridas adicionales• Se guardan los resultados
![Page 31: datamining4.ppt](https://reader035.vdocuments.us/reader035/viewer/2022081520/5695d3db1a28ab9b029f7328/html5/thumbnails/31.jpg)
PRACTICA BD
• Cadena de Hoteles• Manejar reservas habitaciones
![Page 32: datamining4.ppt](https://reader035.vdocuments.us/reader035/viewer/2022081520/5695d3db1a28ab9b029f7328/html5/thumbnails/32.jpg)
Entidades Contempladas
• Hoteles• Tipos Habitaciones• Habitaciones• Reservas• Clientes
![Page 33: datamining4.ppt](https://reader035.vdocuments.us/reader035/viewer/2022081520/5695d3db1a28ab9b029f7328/html5/thumbnails/33.jpg)
Tablas• * Hoteles
• CodHot N 3• Nombre C
25• Categoria N 1• Ciudad C 25
• *TipoHab
• CodT N 2• Tipo C 25
• * Clientes
• CodCli N 3• NomCli C
25
• Habitaciones• CodHabit N 5• CodHotel N 3• CodTip N 2• Numero N 4
• *Reservas
• CodHab N 5• Estado C 1• CodCliente N 3• FIng Date• FSal Date
![Page 34: datamining4.ppt](https://reader035.vdocuments.us/reader035/viewer/2022081520/5695d3db1a28ab9b029f7328/html5/thumbnails/34.jpg)
Consultas1) Habitación doble en Excelsior entre 24 y 31 Julio
• SELECT NUMERO FROM HABITACIONES H • RESERVAS R • TIPOHAB T• HOTELES O• WHERE H.CODHABIT = R.CODHAB• AND O.CODHOT = H.CODHOTEL• AND T.CODT = H.CODTIP• AND T.TIPO = “DOBLE MATRIMONIAL”• AND H.NOMBRE =”EXELSIOR”• AND ((R.FING<=25/07 AND R.FSAL>=24/7)• OR (R.FING<=31/07 AND R.FSAL>=31/7)• OR (R.FING>=24/07 AND R.FSAL<=31/7))
![Page 35: datamining4.ppt](https://reader035.vdocuments.us/reader035/viewer/2022081520/5695d3db1a28ab9b029f7328/html5/thumbnails/35.jpg)
Consultas2) Cuantas Triples en Luxor para 14 y 15 Agosto
• SELECT COUNT* FROM HABITACIONES H • RESERVAS R • TIPOHAB T• HOTELES O• WHERE H.CODHABIT = R.CODHAB• AND O.CODHOT = H.CODHOTEL• AND T.CODT = H.CODTIP• AND T.TIPO = “TRIPLE”• AND H.NOMBRE =”LUXOR”• AND R.ESTADO = “R”• AND (R.FING<=14/08 AND R.FSAL>=14/8)• OR (R.FING<=15/08 AND R.FSAL>=15/8))
![Page 36: datamining4.ppt](https://reader035.vdocuments.us/reader035/viewer/2022081520/5695d3db1a28ab9b029f7328/html5/thumbnails/36.jpg)
Consultas3) clientes Reservaron en Splendid cuyas reservas vencen hoy
• SELECT NOMCLI FROM HABITACIONES H • RESERVAS R • CLIENTES C• HOTELES O• WHERE H.CODHABIT = R.CODHAB• AND O.CODHOT = H.CODHOTEL• AND R.NUMCLI = C.NUMC• AND R.ESTADO = “R”• AND H.NOMBRE =”SPLENDID”• AND R.FING<=DATE + 5 •
![Page 37: datamining4.ppt](https://reader035.vdocuments.us/reader035/viewer/2022081520/5695d3db1a28ab9b029f7328/html5/thumbnails/37.jpg)
Consultas4) Hoteles 4*, MDP, libres 2 dobles entre 28/07 y 3/8
• SELECT NOMBRE FROM HABITACIONES H • RESERVAS R • TIPOHAB T• HOTELES O• WHERE H.CODHABIT = R.CODHAB• AND O.CODHOT = H.CODHOTEL• AND T.CODT = H.CODTIP• AND O.CIUDAD = “MAR DEL PLATA”• AND O.CATEGORIA >3• AND 2 <= (SELECT COUNT * FROM HABITACIONES HH • RESERVAS RR • TIPOHAB TT• HOTELES OO• •
![Page 38: datamining4.ppt](https://reader035.vdocuments.us/reader035/viewer/2022081520/5695d3db1a28ab9b029f7328/html5/thumbnails/38.jpg)
• WHERE HH.CODHABIT = RR.CODHAB• AND OO.CODHOT = HH.CODHOTEL• AND TT.CODT = HH.CODTIP• AND H.CODHABIT=HH.CODHABIT• AND T.TIPO = “DOBLE”• AND ((R.FING<=28/07 AND R.FSAL>=28/7)• OR (R.FING<=3/08 AND R.FSAL>=3/8)• OR (R.FING>=28/07 AND R.FSAL<=3/8))
![Page 39: datamining4.ppt](https://reader035.vdocuments.us/reader035/viewer/2022081520/5695d3db1a28ab9b029f7328/html5/thumbnails/39.jpg)
Consultas5) Necesita 2 dobles Contiguas Atlantic del 9 al 13/08
• No se puede responder, no disponemos informacion de Dobles Contiguas