1 crisp-dm
TRANSCRIPT
Proceso de la MDCRISP-DM
Referencias: C. Shearer, “The CRISP-DM Model: The New Blueprint for Data Mining”, Journal of Data Warehousing 5(4):2000
P. Chapman (NCR), J. Clinton (SPSS), R. Kerber (NCR), T. Khabaza (SPSS), T. Reinartz (DaimlerChrysler), C. Shearer (SPSS) & R. Wirth (DaimlerChrysler), CRISP-DM 1.0: Step-by-step data mining guide, 2000.
Alicia Pérez – UCB La Paz
2
Proceso de MD
Cross-Industry Standard Process for Data Mining (CRISP-DM)
Financiado por la UE: desarrollo de un framework par tareas de MD
Objetivos: Animar a que haya herramientas interoperables a lo largo
del proceso completo de la MD Facilitar las tareas de MD – en tareas sencillas no hace
falta ser un gran experto
3
¿Por qué un proceso estándar?
Framework para recordar la experiencia para poder replicar
proyectos Ayuda a la planificación y
gestión de los proyectos Para los novatos, “Comfort
factor” Demuestra la madurez
de la MD Reduce la
dependencia en expertos estrella
El proceso de MD debería ser confiable y repetible por personas con poca experiencia en la MD
4
Historia del estándar CRoss Industry Standard Process for Data Mining
Iniciativa lanzada en Septiembre 1996 SPSS/ISL, NCR, Daimler-Benz, OHRA
Financiada por la Comisión Europea Más de 200 miembros del SIG CRISP-DM SIG en el mundo
Fabricantes de herramientas DM - SPSS, NCR, IBM, SAS, SGI, Data Distilleries, Syllogic, Magnify, ..
Consultores, desarrolladores - Cap Gemini, ICL Retail, Deloitte & Touche, …
Usuarios finales - BT, ABB, Lloyds Bank, AirTouch, Experian, ...
5
Prácticamente los mismos resultados que en 2004
6
CRISP-DM
Non-proprietary Neutral respecto a
aplicación/industria herramienta
Enfocado en aspectos del negocio además del análisis
técnico Framework para guiar el
proceso Base de experiencias
Plantillas para el análisis
7
CRISP-DM
8
Fases de CRISP-DM Comprensión del negocio
Comprender objetivos y requisitos del proyecto/negocio Definición del problema de MD
Comprensión de los datos Recolección inicial de datos, familiarización Identificar problemas con la calidad de los datos Resultados iniciales, obvios
Preparación de los datos Selección de registros y de atributos Limpieza de los datos
Modelado Ejecutar las herramientas de MD
Evaluación Determinar si los resultados cumplen los objetivos de negocio Identificar aspectos del negocio que deberían haberse considerado antes
Implantación Llevar los modelos obtenidos a la práctica Preparar para hacer MD repetida/continua
9
Comprensión del negocio
Comprensión de los datos
EvaluaciónPreparación de los datos
Modelado
Determinar Objetivos de negocioConocimiento previoObjetivos de negocioCriterios de éxito según el negocio
Evaluación de la situaciónInventario de recursosRequisitos, suposiciones y restriccionesRiesgos y contingenciasTerminologíaCostos y beneficios
Determinar meta de la MDMetas de la MDCriterios de éxito de la MD
Producir Plan del ProyectoPlan del proyectoEvaluación inicial de herramientas y técnicas
Recoger Datos InicialesInforme sobre la recolección inicial de datos
Describir DatosInforme de Descripción de los Datos
Explorar DatosInforme de Exploración de los Datos
Verificar la Calidad de los Datos Informe sobre la Calidad de los Datos
Conjunto de DatosDescripción del Conjunto de Datos
Seleccionar Datos Razones para Inclusión/ Exclusión
Limpiar DatosInforme de Limpieza de Datos
Construir DatosAtributos DerivadosRegistros Generados
Integrar DatosDatos Combinados
Formatear DatosDatos Reformateados
Seleccionar Técnica de ModeladoTécnica de ModeladoSuposiciones del Modelado
Generar Diseño de PruebaDiseño de Prueba
Construir el ModeloValores iniciales de ParámetrosModelosDescripción de los Modelos
Evaluar ModeloEvaluación del ModeloRevisar valores de parámetros
Evaluar ResultadosEvaluación de resultados de MD respecto a criterios de éxito del negocioModelos aprobados
Revisar el ProcesoRevisión del Proceso
Determinar Próximos PasosLista de Acciones PosiblesDecisión
Planificar ImplantaciónPlan de ImplantaciónPlanificar Monitoreo y MantenimientoPlan de Monitoreo y Mantenimiento
Producir Informe FinalInforme Final Presentación Final
Revisar el ProyectoDocumentación de la Experiencia
Implantación
Fases y Tareas
10
Fases del Proceso de MD(1 & 2)
Comprensión del negocio: Indicar el Objetivo de negocio Indicar el objetivo de la MD Indicar los criterios de éxito
Comprensión de los datos Explorar los datos y verificar su calidad Encontrar outliers
11
Fases del Proceso de MD (3)Preparación de los datos: Normalmente ocupa 90% del
tiempo Recolección Evaluación Consolidación y Limpieza
vínculos ente tablas, nivel de agregación, valores faltantes, etc
Selección de los datos ignorar activamente datos que
no aportan nada? outliers? Muestreo Herramientas de visualización
Transformaciones – crear nuevas variables
12
Fases del Proceso de MD (4) Construcción de modelos
Selección de las técnicas de modelado basada en el objetivo de la MD
El modelado es un proceso iterativo – diferente para aprendizaje supervisado y no supervisado Puede modelarse para
descripción o para predicción
14
Fases del Proceso de MD (5) Evaluación del modelo
resultados sobre conjunto de datos de prueba
Métodos y criterios dependen del tipo de modelo: eg. matriz de coincidencia
para clasificadores, error medio para modelos de regresión
Interpretación del modelo: importante o no, fácil o difícil según el algoritmo
Evaluación según los criterios del negocio
15
Fases del Proceso de MD (6)
Implantación Determinar cómo han de
utilizarse los resultados ¿Quién los necesita? ¿Con qué frecuencia van a
usarse?
Implantación de los resultados mediante: Marcar una BD con resultados
de clasificación Utilizar los resultados como
reglas de negocio Marcado interactivo
16
¿Por qué CRISP-DM?
El proceso de MD debe ser confiable y replicable por personas con poca experiencia en MD
CRISP-DM proporciona un marco unificado pautas documentación de la experiencia
CRISP-DM es flexible Diferentes problemas de negocio Diferentes datos
17
SSAS(Data
Mining)Excel
SSAS (DSV)QueryExcel
SSISSSASSSRSExcelYour Apps
SSISSSASExcel
Comprensión del negocio
Comprensión de los datos
Preparación de los datos
Modelado
Evaluación
Implantación
Datos
Microsoft Data Mining Lifecycle CRISP-DM
Microsoft: SSAS 2008 Data Mining (SSAS = SQL Server Analysis Services)
18
¿Cómo elegir un sistema de MD?
Sistemas comerciales Diferente funcionalidad o metodología de MD Tal vez funcionen con tipos de datos completamente
diferentes
Seleccionar desde varios puntos de vista Tipos de datos: relacionales, transaccionales, texto, secuencias
temporales, espaciales? Sobre sistemas
¿corren en uno o varios sistemas operativos? arquitectura servidor cliente? proporcionan interfaces basadas en web, permiten datos en XML
como entrada/salida?
19
¿Cómo elegir un sistema de MD? Fuentes de datos
archivos de texto ASCII, múltiples fuentes de datos relacionales soporte de conexiones ODBC (OLE DB, JDBC)?
Funciones y metodologías de MD Una vs. varias funciones de MD Uno vs. varios métodos para cada función
Más funciones y métodos por función de MD dan más flexibilidad y poder de análisis al usuario
Acoplamiento con BD y/o almacén de datos Idealmente el sistema de MD debería estar bien acoplado con el
de BD
20
¿Cómo elegir un sistema de MD?
Escalabilidad En filas (o tamaño de la BD) En columnas (o dimensiones) “Maldición de la dimensionalidad”: es más difícil hacerlo
escalable por columnas que por filas Herramientas de visualización
“Una imagen vale mil palabras” Categorías de visualización: de datos, de resultados de MD, del
proceso de MD, MD visual Lenguaje de consultas de MD y GUI
Interfaz gráfica fácil de usar y de calidad Esencial para la MD guiada por el usuario, interactiva
23
Herramientas más utilizadas
Ver encuesta anual en KDNuggets
http://www.kdnuggets.com/polls/2009/data-mining-tools-used.htm
24
Métodos más utilizados (Mar 2007)
http://www.kdnuggets.com/polls/2007/data_mining_methods.htm