4.data mining

56
Zigor de la Quintana ([email protected]) 7. Introducción al Data Mining Master Sistemas de Información

Upload: ide-cesem-business-school-wwwide-cesemcom

Post on 03-Jul-2015

167 views

Category:

Business


1 download

TRANSCRIPT

Page 1: 4.data mining

Zigor de la Quintana ([email protected])

7. Introducción al Data Mining

Master Sistemas de Información

Page 2: 4.data mining

Los Sistemas de Soporte a la Decisión en la empresaPágina 2

© 2009 IDE-CESEM.

• Introducción a data mining

• Técnicas de data mining

• Metodología Data Mining

• Soluciones Técnicas

• Casos prácticos

Índice

Page 3: 4.data mining

Los Sistemas de Soporte a la Decisión en la empresaPágina 3

© 2009 IDE-CESEM.

Herramientas de descubrimiento de conocimiento o data mining Son las propias herramientas las que extraen modelos y

tendencias de la información

Útiles debido a que:

– Los seres humanos disponemos de una capacidad limitada para analizar series de datos o correlaciones y encontrar modelos y extrapolarlos al futuro.

– Gap datos Vs conocimientos

– Datos acumulados

Data Mining:

– Sistema por el cual los analistas emplean herramientas de análisis matemático y estadístico aplicadas sobre datos históricos y relevantes para el negocio, para identificar relaciones entre variables y modelos que permitan entender mejor procesos actuales o con cierta probabilidad hechos futuros.

Page 4: 4.data mining

Los Sistemas de Soporte a la Decisión en la empresaPágina 4

© 2009 IDE-CESEM.

¿Por qué herramientas de descubrimiento de conocimiento?

Ahora que disponemos de una herramienta OLAP, podemos analizar y buscar por las dimensiones, pero ¿por dónde empezamos para entender por qué el cliente abandonó la compañía?

0%

2%

4%

6%

8%

10%

Cu

sto

mer

Defe

cti

on

Q3 2001 Q4 2001 Q1 2002 Q2 2002 Q3 2002 Q4 2002

East

Central

West

Page 5: 4.data mining

Los Sistemas de Soporte a la Decisión en la empresaPágina 5

© 2009 IDE-CESEM.

Los proveedores sostienen que Data Mining genera el mayor ROI

OperationalSystems

Break Even

RO

I (%

)

NegativeReturns

PositiveReturns

Time (Years)

Business Intelligence

PredictiveAnalytics

Cumula

tive R

OI

Source: Jack Noonan, CEO SPSS, 2002

Page 6: 4.data mining

Los Sistemas de Soporte a la Decisión en la empresaPágina 6

© 2009 IDE-CESEM.

• Introducción a data mining

• Técnicas de data mining

• Metodología Data Mining

• Soluciones Técnicas

• Casos prácticos

Índice

Page 7: 4.data mining

Los Sistemas de Soporte a la Decisión en la empresaPágina 7

© 2009 IDE-CESEM.

1. Regresiones Identificación de una función capaz de describir la relación entre

variables independientes y las variables dependientes que interesan al usuario

Los usuarios de negocio identifican esta función utilizando datos del pasado y la utilizan para predecir datos del futuro.

Algunas de las preguntas que desean responder son:

– Ventas de mi próximo mes teniendo en cuenta factores estacionales (estamos en Navidad o en época de rebajas)?

– ¿Cómo puede afectar a mis ventas los gastos en publicidad?

Permiten realizar al usuario de negocio análisis de sensibilidad

– Se explora el efecto de cambiar algún parámetro en las variables dependientes.

– Análisis muy común, “elasticidad del precio”.

– *Si aumento en un 1% el precio de un artículo, cómo afectará a su demanda?

– ¿Si aumento el salario de mis empleados en un 2%, cómo mejorará su índice de satisfacción?

Page 8: 4.data mining

Los Sistemas de Soporte a la Decisión en la empresaPágina 8

© 2009 IDE-CESEM.

1. Regresiones (cont)

Las regresiones también pueden generar un análisis probabilístico entre algunas variables y la ocurrencia de un evento.

– Probabilidad de que un cliente deje la compañía

– Probabilidad de que un empleado dimita

– Ratio de respuesta de un cliente a una oferta comercial (mailing, campañas de marketing…).

– Probabilidad de impago de un cliente.

Page 9: 4.data mining

Los Sistemas de Soporte a la Decisión en la empresaPágina 9

© 2009 IDE-CESEM.

2. Clustering

Permite identificación de relaciones entre grupos de datos

Estadísticas y algoritmos creados por el software…

pretende partir grandes bases de datos en diferentes grupos de variables que ofrecen datos similares.

Parece que clustering es una técnica idéntica a la definida en cuanto a segmentación, pero:

– Técnicas de clustering están diseñadas para identificar agrupaciones de variables similares sin tener en cuenta un objetivo en concreto.

– Las técnicas de segmentación miden dependencia de las variables con respecto a un objetivo.

Page 10: 4.data mining

Los Sistemas de Soporte a la Decisión en la empresaPágina 10

© 2009 IDE-CESEM.

Age

Inco

me

2. Clustering. Herramientas y técnicas: K-Means clustering (SAS Enterprise Miner)

Decidir sobre el máximo número de clusters

Asignar semillas (clientes) aleatoriamente a los clusters.

Análisis

Analizar la distancia estadística entre cada consumidor y cada semilla (primero) o media de cada cluster.

Asignar cada cliente a la media del cluster más cercano.

Mover cada cluster para posicionarlo en torno a dos medidas de clientes.

Operar hasta que los clusters dejan de moverse

La herramienta identifica los subsegmentos de clientela

Page 11: 4.data mining

Los Sistemas de Soporte a la Decisión en la empresaPágina 11

© 2009 IDE-CESEM.

2. Clustering

Limitaciones:

– No ofrecen un gran detalle

– No tiene capacidad predictiva, tan solo explicativa.

– Útil, pero no exacta.

Técnicas llamadas “no dirigidas”, ya que no precisan de intervención humana para su correcto funcionamiento.

No consume (comparado con otras técnicas) grandes cantidades de capacidad de procesamiento en entornos masivos de datos.

Page 12: 4.data mining

Los Sistemas de Soporte a la Decisión en la empresaPágina 12

© 2009 IDE-CESEM.

(3) Segmentación

Identifican las variables independientes que afectan de manera más preeminente a las variables dependientes.

“Técnicas de data mining dirigidas”.

– Usuario selecciona un determinado objetivo que quiere analizar (rentabilidad, ingresos, probabilidad de abandono…)…

– Después selecciona el conjunto de variables que, según su entendimiento de negocio, influyen en ese objetivo…

– Usuario interactúa con el análisis y redefine las variables.

Algunas de las aplicaciones de estas técnicas son:

– Perfiles de riesgo de clientes solicitantes de préstamos o tarjetas.

– Perfiles de empleados y clientes.

– Perfiles de clientes más rentables.

– Etc…

Page 13: 4.data mining

Los Sistemas de Soporte a la Decisión en la empresaPágina 13

© 2009 IDE-CESEM.

La técnica de segmentación se caracteriza por la utilización de árboles de decisión.

Los algorimos más empleados son:– Chaid (Chi Squared Automatic Interaction Detection), y – CART (Classification and Regression Tree Technique).

Dividir las variables en subgrupos de variables y comprender su impacto en el objetivo a través de técnicas estadísticas.

El resultado para el usuario final es una visión más veraz de las relaciones de causa y efecto entre las variables y el objetivo seleccionado.

(3) Segmentación

Page 14: 4.data mining

Los Sistemas de Soporte a la Decisión en la empresaPágina 14

© 2009 IDE-CESEM.

Ejemplo: Conjunto de clientes, a los que se quiere segmentar teniendo en cuenta sus ingresos.

El proceso pretende agrupar a los clientes en función de las variables que, en relación a los ingresos, presentan grupos con mayores diferencias en sus medias.

En ejemplo se ha visto que existen tres grupos diferenciados, relacionados con la variable edad.

Proceso vuelve a realizarse en cada subgrupo hasta que ningún subgrupo puede ser dividido, de forma estadísticamente significativa

(3) Segmentación

Page 15: 4.data mining

Los Sistemas de Soporte a la Decisión en la empresaPágina 15

© 2009 IDE-CESEM.

Ejemplo: aplicación de marketing. Identificación de personas objeto de una campaña de mailing.

Se lanza primero una campaña enfocada a un grupo de test. Se recoge como dato qué clientes responden al mail (valor “1” y qué clientes no “valor 0”.

Ratio de respuesta del grupo es de 0,0206 (2,06%). Si sólo envío mails a mujeres de la región “Noroeste” y a toda la región Sur, estaré mejorando mi ratio de respuesta.

(3) Segmentación

Page 16: 4.data mining

Los Sistemas de Soporte a la Decisión en la empresaPágina 16

© 2009 IDE-CESEM.

Técnica complementaria a la de clustering.

Puede analizarse un conjunto de datos con la técnica de clustering para determinar qué clientes están empleando una determinada página web.

Comprender en profundidad a ese conjunto de clientes, seleccionado un objetivo y las variables que entendemos que afectan a su comportamiento.

El resultado del análisis puede aportar al usuario final una vista con forma de árbol del impacto estadístico:

– Rangos de ingresos y sus correspondientes utilizaciones diferenciadas de la página web.

(3) Segmentación

Page 17: 4.data mining

Los Sistemas de Soporte a la Decisión en la empresaPágina 17

© 2009 IDE-CESEM.

SEGMENT1 2 3 4 5 6 All

Population 129,303 52,048 7,625 198,929 8,849 3,166 399,920Percent 32% 13% 2% 50% 2% 1% 100%

Age 40 42 41 39 41 42 40# of Accounts 1.15 1.30 1.32 1.17 1.27 1.75 1.19Asset Level $29,201 $121,209 $340,565 $40,156 $45,106 $359,379 $55,527Recency 126 36 32 54 42 32 74Longevity 549 379 385 399 491 604 448Income $18.76 $259.46 $1,533.18 $72.07 $317.02 $1,118.12 $120.78

Channel 1 $2.87 $13.34 $9.64 $5.27 $6.02 $28.13 $5.82Channel 2 $13.49 $166.08 $879.96 $51.42 $277.08 $816.43 $80.93Channel 3 $2.40 $80.05 $643.58 $15.38 $33.92 $273.56 $34.03

# Items Transacted 69 1,666 25,869 823 771 11,456 1,250Safer 43 758 3,069 32 73 2,590 209Aggressive 27 907 22,799 791 666 8,784 1,039Safe Ratio 59.3% 56.1% 14.8% 8.6% 12.4% 25.6% 31.5%

# of Transactions 0.46 4.49 25.88 1.40 7.11 22.93 2.26Type 1 0.44 4.38 25.84 1.36 1.45 13.95 2.02Type 2 0.02 0.11 0.04 0.04 5.66 8.98 0.24Type 1 Ratio 5.2% 2.4% 0.2% 3.0% 79.6% 39.2% 10.6%

Contracts 0.11 0.57 0.34 0.18 31.78 75.93 1.51Type 1 Orders 1.06 15.66 92.05 4.69 5.03 44.30 6.93Type 2 Orders 0.06 0.37 0.16 0.14 22.49 33.14 0.90

Testers Engaged Confident Conservative Risky High Rollers

Color KeyHighest Segment

2nd Place SegmentLowest Segment

Analizar cada segmento con el cliente

– ¿Puede el cliente intuitivamente nombrar cada segmento? Puede pensar cómo utilizarlo desde un punto de vista de negocio?

(3) Segmentación

Page 18: 4.data mining

Los Sistemas de Soporte a la Decisión en la empresaPágina 18

© 2009 IDE-CESEM.

(4) Herramientas y Técnicas: Redes Neuronales

El principio es generar conocimiento a través de elementos interconexionados.

Capaces de generar algoritmos predictivos. Imitan el proceso de aprendizaje del cerebro humano

Sistema “caja negra”, útiles cuando es difícil modelizar desde el principio.

Page 19: 4.data mining

Los Sistemas de Soporte a la Decisión en la empresaPágina 19

© 2009 IDE-CESEM.

Parecido con las regresiones,

Examinan datos históricos y generan la función que mejor relaciona las variables independientes o explicatorias y las variables dependientes

El error entre lo que el modelo predice y lo que ha realmente ocurrido en el pasado sea mínimo.

Construido el modelo, este se aplica al futuro para predecir hechos.

Aplicaciones de redes neuronales son similares a las descritas para el caso de las regresiones, pero su capacidad predictiva, es muy superior.

lA igual que las técnicas de segmentación, es una de las más creíbles dentro del data mining.

(4) Herramientas y Técnicas: Redes Neuronales

Page 20: 4.data mining

Los Sistemas de Soporte a la Decisión en la empresaPágina 20

© 2009 IDE-CESEM.

(4) Herramientas y Técnicas: Redes Neuronales

Origen:

– Intento de replicar el funcionamiento del cerebro humano.

Cada neurona toma las sumas ponderadas de sus datos de entrada y se aplica una función no lineal al resultado, lo que permite realizar análisis no lineales.

Cualquier neurona puede ser conectada a otra, pero debe mantenerse la dirección del análisis.

Modo muy común: modelo de tres capas, cada capa de neuronas está integrada con la capa anterior.

Page 21: 4.data mining

Los Sistemas de Soporte a la Decisión en la empresaPágina 21

© 2009 IDE-CESEM.

(4) Herramientas y Técnicas: Redes Neuronales

Utilizacion similar a casos de regresiones, aunque con resultados más espectaculares.

Las regresiones y redes neuronales intentan analizar no solamente la validez del modelo definido…

Sino de analizar las desviaciones encontradas entre el modelo resultante y los datos originales, si existen algunas variables que podrían tener influencia en el modelo y no se están considerando.

Esta capacidad de análisis sitúa a las técnicas de redes neuronales por encima del resto de técnicas. (clustering, segmentación…).

El modelo creado con las redes neuronales puede utilizarse para predecir eventos futuros o realizar análisis de sensibilidad.

Page 22: 4.data mining

Los Sistemas de Soporte a la Decisión en la empresaPágina 22

© 2009 IDE-CESEM.

Combinación de técnicas.

Un análisis de clustering permite identificar a “grosso modo”, que tipos de clientes están utilizando una determinada web site….

Un análisis de segmentación y clasificación identifica las variables más relevantes y sectores de variables que tiene un efecto en una variable objetivo (por ejemplo, su grado reutilización).,,

Las redes neuronales pueden entonces ser utilizadas para determinar si el modelo es creíble, cómo las variables se influencian entre sí, y sí el modelo está dejando alguna variable relevante de lado.

Page 23: 4.data mining

Los Sistemas de Soporte a la Decisión en la empresaPágina 23

© 2009 IDE-CESEM.

(5) Análisis de asociaciones.

Esta técnica permite calcular probabilidades o propensiones de que ocurra un determinado evento si ocurren otros eventos.

Esta técnica emplea funciones de frecuencia y probabilidad para estimar la probabilidad de que ocurra.

Algunas de las técnicas más utilizadas son:

– Análisis “Market basket” (p.e. en el verano cuando alguien compra una hamburguesa, o salchichas o hielo, también comprarán carbón vegetal el 74% de las veces, y estas compras representan un 25% de las ventas totales de carbón vegetal).

– Control de calidad: (el 30% de los conmutadores eléctricos que no pasan el control de calidad tienen problemas de cableado, y se construyen los viernes en el turno de tarde).

Page 24: 4.data mining

Los Sistemas de Soporte a la Decisión en la empresaPágina 24

© 2009 IDE-CESEM.

(6) Visualización

Tradicionalmente se ha minusvalorado este tipo de herramienta.

El ojo humano es una poderosa herramienta en cuanto a la búsqueda de patrones.

Especialmente indicada para analizar gran cantidad de datos en torno a una o pocas variables.

– Algunos ejemplos podrían ser los mercados financieros, informes económicos, etc…

Page 25: 4.data mining

Los Sistemas de Soporte a la Decisión en la empresaPágina 25

© 2009 IDE-CESEM.

(6) Visualización

Esencial para comenzar un proyecto de Data Mining, cuando hay un grupo de datos y variables muy elevados

Es interesante para la fase inicial de selección de variables…

Análisis de la calidad de datos del DW…

Y para la de control (comparación del output de los modelos para validar efectividad)

Page 26: 4.data mining

Los Sistemas de Soporte a la Decisión en la empresaPágina 26

© 2009 IDE-CESEM.

,No cambiar el tipo de gráfico, sino mantener el mismo gráfico todos los días.

– Usuario no tendrá que realizar un ejercicio de comprensión de los ejes del gráfico cada vez que intenta analizar unos datos.

Los gráficos complejos introducen innecesariamente la necesidad de que el usuario invierta tiempo en su comprensión.

– Los mejores gráficos se crean habitualmente empleando los modelos más básicos y sencillos.

Por su utilidad, la mayoría de las soluciones de data mining y OLAP incorporan estos gráficos a sus paquetes de soluciones.

Page 27: 4.data mining

Los Sistemas de Soporte a la Decisión en la empresaPágina 27

© 2009 IDE-CESEM.

• Introducción a data mining

• Técnicas de data mining

• Metodología Data Mining

• Soluciones Técnicas

• Casos prácticos

Índice

Page 28: 4.data mining

Los Sistemas de Soporte a la Decisión en la empresaPágina 28

© 2009 IDE-CESEM.

Requieren ser manejadas por usuarios muy avanzados (casi siempre expertos en modelos matemáticos pero con ciertos conocimientos de negocio)

– Aunque las herramientas están evolucionando para incorporar a usuarios intermedios.

Algunos problemas que suelen encontrarse

– Exactitud del modelo: decisión de qué variables tienen sentido para la creación del modelo y cuáles no.

– Importancia de la información: decisión de qué modelos y reglas son suficientemente importantes como para ser comunicadas.

Nuevamente, debe conocerse bien el negocio

– Envío al usuario correcto: Las tendencias deben ser informadas a un usuario que puede actuar para incidir sobre ellas y cuyo performance está controlado numéricamente.

Herramientas de descubrimiento de conocimiento

Page 29: 4.data mining

Los Sistemas de Soporte a la Decisión en la empresaPágina 29

© 2009 IDE-CESEM.

Data Exploration

Sampling

Data Manipulation

Data Pre-Processing

Training

Parameter Setting

Model Construction

Determine Accuracy and Precision of

Model

Model Validation

Test Model Against

Business Knowledge

Model Verification

Confirm Business Objectives

Knowledge Transformation

Transform Model into a Deployable

Format

If … Then ...

c++

Reports

Metodología del entorno Data Mining Empezar con muestra con significación estadística. Usar técnicas estadísticas y de visualización para analizar variables. El 70% de un proyecto de data mining consiste en analizar y preparar datos.

Page 30: 4.data mining

Los Sistemas de Soporte a la Decisión en la empresaPágina 30

© 2009 IDE-CESEM.

Utilización correcta de data Mining

Utilización del soluciones data mining conduce a resultados espectaculares.

Sólo si se emplea la técnica correctamente; no fácil:

– Complejidad matemática de los modelos

– Calidad y suficiencia de los datos almacenados

– Perfil del usuario del modelo (que debe ser un experto en matemáticas con conocimientos de IT y, preferiblemente, del sector en el que opera la compañía…)

– Inversión en la plataforma de data mining…

Además debe integrarse el resultado del análisis de data mining con las herramientas adecuadas CRM operativo.

Page 31: 4.data mining

Los Sistemas de Soporte a la Decisión en la empresaPágina 31

© 2009 IDE-CESEM.

Utilización correcta de data Mining (cont)

Imaginemos banco, en Diciembre, a la hora de lanzar su campaña de captación de subscripciones a los planes de pensiones…

Lanza un proyecto de data mining para identificar compradores potenciales dentro de su clientela…

Debe poner esos datos a disposición de su call center, para realizar llamadas de venta, y de sus vendedores en las oficinas.

Para ello, debe contar con una buena solución de gestión de campañas, y una buena plataforma de ventas.

Los comerciales deben preocuparse por dar feedback del resultado.

Page 32: 4.data mining

Los Sistemas de Soporte a la Decisión en la empresaPágina 32

© 2009 IDE-CESEM.

Relevancia de los datos

Si almacenas los datos sin calidad o sin la granularidad mínima precisa, estás destinado a fracasar con tu estrategia de data mining.

No existe herramienta ni metodología de data mining que sea capaz de trabajar con entornos de datos inadeacuados.

¿Valen mis datos para algo?

En algunos casos se lanzan proyectos de data mining para ver si, con suerte, la empresa es capaz de encontrar algo de información relevante en medio de ese mar de datos en el que se ha convertido su data warehouse.

Los resultados son impredecibles y no siempre un proyecto de data mining lanzado con este enfoque es capaz de llegar a un resultado mínimamente satifactorio.

Un análisis más honesto de la calidad y cantidad de nuestros datos debería llevarnos a la conclusión de qué tipo de análisis soporta.

Si sólo soporta análisis OLAP, debemos olvidarnos del data mining hasta que se haya modificado el estado de los datos.

Page 33: 4.data mining

Los Sistemas de Soporte a la Decisión en la empresaPágina 33

© 2009 IDE-CESEM.

Nueve pasos para garantizar el éxito de una estrategia de data Mining.

1. Decidir qué queremos saber.

Qué usos vamos a dar al data mining y por tanto qué técnicas de data mining queremos emplear sobre nuestros datos.

Investigar qué técnicas son las más adecuadas y si existe una relación coste – beneficio de la inversión.

2. Seleccionar cómo medimos lo que queremos saber

Imaginemos que queremos medir si una nueva marca de nuestra empresa ha tenido éxito. Podemos hacerlo analizando el incremento de ingresos o el reconocimiento de marca que muestran nuestros clientes actuales o potenciales.

Ambas medidas pueden ser empleadas con éxito. Pero desde un punto de vista de cálculo son absolutamente distintas. Por ello tendremos que definir cuáles son las medidas cuya maximización vamos a perseguir utilizando herramientas de data mining.

Los algoritmos de data mining van a necesitar que esa medida sea un número, por lo que si se trata de una medida cualitativa tendrá que ser traducida a una escala. Si la medida fuera un “si” o un “no”, puede traducirse en término de unos y ceros.

Page 34: 4.data mining

Los Sistemas de Soporte a la Decisión en la empresaPágina 34

© 2009 IDE-CESEM.

Nueve pasos para garantizar el éxito de una estrategia de data Mining (cont).

3. Decidir la granularidad y temporalidad de los datos.

Datos deben ser homogéneos.

y debe haber una cantidad suficiente de los mismos.

Si sólo hay unos cuantos medidas de meses o semanas almacenados, por más que sean homogéneas, el resultado no será adecuado.

– Técnicas de segmentación y clustering precisan cientos o miles de ellas. – Regresiones y redes neuronales requieren menos datos por variable, a nivel de

cientos, y como mínimo 20.

Si, analizados este apartado, la empresa llega a la conclusión de que no dispone de datos suficientes, se puede optar por las siguientes opciones:

– Conseguir más datos, esperando más tiempo o base externa.– Cambiar planes iniciales y utilizar otra técnica de data mining.

Problema disponer de demasiados datos: muestrear, agregar, segmentar…

Page 35: 4.data mining

Los Sistemas de Soporte a la Decisión en la empresaPágina 35

© 2009 IDE-CESEM.

Nueve pasos para garantizar el éxito de una estrategia de data Mining (cont).

4. Analizar factores clave

Los factores claves son variables que pueden tener un impacto en las medidas que hemos identificado como relevantes en el apartado dos.

Por ejemplo, si queremos analizar el impacto de nuestras acciones de marketing sobre el incremento de ventas, algunas de estas variables podrían ser; “inversión en publicidad en televisión”. “inversión en publicidad en radio”… Deberán tenerse en cuenta también factores estacionales como “precio” del producto, para tener en cuenta épocas de rebajas, descuentos….

Identificadas las variables, resultará una prioridad que los datos asociados a las mismas sean guardados en el data warehouse.

Si identificamos demasiadas variables, tendremos que seleccionar sólo algunas para realizar el análisis de data mining, y, en función del resultado (como hemos visto cuando analizábamos las diferentes técnicas de data mining), determinar si lanzamos de nuevo el análisis incorporando nuevas variable y desestimando otras.

Page 36: 4.data mining

Los Sistemas de Soporte a la Decisión en la empresaPágina 36

© 2009 IDE-CESEM.

Nueve pasos para garantizar el éxito de una estrategia de data Mining (cont).

5. Adquisición de los datos.

Analizadas las variables que estimamos son claves, puede resultar que los datos no estén disponibles:

Puede buscarse una variable que pensemos pueda tener un comportamiento similar, y sí disponga de los datos precisos

Podemos intentar lanzar el proceso de análisis sin la variable.

Al mismo tiempo modificaremos el dara warehouse para garantizar que los datos se incluyan en el futuro.

Si por un error algunos de los campos están en blanco:

Puede dejarse un valor en blanco, ya que las herramientas de data mining están preparadas para trabajar con campos en blanco.

Puede insertarse la media del resto de valores, de forma que su impacto será neutral.

Si los datos son series temporales, se pueden utilizar una regresión de los datos anteriores para completar el dato que falta.

Page 37: 4.data mining

Los Sistemas de Soporte a la Decisión en la empresaPágina 37

© 2009 IDE-CESEM.

Nueve pasos para garantizar el éxito de una estrategia de data Mining (cont).

6. Visualización de los datos.

Técnicas de visualización para entender si las variables críticas que hemos elegido realmente serán significativas para el análisis que queremos efectuar.

Ejemplo de abajo, al visualizar los datos de Agosto – Septiembre, se comprueba que el dato no puede ser correcto. Si el error es grave o se repite, la variable tendrá que ser desestimada.

Page 38: 4.data mining

Los Sistemas de Soporte a la Decisión en la empresaPágina 38

© 2009 IDE-CESEM.

Nueve pasos para garantizar el éxito de una estrategia de data Mining (cont).

7. Transformación de los datos

Expertos en data mining han adquirido tal experiencia que conocen no solamente qué variables suelen ser las más críticas para explicar el modelo sino cómo crear variables derivadas de las que una empresa suele guardar para conseguir mejores resultados.

Para ello modifican los datos existentes:

Haciendo agregaciones.

Nomalizando precios en función de la inflación del periodo.

Trabajando con ratios de variables (relación entre mi precio y precio de un competidor)

Etc…

Page 39: 4.data mining

Los Sistemas de Soporte a la Decisión en la empresaPágina 39

© 2009 IDE-CESEM.

Nueve pasos para garantizar el éxito de una estrategia de data Mining (cont).

8. Ejecución del proceso de data mining.

Se trata de un proceso muy automatizado, en el que el software toma sus propias decisiones para optimizar el resultado.

9. Revisión del resultado.

Utilizando las técnicas de visualización o de redes neuronales, debe analizarse si el modelo creado es suficientemente creíble o debe ser refinado con variables adicionales.

Page 40: 4.data mining

Los Sistemas de Soporte a la Decisión en la empresaPágina 40

© 2009 IDE-CESEM.

Errores comunes en los procesos de data mining

1. Manipular los datos para que arrojen el modelo esperado.

Algoritmos no arrojan grandes diferencias por ser ajustados. Los algoritmos de empresas competidoras a las del proveedor elegido son prácticamente idénticos.

No conviene hacer hincapié en estos factores.

Si los datos obtenidos no son los esperados, tenemos que preguntarnos:

– ¿Puede el resultado ser realmente cierto?– ¿Confío en la calidad de los datos empleados y en las variables

seleccionadas?– En estos casos la exploración gráfica es también de gran utilidad.

Page 41: 4.data mining

Los Sistemas de Soporte a la Decisión en la empresaPágina 41

© 2009 IDE-CESEM.

Errores comunes en los procesos de data mining

1. Manipular los datos para que arrojen el modelo esperado.

Ejemplos:– Una empresa productora de ropa quería entender la relación entre sus

gastos en publicidad y las ventas obtenidas. Un análisis de data mining, sorprendentemente, no encontró ninguna. La razón fue que se estaba intentando relacionar datos de inversión en publicidad del mes con ventas del mes. La publicidad necesita tiempo para afectar al comportamiento de compra del consumidor, por lo que las ventas de un mes deben relacionarse con la inversión de meses anteriores.

– Una compañía de bebidas intentaba comprender el impacto de la oferta de descuentos sobre las ventas. El modelo de data mining predecía que el aumento de precio generaría un aumento de las venta, lo cuál no es de sentido común. El problema consistía en que el mercado de bebidas es estacional, con algunos momentos muy altos como Navidades o el verano. Durante esos momentos no se ofrecía ningún descuento a los clientes, lo que afectaba al resultado del análisis. El modelo fue refinado para tener en cuenta situaciones de estacionalidad.

Page 42: 4.data mining

Los Sistemas de Soporte a la Decisión en la empresaPágina 42

© 2009 IDE-CESEM.

Errores comunes en los procesos de data mining

La búsqueda de la “perfección estadística”

Si los resultados son inusualmente buenos en términos estadísticos, debemos también preocuparnos.

Ejemplo:– Empresa deseaba predecir el número de ventas potencial por metro

cuadrado de algunas nuevas localizaciones para sus tiendas, a fin de adquirir las mejores. El sistema predecía las ventas futuras de cada localización con un grado de exactitud del 98%.

– Se descubrió que una de las variables empleadas era la división entre los ingresos y los metros cuadrados de las nuevas tiendas. Precisamente el valor que se quería obtener era los ingresos a conseguir en la nueva tienda, por lo que no podía figurar esta variable como factor independiente del resultado. El nuevo modelo mostraba un ratio de exactitud del 60%, mucho más en línea con las expectivas.

– Las medidas estadísticas que utilizan los algoritmos de negocio fueron diseñados por estadísticos, no por expertos en marketing. Por ello, muchos valores parecen bajos, cuando en realidad son bastante altos.

Page 43: 4.data mining

Los Sistemas de Soporte a la Decisión en la empresaPágina 43

© 2009 IDE-CESEM.

• Introducción a data mining

• Técnicas de data mining

• Metodología Data Mining

• Soluciones Técnicas

• Casos prácticos

Índice

Page 44: 4.data mining

Los Sistemas de Soporte a la Decisión en la empresaPágina 44

© 2009 IDE-CESEM.

Fortalezas

– GUI intuitivo que facilita la programación.

– Las técnicas de Data mining se complementan las unas con las otras.

– Facilidad de utilización elevada para la complejidad de soluciones analíticas que aporta.

– Cubre todos los procesos de data mining más empleados.

Debilidades

– No soporta Windows de fábrica

– No optimizado para arquitecturas paralelas.

– Problema para entornos masivos de datos.

Comparativa de Herramientas de Data Mining: DSS Clementine

Page 45: 4.data mining

Los Sistemas de Soporte a la Decisión en la empresaPágina 45

© 2009 IDE-CESEM.

Fortalezas

– Muy adecuada para análisis de clustering

– Optimizado para grandes bases de datos en entorno IBM

– Posibilidad de ser empleada por usuarios no especialistas

Debilidades

– Problemas de usabilidad con su nuevo interface Java

– Sólo funciona bien en plataformas IBM

– Datos deben estar en tablas DB2

– Se requiere un significativo soporte por parte de consultores / servicios de IBM

Comparativa de Herramientas de Data Mining: IBM Intelligent Miner

Page 46: 4.data mining

Los Sistemas de Soporte a la Decisión en la empresaPágina 46

© 2009 IDE-CESEM.

Fortalezas

– Solución end to end: incorpora la gran mayoría de las soluciones analíticas requeridas

– Capacidades estadísticas muy potentes.

– Adecuado para entornos masivos de datos.

Debilidades

– Las técnicas de data mining no se complementan.

– Funcionalidad limitada en cuanto a árboles de decisión.

– Integración de tipo manual.

– Requiere ser empleada por expertos con conocimiento estádísticos avanzados.

Comparativa de Herramientas de Data Mining: SAS Enterprise Miner

Page 47: 4.data mining

Los Sistemas de Soporte a la Decisión en la empresaPágina 47

© 2009 IDE-CESEM.

Factores críticos de éxito

Calidad de los datos y adecuación al modelo analítico (granularidad, serie temporal)

Proveer al proyecto con herramientas y personal capacitado

Encontrar al espónsor adecuado

– A ser posible, alguien por encima de los responsables de IT y marketing.

Planificar un ROI razonable para cumplir expectativas.

Proceso prueba – error:

– Involucrar a responsables de negocio para hacer el modelo y validar resultados.

Page 48: 4.data mining

Los Sistemas de Soporte a la Decisión en la empresaPágina 48

© 2009 IDE-CESEM.

• Introducción a data mining

• Técnicas de data mining

• Metodología Data Mining

• Soluciones Técnicas

• Casos prácticos

Índice

Page 49: 4.data mining

Los Sistemas de Soporte a la Decisión en la empresaPágina 49

© 2009 IDE-CESEM.

Toyota USA

Dispone de red de concesionarios que repara los coches en garantía. Los concesionarios son reembolsados inmediatamente por el coste de la reparación.

Disponían de una pequeño grupo de auditores que revisaban manualmente después del pago la justificación del coste cargado por el concesionario.

Algunas de esas peticiones son injustificadas: uso de demasiadas piezas de recambio o demasiado tiempo, misma petición de dinero varias veces por el mismo hecho.

El proceso de auditoría requería mucho tiempo y era poco eficiente (sólo se detectaba algún problema en un 2% de las facturas).

Por otro lado, los auditores sólo podían revisar un 10% de las facturas.

Los objetivos de Toyota eran:– Reducir el coste de pagos por garantía,– Reducir el tiempo requerido para el análisis, mejorando la cantidad de facturas

fraudulentas encontradas.– Cambiar el comportamiento de algunos concesionarios.

Page 50: 4.data mining

Los Sistemas de Soporte a la Decisión en la empresaPágina 50

© 2009 IDE-CESEM.

Toyota USA

La solución de Data Mining no sólo debía ser capaz de definir si una factura fraudulenta sino también definir por qué

No podían usarse modelos de comportamientos pasados… debido a la escasez de facturas fraudulentas encontradas.

Definición de las características del “concesionario fraudulento” para tomar medidas preventivas.

Se emplearon diversas técnicas: redes neuronales, razonamiento inductivo, estadísticas tradicionales.

Las soluciones de razonamiento inductivo fueron muy útiles

– Era preciso diferenciar qué facturas no eran normales y explicar por qué

– Adecuadas para combinar conocimiento explícito de los expertos con el implícito en los datos.

Resultados: Descenso de 1% de pagos por garantía, y descenso de costes de los procesos de auditoría: 3 MM $ anuales.

Page 51: 4.data mining

Los Sistemas de Soporte a la Decisión en la empresaPágina 51

© 2009 IDE-CESEM.

Empresa Aseguradora

La línea de seguro de automóvil ha reportado pérdida de rentabilidad los pasados años.

Rentabilidad es el ratio entre ingresos por primas + ingresos por inversiones frente a gastos por reclamaciones.

La rentabilidad está generalmente relacionada con una fijación adecuada de precios /bonus a cada segmento de clientela.

Para encontrar esos segmentos se empleaba el siguiente proceso:– Selección de pólizas, basada en experiencia personal, intuición…– Solicitud al mainframe de los datos de las pólizas– Análisis de la rentabilidad y comparación con otros segmentos, se

obtienen características de los segmentos.

Se valoran 10-15 variables sobre un subset de 200,000 clientes.

El análisis inicial tarda 4 semanas. Cada análisis adicional implican 2 semanas más

Por ello el banco no puede realizar este análisis siempre que lo desea.

Page 52: 4.data mining

Los Sistemas de Soporte a la Decisión en la empresaPágina 52

© 2009 IDE-CESEM.

Empresa Aseguradora

La solución combinó soluciones de Data Mining y visualización.

Data mining se empleó para la búsqueda de clusters y la visualización para explorar los clusters de una forma rápida

El análisis señala los clusters de clientes en función de diferentes variables. Las variables y los resultados se demuestran a través de soluciones gráficas para comprobar la validez del cluster.

Posteriormente se emplearon técnicas predictivas para analizar los clusters más rentables (razonamiento inductivo), para predecir futuros comportamientos de clientes.

Page 53: 4.data mining

Los Sistemas de Soporte a la Decisión en la empresaPágina 53

© 2009 IDE-CESEM.

Disco S.A. Importante cadena de supermercados de Argentina. 230 supermercados, 16.000

empleados.

La empresa ha creado un programa de fidelización a clientes, DiscoPlus.– Ofrece descuentos y promociones especiales. – Se afiliaron dos millones de personas.

Recompensa a sus clientes más fieles, con el objetivo de obtener datos.

Datos se encontraban en distintos servidores – Esos datos eran extraidos a un data mart– Se formaba un cubo OLAP sobre el que se construían reportes en formato de hoja

Excel.– enviados a los usuarios de negocio.

Problemas:– Los usuarios dependían absolutamente del departamento de IT para conseguir la

información.– Sistema no podía adaptarse a aumento de necesidades y usuarios.– Usuario final solamente accedía a los datos suministrados en la hoja Excel. – Datos no se suministraban con la puntualidad necesaria. No informes a la medida.

Page 54: 4.data mining

Los Sistemas de Soporte a la Decisión en la empresaPágina 54

© 2009 IDE-CESEM.

Disco S.A. Optó por crear un data warehouse para integrar toda la información

disponible de sus clientes más fieles. – Tecnología Microsoft SQL Server database.

El primer proyecto de explotación lo lideró marketing.– Soluciones OLAP cubrían la mayor parte de las necesidades de análisis del

departamento. – Adicionalmente, data mining para encontrar modelos de comportamiento.

Técnicas de clustering: en primer lugar para separar en grupos a los clientes, grupos basados en la frecuencia de compra.

Técnica de segmentación para comprender características de cada grupo.

Segmentación, árboles de decisión:– Se utilizó una variable objetivo, los puntos por utilización de la tarjeta

generados por el conjunto de los usuarios. – El resultado del árbol de decisión mostró que las variables que más

explicaban la utilización del programa Discoplus eran la edad, la situación geográfica, y el estado civil.

Page 55: 4.data mining

Los Sistemas de Soporte a la Decisión en la empresaPágina 55

© 2009 IDE-CESEM.

Disco S.A.

Resultados del análisis a través de data mining fueron a su vez guardados en el cubo OLAP, que permite a todos los usuarios finales un rápido acceso.

Resultados:

Acceso más rápido a la información de sus clientes.

Comprender qué variables estaban relacionadas con la utilización del programa Discoplus.

Departamento de marketing podía ahora enviar mensajes mucho más enfocados y diferenciados a sus clientes.

Y, además, poner los productos más interesantes a disposición de los usuarios del programa, en función de su perfil.

Page 56: 4.data mining

Los Sistemas de Soporte a la Decisión en la empresaPágina 56

© 2009 IDE-CESEM.

Disco S.A.

Retos de la implantación.

Training del usuario final en la explotación del data warehouse.

– Usuario final sólo estaba habituado a reportes estáticos en Excel

– Educarle en las nuevas capacidades relacionadas con OLAP.

– Hoja Excel capaz de generar queries al cubo.

Calidad de los datos,

– Programa ETL había sido creado hace unos cuantos años, y la forma en que los datos eran extraídos, agregados y limpiados había variado con el paso del tiempo.

– Al no ser los datos homogéneos hubo que trabajar transformando los datos guardados al formato más homogéneo posible.