data warehouse y sistemas de soporte a la decisión

74
Data Warehouse y Sistemas de Soporte a la Decisión Un Enfoque Práctico Hugo M. Castro

Upload: afia

Post on 30-Jan-2016

32 views

Category:

Documents


0 download

DESCRIPTION

Data Warehouse y Sistemas de Soporte a la Decisión. Un Enfoque Práctico Hugo M. Castro. El Caso. RapiServ es una empresa de comidas rápidas con 20 locales que se distribuyen en tres zonas: Capital Provincia de Buenos Aires Interior. RapiServ. - PowerPoint PPT Presentation

TRANSCRIPT

Data Warehouse y Sistemas de Soporte a la Decisión

Un Enfoque Práctico

Hugo M. Castro

El Caso RapiServ es una empresa de

comidas rápidas con 20 locales que se distribuyen en tres zonas:

Capital Provincia de Buenos Aires Interior

RapiServ Sus menúes comprenden platos de

carne y pollo, papas fritas y una variedad de ensaladas y postres

Por supuesto ofrecen bebidas frías (gaseosas y agua mineral) y también bebidas calientes (té, café) y pastelería, principalmente a la mañana.

RapiServ Pero su plato distintivo es una

especialidad que recibe el nombre de Cordon Bleu, una comida con carne y verduras que tiene bastante aceptación.

RapiServ José, el

Presidente, dice: Hay que aumentar las ventas

RapiServ Mario, Director de

Marketing, se pregunta: ¿Qué podemos ofrecer a nuestros clientes?

RapiServ Para responder a esa pregunta,

Mario necesita saber: ¿Qué productos se venden más? ¿Qué sucursales venden mejor? ¿En qué horas hay más clientes? ¿Qué días de la semana son más

flojos?

RapiServ ¿Quién puede darle esa

información? Mario sabe que Sistemas procesa

los tickets de las sucursales en los procesos de stock de mercadería y contabilidad

Por eso se dirige a Carlos, Encargado de Sistemas

RapiServ Carlos, el

Encargado de Sistemas, recibe el pedido y estima que tendrá lista la información en un plazo de veinte días a un mes

RapiServ Mario pregunta:

¿Cómo un mes? ¿Acaso la información no está dentro de su computadora?

RapiServ

Carlos responde: Sí, los datos están en la computadora, pero no tienen la estructura adecuada para contestar esas preguntas

RapiServ Mario queda

convencido de que si los datos están guardados en la computadora tan difícil no debe ser obtener las respuestas que busca

RapiServ

Carlos queda convencido de que Mario siempre pide cosas diferentes y todo lo quiere para ayer

RapiServ

Este es el momento en que recurren a nosotros para que los ayudemos

RapiServ

Antes de actuar analicemos la situación

¿Dónde está el problema? Mario tiene razón en que los datos

están en la computadora Y Carlos tiene razón en que no es

fácil darles la forma que Mario necesita

RapiServ

Ambos hacen uso de los mismos datos, pero...

Mario necesita analizar la información para saber qué ocurre y tomar decisiones estratégicas

Carlos necesita llevar a cabo los procesos que requiere la operatoria diaria de la empresa

RapiServ

Hay una diferencia fundamental

A Carlos le basta con manejar datos

Mario necesita extraer información de esos datos

Cadena de Valores

DatosDatos• Sucursales• Poductos• Franjas Horarias• Estacionamiento• Servicio en auto

InformaciónInformación• La sucursal X está en el distrito Z de la zona W• El producto P cuesta $Q• La franja horaria 1 comprende las horas de la mañana

ConocimientoConocimiento• En la zona Capital hubo H• pedidos del producto X• En la franja horaria 1 se vende menos que en la 2

DecisiónDecisión• Hagan propaganda del producto X en la zona Capital• Estudien promociones para la franja horaria 1• Ofrezcan el servicio en auto en la zona Buenos Aires

El proceso de toma de decisiones

Se encuentran hechos destacados Se explican en términos de

negocios Se toman las decisiones

correspondientes

Una Nueva Estructura

Si los datos están en la computadora pero la forma no es la adecuada, la solución es

CREAR UNA BASE DE DATOS CON LA FORMA ADECUADA

Un Nuevo Tipo de BD

La base de datos con la estructura adecuada es lo que se denomina

DATA WAREHOUSE Es una base de datos separada de

los sistemas transaccionales e independiente de ellos.

Data Warehouse

Un Data Warehouse es una Base de Datos con una estructura

Orientada al negocio Integrada Variable en el tiempo No Volátil

Orientada al negocio

Organiza y presenta los datos desde la

perspectiva de los conceptos que maneja

la empresa (fecha, franja horaria,

producto, sucursal, ventas).

Los datos tienen el nivel de detalle y la

estructura que necesitan los que toman

decisiones

Integrada Se construye a partir de fuentes de

datos heterogéneas Bases de datos relacionales, archivos

planos, hojas de cálculo, documentos impresos

Se unifican denominaciones, codificaciones, formatos Limpieza Integración

Variable en el Tiempo El horizonte temporal del Data

Warehouse es más amplio que el de los sistemas transaccionales Vida útil de los datos Datos históricos

La fecha es un dato fundamental Marcación temporal

No Volátil En el Data Warehouse los datos no se

modifican

El Data Warehouse se renueva

Los datos permanecen intactos entre

renovaciones

Sólo existen dos operaciones Carga

Acceso

Data Warehouse UN DATA WAREHOUSE CONTIENE Información histórica

Para visualizar tendencias y efectuar comparaciones

Información consolidada Para acelerar la respuesta a las consultas

Las bases de datos más voluminosas son Data Warehouses

ProcesosExtracción, Transformación y Carga Extracción

Se eligen qué datos se van a llevar al DWh desde las diversas fuentes

Transformación Los datos se depuran, completan y transforman

Carga Los datos se ordenan, se consolidan, se calculan

los datos derivados, severifica la integridad y se incorporan al DWh

Este es un proceso repetitivo

Procesos

Explotación de datos Guardar y estructurar los datos en

un Data Warehouse es sólo parte de la tarea

Necesitamos analizar los datos para la toma de decisiones

Explotación de datos Herramienta de redacción de

informes orientada al usuario Empezamos por producir los

mismos informes que el profesional de negocios estaba recibiendo hasta ahora

Pero ahora él puede armarlos en forma interactiva

Informes Para obtener los informes no es

necesario escribir ningún programa

Lo puede definir el propio profesional de negocios

La herramienta que produce los informes está preparada para que él la utilice

Informes

El profesional de negocios decide Qué criterios de selección va a usar

sobre la base de datos Qué datos va a incluir en el informe Cómo se van a ordenar los datos Cómo se van a agrupar los datos

Informes Con estas herramientas queda

resuelto el problema de la producción de informes, pero Mario y su gente encuentran que

LAS RESPUESTAS GENERAN PREGUNTAS

Preguntas ¿Cómo se vende en cada sucursal

por franja horaria? ¿Qué productos se venden más en

las tardes? ¿Venden más las sucursales que

tienen servicio en el auto? ¿Y las que tienen estacionamiento?

Modelo de datos Modelo de Entidad-Relación

Orientado a la implementación de los procesos transaccionales

Tareas operativas Modelo dimensional

Orientado a las características del negocio (variables del negocio)

Tareas de análisis

Modelo dimensional Dimensiones

Variables del negocio Productos, sucursales, fechas

Medidas Valores numéricos Sumas, consolidaciones, operaciones

aritméticas

Modelo dimensional Cantidad de pedidos por fecha,

producto y sucursal

Pro

duct

oSu

cursa

l

Fecha

Dimensiones: Producto, Sucursal, FechaEstructura Jerárquica

Categoría Zona Año Subcategoría Distrito Trimestre

Producto Sucursal Mes Día

Cubo Es una forma de presentar los datos

al usuario No existe físicamente El usuario puede trabajar con los

datos como si existiera Es independiente de la forma en

que realmente se almacenan los datos

OLAP Sistemas transaccionales: OLTP T identifica transacciones

Sistema de Análisis: OLAP A identifica análisis

OLAP Es el proceso de almacenar y

administrar datos sobre la base de las variables del negocio (dimensiones), para permitir a los profesionales de negocios visualizarlos y analizarlos para entender cuál es su significado

Preguntas ¿Cómo se vende en cada sucursal

por franja horaria? ¿ Qué productos se venden más en

las tardes? ¿Venden más las sucursales que

tienen servicio en el auto? ¿Y las que tienen estacionamiento?

Navegación Cambio de dimensiones Cambio de ejes Cambio de forma de presentación Cambio de medidas Cambio de nivel de detalle

Drill down Drill up

Conexión con otras tablas de hechos Drill across

Conexión con tablas externas Drill through/Drill Out

Análisis OLAP

FECHA

ARTICULO

SUCURSAL

VENTAS

UNIDADES

TICKETS

DIMENSIONES MEDIDAS

AR

TIC

ULO

FECHA

Se elige la dimensión para las filasSe elige la dimensión para las columnasSe elige la medida a representar

Unidades vendidas por tipo de artículo durante 2004

“Drill down”: Mayor detalle sobre Comestibles

Unidades de comestibles vendidas por ciudad

“Drill down”: unidades de comestibles vendidas en sucursales de Capital

Tablero de Comando

Enfoque tradicional Indicadores financieros

Ventas Ganancias Cobranza Stock valorizado

El resto carece de importancia

Tablero de Comando

Enfoque tradicional No tiene en cuenta aspectos tales como

Relación con los clientes Análisis de los procesos internos Capacitación y crecimiento del personal

Descubrir esta falta demasiado tarde puede traer graves consecuencias

Tablero de Comando Integral (BSC)

Distintas perspectivas Fijación de objetivos

Máximo (ej. gastos) Mínimo (ej. ventas)

Establecimiento de metas y tolerancias

Tablero de Comando

Tablero de ComandoColores

Mínimo

MetaTolerancia

Máximo Meta Tolerancia

Tablero de ComandoPerspectivas (Cobranza, Ventas)

Tablero de Comando Indicadores

ComponentesComponentes

DataWarehouse

ExtracciónTransformaciónCargaRenovación

Motor OLAP

InformesConsultasOLAPData mining

Mecanismode

IntegraciónMetadatos

Fuentes de Datos

Explotación

Sirve para

Data Marts

BD Transaccionales

Otras Fuentes de Datos

Almacenamiento

Servidor OLAP

Metadatos

Son datos que describen objetos del data warehouse Estructura del Data Warehouse

Esquema, visiones, dimensiones, datos derivados, ubicación y contenido de los data mart

Datos sobre los datos Origen de los datos Validez de los datos (activo, histórico, eliminado) Información de control (estadísticas de uso, errores,

información de auditoría) Algoritmos que se usan para la consolidación Correspondencia entre datos operativos y los del data

warehouse Datos de Negocios

Definiciones de términos del negocio, dueños de los datos

Tres Alternativas

Data warehouse Recoge información de toda la empresa

Data Mart Sirve a un grupo específico de usuarios. Su alcance se

reduce a un área en particular (p.ej. Marketing) Independiente: Se genera a través de un proceso de ETL Dependiente : Se toma del Data Warehouse

Data warehouse virtual Se forma a partir de distintos Data Marts

¿Y ahora? Mario sabe que con OLAP puede

contestar todas las preguntas que puede formular, pero...

¿y las que no puede formular?

Preguntas ¿A qué clientes me conviene

ofrecer este nuevo producto? ¿Cuántos pedidos de pollo vamos a

recibir durante las vacaciones de invierno?

¿La compra de Cordon Bleu influye en la compra de papas fritas?

Preguntas

La respuesta a esas preguntas van a salir de un proceso llamado

DATA MINING

Data Mining Es un proceso automático que

permite extraer esquemas interesantes y no triviales de los datos y descubrir relaciones entre variables

Estamos ahogados en datos, pero sedientos de información

Selección yPreprocesamiento

Data Mining

Interpretación yEvaluación

Consolidación deDatos

Conocimiento

p(x)=0.02

Warehouse

Datos Originales

Esquemas y Modelos

Datos Preparados

DatosConsolidados

El Proceso de Data Mining

Ejemplo

Veamos cómo un modelo de Data Mining ayuda a Mario a contestar una de las preguntas que se formulaba

¿La compra de Cordon Bleu influye en la compra de papas fritas?

EjemploDel análisis del contenido de los tickets

surge que

De un total de 500.000 tickets Hay 60.000 que contienen Cordon Bleu Hay 40.000 que contienen papas fritas De esos tickets hay 30.000 que

contienen ambos productos

Ejemplo

En este caso:

¿Qué proporción de todos los tickets tienen Cordon Bleu y papas fritas?

30.000/500.000 o sea el 6% de los tickets

Ejemplo

Pregunta:

¿Qué proporción de clientes en general compra papas fritas?

40.000/500.000 o sea el 8%

Ejemplo

¿Qué proporción de los compradores de Cordon Bleu compran además papas fritas?

30.000/60.000 o sea que el 50% de los

compradores de Cordon Bleu piden papas fritas

Ejemplo La conclusión es que el empuje de

Cordon Bleu sobre las papas fritas es de 50/8 o sea 6,25

Esto quiere decir que la gente que compra Cordon Bleu compra 6,25 veces más papas fritas que el promedio de los clientes

Uso del Data Warehouse Tres clases de aplicaciones del Data Warehouse

Procesamiento de Información Consultas, análisis estadísticos sencillos, informes Tablas, diagramas, gráficos

Procesamiento Analítico Análisis multidimensional de datos Operaciones OLAP: slice-dice, drilling, rotaciones

Data mining Descubrimiento de esquemas ocultos Modelos analíticos: predicción, asociación,

segmentación

Potencial de Soporte a la Decisión

Alta Gerencia

Profesional de Negocios

Analista de Datos

Administrador de

Datos

Decisionesde Marketing

Presentación Visualización

Data MiningDescubrimiento de Información

Exploración de datos

Análisis Estadístico-Consultas-Informes

OLAP – Análisis Multidimensional

Data Warehouses / Data Marts

Fuentes de DatosPapel, Archivos Planos,Planillas de Cálculo, BD, OLTP

Inteligencia de Negocios

José

Mario

Carlos

RapiServ José, el

Presidente, obtiene la información que necesita en tiempo y forma

RapiServ Mario, Director de

Marketing, tiene a su gente analizando la información y no imaginando qué informes deberían pedir

RapiServ A Carlos, el

Encargado de Sistemas, también le mejoró la vida: ya no le llegan pedidos de marketing con plazos imposibles de cumplir

En Resumen La información adecuada En el plazo adecuado Para la persona adecuada

MEJORES DECISIONES

En Resumen

LA INTUICIÓN INFORMADA ES INSUPERABLE