on-line analytical processing - datawarehouse fisi - unmsm

44
CARRERA DE INGENIERÍA DE SISTEMAS DATAWAREHOUSE On-Line Analytical Processing Introducción Datawarehouse

Upload: julio-pari

Post on 25-May-2015

857 views

Category:

Documents


1 download

DESCRIPTION

On-Line Analytical Processing - DatawareHouse FISI - UNMSM

TRANSCRIPT

Page 1: On-Line Analytical Processing - DatawareHouse FISI - UNMSM

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSE

On-Line Analytical Processing Introducción

Datawarehouse

Page 2: On-Line Analytical Processing - DatawareHouse FISI - UNMSM

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSE

Agenda● Introducción.● Niveles de análisis OLAP● Características del OLAP● Herramientas OLAP● Tipos de Sistemas OLAP● ROLAP y MOLAP

Page 3: On-Line Analytical Processing - DatawareHouse FISI - UNMSM

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSE

Introducción● On-line Analytical Processing (OLAP) es una

tecnología en el acceso y análisis de datos en línea; en el que se usan herramientas analíticas, que facilitan el análisis de la información del negocio.

Page 4: On-Line Analytical Processing - DatawareHouse FISI - UNMSM

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSE

Introducción● La información se halla organizada en

actividades (hechos), se analiza en perspectiva de sus dimensiones y indicadores (métricas) que permiten la flexibilidad de la ejecución de consultas complejas.

Page 5: On-Line Analytical Processing - DatawareHouse FISI - UNMSM

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSE

Introducción● Permite a los usuarios una fácil y amigable

navegación por la información, obteniendo el nivel de granulidad (detalle) que requiere para la toma de decisiones.

Page 6: On-Line Analytical Processing - DatawareHouse FISI - UNMSM

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSE

Niveles de análisis OLAP● Los servicios de OLAP proveen de múltiples

niveles de análisis:– Consultas complejas (grandes volumnes).– Comparación de datos (intensivo).– Encontrar patrones.– Análisis de tendencias.– Reportes, etc.

Page 7: On-Line Analytical Processing - DatawareHouse FISI - UNMSM

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSE

Característica del OLAP● Consolidad: Lainformación se encuentra

agrupada desde toda las áreas de la organización y almacenada en un repositorio central y único.

● Consistente: Todos los usuario tienen la misma versión de los datos.

● Orientada al objetivo: Solo contiene información que permita tomar decisiones.

Page 8: On-Line Analytical Processing - DatawareHouse FISI - UNMSM

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSE

Característica del OLAP● Histórica: Toda la información de la empresa

esta almacenada como fotografía en el repositorio.

● Solo lectura: El sistema OLAP s para solo consultas.

● Atómica: La información OLAP contiene data sumarizada y resumida.

Page 9: On-Line Analytical Processing - DatawareHouse FISI - UNMSM

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSEHerramientas OLAP– Los servidores OLAP son una tecnología

superior para aplicaciones de inteligencia.– Las aplicaciones OLAP realizan consultas a un

nivel agregado de la información. ● Como totales de ventas por línea de producto,

regióny vendedor.– Las bases de datos OLAP son optimizadas para

el análisis.– Consultas rápidas y consistentes a cualquier

nivel de sumarización de la información.– Las bases de datos OLAP son alimentadas de

distintas fuentes de información.

Page 10: On-Line Analytical Processing - DatawareHouse FISI - UNMSM

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSEHerramientas OLAP

● Las herramientas de OLAP presentan al usuario una visión multidimensional de los datos (esquema multidimensional) para cada actividad que es objeto de análisis.

● El usuario formula consultas a la herramienta OLAP seleccionando atributos de este esquema multidimensional sin conocer la estructura interna (esquema físico) del almacén de datos.

Page 11: On-Line Analytical Processing - DatawareHouse FISI - UNMSM

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSEHerramientas OLAP

● La herramienta OLAP genera la correspondiente consulta y la envía al gestor de consultas del sistema (p.ej. mediante una sentencia SELECT).

Page 12: On-Line Analytical Processing - DatawareHouse FISI - UNMSM

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSEHerramientas OLAPUna consulta a un almacén de datos consiste generalmente en la obtención de medidas sobre los hechos parametrizadas por atributos de las dimensiones y restringidas por condiciones impuestas sobre las dimensiones

¿ “Importe total de las ventas durante este año de los productos del departamento Bebidas, por trimestre y por categoría” ?.

Restricciones: productos del departamento Bebidas, ventas durante este año

medida hecho

Parámetros de la consulta: por categoría de producto y por trimestre

Page 13: On-Line Analytical Processing - DatawareHouse FISI - UNMSM

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSEHerramientas OLAP

“2012”

“Bebidas”Pr

oduc

to

Venta

s

importe

unidades

Departamento

Nro_producto

Categoría

Marca

TipoDía

Mes

Día de la semana

Almacén

Ciudad

Región

Tipo

Año

“Importe total de ventas en este año, del departamento de

“Bebidas”, por categoría y trimestre”

Trimestre

Page 14: On-Line Analytical Processing - DatawareHouse FISI - UNMSM

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSEHerramientas OLAPtrimestretrimestre categoríacategoría importeimporte

Page 15: On-Line Analytical Processing - DatawareHouse FISI - UNMSM

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSEHerramientas OLAP

Presentación tabular (relacional) de los datos seleccionados

Categoría Trimestre Ventas

T4

T2

T3

T1

T3

2000000

3000000

1500000

2400000

8000000

T1 1000000

T4

T2 1000000

Refrescos

Refrescos

Refrescos

Refrescos

Zumos

Zumos

Zumos

Zumos

2000000

Se asumen dos categorías en el departamento de Bebidas: Refrescos y Zumos.

Page 16: On-Line Analytical Processing - DatawareHouse FISI - UNMSM

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSEHerramientas OLAP

T4T3T2T1

Zumos

Refrescos

categoría

trimestre Presentación matricial (multidimensional) de los datos seleccionados

Los parámetros de la consulta (“por trimestre” y “por categoría”) determinan los criterios de agrupación de los datos seleccionados (ventas de productos del departamento Bebidas durante este año). La agrupación se realiza sobre dos dimensiones (Producto, Tiempo).

2000000 1000000 3000000 2000000

1000000 1500000 8000000 2400000

Page 17: On-Line Analytical Processing - DatawareHouse FISI - UNMSM

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSEHerramientas OLAP

● La realización de las consultas no es relevante, se puede hacer con selecciones, proyecciones, concatenaciones y agrupamientos tradicionales.

● Las herramientas OLAP tienen operadores de refinamiento o manipulación de consultas.

– ROLL– DRILL– SLICE & DICE– PIVOT

Page 18: On-Line Analytical Processing - DatawareHouse FISI - UNMSM

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSEHerramientas OLAP

● El carácter agregado de las consultas en el análisis de datos, aconseja la definición de nuevos operadores que faciliten la agregación (consolidación) y la disgregación (división) de los datos:

– agregación (roll): permite eliminar un criterio de agrupación en el análisis, agregando a los grupos actuales.

– disgregación (drill): permite introducir un nuevo criterio de agrupación en el análisis, disgregando los grupos actuales.

Page 19: On-Line Analytical Processing - DatawareHouse FISI - UNMSM

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSEHerramientas OLAPSi se desea introducir la dimensión Almacén en el análisis anterior e incluir un nuevo criterio de agrupación sobre la ciudad del almacén:

¿ “Importe total de las ventas durante este año de los productos del departamento Bebidas, por trimestre, por categorías y por ciudad del almacén” ?.

Restricciones: productos del departamento Bebidas, ventas durante este año

Parámetros de la consulta: por categoría de producto, por trimestre y por ciudad del almacén.

Page 20: On-Line Analytical Processing - DatawareHouse FISI - UNMSM

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSEHerramientas OLAP

“2012”

“Bebidas”

Prod

ucto

Venta

s

importe

unidades

Departamento

Nro_producto

Categoría

Marca

TipoDía

Mes

Día de la semana

Almacén

Ciudad

Región

Tipo

Año

“Importe total de ventas en este año, del departamento de “Bebidas”, por categoría,

trimestre y ciudad”

Trimestre

el usuario no necesita diseñar este

nuevo informe

Page 21: On-Line Analytical Processing - DatawareHouse FISI - UNMSM

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSEHerramientas OLAPtrimestretrimestre categoríacategoría importeimporte

DRILL ACROSS Almacén

(Ciudad)

Informe mas detallado

¡ la operación de DRILL se realiza sobre el informe original !

Page 22: On-Line Analytical Processing - DatawareHouse FISI - UNMSM

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSEHerramientas OLAPCategoría Trimestre VentasCiudad

T2

T1

400000

T2 700000

Refrescos T1

Arequipa

Categoría Trimestre Ventas

T4

T2

T3

T1

T3

2000000

3000000

1500000

2400000

8000000

T1 1000000

T4

T2 1000000

Refrescos

Refrescos

Refrescos

Refrescos

Zumos

Zumos

Zumos

Zumos

2000000

Trujillo

Refrescos

Refrescos

Refrescos

Arequipa

Trujillo

1000000

1000000

* Se asumen dos ciudades: Arquipa y Trujillo.

Cada grupo (categoría-trimestre) de la consulta original se disgrega en dos nuevos grupos (categoría-trimestre-ciudad) para las ciudades de Arequipa y Trujillo.

Page 23: On-Line Analytical Processing - DatawareHouse FISI - UNMSM

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSEHerramientas OLAP

T1 T2 T3 T4

Arequipa

Zum

osR

efr e

sco s

1000000

300000

400000

500000

100000

200000

500000

2000000

Presentación matricial de los datos seleccionados.

Page 24: On-Line Analytical Processing - DatawareHouse FISI - UNMSM

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSEHerramientas OLAP

Si se desea eliminar el criterio de agrupación sobre la dimensión Tiempo en la consulta original:

¿ “Importe total de las ventas durante este año de los productos del departamento Bebidas, por

categorías” ?

Page 25: On-Line Analytical Processing - DatawareHouse FISI - UNMSM

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSEHerramientas OLAP

“2012”

“Bebidas”

Prod

ucto

Alm

acén

importe

unidades

Departamento

Nro_producto

Categoría

Marca

TipoDía

Mes

Día de la semana

Almacén

Ciudad

Región

Tipo

Año

“Importe total de ventas en este año, del departamento de “Bebidas”, por categorías”

Trimestre

Page 26: On-Line Analytical Processing - DatawareHouse FISI - UNMSM

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSEHerramientas OLAP

ROLL ACROSS Tiempo

(Trimestre)

Informe mas agregado

trimestretrimestre categoríacategoría importeimporte

¡ la operación de ROLL se realiza sobre el informe original !

Page 27: On-Line Analytical Processing - DatawareHouse FISI - UNMSM

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSEHerramientas OLAP

Categoría Ventas

Refrescos 8000000

Zumos 12900000

Categoría Trimestre Ventas

T4

T2

T3

T1

T3

2000000

3000000

1500000

2400000

8000000

T1 1000000

T4

T2 1000000

Refrescos

Refrescos

Refrescos

Refrescos

Zumos

Zumos

Zumos

Zumos

2000000

Page 28: On-Line Analytical Processing - DatawareHouse FISI - UNMSM

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSEHerramientas OLAP

● Las operaciones de agregación (ROLL) y disgregación (DRILL) se pueden hacer sobre:

– atributos de una dimensión sobre los que se ha definido una jerarquía: DRILL-DOWN, ROLL-UP

● departamento – categoría - producto (Producto)● año - trimestre – mes - día (Tiempo)

– sobre dimensiones independientes: DRILL-ACROSS, ROLL-ACROSS

● Producto – Almacén -Tiempo

Page 29: On-Line Analytical Processing - DatawareHouse FISI - UNMSM

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSEHerramientas OLAPtrimestretrimestre categoríacategoría importeimporte

DRILL DOWN Tiempo

(mes)¡ la operación de DRILL se realiza sobre el informe original !

“Importe total de ve

ntas en este

año, del departamento de

“Bebidas”, por ca

tegoría y mes”

Page 30: On-Line Analytical Processing - DatawareHouse FISI - UNMSM

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSEHerramientas OLAPCategoría Trimestre VentasMes

T1

T1

500000

Refrescos T1

Enero

Categoría Trimestre Ventas

T4

T2

T3

T1

T3

2000000

3000000

1500000

2400000

8000000

T1 1000000

T4

T2 1000000

Refrescos

Refrescos

Refrescos

Refrescos

Zumos

Zumos

Zumos

Zumos

2000000

Febrero

Refrescos

Refrescos Marzo

1000000

500000

Cada grupo (categoría-trimestre) de la consulta original se disgrega en tres nuevos grupos (categoría-trimestre-mes).

Page 31: On-Line Analytical Processing - DatawareHouse FISI - UNMSM

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSEHerramientas OLAP

● Otras operaciones de OLAP:– SLICE & DICE: seleccionar y proyectar datos

en el informe.– PIVOT: reorientación de las dimensiones en el

informe.

Page 32: On-Line Analytical Processing - DatawareHouse FISI - UNMSM

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSEHerramientas OLAP

Ventas

ElectronicsToysClothingCosmetics

Q1

$5,2$1,9$2,3$1,1

ElectronicsToysClothingCosmetics

Q2

$8,9$0,75$4,6$1,5

Productos Store1 Store2

$5,6$1,4$2,6$1,1

$7,2$0,4$4,6$0,5

Ventas

ElectronicsToysClothingCosmetics

Sto

re 1 $5,2

$1,9$2,3$1,1

ElectronicsToysClothingCosmetics

Sto

re 2 $5,6

$1,4$2,6$1,1

Productos Q1 Q2

$8,9$0,75$4,6$1,5

$7,2$0,4$4,6$0,5

PIVOT

Page 33: On-Line Analytical Processing - DatawareHouse FISI - UNMSM

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSEHerramientas OLAPVentas

ElectronicsToysClothingCosmetics

Q1

$5,2$1,9$2,3$1,1

ElectronicsToysClothingCosmetics

Q2

$8,9$0,75$4,6$1,5

Productos Store1 Store2

$5,6$1,4$2,6$1,1

$7,2$0,4$4,6$0,5

Ventas

ElectronicsToysQ

1 $5,2$1,9

Productos Store1

ElectronicsToysQ

2 $8,9$0,75

SLICE & DICE

Page 34: On-Line Analytical Processing - DatawareHouse FISI - UNMSM

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSEHerramientas OLAPLas herramientas de OLAP se caracterizan* por:

ofrecer una visión multidimensional de los datos (matricial). no imponer restricciones sobre el número de dimensiones. ofrecer simetría para las dimensiones. permitir definir de forma flexible (sin limitaciones) sobre las

dimensiones: restricciones, agregaciones y jerarquías entre ellas.

ofrecer operadores intuitivos de manipulación: drill-down, roll-up, slice-and-dice, pivot.

ser transparentes al tipo de tecnología que soporta el almacén de datos (ROLAP o MOLAP).

*Subconjunto de las 12 reglas propuestas por E.F. Codd para almacen de datos.

Page 35: On-Line Analytical Processing - DatawareHouse FISI - UNMSM

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSETipos de Sistemas OLAP

● El almacén de datos y las herramientas OLAP se pueden basar físicamente en varias organizaciones:

– Sistemas ROLAP● Se implementan sobre tecnología relacional,

pero disponen de algunas facilidades para mejorar el rendimiento (índices de mapas de bits, índices de JOIN).

● El motor OLAP se encuentra en un servidor dedicado.

● Permite el análisis de una enorme cantidad de datos.

Page 36: On-Line Analytical Processing - DatawareHouse FISI - UNMSM

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSETipos de Sistemas OLAP

– Sistemas MOLAP● Disponen de estructuras de almacenamiento

específicas (arrays) y técnicas de compactación de datos que favorecen el rendimiento del almacén.

– Sistemas HOLAP● Sistemas híbridos entre ambos.● Almacena algunos datos en un motor relacional

y otros en una base de datos multidimensional.

– Sistemas DOLAP o Desktop OLAP ● OLAP de escritorio.

Page 37: On-Line Analytical Processing - DatawareHouse FISI - UNMSM

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSE

Tipos de Sistemas OLAP

Page 38: On-Line Analytical Processing - DatawareHouse FISI - UNMSM

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSEROLAP y MOLAP

● Sistemas ROLAP:– El almacén de datos se construye sobre un

SGBD Relacional.– Los fabricantes de SGBD relacionales ofrecen

extensiones y herramientas para poder utilizar el SGBDR como un Sistema Gestor de Almacenes de Datos.

Page 39: On-Line Analytical Processing - DatawareHouse FISI - UNMSM

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSEROLAP y MOLAP

● Sistemas ROLAP:– Extensiones de los SGBD relacionales:– índices de mapa de bits– índices de JOIN– técnicas de particionamiento de los datos– optimizadores de consultas– extensiones del SQL (operador CUBE, roll-up)

Page 40: On-Line Analytical Processing - DatawareHouse FISI - UNMSM

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSEROLAP y MOLAP

Sistemas MOLAP.

Sistema de propósito específico:

estructuras de datos (arrays)

técnicas de compactación.

El objetivo de los sistemas MOLAP es almacenar físicamente los datos en estructuras multidimensionales de forma que la representación externa y la representación interna coincidan.

Page 41: On-Line Analytical Processing - DatawareHouse FISI - UNMSM

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSEROLAP y MOLAP

Warehouse

ServidorMOLAP

– El servidor MOLAP construye y almacena datos en estructuras multidimensionales.

– La herramienta de OLAP presenta estas estructuras multidimensionales.

Herramienta

OLAP

Estructuras multidimensionales

Page 42: On-Line Analytical Processing - DatawareHouse FISI - UNMSM

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSEROLAP y MOLAPMOLAP:– Datos

• Arrays• Extraídos del almacén de datos

– almacenamiento y procesos eficientes

– la complejidad de la BD se oculta a los usuarios

– el análisis se hace sobre datos agregados y métricas o indicadores precalculados. Warehouse

ServidorMOLAP

Herramienta

OLAP

Estructuras multidimensionales

Page 43: On-Line Analytical Processing - DatawareHouse FISI - UNMSM

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSEROLAP y MOLAP

HerramientaOLAP

HerramientaOLAP

Servidor Relacional

Desktop

Servidor Multidimensional

Warehouse

MOLAPROLAP

Cl ie

nte

Serv

ido r

Page 44: On-Line Analytical Processing - DatawareHouse FISI - UNMSM

CARRERA DEINGENIERÍADE SISTEMAS

DATAWAREHOUSEROLAP y MOLAPROLAP/MOLAP: Ventajas e Inconvenientes:

ROLAP

pueden aprovechar la tecnología relacional. pueden utilizarse sistemas relacionales genéricos (más baratos

o incluso gratuitos).

el diseño lógico corresponde al físico si se utiliza el diseño de Kimball.

MOLAP:

generalmente más eficientes que los ROLAP.

el coste de los cambios en la visión de los datos.

la construcción de las estructuras multidimensionales.