what time is it in the data warehouse. indice 1-introducción 2-actualización en data warehouse...

46
What Time Is It in the Data Warehouse

Upload: adan-pino

Post on 28-Jan-2016

213 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: What Time Is It in the Data Warehouse. Indice 1-Introducción 2-Actualización en Data Warehouse 3-Gestión de tiempo en un datawarehouse 4-Diseño de soluciones

What Time Is It in the Data

Warehouse

Page 2: What Time Is It in the Data Warehouse. Indice 1-Introducción 2-Actualización en Data Warehouse 3-Gestión de tiempo en un datawarehouse 4-Diseño de soluciones

Indice1-Introducción

2-Actualización en Data Warehouse

3-Gestión de tiempo en un datawarehouse

4-Diseño de soluciones

5-Slowly changing dimensions

6-Herramientas ETL

7-La solución Change Data Capture(CDC)

8-Bibliografía y webliografia

Page 3: What Time Is It in the Data Warehouse. Indice 1-Introducción 2-Actualización en Data Warehouse 3-Gestión de tiempo en un datawarehouse 4-Diseño de soluciones

Introducción (I)

El Data Warehouse es una tecnología que básicamente se encarga de consolidar, integrar y centralizar los datos que la empresa genera en todos los ámbitos de una actividad de negocio, facilitando posteriormente una amplia gama de análisis que permitirá la toma de decisiones estratégicas y tácticas.

Page 4: What Time Is It in the Data Warehouse. Indice 1-Introducción 2-Actualización en Data Warehouse 3-Gestión de tiempo en un datawarehouse 4-Diseño de soluciones

Introducción (II)

Una de las definiciones del data Warehouse es:

El Data Warehouse es una colección de datos temática, integrada, no volátil y variante en el tiempo diseñada para ayudar en la toma de decisiones.

Page 5: What Time Is It in the Data Warehouse. Indice 1-Introducción 2-Actualización en Data Warehouse 3-Gestión de tiempo en un datawarehouse 4-Diseño de soluciones

Actualización en Data Warehouse (I)

La necesidad de actualizaciones surge típicamente cuando las medidas iniciales de los eventos pueden estar sujetas a error o cuando los eventos evolucionan inherentemente en el tiempo.

Desafortunadamente, si las actualizaciones se realizaran mediante la sobreescritura física de los eventos pasados, surgirían varios problemas:

Page 6: What Time Is It in the Data Warehouse. Indice 1-Introducción 2-Actualización en Data Warehouse 3-Gestión de tiempo en un datawarehouse 4-Diseño de soluciones

Actualización en Data Warehouse (II)

la justificación y la trazabilidad de la información requieren la capacidad de preservar la información exacta sobre la que el analista basó su decisión. Si los antiguos eventos son reemplazados por sus “nuevas” versiones, las decisiones pasadas ya no pueden justificarse.

Page 7: What Time Is It in the Data Warehouse. Indice 1-Introducción 2-Actualización en Data Warehouse 3-Gestión de tiempo en un datawarehouse 4-Diseño de soluciones

Actualización en Data Warehouse (III)

En algunas aplicaciones tener acceso sólo a la versión más actual de la información no es suficiente para asegurar la calidad del análisis.

Page 8: What Time Is It in the Data Warehouse. Indice 1-Introducción 2-Actualización en Data Warehouse 3-Gestión de tiempo en un datawarehouse 4-Diseño de soluciones

Actualización en Data Warehouse (IV)

La carga de datos en el Data Warehouse suele realizarse como procesos batch con periodicidades establecidas (por ejemplo cada noche, una vez a la semana).

La pregunta ahora es ¿cómo actualizamos los datos en un Data Warehouse? Y qué implicación tiene actualizar los datos con retraso respecto al tiempo en el que ocurrió?

Page 9: What Time Is It in the Data Warehouse. Indice 1-Introducción 2-Actualización en Data Warehouse 3-Gestión de tiempo en un datawarehouse 4-Diseño de soluciones

Gestión de tiempo (I)

algunas soluciones adoptadas para ofrecer información consistente están basadas sobre el hecho de distinguir entre el tiempo de transacción y el tiempo valido en el que ocurren los eventos:

Dos posibles semánticas de eventos se distinguen y son denominadas (FLOW y STOCK).

Tres categorías de consultas.

Un par de diseños introducidos que tratan el problema y que utilizan las soluciones mencionadas.

Page 10: What Time Is It in the Data Warehouse. Indice 1-Introducción 2-Actualización en Data Warehouse 3-Gestión de tiempo en un datawarehouse 4-Diseño de soluciones

Gestión de tiempo (II)semántica de eventos

Transactional fact: en este modelo cada evento se registra una sola vez o se resume un conjunto de transacciones que ocurren en el mismo intervalo de tiempo. Son medidas tomadas en el flujo de tiempo y son generalmente aditivas.

Snapshot fact: los eventos se corresponden a medidas periódicas de un evento, no son aditivas.

Page 11: What Time Is It in the Data Warehouse. Indice 1-Introducción 2-Actualización en Data Warehouse 3-Gestión de tiempo en un datawarehouse 4-Diseño de soluciones

Gestión de tiempo (III)dimensiones y tipos de

consultasDado el problema de actualización retrasada se pueden considerar dos dimensiones temporales distintas, una para “tiempo de validez” y otra para “tiempo de transacción”:

Tiempo de validez: indica el periodo de tiempo en el cual un hecho es verdad en el mundo real.

Tiempo de transacción: indica el periodo de tiempo en el cual un hecho está guardado en la base de datos.

Page 12: What Time Is It in the Data Warehouse. Indice 1-Introducción 2-Actualización en Data Warehouse 3-Gestión de tiempo en un datawarehouse 4-Diseño de soluciones

Gestión de tiempo (IV)dimensiones y tipos de

consultasDadas estas dos dimensiones, tres tipos de consultas se pueden considerar:

Up-to-date queries: son las consultas que requieren las últimas actualizaciones para sus medidas.

Rollback queries: son las consultas que requieren un dato antiguo para cada medida que realizan (ejemplo: comparación).

Historical queries: son consultas que requieren varios datos antiguos para cada medida que realizan.

Page 13: What Time Is It in the Data Warehouse. Indice 1-Introducción 2-Actualización en Data Warehouse 3-Gestión de tiempo en un datawarehouse 4-Diseño de soluciones

Diseño de soluciones (I)

Esquema Monotemporal: donde sólo el tiempo válido se modela como una dimensión.(se actualizan los eventos y no se traza el tiempo).

Esquema bitemporal: donde el tiempo válido y tiempo de transacción se modelan como dimensiones. (los nuevos eventos se añaden y su tiempo de registro se traza).

dos soluciones específicas se pueden idear para un esquema bitemporal, delta solución y solución consolidada, donde los eventos utilizados para representar cambios tienen semántica de flujo y stock respectivamente.

Page 14: What Time Is It in the Data Warehouse. Indice 1-Introducción 2-Actualización en Data Warehouse 3-Gestión de tiempo en un datawarehouse 4-Diseño de soluciones

Diseño de soluciones (II)

dos soluciones específicas se pueden idear para un esquema bitemporal, delta solución y solución consolidada, donde los eventos utilizados para representar cambios tienen semántica de flujo y stock respectivamente.

Page 15: What Time Is It in the Data Warehouse. Indice 1-Introducción 2-Actualización en Data Warehouse 3-Gestión de tiempo en un datawarehouse 4-Diseño de soluciones

Diseño de soluciones (III)DELTA solución

En la solución delta: cada actualización está representada por un evento de “flujo” que registra lo que se denomina un "delta" para un hecho; El tiempo de la transacción se modela añadiendo al hecho una nueva dimensión temporal.

Page 16: What Time Is It in the Data Warehouse. Indice 1-Introducción 2-Actualización en Data Warehouse 3-Gestión de tiempo en un datawarehouse 4-Diseño de soluciones

Diseño de soluciones (IV)DELTA solución

En la solución consolidada:

cada actualización está representada por un evento “stock” que registra la versión consolidada del hecho. El tiempo de la transacción se modela añadiendo al hecho dos nuevas dimensiones temporales, utilizando marcas de tiempo para marcar el intervalo de tiempo durante el cual cada evento era el actual en el data warehouse.

NOTA: los dos diseños admiten los tres tipos de consultas mencionadas.

Page 17: What Time Is It in the Data Warehouse. Indice 1-Introducción 2-Actualización en Data Warehouse 3-Gestión de tiempo en un datawarehouse 4-Diseño de soluciones

Slowly changing dimensions (I)

Es una solución al problema de actualizaciones. No se consideran todos los hechos o todas las dimensiones que dependen del tiempo. Se denomina a estas dimensiones casi constantes slowly changing dimensions (SCD) y para su tratamiento Kimball identificó originalmente tres tratamientos diferentes, a los que denominó “Tipo 1”, “Tipo 2” y “Tipo 3”.

Page 18: What Time Is It in the Data Warehouse. Indice 1-Introducción 2-Actualización en Data Warehouse 3-Gestión de tiempo en un datawarehouse 4-Diseño de soluciones

Slowly changing dimensions (II)

Tipo 1: Se sobrescribe el dato antiguo con el nuevo, y por tanto no se registra la historia.

Tipo 2: Registra datos históricos mediante la creación de múltiples registros con claves diferentes. Con el tipo 2 se preserva toda la historia mediante la inserción de un nuevo registro cada vez que se hace un cambio.

Tipo 3: Registra los cambios utilizando columnas separadas.

Page 19: What Time Is It in the Data Warehouse. Indice 1-Introducción 2-Actualización en Data Warehouse 3-Gestión de tiempo en un datawarehouse 4-Diseño de soluciones

Slowly changing dimensions (III)

Tipo 6: Este método combina los anteriores 1, 2 y 3 (1 + 2 + 3 = 6), de ahí su nombre.

Page 20: What Time Is It in the Data Warehouse. Indice 1-Introducción 2-Actualización en Data Warehouse 3-Gestión de tiempo en un datawarehouse 4-Diseño de soluciones

Herramientas ETL

Page 21: What Time Is It in the Data Warehouse. Indice 1-Introducción 2-Actualización en Data Warehouse 3-Gestión de tiempo en un datawarehouse 4-Diseño de soluciones

Definición.

• Extract Transform LoadExtract : extraer datos de diferentes fuentes Transform : transformar los datos Load : cargar los datos en un data Warehouse

Page 22: What Time Is It in the Data Warehouse. Indice 1-Introducción 2-Actualización en Data Warehouse 3-Gestión de tiempo en un datawarehouse 4-Diseño de soluciones

Procesos ETL.

• Extraer : Consiste en extraer los datos desde diferentes sistemas de origen.

• Extraer : Analizar los datos extraídos .

Correspondencia

Bases de datos

operacionales

Almacenamiento intermedio

Almacén de datos

Extracción

Page 23: What Time Is It in the Data Warehouse. Indice 1-Introducción 2-Actualización en Data Warehouse 3-Gestión de tiempo en un datawarehouse 4-Diseño de soluciones

Procesos ETL.

• Transformación : En esta fase se aplica una serie de reglas de negocio o funciones sobre los datos extraídos para convertirlos en datos que serán cargados .

Correspondencia

Bases de datos operacionales

Almacenamiento intermedio

Almacén de datos

Transformación

Page 24: What Time Is It in the Data Warehouse. Indice 1-Introducción 2-Actualización en Data Warehouse 3-Gestión de tiempo en un datawarehouse 4-Diseño de soluciones

Procesos ETL.

• Limpieza de datos: eliminar datos, corregir y completar datos, eliminar duplicados.

12M65431

12-m-65421

“12m65421”

“12m65421”

“ ”

12M65431

12M65431

12-m-65421

“12m65421”

“12m65421”

“ ”

12M65431

12

12

12

M

m

m

65431

65421

65421

12

12

M

M

65431

65421

Page 25: What Time Is It in the Data Warehouse. Indice 1-Introducción 2-Actualización en Data Warehouse 3-Gestión de tiempo en un datawarehouse 4-Diseño de soluciones

Procesos ETL.

• Codificar valores libres (por ejemplo, convertir “Hombre” en “H” o “Mujer” en “M″)

Aplicación: Hombre y Mujer H - M

Operacional Data Warehouse

Page 26: What Time Is It in the Data Warehouse. Indice 1-Introducción 2-Actualización en Data Warehouse 3-Gestión de tiempo en un datawarehouse 4-Diseño de soluciones

Procesos ETL.

• Unir varias columnas en una .

Page 27: What Time Is It in the Data Warehouse. Indice 1-Introducción 2-Actualización en Data Warehouse 3-Gestión de tiempo en un datawarehouse 4-Diseño de soluciones

Procesos ETL.

• Obtener nuevos valores calculados

• Calcular totales de múltiples filas de datos

• Dividir una columna en varias

Page 28: What Time Is It in the Data Warehouse. Indice 1-Introducción 2-Actualización en Data Warehouse 3-Gestión de tiempo en un datawarehouse 4-Diseño de soluciones

Procesos ETL.

• Cargar : En esta false los datos de la fase anterior (transformar) son cargados en el sistema de destino .

Correspondencia

Transformación

Extracción Carga

Bases de datos operacionales

Almacenamiento intermedio

Almacén de datos

Page 29: What Time Is It in the Data Warehouse. Indice 1-Introducción 2-Actualización en Data Warehouse 3-Gestión de tiempo en un datawarehouse 4-Diseño de soluciones

Procesos ETL.

• Existen dos etapas del proceso de carga: - Carga inicial. - Mantenimiento periódico.

• Existen dos formas de desarrollar el proceso de carga: - TAL (Trunc and Load) . - Incremental .

Page 30: What Time Is It in the Data Warehouse. Indice 1-Introducción 2-Actualización en Data Warehouse 3-Gestión de tiempo en un datawarehouse 4-Diseño de soluciones

Procesos ETL.

• Procesamiento : Un desarrollo reciente en el software ETL es la aplicación de procesamiento paralelo .

• Hay 3 tipos principales de paralelismos que se pueden implementar en las aplicaciones ETL:

- De datos- De segmentacion (pepline) - De componente

Page 31: What Time Is It in the Data Warehouse. Indice 1-Introducción 2-Actualización en Data Warehouse 3-Gestión de tiempo en un datawarehouse 4-Diseño de soluciones

Herramientas ETL

Page 32: What Time Is It in the Data Warehouse. Indice 1-Introducción 2-Actualización en Data Warehouse 3-Gestión de tiempo en un datawarehouse 4-Diseño de soluciones

Herramientas ETL

• Colver.ETL : Es una herramienta ETL open source basado en un framework Java que puede ser utilizado para transformar

datos estructurados . Puede ser utilizado solo como un servidor de aplicación .

Page 33: What Time Is It in the Data Warehouse. Indice 1-Introducción 2-Actualización en Data Warehouse 3-Gestión de tiempo en un datawarehouse 4-Diseño de soluciones

Desventajas de ETL.

• Costo de las licencias

• Flexibilidad

• Incertidumbre

Page 34: What Time Is It in the Data Warehouse. Indice 1-Introducción 2-Actualización en Data Warehouse 3-Gestión de tiempo en un datawarehouse 4-Diseño de soluciones

Conclusión.

• En sistemas de información no existen soluciones universales, es decir soluciones que siempre van a dar buenos resultados en el ciento por ciento de los casos. Por esta razón durante la presentación , veremos otras soluciones que pueden ser mejores o peores .

Page 35: What Time Is It in the Data Warehouse. Indice 1-Introducción 2-Actualización en Data Warehouse 3-Gestión de tiempo en un datawarehouse 4-Diseño de soluciones

La solución Change Data Capture(CDC)

La tecnologia Change Data Capture permite capturar solamente los cambios que se han hecho en los datos fuente y enviarlos directamente al sistema en tiempo real , asi se ahorra mucho trafico en la red y tambien reducir el tiempo de tratamiento ETL .

Las soluciones que utilizan CDC tienen una gran ventaja que las

herramientas ETL traditional et son complementos de ellos en

muchos casos

Page 36: What Time Is It in the Data Warehouse. Indice 1-Introducción 2-Actualización en Data Warehouse 3-Gestión de tiempo en un datawarehouse 4-Diseño de soluciones

La solución Change Data Capture(CDC)

Page 37: What Time Is It in the Data Warehouse. Indice 1-Introducción 2-Actualización en Data Warehouse 3-Gestión de tiempo en un datawarehouse 4-Diseño de soluciones

La solución Change Data Capture(CDC)

Las ventajas de esta tecnologia son lo siguiente :

• Los cambios se detectan en tiempo real para que la informacion

siempre queda actualizada .la tecnologia CDC permite capturar la

informacion un vez que ha sido producida

• No existe ningun impacto sobre la eficiencia de los sistemas de

produccion

Page 38: What Time Is It in the Data Warehouse. Indice 1-Introducción 2-Actualización en Data Warehouse 3-Gestión de tiempo en un datawarehouse 4-Diseño de soluciones

La solución Change Data Capture(CDC)

• No hace falta parar el sistemas para poder efectuar estos cambios

• Se adapta facilmente a unos bases de datos muy grandes y a un

gran numero de transacciones

• La tecnologia CDC solamente lee las informaciones de la base de

datos y no hace ninguna modificacion en la base de datos fuente

Page 39: What Time Is It in the Data Warehouse. Indice 1-Introducción 2-Actualización en Data Warehouse 3-Gestión de tiempo en un datawarehouse 4-Diseño de soluciones

La solución Change Data Capture(CDC)

• Puede completar las herramientas ETL tradicional , Muchas

empresas combinaban entre las ventajas que ofrece el CDC y un

ETL tradicional

Page 40: What Time Is It in the Data Warehouse. Indice 1-Introducción 2-Actualización en Data Warehouse 3-Gestión de tiempo en un datawarehouse 4-Diseño de soluciones

IBM InfoSphere Change Data Capture

Page 41: What Time Is It in the Data Warehouse. Indice 1-Introducción 2-Actualización en Data Warehouse 3-Gestión de tiempo en un datawarehouse 4-Diseño de soluciones

IBM InfoSphere Change Data Capture IBM infosphere Change data Capture ofrece una integracion

bidireccional et en tiempo real y las transformaciones entres distintas

bases de datos y de otros datos almacenados en otras plataformas .

Al contrario de las herramientas ETL tradicional , los cambios batch y de

las consultas y los sistemas basados en mensajes

Page 42: What Time Is It in the Data Warehouse. Indice 1-Introducción 2-Actualización en Data Warehouse 3-Gestión de tiempo en un datawarehouse 4-Diseño de soluciones

Beneficios de IBM InfoSphere

Impacto minimo : en vez de utilizar triggers o ejecutar consultas en las bases de datos , IBM InfoSphere utiliza lo mejor de la tecnologia CDC basada en los logs de las bases de datos

Facil a desplegar : la facilidad de uso de la interfaz grafica de IBM InfoSphere facilita la seleccion de la fuente de la base de datos y de configurar las transformaciones

Tiempo real : los cambios de datos son captados en el sistemas fuente a medida que se producen , los cambios son distribuidos inmediatamente a los sistemas

Page 43: What Time Is It in the Data Warehouse. Indice 1-Introducción 2-Actualización en Data Warehouse 3-Gestión de tiempo en un datawarehouse 4-Diseño de soluciones

Beneficios de IBM InfoSphere

Flexibilidad : Los usuarios de IBM InfoSphere lo usan para distintos problemas sobre una gama de plataformas desde los mainframes hasta las aplicaciones movil , InfoSphere puedes despegarse sobre distintas arquitecturas tal como : DB2 , UDB,Microsoft SQL , server oracle , ....

Page 44: What Time Is It in the Data Warehouse. Indice 1-Introducción 2-Actualización en Data Warehouse 3-Gestión de tiempo en un datawarehouse 4-Diseño de soluciones

Bibliografia y webliografia- Concevoir et deployer un data warehouse[Ralph kimball]

- Le data warehouse : guide et de conduite de projet[Margy Ross]

- Data warehouse performance [ Ken Rudin ]

- http://www-935.ibm.com/services/fr/gbs/consulting/

- http://www.stratebi.com/etl/data-quality

- http://openaccess.uoc.edu/webapps/o2/bitstream/10609/8175/1/Sduras_TFM_0611.pdf

Page 45: What Time Is It in the Data Warehouse. Indice 1-Introducción 2-Actualización en Data Warehouse 3-Gestión de tiempo en un datawarehouse 4-Diseño de soluciones

Gracias

Page 46: What Time Is It in the Data Warehouse. Indice 1-Introducción 2-Actualización en Data Warehouse 3-Gestión de tiempo en un datawarehouse 4-Diseño de soluciones