applied data warehousing - fbi.h-da.de · pdf fileetl tool – oracle owb 19. 31 pentaho...

Download Applied Data Warehousing - fbi.h-da.de · PDF fileETL Tool – ORACLE OWB 19. 31 Pentaho 20. 33 Make or Buy l Projektanforderung wird zu 100% erfüllt (custom code) l komplette Nachvollziehbarkeit

If you can't read please download the document

Upload: ngotu

Post on 06-Feb-2018

217 views

Category:

Documents


1 download

TRANSCRIPT

  • 1

    Applied Data Warehousing

    Belegnummer 002.22110 (NFE211)

    Michael Cordes

    Holger Oehring

    Matthias Rein

    0

  • 2

    bersicht1. Einleitung

    2. Planung

    3. Extraktion

    4. Tools

    5. Stage Load (Arbeitsbereich)

    6. Transformationl Schematransformationl Datentransformation

    7. Conform

    8. Technische QA

    9. Datenmodell Load

    10. Aggregate

    291

  • 3

    Einleitung

    392

  • 4

    ETL?l Vorkenntnisse der Studierenden

    42

  • 5 5

    Projekt: Evolution eines DWHs

    Projekt-Management

    Ermittlungdes

    Analyse-Bedarfsund der

    AktuellenDaten-

    versorgung

    Produktauswahl/Entwicklung

    Frontend/Backend

    TechnischeArchitektur

    ModellierungDefinition Rahmenwerk

    DatenextraktionTransformation

    LadenBetrieb

    NeuePriorisierung

    Begleitende organisatorischeUmsetzungsmanahmen

    3

  • 6

    Die ETL-Bibel

    6

    Practical Techniques forExtracting, Cleaning,Conforming, and DeliveringDataISBN:

    6

  • 7 7

    Back Room / Front Room

    7

  • 8

    ETL-Prozess 1

    Aufwndiger Teil des Data Warehousingl Vielzahl der Datenquellen

    l Heterogenitt (Daten / Inhalte)

    l hohes Datenvolumen

    l Komplexitt der Transformationl Schema- und Instanzintegrationl Datenbereinigung

    l Keine durchgngige Methoden- und Systemuntersttzung

    l Unterschiedliche Werkzeuge vorhanden

    89

  • 9 9

    ETL-Prozess 2Extraktion:

    l Selektion und Projektion eines Ausschnitts der Daten aus den Quellsystemen und Bereitstellung fr die Transformation

    Transformation:

    l Anpassen der Daten an die Schema- und Qualittsanforderungen

    Laden:l Physisches Einbringen der Daten aus dem Arbeitsbereich (Staging Area) in das Data

    Warehouse (einschlielich notwendiger Aggregationen)

    24

  • 10

    ETL-Prozess 3oder auch

    1025

  • 11

    Planung

    1193

  • 12

    ETL-Planung

    12

    Anforderung &

    Wirklichkeit

    Architektur

    Umsetzung

    Test&

    Release

    ETL-Architekt

    ETL-Entwickler

    10

  • 13

    ETL-Architekturl Datenquellen

    l Staging Tabellen

    l Meta-Daten

    l Transformationsregeln

    l Feldzuordnung (Quelle Ziel)

    l Zielschema Belieferungl Dimensionen

    l Art der Historisierung (SCD)l Faktenl Aggregate

    l

    13

    Ziel: ETL Master-Blue-Print11

  • 14

    ETL-Planung - Stagel Stage Tabellen Kennzahlen (staging tables volumetric)

    l Tabellennamel Update Strategie (lschen & laden / nur einfgen)l Ladefrequenz (tglich / monatlich / bei Bedarf)l ETL-Jobsl Anzahl Datenstze (Initial)l Durchschnittliche Zeilenlngel Wachstumstreiber (z.B. neue Kunden)l Erwartete Datenstze (monatlich)l Erwartete Daten (in Byte / Monat)l Initiale Tabellengre (in Bytes)l Tabellen Gre nach 6 Monaten (in MB / TB)

    1412

  • 15

    ETL-Planung log. Transformationl logische Daten-Landkarte (logical data map)

    l Quelle (aus Stage-Bereich)l Tabellennamel Spaltennamel Datentypl Tabellentyp (Dimension / Fakt)l SCD-Typ (1 / 2 )

    l Ziel (im Zieldatenmodell)l Database Namel Tabellen Namel Spaltennamenl Datentyp

    l Beschreibung der Transformationl Umgangssprachlichl pseudo Code

    1513

  • 16

    ETL-Planung Systembersichtl bersicht ber die Quellsysteme

    (source system tracking report)l Themengebietl Name der Schnittstellel Projektnamel Priorittl Abteilung oder Nutzung (z. B. Personal Abteilung)l Fachlicher Verantwortlicherl Technischer Verantwortlicherl Datenbank System (Oracle / DB2 / )l Plattform (Windows / Linux / z/OS / AIX auf RS/6000 / )l Anzahl tglicher Nutzerl Datenbankgre (in GB/TB)l Anzahl tglicher Transaktionenl Allgemeine Kommentare

    1614

  • 17

    Extraktion

    1795

  • 18

    Extraktion

    Aufgabe:l Regelmige Extraktion von (nderungs-)Daten aus den Datenquellenl Datenversorgung des DWHs

    Wesentliche Aspektel Zeitpunkt(e) der Extraktionl Art der extrahierten Daten

    1826

  • 19

    Extraktionszeitpunkte

    l synchrone Benachrichtigungl Quelle bewirkt jede nderung

    l asynchrone Benachrichtigungl periodisch

    l Quellen erzeugen regelmig Extraktel DWH fragt regelmig Datenbestand ab

    l ereignisgesteuertl DWH erfragt nderungen

    z.B. vor dem Jahresabschlussl Quelle informiert, wenn bestimmte Anzahl an nderungen vorliegt

    l anfragegesteuertl DWH erfragt nderungen vor jedem tatschlichen Zugriff

    1927

  • 20

    Datenextraktionen

    l Snapshots: Quelle liefert immer kompletten Bestand bzw. alle Transaktionen seit der letzten Belieferungl z.B. alle Kunden, alle Telefonverbindungenl Historische Daten sichern, komplette Daten bernehmen

    l Logs: Quelle liefert jede nderungl Transaktionslogs, Anwendungsgesteuertes Loggingl nderungen sind effizient einzuspielen

    l Netto Logs: Quelle liefert netto nderungenl z.B. Preislisten- / Produktnderungenl Effizienzerhhung durch Einspielen von Inkrementen

    2028

  • 21

    Datenversorgung

    l Viele Bestandsfhrenden-Systeme sind nicht online zugreifbar, so dass z.B. das direkte Einfgen von nderungen nicht immer mglich ist.

    l Non-Standard-DBs ermglichen keine standardisierte Datenbernahme.

    l Quellsysteme haben hufig unklare Semantik. Mitunter sind Felder mehrfach belegt

    l Zugriff erfolgt auf andere DWH-Daten. Wobei die Daten bereits einmal transformiert wurden.

    l Die synchrone Extraktion kann zu einer starken Belastung der operativen Systeme fhren, dass diese erheblich gestrt wird, ist also i.d.R. nicht mglich

    l Fr die anfragegesteuerte Extraktion existieren keine technisch effizienten Verfahren

    2129

  • 22

    Datenformatenl Je nach eingesetzter Technik knnen folgende Datenformate durch das Quellsystem zur

    Verfgung gestellt werden:l DB-Unloads (DB2, ORACLE, ) l sequentielle Dateien (Textdateien) aus Schnittstellenprogramm

    l Mit festem Satzaufbaul Mit Vor- und Endsatzl Mit unterschiedlichen Satzarten

    l CSV-Dateienl XML-Dateienl XLS-Dateienl

    l Vorsicht bei allen Dateien kann der Zeichensatz OS-Spezifisch ausfallen (EBCDIC vs. ASCII).

    l Deutsche Sonderzeichen wie , , , , werden ggf. bereits beim Transport nicht richtig bertragen.

    2230

  • 23

    Datenformate Beispielel DB2 Unload ber Entladekarte

    l SQL Definition aus Cobol Copy Strecke

    l Cobol Copy Streckel Unterschiedliche Satzartenl Definitionen

    l Fest definierte Schnittstelle (feste Positionen)

    2331

  • 24 24

    Extraktion in Kooperationl Quellsystem liefert normalerweise die bentigten Daten

    l Umfang der Schnittstelle definierenl Art der Datenlieferung bestimmen

    l Zeitpunkte definierenl Prfen: Existiert bereits eine Exportschnittstelle, die genutzt werden kann?

    l Definierte Schnittstelle kapselt alle nderungen im Quellsystem

    l Fehlerhafte Daten resultieren ggf. aus falschem Schnittstellenprogramml Bei 1:1 Kopien schlagen nderungen in der Quelle 1:1 ins DWH durch (Kopplung der

    Physik)

    32

  • 25

    ETL Tool

    2594

  • 26

    ETL-Tool & Auswahll Marktbersicht

    l kommerzielle Produkte (eine Auswahl)l Open Source Projekte (ein Beispiel)

    l Auswahl eines Produktsl Vor- und Nachteile

    l Zusammenfassung

    Im Praktikum wird Pentaho Data Integration (Spoon / Kettle) genutzt.

    2615

  • 27 27

    ETL Toolsl Beispiele:

    l Informatica http://www.informatica.com/de/knowledge_center/Pages/white_papers_reports.aspxl SAS Data Integration http://www.sas.com/technologies/dw/etl/index.htmll Microsoft SSIS / DTS http://technet.microsoft.com/en-us/library/cc917721.aspxl ORACLE OWB http://www.oracle.com/technetwork/developer-tools/warehouse/overview/introduction/index.htmll

    l Siehe Wikipedia: l http://de.wikipedia.org/wiki/Business_Intelligence

    l Unter DI / ETL Tools gibt es Open Source Softwarel Pentaho

    l Homepage - http://www.pentaho.com/l Community - http://community.pentaho.com

    l Talend Open Studiol Homepage - http://www.talend.com/l Community - http://community.talend.com/

    16

  • 28

    ETL Tool SAS Data Integration

    2817

  • 29

    ETL Tool Microsoft SSIS

    2918

  • 30

    ETL Tool ORACLE OWB

    3019

  • 31

    Pentaho

    3120

  • 33 33

    Make or Buy

    l Projektanforderung wird zu 100% erfllt (custom code)

    l komplette Nachvollziehbarkeit ist gegeben (Source Code)

    l keine Lizenzkostenl kann vollstndig in existierenden

    SW-Stack integriert werden

    pro contra

    mak

    ebu

    y

    l Kosten (Lizenz, Wartung, Schulung)l Abhngigkeit zu Herstellerl ggf. Migrationskosten bei einer neuen

    Versionl es wird ein grerer Funktionsumfang

    geliefert, als bentigt wirdl ggf. kein Audit mglich (Datenmodell,

    Code, ) liegt nicht vorl fehlende Funktionalitt kann ggf. nicht

    selbst hinzugefgt werdenl teure SW-Evaluierung notwendig, um

    das richtige Werkzeug zu finden

    l graphische Benutzeroberflchel viele fertige Komponentenl Framework / Vorgehensmodell

    werden geliefertl Logging ist Teil der Lsungl Zeitersparnis bei der Entwicklung l schnelle Einarbeitungl Es werden keine

    Entwicklerkapazitten gebundenl es werden i.d.R. weniger

    allgemeine Fhigkeiten (Skills) bentigt

    l Entwicklungszeit fr Framework und konkrete Anforderung

    l Wissen ist ggf. nur bei einer Key-Resource vorhanden

    l Dokumentation ggf. nicht existent oder mangelhaft

    die Listen haben keinen Anspruch auf Vollstndigkeit22