business intelligence master data-science etl et...

47
Business Intelligence Master Data-Science ETL et Datawarehouse Ludovic DENOYER - [email protected] UPMC 17 janvier 2016 Ludovic DENOYER - [email protected] (LIP6) Business Intelligence Master Data-ScienceETL et Datawarehouse 17 janvier 2016 1 / 47

Upload: others

Post on 28-May-2020

14 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Business Intelligence Master Data-Science ETL et Datawarehousedac.lip6.fr/master/wp-content/uploads/2016/01/bi_etl.pdf · 2016-01-29 · Master Data-Science ETL et Datawarehouse Ludovic

Business IntelligenceMaster Data-Science

ETL et Datawarehouse

Ludovic DENOYER - [email protected]

UPMC

17 janvier 2016

Ludovic DENOYER - [email protected] (LIP6)Business Intelligence Master Data-ScienceETL et Datawarehouse17 janvier 2016 1 / 47

Page 2: Business Intelligence Master Data-Science ETL et Datawarehousedac.lip6.fr/master/wp-content/uploads/2016/01/bi_etl.pdf · 2016-01-29 · Master Data-Science ETL et Datawarehouse Ludovic

Rappel

L’Informatique Decisionnelle (ID), en anglais Business Intelligence (BI), estl’informatique a l’usage des decideurs et des dirigeants des entreprises. Lessystemes de ID/BI sont utilises par les decideurs pour obtenir uneconnaissance approfondie de l’entreprise et de definir et de soutenir leursstrategies d’affaires, par exemple :

d’acquerir un avantage concurrentiel,

d’ameliorer la performance de l’entreprise,

de repondre plus rapidement aux changements,

d’augmenter la rentabilite, et

d’une facon generale la creation de valeur ajoutee de l’entreprise.

...et a creer de nouveaux services...

Ludovic DENOYER - [email protected] (LIP6)Business Intelligence Master Data-ScienceETL et Datawarehouse17 janvier 2016 2 / 47

Page 3: Business Intelligence Master Data-Science ETL et Datawarehousedac.lip6.fr/master/wp-content/uploads/2016/01/bi_etl.pdf · 2016-01-29 · Master Data-Science ETL et Datawarehouse Ludovic

Les fonctions

Differents ”metiers” :

Data Integrator

Data Analyst

Data Scientist

+ Data Steward (Responsable des donnees)

Ludovic DENOYER - [email protected] (LIP6)Business Intelligence Master Data-ScienceETL et Datawarehouse17 janvier 2016 3 / 47

Page 4: Business Intelligence Master Data-Science ETL et Datawarehousedac.lip6.fr/master/wp-content/uploads/2016/01/bi_etl.pdf · 2016-01-29 · Master Data-Science ETL et Datawarehouse Ludovic

Les fonctions de la BI

Plan du cours

Fonction de collecte de donnees

Fonction d’integration

Fonction de diffusion (ou distribution)

Fonction presentation

Aujourd’hui : Collecte de donnees + integration

Ludovic DENOYER - [email protected] (LIP6)Business Intelligence Master Data-ScienceETL et Datawarehouse17 janvier 2016 4 / 47

Page 5: Business Intelligence Master Data-Science ETL et Datawarehousedac.lip6.fr/master/wp-content/uploads/2016/01/bi_etl.pdf · 2016-01-29 · Master Data-Science ETL et Datawarehouse Ludovic

L’architecture classique de la BI

Ludovic DENOYER - [email protected] (LIP6)Business Intelligence Master Data-ScienceETL et Datawarehouse17 janvier 2016 5 / 47

Page 6: Business Intelligence Master Data-Science ETL et Datawarehousedac.lip6.fr/master/wp-content/uploads/2016/01/bi_etl.pdf · 2016-01-29 · Master Data-Science ETL et Datawarehouse Ludovic

Donnees de l’entreprise

Les donnees de l’entreprise sont stockees dans des systemestransactionnels qui enregistrent les donnees quotidiennes.

Differentes sources de donnees :

Fichiers Excel....

ERPs

Systemes de CRMs

Capteurs

Et aujourd’hui :

Donnees du Web

Donnees socialesI TwitterI ...

Donnees des ojets connectes

Ludovic DENOYER - [email protected] (LIP6)Business Intelligence Master Data-ScienceETL et Datawarehouse17 janvier 2016 6 / 47

Page 7: Business Intelligence Master Data-Science ETL et Datawarehousedac.lip6.fr/master/wp-content/uploads/2016/01/bi_etl.pdf · 2016-01-29 · Master Data-Science ETL et Datawarehouse Ludovic

Difficultes

Sources diverses et disparates ;

Sources sur differentes plateformes et OS ;

Applications utilisant des BDs et autres technologies obsoletes ;

Historique de changement non-preserve dans les sources ;

Qualite de donnees douteuse et changeante dans le temps ;

Structure des systemes sources changeante dans le temps ;

Incoherence entre les differentes sources ;

Donnees dans un format difficilement interpretable ou ambigu.

Ludovic DENOYER - [email protected] (LIP6)Business Intelligence Master Data-ScienceETL et Datawarehouse17 janvier 2016 7 / 47

Page 8: Business Intelligence Master Data-Science ETL et Datawarehousedac.lip6.fr/master/wp-content/uploads/2016/01/bi_etl.pdf · 2016-01-29 · Master Data-Science ETL et Datawarehouse Ludovic

Integration de donnees

Definition

L’integration de donnees appele ETL (Extraction Transfer Loading) regroupe lesprocessus par lesquels les donnees provenant de differentes parties du systemed’information sont deplacees, combinees et consolidees. Ces processus consistenthabituellement a extraire des donnees de differentes sources (bases de donnees,fichiers, applications, Services Web, emails, etc.), a leur appliquer destransformations (jointures, lookups, deduplication, calculs, etc.), et a envoyer lesdonnees resultantes vers les systemes cibles.Source : wikiversity.org

Il existe plusieurs systeme d’integration de donnees :

La mediation au service de l’integration de donnees d’entreprise (EII).

L’integration de donnees via les applications (EAI).

L’integration de donnees via les services Web (ESB, SOA).

L’integration de donnees en nuage (Data Cloud).

L’ETL (Extract - Transform - Load)

Ludovic DENOYER - [email protected] (LIP6)Business Intelligence Master Data-ScienceETL et Datawarehouse17 janvier 2016 8 / 47

Page 9: Business Intelligence Master Data-Science ETL et Datawarehousedac.lip6.fr/master/wp-content/uploads/2016/01/bi_etl.pdf · 2016-01-29 · Master Data-Science ETL et Datawarehouse Ludovic

Integration de donnees

La mediation au service de l’integration de donnees d’entreprise (EII).

L’integration de donnees via les applications (EAI).

L’ETL (Extract - Transform - Load)

Ludovic DENOYER - [email protected] (LIP6)Business Intelligence Master Data-ScienceETL et Datawarehouse17 janvier 2016 9 / 47

Page 10: Business Intelligence Master Data-Science ETL et Datawarehousedac.lip6.fr/master/wp-content/uploads/2016/01/bi_etl.pdf · 2016-01-29 · Master Data-Science ETL et Datawarehouse Ludovic

EII - EAI - ETL

Source : IBM Software group

Ludovic DENOYER - [email protected] (LIP6)Business Intelligence Master Data-ScienceETL et Datawarehouse17 janvier 2016 10 / 47

Page 11: Business Intelligence Master Data-Science ETL et Datawarehousedac.lip6.fr/master/wp-content/uploads/2016/01/bi_etl.pdf · 2016-01-29 · Master Data-Science ETL et Datawarehouse Ludovic

EII - Entreprise Information Integration

Definition

Enterprise Information Integration (EII) est une approche d’architecture(voire d’urbanisme) permettant d’obtenir une vue unifiee des donneesinformatiques de l’entreprise.Source : Wikipedia

Ludovic DENOYER - [email protected] (LIP6)Business Intelligence Master Data-ScienceETL et Datawarehouse17 janvier 2016 11 / 47

Page 12: Business Intelligence Master Data-Science ETL et Datawarehousedac.lip6.fr/master/wp-content/uploads/2016/01/bi_etl.pdf · 2016-01-29 · Master Data-Science ETL et Datawarehouse Ludovic

EII - Caracteristiques

En fonction des choix retenus, l’utilisateur aura la possibilite de :

modifier les donnees (et non pas seulement un acces en lecture seule) ;

agir en temps reel sur les donnees (et non pas en differe) ;

acceder a des donnees structurees ;

acceder a des donnees coherentes ;

acceder a des services ;

remonter des informations jusque dans le modele metier (objet) ;

Ludovic DENOYER - [email protected] (LIP6)Business Intelligence Master Data-ScienceETL et Datawarehouse17 janvier 2016 12 / 47

Page 13: Business Intelligence Master Data-Science ETL et Datawarehousedac.lip6.fr/master/wp-content/uploads/2016/01/bi_etl.pdf · 2016-01-29 · Master Data-Science ETL et Datawarehouse Ludovic

EII

Source : IBM Software Group

Ludovic DENOYER - [email protected] (LIP6)Business Intelligence Master Data-ScienceETL et Datawarehouse17 janvier 2016 13 / 47

Page 14: Business Intelligence Master Data-Science ETL et Datawarehousedac.lip6.fr/master/wp-content/uploads/2016/01/bi_etl.pdf · 2016-01-29 · Master Data-Science ETL et Datawarehouse Ludovic

EII

Source : IBM Software Group

Ludovic DENOYER - [email protected] (LIP6)Business Intelligence Master Data-ScienceETL et Datawarehouse17 janvier 2016 14 / 47

Page 15: Business Intelligence Master Data-Science ETL et Datawarehousedac.lip6.fr/master/wp-content/uploads/2016/01/bi_etl.pdf · 2016-01-29 · Master Data-Science ETL et Datawarehouse Ludovic

EAI - Entreprise Application Integration

Definition

L’integration d’applications d’entreprise est une architecture intergiciellepermettant a des applications heterogenes de gerer leurs echanges. On laplace dans la categorie des technologies informatiques d’integration metier(Business Integration) et d’urbanisation. Sa particularite est d’echanger lesdonnees en pseudo temps reel.Source : wikipedia

Logique de ”Bus” ou de ”Hub”

Messages

Ludovic DENOYER - [email protected] (LIP6)Business Intelligence Master Data-ScienceETL et Datawarehouse17 janvier 2016 15 / 47

Page 16: Business Intelligence Master Data-Science ETL et Datawarehousedac.lip6.fr/master/wp-content/uploads/2016/01/bi_etl.pdf · 2016-01-29 · Master Data-Science ETL et Datawarehouse Ludovic

Architecture EAI - Exemple

Source : Seralia

Ludovic DENOYER - [email protected] (LIP6)Business Intelligence Master Data-ScienceETL et Datawarehouse17 janvier 2016 16 / 47

Page 17: Business Intelligence Master Data-Science ETL et Datawarehousedac.lip6.fr/master/wp-content/uploads/2016/01/bi_etl.pdf · 2016-01-29 · Master Data-Science ETL et Datawarehouse Ludovic

EAI

Source : IBM Software Group

Ludovic DENOYER - [email protected] (LIP6)Business Intelligence Master Data-ScienceETL et Datawarehouse17 janvier 2016 17 / 47

Page 18: Business Intelligence Master Data-Science ETL et Datawarehousedac.lip6.fr/master/wp-content/uploads/2016/01/bi_etl.pdf · 2016-01-29 · Master Data-Science ETL et Datawarehouse Ludovic

EAI

Source : IBM Software Group

Ludovic DENOYER - [email protected] (LIP6)Business Intelligence Master Data-ScienceETL et Datawarehouse17 janvier 2016 18 / 47

Page 19: Business Intelligence Master Data-Science ETL et Datawarehousedac.lip6.fr/master/wp-content/uploads/2016/01/bi_etl.pdf · 2016-01-29 · Master Data-Science ETL et Datawarehouse Ludovic

ETL - Etract, Transform, Load

Definition

Extract-Transform-Load est connu sous le terme ETL, ouextracto-chargeur, (ou parfois : datapumping). Il s’agit d’une technologieinformatique intergicielle (comprendre middleware) permettant d’effectuerdes synchronisations massives d’information d’une source de donnees (leplus souvent une base de donnees) vers une autre. Selon le contexte, onest amene a exploiter differentes fonctions, souvent combinees entre elles :� extraction �, � transformation �, � constitution � ou � conversion �,� alimentation �.

Ludovic DENOYER - [email protected] (LIP6)Business Intelligence Master Data-ScienceETL et Datawarehouse17 janvier 2016 19 / 47

Page 20: Business Intelligence Master Data-Science ETL et Datawarehousedac.lip6.fr/master/wp-content/uploads/2016/01/bi_etl.pdf · 2016-01-29 · Master Data-Science ETL et Datawarehouse Ludovic

Architecture ETL

Ludovic DENOYER - [email protected] (LIP6)Business Intelligence Master Data-ScienceETL et Datawarehouse17 janvier 2016 20 / 47

Page 21: Business Intelligence Master Data-Science ETL et Datawarehousedac.lip6.fr/master/wp-content/uploads/2016/01/bi_etl.pdf · 2016-01-29 · Master Data-Science ETL et Datawarehouse Ludovic

ETL

Source : IBM Software Group

Ludovic DENOYER - [email protected] (LIP6)Business Intelligence Master Data-ScienceETL et Datawarehouse17 janvier 2016 21 / 47

Page 22: Business Intelligence Master Data-Science ETL et Datawarehousedac.lip6.fr/master/wp-content/uploads/2016/01/bi_etl.pdf · 2016-01-29 · Master Data-Science ETL et Datawarehouse Ludovic

ETL

Source : IBM Software Group

Ludovic DENOYER - [email protected] (LIP6)Business Intelligence Master Data-ScienceETL et Datawarehouse17 janvier 2016 22 / 47

Page 23: Business Intelligence Master Data-Science ETL et Datawarehousedac.lip6.fr/master/wp-content/uploads/2016/01/bi_etl.pdf · 2016-01-29 · Master Data-Science ETL et Datawarehouse Ludovic

ETL/EII/EAI

Source : IBM Software Group

Ludovic DENOYER - [email protected] (LIP6)Business Intelligence Master Data-ScienceETL et Datawarehouse17 janvier 2016 23 / 47

Page 24: Business Intelligence Master Data-Science ETL et Datawarehousedac.lip6.fr/master/wp-content/uploads/2016/01/bi_etl.pdf · 2016-01-29 · Master Data-Science ETL et Datawarehouse Ludovic

ETL/EII/EAI

Source : IBM Software Group

Ludovic DENOYER - [email protected] (LIP6)Business Intelligence Master Data-ScienceETL et Datawarehouse17 janvier 2016 24 / 47

Page 25: Business Intelligence Master Data-Science ETL et Datawarehousedac.lip6.fr/master/wp-content/uploads/2016/01/bi_etl.pdf · 2016-01-29 · Master Data-Science ETL et Datawarehouse Ludovic

ETL/EII/EAI

Source : IBM Software Group

Ludovic DENOYER - [email protected] (LIP6)Business Intelligence Master Data-ScienceETL et Datawarehouse17 janvier 2016 25 / 47

Page 26: Business Intelligence Master Data-Science ETL et Datawarehousedac.lip6.fr/master/wp-content/uploads/2016/01/bi_etl.pdf · 2016-01-29 · Master Data-Science ETL et Datawarehouse Ludovic

Conception

Le rapatriement des donnees peut se faire de trois facons differentes :

Push : la logique de chargement est dans le systeme de production, ilpousse les donnees vers le Staging quand il en a l’occasion.

Pull : le Pull tire les donnees de la source vers le Staging.

Push-Pull : La source prepare les donnees a envoyer et previent leStaging qu’elle est prete. Le Staging va recuperer les donnees. Si lasource est occupee, le Staging fera une autre demande plus tard.

Ludovic DENOYER - [email protected] (LIP6)Business Intelligence Master Data-ScienceETL et Datawarehouse17 janvier 2016 26 / 47

Page 27: Business Intelligence Master Data-Science ETL et Datawarehousedac.lip6.fr/master/wp-content/uploads/2016/01/bi_etl.pdf · 2016-01-29 · Master Data-Science ETL et Datawarehouse Ludovic

Definition

Datawarehouse

Le terme entrepot de donnees (ou base de donnees decisionnelle, ou encoredata warehouse) designe une base de donnees utilisee pour collecter,ordonner, journaliser et stocker des informations provenant de base dedonnees operationnelles et fournir ainsi un socle a l’aide a la decision enentreprise.Source : Wikipedia

Collecter : Recuperer l’information produite pr l’entreprise

Ludovic DENOYER - [email protected] (LIP6)Business Intelligence Master Data-ScienceETL et Datawarehouse17 janvier 2016 27 / 47

Page 28: Business Intelligence Master Data-Science ETL et Datawarehousedac.lip6.fr/master/wp-content/uploads/2016/01/bi_etl.pdf · 2016-01-29 · Master Data-Science ETL et Datawarehouse Ludovic

Definition

Datawarehouse

Le terme entrepot de donnees (ou base de donnees decisionnelle, ou encoredata warehouse) designe une base de donnees utilisee pour collecter,ordonner, journaliser et stocker des informations provenant de base dedonnees operationnelles et fournir ainsi un socle a l’aide a la decision enentreprise.Source : Wikipedia

Ordonner : Structurer l’information dans le but de la prise de decision(structure differente des BDs operationnelles)

Ludovic DENOYER - [email protected] (LIP6)Business Intelligence Master Data-ScienceETL et Datawarehouse17 janvier 2016 28 / 47

Page 29: Business Intelligence Master Data-Science ETL et Datawarehousedac.lip6.fr/master/wp-content/uploads/2016/01/bi_etl.pdf · 2016-01-29 · Master Data-Science ETL et Datawarehouse Ludovic

Definition

Datawarehouse

Le terme entrepot de donnees (ou base de donnees decisionnelle, ou encoredata warehouse) designe une base de donnees utilisee pour collecter,ordonner, journaliser et stocker des informations provenant de base dedonnees operationnelles et fournir ainsi un socle a l’aide a la decision enentreprise.Source : Wikipedia

Journaliser : Stocker l’historique des donnees

Ludovic DENOYER - [email protected] (LIP6)Business Intelligence Master Data-ScienceETL et Datawarehouse17 janvier 2016 29 / 47

Page 30: Business Intelligence Master Data-Science ETL et Datawarehousedac.lip6.fr/master/wp-content/uploads/2016/01/bi_etl.pdf · 2016-01-29 · Master Data-Science ETL et Datawarehouse Ludovic

Datawarehouse

Ludovic DENOYER - [email protected] (LIP6)Business Intelligence Master Data-ScienceETL et Datawarehouse17 janvier 2016 30 / 47

Page 31: Business Intelligence Master Data-Science ETL et Datawarehousedac.lip6.fr/master/wp-content/uploads/2016/01/bi_etl.pdf · 2016-01-29 · Master Data-Science ETL et Datawarehouse Ludovic

Datawarehouse

Un entrepot de donnees conserve une copie des informations des systemesde transaction operationnels. Il offre la possibilite de :

Rassembler des donnees provenant de sources multiples en une seulebase de donnees afin qu’un moteur de requete unique puisse etreutilise pour presenter des donnees.

Permettre l’execution de requete longues, bloquantes, sur des donneesoperationnelles

Maintenir l’historique des donnees, meme si les systemes detransaction source ne le font pas

Integrer des donnees provenant de multiples systemes sources,permettant une vue centrale dans l’entreprise. Cet avantage estparticulierement valable lorsque l’organisation est issue de fusionssuccessives

Ameliorer la qualite des donnees

Ludovic DENOYER - [email protected] (LIP6)Business Intelligence Master Data-ScienceETL et Datawarehouse17 janvier 2016 31 / 47

Page 32: Business Intelligence Master Data-Science ETL et Datawarehousedac.lip6.fr/master/wp-content/uploads/2016/01/bi_etl.pdf · 2016-01-29 · Master Data-Science ETL et Datawarehouse Ludovic

Datawarehouse

Un entrepot de donnees conserve une copie des informations des systemesde transaction operationnels. Il offre la possibilite de :

Presenter l’information de l’organisation

Fournir un seul modele de donnees commun pour toutes les donneesd’interet, independamment de la source de donnees

Restructurer les donnees de sorte qu’elles prennent sens (decisionnel)

Ajouter de la valeur aux applications metiers operationnels,notamment la gestion de la relation client (CRM).

Faire des requetes d’aide a la decision plus faciles a ecrire.

Ludovic DENOYER - [email protected] (LIP6)Business Intelligence Master Data-ScienceETL et Datawarehouse17 janvier 2016 32 / 47

Page 33: Business Intelligence Master Data-Science ETL et Datawarehousedac.lip6.fr/master/wp-content/uploads/2016/01/bi_etl.pdf · 2016-01-29 · Master Data-Science ETL et Datawarehouse Ludovic

Datawarehouse vs BD operationnelle

Ludovic DENOYER - [email protected] (LIP6)Business Intelligence Master Data-ScienceETL et Datawarehouse17 janvier 2016 33 / 47

Page 34: Business Intelligence Master Data-Science ETL et Datawarehousedac.lip6.fr/master/wp-content/uploads/2016/01/bi_etl.pdf · 2016-01-29 · Master Data-Science ETL et Datawarehouse Ludovic

Datamart

Definition

Un DataMart (litteralement en anglais magasin de donnees) est unsous-ensemble d’un DataWarehouse destine a fournir des donnees auxutilisateurs, et souvent specialise vers un groupe ou un type d’affaire.Techniquement, c’est une base de donnees relationnelle utilisee eninformatique decisionnelle et exploitee en entreprise pour restituer desinformations ciblees sur un metier specifique, constituant pour ce dernierun ensemble d’indicateurs utilises pour le pilotage de l’activite et l’aide a ladecision.Source : wikipedia

Le datawarehouse est General, le datamart est specifique a un metier.

Ludovic DENOYER - [email protected] (LIP6)Business Intelligence Master Data-ScienceETL et Datawarehouse17 janvier 2016 34 / 47

Page 35: Business Intelligence Master Data-Science ETL et Datawarehousedac.lip6.fr/master/wp-content/uploads/2016/01/bi_etl.pdf · 2016-01-29 · Master Data-Science ETL et Datawarehouse Ludovic

Datamart vs datawarehouse

Ludovic DENOYER - [email protected] (LIP6)Business Intelligence Master Data-ScienceETL et Datawarehouse17 janvier 2016 35 / 47

Page 36: Business Intelligence Master Data-Science ETL et Datawarehousedac.lip6.fr/master/wp-content/uploads/2016/01/bi_etl.pdf · 2016-01-29 · Master Data-Science ETL et Datawarehouse Ludovic

Datamart vs datawarehouse

Deux conceptions existantes :

Definition d’Inmon : Le DataMart est issu d’un flux de donneesprovenant du DataWarehouse. Contrairement a ce dernier quipresente le detail des donnees pour toute l’entreprise, il a vocation apresenter la donnee de maniere specialisee, agregee et regroupeefonctionnellement.

Definition de Kimball : Le DataMart est un sous-ensemble duDataWarehouse, constitue de tables au niveau detail et a des niveauxplus agreges, permettant de restituer tout le spectre d’une activitemetier. L’ensemble des DataMarts de l’entreprise constitue leDataWarehouse.

Ludovic DENOYER - [email protected] (LIP6)Business Intelligence Master Data-ScienceETL et Datawarehouse17 janvier 2016 36 / 47

Page 37: Business Intelligence Master Data-Science ETL et Datawarehousedac.lip6.fr/master/wp-content/uploads/2016/01/bi_etl.pdf · 2016-01-29 · Master Data-Science ETL et Datawarehouse Ludovic

Differentes Architectures

Ludovic DENOYER - [email protected] (LIP6)Business Intelligence Master Data-ScienceETL et Datawarehouse17 janvier 2016 37 / 47

Page 38: Business Intelligence Master Data-Science ETL et Datawarehousedac.lip6.fr/master/wp-content/uploads/2016/01/bi_etl.pdf · 2016-01-29 · Master Data-Science ETL et Datawarehouse Ludovic

Differentes Architectures

Ludovic DENOYER - [email protected] (LIP6)Business Intelligence Master Data-ScienceETL et Datawarehouse17 janvier 2016 38 / 47

Page 39: Business Intelligence Master Data-Science ETL et Datawarehousedac.lip6.fr/master/wp-content/uploads/2016/01/bi_etl.pdf · 2016-01-29 · Master Data-Science ETL et Datawarehouse Ludovic

Differentes Architectures

Ludovic DENOYER - [email protected] (LIP6)Business Intelligence Master Data-ScienceETL et Datawarehouse17 janvier 2016 39 / 47

Page 40: Business Intelligence Master Data-Science ETL et Datawarehousedac.lip6.fr/master/wp-content/uploads/2016/01/bi_etl.pdf · 2016-01-29 · Master Data-Science ETL et Datawarehouse Ludovic

Differentes Architectures

Ludovic DENOYER - [email protected] (LIP6)Business Intelligence Master Data-ScienceETL et Datawarehouse17 janvier 2016 40 / 47

Page 41: Business Intelligence Master Data-Science ETL et Datawarehousedac.lip6.fr/master/wp-content/uploads/2016/01/bi_etl.pdf · 2016-01-29 · Master Data-Science ETL et Datawarehouse Ludovic

Donnees orientees sujets

En production : donnees organisees par processus fonctionnels

Datawarehouse : donnees organisees autour de sujets majeurs

Donnees structurees par theme, potentiellement transverses parrapport aux domains fonctionnels et organisationnelles

Examples (medecine) : Actes, Sejours vs Bases par services

Ludovic DENOYER - [email protected] (LIP6)Business Intelligence Master Data-ScienceETL et Datawarehouse17 janvier 2016 41 / 47

Page 42: Business Intelligence Master Data-Science ETL et Datawarehousedac.lip6.fr/master/wp-content/uploads/2016/01/bi_etl.pdf · 2016-01-29 · Master Data-Science ETL et Datawarehouse Ludovic

Architecture

Good DW architecture

”It’s not easy to describe a good design, but I’ll know it when I see it”

Ludovic DENOYER - [email protected] (LIP6)Business Intelligence Master Data-ScienceETL et Datawarehouse17 janvier 2016 42 / 47

Page 43: Business Intelligence Master Data-Science ETL et Datawarehousedac.lip6.fr/master/wp-content/uploads/2016/01/bi_etl.pdf · 2016-01-29 · Master Data-Science ETL et Datawarehouse Ludovic

Modele relationnel

Normalisation (3NF)

Repond aux besoins transactionnels (OLTP)

Avantages :I Reduction de l’entree de donneesI Reduction du nombre d’indexI Ajouts/destructions/modifications plus rapides

Desavantages :I Peu efficace pour l’extraction de donnees analytiquesI Beaucoup de relationsI Trop complexe pour l’utilisateur BI

Ludovic DENOYER - [email protected] (LIP6)Business Intelligence Master Data-ScienceETL et Datawarehouse17 janvier 2016 43 / 47

Page 44: Business Intelligence Master Data-Science ETL et Datawarehousedac.lip6.fr/master/wp-content/uploads/2016/01/bi_etl.pdf · 2016-01-29 · Master Data-Science ETL et Datawarehouse Ludovic

Modele relationnel

Le modele relationnel n’est pas (tres) approprie pour les DWs

Ludovic DENOYER - [email protected] (LIP6)Business Intelligence Master Data-ScienceETL et Datawarehouse17 janvier 2016 44 / 47

Page 45: Business Intelligence Master Data-Science ETL et Datawarehousedac.lip6.fr/master/wp-content/uploads/2016/01/bi_etl.pdf · 2016-01-29 · Master Data-Science ETL et Datawarehouse Ludovic

Modele dimensionnel

Principes

On va partir du besoin ”client” (quel analyse ?). On va definir des faits etdes dimensions.

Faits : les faits representent un sujet d’analyse. Les faits sontcaracterisees par plusieurs informations

Dimensions : les dimensions sont les criteres selon lesquels onsouhaite faire de l’analyse.

Ludovic DENOYER - [email protected] (LIP6)Business Intelligence Master Data-ScienceETL et Datawarehouse17 janvier 2016 45 / 47

Page 46: Business Intelligence Master Data-Science ETL et Datawarehousedac.lip6.fr/master/wp-content/uploads/2016/01/bi_etl.pdf · 2016-01-29 · Master Data-Science ETL et Datawarehouse Ludovic

Modele dimensionnel

Ludovic DENOYER - [email protected] (LIP6)Business Intelligence Master Data-ScienceETL et Datawarehouse17 janvier 2016 46 / 47

Page 47: Business Intelligence Master Data-Science ETL et Datawarehousedac.lip6.fr/master/wp-content/uploads/2016/01/bi_etl.pdf · 2016-01-29 · Master Data-Science ETL et Datawarehouse Ludovic

Modele dimensionnel

Aussi connu sous le nom de modele en etoile

Ludovic DENOYER - [email protected] (LIP6)Business Intelligence Master Data-ScienceETL et Datawarehouse17 janvier 2016 47 / 47