soutenance de thèse, décembre 2007 analyse en ligne (olap) de documents ronan tournier travaux de...
TRANSCRIPT
![Page 1: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/1.jpg)
Soutenance de thèse, Décembre 2007
Analyse en ligne (OLAP) de documents
Ronan TournierTravaux de thèse
Sous la direction de Gilles ZurfluhEncadré par : Franck Ravat et Olivier Teste
![Page 2: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/2.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
2IRIT, SIG/ED
Plan
IntroductionModèle conceptuelManipulations multidimensionnellesIntégration de documentsValidationConclusion & perspectives
![Page 3: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/3.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
3IRIT, SIG/ED
ENTREPÔTDE DONNEES
SOURCE ETEXTRACTION
MAGASIN DEDONNEES (BDM)
RESTITUTIONET ANALYSE
Pro
cess
us
ETL
Pro
cess
us
ETL
Sources
DECIDEUR
Vue unifiéeStructuration
multidimensionnelle
Contexte (1/6)
Les systèmes d’aide à la décision
Cadre de la thèse
XML
XML
![Page 4: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/4.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
4IRIT, SIG/ED
Contexte (2/6)
Analyse multidimensionnelle
De
llP
ow
erEd
ge
New-YorkNov.05
MAGASIN
DATES
VENTESMontants, Quantités
Londres
Toulouse
Paris
France
Angleterre
USA
Europe
Amerique N.
IBM
Sys
tem
X
Alie
nw
are
Au
rora
Su
nU
ltra
Déc.05
Jan.06
Fév.06
2005
2006
PR
OD
UIT
S
Sta
tion
Serve
ur
VillePaysContinent
Produit
Type
Mois Année
1 1 3 1
2200 3100 4350 1900
2 0 0 4
4400 0 0 7600
2 0 7 6
4400 0 10150 11400
7 9 0 1
15400 27900 0 190
1
1900
QuantitéMontant
![Page 5: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/5.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
5IRIT, SIG/ED
Contexte (3/6)
Pourquoi se soucier des documents ? Analyse en ligne sur données transactionnelles Données transactionnelles: 20% des données d’un
système d’information [Sullivan-01] & [Tseng-06] 80% des données restent hors de portée
Mais Systèmes OLAP: données numériques Documents = données textuelles
![Page 6: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/6.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
6IRIT, SIG/ED
Contexte (4/6)
XML: permet de structurer des documentsExtended Markup Language
Format de description Possède une grammaire descriptive (DTD) Permet de définir sa structure
![Page 7: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/7.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
7IRIT, SIG/ED
Contexte (5/6)
XML: exemple de document
<These> <Contenu>
<Chapitre Titre="Titre du chapitre 1"> <Section Titre="Titre de la section 1.1">
<Paragraphe>Contenu…</Paragraphe><Paragraphe>Contenu …</Paragraphe>
</Section> <Section Titre="Titre de la section 1.2">
… </Section></Chapitre><Chapitre Titre="Titre du chapitre 2"> …</Chapitre>
</Contenu></These>
These
Contenu
ChapitreTitre
SectionTitre
Paragraphe
Type
Titre
![Page 8: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/8.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
8IRIT, SIG/ED
Contexte (6/6)
Analyse multidimensionnelleDe l’analyse numérique…
Vers l’analyse non numérique
Sujet des publications
Nombre de publications par auteur Institut Inst1
Auteur Au1 Au2 Au3
Conference
DaWaK 2 1 -
ICEIS 1 3 -
CAiSE - 1 2
Institut Inst1
Auteur Au1 Au2 Au3
Conference
DaWaK
XML, Temporel
Entrepôts de données
-
ICEIS
XML, BD temporelles
XML, Fouille, Contraintes
-
CAiSE
-Entrepôts de
donnéesModèle conceptuel, Fouille de données
Sujets des 2publications
![Page 9: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/9.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
9IRIT, SIG/ED
Problématique
MaisComment analyser données textuelles ?Comment représenter les structures ?Comment alimenter ces structures ?
But : Analyser 100% des données d’un SIDonnées transactionnellesDocuments XML
![Page 10: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/10.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
10IRIT, SIG/ED
ENTREPÔTDE DONNEES
SOURCE ETEXTRACTION
MAGASIN DEDONNEES (BDM)
RESTITUTIONET ANALYSE
Pro
cess
us
ETL
Pro
cess
us
ETL
Sources
DECIDEUR
Vue unifiéeStructuration
multidimensionnelle
État de l’art (1/3)
Les systèmes d’aide à la décision
XML XML XML
![Page 11: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/11.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
11IRIT, SIG/ED
État de l’art (2/3)
Entrepôts et XML Entrepôts de données XML [Oracle]…
Pas d’intégration de documents Entrepôts de documents XML [Xylème]…
Pas destinés à l’analyse
ENTREPÔTDE DONNEES
XML
![Page 12: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/12.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
12IRIT, SIG/ED
État de l’art (2/3)
Magasins et XML Intégration de données XML [Golfarelli-01]…
Données sources fortement structurées Stockage XML multidimensionnel [Messaoud-06]…
Grande redondance dans les données
MAGASIN DEDONNEES (BDM)
XML
![Page 13: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/13.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
13IRIT, SIG/ED
État de l’art (3/3)
Analyse et XML Analyse de documents [McCabe-00]…
Repose sur des analyses numériques Pas d’analyse du contenu Pas d’exploitation de la structure Pas de synthèse des informations textuelles
RESTITUTIONET ANALYSE
XML
![Page 14: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/14.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
14IRIT, SIG/ED
État de l’art (3/3)
Actuellement OLAP ne gère pas Données textuelles Structure Contenu
Objectif : Analyse OLAP de documents
![Page 15: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/15.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
15IRIT, SIG/ED
Plan
IntroductionModèle conceptuelManipulations multidimensionnellesIntégration de documentsValidationConclusion & perspectives
![Page 16: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/16.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
16IRIT, SIG/ED
Modèle conceptuel (1/7)
ENTREPÔTDE DONNEES
SOURCE ETEXTRACTION
MAGASIN DEDONNEES (BDM)
RESTITUTIONET ANALYSE
Pro
cess
us
ETL
Pro
cess
us
ET
L
Sources
DECIDEUR
![Page 17: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/17.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
17IRIT, SIG/ED
Modèle conceptuel (2/7)
Données issues de documents Structuration hiérarchique Liens intra ou inter documents Contenu : données textuelles Méta données
Limite des modèles actuels [Cabibbo-00], [Abellò-06]… Non-analyse du contenu Analyses prédéfinies Difficultés pour identifier le sujet d’analyse
![Page 18: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/18.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
18IRIT, SIG/ED
Modèle conceptuel (3/7)
Galaxie: caractéristiques Unique concept: une Dimension Une dimension = un axe d’analyse Une dimension = un sujet potentiel d’analyse
![Page 19: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/19.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
19IRIT, SIG/ED
AUTEURS
Nom
Auteur
Equipe Institut
Statut
HA
HSt
AUTEURS
Nom
Auteur
Equipe Institut
Statut
HA
HSt
AUTEURS
Nom
Auteur
Equipe Institut
Statut
HA
HSt
Modèle conceptuel (4/7)
Dimension Di=(ADi, HDi, IDi, IStarDi) ADi = ensemble d’attributs HDi = ensemble de hiérarchies IDi = ensemble d’instances IStarDi = fonctions associant les instances ensemble
![Page 20: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/20.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
20IRIT, SIG/ED
Attribut Faible = complément sémantique d’un paramètre
AUTEURS
Nom
Auteur
Equipe Institut
Statut
HA
HSt
AUTEURS
Nom
Auteur
Equipe Institut
Statut
HA
HSt
Modèle conceptuel (5/7)
Dimension Di=(ADi, HDi, IDi, IStarDi) ADi = ensemble d’attributs HDi = ensemble de hiérarchies
Hiérarchies Hi=(ParamHi, WeakHi) ParamHi = liste ordonnée de paramètres WeakHi = association des attributs faibles
Paramètre = niveau de granularité d’analyse
AUTEURS
Nom
Auteur
Equipe Institut
Statut
HA
HSt
![Page 21: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/21.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
21IRIT, SIG/ED
Modèle conceptuel (6/7)
Dimension Di=(ADi, HDi, IDi, IStarDi) ADi = ensemble d’attributs HDi = ensemble de hiérarchies IDi = ensemble d’instances IStarDi = fonctions d’association des instances
Instance Auteur Nom Statut Equipe Instituti1 Au1 Ronan Tournier ATER SIG/ED IRIT
Exemple d’instance d’auteur
![Page 22: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/22.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
22IRIT, SIG/ED
Modèle conceptuel (7/7)
Galaxie G=(DG, StarG, LkG) DG = ensemble de dimensions StarG = fonction associant les dimensions LkG = ensemble de fonctions représentant les liens
intra ou inter documents
DATESCONFERENCESARTICLES AUTEURSARTICLES Paragraphe Section
Type_SecType_ParTitre_Sec
Titre_Doc
HS
Document
RéférenceDATES
CONFERENCES
ARTICLES
AUTEURS
![Page 23: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/23.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
23IRIT, SIG/ED
Exemple
Analyse d’articles scientifiques et de projets
INSTITUTS
Nom
Institut Pays
HI
CONFERENCESHConf
Conf
NomEditeur
Tx_Acceptation
SerieAudience
RAPPORTSHR
Titre_R
RapportType
DATESHTps
Libelle_Mois
DateMoisAnnee
ARTICLES Paragraphe Section
Type_SecType_ParTitre_Sec
Titre_Doc
HS
Document
AUTEURS
Nom
Auteur
Equipe Institut
Statut
HA
HSt
Référence
![Page 24: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/24.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
24IRIT, SIG/ED
Plan
IntroductionModèle conceptuelManipulations multidimensionnellesIntégration de documentsValidationConclusion & perspectives
![Page 25: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/25.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
25IRIT, SIG/ED
Fonction d’agrégation (1/6)
ENTREPÔTDE DONNEES
SOURCE ETEXTRACTION
MAGASIN DEDONNEES (BDM)
RESTITUTIONET ANALYSE
Pro
cess
us
ETL
Pro
cess
us
ET
L
Sources
DECIDEUR
AGREGATION
![Page 26: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/26.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
26IRIT, SIG/ED
Fonction d’agrégation (2/6)
Principe d’agrégationExemple de somme
1 1 3 1
2200 3100 4350 1900
2 0 0 4
4400 0 0 7600
2 0 7 6
4400 0 10150 11400
7 9 0 1
15400 27900 0 1900
1 1 3 1
2 0 0 4
2 0 7 6
7 9 0 1
![Page 27: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/27.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
27IRIT, SIG/ED
Fonction d’agrégation (3/6)
ProblématiqueAgréger des données textuelles
Reconstituer une règle d’agrégationRègle d’agrégation: ontologie
Ontologie légère [Lassila-01]
Ontologie de domaine
![Page 28: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/28.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
28IRIT, SIG/ED
Fonction d’agrégation (4/6)
Exemple d’ontologie (SI)Information Systems
Document warehouse
Conceptual model
Data warehouse
Database
OLAP
ProcessingStorage
Design
Logical
SnowflakeDFM YAM² Star ROLAP MOLAP OOLAP
Architecture
Methodology
OLTP
...
...
...
.........
... ...
... ... ...
... = noeuds non représentés
Feuilles
Racine
Arc
Noeud
![Page 29: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/29.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
29IRIT, SIG/ED
Fonction d’agrégation (5/6)
Exemple d’agrégation
LCA (Design, Processing) = OLAP
D=3
D=1Distance (Design, Processing) = 3
Entrée { (Design, d=0), (Processing, d=0) }
Sortie (OLAP, d=3)
![Page 30: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/30.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
30IRIT, SIG/ED
Deux opérations de manipulation LCA: plus petit ancêtre commun Distance structurelle entre deux nœuds
AVG_KW : Processus d’agrégation Remplacement de mots-clef le LCA Problème: forte probabilité de retourner la racine
Contrôle de la perte de sémantique Limiter l’agrégation (distance heuristique = 3)
Fonction d’agrégation (6/6)
![Page 31: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/31.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
31IRIT, SIG/ED
Opérations de manipulation (1/6)
ENTREPÔTDE DONNEES
SOURCE ETEXTRACTION
MAGASIN DEDONNEES (BDM)
RESTITUTIONET ANALYSE
Pro
cess
us
ETL
Pro
cess
us
ET
L
Sources
DECIDEUR
MANIPULATION
![Page 32: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/32.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
32IRIT, SIG/ED
Opérations de manipulation (2/6)
But: « Manipuler une galaxie »
Opérations OLAP
Liens pour naviguer au sein des données
![Page 33: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/33.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
33IRIT, SIG/ED
Opérations de manipulation (3/6)
Opérations OLAP [Ravat-07e] revisitéesFocalisationRestrictionForageRotation
![Page 34: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/34.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
34IRIT, SIG/ED
INSTITUTS
Nom
Institut Pays
HI
CONFERENCESHConf
Conf
NomEditeur
Tx_Acceptation
SerieAudience
RAPPORTSHR
Titre_R
RapportType
DATESHTps
Libelle_Mois
DateMoisAnnee
ARTICLES Paragraphe Section
Type_SecType_ParTitre_Sec
Titre_Doc
HS
Document
AUTEURS
Nom
Auteur
Equipe Institut
Statut
HA
HSt
Référence
AUTEURS
No
m
Au
teu
r Equ
ipe
Inst
itu
t
Sta
tut
HA
HS
t
DATESHTps
Libelle_Mois
DateMoisAnnee
ARTICLES Paragraphe Section
Type_SecType_ParTitre_Sec
Titre_Doc
HS
Document
Référence
Opérations de manipulation (4/6)
Spécification d’une analyse: FOCUSSélectionner : principaux mot-clefs des section d’articles par auteur, par année
![Page 35: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/35.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
35IRIT, SIG/ED
AUTEURS
No
m
Au
teu
r Equ
ipe
Inst
itu
t
Sta
tut
HA
HS
t
DATESHTps
Libelle_Mois
DateMoisAnnee
ARTICLES Paragraphe Section
Type_SecType_ParTitre_Sec
Titre_Doc
HS
Document
Référence
Opérations de manipulation (4/6)
Spécification d’une analyse: FOCUSSélectionner : principaux mot-clefs des section d’articles par auteur, par année
![Page 36: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/36.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
36IRIT, SIG/ED
Changement du niveau de détail:
Rotation
Annee 2005 2006Auteur
fouille de données, pattern XML, document
BD temporelle, règles document, Xpath
BD temporelle, modèle
ARTICLES | HSTOP_KEYWORDS
(Paragraphe), Document
DATES | HTps
Au1
AU
TE
UR
S| H
A
ARTICLES Paragraphe Section
Type_SecType_ParTitre_Sec
Titre_Doc
HS
Document
Référence
Opérations de manipulation (5/6)
Annee 2005 2006Auteur
ARTICLES | HSTOP_KEYWORDS
(Section), Document
DATES | HTps
Au1 BD temporelle, fouille de données XML, document
AU
TE
UR
S| H
A
Section
Paragraphe
Drill-D
own Ro
ll-Up
![Page 37: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/37.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
37IRIT, SIG/ED
Opérations de manipulation (6/6)
Exploitation des liens
R.Institut Inst1
R.Auteur A1 A2 A3
Conférence
ER
XML, Documents
XML, Entrepôt de données
Fouille de données, Clustering
SSDBM
XML, BD Temporelle
- -
DaWaK
Fouille de données
Fouille de données
Fouille de données, Clustering
R.Institut Inst1
R.Auteur A1 A2 A3
Conférence
ER 3 2 1
SSDBM 2 - -
DaWaK 1 1 2
Context of the citations
Nombre de fois qu’un auteur est cité
Auteur cité 3 fois dans une conférence
Portée des travaux : Comment analyser le contexte des citations ?
ARTICLES Paragraphe Section
Type_SecType_ParTitre_Sec
Titre_Doc
HS
Document
Référence
![Page 38: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/38.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
38IRIT, SIG/ED
Plan
IntroductionModèle conceptuelManipulations multidimensionnellesIntégration de documentsValidationConclusion & perspectives
![Page 39: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/39.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
39IRIT, SIG/ED
Démarche d’intégration (1/5)
ENTREPÔTDE DONNEES
SOURCE ETEXTRACTION
MAGASIN DEDONNEES (BDM)
RESTITUTIONET ANALYSE
Pro
cess
us
ETL
Pro
cess
us
ET
L
Sources
DECIDEUR
![Page 40: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/40.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
40IRIT, SIG/ED
Démarche d’intégration (2/5)
Architecture: positionnementComment passer des documents à une galaxie?
ENTREPÔT
<These><Contenu>
<Chapitre Titre="Titre du chapitre 1"><Section Titre="Titre de la section 1.1">
<Paragraphe>Contenu…</Paragraphe><Paragraphe>Contenu …</Paragraphe>
</Section><Section Titre="Titre de la section 1.2">
…</Section>
</Chapitre><Chapitre Titre="Titre du chapitre 2">
…</Chapitre>
</Contenu></These>
Table1 Col1 Col2 Col3 Col4
Table1 Col1 Col2 Col3 Col4
Table1 Col1 Col2 Col3 Col4
CONFERENCESHConf
Conf
NomEditeur
Tx_Acceptation
SerieAudience
DATESHTps
Libelle_Mois
DateMoisAnnee
ARTICLES Paragraphe Section
Type_SecType_ ParTitre_Sec
Titre_Doc
HS
Document
Magasin
![Page 41: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/41.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
41IRIT, SIG/ED
Démarche d’intégration (3/5)
Conceptions de BDMDémarches ascendantes [Golfarelli-98]…
Démarches descendantes [Kimball-96]…
Démarches mixtes [Carneiro-02]…
![Page 42: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/42.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
42IRIT, SIG/ED
Démarche d’intégration (4/5)
Étapes
Sources auxilliaires
+
Schéma conceptuelcompatible avec les sources
SOURCES ANALYSE MAGASINCONFRONTATION & MODIFIC ATION
DonnéesXML
Sources(éventuellement enrichies)
Chargementdes données
Besoind'Analyse
Schéma conceptuel en galaxie
Structure des sources: DTD
Enrichissement des sources
Vision arborescente
CONFRONTATION
Analyse desSources
Analysedes besoinsutilisateurs
Adaptation du schéma conceptuel
INC
OM
PAT
IBILIT
EIN
CO
MPA
TIB
ILITE
![Page 43: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/43.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
43IRIT, SIG/ED
Analyses concurrentes (1/3)
Détails des étapes
Sources auxilliaires
+
Schéma conceptuelcompatible avec les sources
SOURCES ANALYSE MAGASINCONFRONTATION & MODIFIC ATION
DonnéesXML
Sources(éventuellement enrichies)
Chargementdes données
Besoind'Analyse
Schéma conceptuel en galaxie
Structure des sources: DTD
Enrichissement des sources
Vision arborescente
CONFRONTATION
Analyse desSources
Analysedes besoinsutilisateurs
Adaptation du schéma conceptuel
INC
OM
PAT
IBILIT
EIN
CO
MPA
TIB
ILITE
![Page 44: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/44.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
44IRIT, SIG/ED
Analyses concurrentes (2/3)
Spécification des besoins
Identification des attributs Spécification d’une matrice des besoins
Identification des nœuds Regroupement des attributs en dimensions Hiérarchisation des attributs au sein des dimensions
Continent Am érique N.Pays France Angleterre USA
Type Produit
DELL PowerEdge 3 2 7
IBM System X 1 0 9
Alienware Aurora 3 7 0Sun Ultra 5 6 1
DATES = novem bre 2005
VENTES
SOM M E(Quantités)
M AGASINS
Europe
PR
OD
UIT
S
Serveur
Station
COLLECTE DESBESOINS
SPECIFIC ATIONDES BESOINS
EXPRESSION/FORMALI SATIONDES BESOINS
Décideur
Questionnaires
Besoins utilisateur
Analysedes besoins
Schéma multidimensionnel(Galaxie)
Requêtes
![Page 45: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/45.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
45IRIT, SIG/ED
Analyses concurrentes (3/3)
Analyse des sources Identifier
Contenu Structure du contenu Méta données
Meta données Contenu
Structure du contenuARTICLE
PUBLICATION
Annee
Mois
Editeur
Titre_Publication
Nom
Institut
Pays
AUTEUR + CONTENU_ARTICLE
Titre_A +SECTION
Titre_S +SSec_Section
Titre_ SSec +Paragraphe
![Page 46: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/46.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
46IRIT, SIG/ED
Confrontation (1/2)
Détails des étapes
Sources auxilliaires
+
Schéma conceptuelcompatible avec les sources
SOURCES ANALYSE MAGASINCONFRONTATION & MODIFIC ATION
DonnéesXML
Sources(éventuellement enrichies)
Chargementdes données
Besoind'Analyse
Schéma conceptuel en galaxie
Structure des sources: DTD
Enrichissement des sources
Vision arborescente
CONFRONTATION
Analyse desSources
Analysedes besoinsutilisateurs
Adaptation du schéma conceptuel
INC
OM
PAT
IBILIT
EIN
CO
MPA
TIB
ILITE
![Page 47: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/47.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
47IRIT, SIG/ED
Confrontation (2/2)
Phase d’association
CONFERENCESHConf
Conf
NomEditeur
Tx_Acceptation
SerieAudience
DATESHTps
Libelle_Mois
DateMoisAnnee
ARTICLES Paragraphe Section
Type_SecType_ ParTitre_Sec
Titre_Doc
HS
Document
ARTICLE
PUBLICATION
Annee
Mois
Editeur
Titre_Publication
Nom
Institut
Pays
AUTEUR + CONTENU_ARTICLE
Titre_A +SECTION
Titre_S +SSec_Section
Titre_ SSec +Paragraphe
Audience
Tx_AcceptationTx_Acceptation
Libelle_MoisLibelle_MoisLibelle_Mois
Mois
Editeur
Titre_Publication ++
+
CONTENU_ARTICLE
Titre_SecTitre_Sec
++
Type_SecType_SecTitre_SecTitre_Sec
Incompatibilités
![Page 48: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/48.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
48IRIT, SIG/ED
Enrichissement et chargement
Détails des étapes
Sources auxilliaires
+
Schéma conceptuelcompatible avec les sources
SOURCES ANALYSE MAGASINCONFRONTATION & MODIFIC ATION
DonnéesXML
Sources(éventuellement enrichies)
Chargementdes données
Besoind'Analyse
Schéma conceptuel en galaxie
Structure des sources: DTD
Enrichissement des sources
Vision arborescente
CONFRONTATION
Analyse desSources
Analysedes besoinsutilisateurs
Adaptation du schéma conceptuel
INC
OM
PAT
IBILIT
EIN
CO
MPA
TIB
ILITE
![Page 49: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/49.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
49IRIT, SIG/ED
Validation
IntroductionModèle conceptuelManipulations multidimensionnellesIntégration de documentsValidationConclusion & perspectives
![Page 50: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/50.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
50IRIT, SIG/ED
Architecture (1/3)
SGBDORACLE(XML&RELATIONNEL)
fic2.xmlfic1.xml
fic3.xml Java
Java
Java
SQL +XQuery
SQL +XQuery
Fichiers XMLconformes à
un DTD commune
SOURCES ENTREPÔT MAGASIN RESTITUTION
4 niveaux
![Page 51: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/51.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
51IRIT, SIG/ED
Architecture (2/3)
Java
Métabase Structures
Base de données Données
SQL +XQuery
Ma
ga
sin
En
tre
pô
t
Magasin de données
![Page 52: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/52.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
52IRIT, SIG/ED
Architecture (3/3)
Résultats
Annee 2005 2006IdA
OLAP OLAPEntrepot RequetesEntrepôt XMLDocument Document
STRUCTURE.Type_Sec = "introduction"
Top_Keyword(ARTICLES.Texte)
TEMPS
AUT
EU
RS
Au1
Au2
MAGASIN RESTITUTION
Requêtesmultidimensionnelles
RésultatsTraitements
internesTraitements
externes
Agrégation dedonnées numériques
Restitution / analyse
![Page 53: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/53.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
53IRIT, SIG/ED
Outil et restitution d’analyses (1/2)
CONFERENCESHConf
Conf
NomEditeur
Tx_Acceptation
SerieAudience
DATESHTps
Libelle_Mois
DateMoisAnnee
ARTICLES Paragraphe Section
Type_SecType_ParTitre_Sec
Titre_Doc
HS
Document
AUTEURS
Nom
Auteur
Equipe Institut
Statut
HA
HSt
Type_Sec
(1)
(2)
(3)
Spécification d’analyses
![Page 54: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/54.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
54IRIT, SIG/ED
CONFERENCESHConf
Conf
NomEditeur
Tx_Acceptation
SerieAudience
DATESHTps
Libelle_Mois
DateMoisAnnee
ARTICLES Paragraphe Section
Type_SecType_ParTitre_Sec
Titre_Doc
HS
Document
AUTEURS
Nom
Auteur
Equipe Institut
Statut
HA
HSt
Outil et restitution d’analyses (2/2)
Manipulation d’analyses
![Page 55: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/55.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
55IRIT, SIG/ED
Conclusion
IntroductionModèle conceptuelManipulations multidimensionnellesIntégration de documentsValidationConclusion & perspectives
![Page 56: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/56.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
56IRIT, SIG/ED
Bilan général (1/3)
Analyse en ligne de documents
Modèle en galaxie Généralisation Concept unique Spécificité des documents
![Page 57: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/57.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
57IRIT, SIG/ED
Bilan général (2/3)
Analyse en ligne de documents
Opérations de manipulation Agrégation de données textuelles Spécification d’analyses Manipulation d’analyses
![Page 58: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/58.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
58IRIT, SIG/ED
Bilan général (3/3)
Analyse en ligne de documents
Démarche Processus mixte Conception d’une galaxie Intégration de documents XML
![Page 59: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/59.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
59IRIT, SIG/ED
Perspectives
Données semi-structuréesGestion de versionsEvaluation de performancesVisualisation adaptée Fonctions d’agrégation : environnement
d’intégration
![Page 60: Soutenance de thèse, Décembre 2007 Analyse en ligne (OLAP) de documents Ronan Tournier Travaux de thèse Sous la direction de Gilles Zurfluh Encadré par](https://reader035.vdocuments.us/reader035/viewer/2022062621/551d9d82497959293b8bb94a/html5/thumbnails/60.jpg)
Analyse en ligne (OLAP) de documentsDécembre 2007
60IRIT, SIG/ED
-
MERCISoutenance de thèse en informatique
Décembre 2007, Ronan Tournier
SIG/ED : Systèmes d’Informations Généralisés / Entrepôts de Données
IRIT, Institut de Recherche en Informatique de Toulouse
Université Paul Sabatier, Toulouse III.