301 moved permanently date: tue, 22 mar 2016 22:13:00 gmt server: apache-coyote/1.1...

243
Méthode de construction d’entrepôt de données temporalisé pour un système informationnel de santé par Christina Khnaisser Mémoire présenté au Département d’informatique en vue de l’obtention du grade de maître ès sciences (M.Sc.) FACULTÉ DES SCIENCES UNIVERSITÉ DE SHERBROOKE Sherbrooke, Québec, Canada, février 2016

Upload: hamien

Post on 19-Mar-2018

215 views

Category:

Documents


1 download

TRANSCRIPT

  • Mthode de construction dentrept de donnes temporalis pour un systme

    informationnel de sant

    par

    Christina Khnaisser

    Mmoire prsent au Dpartement dinformatique

    en vue de lobtention du grade de matre s sciences (M.Sc.)

    FACULT DES SCIENCES

    UNIVERSIT DE SHERBROOKE

    Sherbrooke, Qubec, Canada, fvrier 2016

  • ii

    Le 15 fvrier 2016

    le jury a accept le mmoire de Madame Christina Khnaisser dans sa version finale.

    Membres du jury

    Professeur Luc Lavoie Directeur de recherche

    Dpartement dinformatique

    Professeur Jean-Francois thierCoDirecteur de recherche

    Dpartement de mdecine interne

    Hassan Diab Coordonnateur recherche et dveloppement

    Membre externe Centre intgr universitaire de sant et des services sociaux de lEstrie

    Centre hospitalier de lUniversit de Sherbrooke

    Professeur Marc Frappier Prsident-rapporteur

    Dpartement dinformatique

  • iii

    Sommaire

    Des systmes informationnels de sant (SIS) ont t mis en place au cours des 20 dernires

    annes pour soutenir les processus de soins, les tches administratives et les activits de

    recherche ainsi que pour assurer la gestion raisonne des tablissements de sant. Un entrept

    de donnes (ED) doit tre cr partir de nombreuses sources de donnes htrognes afin de

    rendre les donnes exploitables dune faon uniforme au sein des SIS. La temporalisation de

    cet entrept est rapidement devenue un enjeu crucial afin de garder les traces de lvolution

    des donnes et damliorer la prise de dcision clinique. Lentrept de donnes temporalis

    (EDT) requiert lapplication de rgles systmatiques afin de garantir lintgrit et la qualit

    des donnes. Gnrer le schma temporel dun EDT est une tche complexe. Plusieurs

    questions se posent ds lors, dont celles-ci : (a) Quel modle temporel est le mieux adapt

    lautomatisation de la construction dun EDT (plus particulirement dans le domaine de la

    sant)? (b) Quelles proprits peut-on garantir formellement, suite cette construction?

    Dune part, le volume du schma de donnes ncessite dimportantes ressources humaines et

    financires, et dautre part, plusieurs modles temporels existent, mais ils ne sont pas

    formaliss ou non gnraux. Les concepteurs sen remettent donc le plus souvent des rgles

    de pratiques varies, floues, incompltes et non valides. Dans ce travail, un cadre de

    rfrence permettant de formaliser, de gnraliser et doprationnaliser des modles

    temporels est dfini. Deux modles : BCDM et TRM sont prsents selon le cadre de

    rfrence avec leurs contraintes dintgrit, leurs algorithmes de construction et une liste des

    prolongements requis. Il en rsulte quil est dsormais possible de saffranchir des rgles de

    pratique imprcises et de temporaliser un entrept en se fondant sur une mthode rigoureuse

    aux proprits dmontrables bases sur des critres fondamentaux (thorie relationnelle), des

    critres de conception reconnus et explicites (normalisation).

  • iv

    Remerciements

    Mes remerciements les plus profonds sadressent particulirement mes directeurs Luc

    Lavoie et Jean-Franois thier ainsi qu Hassan Diab, reprsentant du CIUSSS-CHUS pour

    leurs conseils et leur soutien financier et acadmique. Grce vous, ce projet fut une

    exprience trs enrichissante ainsi quune ouverture vers le monde de la recherche. Ce projet

    ma permis galement de contribuer tant lavancement de la science qu son utilisation au

    sein de ma socit daccueil laquelle je suis redevable. Finalement, je remercie mes parents

    pour leur soutien et leurs encouragements constants.

  • v

    Table des matires

    Sommaire ............................................................................................................. ii!

    Remerciements ................................................................................................... iv!

    Table des matires ............................................................................................... v!

    Liste des abrviations ....................................................................................... xiii!

    Liste des tableaux .............................................................................................. xv!

    Liste des figures ................................................................................................ xvi!

    Introduction ......................................................................................................... 1!Contexte ................................................................................................................................. 1!

    Problmatique ........................................................................................................................ 1!

    Objectifs ................................................................................................................................. 3!

    Mthodologie ......................................................................................................................... 3!

    Rsultats ................................................................................................................................. 4!

    Structure du mmoire ............................................................................................................. 5!

    Chapitre 1 Systme informationnel de sant ....................................................... 6!1.1! Mise en contexte ........................................................................................................... 6!

    1.1.1! Besoins ................................................................................................................... 7!

    1.1.2! But recherch ......................................................................................................... 8!

    1.1.3! Dfis ....................................................................................................................... 9!

    1.2! Problmatiques de construction dun EDC ................................................................. 10!

    1.2.1! Modlisation dentrept de donnes cliniques ..................................................... 10!

    1.2.2! Modlisation dentrept de donnes temporel ..................................................... 13!

  • vi

    1.2.3! Raisonnement temporel ....................................................................................... 15!

    1.2.4! Intgration des sources de donnes ...................................................................... 16!

    1.3! Vision .......................................................................................................................... 19!

    1.3.1! Les caractristiques des agents ............................................................................ 20!

    1.3.2! Les composants .................................................................................................... 21!

    1.4! Synthse ...................................................................................................................... 22!

    1.4.1! Problme cibl ..................................................................................................... 23!

    1.4.2! Autres problmatiques ......................................................................................... 23!

    Chapitre 2 Temporalisation dun entrept de donnes ...................................... 25!2.1! Exemple de temporalisation d'une relation ................................................................. 25!

    2.1.1! Scnario A ............................................................................................................ 26!

    2.1.2! Scnario B ............................................................................................................ 28!

    2.1.3! Scnario C ............................................................................................................ 30!

    2.1.4! Synthse des exemples ......................................................................................... 32!

    2.2! Problme cibl ............................................................................................................ 33!

    2.2.1! Prsentation .......................................................................................................... 33!

    2.2.2! Hypothses ........................................................................................................... 34!

    2.2.3! Description du processus ..................................................................................... 34!

    2.2.4! Description des sous-processus ............................................................................ 35!

    2.3! Problmatiques de temporalisation ............................................................................. 38!

    2.4! Rsultats attendus ........................................................................................................ 39!

    Chapitre 3 Mthode de construction dun entrept de donnes temporalis ..... 41!3.1! Mthode ...................................................................................................................... 41!

    3.1.1! Dfinition des exigences et critres ..................................................................... 42!

    3.1.2! Dfinition dun cadre de rfrence ...................................................................... 42!

    3.1.3! Dfinition dun processus de rfrence ................................................................ 42!

    3.1.4! Reformulation des modles temporels ................................................................. 43!

    3.1.5! Comparaison des modles temporels ................................................................... 43!

    3.1.6! Considrations relatives aux SIS ......................................................................... 43!

  • vii

    3.2! Liste des exigences ..................................................................................................... 43!

    3.3! Prsentation du processus de rfrence ....................................................................... 45!

    3.3.1! Hypothses ........................................................................................................... 46!

    3.3.2! Description des sous-processus ............................................................................ 47!

    Chapitre 4 Concepts temporels .......................................................................... 50!4.1! Modlisation et reprsentation du temps .................................................................... 50!

    4.1.1! Le point ................................................................................................................ 52!

    4.1.2! Traitement de la volatilit et de lindtermination ............................................... 52!

    4.2! Lintervalle .................................................................................................................. 54!

    4.2.1! Les oprateurs ...................................................................................................... 55!

    4.2.2! Problmatique particulire des attributs de type intervalle .................................. 58!

    4.3! Les rfrentiels temporels ........................................................................................... 61!

    4.3.1! Rfrentiel du domaine ........................................................................................ 62!

    4.3.2! Rfrentiel de transaction .................................................................................... 62!

    4.3.3! Rfrentiel de validation ...................................................................................... 63!

    Chapitre 5 Cadre de rfrence ........................................................................... 65!5.1! Catgorisation temporelle des attributs ....................................................................... 65!

    5.2! Catgorisation temporelle des relations ...................................................................... 67!

    5.2.1! Relation de validation (R!VT) ............................................................................. 67!

    5.2.2! Relation de transaction (R!TT) ............................................................................ 68!

    5.2.3! Relation bitemporelle (R!BT) .............................................................................. 69!

    5.2.4! Relation non temporelle (R!NT) .......................................................................... 70!

    5.2.5! Synthse de la notation ........................................................................................ 71!

    5.3! Exigences relatives aux schmas ................................................................................ 71!

    5.3.1! Exigences relatives au schma initial .................................................................. 72!

    5.3.2! Exigences relatives au schma final .................................................................... 73!

    5.4! Partitions temporelles .................................................................................................. 73!

    5.4.1! Dcomposition ..................................................................................................... 74!

    5.4.2! Description dtaille des parties .......................................................................... 76!

  • viii

    5.4.3! Synthse de la notation ........................................................................................ 79!

    Chapitre 6 Rsultats ........................................................................................... 80!6.1! Cadre de rfrence ...................................................................................................... 80!

    6.1.1! Schma dentrept de donnes temporalis ......................................................... 81!

    6.1.2! Rfrentiels, priodes et oprateurs ..................................................................... 81!

    6.1.3! Catgories, partitions et parties ............................................................................ 82!

    6.1.4! Normalisation ....................................................................................................... 83!

    6.2! Modle temporel TRM ............................................................................................... 83!

    6.2.1! Particularits ........................................................................................................ 83!

    6.2.2! Avantages ............................................................................................................. 86!

    6.2.3! Limitations ........................................................................................................... 87!

    6.2.4! Prolongements ...................................................................................................... 87!

    6.3! Modle temporel BCDM ............................................................................................ 88!

    6.3.1! Particularits ........................................................................................................ 88!

    6.3.2! Avantages ............................................................................................................. 90!

    6.3.3! Limitations ........................................................................................................... 91!

    6.3.4! Prolongements ...................................................................................................... 91!

    6.4! Comparaison ............................................................................................................... 92!

    6.4.1! Structure et smantique ........................................................................................ 93!

    6.4.2! Satisfaction des exigences .................................................................................... 96!

    6.4.3! Synthse ............................................................................................................... 98!

    6.4.4! Prolongements ...................................................................................................... 99!

    6.5! Considrations relatives aux SIS ................................................................................ 99!

    Conclusion ....................................................................................................... 101!Contributions ..................................................................................................................... 101!

    Critique du travail .............................................................................................................. 102!

    Travaux futurs .................................................................................................................... 103!

    Annexe A Concepts relationnels ..................................................................... 105!

  • ix

    A.1! Modle de base ......................................................................................................... 105!

    A.1.1! Variable de relation ............................................................................................... 105!

    A.1.2! Attribut .................................................................................................................. 106!

    A.1.3! Entte .................................................................................................................... 106!

    A.1.4! Tuple ..................................................................................................................... 107!

    A.1.5! Oprateurs relationnels ......................................................................................... 107!

    A.1.6! Contrainte .............................................................................................................. 109!

    A.1.7! Assertion ............................................................................................................... 110!

    A.1.8! Vues ...................................................................................................................... 110!

    A.1.9! Schma .................................................................................................................. 111!

    A.2! Base de donnes ....................................................................................................... 111!

    A.3! Normalisation ........................................................................................................... 112!

    A.3.1! Dpendances ......................................................................................................... 112!

    A.3.2! Formes normales ................................................................................................... 113!

    A.3.3! Schma normalis ................................................................................................. 114!

    Annexe B Modle TRM .................................................................................. 115!B.1! Concepts de base ...................................................................................................... 115!

    B.1.1! Le temps et sa reprsentation ................................................................................ 116!

    B.1.2! Extension aux oprateurs relationnels ................................................................... 116!

    B.1.2.1! Opration PACK et UNPACK ........................................................................... 116!

    B.1.2.2! Opration USING ............................................................................................... 119!

    B.2! Modalits de structuration dun schma temporalis ............................................... 123!

    B.2.1! Temporalisation et partitions canoniques .............................................................. 123!

    B.2.1.1! Partition unitemporelle de validation ................................................................. 123!

    B.2.1.2! Partition bitemporelle ......................................................................................... 123!

    B.2.1.3! Partition unitemporelle de transaction ................................................................ 124!

    B.2.1.4! Synthse ............................................................................................................. 125!

    B.2.2! Modlisations issues de la partition canonique ..................................................... 126!

    B.3! Rgles unitemporelles de transaction ....................................................................... 128!

  • x

    B.3.1! Exigences .............................................................................................................. 128!

    B.3.2! Mise en oeuvre des exigences ............................................................................... 128!

    B.3.2.1! Rgles dunicit .................................................................................................. 128!

    B.3.2.2! Assertions rfrentielles ..................................................................................... 129!

    B.3.2.3! Synthse ............................................................................................................. 129!

    B.4! Rgles unitemporelles de validation ........................................................................ 129!

    B.4.1! Exigences .............................................................................................................. 129!

    B.4.2! Mise en oeuvre des exigences ............................................................................... 131!

    B.4.2.1! Rgles dunicit .................................................................................................. 131!

    B.4.2.2! Exigences 1 et 2 .................................................................................................. 131!

    B.4.2.3! Exigences 3 et 6 .................................................................................................. 131!

    B.4.2.4! Exigences 4 et 5 .................................................................................................. 132!

    B.4.2.5! Exigence 9 .......................................................................................................... 133!

    B.4.3! Synthse ................................................................................................................ 133!

    B.5! Rgles bitemporelles ................................................................................................ 135!

    B.5.1! Exigences .............................................................................................................. 136!

    B.5.2! Mise en uvre des exigences ................................................................................ 136!

    B.5.3! Synthse ................................................................................................................ 136!

    B.6! Assertions rfrentielles temporellement mixtes ..................................................... 138!

    B.7! Algorithme de construction dun schma bitemporel .............................................. 139!

    B.8! Exemple de construction dun schma bitemporel .................................................. 140!

    B.8.1! Exemple cod en TD ............................................................................................. 143!

    B.8.2! Exemple cod en Discipulus ................................................................................. 144!

    B.8.3! Code engendr en Discipulus ................................................................................ 145!

    B.9! Modalits de modification ........................................................................................ 153!

    B.9.1! Modifications unitemporelles semi-fermes ......................................................... 153!

    B.9.1.1! Insertion .............................................................................................................. 153!

    B.9.1.2! Suppression ........................................................................................................ 155!

    B.9.1.3! Mise jour .......................................................................................................... 155!

  • xi

    B.9.2! Modifications unitemporelles fermes .................................................................. 156!

    B.9.2.1! Insertion .............................................................................................................. 157!

    B.9.2.2! Suppression ........................................................................................................ 157!

    B.9.2.3! Mise jour .......................................................................................................... 157!

    Annexe C Modle BCDM ............................................................................... 159!C.1! Concepts de base ...................................................................................................... 159!

    C.1.1! Le temps et sa reprsentation ................................................................................ 160!

    C.1.2! Extension aux oprateurs relationnels ................................................................... 160!

    C.1.2.1! Oprateurs de Allen ............................................................................................ 160!

    C.1.2.2! Oprateur COALESCE ...................................................................................... 161!

    C.2! Modalits de structuration dun schma temporalis ............................................... 161!

    C.2.1! Temporalisation et partitions ................................................................................. 161!

    C.2.1.1! Partition bitemporelle ......................................................................................... 162!

    C.2.1.2! Partition unitemporelle de transaction ................................................................ 162!

    C.2.1.3! Synthse ............................................................................................................. 163!

    C.2.2! Modlisations issues de la partition canonique ..................................................... 164!

    C.3! Prservation de lintgrit temporelle ...................................................................... 166!

    C.3.1! Unicit ................................................................................................................... 166!

    C.3.2! Rfrentialit ......................................................................................................... 167!

    C.3.3! Inclusion temporelle .............................................................................................. 168!

    C.3.4! Exigences .............................................................................................................. 168!

    C.4! Rgles unitemporelles de transaction ....................................................................... 169!

    C.4.1! Mise en uvre des exigences ................................................................................ 169!

    C.4.1.1! Rgles dunicit .................................................................................................. 169!

    C.4.1.2! Rgles rfrentielles ........................................................................................... 170!

    C.4.2! Synthse ................................................................................................................ 171!

    C.5! Rgles bitemporelles ................................................................................................ 171!

    C.5.1! Mise en oeuvre des exigences ............................................................................... 171!

    C.5.1.1! Rgles dunicit .................................................................................................. 172!

  • xii

    C.5.1.2! Rgles rfrentielles ........................................................................................... 173!

    C.5.1.3! Rgles dinclusion temporelles .......................................................................... 174!

    C.5.2! Synthse ................................................................................................................ 175!

    C.6! Assertions rfrentielles temporellement mixtes ..................................................... 177!

    C.7! Rgles complmentaires ........................................................................................... 179!

    C.8! Algorithme de construction dun schma bitemporel .............................................. 179!

    C.9! Exemple de construction dun schma bitemporel .................................................. 180!

    C.9.1! Exemple cod en SQL ........................................................................................... 183!

    C.9.2! Exemple cod en TSQL ........................................................................................ 186!

    C.9.3! Exemple cod en Discipulus ................................................................................. 187!

    C.9.4! Code engendr en Discipulus ................................................................................ 188!

    C.10! Modalits de modification ...................................................................................... 200!

    C.10.1! Rgles de modifications bitemporelles ............................................................... 200!

    C.10.1.1! Insertion ............................................................................................................ 201!

    C.10.1.2! Suppression ...................................................................................................... 204!

    C.10.1.3! Mise jour ........................................................................................................ 207!

    C.10.2! Rgles de modification unitemporelle de transaction ......................................... 212!

    C.10.2.1! Insertion ............................................................................................................ 212!

    C.10.2.2! Suppression ...................................................................................................... 212!

    C.10.2.3! Mise jour ........................................................................................................ 212!

    C.10.3! Synthse .............................................................................................................. 213!

    Annexe D Traitement des cls multiples ......................................................... 215!

    Bibliographie ................................................................................................... 217!

    Glossaire .......................................................................................................... 224!

  • xiii

    Liste des abrviations

    BCDM Bitemporal Conceptual Data Model.

    BD Base de donnes.

    CHUS Centre hospitalier de luniversit de Sherbrooke.

    CIUSSS Centre intgr universitaire de sant et des services sociaux.

    CIUSSSE-CHUS Centre intgr universitaire de sant et des services sociaux de lEstrie

    Centre hospitalier de luniversit de Sherbrooke.

    DCI Dossier clinique informatis.

    DICOM Digital Imaging and Communications in Medicine.

    DM Dossier mdical lectronique.

    e-PIIRAMIDE Portail informationnel intgr pour la recherche et lanalyse

    multidimensionnelle et intelligente des donnes en Estrie.

    ED Entrept de donnes.

    EDC Entrept de donnes cliniques.

    EDCT Entrept de donnes cliniques temporalis.

    EDT Entrept de donnes temporalis.

    EHR Electronic Health Record

    ETL Extract-Transformation-Load.

    FN Forme normale.

    HL7 Health Level Seven.

    PJ Projection-Jointure.

    UMLS Unified Medical Language System.

    RU Restriction-Union.

    SED Schma dentrept de donne.

    SEDT Schma dentrept de donnes temporalis.

  • xiv

    SGBD Systme de gestion de bases de donnes.

    SGBDR Systme de gestion de bases de donnes relationnelles.

    SIS Systme informationnel de sant.

    SNOMED Systematized Nomenclature of Medicine.

    LOINC Logical Observation Identifiers Names and Codes.

    SQL Structured query language.

    TRM Temporal Relational Model.

    UML Unified modeling language.

  • xv

    Liste des tableaux

    Tableau 1 Comparaison entre un ED conventionnel et un ED clinique. .............................. 11!

    Tableau 2 Notation dintervalle ............................................................................................ 54!

    Tableau 3 Notation de base des intervalles ........................................................................... 55!

    Tableau 4 Oprateurs lmentaires de comparaison dAllen [Allen 1983] .......................... 57!

    Tableau 5 Combinaisons doprateurs lmentaires ............................................................. 58!

    Tableau 6 Notation des catgories dattributs temporels ...................................................... 66!

    Tableau 7 Notation des catgories temporelles de relation .................................................. 71!

    Tableau 8 Notation des catgories temporelles des parties .................................................. 79!

    Tableau 9 Comparaison synthtique de BCDM et TRM ...................................................... 92!

    Tableau 10 Catgories de priodes utilises par TRM. ...................................................... 116!

    Tableau 11 quivalence des catgories des parties entre TRM et le cadre de rfrence. ... 125!

    Tableau 12 Modlisation des catgories de priodes du modle BCDM ........................... 160!

    Tableau 13 Oprateurs temporels selon les oprateurs lmentaires de Allen ................... 161!

    Tableau 14 quivalence des parties entre BCDM et le cadre de rfrence. ....................... 163!

  • xvi

    Liste des figures

    Figure 1 Illustration du contenu htrogne dun DCI [Jensen et al. 2012] ......................... 17!

    Figure 2 Vision du systme de construction dun EDCT ..................................................... 20!

    Figure 3 Diagramme de contexte TEMPUS ......................................................................... 35!

    Figure 4 Diagramme de flux de donnes TEMPUS ............................................................. 36!

    Figure 5 Structure dun modle relationnel .......................................................................... 37!

    Figure 6 Diagramme de contexte de solution TEMPUS ...................................................... 46!

    Figure 7 Diagramme de flux de donnes de solution TEMPUS ........................................... 48!

    Figure 8 Concepts temporels de base .................................................................................... 51!

    Figure 9 Illustration des oprateurs lmentaires, tir de [Snodgrass 1995:2] ..................... 56!

    Figure 10 Exemple de relation de validation ....................................................................... 68!

    Figure 11 Exemple de relation de transaction ....................................................................... 69!

    Figure 12 Exemple de relation bitemporelle ......................................................................... 70!

    Figure 13 Exemple de relation non temporelle ..................................................................... 71!

    Figure 14 Exemple de temporalisation ................................................................................. 75!

    Figure 15 Temporalisation dune relation selon TRM ......................................................... 85!

    Figure 16 Temporalisation dune relation selon BCDM ...................................................... 89!

    Figure 17 - Les partitions TRM et BCDM ............................................................................... 94!

    Figure 19 tapes dexcution dune requte utilisant loprateur USING ......................... 122!

    Figure 20 Les parties dun schma temporalis selon TRM. ............................................. 126!

    Figure 21 Drivation des partitions selon TRM ................................................................. 127!

    Figure 22 Modlisation unitemporelle de validation selon TRM ....................................... 135!

    Figure 23 Vues unitemporelles de validation selon TRM .................................................. 135!

    Figure 24 Modlisation bitemporelle selon TRM ............................................................... 137!

    Figure 25 Vues bitemporelles selon TRM .......................................................................... 138!

  • xvii

    Figure 26 tapes de construction dun schma bitemporel TRM ....................................... 140!

    Figure 27 Schma initial temporaliser ............................................................................. 141!

    Figure 28 Schma initial annot ......................................................................................... 141!

    Figure 29 Schma bitemporaliser ..................................................................................... 141!

    Figure 30 Schma unitemporel de validation selon le modle TRM .................................. 142!

    Figure 31 Les parties dun schma temporalis selon BCDM ........................................... 164!

    Figure 32 Drivation des partitions selon BCDM .............................................................. 165!

    Figure 33 Modlisation bitemporelle selon BCDM ............................................................ 176!

    Figure 34 Vues bitemporelles selon BCDM ....................................................................... 177!

    Figure 35 tapes de construction d'un schma bitemporel selon BCDM ........................... 180!

    Figure 36 Schma initial temporaliser ............................................................................. 181!

    Figure 37 Schma initial annot ......................................................................................... 181!

    Figure 38 Schma bitemporaliser ..................................................................................... 182!

    Figure 39 Schma bitemporel selon BCDM ....................................................................... 182!

    Figure 40 Les cas dinsertion bitemporelle [Snodgrass 1995 p.321] .................................. 202!

    Figure 41 Les cas de suppression bitemporelle [Snodgrass 1995 p.215] ........................... 205!

    Figure 42 Les cas de mise jour bitemporelle (Snodgrass 1995 p.220] ............................ 209!

    Figure 43 Schma bitemporel selon BCDM (avec les rgles de modifications) ................ 214!

  • 1

    Introduction

    Contexte

    Dans le secteur de la sant, les processus de soins, les dispositifs mdicaux, lactualisation

    des dossiers cliniques et sociaux, la recherche, etc. gnrent un trs grand volume de donnes

    chaque jour. Les systmes informationnels de sant (SIS) mis en place pour en assurer la

    gestion raisonne sont dsormais indispensables dun point de vue oprationnel. Les

    tablissements de sant dsirent en outre partager de faon exploitable lensemble de ces

    donnes aux fins danalyses et dtudes (administratives, cliniques, de recherche, etc.). En

    particulier, le CIUSSS de lEstrie-CHUS a exprim des besoins spcifiques relatifs la

    construction dun entrept de donnes cliniques (EDC) [CIUSSS 2014]. Vu le grand nombre

    de sources htrognes et complexes et les caractristiques spcifiques des donnes cliniques

    [Shin et al. 2014], les tablissements font face plusieurs dfis lors de la construction dun

    entrept de donnes (ED). La problmatique qui suit en dgage les principaux.

    Problmatique

    Les SIS tendent de plus en plus vers des systmes temporels [Combi and Shahar 1997].

    Laccs un entrept de donnes cliniques temporalis (EDCT) devient ds lors une

    ncessit pour rendre les donnes exploitables aux fins danalyse et de support la prise de

    dcision. Dune part, aucun consensus nest tabli sur une mthode intgre de construction

    dun EDCT [Khnaisser et al. 2015]. Dautre part, les mthodes existantes possdent des

    limites nuisant linteroprabilit temporelle et lexploitation de donnes :

    absence dindication du modle temporel et de la smantique temporelle utilise les

    modles fonds sont rarement utiliss et la smantique est fortement lie au contexte

    et au processus qui engendre les donnes;

  • 2

    faible automatisation de la construction de lEDCT la modlisation et lintgration

    sont ralises en grande partie manuellement;

    complexit de lexpressivit des requtes temporelles les limites de SQL et des

    outils dexploitation des donnes offrent des fonctionnalits temporelles limites;

    ngligence du processus dvolution de lEDCT lvolution demeure un dfi et

    requiert des ressources importantes.

    La temporalisation des donnes est un aspect trs important pour diverses tudes cliniques et

    la recherche en sant. Dune part, linterprtation des donnes cliniques est fortement lie au

    temps, mais les donnes sont souvent incompltement temporalises et les sources de

    donnes sont trs rarement structures de faon en assurer lintgrit et en faciliter

    lanalyse temporelle. Dautre part, vu lhtrognit et le grand nombre de sources de

    donnes, les mthodes classiques de construction dED sont difficiles, voire impossibles,

    mettre en place, car elles sont fondes sur des rgles de pratique parfois floues, souvent

    incompltes et gnralement non automatisables. Afin de faciliter linteroprabilit

    temporelle1 et lexploitation des donnes2, le schma doit respecter des rgles de

    modlisation rigoureuse et systmatique pour garantir lintgrit des donnes et permettre

    lutilisation de strotypes de requtes (plutt que de ncessiter une analyse au cas par cas,

    comme cest lusage prsentement). Une mthode semi-automatise de construction dun

    EDCT adquate est ncessaire pour assurer une meilleure traabilit et une meilleure

    exploitation (une meilleure expressivit des requtes et dtection des patrons temporels)

    [Adlassnig et al. 2006]. Dans le prsent projet, nous traitons de la seule problmatique de la

    temporalisation dun ED en EDT. Son application aux EDC pour produire des EDCT

    sensuit, dans la mesure o les EDC sont dcrits partir du mme formalisme et de la mme

    base thorique que les ED.

    1 Garantir une smantique temporelle uniforme. 2 Simplification des requtes et amlioration des performances.

  • 3

    Objectifs

    Lobjectif est dlaborer une mthode semi-automatise de construction dun EDT dans le but

    de faciliter le travail des concepteurs dentrepts de donnes. Lobjectif spcifique au

    mmoire est de :

    tudier et comparer deux modles temporels pour identifier les rgles de modlisation

    dans une perspective dautomatisation de la temporalisation,

    prsenter les fonctionnalits de base pour le dveloppement dun atelier de

    construction dun EDT.

    Mthodologie

    Deux modles temporels ont t tudis : BCDM [Snodgrass 2000] et TRM [Date et al.

    2014a] afin den identifier les critres de modlisation et les rgles applicables dans une

    perspective dune gnration automatise dun schma dEDT. Ltude est effectue en

    plusieurs tapes :

    dfinition des problmatiques de construction dun EDT;

    tablissement dun cadre de rfrence gnral et commun aux diffrents concepts de

    temporalisation;

    prsentation des modles TRM et BCDM : identification des particularits des

    modles, gnralisation des rgles temporelles, dfinition de lalgorithme de

    modlisation dun schma temporel;

    comparaison des modles temporels en regard des exigences et des concepts de

    rfrences;

    dfinition dune liste dexigences dune mthode semi-automatise de construction

    dun EDT.

  • 4

    Rsultats

    Grce cette tude, il a t possible de gnraliser, formaliser et doprationnaliser les deux

    modles temporels BCDM et TRM. Il en dcoule : un cadre de rfrence des modles

    temporels, une dfinition dune mthode semi-automatise de construction dun EDT, des

    algorithmes de construction dun EDT, une comparaison des deux modles, ainsi que des

    observations et des recommandations quant la faisabilit, lexpressivit des deux modles

    temporels.

    Le cadre de rfrence permet de dcrire les deux modles avec une mme syntaxe et une

    mme smantique. Il emprunte largement aux bases tablies par Date, Darwen et Lorentzos

    dans [Date et al. 2014a] fondes mme la thorie relationnelle et la logique des intervalles,

    aux oprateurs PACK et UNPACK et leur encapsulation dans loprateur USING. Le

    modle TRM prsente une sparation claire entre ltat courant et les tats historiques, ce qui

    rend envisageable son utilisation comme base de donnes dexploitation (non temporalise).

    Les grandes lignes de son automatisation taient dj documentes dans [Codd 1990], nous

    les avons compltes. Le modle BCDM, originellement dcrit par des rgles de pratiques

    (minimisant limpact de doublons et des attributs annulables) et des rgles particulires

    (construites partir dun canevas gnral, mais adaptes aux exigences du domaine

    dapplication), est dsormais exprimable en terme du cadre de rfrence, est donc

    automatisable. Suite ltude des problmatiques dans le domaine clinique, le cadre de

    rfrence et les deux modles ncessiteront des extensions pour mieux gnrer lincertitude

    temporelle, le pass indtermin et la tritemporalit.

    De plus, une mthode de construction dun EDT est adquate si elle satisfait les huit

    exigences suivantes [Khnaisser et al. 2015] : (1) intgrit des donnes (2) modle temporel

    fond (3) expressivit des requtes (4) intgration htrogne des donnes (5) intgration de

    lvolution des connaissances (6) intgration de lvolution de la structure (7) traabilit et

    (8) automatisation de la construction. Un modle temporel dfini sur la base du cadre de

  • 5

    rfrence permet de satisfaire partiellement six des huit exigences pour une mthode de

    construction dEDC.

    Structure du mmoire

    Outre lintroduction et la conclusion, le mmoire est organis en six chapitres et quatre

    annexes. Afin de mieux comprendre le rle et les contraintes applicables aux EDCT, le

    Chapitre 1 prsente un survol non exhaustif de la problmatique des systmes

    informationnels de sant et ltat de lart actuel recens par la littrature. Le Chapitre 2

    prsente en profondeur le problme trait dans ce mmoire : la temporalisation des ED. Le

    Chapitre 3 prsente une mthode semi-automatise de construction dEDT et la liste des

    exigences. Les Chapitre 4 et Chapitre 5 prsentent respectivement les concepts temporels

    fondamentaux et les extensions temporelles formant le cadre de rfrence propos. Enfin, le

    Chapitre 6 synthtise et compare les deux modles temporels TRM et BCDM. En

    complment, lAnnexe A dcrit les concepts relationnels classiques sur lesquels le cadre de

    rfrence est fond. Les annexes Annexe B et Annexe C dcrivent respectivement le modle

    TRM et le modle BCDM sur la base du cadre de rfrence ainsi que leurs algorithmes de

    construction et dalimentation initiale. LAnnexe D montre comment traiter les cls

    multiples.

  • 6

    Chapitre 1

    Systme informationnel de sant

    Today, if you have a well-designed database management system, you have the keys to the kingdom of data processing and decision support. [Codd 1990]

    Un systme informationnel de sant est ncessaire pour tout tablissement de sant afin

    damliorer les services, les diagnostics et le traitement des maladies; dassurer une

    continuit des soins dun tablissement lautre et dalimenter en donnes de qualit les

    centres de recherche clinique. Pour atteindre ces objectifs, les donnes du systme

    informationnel provenant de plusieurs sources doivent tre intgres dans un EDC permettant

    lutilisation secondaire de donnes.

    Le chapitre prsente le contexte et les problmatiques relies au dveloppement dun systme

    informationnel de sant et, incidemment, des EDCT. Il commence par une prsentation des

    besoins, de but recherch et des dfis de construction dun systme informationnel. Ensuite,

    la section 1.2 survole les problmatiques relies. La section 1.3 dcrit la vision du systme

    envisag. En synthse, la section 1.4 prsente le problme cibl par ce travail.

    1.1 Mise en contexte

    Une masse de donnes de sant est cre chaque jour (chaque minute) par les systmes de

    gestion de dossiers cliniques informatiss (DCI), les systmes de gestion de dossiers

    mdicaux lectroniques (DM), les dispositifs mdicaux, la recherche, etc. Ces donnes

    peuvent tre rutilises dans des activits de recherche, de formation, de gestion, de mesure

    de qualit, de mdecine prventive, etc. Cest ce que nous dcrivons comme lutilisation

    secondaire de donnes.

  • 7

    Historiquement, toute la documentation tait sur papier ce qui limite le partage des donnes,

    la qualit de linformation et son analyse. Avec linformatisation des tablissements de sant,

    le volume, la diversit et la complexit des donnes ont normment augment. De nouvelles

    demandes dutilisation sont apparues, dont lintgration et lutilisation secondaire de donnes

    provenant de plusieurs tablissements.

    1.1.1 Besoins

    Latteinte des objectifs de ralisation et de concrtisation des valeurs ajoutes partir des

    donnes cliniques informatises dpend de lamlioration de la faon dont les utilisateurs

    interagissent et exploitent les donnes [Landrigan et al. 2010]. Dans un premier temps, les

    donnes doivent tre structures et intgres dune faon exploitable. Ensuite, des outils de

    rtroaction, de prvention, de dcouverte de connaissances, danalyse, de forage et daide la

    dcision doivent tre mis en place afin de relever les dfis pour atteindre les objectifs. Un

    systme informationnel de sant (SIS) est indispensable pour permettre aux mdecins,

    intervenants, cliniciens, chercheurs, gestionnaires et autres participants dans un continuum

    de soins et services de prendre des dcisions claires, de concrtiser des actions, dagir

    dune faon proactive et davoir des connaissances approfondies sur lvolution de ltat de

    sant des patients lchelle dune population ou dun individu.

    La mise disposition de moyens informatiss entre tous les tablissements de sant est

    ncessaire afin damliorer les services de sant, les diagnostics et les traitements et

    dalimenter en donnes de qualit les centres de recherche clinique [Safran et al. 2007]. Plus

    spcifiquement, les tablissements de sant visent :

    amliorer la qualit des soins et services ainsi que lanalyse des rsultats pour

    sassurer que les patients reoivent les soins appropris et que les tablissements de

    sant soient en mesure de mieux suivre la progression de ltat de sant de leurs

    patients;

  • 8

    amliorer la mdecine prventive et la mdecine personnalise pour contribuer

    laborer des plans de soins et services plus adapts au contexte et au profil des

    patients;

    faciliter la cration, la circulation et le partage des informations entre les

    tablissements. Ceci favorise un meilleur suivi de la trajectoire du patient travers

    les diffrents tablissements, la dcouverte de nouvelle mthode de traitement, etc. ;

    amliorer la planification financire ainsi que diffrentes fonctions stratgiques,

    tactiques et oprationnelles.

    1.1.2 But recherch

    Les SIS sont survenus pour rpondre aux besoins grandissants de lutilisation secondaire de

    donnes. Notons que cette volution naturelle est survenue avec un dcalage denviron 20 ans

    sur les systmes intgrs de gestion et de production couramment utiliss dans dautres types

    dorganisation (transport, nergie, manufacturier...) [Carter 2001a]. Un SIS est constitu dun

    ensemble doutils pour mieux rpondre aux besoins en matire de cration, daccs, de

    circulation et de partage de donnes cliniques pour lutilisation secondaire dans le respect des

    lois et des rglements. Il doit offrir :

    aux diffrents intervenants du rseau de la sant (cliniciens, agents administratifs,

    infirmiers, analyste informatique, gestionnaire de donnes, etc.) un accs uniforme

    aux diffrentes sources3 de donnes dans le respect du cadre lgal;

    des outils danalyse, dextraction et de visualisation des donnes avance pour

    driver des connaissances dune faon autonome (sans assistance technique) et

    uniforme (indpendante de la structure des sources) selon leur profil;

    des outils de collaboration, de partage des ressources et de transfert des

    connaissances en matire dutilisation secondaire de donnes entre les professionnels

    uvrant dans les tablissements et les centres de sant.

    3 Nous entendons par source, toutes les bases de donnes relies aux systmes des tablissements de sant : cabinets de

    mdecin de famille, hpitaux (pharmacie, radiologie, laboratoires, facturation, etc.), cliniques, CLSC, RAMQ, etc.

  • 9

    La mise en place dun SIS est importante dans le cas des rseaux rgionaux de sant forms

    de plusieurs tablissements (par exemple [Dewitt and Hampton 2005] et [Hu et al. 2011:4]).

    En particulier, le centre intgr universitaire de sant et des services sociaux de lEstrie -

    Centre hospitalier de luniversit de Sherbrooke (CIUSSSE-CHUS) a exprim des besoins

    spcifiques relatifs au dveloppement de-PIIRAMIDE4, un systme informationnel rgional

    de sant pour lEstrie [CIUSSS 2014].

    1.1.3 Dfis

    Les donnes dintrt pour lutilisation secondaire sont fragmentes dans plusieurs sources de

    donnes. Lextraction et la gestion5 de ces donnes sont difficiles vu le grand nombre de

    sources htrognes, le grand volume de donnes, les besoins et les connaissances diversifis,

    etc. Lapproche la plus souvent prconise pour intgrer toutes les donnes est la mise en

    place dun EDC [Pedersen et al. 1998].

    Les utilisateurs sont des experts du domaine dsirant accder aux donnes en fonction de

    modles de connaissances. Nanmoins, les donnes sont stockes dans diffrentes sources qui

    sont structures (htrognit structurelle) et encodes (htrognit terminologique) de

    faons diffrentes. Dune part, les experts du domaine doivent pouvoir exprimer leurs

    requtes selon un modle de connaissances unifi qui reprsente bien leur domaine (sans

    avoir besoin de connaitre la structure des sources de donnes) [Ethier et al. 2013]. Dautre

    part, les gestionnaires de donnes doivent pouvoir crer, grer et maintenir les donnes avec

    le moins de ressources possible tout en assurant leur fidlit, leur intgrit et la traabilit de

    leur volution (indpendamment des modles qui les utilisent).

    Cependant, vu la diversit et la grande quantit de sources, plusieurs questions se posent.

    Comment modliser un tel entrept? Quelles donnes doit-on intgrer? Comment faire

    lintgration? Comment assurer linteroprabilit smantique et syntaxique? Comment

    assurer la traabilit des donnes et suivre leurs volutions dans le temps? Comment 4 Portail informationnel intgr pour la recherche et lanalyse multidimensionnelle et intelligente des donnes en Estrie 5 La gestion des donnes inclut entre autres : la modification des donnes, la dfinition et loptimisation de la structure, la

    gestion du contrle daccs, etc.

  • 10

    interprter, analyser et prsenter les donnes? Comment valuer la qualit du schma de

    donnes? Comment assurer la scurit de donnes et la protection des renseignements

    personnels? etc. La section suivante dcrit les principales problmatiques associes la

    construction dun EDC.

    1.2 Problmatiques de construction dun EDC

    Les donnes cliniques se caractrisent essentiellement par le temps, le contexte et la fonction

    (pour plus de dtail, voir [Khnaisser et al. 2015; Lee et al. 2015]). Les informations cliniques

    sont troitement lies au temps associ lactivit (ou au processus) et au contexte ayant

    engendr les donnes. De plus, plusieurs tudes cliniques se basent sur lhistorique de

    lvolution des donnes pour obtenir de meilleurs rsultats.

    Les principales problmatiques associes la construction dun EDC sont : la modlisation

    de lEDC, la reprsentation temporelle, le raisonnement temporel, et lintgration des sources

    htrognes.

    1.2.1 Modlisation dentrept de donnes cliniques

    Les donnes relatives au patient sont gnres par plusieurs systmes (ou processus) et sont

    rparties dans plusieurs sources. LEDC doit contenir les donnes intgres, ce qui implique,

    le traitement des incohrences et le maillage de donnes6 (le problme de data linkage ).

    Dune part, la dfinition des assertions est ncessaire afin de dtecter les incohrences et

    prserver la qualit des donnes. Dautre part, il faut savoir en tout temps do vient chaque

    donne, qui la cre, par quel processus ainsi que quand elle est modifie et par qui.

    Autrement dit, la modlisation doit permettre de garder la trace de leur provenance et de leur

    volution. Le processus de construction dun ED est complexe et fait intervenir plusieurs

    ressources. Il inclut, principalement, les activits de reprsentation des exigences, la

    reprsentation des sources, la modlisation du schma de lED, lintgration des donnes,

    6 Cest--dire sassurer que les donnes pour un mme individu soient bien lies ensemble et napparaissent pas comme

    duplicata.

  • 11

    lalimentation, la maintenance. Vu la grande quantit de concepts modliser et les

    exigences dintgrit et de traabilit, la construction dun EDC requiert une mthode

    automatise7 base sur un modle de donnes fond8, une temporalisation avance, un

    modle de connaissance, un modle dintgration et de mise en correspondance, des

    oprations dexploration (dagrgation) avances [Pedersen et al. 1998]. Le tableau ci-

    dessous (une extension9 du tableau 3 de [Pedersen et al. 1998]) prsente les principales

    diffrences entre un ED conventionnel10 et un ED clinique.

    Tableau 1 Comparaison entre un ED conventionnel et un ED clinique.

    Critres Conventionnel Clinique Modle de donnes Simple Complexe Temporalisation Minimale Avance Connaissances Simple Avance (+ encodage) Oprations avances No Oui Donnes complexes Non Oui Htrognit des types de donnes Faible lev Htrognit des terminologies Faible lev Rgles daffaires avances Peu Beaucoup (protocole) Forage de donnes Peu Beaucoup (recherche clinique) Nombre de sources Entre 1 et 10 >= 200 Nombre de relations Entre 50 et 100 >= 16 000 Frquence des changements structurels (par mois) 1 4

    !"#"$%'(%')*+,-.*/,01!,

    La nature des donnes cliniques impose de nouvelles exigences de construction [Khnaisser et

    al. 2015]. La caractristique distinctive des EDC et lhtrognit de modlisation des

    sources entrainent le plus souvent dautres proprits qui, sans tre ncessairement

    distinctives de faon unique par rapport aux ED, contribuent dfinir les EDC comme un

    champ dtudes en soit avec plusieurs caractristiques :

    7 La modlisation, lintgration et lalimentation du schma doivent tre automatises. 8 Le schma de lED doit tre bas sur un modle thorique formellement prouv et indpendant des requtes que les

    utilisateurs dsirent effectuer vu la grande frquence dvolution des types de demandes. 9 Les critres suivants sont ajouts : connaissances, oprations avances, htrognit des types de donnes, htrognit

    des terminilogies, nombre de sources, nombre de relations, frquence des changements structurels (par mois). 10 Un ED utilis dans dautres domaines que celui de la sant.

  • 12

    la grande complexit des structures de donnes et des contraintes;

    la grande envergure (nombre de relations, dattributs, de tuples);

    la grande importance au modle de connaissance qui dtermine la smantique et

    lencodage des donnes selon le contexte de provenance de la donne;

    la ncessit dun modle temporel fond sur une thorie gnrale, donc indpendante

    du domaine dapplication (pour la suite, nous abrgerons simplement par modle

    temporel fond , voire modle fond lorsque le contexte le permettra);

    la ncessit doprations dexploration (dagrgation) avances pour faciliter

    lexpressivit des requtes;

    la rpartition et la distribution des sources;

    la redondance et lincohrence des donnes induites par limpossibilit de modifier

    certaines sources.

    2&%34-+,-+,$4/(%#*$%'4/,-.*/,01!,

    En plus, la construction dun ED requiert des modles et des techniques diffrentes de celles

    utilises pour les bases de donnes (autre que lentit-association) [Golfarelli et al. 1998].

    Larticle [Khnaisser et al. 2015] recense et compare 40 mthodes de construction avec des

    critres qualitatifs (approches de conception, degr dautomatisation des processus, type de

    modle, dfinition dalgorithmes, etc.). Aucun consensus au sujet de la mthode idale nest

    dfini. Chaque projet dveloppe son ED avec une mthode personnalise o la description est

    souvent absente ou ambige [Cimino et al. 2014]. Dune part, la majorit des mthodes ne

    sont pas testes avec des cas dtude denvergure11 ce qui rend difficile prouver leur

    efficience et leur applicabilit au domaine de la sant. Dautre part, diffrents modles sont

    utiliss incluant des modles ad hoc12 pour reprsenter soit les donnes, les connaissances ou

    les exigences. Aucune mthode ne prsente un modle pour reprsenter uniformment les

    donnes, les connaissances et les exigences.

    11 Un cas dtude est considr denvergure par notre mthode danalyse sil intgre au moins 10 sources, 1 000 relations,

    10 000 attributs et 100 millions de tuples. 12 Souvent, ils ne sont pas dfinis de faon tre rutilisables dans dautres projets.

  • 13

    Pour conclure, plusieurs problmatiques concernant la construction dun EDC demeurent non

    rsolues, entre autres : absence de consensus sur une mthode et une technique de

    modlisation standardise facilitant linteroprabilit, absence de modle de contrle daccs

    aux donnes, absence de consensus sur la gestion de lvolution et les critres de mesure de la

    qualit de la modlisation [Rizzi et al. 2006].

    1.2.2 Modlisation dentrept de donnes temporel

    La modlisation du temps est un sujet dintrt pour plusieurs domaines de recherche. Une

    des caractristiques dun ED est de garder la trace de lvolution des donnes dans le temps.

    Un grand nombre de systmes requiert la sauvegarde, la manipulation et la collecte de

    donnes temporalises. Un ED (non temporel) contient les donnes courantes et celles du

    pass (qui ne reprsentent plus ltat courant) sans aucune trace explicite de leurs volutions.

    Par contre, un ED temporel sauvegarde les donnes courantes et les donnes du pass en

    garantissant leur cohrence et la reconstitution (sans perte de donnes) des diffrentes tapes

    de leurs volutions. Chaque donne temporalise est associe un ou plusieurs attributs

    temporels et chaque contrainte est dfinie de telle sorte de garantir lintgrit temporelle des

    donnes (lintgrit des donnes en fonction du temps associes). LEDC doit tre modlis

    sur la base dun modle temporel fond tout en assurant une reprsentation et une smantique

    temporelle unifie ainsi quune structuration solide et des oprateurs temporels facilitant

    lexpressivit des requtes temporelles. Cest ce que nous dcrivons comme tant la

    temporalisation.

    5+(4'/(,-+,6",%+784#"6'("%'4/,-"/(,6+,-47"'/+,$6'/')*+,

    Le temps est une proprit importante des donnes cliniques. Larticle [Khnaisser et al. 2015]

    dcrit certaines caractristiques des donnes cliniques desquelles plusieurs besoins de

    modlisation du temps en dcoulent :

    BE.1 Garantir lintgrit et la qualit des donnes en fonction du temps.

    BE.2 Garantir luniformit syntaxique et smantique des concepts temporels.

  • 14

    BE.3 Garder la trace de lvolution des donnes dans le temps.

    BE.4 Simplifier laccs et la manipulation des donnes temporalises et lexpressivit des

    requtes temporelles pour des tudes cliniques.

    BE.5 Faciliter la modlisation et la modification dun schma EDT partir des sources dans

    une perspective dautomatisation guide par le concepteur.

    5#+9,&%"%,-+,6."#%,

    La temporalisation dun schma et la manipulation (interrogation et modification) des

    donnes temporalises sont complexes [Malinowski 2008]. Les problmes de contradiction,

    de redondance, de circonlocution et de non-compacit prsents au Chapitre 4 en font partie.

    Plusieurs modles et langages temporels ont t dfinis depuis 1970 dans le but de simplifier

    la gestion du temps dans une base de donnes. Diffrentes raisons peuvent justifier la

    prsence de nombreux modles, comme : lincompltude, le non-consensus, le manque de

    gnralit, labsence de mise en uvre et doutils de temporalisation, etc. Ltude

    [Ozsoyoglu and Snodgrass 1995] (la plus rcente) a recens 30 modles relationnels

    temporels et 20 langages relationnels temporels.

    Dune part, linclusion de quelques fonctionnalits temporelles dans les SGBD na

    commenc qu la fin des annes 2010. Dautre part, le langage SQL na intgr des

    fonctionnalits temporelles quen 2011. Jusquen 2012, et encore aujourdhui, trs peu de

    produits offrent un certain support temporel de base (Oracle 11 g, Teradata 13, Postgres 9.4 et

    DB2 10) [Kulkarni and Michels 2012]. Diffrentes causes peuvent justifier labsence de mise

    en uvre : ambigit, htrognit des propositions, manque de gnricit des propositions,

    absence de consensus dans la communaut, cout prohibitif du stockage induit, performances

    dcevantes, etc.

    Dautre part, rares sont les modles qui sont mis en uvre dans un cas rel et sont mis jour

    par rapport ltat dart. La question de la temporalisation demeure ouverte, aucun standard

    nest tabli. Le prsent travail sintresse deux modles temporels :

  • 15

    Le modle BCDM (Bitemporal Conceptual Data Model), bas sur SQL, a t

    propos par [Jensen et al. 1993] et dvelopp dans [Snodgrass 2000].

    Le modle TRM (Temporal Relational Model), un modle fond sur la thorie

    relationnelle, est propos par [Lorentzos and Johnson 1988] et dvelopp dans [Date

    et al. 2014b].

    Le choix des deux modles est bas sur la qualit et la compltude de leur description, la

    persistance de lintrt qui leur est port dans la littrature scientifique ainsi que la

    compatibilit avec le modle relationnel et les SGBD existants.

    1.2.3 Raisonnement temporel

    Les recherches sur la reprsentation et le raisonnement temporel en mdecine ont commenc

    vers la fin des annes 1980 [Adlassnig et al. 2006]. Les systmes informationnels de sant

    tendent de plus en plus vers des systmes temporels pour amliorer la prise de dcisions

    cliniques [Combi and Shahar 1997]. La prise de dcisions peut tre amliore grce la

    dtection des corrlations entre diffrentes interventions et diffrents vnements cliniques et

    la drivation dinformations adquates au bon moment. Lamlioration ncessite des donnes

    temporalises et un modle temporel garantissant lintgrit temporelle entre donnes et la

    durabilit de lvolution des donnes gnres par ces vnements.

    Lassociation du temps aux vnements clinique facilite lanalyse temporelle et

    linterprtation des donnes dans la majorit des dpartements (cardiologie, oncologie,

    psychiatrie, soins intensifs, mdecine interne, etc.) et dans diffrentes tches mdicales

    (diagnostics, administration thrapeutique, protocoles cliniques, administratifs, etc.) [Combi

    et al. 2010]. Des techniques danalyse temporelles sont requises pour mieux tirer parti des

    donnes temporalises et sont mme essentielles pour pouvoir dcrire les activits lies aux

    pisodes de soins des patients qui stendent sur plusieurs mois voire des annes. Les deux

    approches les plus connues en mdecine pour effectuer un raisonnement temporel sur des

    donnes sont labstraction temporelle [Stacey and McGregor 2007] et les rseaux baysiens

    temporels [Tawfik and Neufeld 1994]. Labstraction temporelle exemplifie par KBTA

    [Shahar and Musen 1996] et PROTEMPA [Post and Harrison 2007] permet la dtection des

  • 16

    patrons temporels (squence, occurrence, tendance, etc.) partir de donnes temporalises.

    Cette mthode facilite la prise de dcision [Post et al. 2013] en associant des tats cliniques

    (stable, dgradation, amlioration, etc.) pour chaque patron temporel dtect [Post et al.

    2013]. Les rseaux baysiens temporels sont utiliss dans plusieurs recherches pour leur

    capacit de raisonnement en tenant compte des incertitudes temporelles des donnes

    [Orphanou et al. 2014].

    Plusieurs autres dfis en dcoulent (voir [Adlassnig et al. 2006] pour plus de dtails) : la

    reprsentation de lincertitude, la reprsentation des protocoles cliniques, le raisonnement

    selon les bonnes pratiques, lautomatisation de la gestion des flux de travail clinique (clinical

    workflow), la prdiction de nouveaux comportements des maladies, lanalyse des phnotypes,

    le suivie de lvolution de ltat du patient, linterrogation des donnes temporelles, etc.

    1.2.4 Intgration des sources de donnes

    Un grand intrt sest dvelopp pour lutilisation secondaire des donnes de sant provenant

    de sources multiples afin de raliser des tudes cliniques lchelle dune population et

    dvelopper la mdecine personnalise [Jensen et al. 2012]. Lintgration de plusieurs bases

    de donnes est une activit cruciale et trs complexe [Chromiak and Stencel 2014]. Dune

    part, la majorit des sources sont construites avec des systmes propritaires ferms et selon

    une mthodologie propre et des modles personnaliss. Dautre part, les donnes peuvent tre

    encodes diffremment (htrognes au niveau smantique) et peuvent avoir diffrentes

    structures (htrognes au niveau structurel) [Ethier et al. 2013]. Une interoprabilit

    syntaxique et smantique est requise pour faciliter le processus dintgration. Une

    interoprabilit syntaxique permet de reprsenter des donnes de sant dune faon structure

    et selon un format standardis. Une interoprabilit smantique permettant de comprendre et

    traiter des donnes selon un modle de connaissance commun et une terminologie associe. Il

    ne suffit pas de faire une unification des donnes des sources dans un mme ED en

    sintressant seulement leur structure. Lintgration doit galement prendre en

    considration la smantique et lassociation de celle-ci avec les donnes.

  • 17

    Le DCI contient un grand nombre de donnes ayant des structures complexes et une

    smantique diffrentes selon le contexte (voir figure.1 de [Jensen et al. 2012]). Les

    principaux utilisateurs sont les prestataires de soins (cliniciens, agents administratifs,

    infirmiers, etc.) o chacun utilise une terminologie propre son dpartement. Les donnes

    sont encodes selon diffrentes normes et classifications (SNOMED CT [IHTSDO 2015],

    DICOM [NEMA 2015], LOINC [Regenstrief 2015] et RxNorm [NLM 2014], etc.) qui

    dterminent le contexte do elles sont gnres (document clinique, image numrique,

    laboratoire, prescription de mdicament, etc.). De plus, des donnes non encodes et sous

    forme de texte libres sont galement frquemment utilises et difficiles interprter.

    Figure 1 Illustration du contenu htrogne dun DCI [Jensen et al. 2012]

    Lintgration est complexe et demeure en grande partie manuelle malgr lavancement des

    technologies cause de :

    la fragmentation des donnes dans divers champs dont le choix nest pas uniforme et

    varie dans le temps,

    labsence de description fiable des sources de donnes (schma conceptuel) et des

    donnes elles-mmes;

  • 18

    la complexit des donnes, reprsentes soit en texte libre, soit par numrisation

    (sous forme dimage) dune source imprime (formulaire, note de travail,

    ordonnance, etc.),

    labsence de description formelle de la smantique des donnes;

    lutilisation de diffrents encodages en fonction dun quelconque modle de

    connaissance13 (donc uniquement interprtables en regard des codes et des

    conventions propres aux consignataires et aux auteurs);

    le cloisonnement des systmes entraine une redondance considrable de

    linformation, redondance de laquelle dcoulent des incohrences;

    la diversit des technologies dacquisition et lchange de donnes utilises et

    labsence de mcanisme standardis de communication entre les systmes [Sahama

    and Croll 2007];

    Un premier pas pour rsoudre cette problmatique est lutilisation des normes (de messagerie

    et de terminologie) et des standards internationaux comme HL7 [Health Level Seven 2015]

    pour faciliter lchange, OpenEHR [OpenEHR 2015] pour dfinir un modle de donnes de

    rfrence, ainsi que des terminologies standardises comme SNOMED CT et LOINC pour

    coder linformation.

    Lors de lintgration de plusieurs sources, une mise en correspondance est requise entre le

    modle de connaissance (provenant des utilisateurs), un modle de donnes (provenant des

    sources) et les terminologies. Plusieurs tudes proposent des solutions pour la mise en

    correspondances entre les modles de connaissance et les terminologies [Rector et al. 2009]

    et [thier et al. 2013], la mise en correspondance entre les terminologies [Noy et al. 2009] et

    les modles de connaissances entrent eux [Martnez Costa et al. 2011]. Une solution plus

    globale est prsente par Bodenreider [Bodenreider 2004] pour lintgration de modle de

    connaissance partir des terminologies en utilisant UMLS [U.S. National Library of

    Medicine 2014]. Rares sont les mthodes qui proposent des processus dintgration largement

    13 Lencodage peut tre dtermin par ltablissement, une composante de ltablissement, le consignataire ou un systme

    tiers.

  • 19

    automatis (6/40) ou partiellement automatis (3/40) [Khnaisser et al. 2015]. Malgr la

    diversit des solutions proposes, lintgration demeure ad hoc. En plus, elle requiert des

    connaissances du domaine pour interprter les donnes et leurs contextes vu la diversit des

    pratiques cliniques [de Mul et al. 2012].

    Lutilisation des ontologies est de plus en plus prconise pour faciliter lintgration. Elle

    permet denrichir la smantique des donnes [Thenmozhi and Vivekanandan 2013] et rduire

    leffort requis pour la mise en correspondance entre les connaissances et les donnes [Mate et

    al. 2015] tant donn quelle exprime dune faon exploitable automatiquement diffrents

    axiomes logiques permettant la description de concepts.

    1.3 Vision

    Plusieurs solutions indpendantes existent pour diffrentes problmatiques, mais aucune

    mthode entirement intgre na t dfinie ce jour [Khnaisser et al. 2015]. Vu

    lhtrognit et le grand nombre de sources de donnes, les mthodes classiques de

    construction dEDCT sont difficiles mettre en place [Tria et al. 2013]. La construction

    dEDCT est effectue typiquement ralise laide de plusieurs outils indpendants, ce qui

    entraine une perte de traabilit et limite considrablement lvolution future de lEDCT. Le

    systme envisag, baptis Vulcain, regroupe plusieurs ateliers partageant une mme

    description des sources et de lentrept. Lunicit de la description permet de mettre en uvre

    une mthode intgre de construction dEDCT. La multiplicit des ateliers permet de

    proposer des outils et des interfaces spcialises et ergonomiques en fonction des diverses

    tches. La mthode intgre permet de dfinir un EDCT partir dun modle de

    connaissances commun; temporaliser le schma de lEDC; de reprsenter les sources de

    donnes; de mettre en correspondance les sources et lEDCT, dalimenter lEDCT ainsi que

    dexploiter et de maintenir lEDCT. Ci-dessous, la Figure 2 prsente une illustration de la

    vision est prsente, suivie dune brve description du rle des principaux composants (leur

    conception et les algorithmes utiliss tant nombreux et pouvant varier).

  • 20

    Figure 2 Vision du systme de construction dun EDCT

    1.3.1 Les caractristiques des agents

    La construction de lEDCT ncessite un groupe multidisciplinaire. Les principaux agents

    sont :

    Analyste dinformation (analyste informatique) (AI) : une personne ayant une

    expertise en informatiques et une connaissance minimales des sources et du modle

    de connaissances. Elle intervient essentiellement durant la construction pour la mise

    en correspondance des schmas de donnes et le modle de connaissance.

    Gestionnaire de donnes (GD) : une personne connaissant le contenu et la structure

    des sources et de lentrept. Elle intervient durant la construction de lEDCT et la

    reprsentation des sources de donnes. En plus, elle intervient durant lexploitation

    pour optimiser lutilisation de lED et contrler les droits daccs.

    AI

    GD

    Sources

    C

    B

    A

    PM

    Modles de connaissances

    MI_1MI_2

    Donnes courantes

    Donnes historiquesLgende

    Processus de construction

    Processus dexploitation

    Modle de donnes

    Modle de connaissances

    Flux de donnes

    Interagir systmePortail dinteraction adapt au profil de lexpert de domaine

    Construire Gnration du schma

    dentrept et des correspondeurs

    connaissances-entrept et donnes-entreptTemporalisation

    Interagir entreptPortail dinteraction adapt au profil du

    gestionnaire de donnes

    Mettre en correspondance

    Gnration de correspondeurs entre les modles de donnes et le modle de connaissances

    Importer modles de donnes

    Importation de modles de donnes Description

    Vrification et validation

    Importer modles de connaissances

    Importation de modles de connaissances

    Unification Vrification et validation

    Alimenter entreptImportation des donnes

    des sources vers lentrept

  • 21

    Personnel mdical (PM) : une personne du domaine de la sant qui utilise le modle

    de connaissances et les diffrents outils disposition pour extraire et analyser les

    donnes de lEDCT.

    1.3.2 Les composants

    La vision repose sur deux phases de traitement bases sur un modle de donnes commun : la

    construction et lexploitation. La construction regroupe les composants et les artfacts requis

    lors de la construction de lEDCT par les analystes mtiers et les analystes informatiques.

    Lexploitation regroupe les composants et les artfacts requis lors de lexploitation de

    lEDCT par le personnel mdical et les gestionnaires de donnes. Le modle commun est la

    reprsentation des structures utilises pour la construction et lexploitation de lEDCT. La

    prsentation qui suit se limite une brve description du rle des principaux composants; leur

    conception et les algorithmes requis tant nombreux et pouvant varier, une spcification

    darchitecture logicielle et plusieurs spcifications de conception seront requises avant de

    mettre oeuvre Vulcain. Le prsent mmoire na pas cet objectif.

    Vulcain se compose des composants suivants :

    Importer modle de donnes : un composant dont le rle est dimporter et dcrire

    les schmas de donnes selon le modle commun. En plus, il doit tre capable de

    dceler les erreurs et les incohrences selon un processus de vrification et de

    validation appropri.

    Importer modle de connaissances : composant dont le rle est dimporter des

    modles de connaissances (exprim par une ontologie) et les dcrire selon le modle

    commun. En plus, il doit tre capable de dceler les erreurs et les incohrences selon

    un processus de vrification et de validation appropri.

    Mettre en correspondance : un composant dont le rle est de mettre en

    correspondance les schmas de donnes et le modle de connaissances. Un schma

    unifi et un correspondeur connaissances-donnes sont gnrs. Le correspondeur

    connaissances-donnes permet dassocier une connaissance une ou plusieurs

  • 22

    donnes de la source facilitant ainsi la construction du schma de lEDCT, le

    traitement des requtes et de lalimentation.

    Construire : composant dont le rle est de construire le schma temporalis de

    lEDC. La construction se base sur le correspondeur connaissances-donnes,

    lalgorithme de temporalisation et le type du SGBD cible pour construire le schma

    de lEDCT. En plus du schma de lEDCT, un correspondeur connaissance-entrept

    qui associe une connaissance une ou plusieurs donnes de lentrept.

    Alimenter : composant dont le rle est dextraire les donnes des sources, de

    jumeler et de transformer ces donnes pour les rendre compatibles avec le schma de

    lEDCT. Lalimentation se base sur les schmas de donnes, le correspondeur

    connaissance-entrept et les donnes des sources pour effectuer le jumelage et les

    transformations adquates.

    Interagir entrept : un composant dont le rle est de fournir une interface

    personne-machine au gestionnaire de donnes pour maintenir et observer les

    performances de lEDC. De plus, le composant a pour rle de dfinir et assurer le

    respect des rgles daccs lentrept en plus de garder la trace de toutes les

    modifications de structures, de donnes et des requtes utilisateurs pour optimiser

    lEDCT.

    Interagir systme : un composant dont le rle est de fournir une interface personne-

    machine selon le profil du personnel mdical et des outils danalyse pour exploiter

    lEDCT.

    1.4 Synthse

    La construction dun EDCT requiert une mthode automatise, un modle de donnes fond

    sur la thorie relationnelle, une temporalisation avance, un modle de connaissance, un

    modle dintgration et de mise en correspondance, des oprations dexploration avances

    [Khnaisser et al. 2015]. LEDC doit tre modlis sur la base dun modle temporel fond

    tout en assurant une reprsentation et une smantique temporelle unifie ainsi quune

  • 23

    structuration solide et des oprateurs temporels facilitant lexpressivit des requtes

    temporelles.

    Une nouvelle mthode de construction doit tre dveloppe en se basant sur un modle

    unifiant les modles suivants :

    Un modle de connaissance (ontologie) permet davoir une smantique uniforme et

    non ambige des donnes. Lutilisation des ontologies est de plus en plus prconise

    pour faciliter lintgration.

    Un modle temporel permet davoir une reprsentation et une smantique temporelle

    unifie. En plus de garantir la traabilit de lvolution des donnes.

    1.4.1 Problme cibl

    Dans un premier temps, lobjectif est de dfinir une mthode semi-automatise de

    construction dun EDCT se limitant la construction dun schma dEDT partir d'un

    schma d'ED. Limportation des sources et du modle de connaissance ainsi que la mise en

    correspondances sont reportes aux phases ultrieures. Cette tude doit rpondre aux

    questions suivantes :

    Quel modle temporel rpond le mieux aux exigences dun EDT en tenant compte des

    fonctionnalits des SGBDR actuels?

    Comment automatiser la construction du schma de lEDT?

    Deux modles temporels, BCDM et TRM sont tudis dans une perspective de

    standardisation et de mise en uvre automatisable au sein dun ED afin datteindre les

    besoins de temporalisation.

    1.4.2 Autres problmatiques

    Plusieurs autres problmatiques se posent concernant les techniques danalyse de donnes

    (forage des donnes), la visualisation des donnes, le contrle daccs, lanonymisation, etc.

  • 24

    La rsolution de ces problmatiques sera grandement facilite avec la rsolution des

    problmatiques nonces prcdemment.

    :/"6;(+,-+(,-4//&+(,

    Le forage de donnes est largement utilis pour diffrent type danalyse (lanalyse

    rtrospective, lanalyse prospective, les prdications, etc.) et vise diffrents buts : cration de

    nouvelles mthodes danalyse de phnotypes [Liao et al. 2015], dcouvrir de nouveaux

    phnotypes [Deans et al. 2015], amliorer les diagnostics ou des traitements [Defossez et al.

    2014].

  • 25

    Chapitre 2

    Temporalisation dun entrept de donnes

    One does not need to make an elaborate argument as to why it is important to model and reason with time, particularly in the context of medical information systems. Putting it

    simply, there is one fundamental truth in life: the world is not static. Situations change. [Combi et al. 2010]

    Plusieurs problmatiques sont relies la construction dun systme informationnel de sant :

    la modlisation de lEDC, la temporalisation, le raisonnement temporel, lintgration des

    sources htrognes, lanalyse des donnes, le contrle daccs, etc. Ce mmoire sattaque

    uniquement la problmatique de temporalisation dun ED.

    Le prsent chapitre dcrit le problme trait dans ce mmoire. Il dbute par une prsentation

    intuitive du problme de temporalisation l'chelle d'une simple relation. La section 2

    prsente ensuite le problme dans sa gnralit. La section 3 dcrit la mthode de

    construction dEDT et les problmatiques de la temporalisation. Pour terminer, la section 4

    prsente une liste des rsultats devant tre obtenus afin rsoudre le problme.

    2.1 Exemple de temporalisation d'une relation

    Les exemples qui suivent sont construits partir de la mise en situation suivante : La

    direction gnrale dun hpital souhaite suivre loccupation des lits des diffrentes units.

    Dans un premier temps, les informations requises sont lidentit du patient (nom, ville de

    rsidence et date de naissance), lunit responsable de son hospitalisation et le numro de lit

    quil occupe.

  • 26

    Trois scnarios sont prsents ci-dessous. Chacun reprsente une catgorie de modlisation.

    La prsentation du scnario commence par la description de deux vnements : ladmission

    (arriv dun patient lhpital) et le cong (le dpart d