controrelatore chiar.mo prof. flavio bonfatti universitÀ degli studi di modena e reggio emilia...

33
Controrelatore Chiar.mo Prof. Flavio Bonfatti UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Corso di Laurea in Ingegneria Informatica Tesi di laurea di Guidetti Rossano Relatore Chiar.mo Prof. Sonia Bergamaschi SI-Designer: un tool per l’integrazione di sorgenti distribuite ed eterogenee

Upload: dante-mazzola

Post on 01-May-2015

241 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Controrelatore Chiar.mo Prof. Flavio Bonfatti UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Corso di Laurea in Ingegneria Informatica Tesi di laurea

Controrelatore

Chiar.mo Prof. Flavio Bonfatti

UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIACorso di Laurea in Ingegneria Informatica

Tesi di laurea diGuidetti Rossano

Relatore

Chiar.mo Prof. Sonia Bergamaschi

SI-Designer: un tool per l’integrazione di sorgenti distribuite ed eterogenee

Page 2: Controrelatore Chiar.mo Prof. Flavio Bonfatti UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Corso di Laurea in Ingegneria Informatica Tesi di laurea

MOMISMediator envirOnment for Multiple Information Sources

• Sistema di integrazione di sorgenti eterogenee e distribuite.

1) costruzione di una vista globlale sulle sorgenti: lo schema globale

2) l’utente formula le richieste di informazioni sullo schema globale ricevendo una risposta unificata

Un modello di dati comune, ODLI3 (derivato dall’ODL, ODMG)

• Integrazione in due fasi:

Page 3: Controrelatore Chiar.mo Prof. Flavio Bonfatti UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Corso di Laurea in Ingegneria Informatica Tesi di laurea

Data level

WrapperWrapper

RelationalSource

RelationalSource

WrapperWrapper

XMLSource

XMLSource

WrapperWrapper

ObjectSource

ObjectSource

WrapperWrapper

genericSource

genericSource

legenda

CORBA Object

User

GUI

Software tools

CORBA interactionUser interaction

WordNetWordNet

Service level

ODB-ToolsODB-ToolsGlobal Schema

METADATA REPOSITORYGlobal Schema

METADATA REPOSITORY

Global Schema Builder

QueryManagerQueryManager

• SLIM WordNet interaction• SIM ODB-Tools validation • ARTEMIS Clustering• TUNIM Map. table tuning

• SLIM WordNet interaction• SIM ODB-Tools validation • ARTEMIS Clustering• TUNIM Map. table tuning

SI-DesignerSI-Designer

MOMIS mediator

creates

UserUser

Application

IntegrationDesigner

IntegrationDesigner

USER level

Architettura di MOMIS

Page 4: Controrelatore Chiar.mo Prof. Flavio Bonfatti UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Corso di Laurea in Ingegneria Informatica Tesi di laurea

La costruzione dello schema globale

SchemiSorgentiODLI

3

Generazione di unThesaurus Comune

Page 5: Controrelatore Chiar.mo Prof. Flavio Bonfatti UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Corso di Laurea in Ingegneria Informatica Tesi di laurea

Thesaurus Comune

Insieme di relazionali intensionali ed estensionali tra nomi di attributi e classi degli schemi sorgenti

Le relazioni aggiunte al Thesaurus hanno origini diverse:

conoscenza semantica intra-schema ed inter-schema

(1) derivate dagli schemi (ODB-Tools)

(2) derivate dal lessico (WordNet)

(3) fornite dal progettista

(4) inferite (ODB-Tools)

Page 6: Controrelatore Chiar.mo Prof. Flavio Bonfatti UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Corso di Laurea in Ingegneria Informatica Tesi di laurea

Relazioni intensionali/terminologiche: esprimono la conoscenza deducibile dalla struttura delle classi e dal significato dei termini (nomi di classi e di attributi)

Relazioni estensionali: esprimono la conoscenza deducibile dalle istanze delle classi

<t1 SYN t2> Sinonimia (stesso concetto)

<t1 BT t2> Specializzazione (Broader Terms - BT, Narrower Terms - NT)

<C1 SYNext C2> (le istanze di C1 e C2 sono le stesse)

<C1 BText C2> (l’istanza di C1 contiene quella di C2)

<t1 RT t2> Associazione (Related Terms - RT)

• Tipi di relazioni:

Page 7: Controrelatore Chiar.mo Prof. Flavio Bonfatti UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Corso di Laurea in Ingegneria Informatica Tesi di laurea

• Validazione delle relazioni:

– relazioni intensionali tra attributi: basata sulla compatibilità dei domini

• Inferenza di nuove relazioni intensionali ed estensionali usando le tecniche DL (i.e. ODB-Tools)

– relazioni estensionali tra classi: basata sulla compatibilità della loro struttura

Page 8: Controrelatore Chiar.mo Prof. Flavio Bonfatti UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Corso di Laurea in Ingegneria Informatica Tesi di laurea

La costruzione dello schema globale

Generazione di unThesaurus Comune

Generazione dei Cluster

SchemiSorgentiODLI

3

Page 9: Controrelatore Chiar.mo Prof. Flavio Bonfatti UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Corso di Laurea in Ingegneria Informatica Tesi di laurea

Generazione dei cluster

1) Calcolo di Coefficienti di affinità per ogni coppia di classi ODLI

3

Room

Section Course University_Student

School_Member

Student

ProfessorCS_Person

Research_Staff

0.375

0.39

0.39

0.660.54

0.6

0.65

0.68

0.68

Division Department

0.6

Cl

Cl

Cl

Cl1

2

3

4

LocationCl5

0.25

2) Algoritmo di clustering: creazione dei gruppi di classi (cluster) che presentano coefficienti di affinità superiori ad una certa soglia

Soglia=0.5

Page 10: Controrelatore Chiar.mo Prof. Flavio Bonfatti UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Corso di Laurea in Ingegneria Informatica Tesi di laurea

La costruzione dello schema globale

Generazione di unThesaurus Comune

Generazione di Cluster

SchemiSorgentiODLI

3

Creazione classi globali e Mapping

Page 11: Controrelatore Chiar.mo Prof. Flavio Bonfatti UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Corso di Laurea in Ingegneria Informatica Tesi di laurea

Creazione delle classi globali e Mapping

– nome

– insieme di attributi globali costruito sulla base di una unione “ragionata” degli attributi che caratterizzano le classi del cluster C:

Per ogni cluster C viene generata una glasse globale G caratterizzata da:

1) unione di tutti gli attributi locali

2) unificazione (o fusione) degli attributi simili:A SYN B A oppure B come attributo globaleA NT B B come attributo globale

Page 12: Controrelatore Chiar.mo Prof. Flavio Bonfatti UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Corso di Laurea in Ingegneria Informatica Tesi di laurea

– mapping-table: rappresentazione tabellare delle mapping rules, regole che esprimono il legame tra attributi globali e locali (corrispondenze and / union, valori default / null)

name

first_name ANDlast_name

‘Student’first_name ANDlast_name

UNI.School_Member

University_Person

UNI.Research_Staff

CS.CS_Person name Null

‘Professor’

Null

Null

dept_code

rank works

CS.Professor name rank belongs_to

CS.Student name Null Null

Null

email

email

Null

Null

case rank of‘course’: home_email‘phd’:phd_email

TP.University_Student name ‘Student’ Null Null

Page 13: Controrelatore Chiar.mo Prof. Flavio Bonfatti UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Corso di Laurea in Ingegneria Informatica Tesi di laurea

La costruzione dello schema globale

Generazione di unThesaurus Comune

Generazione di Cluster

SchemiSorgentiODLI

3

Creazione classi globali e Mapping

Schema Globale

Mediatore

Schema Globale

Mediatore

Page 14: Controrelatore Chiar.mo Prof. Flavio Bonfatti UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Corso di Laurea in Ingegneria Informatica Tesi di laurea

SI-Designer

Page 15: Controrelatore Chiar.mo Prof. Flavio Bonfatti UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Corso di Laurea in Ingegneria Informatica Tesi di laurea

Architettura di SI-Designer

SI_Designer GlobalSchemaProxy

SIMSAM SLIM

ARTEM TUNIM

GlobalSchema(CORBA)

Integration Designer

Page 16: Controrelatore Chiar.mo Prof. Flavio Bonfatti UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Corso di Laurea in Ingegneria Informatica Tesi di laurea

Modularità di SI-Designer

• I moduli che realizzano le fasi dell’integrazione sono indipendenti gli uni dagli altri.

SIDPhase

SAM SLIM TUNIM...

• Per aggiungere una nuova fase è sufficiente creare una classe Java figlia di SIDPhase.

• Essi sono stati implementati in classi Java figlie di una medesima classe Java astratta SIDPhase, che implementa i metodi di base per l’interazione con il modulo principale.

Page 17: Controrelatore Chiar.mo Prof. Flavio Bonfatti UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Corso di Laurea in Ingegneria Informatica Tesi di laurea

Architettura di SI-Designer

SI_Designer GlobalSchemaProxy

SIMSAM SLIM

ARTEM TUNIM

GlobalSchema(CORBA)

SAM

TUNIM

•SAM: Sources Acquisiton Module•SIM: Sources Integrator Module•SLIM: Souces Lessical Integrator Module•ARTEM: clustering•TUNIM: TUNIng of mapping-tables Module

Page 18: Controrelatore Chiar.mo Prof. Flavio Bonfatti UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Corso di Laurea in Ingegneria Informatica Tesi di laurea

SAMSources Acquisition Module

Acquisizione degli schemi ODLI3 delle sorgenti

Page 19: Controrelatore Chiar.mo Prof. Flavio Bonfatti UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Corso di Laurea in Ingegneria Informatica Tesi di laurea

Acquisizione di uno schema

SAMIntegration Designer-wrapper name-host name-port#

CORBAengine

CORBAengine

Wrapper(CORBA)

Parser ODLI3

GlobalSchemaProxy

Struttura dati ODLI

3

Schemi ODLI

3

Page 20: Controrelatore Chiar.mo Prof. Flavio Bonfatti UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Corso di Laurea in Ingegneria Informatica Tesi di laurea

TUNIMTUNIng of mapping-table Module

Aiuta il progettista nella creazione delle classi globali e delle relative mapping-table.

Page 21: Controrelatore Chiar.mo Prof. Flavio Bonfatti UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Corso di Laurea in Ingegneria Informatica Tesi di laurea

Caratteristiche delle classi globali

• La creazione delle classi globali è una operazione delicata perché è proprio su di esse che l’utente formulerà le interrrogazioni.

• Ogni classe globale deve:– avere un insieme di attributi che rappresenta tutte le

informazioni del cluster da cui è stata costruita– permettere la formulazione di interrogazioni semplici ed

espressive

– tutti gli attributi locali devono essere mappati sugli attributi globali

– non ci devono essere, per quanto possibile, attributi globali che rappresentano informazioni concettualmente simili

Page 22: Controrelatore Chiar.mo Prof. Flavio Bonfatti UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Corso di Laurea in Ingegneria Informatica Tesi di laurea

Funzionalità di TUNIM

• Creazione di una mapping-table iniziale, ottenuta dall’unione si tutti gli attributi delle classi appartenenti al cluster in esame

• Individuazione degli attributi globali simili, vale a dire attributi che rappresentano informazioni concettualmente simili

• Fusione degli attributi simili (semi-automatica)

Page 23: Controrelatore Chiar.mo Prof. Flavio Bonfatti UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Corso di Laurea in Ingegneria Informatica Tesi di laurea

Creazione automatica della mapping-table iniziale

Per ogni attributo locale viene creato un nuovo attributo globale aggiungendo una colonna alla mapping-table. L’attributo locale viene mappato sull’attributo globale aggiunto.

UNI.School_Member

University_Person name

UNI.Research_Staff

CS.CS_Person Null

Null

name

Null

Null

faculty

Null

Null

year

Null

first_name

Null

Null

last_name

Null

faculty year first_name last_name

Page 24: Controrelatore Chiar.mo Prof. Flavio Bonfatti UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Corso di Laurea in Ingegneria Informatica Tesi di laurea

Individuazione degli attributi globali simili

• Il modulo costruisce dei grafi

– i nodi sono gli attributi

– gli archi sono relazioni del Thesaurus Comune

in cui:

Page 25: Controrelatore Chiar.mo Prof. Flavio Bonfatti UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Corso di Laurea in Ingegneria Informatica Tesi di laurea

• Tra tutte le possibili fusioni individuate, il tool esegue per prima le fusioni eseguibili automaticamente.

– attributi legati solamente da relazioni validate di sinonimia (SYN) e non partecipanti a nessun altro tipo di relazione

– due attributi legati da una relazione validata di specializzazione

name

last_name

NT

last_name surnameSYN

Page 26: Controrelatore Chiar.mo Prof. Flavio Bonfatti UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Corso di Laurea in Ingegneria Informatica Tesi di laurea

• Il tool propone al progettista di risolvere le fusione individuate ma che non possono essere risolte automaticamente.– situazioni ambigue di attributi legati da relazioni validate

name

last_namefirst_name surname

NTNT

SYN

name

last_namefirst_name

NTNT

Page 27: Controrelatore Chiar.mo Prof. Flavio Bonfatti UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Corso di Laurea in Ingegneria Informatica Tesi di laurea

– attributi legati da relazioni non validate

dept_code(string)

belongs_to(object)

NT

Page 28: Controrelatore Chiar.mo Prof. Flavio Bonfatti UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Corso di Laurea in Ingegneria Informatica Tesi di laurea

namefirst_name ANDlast_name

‘Student’first_name ANDlast_name

UNI.School_Member

University_Person

UNI.Research_Staff

CS.CS_Person name Null

‘Professor’

Null

Null

dept_code

rank works

CS.Professor name rank belongs_to

CS.Student name Null Null

Null

email

email

Null

Null

case rank of‘course’: home_email‘phd’:phd_email

TP.University_Student name ‘Student’ Null Null

mapping-table finale (dopo le fusioni)

mapping-table iniziale (unione degli attributi)

UNI.School_Member

University_Person name

UNI.Research_Staff

CS.CS_Person Null

Null

name

Null

Null

faculty

Null

Null

year

Null

first_name

Null

Null

last_name

Null

faculty year first_name last_name

Page 29: Controrelatore Chiar.mo Prof. Flavio Bonfatti UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Corso di Laurea in Ingegneria Informatica Tesi di laurea

L’interfaccia grafica di SAM

Page 30: Controrelatore Chiar.mo Prof. Flavio Bonfatti UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Corso di Laurea in Ingegneria Informatica Tesi di laurea

L’interfaccia grafica di TUNIM

Page 31: Controrelatore Chiar.mo Prof. Flavio Bonfatti UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Corso di Laurea in Ingegneria Informatica Tesi di laurea

Conclusioni• Il sistema MOMIS è un sistema di integrazione delle

informazioni che introduce:

– approccio semantico

– intelligenza artificiale

• SI-Designer offre un reale supporto al progettista dello schema globale:

– automazione– interfaccia semplice

Page 32: Controrelatore Chiar.mo Prof. Flavio Bonfatti UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Corso di Laurea in Ingegneria Informatica Tesi di laurea

• Sviluppi futuri:

– integrazione delle risposte

– maggior automazione

– sorgenti multimediali

Piattaforma di sviluppo:• Sun Ultra10 • Sistema operativo Solaris 2.7• Java 1.2.2

Righe di codice prodotte: 4900

Page 33: Controrelatore Chiar.mo Prof. Flavio Bonfatti UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Corso di Laurea in Ingegneria Informatica Tesi di laurea

• Il lavoro svolto nella presente tesi ha ottenuto un riconoscimento nazionale ed internazionale.

I risultati della tesi sono contenuti in un articolo presentato all'Ottavo Convegno Nazionale su Sistemi Evoluti per Basi di Dati - {SEBD2000}, L'Aquila, 26-28 giugno 2000, autori D. Beneventano, S. Bergamaschi, A. Corni, R. Guidetti e G. Malvezzi dal titolo ``SI-Designer: un tool di ausilio all'integrazione intelligente di sorgenti di informazione''. Il componente realizzato durante la tesi è parte importante del sistema MOMIS che verrà presentato alla prossima conferenza internazionale Very Large DataBase {VLDB2000}, Cairo (Egitto), 10-14 settembre 2000, autori D. Beneventano, S. Bergamaschi, S. Castano, A. Corni, R. Guidetti, G. Malvezzi, M. Melchiori e M. Vincini dal titolo “Information Integration: the MOMIS Project Demonstration''.