diplomarbeitsvortrag ontologien, information extraction und information retrieval – eine synthese...
TRANSCRIPT
![Page 1: Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &](https://reader036.vdocuments.us/reader036/viewer/2022081518/55204d6949795902118bebae/html5/thumbnails/1.jpg)
Diplomarbeitsvortrag
Ontologien, Information Extraction und Information Retrieval – eine Synthese
Marcus Heidmann
in Zusammenarbeit mit
AIFB &
![Page 2: Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &](https://reader036.vdocuments.us/reader036/viewer/2022081518/55204d6949795902118bebae/html5/thumbnails/2.jpg)
November 2001, Marcus Heidmann AIFB &
Inhaltsübersicht
1. Problemstellung – Informationsextraktion
2. Einordnung der Arbeit in die Semantic Value Chain
3. Informationsextraktion
4. SMES Beispielanalyse
5. Prozess der Datenextraktion
6. Architekturüberblick SmesMiner
7. Demonstration des SmesMiner
8. Evaluation von SMES
9. Analyse der Firmennamenerkennung
10. Vergleich der Erkennungsleistung von Firmennamen
11. Zusammenfassung & Ausblick
![Page 3: Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &](https://reader036.vdocuments.us/reader036/viewer/2022081518/55204d6949795902118bebae/html5/thumbnails/3.jpg)
November 2001, Marcus Heidmann AIFB &
Problemstellung - Informationsrecherche
Vision des Semantic Web:
Maschinelle Agenten "verstehen" Informationen und unterstützen den Benutzer bei der Recherche
Tim Berners-Lee
Informationsrecherche
zu vieleDokumente
falscheStichwörter
Dokumente stattAntworten
Eigennamen?Personen, Orte, Unternehmen
Manuelle Extraktionvon Informationen
Informationsverknüpfungverschiedener Quellen
![Page 4: Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &](https://reader036.vdocuments.us/reader036/viewer/2022081518/55204d6949795902118bebae/html5/thumbnails/4.jpg)
November 2001, Marcus Heidmann AIFB &
Semantic Value Chain
Generierung neuen Wissens durch Kombination der Information und Ableitung
der Zusammenhänge
Extraktion von Wissen und Verknüpfung von Inhalten mit den Wissensmodellen
Anwendungen zum Aufsuchen und Finden von Wissen
Werkzeugunterstützte Modellierung von Wissensbereichen und Domänen
Knowledge Generation
Knowledge Collecting
Knowledge Retrieval
Knowledge Modelling
Faktengenerierung durchlinguistische Analyseund Konzeptmapping
SMES &Ontobroker
Browserbasierte interaktive Abfragekomponente
SmesMiner
![Page 5: Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &](https://reader036.vdocuments.us/reader036/viewer/2022081518/55204d6949795902118bebae/html5/thumbnails/5.jpg)
November 2001, Marcus Heidmann AIFB &
Informationsextraktion
Tokenscanner Wortsegmentierung
SyntaktischeAnalyse
Parsingan die Börse (Präpositional-Phrase)
die Börse (Nominal-Phrase)
Verbgruppen
LexikalischeAnalyse
Part-of-Speech
Flexionsform
Kompositerkennung
Eigennamenerkennung
Nomen (z.B. Aufgabe), Verb, Pronomen etc.
Aufgaben (Genus:weiblich, Numerus:Plural)
z.B. An- und Verkauf
Firmen, Personen, Orte
Token Klasse: Aufgabe (first_capital_word)
DomänenAnalyse
Templatevereinigung
Mustererkennung Der Umsatz beträgt 1,5 Mio €
Anker Zahl & WährungVerb
![Page 6: Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &](https://reader036.vdocuments.us/reader036/viewer/2022081518/55204d6949795902118bebae/html5/thumbnails/6.jpg)
November 2001, Marcus Heidmann AIFB &
SMES Beispielanalyse
SMES
SMES-Beispielausgaben von Marcus Heidmann.
<?xml version="1.0" standalone="yes"?><SPPC_XML> <PARAGRAPH> <S> <NP TYPE="1"> <W TC="31" POS="1" COMP="smes - beispiel ausgaben“ STEM="ausgabe" INFL="[6 7 8 9]">SMES-Beispielausgaben</W></NP> <W TC="21" POS="23" STEM="von" INFL="[24]">von</W> <NE ID="1" TYPE="5" SUBTYPE="5"> <W TC="22">Marcus</W> <W TC="22">Heidmann</W></NE> </S> </PARAGRAPH></SPPC_XML>
Person ohne Titel
Nomen
![Page 7: Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &](https://reader036.vdocuments.us/reader036/viewer/2022081518/55204d6949795902118bebae/html5/thumbnails/7.jpg)
November 2001, Marcus Heidmann AIFB &
Prozess der Datenextraktion
DomänenLexikon
Fakten
Ontobroker
Ontologie
www.boersenmagazin.de
HTMLentfernen
ASCII-Dateien
ASCII-Dateien
AnalyseXML-Dateien
AnalyseXML-Dateien
SMES
Konzept und Nomen Extraktion (XQL)Klassifizierung mit Domain Lexikon
![Page 8: Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &](https://reader036.vdocuments.us/reader036/viewer/2022081518/55204d6949795902118bebae/html5/thumbnails/8.jpg)
November 2001, Marcus Heidmann AIFB &
Architekturübersicht SmesMiner
FaktenBasis
Ontobroker
OntologieSynonym
Wörterbuch
InternetInternet
DokumenteDokumente
Index Server
Servlet
SmesMiner
![Page 9: Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &](https://reader036.vdocuments.us/reader036/viewer/2022081518/55204d6949795902118bebae/html5/thumbnails/9.jpg)
November 2001, Marcus Heidmann AIFB &
SmesMiner
DEMO
![Page 10: Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &](https://reader036.vdocuments.us/reader036/viewer/2022081518/55204d6949795902118bebae/html5/thumbnails/10.jpg)
November 2001, Marcus Heidmann AIFB &
Evaluation von SMES
Analysebereich
Anzahl Ausprägungen
Precision Recallkorrekt falsch fehlt
Firmennamen 745 53 196 93% 80%
Personennamen 180 16 22 92% 90%
Ortsbezeichnungen 497 10 81 98% 86%
Gesamt 1422 79 299 95% 83%
Nomen 1456 78 217 95% 88%
Analyse von 100 Testdokumenten durch manuellen Abgleich► "wahre" Precision wahrscheinlich etwas niedriger
Sehr gute Leistung bei der Eigennamenerkennung und der Identifikation von Nomen
Probleme mit englischen Begriffen ► Lexikon aktualisieren
![Page 11: Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &](https://reader036.vdocuments.us/reader036/viewer/2022081518/55204d6949795902118bebae/html5/thumbnails/11.jpg)
November 2001, Marcus Heidmann AIFB &
Analyse der Firmennamenerkennung
Analysebereich
Anzahl Ausprägungen
Precision Recallkorrekt falsch fehlt
DAX 13 2 15 86% 50%
Dow Jones 8 1 21 88% 30%
Nemax 50 8 15 27 35% 46%
Nemax 50 (Variation) 80 28 2 74% 98%
Euro-Stoxx-50 15 8 27 65% 46%
Falsche Erkennung von zusammengesetzten Firmennamen, wenn ein Teil des Namens ein deutsches Wort ist (z.B. Münchener Rück, MAN)
geringe Abdeckung des internen Firmennamenlexikons
hohe Erkennungsleistung bei Gesellschaftsbezeichnungen durch Referenzauflösung
![Page 12: Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &](https://reader036.vdocuments.us/reader036/viewer/2022081518/55204d6949795902118bebae/html5/thumbnails/12.jpg)
November 2001, Marcus Heidmann AIFB &
Vergleich Firmennamen- Erkennungsleistung
SMES
FACILE
IsoQuest-1
Kent Ridge Digital Labs
Language Tech. Group
MITRE Corporation
Univ. of Durham
Univ. of Manitoba-1
Univ. of Manitoba-2
Annotator-1Annotator-2
BBN
New York Univ.
Univ. of Sheffield
IsoQuest-2
60%
70%
80%
90%
100%
60% 70% 80% 90% 100%Recall
Pre
cisi
on
Systeme von MUC-7 (Englisch)
![Page 13: Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &](https://reader036.vdocuments.us/reader036/viewer/2022081518/55204d6949795902118bebae/html5/thumbnails/13.jpg)
November 2001, Marcus Heidmann AIFB &
Zusammenfassung & Ausblick
1. Konzepterkennung auf Dokumentenebene
Unternehmen1
Unternehmen2
Kennzahl
1,25 Mio €
Person
2. Kontexterkennung
3. Zuordnung von Ausprägungen
4. Relationen zur Bildung von Ableitungen
5. Multilinguale Analyse
![Page 14: Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &](https://reader036.vdocuments.us/reader036/viewer/2022081518/55204d6949795902118bebae/html5/thumbnails/14.jpg)
VIELEN DANK FÜR IHRE AUFMERKSAMKEIT
Marcus Heidmann
![Page 15: Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &](https://reader036.vdocuments.us/reader036/viewer/2022081518/55204d6949795902118bebae/html5/thumbnails/15.jpg)
Backup Folien
![Page 16: Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &](https://reader036.vdocuments.us/reader036/viewer/2022081518/55204d6949795902118bebae/html5/thumbnails/16.jpg)
November 2001, Marcus Heidmann AIFB &
FACILE
Kent Ridge Digital Labs
MITRE Corporation
OKI
Univ. of Manitoba-2
SMES
Annotator-1
Annotator-2
BBN
IsoQuest-1Language Tech. Group
New York Univ.
Univ. of Manitoba-1
Univ. of Sheff ield
IsoQuest-2
80%
85%
90%
95%
100%
80% 85% 90% 95% 100%Recall
Pre
cisi
on
Evaluation der Personennamen
Personennamen
![Page 17: Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &](https://reader036.vdocuments.us/reader036/viewer/2022081518/55204d6949795902118bebae/html5/thumbnails/17.jpg)
November 2001, Marcus Heidmann AIFB &
FACILE
OKI
Univ. of Manitoba-2
SMES
Annotator-1
Annotator-2
BBN
IsoQuest-1
Kent Ridge Digital Labs
Language Tech. Group
MITRE Corporation
New York Univ.
Univ. of Manitoba-1
Univ. of Sheff ield
IsoQuest-2
80%
85%
90%
95%
100%
75% 80% 85% 90% 95% 100%Recall
Pre
cisi
on
Evaluation der Ortsbezeichnungen
Ortsbezeichnungen
![Page 18: Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &](https://reader036.vdocuments.us/reader036/viewer/2022081518/55204d6949795902118bebae/html5/thumbnails/18.jpg)
November 2001, Marcus Heidmann AIFB &
Eigennamenerkennung
Weighted Finite State Automaton
![Page 19: Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &](https://reader036.vdocuments.us/reader036/viewer/2022081518/55204d6949795902118bebae/html5/thumbnails/19.jpg)
November 2001, Marcus Heidmann AIFB &
SmesMiner – Anfrageerstellung
![Page 20: Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &](https://reader036.vdocuments.us/reader036/viewer/2022081518/55204d6949795902118bebae/html5/thumbnails/20.jpg)
November 2001, Marcus Heidmann AIFB &
SmesMiner - Dokumentenansicht
![Page 21: Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &](https://reader036.vdocuments.us/reader036/viewer/2022081518/55204d6949795902118bebae/html5/thumbnails/21.jpg)
November 2001, Marcus Heidmann AIFB &
SmesMiner – Ontobroker Ansicht
![Page 22: Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &](https://reader036.vdocuments.us/reader036/viewer/2022081518/55204d6949795902118bebae/html5/thumbnails/22.jpg)
November 2001, Marcus Heidmann AIFB &
SmesMiner – Einschränkung der Ergebnisse
![Page 23: Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &](https://reader036.vdocuments.us/reader036/viewer/2022081518/55204d6949795902118bebae/html5/thumbnails/23.jpg)
November 2001, Marcus Heidmann AIFB &
SmesMiner – Index Server Ansicht