seminar semantic media mining - kickoff
DESCRIPTION
Handout für die Einführungsveranstaltung zum Seminar "Semantic Media Mining", 17.10.2012, Hasso Plattner Institut, Universität Potsdam, Dr. Harald Sack, Wintersemester 2012/13TRANSCRIPT
SEMANTIC MEDIA MINING
SeminarDr. Harald Sack / Jörg Waitelonis
Christian Hentschel / Magnus Knuth / Nadine SteinmetzHasso-Plattner-Institut für Softwaresystemtechnik
Universität PotsdamWintersemester 2012/13
Die nichtkommerzielle Vervielfältigung, Verbreitung und Bearbeitung dieser Folien ist zulässig (Lizenzbestimmungen CC-BY-NC).Freitag, 19. Oktober 12
1. Dozenten 2. Semantic Multimedia3. Seminar Themen4. Administratives
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
2
Semantic Media Mining
Freitag, 19. Oktober 12
Dr. Harald Sack■ Senior Researcher am HPI■ Leiter der Forschungsgruppe
„Semantische Technologien“■ Forschungsschwerpunkte:□ Semantic Web Technologien□ Multimedia Retrieval□ Wissensrepräsentation■ Yovisto.com / SEMEX
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
3
Semantic Media MiningDozenten / Tutoren
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
Dipl. Inform. Jörg Waitelonis
■Studium Informatik Uni-Jena bis 2006■2006-2007 Exist-Seed Projekt Osotis■ seit 2007 Gründer von yovisto.com■ Forschung: Semantic Web, Multimedia-Retrieval,
Suchmaschinen Technologien
4
Semantic Media Mining Dozenten / Tutoren
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
5Dipl.-Inf. Magnus Knuth
■Studium Informatik, Uni Leipzig bis 2007
■ Institut für Medizinische Informatik, Statistik und Epidemiologie, Uni Leipzig 2006-2010
■Research Assistant am HPI, Contentus & Mediaglobe■ Forschungsgebiete: Semantic Web, Knowledge
Management, Read-Write-Web, Linked Data Cleansing
Semantic Media MiningDozenten / Tutoren
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
6 Dipl.-Inf. Nadine Steinmetz
■Studium Informatik, TU Ilmenau bis 2005
■2005-2010 TU Berlin:
• kooperative Lernszenarien
• Integration von Semantic Web Technologien in kooperative Lernplattformen
■ seit 05/2010 am HPI:• Semantische Analyse, Named Entity Recognition,
Disambiguierung
Semantic Media MiningDozenten / Tutoren
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
7 Christian Hentschel, M.Sc.
■2005: B.Sc. in Softwaresystemtechnik
■2007: M.Sc. in Computational Visualistics an der Otto-von-Guericke-Universität Magdeburg
■2007-2011: wiss. Mitarbeiter am Fraunhofer Heinrich Hertz Institut
■Theseus
■ seit 2011: Doktorand am HPI
■Forschungsgebiet: visuelle Klassifikation von Bild- und Videoinhalten
Semantic Media MiningDozenten / Tutoren
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
8
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
9
■ Projektzeitraum: 2009-2012■ effiziente Suche nach/in AV-Inhalten in Medienarchiven und Rundfunkanstalten ■ Arbeitsprozesslösung für die effiziente Erfassung, Aufbereitung und Verwertung von
AV-Inhalten
Freitag, 19. Oktober 12
Freitag, 19. Oktober 12
1. Dozenten 2. Semantic Multimedia3. Seminar Themen4. Administratives
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
11
Semantic Media Mining
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
12
Wie kann ich etwas (wieder) finden...?Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
13„Metadaten sind Daten, die Informationen über andere Daten enthalten“ und „Metadaten werden benötigt, um in der Lage zu sein, einen bestimmten Zweck zu erfüllen (oder) ein bestimmtes Ergebnis zu erreichen“ (informelle Definition, Wikipedia)
„Metadaten sind strukturierte, kodierte Daten, die Charakteristika informationstragender Entitäten beschreiben, zum Zweck der Identifikation, Recherche, Beurteilung und der Verwaltung der damit beschriebenen Entitäten.“ (W.R. Durell, 1985)
„Metadaten sind maschinenlesbare Informationen über elektronische Ressourcen oder andere Dinge“ (W3C)
Metadaten
Freitag, 19. Oktober 12
•bibliografische Metadaten
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
14
Identifikation überISBN / ISSNAutor(en)Titel...
Klassifikation überKategorienSchlüsselwörterAbstract / Zusammenfassung...
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
15
• Title: Namen des Objekts. • Creator: Personen, Organisationen oder Dienste, die in erster Linie für den Inhalt des Objekts verantwortlich sind, z.B. Autorinnen oder Autoren. • Subject: Thema (topic) des Objekts, typischerweise Stichwörter, Deskriptoren oder Elemente eines Klassifikationssystems. • Description: Beschreibung des Inhalts des Objekts als Text, z.B. als Abstract oder Inhaltsverzeichnis. • Publisher: Personen oder Organisationen, die dafür verantwortlich sind, das Objekt zugänglich zu machen. • Contributor: Personen oder Organisationen, die wesentliche Beiträge zum Inhalt des Objekts geleistet haben, aber nicht unter Creator genannt sind (Herausgebende, Übersetzerinnen, Illustratoren).
....
Strukturierte Metadaten
•bestehen aus Name-Werte Paaren (Autor = “Böll, Heinrich“)
•sind typisiert (Autor ist vom Typ Zeichenkette)
•Semantik strukturierter Daten beruht auf gemeinsamer Vereinbarung (z.B. Standardisierung bei Dublin Core)
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
16
Tierreich (Animalia)
Wirbeltiere
Mensch (Homo)
Moderner Mensch (Homo sapiens)
Menschenartige (Hominidae)
Primaten
Säugetiere (Mammaliae)
Mehrzeller (Eukaria)
Strukturierte Metadaten
•können hierarchisch strukturiert werden (Taxonomie)
Tierreich (AnimaliaWirbeltiere
Mensch (Homo)
Moderner Mensch (Homo sapiens)
Menschenartige (Hominidae)
Primaten
Säugetiere (Mammaliae)
Mehrzeller (Eukaria)
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
17
Hauptklassen000 Inf.-Wiss., allg. Werke100 Philosophie200 Religion300 Sozialwissenschaften400 Sprachen500 Naturwissenschaften600 Technik (Angew. Wiss.)700 Künste800 Literatur900 Geschichte
DDC 23 (2011)• 4 Bände• 4000 Seiten• 45.000 Klassen• 96.000 Registerbegriffe
DDC 1 (1876)• 44 Seiten
Strukturierte Metadaten
• Klassifikationssystemez.B. Dewey Decimal System
Freitag, 19. Oktober 12
Unstrukturierte Metadaten
• als unstrukturierte Metadaten werden textuelle Metadaten bezeichnet, deren Semantik nicht durch vorherige Vereinbarung festgelegt ist, sondern durch ihren (natürlichsprachlichen) Inhalt.
• Bsp.: Inhaltsangabe/abstract
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
18
Über die Entstehung der Arten von Charles Darwin (englisch: On the Origin of Species), veröffentlicht am 24. November 1859, ist ein wissenschaft l iches Buch, das als grundlegendes Werk der Evolutionsbiologie gilt. Sein vollständiger Titel lautet: On the Origin of Species by Means of Natural Selection, or the Preservation of Favoured Races in the Struggle for Life. Als 1872 die sechste Auflage, das war die letzte von Darwin selbst bearbeitete, erschien, wurde der Kurztitel zu: The Origin of Species abgeändert. Darwin stellte in seinem Buch die wissenschaftliche Theorie vor, dass sich Populationen von Lebewesen im Laufe von Generationen durch den Prozess der natürlichen Selektion evolutionär verändern. Er lieferte zahlreiche Belege für die Vorstellung, dass die Vielfalt der heute existierenden Organismen von gemeinsamen Vorfahren abstammt. Auf Darwins Reise mit der HMS Beagle in den 1830er Jahren sammelte er erste Hinweise für seine Vorstellungen und vermehrte diese später durch Experimente und wissenschaftliche Korrespondenz....
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
19
Autoritative vs. nicht-autoritative Metadaten
• Autoritative Metadatenstammen von einer zuverlässigen (autoritativen) Quelle, wie z.B. • dem Autor der Original-Daten• einem ausgewiesenen Experten
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
20
Autoritative vs. nicht-autoritative Metadaten
• Nicht-autoritative Metadatenstammen von einer prinzipiell unzuverlässigen Quelle, wie z.B.• den Benutzern• prominentes Beispiel: Social
Tagging Systeme
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
21
AutorRessource
Benutzer
autoritativeMetadaten
Apfel
Frucht
nicht-autoritativeMetadaten
Apfel
apple
Obst
Frühstück
kaufen
Kollaborative Annotation -- Social Tagging
© E.C. Publications, Inc.
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
22
Kollaborative Annotation -- Social Tagging
http://www.wordle.net/
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
23
Semantische Metadaten
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
24
Semantische Metadaten
• sind strukturierte/unstrukturierte Metadaten• Semantik (Bedeutung) der Metadaten ist formal definiert (Ontologie)
und daher maschinenlesbar (und maschinenverstehbar)
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
25
Semantische Metadaten
"An ontology is an explicit, formal specification of a shared conceptualization. The term is borrowed from philosophy, where an Ontology is a systematic account of Existence. For AI systems, what ‘exists’ is that which can be represented.“
(Thomas R. Gruber, 1993)
Konzeptualisierung: abstraktes Modell (Domäne, identifizierte relevante
Begriffe, Beziehungen)
Explizit: Bedeutungen aller Begriffe definiert
Formal: maschinenverstehbar
Gemeinsam: Konsens bzgl. Ontologie
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
26
Publikation
Semantische Metadaten
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
26
Publikation
• Titel• Schlüsselwörter• ...
Eigenschaften
Semantische Metadaten
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
26
Publikation
Buch
ist eine
• Titel• Schlüsselwörter• ...
Eigenschaften
Semantische Metadaten
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
26
Publikation
Buch
ist eine
Zeitschrift
ist eine
• Titel• Schlüsselwörter• ...
Eigenschaften
Semantische Metadaten
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
26
Publikation
Buch
ist eine
Zeitschrift
ist eine
Verlag verlegt
• Titel• Schlüsselwörter• ...
Eigenschaften
Semantische Metadaten
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
26
Publikation
Buch
ist eine
Zeitschrift
ist eine
Verlag verlegt
• Titel• Schlüsselwörter• ...
Eigenschaften
Autorverfasst
wird verfasstvon
Semantische Metadaten
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
26
Publikation
Buch
ist eine
Zeitschrift
ist eine
Verlag verlegt
• Titel• Schlüsselwörter• ...
Eigenschaften
Autorverfasst
wird verfasstvon1..n
1..n
Semantische Metadaten
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
26
Publikation
Buch
ist eine
Zeitschrift
ist eine
Verlag verlegt
• Titel• Schlüsselwörter• ...
Eigenschaften
Autorverfasst
wird verfasstvon
Personist eine
1..n
1..n
Semantische Metadaten
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
26
Publikation
Buch
ist eine
Zeitschrift
ist eine
Verlag verlegt
• Titel• Schlüsselwörter• ...
Eigenschaften
Autorverfasst
wird verfasstvon
Personist eine
Adresse
hat eine1..n
1..n
Semantische Metadaten
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
26
Publikation
Buch
ist eine
Zeitschrift
ist eine
Verlag verlegt
• Titel• Schlüsselwörter• ...
Eigenschaften
Autorverfasst
wird verfasstvon
Personist eine
Adresse
hat eine
• Nachname• Vorname• Straße...
Eigenschaften
1..n
1..n
Semantische Metadaten
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
26
Publikation
Buch
ist eine
Zeitschrift
ist eine
Verlag verlegt
• Titel• Schlüsselwörter• ...
Eigenschaften
Autorverfasst
wird verfasstvon
Personist eine
Adresse
hat eine
• Nachname• Vorname• Straße...
Eigenschaften
Springer Verlag
ist ein
1..n
1..n
Semantische Metadaten
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
26
Publikation
Buch
ist eine
Zeitschrift
ist eine
Verlag verlegt
• Titel• Schlüsselwörter• ...
Eigenschaften
Autorverfasst
wird verfasstvon
Personist eine
Adresse
hat eine
• Nachname• Vorname• Straße...
Eigenschaften
Springer Verlag
ist ein
HaraldSack
ist eine
1..n
1..n
Semantische Metadaten
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
26
Publikation
Buch
ist eine
Zeitschrift
ist eine
Verlag verlegt
• Titel• Schlüsselwörter• ...
Eigenschaften
Autorverfasst
wird verfasstvon
Personist eine
Adresse
hat eine
• Nachname• Vorname• Straße...
Eigenschaften
Springer Verlag
ist ein
HaraldSack
ist eine
Digitale Kommunikationist ein
1..n
1..n
Semantische Metadaten
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
26
Publikation
Buch
ist eine
Zeitschrift
ist eine
Verlag verlegt
• Titel• Schlüsselwörter• ...
Eigenschaften
Autorverfasst
wird verfasstvon
Personist eine
Adresse
hat eine
• Nachname• Vorname• Straße...
Eigenschaften
Springer Verlag
ist ein
HaraldSack
ist eine
Digitale Kommunikationist ein
1..n
1..n
Mann
Frauist eine
ist eine
Semantische Metadaten
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
26
Publikation
Buch
ist eine
Zeitschrift
ist eine
Verlag verlegt
• Titel• Schlüsselwörter• ...
Eigenschaften
Autorverfasst
wird verfasstvon
Personist eine
Adresse
hat eine
• Nachname• Vorname• Straße...
Eigenschaften
Springer Verlag
ist ein
HaraldSack
ist eine
Digitale Kommunikationist ein
1..n
1..n
Mann
Frauist eine
ist eine
≠
Semantische Metadaten
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
27 • erlauben die Festlegung formaler Axiome• z.B. „Es ist nicht möglich, dass das Publikationsdatum
vor dem Geburtsdatum eines Autors der Publikation liegt.“
• erlauben das Ziehen von Schlussfolgerungen• z.B. „Alle Menschen sind sterblich.“
„Sokrates ist ein Mensch.“ „Daher ist Sokrates sterblich.“
Raffael: Die Schule von Athen, 1510
Semantische Metadaten
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
28• Ziel ist eine Abbildung von Zeichenketten bzw. Low-
Level Metadaten auf formale Wissensrepräsentationen, die Informationen über deren Bedeutung maschinenlesbar/maschinenverstehbar repräsentieren.
Named Entity Recognition
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
28• Ziel ist eine Abbildung von Zeichenketten bzw. Low-
Level Metadaten auf formale Wissensrepräsentationen, die Informationen über deren Bedeutung maschinenlesbar/maschinenverstehbar repräsentieren.
Jörg Waitelonis Text
Named Entity Recognition
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
28• Ziel ist eine Abbildung von Zeichenketten bzw. Low-
Level Metadaten auf formale Wissensrepräsentationen, die Informationen über deren Bedeutung maschinenlesbar/maschinenverstehbar repräsentieren.
http://www.hpi.uni-potsdam.de/meinel/team/mitarbeiter_meinel/joerg.html URI
Jörg Waitelonis Text
Named Entity Recognition
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
28• Ziel ist eine Abbildung von Zeichenketten bzw. Low-
Level Metadaten auf formale Wissensrepräsentationen, die Informationen über deren Bedeutung maschinenlesbar/maschinenverstehbar repräsentieren.
http://www.hpi.uni-potsdam.de/meinel/team/mitarbeiter_meinel/joerg.html URI
http://www.hpi.uni-potsdam.de/meinel/team/mitarbeiter_meinel/joerg-foaf.rdf RDF Metadata
Jörg Waitelonis Text
Named Entity Recognition
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
28• Ziel ist eine Abbildung von Zeichenketten bzw. Low-
Level Metadaten auf formale Wissensrepräsentationen, die Informationen über deren Bedeutung maschinenlesbar/maschinenverstehbar repräsentieren.
http://www.hpi.uni-potsdam.de/meinel/team/mitarbeiter_meinel/joerg.html URI
http://www.hpi.uni-potsdam.de/meinel/team/mitarbeiter_meinel/joerg-foaf.rdf RDF Metadata
foaf:Person RDF Metadata
Jörg Waitelonis Text
Named Entity Recognition
Freitag, 19. Oktober 12
Entity Mapping
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
29
foaf:Person
Jörg Waitelonisis a
foaf:Projectfoaf:Documentfoaf:Organization disjoint with foaf:firstname Jörg
foaf:lastname Waitelonis
property
property
foaf:Person
knows
Harald Sack
is a
foaf:interestfoaf:publicationsfoaf:workplaceHomepage...
property
Freitag, 19. Oktober 12
Entity Mapping
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
Entity Mapping
29
foaf:Person
Jörg Waitelonisis a
foaf:Projectfoaf:Documentfoaf:Organization disjoint with foaf:firstname Jörg
foaf:lastname Waitelonis
property
property
foaf:Person
knows
Harald Sack
is a
foaf:interestfoaf:publicationsfoaf:workplaceHomepage...
property
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
30
Jörg Waitelonis
Entitäten-zuweisung
Entität
Named Entity Recognition
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
30
Jörg Waitelonis
Entitäten-zuweisung
Entität
Doktorand
ist ein
Klasse
Named Entity Recognition
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
30
Jörg Waitelonis
Entitäten-zuweisung
Entität
Doktorand
ist ein
Klasse
Person
ist eine
Klasse
Named Entity Recognition
Freitag, 19. Oktober 12
Named Entity Recognition
„Armstrong betrat als erster Mensch den Mond.“ Text
Determine possible Entity Mapping Candidates
Freitag, 19. Oktober 12
Named Entity Recognition
„Armstrong betrat als erster Mensch den Mond.“ Text
Determine possible Entity Mapping Candidates
We have to examine the Context...
Freitag, 19. Oktober 12
Named Entity Recognition
„Armstrong betrat als erster Mensch den Mond.“ Text
Determine possible Entity Mapping Candidates
We have to examine the Context...
Freitag, 19. Oktober 12
Named Entity Recognition
„Armstrong betrat als erster Mensch den Mond.“ Text
Freitag, 19. Oktober 12
Named Entity Recognition
„Armstrong betrat als erster Mensch den Mond.“ Text
Create all possible Sets of Mapping Candidates
Freitag, 19. Oktober 12
Named Entity Recognition
„Armstrong betrat als erster Mensch den Mond.“ Text
Create all possible Sets of Mapping Candidates
ArmstrongGeorge Armstrong Custer
Neil Armstrong
The Armstrong Twins
Armstrong, Florida
Armstrong, Ontario
Armstrong Automobile
Joe Armstrong
Armstrong County, Texass
Armstrong Gun
Craig Armstrong
Armstrong (Mondkrater)
Louis Armstrong
Armstrong Tunnel
Louis Armstrong International Airport
Armstrong‘s Theorem
Sir Thomas Armstrong
Ian Armstrong
Freitag, 19. Oktober 12
Named Entity Recognition
„Armstrong betrat als erster Mensch den Mond.“ Text
Create all possible Sets of Mapping Candidates
Armstrong MenschGeorge Armstrong Custer
Neil Armstrong
The Armstrong Twins
Armstrong, Florida
Armstrong, Ontario
Armstrong Automobile
Joe Armstrong
Armstrong County, Texass
Armstrong Gun
Craig Armstrong
Armstrong (Mondkrater)
Louis Armstrong
Armstrong Tunnel
Louis Armstrong International Airport
Armstrong‘s Theorem
Sir Thomas Armstrong
Ian Armstrong
HumanBill Mensch
Bob Mensch
David Mensch
Homer Mensch
Louise Mensch
Halber Mensch
Mensch ärgere Dich nichtMensch Computer
Peter van Mensch
Daniel Mensch
Mensch (album)
Freitag, 19. Oktober 12
Named Entity Recognition
„Armstrong betrat als erster Mensch den Mond.“ Text
Create all possible Sets of Mapping Candidates
Armstrong Mensch MondGeorge Armstrong Custer
Neil Armstrong
The Armstrong Twins
Armstrong, Florida
Armstrong, Ontario
Armstrong Automobile
Joe Armstrong
Armstrong County, Texass
Armstrong Gun
Craig Armstrong
Armstrong (Mondkrater)
Louis Armstrong
Armstrong Tunnel
Louis Armstrong International Airport
Armstrong‘s Theorem
Sir Thomas Armstrong
Ian Armstrong
HumanBill Mensch
Bob Mensch
David Mensch
Homer Mensch
Louise Mensch
Halber Mensch
Mensch ärgere Dich nichtMensch Computer
Peter van Mensch
Daniel Mensch
Mensch (album)
Der Mond (Oper)
MOND
Mond Nickel CompanyBrunner Mond
Bernard Mond
Peter Mond
Julian Mond
Ludwig Mond
Violet MondMOND Technologies
Robert Mond
Henry Mond
Alfred Mond
Chava Mond
Freitag, 19. Oktober 12
Named Entity Recognition
Armstrong Mensch Mond
George Armstrong Custer
Neil Armstrong
Armstrong, Florida
Armstrong, Ontario
Armstrong Gun
Craig Armstrong
Armstrong (Mondkrater)
Louis Armstrong
Sir Thomas Armstrong
Human
Bob Mensch
David Mensch
Homer Mensch
Louise Mensch
Halber Mensch
Mensch ärgere Dich nichtMensch Computer
Mensch (album)
Der Mond (Oper)
Mond (Erdtrabant)
Mond Nickel CompanyBrunner Mond
Bernard Mond
Peter Mond
Julian Mond
Ludwig Mond
Henry Mond
Alfred Mond
Chava Mond
(1) Co-occurence Analysis(2) Semantic Analysis
Demo: SEMEX NER http://mediaglobe.yovisto.com/semex/
Freitag, 19. Oktober 12
1. Dozenten 2. Semantic Multimedia3. Seminar Themen4. Administratives
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
34
Semantic Media Mining
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
Seminar Themen35
(1) Linked Soccer: Man muss keine Ahnung von Fußball haben.
(2) Intelligente Produktempfehlungen, oder was haben Mozartkugeln mit dem Wetter zu tun?
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
Linked Soccer - Motivation36 ■ Informationen liegen in verschiedenen, losen, un-/semi-strukturierten
Datenquellen, z.B.:□Spieler- und Teaminformationen in Wikipedia/DBpedia□Live-Spielergebnisse in Live-Tickern und Tweets□historische Begegnungen auf versch. Webseiten (z.B. von Vereinen)
■Ziel: ein Datensatz, der all diese Informationen strukturiert aggregiert und sich selbständig aktualisiert□Erzeugung eines Linked Data Datensatzes,□aus frei verfügbaren Quellen,□mit vorhandenen semantischen Entitäten verbunden□ stetige Aktualisierung anhand neu verfügbarer Daten
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
Linked Soccer - das Spiel
■ “Linked Soccer” ist ein Spiel in 16 Seminartreffen■gespielt wird in Teams zu je 3-4 Spielern■Ziel des Spiels ist die Beantwortung von Fragen zu
Fußballstatistiken mit Hilfe von aggregiertem Linked Data■Der Spielverlauf ist wie folgt:□Teilnahme an Seminartreffen□Zwischen- und Abschlusspräsentation□Ausarbeitung□Software
37
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
Ziel des Spiels
Beantworte folgende Fragen (Beispiel) mit Hilfe von Linked Data:
■Welcher Verein erzielte in der Geschichte der 2. Bundesliga die wenigsten Tore?
■Welcher Spieler erzielte bei Spielen in der 1. Bundesliga die meisten Eigentore?
■ Bei welcher Begegnung der laufenden Saison 2012/2013 wurden die meisten Gelb-Roten Karten gezeigt (1. und 2. Bundesliga gemeinsam)?
■Welches Team (1. und 2. Bundesliga gemeinsam) erzielte in der Saison 1995/1996 die meisten Tore in der ersten Halbzeit?
■Welcher Spieler des Teams “SpVgg Greuther Fürth” wurde in der Spielsaison 2009/2010 am häufigsten in der Spielhälfte seiner eigenen Mannschaft gefoult?
38
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
Spieltaktik: Linked Data
■Verwendung von Informationen über Entitäten aus der Linked Open Data Cloud (DBpedia, Freebase, ...)■einfach erweiterbares Datenschema
(RDF, RDFS)■Abfrage per SPARQL■Nutzung von semantischen
Technologien:□Named Entity Recognition□RDFa□GRDDL
39
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
Die Spieler: Entitäten
Welche Entitäten kommen in Frage?■Spieler■Mannschaften■Begegnungen□Ergebnis, Tore, Karten, Fouls, ...
■Ligen■Verbände■ ...
40
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
Die Spielregeln: DatenquellenFokus auf öffentliche und freie Quellen:■DBpedia (http://dbpedia.org/page/Johannes_Focher)■öffentliche Kalender (https://www.google.com/calendar/ical/
spielplan.fussball.em%40gmail.com/public/basic.ics)■Wikipedia■Twitter/Facebook■RSS-Feeds (News, Medien)
41
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
Die Spielregeln (2)
alternative Quellen (nach Absprache mit den Schiedsrichtern!):■www.fussballdaten.de■www.worldfootball.net■www.fussball.de■UEFA (z.B. http://www.uefa.com/uefachampionsleague/
season=2012/clubs/club=52758/matches/index.html)■Statistiken von Vereinsseiten (z.B. http://www.bvb.de/?%9CS
%1B%E7%F4%9D)■diverse Live-Ticker (z.B. http://liveticker.tagesspiegel.de/de/
popup/co12/)
42
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
Die Meisterschaft■Recherche von öffentlichen Datenquellen
■Selektion relevanter Entitäten
■Erstellen einer erweiterbaren Datenstruktur
■Entwickeln einer Strategie zur Extraktion der Daten
■ Identifikation der Entitäten (z.B. anhand von Bezeichnern und Hash-Tags), Aggregation der Daten (Mapping)
■Persistierung der Daten in geeignetem Store
■Entwickeln einer dynamischen Webseite zur Präsentation der Daten
■Ableiten von Statistiken
■Erweiterungen
43 1. Woche
2. Woche
3. Woche
4. Woche
9. Woche
12. Woche
13. Woche
16. Woche
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
Die Kommentare44
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
Die KommentareGünter Netzer: „Der Klose wusste, wie gewohnt, immer genauestens bescheid.“ = tagesaktuelle Daten, die möglichst live aktualisiert werden
44
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
Die KommentareGünter Netzer: „Der Klose wusste, wie gewohnt, immer genauestens bescheid.“ = tagesaktuelle Daten, die möglichst live aktualisiert werden
Johan Cruijff: "Fußball ist ein Spiel aus Fehlern. Wer die wenigsten Fehler macht, gewinnt." = Daten müssen valide sein
44
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
Die KommentareGünter Netzer: „Der Klose wusste, wie gewohnt, immer genauestens bescheid.“ = tagesaktuelle Daten, die möglichst live aktualisiert werden
Johan Cruijff: "Fußball ist ein Spiel aus Fehlern. Wer die wenigsten Fehler macht, gewinnt." = Daten müssen valide sein
Joachim Löw: „... ein göttliches Zusammenspiel.“ = die Daten sollen hochgradig mit (relevanten) Ressourcen verknüpft sein
44
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
Die KommentareGünter Netzer: „Der Klose wusste, wie gewohnt, immer genauestens bescheid.“ = tagesaktuelle Daten, die möglichst live aktualisiert werden
Johan Cruijff: "Fußball ist ein Spiel aus Fehlern. Wer die wenigsten Fehler macht, gewinnt." = Daten müssen valide sein
Joachim Löw: „... ein göttliches Zusammenspiel.“ = die Daten sollen hochgradig mit (relevanten) Ressourcen verknüpft sein
Werner Schneyder: „Ich weiss, es gibt keinen schönsten Sport. Fußball ist aber die Ausnahme.“= Daten sollen attraktiv präsentiert werden, externe Ressourcen sollen sinnvoll eingebunden werden
44
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
Die KommentareGünter Netzer: „Der Klose wusste, wie gewohnt, immer genauestens bescheid.“ = tagesaktuelle Daten, die möglichst live aktualisiert werden
Johan Cruijff: "Fußball ist ein Spiel aus Fehlern. Wer die wenigsten Fehler macht, gewinnt." = Daten müssen valide sein
Joachim Löw: „... ein göttliches Zusammenspiel.“ = die Daten sollen hochgradig mit (relevanten) Ressourcen verknüpft sein
Giovanni Trapattoni: „Fußball ist Ding, Dang, Dong. Es gibt nicht nur Ding.“= ???
Werner Schneyder: „Ich weiss, es gibt keinen schönsten Sport. Fußball ist aber die Ausnahme.“= Daten sollen attraktiv präsentiert werden, externe Ressourcen sollen sinnvoll eingebunden werden
44
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
Materialien / Einstieg in das Thema
■Bücher zu Semantic Web Technologien□ T. Heath, Ch. Bitzer
Linked Data - Evolving the Web into a Global Data Space,Morgan & Claypool, 2011.
■Tutorial: How to Publish Linked Data on the Web, Bizer et. al■Linked Data Starting Point (Papers und Tools): http://linkeddata.org
■DBpedia (http://dbpedia.org/)■Twitter API (https://dev.twitter.com/docs)■W3C GRDDL Specification (http://www.w3.org/TR/grddl/)
45
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
(2) Intelligente Produktempfehlungen, oder was haben Mozartkugeln mit dem Wetter zu tun?
46
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
(2) Intelligente Produktempfehlungen, oder was haben Mozartkugeln mit dem Wetter zu tun?
46
■viele online Geschäftsmodelle basieren auf Werbung■unterschiedliche Arten von Werbe-Einblendungen:
■Einblendungen als Text (incl. Link)■Einblendungen als Bilder (horizontal/vertikal/kombiniert)■PopUps & Co.
■Video Werbung: Bumper, Zwischeneinblendungen
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
(2) Intelligente Produktempfehlungen, oder was haben Mozartkugeln mit dem Wetter zu tun?
46
■viele online Geschäftsmodelle basieren auf Werbung■unterschiedliche Arten von Werbe-Einblendungen:
■Einblendungen als Text (incl. Link)■Einblendungen als Bilder (horizontal/vertikal/kombiniert)■PopUps & Co.
■Video Werbung: Bumper, Zwischeneinblendungen
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
(2) Intelligente Produktempfehlungen
47 ■Wie wird die Werbung bzgl. einer Webseite ausgewählt?■Abhängig vom Benutzer (Personalisierung), z.B. bei
Facebook, Cookies■Abhängig von Aktionen der Benutzer, z.B.
Sucheingabe bei Googel AdSense
■Collaborative Filtering, z.B. Amazon“Nutzer die Artikel X gekauft haben, haben auch Artikel Y gekauft.”
■ohne besonderen Zusammenhang zum Inhalt
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
(2) Intelligente Produktempfehlungen
47 ■Wie wird die Werbung bzgl. einer Webseite ausgewählt?■Abhängig vom Benutzer (Personalisierung), z.B. bei
Facebook, Cookies■Abhängig von Aktionen der Benutzer, z.B.
Sucheingabe bei Googel AdSense
■Collaborative Filtering, z.B. Amazon“Nutzer die Artikel X gekauft haben, haben auch Artikel Y gekauft.”
■ohne besonderen Zusammenhang zum Inhalt Das ist die RegelFreitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
(2) Intelligente Produktempfehlungen
48
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
(2) Intelligente Produktempfehlungen
49
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
50
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
(2) Intelligente Produktempfehlungen
51
■ Intelligente Verknüpfung von Multimediadaten mit inhaltlich dazu passenden Produkten.■Online Werbung wird zu inhaltsbasierten
Produktempfehlungen.■ “Storytelling”, um dem Nutzer zu kommunizieren, warum
dieses Produkt empfohlen wird (Assoziationsketten).■Verwendung von semantischen Technologien:
■RDF / RDFa■Named Entity Recognition
Ziel:
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
(2) Intelligente Produktempfehlungen
52
■Guiness Buch der Rekorde, Craig Glenday [1]■Mirabell Mozartkugeln Geschenkbox [2]■ “Wie wird das Wetter?: Eine verständliche Einführung für jedermann
von Jörg Kachelmann und Siegfried Schöpfer (1. Februar 2006) EUR 8,95 Taschenbuch” [3]
“Baumgartner springt aus der Stratosphäre
und holt sich den Weltrekord”
Beispiel
generierte Empfehlungen z.B.
[1] http://www.amazon.com/Guinness-World-Records-Craig-Glenday/dp/0440423104[2] http://www.austriangrocery.com/de/mirabell-mozartkugeln/mirabell-mozartkugeln-geschenkbox
[3| http://www.amazon.de/Wie-wird-das-Wetter-verständliche/dp/3499620898/ref=sr_1_1?ie=UTF8&qid=1350294405&sr=8-1
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
(2) Intelligente Produktempfehlungen
53 Schritt 1: Semantische Produktdatenbank aufbauen
■manuell: Annotation des Produktes durch sem. Entitäten/Kategorien■automatisch: Wo findet man (semantische) Produktbeschreibungen?
■eingebettet in Webseiten (als Microformat, RDFa)■ z.B. sears.com■ vgl. Goodrelations Ontologie (mit Mappings zu DBpedia)
■ in semantischen Suchmaschinen (z.B. http://sindice.com)
Demo: RDFa Distiller http://www.w3.org/2007/08/pyRdfa/
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
(2) Intelligente Produktempfehlungen
54 Schritt 2: Semantische Entitäten des Eingabetextes ermitteln (NER)
■ “Eingabetext” kann stammen aus:■Webseiten■Social Media Posts: Tweets, Facebook, Google +, etc■Videos■ sonstigen Dokumenten
■Named Entity Recognition■Zuordung von Begriffen zu semantischen Entitäten■Mehrdeutigkeiten auflösen (Disambiguierung)
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
(2) Intelligente Produktempfehlungen
54 Schritt 2: Semantische Entitäten des Eingabetextes ermitteln (NER)
■ “Eingabetext” kann stammen aus:■Webseiten■Social Media Posts: Tweets, Facebook, Google +, etc■Videos■ sonstigen Dokumenten
■Named Entity Recognition■Zuordung von Begriffen zu semantischen Entitäten■Mehrdeutigkeiten auflösen (Disambiguierung)
“Baumgartner springt aus der Stratosphäre
und holt sich den Weltrekord”
dbp:Felix_Baumgartner
dbp:Stratosphere
dbp:World_recordPREFIX dbp: http://dbpedia.org/resource/
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
(2) Intelligente Produktempfehlungen
55 Schritt 3: Entitäten und semantisches Umfeld analysieren, Hinweise finden, die eine Zuordnung zu einem Produkt ermöglichen
“... Baumgartner...”
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
(2) Intelligente Produktempfehlungen
55 Schritt 3: Entitäten und semantisches Umfeld analysieren, Hinweise finden, die eine Zuordnung zu einem Produkt ermöglichen
“... Baumgartner...”
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
(2) Intelligente Produktempfehlungen
55 Schritt 3: Entitäten und semantisches Umfeld analysieren, Hinweise finden, die eine Zuordnung zu einem Produkt ermöglichen
“... Baumgartner...”
dbp:Felix_Baumgartner
NER
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
(2) Intelligente Produktempfehlungen
55 Schritt 3: Entitäten und semantisches Umfeld analysieren, Hinweise finden, die eine Zuordnung zu einem Produkt ermöglichen
“... Baumgartner...”
dbp:Felix_Baumgartner
NER
dbp:Mozartkugel
NER
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
(2) Intelligente Produktempfehlungen
55 Schritt 3: Entitäten und semantisches Umfeld analysieren, Hinweise finden, die eine Zuordnung zu einem Produkt ermöglichen
“... Baumgartner...”
dbp:Felix_Baumgartner
NER
category:People_from_Salzburg
dc:subject
dbp:Mozartkugel
NER
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
(2) Intelligente Produktempfehlungen
55 Schritt 3: Entitäten und semantisches Umfeld analysieren, Hinweise finden, die eine Zuordnung zu einem Produkt ermöglichen
“... Baumgartner...”
dbp:Felix_Baumgartner
NER
category:People_from_Salzburg
dc:subject
dc:subject
dbp:Wolfgang_Amadeus_Mozart
dbp:Mozartkugel
NER
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
(2) Intelligente Produktempfehlungen
55 Schritt 3: Entitäten und semantisches Umfeld analysieren, Hinweise finden, die eine Zuordnung zu einem Produkt ermöglichen
“... Baumgartner...”
dbp:Felix_Baumgartner
NER
category:People_from_Salzburg
dc:subject
dc:subject
dbp:Wolfgang_Amadeus_Mozart
dc:subject
category:Wolfgang_Amadeus_Mozart
dbp:Mozartkugel
NER
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
(2) Intelligente Produktempfehlungen
55 Schritt 3: Entitäten und semantisches Umfeld analysieren, Hinweise finden, die eine Zuordnung zu einem Produkt ermöglichen
“... Baumgartner...”
dbp:Felix_Baumgartner
NER
category:People_from_Salzburg
dc:subject
dc:subject
dbp:Wolfgang_Amadeus_Mozart
dc:subject
category:Wolfgang_Amadeus_Mozart
category:Wolfgang_Amadeus_Mozart_in_popular_culture
skos:broader
dbp:Mozartkugel
NER
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
(2) Intelligente Produktempfehlungen
55 Schritt 3: Entitäten und semantisches Umfeld analysieren, Hinweise finden, die eine Zuordnung zu einem Produkt ermöglichen
“... Baumgartner...”
dbp:Felix_Baumgartner
NER
category:People_from_Salzburg
dc:subject
dc:subject
dbp:Wolfgang_Amadeus_Mozart
dc:subject
category:Wolfgang_Amadeus_Mozart
category:Wolfgang_Amadeus_Mozart_in_popular_culture
skos:broader
dc:subject
dbp:Mozartkugel
NER
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
(2) Intelligente Produktempfehlungen
56 Formal: Spezielle Anwendung von (semantischer) Suche■ Produkte sind die Dokumente ■ Texte (z.B. aus Webseiten, Video, Audio) sind die Suchanfragen:■ “Finde die am besten passenden Produkte zu einem gegebenen Text”
P ... Menge von Dokumenten (Produkte).FP = featP(p) ... Funktion zum Extrahieren von Deskriptoren FP eines Dokuments.FQ = featQ(p) ... Funktion zum Extrahieren von Deskriptoren FQ einer Suchanfrage.
dist(FP, FQ) ... Distanzfunktion basierend auf einer Metrik, die den Abstand zwischen zwei Mengen von Deskriptoren bestimmt.
Aufgabe für das Seminar:
P erzeugen, featP, featQ, dist(FP, FQ) implementieren.
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
(2) Intelligente Produktempfehlungen
57 Vorgehen:
1. Literatur Recherche2. Anforderungsanalyse aufstellen3. initiale Produktdatenbank P erstellen (featP)4. Text-Analyse implementieren (featQ)5. zwei einfache Metriken implementieren ( dist(FP, FQ) )6. Evaluation:■ entweder gegen Ground Truth?■ oder durch Rating/Voting?
7. weitere Metriken implementieren8. Optimieren9. Produktdatenbank erweitern
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
(2) Intelligente Produktempfehlungen
57 Vorgehen:
1. Literatur Recherche2. Anforderungsanalyse aufstellen3. initiale Produktdatenbank P erstellen (featP)4. Text-Analyse implementieren (featQ)5. zwei einfache Metriken implementieren ( dist(FP, FQ) )6. Evaluation:■ entweder gegen Ground Truth?■ oder durch Rating/Voting?
7. weitere Metriken implementieren8. Optimieren9. Produktdatenbank erweitern
1. Woche2. Woche3. Woche
4.-5. Woche6.-7. Woche
8.-9. Woche
Rest
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
(2) Intelligente Produktempfehlungen
58
■ Recommender Systems: http://en.wikipedia.org/wiki/Recommender_system■ Empfehlungsdienst http://de.wikipedia.org/wiki/Empfehlungsdienst■ Verkaufsführung http://de.wikipedia.org/wiki/Guided_Selling
■ Bharat Bhasker; K. Srikumar (2010). Recommender Systems in E-Commerce. CUP. ISBN 978-0-07-068067-8.■ Francesco Ricci; Lior Rokach; Bracha Shapira; Paul B. Kantor, ed. (2011). Recommender Systems Handbook.
ISBN 978-0-387-85819-7.■ Bracha Shapira; Lior Rokach (June 2012). Building Effective Recommender Systems. ISBN 978-1-4419-0047-0.■ Dietmar Jannach; Markus Zanker; Alexander Felfernig; Gerhard Friedrich (2010). Recommender Systems:An Introduction. CUP.
ISBN 978-0-521-49336-9.■ E. Peis; J. M. Morales-del-Castillo; J. A. Delgado-López. Semantic Recommender Systems. Analysis of the state of the topic:
http://www.upf.edu/hipertextnet/en/numero-6/recomendacion.html
■ ACM Conference on Recommender Systems: http://www.recsys.acm.org/2012/program.html
■ Goodrelations Paper: An ontology for describing products and services offers on the web; M. Hepp - Knowledge Engineering: Practice and Patterns, 2008 - Springer http://www.heppnetz.de/projects/goodrelations/
■ DBpedia: http://dbpedia.org/ , Freebase: http://freebase.org/
Einstiegs- und Lesestoff:
Freitag, 19. Oktober 12
1. Dozenten 2. Semantic Multimedia3. Seminar Themen4. Administratives
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
59
Semantic Media Mining
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
Seminar Semantic Media Mining
60
□Semesterwochenstunden: 4□ECTS: 6□Leistungsfeststellung: □Schriftliche Ausarbeitung zum Vortragsthema (Umfang ca. 20 Seiten)
□Musterausarbeitung in den Materialien zum Seminar□Umsetzung einer vorgegebenen Implementierungsaufgabe im Team□Präsentation der Ergebnisse
(Zwischenpräsentation, Endpräsentation, Wochenbesprechungen)
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
Seminar Semantic Media Mining
61 □Projektteams mit je 2-3 Studenten bearbeiten alle die selbe Aufgabenstellung (doodle Link s. Blog) bis 24.10.□Termine□24.10.2012: Technologieeinführung□ab dem 29.10.2012: Wöchentliche Seminargruppentreffen
□Termine nach Absprache□ca. 19.12.2012: Zwischenpräsentation der Projektergebnisse□ca. 6.2.2013: Abschlusspräsentation der Ergebnisse□ca. 6.3.2013: Abgabe Ausarbeitung
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
Seminar Semantic Multimedia
62
Freitag, 19. Oktober 12
Seminar: Semantic Media Mining, Dr. Harald Sack et. al., Hasso-Plattner-Institut, Universität Potsdam
63 Literatur
• P. Hitzler, S. Roschke, Y. Sure: Semantic Web Grundlagen, Springer, 2007.
• Grundlegende Materialien via Seminar-Blog http://smm2013.blogspot.com/
Seminar Semantic Media Mining
Freitag, 19. Oktober 12