bdk fachforum (gpec) big data und intelligente datenanalyse

14
09 September 2014 Daniel Hladky Semantic Web Lab at HSE/W3C Vorstand Ontos AG Na0onal Research University Higher School of Economics Big Data und intelligente Datenanalyse “ Pak Poisk” Impulsvortrag BDK-Fachforum 09.09.2014 Täglich werden 2.5 Trillionen Bytes an Daten produziert

Upload: integrum-solutions-ag

Post on 26-Jun-2015

1.185 views

Category:

Software


0 download

DESCRIPTION

Big Data udn intelligente Analyse. This motivational talk was given at the GPEC conference hosted and organised by BDK. In the talk I address topics of linked data, information extraction, rdf and sparql and provide a real world example from a Russian customer.

TRANSCRIPT

Page 1: Bdk fachforum (gpec)   big data und intelligente datenanalyse

09  September  2014  

Daniel Hladky Semantic Web Lab at HSE/W3C Vorstand Ontos AG

Na0onal  Research  University  Higher  School  of  Economics  

Big Data und intelligente Datenanalyse “ Pak Poisk”

Impulsvortrag BDK-Fachforum 09.09.2014

Täglich werden 2.5 Trillionen Bytes an Daten produziert

Page 2: Bdk fachforum (gpec)   big data und intelligente datenanalyse

Daten  und  Analyse  

2  

Structured data sources like CSV, XLS, RDBMS

Unstructured text document sources like HTML

Smart Data Integration based on Linked Data

Data storages

RDBMS  

BI, Reporting, Analisys

TextMining

RDF  Store  

Page 3: Bdk fachforum (gpec)   big data und intelligente datenanalyse

3  

Herausforderungen  

Herausforderungen (Auszug) •  Data Crawling (web, deep

web…) •  Aggregation •  Daten verstehen, extrahieren •  Daten integrieren •  Daten speichern (flexibel) •  Daten auswerten, analysieren

Semantic Knowledge Base

Datenanalyse Web, Deep Web (External)

(Semi-) Strukturierte und unstrukturierte Daten

Page 4: Bdk fachforum (gpec)   big data und intelligente datenanalyse

Wissen  aus  Text  generieren  

4  

Läsungsansätze – NLP/HLT 1.  Manuelles Annotieren

Mittels Vokabular (Taxonomie/Ontologie) 2.  Extraktion mittels Hintergrundwissen

Dictionary, LOD, etc Bsp.: DBpedia Spotlight

3.  Regelbasierte Extraktion Formale Sprache Jape/Jape+ Bsp.: OntosMiner, GATE, UIMA

4.  Künstliche Intelligenz, statistische Verfahren, maschinelles Lernen Latent Semantic Analysis, Vector Space Model, TF-IDF Bsp.: Eventos

5.  Kombination 1-4

Page 5: Bdk fachforum (gpec)   big data und intelligente datenanalyse

Triplifizierung,  No-­‐SQL  /  RDF  Store  

5  

No-SQL / RDF Vorteile •  Flexibilität (Schema less) •  Standard -> RDF / SPARQL •  Semantische Suche •  Triplifizierung RDBMS nach RDF

Nachteil(e) •  Performance (Noch) •  (Noch) Keine Out-of-the-box BI

Tools

RDF Store

Page 6: Bdk fachforum (gpec)   big data und intelligente datenanalyse

Datenintegra0on  /  Linking  and  Fusion  

6  

Entity “A” Entity “B”

Pro

perti

es o

f A

Pro

perti

es o

f B

Page 7: Bdk fachforum (gpec)   big data und intelligente datenanalyse

Das  Gleiche  ?  Ein  Beispiel…  

7  

Scores: Best Match „0.89“ vs Worst Match „0.138“

Fuzzy string comparison methods

VSM  –  TFIDF  =  0.92   Vector Space Model

Page 8: Bdk fachforum (gpec)   big data und intelligente datenanalyse

PAK  POISK  Praxisbeispiel  “Special  Troops,  Russland”  

Page 9: Bdk fachforum (gpec)   big data und intelligente datenanalyse

9

Pak  Poisk  -­‐  Portal  

Page 10: Bdk fachforum (gpec)   big data und intelligente datenanalyse

10

Pak  Poisk  -­‐  Visualisierungen  

Page 11: Bdk fachforum (gpec)   big data und intelligente datenanalyse

Pak  Poisk  -­‐  Timeline  Analyse  

11

Page 12: Bdk fachforum (gpec)   big data und intelligente datenanalyse

12

Ausblick  -­‐  LiDaKrA  

Page 13: Bdk fachforum (gpec)   big data und intelligente datenanalyse

Danke  

13  

Page 14: Bdk fachforum (gpec)   big data und intelligente datenanalyse

Research  Interest  Linked  (Open)  Data  for  Government  &  Enterprises  NLP,  Seman0c  Web,  Business  Impact  of  Linked  Data  Linked  Data  and  Value  Chain    Ac3vi3es  Ontos:  Forschung  EU  FP7  –  GeoKnow,  Forschung  KTI-­‐DoW  (SAKE,  LiDaKrA)    NRU/HSE:  LOD  Russia,  RIA  Novos0,  LOD  for  City  of  Moscow  KESW  2012  (Lecture  Linked  Enterprise  Data),  KESW’13  (Co-­‐Chair)  PC  member  at  ISWC/WoLE  (2012,  2013),  MLW  Rome  (2013)  W3C  Russia  office  hosted  by  NRU  HSE    

NRU HSE / W3C Russia Slavyanskaya Sq. 4 Bldg. 2 109074 Moscow, Russia E: [email protected] E: [email protected] E: [email protected] http://www.hse.ru/org/hse/iit/semant/

Daniel Hladky

14