Bdk fachforum (gpec) big data und intelligente datenanalyse

14
09 September 2014 Daniel Hladky Semantic Web Lab at HSE/W3C Vorstand Ontos AG Na0onal Research University Higher School of Economics Big Data und intelligente Datenanalyse “ Pak Poisk” Impulsvortrag BDK-Fachforum 09.09.2014 Täglich werden 2.5 Trillionen Bytes an Daten produziert

description

Big Data udn intelligente Analyse. This motivational talk was given at the GPEC conference hosted and organised by BDK. In the talk I address topics of linked data, information extraction, rdf and sparql and provide a real world example from a Russian customer.

Transcript of Bdk fachforum (gpec) big data und intelligente datenanalyse

Page 1: Bdk fachforum (gpec)   big data und intelligente datenanalyse

09  September  2014  

Daniel Hladky Semantic Web Lab at HSE/W3C Vorstand Ontos AG

Na0onal  Research  University  Higher  School  of  Economics  

Big Data und intelligente Datenanalyse “ Pak Poisk”

Impulsvortrag BDK-Fachforum 09.09.2014

Täglich werden 2.5 Trillionen Bytes an Daten produziert

Page 2: Bdk fachforum (gpec)   big data und intelligente datenanalyse

Daten  und  Analyse  

2  

Structured data sources like CSV, XLS, RDBMS

Unstructured text document sources like HTML

Smart Data Integration based on Linked Data

Data storages

RDBMS  

BI, Reporting, Analisys

TextMining

RDF  Store  

Page 3: Bdk fachforum (gpec)   big data und intelligente datenanalyse

3  

Herausforderungen  

Herausforderungen (Auszug) •  Data Crawling (web, deep

web…) •  Aggregation •  Daten verstehen, extrahieren •  Daten integrieren •  Daten speichern (flexibel) •  Daten auswerten, analysieren

Semantic Knowledge Base

Datenanalyse Web, Deep Web (External)

(Semi-) Strukturierte und unstrukturierte Daten

Page 4: Bdk fachforum (gpec)   big data und intelligente datenanalyse

Wissen  aus  Text  generieren  

4  

Läsungsansätze – NLP/HLT 1.  Manuelles Annotieren

Mittels Vokabular (Taxonomie/Ontologie) 2.  Extraktion mittels Hintergrundwissen

Dictionary, LOD, etc Bsp.: DBpedia Spotlight

3.  Regelbasierte Extraktion Formale Sprache Jape/Jape+ Bsp.: OntosMiner, GATE, UIMA

4.  Künstliche Intelligenz, statistische Verfahren, maschinelles Lernen Latent Semantic Analysis, Vector Space Model, TF-IDF Bsp.: Eventos

5.  Kombination 1-4

Page 5: Bdk fachforum (gpec)   big data und intelligente datenanalyse

Triplifizierung,  No-­‐SQL  /  RDF  Store  

5  

No-SQL / RDF Vorteile •  Flexibilität (Schema less) •  Standard -> RDF / SPARQL •  Semantische Suche •  Triplifizierung RDBMS nach RDF

Nachteil(e) •  Performance (Noch) •  (Noch) Keine Out-of-the-box BI

Tools

RDF Store

Page 6: Bdk fachforum (gpec)   big data und intelligente datenanalyse

Datenintegra0on  /  Linking  and  Fusion  

6  

Entity “A” Entity “B”

Pro

perti

es o

f A

Pro

perti

es o

f B

Page 7: Bdk fachforum (gpec)   big data und intelligente datenanalyse

Das  Gleiche  ?  Ein  Beispiel…  

7  

Scores: Best Match „0.89“ vs Worst Match „0.138“

Fuzzy string comparison methods

VSM  –  TFIDF  =  0.92   Vector Space Model

Page 8: Bdk fachforum (gpec)   big data und intelligente datenanalyse

PAK  POISK  Praxisbeispiel  “Special  Troops,  Russland”  

Page 9: Bdk fachforum (gpec)   big data und intelligente datenanalyse

9

Pak  Poisk  -­‐  Portal  

Page 10: Bdk fachforum (gpec)   big data und intelligente datenanalyse

10

Pak  Poisk  -­‐  Visualisierungen  

Page 11: Bdk fachforum (gpec)   big data und intelligente datenanalyse

Pak  Poisk  -­‐  Timeline  Analyse  

11

Page 12: Bdk fachforum (gpec)   big data und intelligente datenanalyse

12

Ausblick  -­‐  LiDaKrA  

Page 13: Bdk fachforum (gpec)   big data und intelligente datenanalyse

Danke  

13  

Page 14: Bdk fachforum (gpec)   big data und intelligente datenanalyse

Research  Interest  Linked  (Open)  Data  for  Government  &  Enterprises  NLP,  Seman0c  Web,  Business  Impact  of  Linked  Data  Linked  Data  and  Value  Chain    Ac3vi3es  Ontos:  Forschung  EU  FP7  –  GeoKnow,  Forschung  KTI-­‐DoW  (SAKE,  LiDaKrA)    NRU/HSE:  LOD  Russia,  RIA  Novos0,  LOD  for  City  of  Moscow  KESW  2012  (Lecture  Linked  Enterprise  Data),  KESW’13  (Co-­‐Chair)  PC  member  at  ISWC/WoLE  (2012,  2013),  MLW  Rome  (2013)  W3C  Russia  office  hosted  by  NRU  HSE    

NRU HSE / W3C Russia Slavyanskaya Sq. 4 Bldg. 2 109074 Moscow, Russia E: [email protected] E: [email protected] E: [email protected] http://www.hse.ru/org/hse/iit/semant/

Daniel Hladky

14