Quarterly Technology Briefing - Big Data - Germany
-
Upload
thoughtworks -
Category
Technology
-
view
4.512 -
download
0
Transcript of Quarterly Technology Briefing - Big Data - Germany
H a m b u r g , J u n e 2 0 1 4
QUARTERLY TECHNOLOGY BRIEFING
Moin!
2
3
4
AGENDA
▫︎Was ist ‘Big Data’
▫︎ Preis Informationen im Einzelhandel
!
▫︎Agile Analytics
▫︎Data Engineer und Data Scientist
!
▫︎AutoTrader und BigQuery
!
▫︎ Social Backlash und Datensparsamkeit
5
WAS IST ‘BIG DATA’
6
VOLUME
VELOCITY
9
VARIABILITY
10
VERACITY
11
VALUE
12
GRUPPO PAM
THE CHALLENGE: PREISINFORMATIONSSYSTEM
!
!
▫︎ Datewarehouse auf TerraData Basis
!
▫︎ Business Requirements änderten sich - IT kam nicht mit
!
▫︎ ~50 analytische Vektoren
!
▫︎ 12 Stunden -> Realtime
13
MICROSERVICES ON STEROIDS
14
…… …
2010 2011 2014
~150 Instanzen
1 Server
200.000.000 Zeilen / Instanz
AGILE ANALYTICS
15
AGILE ANALYTICS
16
analytics
technologies
agile deliverylean learning
`fast
results
17
Value
Complexity
descriptive
diagnostic
predictive
prescriptive
Was ist passiert?
Warum ist es passiert?
Was wird geschehen?
Wie können wir es eintreten lassen?
AGILE ANALYTICS IN ACTION
18
19
Data Lab Operationalisierung
2 Wochen 2 Monate
!
!
Brainstorming
Datenanalyse ~1.000.000 Edges
Experimente / Spikes (Gephi)
Tests mit Mitarbeitern
20
Netzwerk 1. Grades
21
Netzwerk 2. Grades
NEO4J
!
▫︎ “Natural fit” für Graphen basierte Queries
!
▫︎Basis Graph Algorithmen “on-board”
▫︎ Shortest Path, Centrality, Pattern Matching
!
▫︎ Java API mit guter Performance
▫︎Netzwerk einer Person (400 Nodes) in < 1 Sekunde
22
23
Data Lab Operationalisierung
2 Wochen 2 Monate
!
!
Neo4j als Datastore
Batch Import (14 Jahre) aus MSSQL
- ~95.000.000 Edges
Dropwizard (REST, HealtChecks) - read only
A/B Testing via Email
ROLLEN: WER MACHT WAS?
!
▫︎ Ergänzung zur klassischen IT
!
▫︎ Kernkompetenzen
24
data engineer
data scientist
DATA ENGINEER
!
!
▫︎ Implementiert das analytische Modell in Produktion
!
▫︎ Schnittstelle zur Softwareentwicklung
!
▫︎ Expertise in SQL, NoSQL, Datenmodellierung, Infrastruktur (Hadoop...)
!
▫︎Unterstützt den “Data Scientist” bei Mining und Aufbereitung
25
DATA SCIENCE
26
data engineering
scientific method math
domain expertise
data science statistics
hacker mindset visualization advanced
computing
“SEXIEST JOB OF THE 21ST CENTURY”
Hat Annahmen und überprüft diese !
“Hacker-Mentalität” !
Hilft durch fundierte Informationen Entscheidungen zu treffen !
Validiert das Alleinstellungsmerkmal des Produktes !
Weiss wie man die richtigen Fragen stellt
27
DATA SCIENTIST
Machine Learning Support Vector Machines
Decision Trees
Clustering, ...
Domain-Wissen Geschäftliches Detailwissen
Statistische Modellierung Bayes-Klassifikation
K-Nearest-Neighbour, ...
Programmierung R, Matlab, Python, ...
28
BEISPIEL ANALYSE
Multiple-Choice
!
▫︎ 10 Fragen
▫︎ 4 mögliche Antworten
!
ergibt 40 dimensionalen Vektor
!
!
!
Welches Wissen im Datensatz?
29
K-MODES CLUSTERING
!
▫︎ Für kategoriale Daten
▫︎ Ähnlich K-Means, modifiziert @ Bell Labs
!
!
!
!
!
Quelle: Weston Pace (Wikimedia Commons, cc-by-sa)
30
K-MEANS VS K-MODES
!
!
▫︎ Vereinfachung der Vektorbildung/Euklidische Distanz
!
▫︎ Stattdessen: Abzählen der erfolgreichsten Antwort (“mode”)
!
▫︎ Einfache Distanz: Anzahl der Verschiedenen Antworten
31
VEREINFACHUNG ALS VORTEIL
!
!
!
K-Modes erzwingt eine klarere Cluster-Bildung
!
!
Schlechte Performance bei schwacher Korrelation
32
33
GOOGLE BIG QUERY
!
!
▫︎Queries über Milliarden von Zeilen in Sekunden
!
▫︎Gut zum analysieren, aber nicht zum modifizieren
!
▫︎ Keine eigene Infrastruktur benötigt
!
▫︎ Einfaches Setup durch gutes Tooling: gsutil / bq
34
AUTOTRADER UK / GOOGLE BIG QUERY
!
▫︎ 3 Entwickler / 5 Tage / 5 Jahre Datenbestand (~1.500.000.000 Zeilen)
!
▫︎Queries via BigQuery WebConsole, später API
!
▫︎Google App Engine Frontend mit Google Charts
35
SOCIAL IMPACT
36
ETHISCHE GESICHTSPUNKTE
!
!
!
▫︎Daten als neue Währung
!
▫︎ Technologischer Fortschritt im Konflikt mit gesellschaftlicher Norm
37
ETHISCHE GESICHTSPUNKTE
“How Target Figured Out A Teen Girl Was Pregnant Before Her Father Did”
38
INFORMATIONELLE SELBSTBESTIMMUNG
!
!
Rechtliche Anforderung, § 3a BSDG
!
Aktuelle Themen
NSA-Affäre
Datendiebstahl
!
Betrifft alle die private Daten speichern und verarbeiten
39
DOE VERSUS NETFLIX
▫︎ $1.000.000 Wettbewerb um das Netflix Recommendation-System zu verbessern
!
▫︎ Veröffentlichung eines pseudonymisierter Datensets
!
▫︎ Kreuzkorrelation zu öffentlichen Bewertungen auf IMDB.com
!
▫︎ Ermöglichte Zuordnung zu bekannten Benutzerprofilen
40
DATENSPARSAMKEIT
!
Datenerhebung nur soweit für die Erfüllung der Aufgabe nötig
41
KONKRETE LÖSUNGEN
!
!
▫︎Unique visitors?
▫︎ Gehashte IP-Adressen
!
▫︎Geo-IP Zuordnung
▫︎ Auslassen des 4. Oktetts
!
!
!
Quelle: Martin Fowler “Datensparsamkeit”
42
…
43
CREDITS
Chris: http://www.wired.com/images_blogs/wiredscience/2014/01/ff_lovehacker_f.jpg
Clustering: http://www.wired.com/images_blogs/wiredscience/2014/01/ff_lovehacker2_large.jpg
Chris + Wife: http://i.huffpost.com/gen/1579914/thumbs/o-OKCUPID-LOVE-facebook.jpg
Kassenbon: http://www.kundenkunde.de/wp-content/uploads/2011/06/kassenbon_kaufland_gross.jpg
Data Science: http://upload.wikimedia.org/wikipedia/commons/4/44/DataScienceDisciplines.png
K-Means http://commons.wikimedia.org/wiki/File:K_Means_Example_Step_1.svg und folgende
45