quarterly technology briefing - big data - germany

Post on 20-Aug-2015

4.512 Views

Category:

Technology

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

H a m b u r g , J u n e 2 0 1 4

QUARTERLY TECHNOLOGY BRIEFING

Moin!

2

3

4

AGENDA

▫︎Was ist ‘Big Data’

▫︎ Preis Informationen im Einzelhandel

!

▫︎Agile Analytics

▫︎Data Engineer und Data Scientist

!

▫︎AutoTrader und BigQuery

!

▫︎ Social Backlash und Datensparsamkeit

5

WAS IST ‘BIG DATA’

6

VOLUME

VELOCITY

9

VARIABILITY

10

VERACITY

11

VALUE

12

GRUPPO PAM

THE CHALLENGE: PREISINFORMATIONSSYSTEM

!

!

▫︎ Datewarehouse auf TerraData Basis

!

▫︎ Business Requirements änderten sich - IT kam nicht mit

!

▫︎ ~50 analytische Vektoren

!

▫︎ 12 Stunden -> Realtime

13

MICROSERVICES ON STEROIDS

14

…… …

2010 2011 2014

~150 Instanzen

1 Server

200.000.000 Zeilen / Instanz

AGILE ANALYTICS

15

AGILE ANALYTICS

16

analytics

technologies

agile deliverylean learning

`fast

results

17

Value

Complexity

descriptive

diagnostic

predictive

prescriptive

Was ist passiert?

Warum ist es passiert?

Was wird geschehen?

Wie können wir es eintreten lassen?

AGILE ANALYTICS IN ACTION

18

19

Data Lab Operationalisierung

2 Wochen 2 Monate

!

!

Brainstorming

Datenanalyse ~1.000.000 Edges

Experimente / Spikes (Gephi)

Tests mit Mitarbeitern

20

Netzwerk 1. Grades

21

Netzwerk 2. Grades

NEO4J

!

▫︎ “Natural fit” für Graphen basierte Queries

!

▫︎Basis Graph Algorithmen “on-board”

▫︎ Shortest Path, Centrality, Pattern Matching

!

▫︎ Java API mit guter Performance

▫︎Netzwerk einer Person (400 Nodes) in < 1 Sekunde

22

23

Data Lab Operationalisierung

2 Wochen 2 Monate

!

!

Neo4j als Datastore

Batch Import (14 Jahre) aus MSSQL

- ~95.000.000 Edges

Dropwizard (REST, HealtChecks) - read only

A/B Testing via Email

ROLLEN: WER MACHT WAS?

!

▫︎ Ergänzung zur klassischen IT

!

▫︎ Kernkompetenzen

24

data engineer

data scientist

DATA ENGINEER

!

!

▫︎ Implementiert das analytische Modell in Produktion

!

▫︎ Schnittstelle zur Softwareentwicklung

!

▫︎ Expertise in SQL, NoSQL, Datenmodellierung, Infrastruktur (Hadoop...)

!

▫︎Unterstützt den “Data Scientist” bei Mining und Aufbereitung

25

DATA SCIENCE

26

data engineering

scientific method math

domain expertise

data science statistics

hacker mindset visualization advanced

computing

“SEXIEST JOB OF THE 21ST CENTURY”

Hat Annahmen und überprüft diese !

“Hacker-Mentalität” !

Hilft durch fundierte Informationen Entscheidungen zu treffen !

Validiert das Alleinstellungsmerkmal des Produktes !

Weiss wie man die richtigen Fragen stellt

27

DATA SCIENTIST

Machine Learning Support Vector Machines

Decision Trees

Clustering, ...

Domain-Wissen Geschäftliches Detailwissen

Statistische Modellierung Bayes-Klassifikation

K-Nearest-Neighbour, ...

Programmierung R, Matlab, Python, ...

28

BEISPIEL ANALYSE

Multiple-Choice

!

▫︎ 10 Fragen

▫︎ 4 mögliche Antworten

!

ergibt 40 dimensionalen Vektor

!

!

!

Welches Wissen im Datensatz?

29

K-MODES CLUSTERING

!

▫︎ Für kategoriale Daten

▫︎ Ähnlich K-Means, modifiziert @ Bell Labs

!

!

!

!

!

Quelle: Weston Pace (Wikimedia Commons, cc-by-sa)

30

K-MEANS VS K-MODES

!

!

▫︎ Vereinfachung der Vektorbildung/Euklidische Distanz

!

▫︎ Stattdessen: Abzählen der erfolgreichsten Antwort (“mode”)

!

▫︎ Einfache Distanz: Anzahl der Verschiedenen Antworten

31

VEREINFACHUNG ALS VORTEIL

!

!

!

K-Modes erzwingt eine klarere Cluster-Bildung

!

!

Schlechte Performance bei schwacher Korrelation

32

33

GOOGLE BIG QUERY

!

!

▫︎Queries über Milliarden von Zeilen in Sekunden

!

▫︎Gut zum analysieren, aber nicht zum modifizieren

!

▫︎ Keine eigene Infrastruktur benötigt

!

▫︎ Einfaches Setup durch gutes Tooling: gsutil / bq

34

AUTOTRADER UK / GOOGLE BIG QUERY

!

▫︎ 3 Entwickler / 5 Tage / 5 Jahre Datenbestand (~1.500.000.000 Zeilen)

!

▫︎Queries via BigQuery WebConsole, später API

!

▫︎Google App Engine Frontend mit Google Charts

35

SOCIAL IMPACT

36

ETHISCHE GESICHTSPUNKTE

!

!

!

▫︎Daten als neue Währung

!

▫︎ Technologischer Fortschritt im Konflikt mit gesellschaftlicher Norm

37

ETHISCHE GESICHTSPUNKTE

“How Target Figured Out A Teen Girl Was Pregnant Before Her Father Did”

38

INFORMATIONELLE SELBSTBESTIMMUNG

!

!

Rechtliche Anforderung, § 3a BSDG

!

Aktuelle Themen

NSA-Affäre

Datendiebstahl

!

Betrifft alle die private Daten speichern und verarbeiten

39

DOE VERSUS NETFLIX

▫︎ $1.000.000 Wettbewerb um das Netflix Recommendation-System zu verbessern

!

▫︎ Veröffentlichung eines pseudonymisierter Datensets

!

▫︎ Kreuzkorrelation zu öffentlichen Bewertungen auf IMDB.com

!

▫︎ Ermöglichte Zuordnung zu bekannten Benutzerprofilen

40

DATENSPARSAMKEIT

!

Datenerhebung nur soweit für die Erfüllung der Aufgabe nötig

41

KONKRETE LÖSUNGEN

!

!

▫︎Unique visitors?

▫︎ Gehashte IP-Adressen

!

▫︎Geo-IP Zuordnung

▫︎ Auslassen des 4. Oktetts

!

!

!

Quelle: Martin Fowler “Datensparsamkeit”

42

43

thoughtworks.com/join

DANKE!

CREDITS

Chris: http://www.wired.com/images_blogs/wiredscience/2014/01/ff_lovehacker_f.jpg

Clustering: http://www.wired.com/images_blogs/wiredscience/2014/01/ff_lovehacker2_large.jpg

Chris + Wife: http://i.huffpost.com/gen/1579914/thumbs/o-OKCUPID-LOVE-facebook.jpg

Kassenbon: http://www.kundenkunde.de/wp-content/uploads/2011/06/kassenbon_kaufland_gross.jpg

Data Science: http://upload.wikimedia.org/wikipedia/commons/4/44/DataScienceDisciplines.png

K-Means http://commons.wikimedia.org/wiki/File:K_Means_Example_Step_1.svg und folgende

45

top related