profi master 2011 · 2015. 9. 21. · big data 2 01.09.2014 profi webcast: big data stefan held...
TRANSCRIPT
BIG DATAPROFI Webcast
VORSTELLUNG
BIG DATA
01.09.2014 PROFI Webcast: Big Data2
Stefan Held
Software Architekt
PROFI GS Bochum
Schwerpunkte:
• Business Intelligence & Analytics
• Big Data & Data Warehouse
• CRM
WIE KOMMT MAN ZU BIG DATA?
BIG DATA
01.09.2014 PROFI Webcast: Big Data3
DB-Admin
DWH
CRM
„Ich
brauche da
mal…“
„Das geht
sowieso
nicht…“
Weitere
Datenquellen
Daten in
Zusammen-
hang bringen
Suche nach
Einfluss-
faktorenMehrere
Daten-Ziele
Entscheidungen
aus Daten
ableiten!
EINE FRAGE – VIELE ANTWORTEN
BIG DATA
01.09.2014 PROFI Webcast: Big Data4
Big Data = „3V“
Velocity Volume Variety
Gartner
Veracity Value
EINE FRAGE – VIELE ANTWORTEN
BIG DATA
01.09.2014 PROFI Webcast: Big Data5
Aber…
• Wie wo fängt „groß“ an? GB? TB? PB?
• Wie schnell ist „schnell“ ?
• Wie viele unterschiedliche Arten und Formate?
Es gibt keine eindeutige Definition
EINE FRAGE – VIELE ANTWORTEN
BIG DATA
01.09.2014 PROFI Webcast: Big Data6
Verknüpfung:
• Silogrenzen überwinden
• Gemeinsamkeiten finden
• Stammdaten abgleichen
Technologie:
• Skalierbarkeit
• Geschwindigkeit
• Analyse
Zusammenarbeit:
• IT + Fachabteilung
• Gemeinsames Verständnis
von Inhalten und Technologie
EINE FRAGE – VIELE ANTWORTEN
BIG DATA
01.09.2014 PROFI Webcast: Big Data7
„Big Data is more analytics on more data for more people“
“Big data is like teenage sex: everyone talks about it, nobody really knows how to do
it, everyone thinks everyone else is doing it, so everyone claims they are doing it.”
Und… (cum grano salis):
WARUM?
BIG DATA
01.09.2014 PROFI Webcast: Big Data8
Bauchgefühl oder Zahlen?
• Entscheidungen werden nach Bauchgefühl getroffen?
Aber: Das Bauchgefühl ist subjektiv und schwer zu belegen!
Argumentationsproblem wenn‘s „schiefgeht“
• Entscheidungen werden nach Zahlenlage getroffen!
Aber: Sind die Zahlen vollständig? Zeigen sie die ganze
Wahrheit?
Sonst kann bestens belegter Unsinn herauskommen
Die Herausforderung besteht also darin, Bauchgefühl und Zahlen in
Übereinstimmung zu bringen
…
WARUM?
BIG DATA
01.09.2014 PROFI Webcast: Big Data9
Veränderungen schlagen sich zuerst in den Daten nieder, bevor sie für den
Menschen offensichtlich werden.
• Schnellere Reaktion auf Veränderungen der Umgebung
• Früherkennung von Trends und Risiken
Dafür ist ein hinreichend großer, schneller und gut integrierter
Datenbestand erforderlich.
Dafür sind schnelle und umfassende Analysewerkzeuge erforderlich
Dafür ist ein gemeinsames Verständnis von „was suchen wir“ und „wie
suchen wir“ erforderlich.
WARUM?
BIG DATA
01.09.2014 PROFI Webcast: Big Data10
Reduzierung von manuellem Aufwand
• Die Fragestellungen, auf die Big Data eine Antwort geben kann, existieren
bereits vorher.
• In vielen Fällen werden diese durch aufwändige manuelle
Nachforschungen und Datenabgleiche beantwortet.
• Um Zusammenhänge zu identifizieren, ist manuelle Verarbeitung
akzeptabel, aber für eine produktive Nutzung müssen diese
Zusammenhänge in Systeme hineingebracht werden.
WORUM GEHT ES ALSO?
BIG DATA
01.09.2014 PROFI Webcast: Big Data11
• Am Ende geht es darum, Entscheidungen aus Daten abzuleiten und Daten
besser zu nutzen.
• Diese Daten müssen so vollständig, so gut integriert und so schnell
verfügbar sein, dass sie für den vorgesehenen Zweck genutzt werden
können!
• Wie BIG das dann ist und welche Technologie dafür notwendig ist, ergibt
sich aus der Aufgabe.
• Oft sind die „klassischen“ Datenbank- und DWH-Technologien dafür nicht
geeignet.
TECHNOLOGIEN
BIG DATA
01.09.2014 PROFI Webcast: Big Data12
Hadoop
• Oft als Synonym zu Big Data verstanden, ist aber nur eine mögliche
Basistechnologie, sehr weit verbreitet.
• Prinzip der verteilten Datenhaltung und –verarbeitung auf Commodity-HW
• Open Source Projekt (Apache), erhältlich in vielen sehr unterschiedlich
ausgeprägten freien und kommerziellen Produktvarianten und darauf
aufbauenden Gesamtlösungen.
• Besteht aus dem Dateisystem HDFS sowie diversen Tools für
Datenabfrage, Datenpflege und Administration
• Mehr auf Dateigröße als auf Dateianzahl ausgelegt
• Optimiert für Write Once – Read Many
• Basis für HBase als Datenbank
TECHNOLOGIEN
BIG DATA
01.09.2014 PROFI Webcast: Big Data13
NoSQL-Datenbanken
• Datenbanken ohne feste Schemadefinitionen, keine starren Tabellen,
keine relationale Darstellung
• Dokumentenorientierte Datenbanken, Key-Value-Stores, Graphen- oder
Objekt-DBs
• Verteilte Datenhaltung
• Sehr große Datenmengen mit vielen Schreib- und Lesezugriffen
• Abfrage wird direkt in der Anwendung programmiert, ohne
Zwischenschaltung einer Abfragesprache
TECHNOLOGIEN
BIG DATA
01.09.2014 PROFI Webcast: Big Data14
Echtzeit-Datenströme
• Verarbeitung von Daten zum Zeitpunkt der Entstehung oder zeitnah
danach
• Große Datenmengen in kurzer Zeit
• Keine bzw. nur kurzfristige Speicherung der Daten bzw. Speicherung einer
Auswahl
• Unmittelbare Reaktion auf gefundene Situationen
• Erkenntnisse nur aus gegenwärtigen Daten gewinnen
TECHNOLOGIEN
BIG DATA
01.09.2014 PROFI Webcast: Big Data15
In-Memory-Technik
• Verlagerung der Datenhaltung von der Platte in den Hauptspeicher
• Deutlich schnellere Zugriffszeiten
• Als In-Memory-Datenbank oder als Zwischenspeicher/Puffer
• Optimiert als Appliance-Lösung oder als einzelnes Software-Produkt
• Mit oder ohne Durchschreiben auf die Platte
• Leistungsfähigkeit wird durch höheren Preis erkauft
TECHNOLOGIEN
BIG DATA
01.09.2014 PROFI Webcast: Big Data16
Text Analytics
• Verwendung / Nutzbarmachung unstrukturierter Daten
• Verknüpfung von strukturierten und unstrukturierten Daten
• Natural Language Processing
• Aus Logfiles, Sensordaten etc.
• Aus benutzererstellten Textdokumenten
• Aus Webseiten, Social Media, Informationsdiensten etc.
LÖSUNGSANSÄTZE
BIG DATA
01.09.2014 PROFI Webcast: Big Data17
Think Big – Start Small
• Thema verführt dazu, sich zu „verlaufen“
• Überschaubares Startprojekt auswählen, aber trotzdem Erweiterung,
Skalierbarkeit, zukünftige Datenquellen und Anwendungsmöglichkeiten im
Auge behalten
Das richtige Startprojekt
• Bau und erste Nutzung der Plattform
• Sichtbare / Messbare Auswirkungen für schnelle Akzeptanz
• Am besten mit direktem Erfolg für die eigenen Kunden
Das Wissen um die Inhalte, Zusammenhänge und Einflussgrößen ist beim
Kunden vorhanden! Es geht darum, es maschinell nutzbar zu machen!
LÖSUNGSANSÄTZE
BIG DATA
01.09.2014 PROFI Webcast: Big Data18
Beispielanwendung: Logistik Vorhersage der Lieferzeiten verbessern
Nutzung von:
• Verkehrsdaten, Wetterdaten, usw.
• Historische Statistikdaten
• Frachtvolumen, Routen, Daten von Be-/Entladeorten, zeitliche Abhängigkeiten
Berechnungen:
• Zusammenführung der Datenquellen
• Anwendung statistischer Vorhersagemethoden
Verbesserte Vorhersage der Ankunftstermine
Nutzung für:
• Kundeninformation
• Steuerung nachfolgender Vorgänge, Lagerkapazität, etc.
• Dynamische Anpassung von Routen
Start
(pünktl.)
Zwischenstopp
(Hafen überfüllt)
+ 1 Tag
Sturmwarnung
(umfahren)
+ 1 Tag
Ziel
(+ 2 Tage)
LÖSUNGSANSÄTZE
BIG DATA
01.09.2014 PROFI Webcast: Big Data19
Beispielanwendung: Energieversorgung Mehrwert aus Smart Meter Rollout
Nutzung von:
• Kontinuierliche Zählerstände
• Standortinformationen
• Ereignisvorschau
• Wetter
• Preisentwicklung
Verfügbarkeit Verbrauchs-
entwicklung
Vorhersage
Einkaufs-
Steuerung
Angebote
Verwendung für:
• Genauere Bedarfsvorhersage
• Kundenspezifische Abrechnungsmodelle
• Reaktion auf Über- oder Unterversorgung
• Früherkennung von Störungen
• Smart Home Steuerung
LÖSUNGSANSÄTZE
BIG DATA
01.09.2014 PROFI Webcast: Big Data20
Beispielanwendung: IT Betrieb Optimierung einer DWH-Lösung
• Aufteilung in eine „heiße“ und eine „kalte“ Zone
• „Heiße“ Zone:
• Analysestrukturen für verdichtete Daten, zeitkritische Auswertung,
komplexe berechnete Kenngrößen
• Begrenzter Zeitrahmen für Historie
• In-Memory
• Sich ändernde Strukturen nach aktuellen Business-Anforderungen
• „Kalte“ Zone:
• Preiswerter Datenspeicher für Detaildaten und komplette Historie
• Nicht-zeitkritische Auswertungsdaten
• Daten, die im klassischen Data Warehouse aus Platzgründen
weggeworfen werden
• Ablage für strukturierte und unstrukturierte Zusatzdaten
Kostenexplosion durch starken Anstieg der Datenmengen vermeiden!
LÖSUNGSANSÄTZE
BIG DATA
01.09.2014 PROFI Webcast: Big Data21
Beispielanwendung: Predictive / Prescriptive Maintenance
• Nutzung von:
• Sensordaten, Logfiles (Maschine, Umgebung)
• Informationen über aufgetretene Störungen
• Erkennung von Mustern und Anomalien
• Ermittlung von:
• Einflussfaktoren in den historischen Sensordaten auf bereits aufgetretene
Störungen
• Ziel:
• Anwendung der Berechnungsmodelle auf aktuelle Sensordaten zur
Ermittlung der Wahrscheinlichkeit bestimmter Störungen innerhalb eines
Zeitraumes
• Maschinen- und Systemausfälle, Unfälle etc. vermeiden
<data><sensor>1</sensor>
<value>2345.556</value></data><data><sensor>1</sensor>
<value>2345.556</value></data><data><sensor>1</sensor>
<value>2345.556</value></data>
%fail: nnn
Action: xxx
LÖSUNGSANSÄTZE
BIG DATA
01.09.2014 PROFI Webcast: Big Data22
Beispielanwendung: Handel + Produktion: Social Media Analyse
• Nutzung von:
• Produkt- oder unternehmensbezogene Stimmung im Netz
• Käuferprofile
• Detaillierte Umsatzzahlen, -verteilung, -historie
• Ermittlung von:
• Zusammenhängen zwischen Stimmung und Umsatz
• Aufkommenden Problemen, bevor diese ernst werden
• Ziel:
• Früherkennung von Qualitäts- oder Imageproblemen
• Produktverbesserung durch Kundenfeedback
• Früherkennung von Trends
Twitter, Facebook, Foren etc.
Vertriebshistorie Profile
Produktdaten
Erkenntnisse
AUF DEM WEG ZUM PROJEKT
BIG DATA
01.09.2014 PROFI Webcast: Big Data23
Häufig anzutreffender Ist-Zustand:
• IT hat nicht genügend Einblick in die Bedürfnisse der Fachabteilungen
• Die Fachabteilung versteht die Möglichkeiten von IT nicht
(und traut sich vielleicht auch nicht mehr, nachzufragen)
• Kommunikation nur über standardisierte Anforderungswege
• Komplexe Fragestellungen werden mit viel Aufwand und geringer Aktualität
per Excel-Datenabgleich beantwortet
• Investitionen in das DWH gehen in die Erhaltung des Ist-Zustandes bzw. das
Mithalten mit dem Daten-Wachstum – ohne Funktionsgewinn
DER RICHTIGE ANSPRECHPARTNER
BIG DATA
01.09.2014 PROFI Webcast: Big Data24
Big Data: Alle Daten in eine gemeinsame Umgebung bringen!
Alle Beteiligten in eine gemeinsame Umgebung bringen!
Big Data Lösungen entstehen um eine Business-Idee herum!
Mehrere Anwendungen kennen, bevor die Plattform gebaut wird!
Mehrere Ansprechpartner!
Sorgfältige Auswahl des ersten Projektes!
DIE RICHTIGE ZIELSETZUNG
BIG DATA
01.09.2014 PROFI Webcast: Big Data25
• Anforderungen und Möglichkeiten zusammenbringen
• Neue Erkenntnisse gewinnen, Chancen und Probleme aufdecken
• Bestehende Erkenntnisprozesse optimieren und automatisieren
• Einsparpotenziale der neuen Technologien nutzen
PRODUKTE
BIG DATA
01.09.2014 PROFI Webcast: Big Data26
TalendMicrosoft
Oracle
Teradata
PRODUKTE
BIG DATA
01.09.2014 PROFI Webcast: Big Data27
PROFI-Leistungen im Big Data Umfeld:
• Anforderungsanalyse
• Beratung
• Unterstützung bei der Produktauswahl
• Modellierung und Implementierung
• Inbetriebnahme
• Service
VIELEN DANK FÜR
IHRE AUFMERKSAMKEITSTEFAN HELDSOFTWARE-ARCHITEKT
TEL: 0234-29845-4534
MOBIL: 0171-8629084
EMAIL: [email protected]
01.09.2014 PROFI Webcast: Big Data28