business intelligence in_der_cloud_hauswald_mai2011
DESCRIPTION
Der klassische Ansatz für Business Intelligence bedient sich der Prinzipien aus der Batchverarbeitung und all ihrer Nachteile, wie die mangelnde Echtzeitfähigkeit, die starke Kopplung an die Quellen und hohe Investitionskosten. Mit modernen Ansätzen wie Map/Reduce und der Rechenleistung der vorhandenen Rechenzentren können existierende Quellen schneller und kostengünstiger analysiert werden. Dabei ist es nicht zwingend notwendig, Cloud Computing einzusetzen. Dennoch ist es möglich die Datenverarbeitung und -auswertung dort durchführen zu lassen.TRANSCRIPT
© Zühlke 2011
Alexander Hauswald
Besiege die Datenflut
Business Intelligence in der Cloud
17. Mai 2011Folie 1
© Zühlke 2011
Heute
Folie 2Besiege die Datenflut - BI und die Cloud | Alexander Hauswald
© Zühlke 2011
Datenmengen bei Facebook und Twitter2009
Folie 3
• +200B pageviews/month
• >3.9T feed actions /day
• +300M active users
• >1B chat mesgs/day
• 100M search queries /day
• >6B minutes spent /day
• +20B photos, +2B/month growth
• 600,000 photos served /sec
• 25TB log data /day processed thru Scribe
• 120M queries /sec on memcache
• 600 requests /sec
• avg200-300 connections /sec; peak at 800
• MySQL handles 2,400 requests /sec
• 30+ processes for handling odd jobs
• process a request in 200 milliseconds in Rails
• average time spent in the database is 50-100 milliseconds
• +16 GB of memcached
Besiege die Datenflut - BI und die Cloud | Alexander Hauswald
© Zühlke 2011
Alexander Hauswald
Image: Chris Sharp / FreeDigitalPhotos.net
Alles geht in die Cloud…
© Zühlke 2011
Cloud Computing
• Noch keine akzeptierte Definition gefunden
• NIST Definition of Cloud Computing, Version 15, 7.10.2009– “Cloud computing is a model for enabling convenient, on-demand
network access to a shared pool of configurable computing resources (e.g., networks, servers, storage, applications, and services) that can be rapidly provisioned and released with minimal management effort or service provider interaction. This cloud model promotes availability and is composed of five essential characteristics, three service models, and four deployment models.”
• häufig genannte Aspekte:– Skalierbar: imaginär unendlich viele Ressourcen– Flexibel: dynamische Anforderung von mehr oder weniger Ressourcen– Automatisiert: alles kann gescripted werden– Business Modell: Pay-per-Use
Folie 5Besiege die Datenflut - BI und die Cloud | Alexander Hauswald
© Zühlke 2011
Service Modelle IaaS, PaaS, SaaS
© Microsoft 2010
Folie 6Besiege die Datenflut - BI und die Cloud | Alexander Hauswald
© Zühlke 2011
Typische Einsatzszenarien
• Internet scale Web Applikationen– Nutzerbasis weltweit– Integration mit existierenden APIs– Transient campaigns
• Mobile Geräte mit der Cloud verbinden– Gerade im Energiemarkt bereits im Einsatz
• Entwicklungs/Test Umgebungen– Dynamic provisioning of dev/test resources– Pay for usage
• Last zu Spitzenzeiten– Web Applikationen
• Large scale Datenanalyse– eScience, Financial risk calculations, Government statistical
data, Business Intelligence
Folie 7Besiege die Datenflut - BI und die Cloud | Alexander Hauswald
© Zühlke 2011
Batches Cloud
Large Scale Datenanalyse mit Hilfe von Batches und Cloud Computing
25. Januar 2011
Nur zeitweise genutzt
Hohe Rechenkapazitäten benötigt
Flexibel skalierbar
Ausführung auf Commodity-Hardware
Pay-per-Use
Folie 8Besiege die Datenflut - BI und die Cloud | Alexander Hauswald
© Zühlke 2011
Grenzen der Batchverarbeitung
• Skalierung– Mehr Hardware?
• Speed– Keine Echtzeitfähigkeit
• Integration– Mehr Quellen
• Datenmenge– Je mehr Daten, desto länger laufen die Berechnungen
17. Mai 2011Besiege die Datenflut - BI und die Cloud | Alexander Hauswald Folie 9
© Zühlke 2011
Was ist Hadoop?
25. Januar 2011
• Plattform für parallele Datenverarbeitung auf Commodity-Hardware
• Konzepte aus der funktionalen Welt
• inspiriert durch Google-Technologien
• Apache Top-Level-Projekt
Folie 10Besiege die Datenflut - BI und die Cloud | Alexander Hauswald
MapReduce
Programmieransatz zur parallelen Datenverarbeitung
25. Januar 2011
Masanori Fujita
Folie 11
map reduce
map(k,v) ����
[(K1,V1), (K2,V2)…]
reduce(Kn, [Vi,Vj…]) ����
(K, R)
© Zühlke 2011
Commons
HDFS
HBase Pig
Hive
Zookeeper
Chukwa Mahout
Hadoop-Zoo
25. Januar 2011 Folie 12Besiege die Datenflut - BI und die Cloud | Alexander Hauswald
© Zühlke 2011
Einsatzszenarien
Data Mining
Indizierung
Reporting
ETL
25. Januar 2011 Folie 13Besiege die Datenflut - BI und die Cloud | Alexander Hauswald
© Zühlke 2011
Business Intelligence klassisch
17. Mai 2011Besiege die Datenflut - BI und die Cloud | Alexander Hauswald
Datenquellen
Dashboards, Reporting, OLAP
ETL
Datawarehouse
Cubes
Folie 14
© Zühlke 2011
Business Intelligence klassischNachteile
• Zeit– Batchläufe– Sind die Daten aktuell oder werden sie gerade noch geladen
• Lizenzkosten– Kosten explodieren mit steigender Datenmenge
• Hardwarekosten
• Geschwindigkeit– Viele Inserts
• Datenmenge– Anzahl der Datenquellen nimmt stark zu– Relationale Datenbanken als Datenbasis sind nicht mehr
ausreichend
17. Mai 2011Besiege die Datenflut - BI und die Cloud | Alexander Hauswald Folie 15
© Zühlke 2011
Hadoop Zoo kann helfen
• Ökosystem– Spezialisierte Frameworks für Teilaufgaben
• Transparenz der Datenquellen– XML, CSV, EDI, JSON, Log, Objects, SQL, Text, Binary
• Performance– Map/Reduce + Skalierung
• Unstrukturierte Daten in strukturierte Daten überführen– Z.B. Logfiles
17. Mai 2011Besiege die Datenflut - BI und die Cloud | Alexander Hauswald Folie 16
© Zühlke 2011
Business Intelligence mit Hadoop Zoo
17. Mai 2011Besiege die Datenflut - BI und die Cloud | Alexander Hauswald
Datenquellen (csv, json, XML, …)
Dashboards, Reporting, OLAP, BAM
HBase
Folie 17
Hadoop
Hive / Pig
HDFS
© Zühlke 2011
Cluster
Zielumgebung
Desktop
Führt Hive / PigAbfragen aus
#1 #2 #3 #4
Ab in die Cloud !
Besiege die Datenflut - BI und die Cloud | Alexander Hauswald
© Zühlke 2011
Zusammenfassung
• Relationale Datenbanken sind keine Schweizer Taschenmesser– Aber jede Technologie hat Ihre Stärken– Auch Kombinationen können spannend sein
• Hadoop Zoo– Lizenzkostenfrei– Echtzeitfähigkeit– Integration– Datenmenge (v.a. für unstrukturierte Daten)
• Cloud– Flexibilität– Skalierbarkeit– Kostentransparenz– Einfach wenn Daten bereits in der Cloud vorhanden sind…
17. Mai 2011Besiege die Datenflut - BI und die Cloud | Alexander Hauswald Folie 19
© Zühlke 2011
Bei Fragen und Anmerkungen
Alexander Hauswald
• Business Unit Manager Enterprise Computing
• Kontaktdaten:
Telefon: +49 89 30 90 52 64 52
Email: [email protected]
Twitter://soa_axel
https://www.xing.com/profile/Alexander_Hauswald
17. Mai 2011Besiege die Datenflut - BI und die Cloud | Alexander Hauswald Folie 20
© Zühlke 2011
Tags BU Enterprise Computing
• Architektur Reviews (eigene Methodologie auf ATAM basierend)
• Performance Analyse/Architektur von verteilten Systemen
• Cloud Computing Workshops
• Mobile Solutions mit Android, iOS, Windows Phone 7
• Client Solutions mit Eclipse RCP
• Usability Engineering
• Requirements Engineering
17. Mai 2011Besiege die Datenflut - BI und die Cloud | Alexander Hauswald Folie 21