business intelligence in_der_cloud_hauswald_mai2011

21
© Zühlke 2011 Alexander Hauswald Besiege die Datenflut Business Intelligence in der Cloud 17. Mai 2011 Folie 1

Upload: zuehlke

Post on 05-Dec-2014

712 views

Category:

Technology


0 download

DESCRIPTION

Der klassische Ansatz für Business Intelligence bedient sich der Prinzipien aus der Batchverarbeitung und all ihrer Nachteile, wie die mangelnde Echtzeitfähigkeit, die starke Kopplung an die Quellen und hohe Investitionskosten. Mit modernen Ansätzen wie Map/Reduce und der Rechenleistung der vorhandenen Rechenzentren können existierende Quellen schneller und kostengünstiger analysiert werden. Dabei ist es nicht zwingend notwendig, Cloud Computing einzusetzen. Dennoch ist es möglich die Datenverarbeitung und -auswertung dort durchführen zu lassen.

TRANSCRIPT

Page 1: Business intelligence in_der_cloud_hauswald_mai2011

© Zühlke 2011

Alexander Hauswald

Besiege die Datenflut

Business Intelligence in der Cloud

17. Mai 2011Folie 1

Page 2: Business intelligence in_der_cloud_hauswald_mai2011

© Zühlke 2011

Heute

Folie 2Besiege die Datenflut - BI und die Cloud | Alexander Hauswald

Page 3: Business intelligence in_der_cloud_hauswald_mai2011

© Zühlke 2011

Datenmengen bei Facebook und Twitter2009

Folie 3

• +200B pageviews/month

• >3.9T feed actions /day

• +300M active users

• >1B chat mesgs/day

• 100M search queries /day

• >6B minutes spent /day

• +20B photos, +2B/month growth

• 600,000 photos served /sec

• 25TB log data /day processed thru Scribe

• 120M queries /sec on memcache

• 600 requests /sec

• avg200-300 connections /sec; peak at 800

• MySQL handles 2,400 requests /sec

• 30+ processes for handling odd jobs

• process a request in 200 milliseconds in Rails

• average time spent in the database is 50-100 milliseconds

• +16 GB of memcached

Besiege die Datenflut - BI und die Cloud | Alexander Hauswald

Page 4: Business intelligence in_der_cloud_hauswald_mai2011

© Zühlke 2011

Alexander Hauswald

Image: Chris Sharp / FreeDigitalPhotos.net

Alles geht in die Cloud…

Page 5: Business intelligence in_der_cloud_hauswald_mai2011

© Zühlke 2011

Cloud Computing

• Noch keine akzeptierte Definition gefunden

• NIST Definition of Cloud Computing, Version 15, 7.10.2009– “Cloud computing is a model for enabling convenient, on-demand

network access to a shared pool of configurable computing resources (e.g., networks, servers, storage, applications, and services) that can be rapidly provisioned and released with minimal management effort or service provider interaction. This cloud model promotes availability and is composed of five essential characteristics, three service models, and four deployment models.”

• häufig genannte Aspekte:– Skalierbar: imaginär unendlich viele Ressourcen– Flexibel: dynamische Anforderung von mehr oder weniger Ressourcen– Automatisiert: alles kann gescripted werden– Business Modell: Pay-per-Use

Folie 5Besiege die Datenflut - BI und die Cloud | Alexander Hauswald

Page 6: Business intelligence in_der_cloud_hauswald_mai2011

© Zühlke 2011

Service Modelle IaaS, PaaS, SaaS

© Microsoft 2010

Folie 6Besiege die Datenflut - BI und die Cloud | Alexander Hauswald

Page 7: Business intelligence in_der_cloud_hauswald_mai2011

© Zühlke 2011

Typische Einsatzszenarien

• Internet scale Web Applikationen– Nutzerbasis weltweit– Integration mit existierenden APIs– Transient campaigns

• Mobile Geräte mit der Cloud verbinden– Gerade im Energiemarkt bereits im Einsatz

• Entwicklungs/Test Umgebungen– Dynamic provisioning of dev/test resources– Pay for usage

• Last zu Spitzenzeiten– Web Applikationen

• Large scale Datenanalyse– eScience, Financial risk calculations, Government statistical

data, Business Intelligence

Folie 7Besiege die Datenflut - BI und die Cloud | Alexander Hauswald

Page 8: Business intelligence in_der_cloud_hauswald_mai2011

© Zühlke 2011

Batches Cloud

Large Scale Datenanalyse mit Hilfe von Batches und Cloud Computing

25. Januar 2011

Nur zeitweise genutzt

Hohe Rechenkapazitäten benötigt

Flexibel skalierbar

Ausführung auf Commodity-Hardware

Pay-per-Use

Folie 8Besiege die Datenflut - BI und die Cloud | Alexander Hauswald

Page 9: Business intelligence in_der_cloud_hauswald_mai2011

© Zühlke 2011

Grenzen der Batchverarbeitung

• Skalierung– Mehr Hardware?

• Speed– Keine Echtzeitfähigkeit

• Integration– Mehr Quellen

• Datenmenge– Je mehr Daten, desto länger laufen die Berechnungen

17. Mai 2011Besiege die Datenflut - BI und die Cloud | Alexander Hauswald Folie 9

Page 10: Business intelligence in_der_cloud_hauswald_mai2011

© Zühlke 2011

Was ist Hadoop?

25. Januar 2011

• Plattform für parallele Datenverarbeitung auf Commodity-Hardware

• Konzepte aus der funktionalen Welt

• inspiriert durch Google-Technologien

• Apache Top-Level-Projekt

Folie 10Besiege die Datenflut - BI und die Cloud | Alexander Hauswald

Page 11: Business intelligence in_der_cloud_hauswald_mai2011

MapReduce

Programmieransatz zur parallelen Datenverarbeitung

25. Januar 2011

Masanori Fujita

Folie 11

map reduce

map(k,v) ����

[(K1,V1), (K2,V2)…]

reduce(Kn, [Vi,Vj…]) ����

(K, R)

Page 12: Business intelligence in_der_cloud_hauswald_mai2011

© Zühlke 2011

Commons

HDFS

HBase Pig

Hive

Zookeeper

Chukwa Mahout

Hadoop-Zoo

25. Januar 2011 Folie 12Besiege die Datenflut - BI und die Cloud | Alexander Hauswald

Page 13: Business intelligence in_der_cloud_hauswald_mai2011

© Zühlke 2011

Einsatzszenarien

Data Mining

Indizierung

Reporting

ETL

25. Januar 2011 Folie 13Besiege die Datenflut - BI und die Cloud | Alexander Hauswald

Page 14: Business intelligence in_der_cloud_hauswald_mai2011

© Zühlke 2011

Business Intelligence klassisch

17. Mai 2011Besiege die Datenflut - BI und die Cloud | Alexander Hauswald

Datenquellen

Dashboards, Reporting, OLAP

ETL

Datawarehouse

Cubes

Folie 14

Page 15: Business intelligence in_der_cloud_hauswald_mai2011

© Zühlke 2011

Business Intelligence klassischNachteile

• Zeit– Batchläufe– Sind die Daten aktuell oder werden sie gerade noch geladen

• Lizenzkosten– Kosten explodieren mit steigender Datenmenge

• Hardwarekosten

• Geschwindigkeit– Viele Inserts

• Datenmenge– Anzahl der Datenquellen nimmt stark zu– Relationale Datenbanken als Datenbasis sind nicht mehr

ausreichend

17. Mai 2011Besiege die Datenflut - BI und die Cloud | Alexander Hauswald Folie 15

Page 16: Business intelligence in_der_cloud_hauswald_mai2011

© Zühlke 2011

Hadoop Zoo kann helfen

• Ökosystem– Spezialisierte Frameworks für Teilaufgaben

• Transparenz der Datenquellen– XML, CSV, EDI, JSON, Log, Objects, SQL, Text, Binary

• Performance– Map/Reduce + Skalierung

• Unstrukturierte Daten in strukturierte Daten überführen– Z.B. Logfiles

17. Mai 2011Besiege die Datenflut - BI und die Cloud | Alexander Hauswald Folie 16

Page 17: Business intelligence in_der_cloud_hauswald_mai2011

© Zühlke 2011

Business Intelligence mit Hadoop Zoo

17. Mai 2011Besiege die Datenflut - BI und die Cloud | Alexander Hauswald

Datenquellen (csv, json, XML, …)

Dashboards, Reporting, OLAP, BAM

HBase

Folie 17

Hadoop

Hive / Pig

HDFS

Page 18: Business intelligence in_der_cloud_hauswald_mai2011

© Zühlke 2011

Cluster

Zielumgebung

Desktop

Führt Hive / PigAbfragen aus

#1 #2 #3 #4

Ab in die Cloud !

Besiege die Datenflut - BI und die Cloud | Alexander Hauswald

Page 19: Business intelligence in_der_cloud_hauswald_mai2011

© Zühlke 2011

Zusammenfassung

• Relationale Datenbanken sind keine Schweizer Taschenmesser– Aber jede Technologie hat Ihre Stärken– Auch Kombinationen können spannend sein

• Hadoop Zoo– Lizenzkostenfrei– Echtzeitfähigkeit– Integration– Datenmenge (v.a. für unstrukturierte Daten)

• Cloud– Flexibilität– Skalierbarkeit– Kostentransparenz– Einfach wenn Daten bereits in der Cloud vorhanden sind…

17. Mai 2011Besiege die Datenflut - BI und die Cloud | Alexander Hauswald Folie 19

Page 20: Business intelligence in_der_cloud_hauswald_mai2011

© Zühlke 2011

Bei Fragen und Anmerkungen

Alexander Hauswald

• Business Unit Manager Enterprise Computing

• Kontaktdaten:

Telefon: +49 89 30 90 52 64 52

Email: [email protected]

Twitter://soa_axel

https://www.xing.com/profile/Alexander_Hauswald

17. Mai 2011Besiege die Datenflut - BI und die Cloud | Alexander Hauswald Folie 20

Page 21: Business intelligence in_der_cloud_hauswald_mai2011

© Zühlke 2011

Tags BU Enterprise Computing

• Architektur Reviews (eigene Methodologie auf ATAM basierend)

• Performance Analyse/Architektur von verteilten Systemen

• Cloud Computing Workshops

• Mobile Solutions mit Android, iOS, Windows Phone 7

• Client Solutions mit Eclipse RCP

• Usability Engineering

• Requirements Engineering

17. Mai 2011Besiege die Datenflut - BI und die Cloud | Alexander Hauswald Folie 21