sascha dittmann, ernst & young: big data in der cloud

Sascha Dittmann Software Developer / Solution Architect

Twitter: @SaschaDittmann

Blog: http://www.sascha-dittmann.de

*

*

*Seit über 13 Jahren:

*Software Developer

*Solution Architect

*Seit über 7 Jahren:

*Trainer für technische Trainings

*Sprecher auf Konferenzen

* IT Consulting

*

180.000.000.000.000.000.000

1.800.000.000.000.000.000.000

*

180.000.000.000.000.000.000

= 0,18 ZB (Zettabytes) - Stand 2006

1.800.000.000.000.000.000.000

= 1,8 ZB (Zettabytes) - Stand 2011

Quelle: IDC – Analyze the Future

*Vertikale Skalierung Horizontale Skalierung

*

Atomicy

Consistecy

Isolation

Durabilty

Basically

Available

Soft State

Eventually Consistent

*

Map

Sort

Shuffle

DataNode

Map

Sort

Shuffle

DataNode

Map

Sort

Shuffle

DataNode

Reduce

0067011990999991950051507004+68750

0043011990999991950051512004+68750

0043011990999991950051518004+68750

0043012650999991949032412004+62300

0043012650999991949032418004+62300

1949,0

1950,22

1950,55

1952,-11

1950,33

1949,0

1950,[22,33,55]

1952,-11

1949,0

1950,55

1952,-11

*

Map

Combine

Sort

Shuffle

DataNode

Map

Combine

Sort

Shuffle

DataNode

Map

Combine

Sort

Shuffle

DataNode

Reduce

0067011990999991950051507004+68750

0043011990999991950051512004+68750

0043011990999991950051518004+68750

0043012650999991949032412004+62300

0043012650999991949032418004+62300

1949,0

1950,22

1950,55

1952,-11

1950,33

1949,0

1950,55

1952,-11

1950,33

1949,0

1950,[33,55]

1952,-11

1949,0

1950,55

1952,-11

*

RDBMS Map/Reduce

Datenmenge Gigabytes Petabytes

Zugriff Interaktiv und Batch Batch

Lese- / Schreibzugriffe Viele Lese- und

Schreibzugriffe

Einmaliges Schreiben

Viele Lesezugriffe

Datenstruktur Statisches Schema Dynamisches Schema

Datenintegrität Hoch Niedrig

Skalierverhalten Nicht-Linear Linear

sascha dittmann, ernst & young: big data in der cloud

Technology