hadoop und data lakes - info.talend.com · fflfh hadoop und data lakes 216 barc b appto r ct c op...

43
Hadoop und Data Lakes Use Cases, Nutzen und Grenzen BARC Research Study IT LOG

Upload: others

Post on 30-Aug-2019

2 views

Category:

Documents


0 download

TRANSCRIPT

Hadoop und Data Lakes Use Cases, Nutzen und Grenzen

BARC Research Study

IT LOG

2 ©2016 BARC - Business Application Research Center, a CXP Group CompanyHadoop und Data Lakes

Hadoop und Data Lakes

Jacqueline Bloemen

Senior Analyst

[email protected]

Jevgeni Vitsenko

Analyst

[email protected]

Timm Grosser

Senior Analyst

[email protected]

Melanie Mack

Head of Market Research

[email protected]

Die unabhängige Studie wurde von BARC, einem objektiven Marktanalysten erstellt.

Wir bedanken uns bei Cloudera, SAS, Talend und Teradata für die Sponsoring-Initiative zu dieser Studie.

Autoren

3©2016 BARC - Business Application Research Center, a CXP Group Company Hadoop und Data Lakes

Hadoop und Data Lakes

4 | Vorwort

6 | Demographie

8 | Management Summary

11 | Ergebnisse der Umfrage

11 | Einsatz und Nutzung

17 | Treibende Kraft

19 | Gründe und Nutzen

24 | Data Lake

27 | Umsetzung

29 | Herausforderungen

31 | Hadoop-Thesen auf dem Prüfstand

35 | Firmenprofile der Sponsoren

36 | Cloudera

37 | SAS

38 | Talend

39 | Teradata

39 | BARC-Firmenprofil

Inhaltsverzeichnis

IT LOG

Vorwort

©2016 BARC - Business Application Research Center, a CXP Group Company

IT LOG

Hadoop und Data Lakes

N ach wie vor ist die Diskussion um Hadoop und Data Lakes top aktu-el l . Das Hadoop-Ökosystem gi l t als

technologischer Wegbereiter, der es Unter-nehmen ermöglicht, die Früchte der Big-Da-ta-Revolution ernten zu können. Der Data Lake gi l t als weitergefasstes Datenmanage-mentkonzept und als Voraussetzung für ein datengetriebenes Unternehmen. Das zent-rale Versprechen lautet: fast bel iebig große Datenmengen aus unterschiedl ichsten Sys-temen, mit bel iebiger Struktur schnell , eff i -zient und kostengünstig verwalten, nutzen und auswerten zu können. Eine Quelle für al le Formen analyt ischer Aufgabenstel lun-gen; eine Art technologisches Rückgrat der Digital is ierung und „Big-Datafizierung“ der Wirtschaft .

Hadoop ist ein Top-Level-Projekt der Apa-che Software Foundation und ein freies Java-Framework für skal ierbare, vertei l t arbeitende Anwendungen. Es besteht aus einer Sammlung von Komponenten für die Verwaltung, den Zugrif f und die Analyse strukturierter und unstrukturierter Daten. Es bietet die Möglichkeit , große Mengen po-lystrukturierter Daten zu verwalten und in Verbindung mit neuen oder auch etabl ierten IT-Technologien wertschöpfend zu verwen-

den. Hierdurch eignet es sich besonders als Plattform zur Umsetzung von Big-Data-Auf-gaben und wird häufig auch als Technologie für die Umsetzung eines Data Lake gese-hen. Das Konzept des Data Lakes kann aber weitaus mehr umfassen, je nach Definit ion, die heute noch nicht ganz klar ist . Oftmals fokussiert der Data Lake auf die Verfügbar-keit von Daten und stel l t damit Daten syste-mübergreifend, unabhängig ihrer Herkunft , schemafrei und nah am Rohdatenformat für nachfolgende Anwendungen bereit .

Sowohl die Technologie Hadoop als auch das Konzept Data Lake sind erst seit kur-zer Zeit im Enterprise-Kontext im Einsatz. Entsprechend fäl l t es Unternehmen häu-f ig schwer, zwischen medialer Überhöhung und tatsächl ich real isierbarem Mehrwert zu unterscheiden. Es l iegen bislang erst we-nige Erfahrungen vor, wie und wo es wirk-l ich Sinn macht, welche Stolpersteine und Hürden bei der Implementierung lauern und welche potenziel len Vortei le sich in der Pra-xis tatsächl ich ergeben.

Wichtige Antworten l iefert jetzt die vorl ie-gende BARC-Anwenderbefragung, die den Status quo von Hadoop und Data Lakes im Allgemeinen und Erfahrungen aus Hadoop

Use Cases im Speziel len weltweit unter-sucht hat. Kernfragen waren dabei:

• Welche Verbreitung haben Hadoop und Data Lakes bereits gefunden und wie sehen die Pläne der Unternehmen aus?

• Wie setzen Unternehmen Hadoop ein bzw. planen sie es einzusetzen?

• Wie wird ein Data Lake heute in Unter-nehmen genutzt?

• Auf welche Probleme stoßen die Unter-nehmen dabei?

• Welchen Nutzen erzielen Unternehmen durch Hadoop und was wurde bereits umgesetzt?

• Wie gestaltet sich die technologische Umsetzung?

Die Studie wurde unabhängig durch BARC erstel l t . Sie kann dank eines Sponsoring von Cloudera, SAS, Talend und Teradata kostenfrei veröffentl icht werden.

Besonderer Dank gi l t schon jetzt al le Tei l -nehmern kommender Befragungen von BARC, denn nur so sind auch in Zukunft Beiträge zu Diskussionen mit empir isch fun-dierter Datenbasis möglich.

5

Hadoop und Data LakesVorwort

IT LOG

Demographie

©2016 BARC - Business Application Research Center, a CXP Group Company

IT LOG

Hadoop und Data Lakes

ServicesIndustrie

Banksektor

ITHandel

Ö�entlicher Sektor

Sonstige

24% 22% 16%

14%

9%

6%

9%

23% 33% 45%

257(77%)

58(18%)

Über

380Teilnehmer Bis 250

Mitarbeiter250 - 2.500Mitarbeiter

Mehr als 2.500Mitarbeiter

Europa Nordamerika

7

Demographie Hadoop und Data Lakes

IT LOG

ManagementSummary

©2016 BARC - Business Application Research Center, a CXP Group Company

IT LOG

Data discovery/visualization, data quality/master data management and self-service are currently the topics BI practitioners iden-tify as the most important trends in their work. At the other end of the spectrum, data labs/science, cloud BI and data as a product have been voted as the least important of the nine-teen trends covered in this report.

Hot Spot#2

Die Meinungen zum Nutzen eines Data-Lake-Konzeptes gehen auseinander

Bei der Diskussion um den Data Lake bilden sich zwei Lager, wovon die eine Hälfte das Konzept als wertvoll und auch als Voraus-setzung datengetriebener Unternehmen an-sieht. Die andere Hälfte empfindet den Data Lake als Neubenennung von Althergebrach-tem, als Marketingbegriff oder sieht keine Relevanz in dem Thema. Womöglich ist dies noch eine von Unsicherheit geprägte Lücke, welche die Chance eröffnet, eine Definition zu finden und Transparenz bei den Themen Nutzen und Best-Practices zu schaffen. Ein-hergehend mit der noch unpräzisen Defini-tion ist auch keine einheitliche Linie in der Nutzung zu erkennen. Es zeigt sich aber eine Tendenz, das Konzept vorwiegend für Daten-aufbereitung und Speicherung oder eine ex-plorative Umgebung zu nutzen.

Hadoop und Data Lakes 9

Data discovery/visualization, data quality/master data management and self-service are currently the topics BI practitioners iden-tify as the most important trends in their work. At the other end of the spectrum, data labs/science, cloud BI and data as a product have been voted as the least important of the nine-teen trends covered in this report.

Hot Spot#1

Hadoop - Trendtechnologie mit hohem Potential

Die produktive Nutzung von Hadoop nimmt vor allem in Europa zu, aber auch gleichzei-tig die Anzahl der Unternehmen, die Hado-op nicht nutzen wollen. Mit wachsendem Verständnis des möglichen Nutzens eines Hadoop-Einsatzes können Unternehmen offensichtlich klarer entscheiden, ob sie die Technologie einsetzen möchten oder nicht. Das Profil der produktiven Hadoop-Systeme ist überraschend breit: Hadoop wird unab-hängig von Unternehmensgröße, Datenvo-lumen, Datentypen oder auch Aktualitätsan-forderungen eingesetzt. Damit ist es für alle Unternehmen eine potentiell geeignete Technologie mit breiten Einsatzspektrum. Hadoop entwickelt sich dabei immer mehr vom einfachen Dateisystem zur Ablaufumge-bung für analytische Anwendungen.

Hadoop und Data Lakes Management Summary

Data discovery/visualization, data quality/master data management and self-service are currently the topics BI practitioners iden-tify as the most important trends in their work. At the other end of the spectrum, data labs/science, cloud BI and data as a product have been voted as the least important of the nine-teen trends covered in this report.

Hot Spot#3

BICC und Data Science Teams treiben Hadoop und Data-Lake-Projekte

Im Wesentlichen sind es BI Competence Centers und auch Data Science Teams, die heute Hadoop- und Data-Lake-Projekte trei-ben und damit den technologischen Themen Hadoop und Data Lake einen einen stärke-ren fachlichen Bezug geben.

IT LOG

©2016 BARC - Business Application Research Center, a CXP Group CompanyHadoop und Data Lakes

Data discovery/visualization, data quality/master data management and self-service are currently the topics BI practitioners iden-tify as the most important trends in their work. At the other end of the spectrum, data labs/science, cloud BI and data as a product have been voted as the least important of the nine-teen trends covered in this report.

10

Hot Spot#5

Klarer Fall für Hadoop: Customer Intelligence und Predictive Analytics

Customer Intelligence und Predictive Ana-lytics sind die mit Abstand am häufigsten um-gesetzten Hadoop-Projekte. Bereits heute sind viele Daten zum Kunden, Kundenverhal-ten und den Kanälen für Analysen verfügbar. Predictive Analytics gilt als Vorzeigedisziplin für „neuartige“, explorative Analysen und wird daher in Unternehmen häufig zuerst an-gegangen.

Management SummaryHadoop und Data Lakes

Hot Spot#7

Hadoop ermöglicht Anwendungsfälle, die bisher nicht umgesetzt werden konnten

Anwender sehen Hadoop vor allem als (po-tentielle) Technologie zur Umsetzung neu-artiger Anwendungsfälle, die mit den beste-henden Systemen nicht umgesetzt werden können. Kosteneinsparungen spielen eine nachgelagerte Rolle, wie auch der Einsatz als technisch bessere Plattform.

Hot Spot#8

Die größten Herausforderungen sind fehlendes Know-how und Unsicherheit bei der Nutzung

Seit der letzten Hadoop-Umfrage scheint nicht viel geschehen zu sein! Fehlendes fachliches und technisches Know-how füh-ren klar die Liste der Herausforderungen an. Europäische Unternehmen sind darüber hi-naus noch unklar über den richtigen Einsatz und die Nutzung, während nordamerikani-sche eher fehlende Benutzerfreundlichkeit, mangelnde Reife des Systems sowie hohe Kosten für Schulung und Entwicklung be-mängeln.

Data discovery/visualization, data quality/master data management and self-service are currently the topics BI practitioners iden-tify as the most important trends in their work. At the other end of the spectrum, data labs/science, cloud BI and data as a product have been voted as the least important of the nine-teen trends covered in this report.

Hot Spot#4

Umsetzung erfolgt hauptsächlich durch kommerzielle Werkzeuge und Hadoop-Distributionen

Kommerzielle Werkzeuge und Distributionen überzeugen in den meisten Werkzeugkate-gorien vor den Apache-Hadoop-Komponen-ten und werden auch deutlich häufiger ein-gesetzt. Eine Ausnahme sehen wir lediglich in der Kategorie Streaming. Kosteneinspa-rung, funktionale Leistungs-/Innovationskraft und Betreibarkeit sind mehrheitlich genannte Gründe für die Wahl von Apache Hadoop.

Hot Spot#6

Großer analytischer Nutzen durch Hadoop

Hadoop weist den deutlichsten Nutzen auf in der Analyse von Daten aus heterogenen, divergenten Quellen, Vorhersage des Kun-denverhaltens, Kundenbindung, sowie in der Steigerung der Flexibilität. Hadoop nimmt in den Projekten nicht nur die Rolle des Datei-systems ein, sondern fungiert als Plattform und Ablaufumgebung mit den Kernfunktio-nen in Analyse und Predictive Analytics.

IT LOG

ErgebnisseEinsatz und Nutzung

©2016 BARC - Business Application Research Center, a CXP Group CompanyHadoop und Data Lakes

Hadoop ist nach wie vor auf dem Prüfstand, aber der Nutzen des Frameworks scheint gute Argu-mente für seinen Einsatz zu liefern.

Den Zahlen nach bilden sich zwei Lager: „pro“ und „contra“ Hadoop. Demnach wird Hadoop keines-falls mehr als die Wunderwaffe gegen jegliche analytische Herausforderung wahrgenommen, sondern bietet Vor- und Nachteile je nach Einsatz-szenario.

Über ein Drittel der weltweit Befragten (40%) sind Hadoop-Befürworter (im produktiven Einsatz, als Pilotprojekt, Initiative geplant) und zeigen ein deutliches Interesse an Hadoop, davon haben 12% Hadoop bereits im produktiven Einsatz.

Viele der Befürworter sehen in Hadoop einen möglichen weiteren Baustein beim Aufbau analy-tischer Umgebungen für spezielle Anwendungen.

Ein weiteres Drittel (27%) sieht sich als Hadoop-Gegner.

Die dritte Gruppe (34%) haben bisher kein Hadoop im Einsatz, können sich allerdings eine zukünftige Nutzung vorstellen.

Deutlicher Anstieg der Hadoop-Nutzung im deutschsprachigen Raum

Für die DACH-Region zeichnet sich im Vergleich zu den Vorjahreswerten ein deutlicher Anstieg bei der Nutzung ab (4% auf 8%). Die Anzahl der Hadoop-Interessenten (Hadoop-Initiative als Pilot-projekt und Hadoop-Initiative geplant) gleicht mit 26% fast dem Vorjahreswert. Aber auch die An-zahl derjenigen, die sich nicht vorstellen können

Hadoop zu verwenden, steigt von 21% auf 33%.

Die Erwartungen treffend ist die Anzahl der pro-duktiven Hadoop-Installationen in Nordamerika mit 17% fast doppelt so hoch angegeben, wie in Europa.

Höhere Verbreitung von Hadoop in Nordamerika

Dem nordamerikanischen Markt wird insgesamt eine schnellere Adoption und auch höhere Reife in der Nutzung von Informationstechnologien nach-gesagt. So ist das Ergebnis auch nicht weiter ver-

wunderlich, ist doch ein höherer Erfahrungswert im Umgang mit Hadoop anzunehmen. Insgesamt ähnelt sich aber die Verteilung der Werte zwischen Nordamerika und Europa.

Eine ergänzende Branchenbetrachtung gibt weite-re interessante Einblicke in die Hadoop-Nutzung. Mit einem Planwert von 38% und einer aktuellen produktiven Nutzung von 0% ist der Finanzsek-tor die Newcomer-Branche. Zum Zeitpunkt der Umfrage finden sich die meisten Initiativen in der IT-Branche und in der Industrie.

Hadoop-Initiative nach Regionn=371/302/196

Europa

Nordamerika

2016 DACH-Region

2015 DACH-Region

2016

17%

9%

8%

4%

12%

Hadoop im produktivenEinsatz

16%

16%

17%

14%

16%

Hadoop-Initiative als Pilotprojekt

33%

43%

33%

49%

34%

Nein, zukünftig denkbar

32%

12%

33%

21%

27%

Nein, und keine geplant

10%

12%

9%

11%

12%

Hadoop-Initiativegeplant

12

Hadoop und Data Lakes Produktive Nutzung von Hadoop nimmt zu, allerdings auch die Anzahl der Kritiker

©2016 BARC - Business Application Research Center, a CXP Group Company Hadoop und Data Lakes

Die Umfrageergebnisse belegen, dass Hadoop als Teil einer Big-Data-Strategie nicht nur für Groß-unternehmen und Unternehmen mit großen Da-tenvolumen relevant ist. Dies spiegelt sich in der Verteilung der Umfrageteilnehmer wider. Hier fin-den sich sowohl Großunternehmen (41%), als auch kleine Unternehmen (20%) und mittelständische Unternehmen (16%).

Ja, wir nutzen Hadoop im produktiven Einsatz

Ja, wir setzen eine Hadoop-Initiative als Pilotprojekt um

Ja, wir planen eine Hadoop-Initiative

Nein, aber für die Zukunft ist eine denkbar

Nein, es existiert keine und es ist auch zukünftig keine geplant

Hadoop-Initiative nach Unternehmensgröße

n=370

7%

13%

8%

36%

35%

Bis 250Mitarbeiter

7%

9%

9%

41%

34%

250 - 2.500Mitarbeiter

18%

23%

15%

27%

17%

Mehr als 2.500Mitarbeiter

13

Hadoop und LakesDie Nutzung von Hadoop hängt vom Anwendungsfall ab und wird nicht durch die Unternehmensgröße definiert

Hadoop und Data Lakes ©2016 BARC - Business Application Research Center, a CXP Group Company

Der Großteil der Hadoop-Anwendungen verar-beitet kleine Datenmengen

Die Befragung zeigt, dass der Einsatz von Hadoop in unserer Stichprobe unabhängig von Datenvolu-men oder der -aktualität erfolgt.

59% der geschilderten Hadoop-Szenarien wer-den vorwiegend bei „kleinen Datenvolumen“ bis zu 25 Terabyte (TB) umgesetzt. Szenarien jenseits von 1 Petabyte (PB) gibt es äußerst selten (1%). Der Blick in die Zukunft (in 12 Monaten) zeigt erwar-tungsgemäß eine Zunahme des Datenvolumens.

Unternehmen starten erste Hadoop-Initiativen im überschaubaren Rahmen und sehen bereits heu-te Potential für den weiteren Ausbau. Den größten Anstieg verzeichnen Szenarien ab 25 TB.

Nutzung von Hadoop nicht mehr nur auf Batch-Anwendungen beschränkt

Interessant in der Betrachtung der Datenaktualität ist die hohe Nennung von Streaming (21%) oder Near-Time-Nutzung (35%), die insbesondere im Anwendungsfeld Customer Intelligence vorkommt. Demnach beschränkt sich der Einsatz von Hadoop

und Map-Reduce nicht mehr nur auf Batch-Anwen-dungen, sondern wird vermehrt auch bei hohen Anforderungen an die Datenaktualität eingesetzt.

Aktualität von Daten in Hadoop-Anwendungenn=143

Near/Real-Time Anforderungen („Streaming“/„ Event Processing")

Near-Time-Anforderungen im Sinne einer zeitnahen Verarbeitung

Tägliche/seltenere Beladung des Hadoop Clusters

Au�au Datenarchiv mit nicht-zeitkritischen Zugrien auf historische Daten

36%

35%

21%8%

Datenvolumen in Hadoopn=251

Klein 59% 19%

Sehr groß (>500 TB) 1% 8%

Mittel (>25 TB) 29% 48%

Groß (>500 TB) 11% 25%

Heute In 12 Monaten

14

Hadoop und Data Lakes Einsatz von Hadoop unabhängig von Datenvolumen oder -aktualität

©2016 BARC - Business Application Research Center, a CXP Group Company Hadoop und Data Lakes

Über die Hälfte der Teilnehmer (53%) nutzen trans-aktionsorientierte Daten am häufigsten in Hadoop, aber auch Logdaten (40%) und Clickstream-Daten/Web-Analytics (33%) stellen bereits einen Groß-teil der Daten. Über ein Viertel der Befragten (27%) nutzt Dokumente und Texte in Hadoop-An-wendungen. Dies erscheint erstaunlich hoch im Vergleich zu verschiedenen BARC-Studien aus vergangenen Jahren. Ein Blick auf die Planwerte zeigt ambitionierte Vorhaben in fast jeder Daten-kategorie. Eine Aussage zur besonderen Eignung von Hadoop für einzelne Datentypen lässt sich da-raus nicht ableiten. Vielmehr scheint Hadoop eher zur Verarbeitung aller Datentypen eine potentiel-le Technologie zu sein. Es ist damit anzunehmen, dass Hadoop mehrheitlich Daten verwendet, die auch in herkömmlichen Plattformen genutzt wer-den können. Wenn also nicht Datenvolumen oder -typen relevant für die Nutzung von Hadoop sind, bleibt vorerst die Frage offen, welche Gründe für eine Nutzung von Hadoop sprechen. Letztendlich sind Punkte wie Kosten, Funktionen für Anwen-dungsfälle aber auch die vorhandene technische Infrastruktur wie auch vorhandene IT-Prozesse und Know-how zu bewerten.

Datentypen in Hadoop-Anwendungenn=143

Daten aus Transaktionssystemen

Logdaten aus IT-Systemen

Clickstream-Daten, Web-Analytics

Dokumente/Texte

Sensor-, RFID-, andere Maschinendaten

Open Data

Social-Media-Daten

Videoclips/Bilder

Sonstige

53%

40%

33%

27%

22%

17%

15%

10%

5%

35%

42%

49%

38%

33%

48%

53%

35%

9%

Im Einsatz Geplant

15

Hadoop und LakesTransaktionsorientierte Daten werden am häufigsten genutzt

IT LOG

Hadoop und Data Lakes ©2016 BARC - Business Application Research Center, a CXP Group Company

Hadoop wird für unterschiedliche Zwecke einge-setzt, vor allem als Ablaufumgebung für fortge-schrittene, neuartige Analysen (65%), als Speicher für Roh-/Detaildaten (60%) und zur Datenaufbe-reitung und Integration (57%). Aber auch weitere Einsatzszenarien sind gut denkbar und umgesetzt. Ein interessanteres Bild liefert hier wieder die Be-trachtung nach Regionen.

Nordamerika nutzt Hadoop intensiver als Ablaufumgebung für BI

Es findet sich ein deutlicher Unterschied in der Nutzung als Speicher für Roh-/Detaildaten zwi-schen Nordamerika und Europa. In der europäi-

schen Stichprobe nutzen 76% Hadoop als Spei-cher für Roh-/Detaildaten wohingegen es in der nordamerikanischen Stichprobe lediglich 15% der Befragten sind.

Eine mögliche Erklärung kann sein, dass die Nut-zung von Hadoop sich mit Erfahrung und Reife verschiebt, weg von der einfachen Datenablage mehr hin in Richtung analytischer Engine als Ab-laufumgebung für BI. Dies würde bedeuten, dass der nordamerikanische Markt insgesamt bereits mehr Erfahrung in der analytischen Nutzung von Hadoop hat und daher auch andere Nutzungs-schwerpunkte sieht.

Erwähnenswert ist die Verwendung von Hadoop als Ablaufumgebung für die fortgeschrittene Ana-lyse, die in Europa mit 11% Unterschied mehr An-klang findet als in Nordamerika. So scheint Hado-op in Nordamerika nicht „nur“ für neue analytische Disziplinen wie fortgeschrittene Analyse oder Ex-ploration genutzt zu werden, sondern die Techno-logie als solche zur Unterstützung neuer wie auch alter Aufgabenstellungen. Anzunehmen ist daher der breitere Einsatz und unter Umständen auch eine bessere Ausnutzung möglicher Potentiale im nordamerikanischen Markt.

Ablaufumgebung für fortgeschrittene Analysen, Discovery, Exploration

Speicher für Roh-/Detaildaten

Datenau�ereitung/Datenintegration

Datenarchiv

Ablaufumgebung für klassische BI

Unterstützung operativer Anwendungen

65%

60%

57%

40%

30%

19%

Weltweit

76%

69%

57%

42%

24%

20%

Europa

15%

58%

58%

35%

42%

19%

Nordamerika

Nutzung von Hadoop

n=144

16

Hadoop und Data Lakes Nach wie vor breites Einsatzfeld von Hadoop

IT LOG

ErgebnisseTreibende Kraft

IT LOG

Hadoop und Data Lakes ©2016 BARC - Business Application Research Center, a CXP Group Company

Der BARC Hadoop Survey 2015 zeigt die IT-Abtei-lung als Treiber und Vordenker für den Einsatz von Hadoop-Technologien und Data-Lake-Initiativen. Das Bild hat sich in der Zwischenzeit geändert. Mit 58% in Europa und 56% in Nordamerika steht namentlich das Business Intelligence Competence Center als treibende Kraft im Unternehmen mit Ab-stand an erster Stelle.

Spezielle Organisationseinheiten wie Data-Scien-ce-Teams, Big Data Labs etablieren sich vor allem in Europa, wohingegen in den Nordamerika die IT-Anwendungsentwicklung sowie eigenständi-ge Bereiche für Digitalisierungs- und Innovations initiativen die Hadoop-Themen treiben. Insgesamt verlieren reine IT-Abteilungen deutlich an Trieb-kraft. Ein Grund hierfür kann der große Bedarf an Analysen in den Fachabteilungen sein. Diese Ent-wicklung ruft vor allem die fachbereichsnäheren und Analyse-spezialisierten Organisationseinhei-ten auf den Plan.

Treiber für Hadoopn=110

Europa Nordamerika

BI-Organisation (BICC) 58% 56%

Data Science Team 27% 24%

(Big) Data Lab 26% 24%

Fachbereich 22% 8%

IT – Anwendungsentwicklung 21% 36%

Eigener Bereich für Digitalisierungs-/Innovationsinitiativen

20% 32%

IT – Innovationsbereich 19% 16%

IT – andere Bereiche 9% 4%

18

Hadoop und Data Lakes BI Competence Center und Data-Science-Team treiben Hadoop-Initiativen

IT LOG

ErgebnisseGründe und Nutzen

Hadoop und Data Lakes ©2016 BARC - Business Application Research Center, a CXP Group Company

ViewpointFast ein Drittel der Befragten setzen zur Umset-zung von Hadoop-Projekten kommerzielle Pro-dukte bzw. Hadoop-Distributionen ein. Mehr als ein Viertel (27%) nutzt Apache-Komponenten zum Aufbau eines eigenen Hadoop-Ökosystems, was ein erstaunlich hoher Wert ist, da für die Implemen-tierung, Wartung und Betrieb doch ein tiefes Wis-sen notwendig ist um die Komponenten aufeinan-der abzustimmen und zu administrieren.

Über 40% der Befragten geben an, die Komponen-ten für die umgesetzten Anwendungsfälle nicht zu kennen oder klar zuordnen zu können. Es bleibt anzunehmen, dass etwa die hohe Produktvielfalt in einem Hadoop-Ökosystem die technische Im-plementierung nicht immer ganz nachvollziehbar

Viewpointsein lässt.

Anwender setzen auf on-premise Installationen

Eine weitere Auswertung zeigt, dass bei der Soft-wareauswahl die Entscheidung zu 61% auf Hado-op-Distributionen fällt, die im Hause installiert wer-den. Nur wenige vertrauen dabei auf Managed Services (11%), Plattformen aus der Cloud (9%) oder aber Appliances (10%).

Analyse und Visualisierung ist die klare Domäne kommerzieller Werkzeuge (64%).

Ein Blick auf die Werkzeugklassen liefert weite-re Erkenntnisse. Die Klassen Datenintegration und -qualität (48%), System Management (41%) und vor allem die fortgeschrittene Analysen und

ViewpointVisualisierung (64%) sind klar besetzt durch kom-merzielle Werkzeuge und Hadoop-Distributi-onen. Lediglich im Bereich der Datenspeicherung hat Apache Hadoop als Open Source Framework eine vergleichbar hohe Nutzung im Vergleich zu den kommerziellen Werkzeugen bzw. Hadoop-Dis-tributionen. Die Datenhaltung mit dem Hadoop Distributed File System (HDFS) zählt zu den ur-sprünglichen „Basisfunktionen“ von Hadoop und ist entsprechend bekannter.

Für die Kategorien Streaming (53%), Governance und Security (46%) haben ungefähr die Hälfte der Befragten keine Werkzeuge im Einsatz. Es scheint hier keine klar definierten Produkte zu geben.

27%

42%

Apache Hadoop

31%

KommerzielleProdukte

Nicht anwendbar

Datenintegration und -qualität

System Management

Fortgeschrittene Analyse und Visualisierung

Governance und Security

Streaming

Datenspeicherung und Zugri�

Apache Hadoop

28%

25%

20%

23%

25%

40%

Kommerzielle Produkte

48%

41%

64%

31%

22%

45%

Nicht anwendbar

23%

34%

16%

46%

53%

14%

Werkzeuge zur Umsetzung von Hadoopn=348

Werkzeuge zur Umsetzung von Hadoop nach Softwarekategorie n=141

20

Hadoop und Data Lakes Kommerzielle Software und Hadoop-Distributionen im eigenen Haus sind die erste Wahl zur Umsetzung

©2016 BARC - Business Application Research Center, a CXP Group Company Hadoop und Data Lakes 21

Hadoop und LakesKosteneffizienz, funktionale Leistungs-/Innovationskraft und Betreibbarkeit sind Hauptgründe für den Einsatz von Apache Hadoop

Als Hauptgründe für die Wahl von Apache Open Source nennen die Teilnehmer mit Abstand Kos-teneffizienz/-einsparung aber auch die funktionale Leistungs-/Innovationskraft und Betreibbarkeit. So werden mit der Wahl einer Apache-Open-Sour-

ce-Komponente in allen abgefragten Werkzeug-kategorien eben diese Gründe häufiger genannt als bei den kommerziellen Werkzeugen und Hado-op-Distributionen. Für kommerzielle Werkzeuge sprechen pro Werkzeugkategorie unterschied-

liche Gründe für den Einsatz. Häufiger genannt werden auch hier die funktionale Leistungs-/Inno-vationskraft und Betreibbarkeit, aber auch die An-wendbarkeit im Bereich Streaming und der fortge-schrittenen Analyse.

Gründe für den Einsatz von Apache Hadoop und kommerziellen Werkzeugen und Hadoop-Distributionen Apache Hadoop Kommerzielle Produkte

Flexibilität in der Anwen-dungsgestaltung

Funktionale Leistungs- /Innovationskraft

Betreibbarkeit

Vorhandene Skills/Know-how

Integration in Gesamtarchitektur/-Systemlandschaft

Einfachheit in der Anwendung

Kostene�zienz/-Einsparung

Umsetzungse�zienz

Wartungse�zienz

Governance und Metadatenmanagement

Risikominimierung

Governance und Security (n=80)

28%12%

32%38%

55%37%

31%34%

38%32%

24%15%

45%27%

24%29%

24%29%

27%10%

10%29%

10%24%

Fortgeschrittene Analyse (n=116)

41%33%

52%47%

35%41%

29%52%

41%40%

18%44%

47%23%

35%24%

35%24%

15%18%

18%7%

24%21%Skalierbarkeit

System Ma-nagement (n=91)

9%8%

40%22%

38%62%

31%25%

31%29%

22%27%

59%33%

13%15%

13%15%

12%9%

9%15%

13%17%

Datenspeicher-ung (n=120)

21%18%

40%49%

36%43%

28%27%

26%37%

8%18%

64%33%

13%22%

13%22%

18%9%

9%15%

23%30%

Streaming (n=80)

19%19%

48%33%

41%39%

26%32%

26%32%

22%45%

59%29%

11%32%

11%32%

13%4%

4%6%

19%23%

Datenintegration und -qualität (n=121)

24%21%

47%42%

30%49%

30%25%

27%35%

9%24%

61%37%

6%31%

9%22%

13%6%

6%7%

36%28%

Hadoop und Data Lakes ©2016 BARC - Business Application Research Center, a CXP Group Company

Unter allen Einsatzszenarien führen Customer In-telligence/Experience-Projekte (32%) dicht gefolgt von Predictive-Analytics-Projekte (31%) die Liste an. Für Customer Intelligence gibt es bereits re-lativ viele Einsatzszenarien, da zu Beginn des Big Data Hypes insbesondere Kunden im Mittelpunkt der Diskussion standen und heute bereits vie-le Daten zum Kunden, Kundenverhalten und den Kanälen verfügbar sind. Es wurden bereits einige Anwendungsbeispiele am Markt realisiert (bspw. Next best offer in Webportalen, Auswertung von POS-Daten).

Für Predictive Analytics gibt es ebenfalls schon viele Einsatzszenarien. Es gilt als Vorzeigediszip-lin für „neuartige“, explorative Analysen. Erst durch Predictive Analytics kann das Potential, das in Da-ten steckt, erkannt werden.

Eine Analyse der Einsatzszenarien nach Unterneh-mensgrößenklassen zeigt weitere Auffälligkeiten:

• Kleine Unternehmen fokussieren deutlich häufiger auf technische Use Cases wie Data Warehouse Offloading. In mittelständischen Un-ternehmen ist Customer Intelligence ein Haupt-thema und bei Großunternehmen steht Predicti-ve Analytics im Vordergrund.

• Mittelständische und Großunternehmen nutzen deutlich mehr Clickstream-, Sensor- und Soci-al-Media-Daten.

22

Hadoop und Data Lakes Customer Intelligence und Predictive Analytics sind die am häufigsten umgesetzten Hadoop-Projekte

32%Customer Intelligence/Experience

31%Predictive Analytics (Auswertung von Sensordaten)

13%Recommendation/Next Best Action

12%Technischer Use Case z.B. Data Warehouse O�oading

5%Innovation Discovery

4%Fraud Detection

3%Sonstige

Einsatzszenarien für Hadoop-Projekten=148

©2016 BARC - Business Application Research Center, a CXP Group Company Hadoop und Data Lakes

Der Einsatz von Hadoop erzielt in nahezu allen Be-reichen Nutzen. Auf Platz 1 steht die übergreifende Analysemöglichkeit bzw. verbesserte Dateninteg-ration (weltweit 59%), gefolgt von der Schaffung einer Plattform um Kundenverhalten vorhersagen bzw. die Kundenbindung verbessern zu können (weltweit 53%) als Nutzen der Hadoop-Initiative. Auf dem dritten Platz befindet sich die Steigerung der Flexibilität für die Analyse (weltweit 47%). In der länderspezifischen Betrachtung fällt auf, dass die nordamerikanische Stichprobe Hadoop über Kundenvorhersagen hinaus stärker für die Vorher-sage von Produkt- und Vertriebserfolgen (42%), für das Monitoring und Optimierung von IT-Systemen (38%) sowie für die Effizienzerhöhung operativer Prozesse (35%) nutzt.

Die Ergebnisse könnten dahingehend interpre-tiert werden, dass Nordamerika Hadoop breiter einsetzt, insbesondere neben dem Kunden auch stärker weitere Domänen wie Produkte untersucht und Hadoop stärker nutzt um operative Prozesse effizienter zu gestalten. Gerade im Letzteren sieht BARC mit das größte Potenzial von Daten. In der Entwicklung hin zum datengetriebenen Unterneh-men, ist es wichtig, dass auch in operativen Pro-zessen vermehrt Daten(-analysen) gefolgt wird und nicht vordefinierten Abläufen und Regeln. An-wender sollen auf ergänzende Funktionen direkt in ihrem Fachprozess zugreifen und auf Basis der Erkenntnisse handeln – der klassische Manage-ment-Regelkreis von Information zu Aktion wird geschlossen.

Analyse von Daten aus heterogenen, diver-genten Datenquellen ermöglichen/verbessern

Kundenverhalten vorhersagen, Kundenbin-dung verbessern

Steigerung der Flexibilität im Umgang mit Daten und in der fortgeschrittenen Analyse

Erhöhung der Wettbewerbsfähigkeit

Mehr/zusätzliche Daten kostene�zient speichern und analysieren

Verbesserung der Reaktionsgeschwindigkeit auf aktuelles Marktgeschehen

Produkt- und Vertriebserfolg vorhersagen

Betrug oder finanzielle Risiken vorhersagen

Monitoring von Maschinen/Geräte und proaktive Wartung ermöglichen

Sentiment/Stimmungs- und Trendanalysen

Erhöhung des Umsatzes

Monitoring und Optimierung von IT-Systemen und IT-Sicherheitsrisiken

E�zienz operativer Prozesse erhöhen

Wir können derzeit den fachlich-inhaltlichen Nutzen einer Hadoop-Initiative nicht bestimmen

Nutzen von Hadoop-Initiativenn=144

59%

53%

47%

43%

33%

33%

27%

26%

26%

25%

20%

19%

18%

6%

Weltweit

65%

64%

51%

48%

35%

34%

25%

30%

28%

28%

19%

14%

14%

6%

Europa

50%

46%

42%

42%

27%

31%

42%

27%

23%

23%

23%

38%

35%

4%

Nordamerika

23

Hadoop und LakesWichtigste Mehrwerte durch Hadoop: bessere Analyse auf heterogenen Daten, bes-seres Kundenverständnis und -bindung sowie Steigerung der Flexibilität

IT LOG

ErgebnisseData Lake

©2016 BARC - Business Application Research Center, a CXP Group Company

Viewpoint

Hadoop und Data Lakes

IT LOG

Der Data Lake ist ein vieldiskutiertes Konzept bisher ohne ganz klare Definition. Viele sehen in einem Data Lake einen Datenspeicher, der struk-turierte, semi- und unstrukturierte Daten nah am Rohdatenformat schemafrei vorhält. Die Struktur folgt mit der Anwendung, wenn die Daten ge-braucht werden. Diese Definition lässt noch viele Fragen offen:

• Ist der Data Lake als Synonym für Hadoop und Big Data Technologien zu verstehen oder eher als Sammlung aller verfügbaren Datenspeicher-konzepte im Unternehmen?

• Ist der Data Lake ein physischer Speicher oder

ein logisches Konzept?

• Welche Governance-Vorgaben sind an den Data Lake gestellt?

Wie dem auch sei: Das Konzept hat Relevanz. 47% der Anwender weltweit bestätigen den Nutzen des Data Lake.

35% der Teilnehmer sehen in einem Data Lake althergebrachte Konzepte neu verkauft oder einen Marketingbegriff und 13% sehen keine Relevanz im Data-Lake-Konzept.

Abweichungen im Regionenvergleich

Im Regionenvergleich sehen über ein Fünftel der

Befragten in Nordamerika das Konzept als Voraus-setzung für das datengetriebene Unternehmen (Vergleich 13% in Europa).

Sowohl in Europa (46% Befürworter, 37% Gegner) als auch in Nordamerika (42% Befürworter, 38% Gegner) spaltet sich die Gruppe der Befragten in zwei Lager.

In Summe scheint es hier noch Unsicherheiten bezüglich des Nutzen zu geben bzw. könnte eine fehlende Definition und/oder überzogene Ver-sprechen von Herstellerseite eine realistische Ein-schätzung des Konzeptes erschweren.

25

Hadoop und LakesFast die Hälfte der Anwender weltweit bestätigen den Nutzen des Data Lake

Data Lakes sind Voraussetzung für das datengetriebene Unternehmen

Der Data Lake ist wichtig um eine zentrale Anlaufstelle für alle Daten aufzubauen

Data Lake ist der neue Begri� für Data Warehouse, gemacht wird das Gleiche

Der Data Lake ist ein reiner Marketingbegri� ohne technische Innovation

Date Lake hat für mich keine Relevanz

15%

32%

24%

11%

13%

Weltweit

13%

33%

23%

14%

12%

Europa

21%

21%

31%

7%

12%

Nordamerika

Anwendermeinungen zum Data Laken=384

IT LOG

Hadoop und Data Lakes ©2016 BARC - Business Application Research Center, a CXP Group Company

Einhergehend mit der noch unpräzisen Definition ist auch keine einheitliche Linie in der Nutzung zu erkennen. Es zeigt sich aber eine Tendenz, das Konzept vorwiegend für Datenaufbereitung und Speicherung oder eine explorative Umgebung zu nutzen.

Eine differenzierte Betrachtung der Data-La-ke-Nutzung nach Regionen zeigt interessante Er-gebnisse. So ist die Nutzung des Data Lakes in Nordamerika stärker an der Datenaufbereitung und -nutzung orientiert als in Europa. In Europa hingegen zeigt sich mit 78% deutlich, dass das Da-ta-Lake-Konzept vornehmlich für die Speicherung von Roh-/ und Detaildaten genutzt wird.

26

Hadoop und Data Lakes Keine einheitliche Linie in der Nutzung zu erkennen

Nutzung des Data Laken=100

78%

54%

53%

48%

23%

17%

38%

54%

65%

46%

31%

19%

Speicher für Roh-/Detaildaten

Ablaufumgebung für fortgeschrittene Analysen, Discovery, Exploration

Datenau�ereitung/Datenintegration

Datenarchiv

Ablaufumgebung für klassisches BI

Unterstützung operationaler Anwendungen

Europa Nordamerika

IT LOG

ErgebnisseUmsetzung

IT LOG

Hadoop und Data Lakes ©2016 BARC - Business Application Research Center, a CXP Group Company

Die Frage nach den wichtigsten Treibern für den Hadoop-Einsatz zeigt eine deutliche Tendenz: Hadoop ist eine technisch neue Plattform für Din-ge, die bisher nicht gemacht werden können – ge-ben sechs von zehn Umfrageteilnehmer an. Im-merhin drei von zehn Umfrageteilnehmern sehen Hadoop als technisch bessere Plattform.

Lediglich bei mittelständischen Unternehmen lie-gen die zwei Treiber Nutzung zur Optimierung

durch technisch bessere Plattform und zur Umset-zung neuartiger Anwendungsfälle eng beieinan-der (40% zu 53%).

Kosten hingegen werden durchschnittlich nur von einem von zehn Teilnehmern als wichtigster Trei-ber identifiziert. Dieses Ergebnis ist überraschend niedrig, denn Kosten wurden auch als Grund für den Einsatz von Hadoop-Komponenten in den An-wendungsfällen ausgewiesen.

Die Ergebnisse belegen, dass der Einsatz von Hadoop in erster Linie durch neue analytische Herausforderungen getrieben wird und Kosten-einsparungen nicht als Haupttreiber gesehen wer-den. Galten Kosteneinsparungen lange Zeit als der entscheidende Vorteil von Hadoop, scheint damit heute ein differenzierterer Blick vorhanden zu sein. Hadoop kann kostengünstiger sein, abhängig vom Anwendungsfall muss es aber nicht sein.

Bis 250Mitarbeiter

22%

65%

13%

250 - 2.500Mitarbeiter

40%

53%

3%

Mehr als 2.500Mitarbeiter

27%

62%

11%

Technisch bessere Plattform für Dinge, die bisher schon gemacht werden

Technisch neue Plattform für Dinge, die bisher nicht gemacht werden können

Kostengünstiger Ersatz für Dinge, die heute bereits gemacht werden

Haupttreiber für den Einsatz von Hadoop

n=144

29%

60%

10%

Durchschnitt

28

Hadoop und Data Lakes Anwender sehen Hadoop vor allem als (potentielle) Technologie zur Umsetzung neuartiger Anwendungsfälle

IT LOG

ErgebnisseHerausforderungen

IT LOG

Hadoop und Data Lakes ©2016 BARC - Business Application Research Center, a CXP Group Company

Bereits im letzten Hadoop Survey wurden „Un-sicherheit in den Nutzungsmöglichkeiten“ und vor allem das „fehlende technische“ aber auch „fachliche Know-how“ als Herausforderungen für Hadoop klar herausgestellt. In dieser Umfra-ge ist es ähnlich. So führen das fehlende fachli-che (54%) und technische (50%) Know-how klar die Liste der Herausforderungen an.

Im Regionenvergleich gibt es ein paar Auffäl-ligkeiten. In Europa wird beispielsweise stärker das fehlende Know-How Hadoop richtig ein-setzen zu können (50%) als Herausforderung gesehen. Die nordamerikanischen Teilnehmer hingegen kämpfen häufiger mit fehlenden Sponsoren aus der Führungsebene (36%) oder der Benutzerfreundlichkeit von Hadoop (26%).

Es scheinen viele über Hadoop zu reden, weni-ge setzen es überhaupt ein und die, die es ein-setzen, scheinen darüber nicht viel erzählen zu wollen. Nachvollziehbar – schließlich geht es um Wettbewerbsvorteile, wie die Auswertung zum Nutzen von Hadoop in dieser Umfrage ebenfalls bestätigt. Dem Markt fehlt es grund-sätzlich noch an Erfahrung und Sicherheit rund um Hadoop und vor allem an Know-how- Trä-gern.

Bekannte Kritikpunkte an das Hadoop-System wie Bedenken zu Datenschutz und -sicherheit stellen nur in jedem vierten oder fünften Fall eine Herausforderung dar. In puncto Daten-sicherheit zeigen sich in einer ergänzenden Branchenbetrachtung vor allem der Finanzsek-tor (33%) und die öffentliche Hand (38%) be-sorgt (Vergleich Industrie 18% und Handel 11%).

Fehlendes fachliches Know-how im Unternehmen

Fehlendes Know-how beim Au�au und Betrieb einer Big-Data-Architektur

Fehlendes Know-how Hadoop richtig einsetzen und nutzen zu können

Fehlende überzeugende Einsatzszenarien

Nutzen von Hadoop-Initiative ist nicht klar, kann nicht klar kann nicht klar kommuniziert werden

Fehlende Sponsoren/Unterstützung aus der Führungsebene

Bedenken im Hinblick auf Datenschutz oder Datensicherheit

Kosten für die Implementierung einer neuen Technologie zu hoch

Fehlende oder mangelnde Reife der Komponen-ten des Ökosystems

Benutzerfreundlichkeit

Kosten für die Schulung und Entwicklung zu hoch

Es gibt keine Probleme beim Einsatz von Hadoop

Herausforderungen beim Einsatz von Hadoop

n=309

54%54%

55%

50%52%

45%

41%50%

26%

33%34%

33%

27%30%

26%

27%24%

36%

22%20%

28%

21%19%

26%

19%16%

24%

16%12%

31%

14%10%

26%

4%4%

0%

Weltweit

Europa

Nordamerika

30

Hadoop und Data Lakes Größte Herausforderungen sind fehlendes Know-how und Unsicherheit in der Nutzung

IT LOG

Hadoop-Thesen auf dem

Prüfstand

Hadoop und Data Lakes ©2016 BARC - Business Application Research Center, a CXP Group Company

Dem Hype folgt die Ernüchterung und damit wächst die Erkenntnis, dass Hadoop und Data La-kes nicht das Allheilmittel für analytische Aufgaben sind. Auf der anderen Seite steckt aber auch viel Potential in der Technologie und in dem Konzept. Es bleibt einzufordern, dieses Bild weiter zu schär-

fen und Einsatz und Nutzen von Hadoop und Data Lakes anhand realer Erfahrungen transparenter und greifbarer zu machen. Denn dies scheint nach wie vor eine der größten Herausforderungen in der Diskussion zu sein. Um der Unsicherheit ein Stück weit entgegenzuwirken, hat BARC im Vor-

feld der Umfrage einige provokante Thesen zu Hadoop und dem Data-Lake-Konzept gesammelt, diese wurden dann zum einen mit den Ergebnis der Umfrage verglichen und durch Kommentare der BARC-Analysten bewertet.

These

Hadoop ist die präferierte Techno-logie zur Umsetzung eines Data

Lakes.

Umfrageergebnis

Konnte in der Umfrage nicht eindeutig beantwortet werden. Teilnehmer sehen Hadoop als eine von mehreren geeigneten Technologie zur Umsetzung des Data-La-ke-Konzeptes.

BARC-Analyse

Für den Au�au eines Data Lakes gibt es keinen klaren Leitfaden. Heute sind bei der Gestaltung eines Data Lakes unter anderem noch Fragen zu Metadaten-Management oder zu Anforderungen an den virtuellen/lo-gischen Data Lake o�en. Daher kann Hadoop nicht pauschal als „präferierte“ Technologie genannt werden.

Hadoop hat gegenüber klassi-schen BI-Werkzeugen funktionale

Vorteile.

Umfrageergebnis

Wird von den Umfrageteilnehmern nicht als Hauptvorteil von Hadoop gesehen, aber auch nicht als Nachteil. Insofern ist eine grundsätzliche Eignung anzunehmen, ebenso wie bei den kommerziellen Werk-zeugen und Hadoop-Distributionen.

BARC-Analyse

Grundsätzlich ja, aber auch hier steht Individualprogrammierung derPlattformunterstützung gegenüber. Voraus-setzung ist eine Grundausstattung unabhän-gig von den tatsächlichen Anforderungen.

These

32

Hadoop und Data Lakes Hadoop und Data Lakes verlangen weiterhin nach Aufklärung

©2016 BARC - Business Application Research Center, a CXP Group Company Hadoop und Data Lakes

These

Hadoop ist flexibel, schnell und einfach zu implementieren.Umfrageergebnis

Die Umfrage hat gezeigt, dass Flexibilität in der Anwendungsgestaltung ein Grund für Apache ist. Eine schnelle und einfache Implementierung (Stichwort Umsetzungse -zienz) wird eher als Grund für die Wahl kommerzieller Werkzeuge und Hadoop-Dis-tributionen angeführt.

BARC-Analyse

Hier steht Individualprogrammierung einer mangelnden, inhärenten Plattformunterstüt-zung gegenüber. Ist mitunter abhängig vom verfügbaren Wissen um MPP (Massive Parallel Processing).

These

Hadoop unterstützt unterschied-lichste strukturierte Daten.Umfrageergebnis

Ist das Ergebnis dieser als auch vorheriger Umfragen.

BARC-Analyse

Ja, im Sinne eines einfachen Dateisystems, Speicherung unterschiedlichsten Formaten, Schema kommt mit der Anwendung.

These

Hadoop ist kostene zient.Umfrageergebnis

Tri�t im Grunde zu, auch wenn dies nicht der Hauptgrund zur Nutzung von Hadoop ist.

BARC-Analyse

Kann, muss aber nicht. Viele denken in erster Linie an Lizenzkosten. Die Kosten hängen allerdings auch ab von Implemen-tierung, Hardware und Betrieb.

33

Hadoop und LakesHadoop und Data Lakes verlangen weiterhin nach Aufklärung

IT LOG

Hadoop und Data Lakes ©2016 BARC - Business Application Research Center, a CXP Group Company

These

These Hadoop skaliert einfach und schnell mit wachsenden

Datenvolumina und Workloads in parallelen Umgebungen.

Umfrageergebnis

Wird von den Umfrageteilnehmern nicht als Hauptvorteil von Hadoop gesehen, aber auch nicht als Nachteil. Insofern ist eine grundsätzliche Eignung anzunehmen.

BARC-Analyse

Grundsätzlich ja, aber hier steht Individual-programmierung der Plattformunterstützung gegenüber. Voraussetzung ist eine Grund-ausstattung unabhängig von den tatsächli-chen Anforderungen.

These

Hadoop kann für Analytik aber auch für Online-/ Real-Time-Verar-

beitung genutzt werden.

Umfrageergebnis

Hadoop wird in der Beschreibung der Anwendungsfälle als Technologie für die Analytik genutzt. Die Nutzung für eine Online-/ Real-Time-Verarbeitung kommt eher vereinzelt vor.

BARC-Analyse

Grundsätzlich ja, aber hier steht Individual-programmierung der Plattformunterstützung gegenüber. Analytik und transaktionale Anwendungen benötigen unterschiedliche Designs, Komponenten und Systemkonfigu-rationen.

34

Hadoop und Data Lakes Hadoop und Data Lakes verlangen weiterhin nach Aufklärung

IT LOG

Firmenprofileder Sponsoren

Hadoop und Data Lakes ©2016 BARC - Business Application Research Center, a CXP Group Company36

Hadoop und Data Lakes

Mit der ersten integrierten Big Data-Plattform auf Basis des Apache™ Hadoop®-Frameworks gestaltet Cloudera die Datenverwaltung im Un-ternehmen von Grund auf neu. Cloudera bietet Unternehmenskunden integriertes Speichern, Bearbeiten und Analysieren all ihrer Daten und ermöglicht ihnen damit nicht nur eine effiziente-re Nutzung ihrer Systemlandschaft, sondern auch völlig neue Methoden der Datenverwertung. Nur Cloudera liefert sämtliche für den Aufbau eines in-ternen Daten-Hubs erforderlichen Komponenten, einschließlich der Software für geschäftskritische Kernfunktionen wie Speicherung, Zugang, Verwal-

tung, Analyse, Schutz und Suche von Daten. Als führender Anbieter hat Cloudera weltweit bereits mehr als 27.000 Hadoop®-Experten geschult. Dar-über hinaus sorgen über 2.300 Partner und ein er-fahrenes Serviceteam für den schnellstmöglichen Einsatz neuer Software. Nur Cloudera bietet den dynamischen und zukunftsorientierten Support, der Unternehmen darin unterstützt, ihren Enterpri-se Data Hub effizient einzusetzen. Führende Un-ternehmen aller Wirtschaftsbereiche, sowie staatli-che Institutionen setzen bei der Verarbeitung und Analyse großer Datenvolumen auf Cloudera!

Kontaktinformationen

Cloudera GmbH

Birketweg 31

80639 München

Email: [email protected]

Cloudera Unternehmensprofil

www.cloudera.com

Firmenprofile der Sponsoren

©2016 BARC - Business Application Research Center, a CXP Group Company Hadoop und Data Lakes 37

Hadoop und Lakes

SAS ist mit über drei Milliarden US-Dollar Umsatz einer der weltweit größten Softwarehersteller und der größte Anbieter von Big-Data-Analytics-Soft-ware. Unternehmen an weltweit mehr als 80.000 Standorten setzen SAS Lösungen ein, um aus ihren vielfältigen Geschäftsdaten auch im Zusammen-spiel mit externen Daten (Big Data) konkrete Infor-mationen für strategische und operative Unterneh-mensentscheidungen zu gewinnen (Analytics) und so ihre Wettbewerbsfähigkeit zu steigern.

Big Data Analytics ist der Schlüssel dazu, die Digi-tale Transformation nicht nur zu bewältigen, son-dern davon zu profitieren und die notwendigen disruptiven Prozesse im Unternehmen erfolgreich umzusetzen. Dank 40 Jahren Erfahrung auf dem Gebiet der Datenanalyse verfügt SAS dafür nicht nur über weitreichende Visionen – die Technolo-gie ist zugleich pragmatisch, bewährt, sicher und schnell produktiv einsetzbar.

SAS kommt in der gesamten Wirtschaft und öf-fentlichen Verwaltung zum Einsatz. Kernbranchen sind Banken, Versicherungen, Handel und die Fertigungsindustrie. Banken steuern mit SAS ihre Prozesse und erfüllen mit SAS die Vorschriften von Aufsichtsbehörden. Versicherungen kommen mit

SAS Versicherungsbetrügern auf die Spur. Händler optimieren ihre Kundenansprache und ihr Kampa-gnenmanagement oder steigern das Kundener-lebnis beim Online-Shopping. Industrieunterneh-men steuern ihre Service- und Wartungsprozesse zum Beispiel so, dass Teile ersetzt werden, bevor sie auszufallen drohen.

Big Data Analytics von SAS hilft Unternehmen, das Maximum aus ihren Daten herauszuholen. Ganz gleich, wie groß und wie komplex die Datenbe-stände sind – SAS Software erkennt die relevan-ten Strukturen und Zusammenhänge. So werden Daten zu Erkenntnissen, die als Basis für sichere und vorausschauende Geschäftsentscheidungen dienen.

SAS High-Performance Analytics nutzt intensiv die Möglichkeiten von Hadoop und In-Memory Com-puting für die wirtschaftliche und extrem schnelle Verarbeitung von Big Data. Zudem bietet SAS Un-ternehmen eine Plattform, um Daten zu analysie-ren, zu verbessern und zu kontrollieren und trägt somit dazu bei, die Datenqualität und Data Gover-nance entscheidend zu verbessern.

Alle Lösungen von SAS sind auch als Managed Services verfügbar und lassen sich sowohl in der

Public Cloud, der Private Cloud oder in hybriden Cloud-Umgebungen nutzen. Ein Schwerpunkt liegt dabei auf Lösungen für Self-Service Business Analytics, mobile Business Analytics oder Datenvi-sualisierung, die es auch Fachabteilungen und der Managementebene ermöglichen, ohne besondere Statistikkenntnisse oder Unterstützung der IT-Ab-teilung wertvolle Erkenntnisse aus dem Datenma-terial zu ziehen.

Hintergrund: SAS entstand im Rahmen eines For-schungsprojekts an der North Carolina State Uni-versity. Das 1976 gegründete Unternehmen mit Sitz im US-amerikanischen Cary, North Carolina, beschäftigt mehr als 14.000 Mitarbeiter in 59 Län-dern weltweit. SAS Deutschland hat seit 1982 sei-ne Zentrale in Heidelberg mit weiteren Niederlas-sungen in Berlin, Frankfurt, Hamburg, Köln sowie München und beschäftigt aktuell 520 Mitarbeiter. Zu den deutschen Kunden gehören zum Beispiel Allianz, Continental, Commerzbank, HUK Coburg, Fraport, DER Touristik, Nestlé, Galeria Kaufhof, BASF und die Meyer Werft.

SAS Unternehmensprofil

www.sas.com

Firmenprofile der Sponsoren

Hadoop und Data Lakes ©2016 BARC - Business Application Research Center, a CXP Group Company

Hadoop und Data Lakes Firmenprofile der Sponsoren

38

Talend (NASDAQ: TLND) ist ein führender Anbieter von Next-Generation-Lösungen in den Bereichen Big-Data- und Cloud-Integration und unterstützt Unternehmen bei der datengestützten Entschei-dungsfindung. Hierzu wird der Datenzugriff opti-miert und die Datenqualität erhöht. Daten stehen bei Bedarf schnell dort zur Verfügung, wo wichti-ge Entscheidungen in Echtzeit getroffen werden. Weil Talend das Thema Big Data mithilfe solcher Maßnahmen einfacher macht, können Unterneh-men auf der Grundlage präziser Echtzeitdaten zu ihrem Geschäft, ihren Kunden und ihrer Branche richtig handeln. Die innovativen Open-Source-Lö-

sungen von Talend ermöglichen das schnelle und effiziente Erfassen, Aufbereiten und Kombinieren von Daten aus einer breiten Palette von Daten-quellen. So können Unternehmen diese Daten für jeden geschäftlichen Aspekt optimal nutzen. Talend hat seinen Sitz im kalifornischen Redwood City (USA). Weitere Informationen finden Sie unter www.talend.com. Folgen Sie uns auch auf Twitter: @TalendDE.

Kontaktinformationen

Talend Germany GmbH

Servatiusstrasse 53

53175 Bonn

Deutschland

Tel: +49 228 76 37 76 0

[email protected]

www.talend.com

Talend Unternehmensprofil

www.talend.com

©2016 BARC - Business Application Research Center, a CXP Group Company Hadoop und Data Lakes 39

Teradata hilft Unternehmen dabei, größeren Nutzen aus ihren Daten zu ziehen. Mit unseren Big-Data-Analyselösungen erzielen Firmen nach-haltige Wettbewerbsvorteile. Die Experten von Teradata unterstützen Unternehmen bei der Aus-wertung ihrer Daten, sodass sie mehr über ihr Ge-schäft und ihre Kunden wissen und gezielt aktiv werden können. Mehr als 10.000 Mitarbeiter in 43 Ländern betreuen die Kunden von Teradata, die im Konsumgüterbereich, dem Finanzwesen, der Au-tomobilindustrie, dem Handel und vielen weiteren Branchen aktiv sind. Als zukunftsorientiertes Un-ternehmen wird Teradata von Medien und Analys-ten wegen seiner Technologiekompetenz, seiner Nachhaltigkeit, seines ethischen Handelns und seiner Unternehmenswerte anerkannt.

Teradata – Unsere Produkte

Teradata-Plattformen fassen alle Daten eines Un-ternehmens zusammen und verhelfen so zu einem einheitlichen Blick auf alle entscheidungsrelevan-

ten Daten. Durch die Integration unterschiedlicher Technologien in einer soliden Hybrid-Architektur sorgen wir dafür, dass einem Unternehmen je-derzeit verlässliche Daten zur Verfügung stehen. Dieses Analyse-Ökosystem nennen wir Teradata Unifed Data Architecture™. Mit der Teradata Hybrid Cloud bieten wir darüber hinaus eine abgestimmte IT-Umgebung, in der On-premise Systeme, Mana-ged Cloud sowie Public Cloud im Sinne einer ana-lytischen Gesamtarchitektur flexibel kombiniert werden.

Teradata – Unsere Services

Die erstklassigen Beratungsdienstleistungen von Teradata verbinden eine patentierte Methodik mit umfassendem Branchenwissen und jahrelanger praktischer Erfahrung. Unsere Berater unterstützen bei Fragen der Architektur vom Data Warehouse, seiner Implementierung und Optimierung sowie in Sachen Enterprise Analytics, Datenmanagement und Managed Services.

Neue Services für große Datenvolumen, wie z.B. die von Think Big, runden unser Beratungsportfo-lio ab. Think Big bietet fundiertes Expertenwissen über OpenSource Lösungen wie Hortonworks, Cloudera und MapR, und liefert darüber hinaus ein Set von eigenen Anwendungskomponenten und Big-Data-Analysen.

Teradata ist wegen seiner Technologiekompetenz, Nachhaltigkeit, sozialen Verantwortung, seines ethischen Handelns und seiner Unternehmens-werte anerkannt.

Weitere Informationen: www.teradata.de

Teradata Unternehmensprofil

www.teradata.de

Hadoop und LakesFirmenprofile der Sponsoren

IT LOG

BARC-Firmenprofil

©2016 BARC - Business Application Research Center, a CXP Group Company Hadoop und Data Lakes

IT LOG

41

Hadoop und LakesBARC-Unternehmensprofil

Das Business Application Research Center (BARC) ist ein Forschungs- und Beratungsinstitut für Un-ternehmenssoftware mit Fokus auf die Bereiche Business Intelligence, Enterprise Content Manage-ment (ECM), Customer Relationship Management (CRM) und Enterprise Ressource Planning (ERP). BARC-Mitarbeiter sind seit 1994 in der Evaluation von Business-Intelligence- und ECM-Produkten und Beratung von Unternehmen tätig. Dabei ver-einen die BARC-Analysten Markt-, Produkt- und Einführungswissen. Know-how-Basis sind die seit Jahren ständig durchgeführten Marktanalysen und Produktvergleichsstudien, die ein umfassen-des Detailwissen über den Leistungsumfang aller marktrelevanten Software-Anbieter und neueste Entwicklungen im Markt sicherstellen.

Neben dem Firmensitz in Würzburg unterhält BARC heute Niederlassungen in München, London, Wien

und Zürich. BARC formt mit den Analystenhäusern CXP und PAC die führende europäische Analys-tengruppe für Unternehmenssoftware und IT Ser-vices mit Vorortvertretungen in acht Ländern.

BARC ist aus den komparativen Produktanalysen am Lehrstuhl Wirtschaftsinformatik der Universität Würzburg, Prof. Dr. R. Thome hervorgegangen. In seiner Stellung als unabhängiges Institut beobach-tet und analysiert BARC den Markt für Business Applications. In Beratungsprojekten, Software-Ver-gleichsstudien und auf Fachtagungen bringt BARC Transparenz und Vergleichbarkeit in den Soft-ware-Markt. Dabei ist BARC strikt unabhängig von Software-Anbietern. Dies bedeutet, dass keine Gebühren für die Aufnahme in Studien oder Provi-sionen bei der Empfehlung von Software erhoben werden. BARC bietet auch keine Implementierung von Software an, um keine internen Interessen zu erzeugen.

BARC-Mitarbeiter evaluieren seit mehr als 20 Jah-ren Business-Intelligence- und Enterprise-Con-tent-Management-Produkte und nutzen das so erlangte Wissen in Beratungsprojekten zur Soft-ware-Auswahl und IT-Strategie.

Über 1.200 Kunden jährlich, darunter mehr als 90 Prozent der DAX100-Unternehmen nutzen in viel-fältiger Weise das Know-how der BARC-Analysten. BARC-Beratungsprojekte sind hoch effizient und gewährleisten ein Höchstmaß an Sicherheit bei Software-Auswahl und IT-Strategie. BARC-Studi-en bieten einen qualifizierten Marktüberblick und einen detaillierten Software-Vergleich. BARC-Ta-gungen und Seminare geben einen konzentrierten Eindruck aller relevanten Anbieter in verschiede-nen Segmenten des Marktes für Geschäftsanwen-dungen.

Das Business Application Research Center (BARC)

www.barc.de

Hadoop und Data Lakes ©2016 BARC - Business Application Research Center, a CXP Group Company42

NotizenHadoop und Data Lakes

IT LOG

Business Application Research Center – BARC GmbH

GermanyBARC GmbH

Berliner Platz 7D-97080 Würzburg

+49 (0) 931 880651-0www.barc.de

AustriaBARC GmbH

Goldschlagstraße 172 / Stiege 4 / 2.OGA-1140 Wien

+43 (1) 8901203-451www.barc.de

Rest of the World +44 1536 772 451

www.barc-research.com

SwitzerlandBARC Schweiz GmbH

Täfernstrasse 22aCH-5405 Baden-Dättwil

+41 76 340 35 16www.barc.ch