hadoop und data lakes - info.talend.com · fflfh hadoop und data lakes 216 barc b appto r ct c op...
TRANSCRIPT
2 ©2016 BARC - Business Application Research Center, a CXP Group CompanyHadoop und Data Lakes
Hadoop und Data Lakes
Jacqueline Bloemen
Senior Analyst
Jevgeni Vitsenko
Analyst
Timm Grosser
Senior Analyst
Melanie Mack
Head of Market Research
Die unabhängige Studie wurde von BARC, einem objektiven Marktanalysten erstellt.
Wir bedanken uns bei Cloudera, SAS, Talend und Teradata für die Sponsoring-Initiative zu dieser Studie.
Autoren
3©2016 BARC - Business Application Research Center, a CXP Group Company Hadoop und Data Lakes
Hadoop und Data Lakes
4 | Vorwort
6 | Demographie
8 | Management Summary
11 | Ergebnisse der Umfrage
11 | Einsatz und Nutzung
17 | Treibende Kraft
19 | Gründe und Nutzen
24 | Data Lake
27 | Umsetzung
29 | Herausforderungen
31 | Hadoop-Thesen auf dem Prüfstand
35 | Firmenprofile der Sponsoren
36 | Cloudera
37 | SAS
38 | Talend
39 | Teradata
39 | BARC-Firmenprofil
Inhaltsverzeichnis
©2016 BARC - Business Application Research Center, a CXP Group Company
IT LOG
Hadoop und Data Lakes
N ach wie vor ist die Diskussion um Hadoop und Data Lakes top aktu-el l . Das Hadoop-Ökosystem gi l t als
technologischer Wegbereiter, der es Unter-nehmen ermöglicht, die Früchte der Big-Da-ta-Revolution ernten zu können. Der Data Lake gi l t als weitergefasstes Datenmanage-mentkonzept und als Voraussetzung für ein datengetriebenes Unternehmen. Das zent-rale Versprechen lautet: fast bel iebig große Datenmengen aus unterschiedl ichsten Sys-temen, mit bel iebiger Struktur schnell , eff i -zient und kostengünstig verwalten, nutzen und auswerten zu können. Eine Quelle für al le Formen analyt ischer Aufgabenstel lun-gen; eine Art technologisches Rückgrat der Digital is ierung und „Big-Datafizierung“ der Wirtschaft .
Hadoop ist ein Top-Level-Projekt der Apa-che Software Foundation und ein freies Java-Framework für skal ierbare, vertei l t arbeitende Anwendungen. Es besteht aus einer Sammlung von Komponenten für die Verwaltung, den Zugrif f und die Analyse strukturierter und unstrukturierter Daten. Es bietet die Möglichkeit , große Mengen po-lystrukturierter Daten zu verwalten und in Verbindung mit neuen oder auch etabl ierten IT-Technologien wertschöpfend zu verwen-
den. Hierdurch eignet es sich besonders als Plattform zur Umsetzung von Big-Data-Auf-gaben und wird häufig auch als Technologie für die Umsetzung eines Data Lake gese-hen. Das Konzept des Data Lakes kann aber weitaus mehr umfassen, je nach Definit ion, die heute noch nicht ganz klar ist . Oftmals fokussiert der Data Lake auf die Verfügbar-keit von Daten und stel l t damit Daten syste-mübergreifend, unabhängig ihrer Herkunft , schemafrei und nah am Rohdatenformat für nachfolgende Anwendungen bereit .
Sowohl die Technologie Hadoop als auch das Konzept Data Lake sind erst seit kur-zer Zeit im Enterprise-Kontext im Einsatz. Entsprechend fäl l t es Unternehmen häu-f ig schwer, zwischen medialer Überhöhung und tatsächl ich real isierbarem Mehrwert zu unterscheiden. Es l iegen bislang erst we-nige Erfahrungen vor, wie und wo es wirk-l ich Sinn macht, welche Stolpersteine und Hürden bei der Implementierung lauern und welche potenziel len Vortei le sich in der Pra-xis tatsächl ich ergeben.
Wichtige Antworten l iefert jetzt die vorl ie-gende BARC-Anwenderbefragung, die den Status quo von Hadoop und Data Lakes im Allgemeinen und Erfahrungen aus Hadoop
Use Cases im Speziel len weltweit unter-sucht hat. Kernfragen waren dabei:
• Welche Verbreitung haben Hadoop und Data Lakes bereits gefunden und wie sehen die Pläne der Unternehmen aus?
• Wie setzen Unternehmen Hadoop ein bzw. planen sie es einzusetzen?
• Wie wird ein Data Lake heute in Unter-nehmen genutzt?
• Auf welche Probleme stoßen die Unter-nehmen dabei?
• Welchen Nutzen erzielen Unternehmen durch Hadoop und was wurde bereits umgesetzt?
• Wie gestaltet sich die technologische Umsetzung?
Die Studie wurde unabhängig durch BARC erstel l t . Sie kann dank eines Sponsoring von Cloudera, SAS, Talend und Teradata kostenfrei veröffentl icht werden.
Besonderer Dank gi l t schon jetzt al le Tei l -nehmern kommender Befragungen von BARC, denn nur so sind auch in Zukunft Beiträge zu Diskussionen mit empir isch fun-dierter Datenbasis möglich.
5
Hadoop und Data LakesVorwort
©2016 BARC - Business Application Research Center, a CXP Group Company
IT LOG
Hadoop und Data Lakes
ServicesIndustrie
Banksektor
ITHandel
Ö�entlicher Sektor
Sonstige
24% 22% 16%
14%
9%
6%
9%
23% 33% 45%
257(77%)
58(18%)
Über
380Teilnehmer Bis 250
Mitarbeiter250 - 2.500Mitarbeiter
Mehr als 2.500Mitarbeiter
Europa Nordamerika
7
Demographie Hadoop und Data Lakes
©2016 BARC - Business Application Research Center, a CXP Group Company
IT LOG
Data discovery/visualization, data quality/master data management and self-service are currently the topics BI practitioners iden-tify as the most important trends in their work. At the other end of the spectrum, data labs/science, cloud BI and data as a product have been voted as the least important of the nine-teen trends covered in this report.
Hot Spot#2
Die Meinungen zum Nutzen eines Data-Lake-Konzeptes gehen auseinander
Bei der Diskussion um den Data Lake bilden sich zwei Lager, wovon die eine Hälfte das Konzept als wertvoll und auch als Voraus-setzung datengetriebener Unternehmen an-sieht. Die andere Hälfte empfindet den Data Lake als Neubenennung von Althergebrach-tem, als Marketingbegriff oder sieht keine Relevanz in dem Thema. Womöglich ist dies noch eine von Unsicherheit geprägte Lücke, welche die Chance eröffnet, eine Definition zu finden und Transparenz bei den Themen Nutzen und Best-Practices zu schaffen. Ein-hergehend mit der noch unpräzisen Defini-tion ist auch keine einheitliche Linie in der Nutzung zu erkennen. Es zeigt sich aber eine Tendenz, das Konzept vorwiegend für Daten-aufbereitung und Speicherung oder eine ex-plorative Umgebung zu nutzen.
Hadoop und Data Lakes 9
Data discovery/visualization, data quality/master data management and self-service are currently the topics BI practitioners iden-tify as the most important trends in their work. At the other end of the spectrum, data labs/science, cloud BI and data as a product have been voted as the least important of the nine-teen trends covered in this report.
Hot Spot#1
Hadoop - Trendtechnologie mit hohem Potential
Die produktive Nutzung von Hadoop nimmt vor allem in Europa zu, aber auch gleichzei-tig die Anzahl der Unternehmen, die Hado-op nicht nutzen wollen. Mit wachsendem Verständnis des möglichen Nutzens eines Hadoop-Einsatzes können Unternehmen offensichtlich klarer entscheiden, ob sie die Technologie einsetzen möchten oder nicht. Das Profil der produktiven Hadoop-Systeme ist überraschend breit: Hadoop wird unab-hängig von Unternehmensgröße, Datenvo-lumen, Datentypen oder auch Aktualitätsan-forderungen eingesetzt. Damit ist es für alle Unternehmen eine potentiell geeignete Technologie mit breiten Einsatzspektrum. Hadoop entwickelt sich dabei immer mehr vom einfachen Dateisystem zur Ablaufumge-bung für analytische Anwendungen.
Hadoop und Data Lakes Management Summary
Data discovery/visualization, data quality/master data management and self-service are currently the topics BI practitioners iden-tify as the most important trends in their work. At the other end of the spectrum, data labs/science, cloud BI and data as a product have been voted as the least important of the nine-teen trends covered in this report.
Hot Spot#3
BICC und Data Science Teams treiben Hadoop und Data-Lake-Projekte
Im Wesentlichen sind es BI Competence Centers und auch Data Science Teams, die heute Hadoop- und Data-Lake-Projekte trei-ben und damit den technologischen Themen Hadoop und Data Lake einen einen stärke-ren fachlichen Bezug geben.
IT LOG
©2016 BARC - Business Application Research Center, a CXP Group CompanyHadoop und Data Lakes
Data discovery/visualization, data quality/master data management and self-service are currently the topics BI practitioners iden-tify as the most important trends in their work. At the other end of the spectrum, data labs/science, cloud BI and data as a product have been voted as the least important of the nine-teen trends covered in this report.
10
Hot Spot#5
Klarer Fall für Hadoop: Customer Intelligence und Predictive Analytics
Customer Intelligence und Predictive Ana-lytics sind die mit Abstand am häufigsten um-gesetzten Hadoop-Projekte. Bereits heute sind viele Daten zum Kunden, Kundenverhal-ten und den Kanälen für Analysen verfügbar. Predictive Analytics gilt als Vorzeigedisziplin für „neuartige“, explorative Analysen und wird daher in Unternehmen häufig zuerst an-gegangen.
Management SummaryHadoop und Data Lakes
Hot Spot#7
Hadoop ermöglicht Anwendungsfälle, die bisher nicht umgesetzt werden konnten
Anwender sehen Hadoop vor allem als (po-tentielle) Technologie zur Umsetzung neu-artiger Anwendungsfälle, die mit den beste-henden Systemen nicht umgesetzt werden können. Kosteneinsparungen spielen eine nachgelagerte Rolle, wie auch der Einsatz als technisch bessere Plattform.
Hot Spot#8
Die größten Herausforderungen sind fehlendes Know-how und Unsicherheit bei der Nutzung
Seit der letzten Hadoop-Umfrage scheint nicht viel geschehen zu sein! Fehlendes fachliches und technisches Know-how füh-ren klar die Liste der Herausforderungen an. Europäische Unternehmen sind darüber hi-naus noch unklar über den richtigen Einsatz und die Nutzung, während nordamerikani-sche eher fehlende Benutzerfreundlichkeit, mangelnde Reife des Systems sowie hohe Kosten für Schulung und Entwicklung be-mängeln.
Data discovery/visualization, data quality/master data management and self-service are currently the topics BI practitioners iden-tify as the most important trends in their work. At the other end of the spectrum, data labs/science, cloud BI and data as a product have been voted as the least important of the nine-teen trends covered in this report.
Hot Spot#4
Umsetzung erfolgt hauptsächlich durch kommerzielle Werkzeuge und Hadoop-Distributionen
Kommerzielle Werkzeuge und Distributionen überzeugen in den meisten Werkzeugkate-gorien vor den Apache-Hadoop-Komponen-ten und werden auch deutlich häufiger ein-gesetzt. Eine Ausnahme sehen wir lediglich in der Kategorie Streaming. Kosteneinspa-rung, funktionale Leistungs-/Innovationskraft und Betreibarkeit sind mehrheitlich genannte Gründe für die Wahl von Apache Hadoop.
Hot Spot#6
Großer analytischer Nutzen durch Hadoop
Hadoop weist den deutlichsten Nutzen auf in der Analyse von Daten aus heterogenen, divergenten Quellen, Vorhersage des Kun-denverhaltens, Kundenbindung, sowie in der Steigerung der Flexibilität. Hadoop nimmt in den Projekten nicht nur die Rolle des Datei-systems ein, sondern fungiert als Plattform und Ablaufumgebung mit den Kernfunktio-nen in Analyse und Predictive Analytics.
©2016 BARC - Business Application Research Center, a CXP Group CompanyHadoop und Data Lakes
Hadoop ist nach wie vor auf dem Prüfstand, aber der Nutzen des Frameworks scheint gute Argu-mente für seinen Einsatz zu liefern.
Den Zahlen nach bilden sich zwei Lager: „pro“ und „contra“ Hadoop. Demnach wird Hadoop keines-falls mehr als die Wunderwaffe gegen jegliche analytische Herausforderung wahrgenommen, sondern bietet Vor- und Nachteile je nach Einsatz-szenario.
Über ein Drittel der weltweit Befragten (40%) sind Hadoop-Befürworter (im produktiven Einsatz, als Pilotprojekt, Initiative geplant) und zeigen ein deutliches Interesse an Hadoop, davon haben 12% Hadoop bereits im produktiven Einsatz.
Viele der Befürworter sehen in Hadoop einen möglichen weiteren Baustein beim Aufbau analy-tischer Umgebungen für spezielle Anwendungen.
Ein weiteres Drittel (27%) sieht sich als Hadoop-Gegner.
Die dritte Gruppe (34%) haben bisher kein Hadoop im Einsatz, können sich allerdings eine zukünftige Nutzung vorstellen.
Deutlicher Anstieg der Hadoop-Nutzung im deutschsprachigen Raum
Für die DACH-Region zeichnet sich im Vergleich zu den Vorjahreswerten ein deutlicher Anstieg bei der Nutzung ab (4% auf 8%). Die Anzahl der Hadoop-Interessenten (Hadoop-Initiative als Pilot-projekt und Hadoop-Initiative geplant) gleicht mit 26% fast dem Vorjahreswert. Aber auch die An-zahl derjenigen, die sich nicht vorstellen können
Hadoop zu verwenden, steigt von 21% auf 33%.
Die Erwartungen treffend ist die Anzahl der pro-duktiven Hadoop-Installationen in Nordamerika mit 17% fast doppelt so hoch angegeben, wie in Europa.
Höhere Verbreitung von Hadoop in Nordamerika
Dem nordamerikanischen Markt wird insgesamt eine schnellere Adoption und auch höhere Reife in der Nutzung von Informationstechnologien nach-gesagt. So ist das Ergebnis auch nicht weiter ver-
wunderlich, ist doch ein höherer Erfahrungswert im Umgang mit Hadoop anzunehmen. Insgesamt ähnelt sich aber die Verteilung der Werte zwischen Nordamerika und Europa.
Eine ergänzende Branchenbetrachtung gibt weite-re interessante Einblicke in die Hadoop-Nutzung. Mit einem Planwert von 38% und einer aktuellen produktiven Nutzung von 0% ist der Finanzsek-tor die Newcomer-Branche. Zum Zeitpunkt der Umfrage finden sich die meisten Initiativen in der IT-Branche und in der Industrie.
Hadoop-Initiative nach Regionn=371/302/196
Europa
Nordamerika
2016 DACH-Region
2015 DACH-Region
2016
17%
9%
8%
4%
12%
Hadoop im produktivenEinsatz
16%
16%
17%
14%
16%
Hadoop-Initiative als Pilotprojekt
33%
43%
33%
49%
34%
Nein, zukünftig denkbar
32%
12%
33%
21%
27%
Nein, und keine geplant
10%
12%
9%
11%
12%
Hadoop-Initiativegeplant
12
Hadoop und Data Lakes Produktive Nutzung von Hadoop nimmt zu, allerdings auch die Anzahl der Kritiker
©2016 BARC - Business Application Research Center, a CXP Group Company Hadoop und Data Lakes
Die Umfrageergebnisse belegen, dass Hadoop als Teil einer Big-Data-Strategie nicht nur für Groß-unternehmen und Unternehmen mit großen Da-tenvolumen relevant ist. Dies spiegelt sich in der Verteilung der Umfrageteilnehmer wider. Hier fin-den sich sowohl Großunternehmen (41%), als auch kleine Unternehmen (20%) und mittelständische Unternehmen (16%).
Ja, wir nutzen Hadoop im produktiven Einsatz
Ja, wir setzen eine Hadoop-Initiative als Pilotprojekt um
Ja, wir planen eine Hadoop-Initiative
Nein, aber für die Zukunft ist eine denkbar
Nein, es existiert keine und es ist auch zukünftig keine geplant
Hadoop-Initiative nach Unternehmensgröße
n=370
7%
13%
8%
36%
35%
Bis 250Mitarbeiter
7%
9%
9%
41%
34%
250 - 2.500Mitarbeiter
18%
23%
15%
27%
17%
Mehr als 2.500Mitarbeiter
13
Hadoop und LakesDie Nutzung von Hadoop hängt vom Anwendungsfall ab und wird nicht durch die Unternehmensgröße definiert
Hadoop und Data Lakes ©2016 BARC - Business Application Research Center, a CXP Group Company
Der Großteil der Hadoop-Anwendungen verar-beitet kleine Datenmengen
Die Befragung zeigt, dass der Einsatz von Hadoop in unserer Stichprobe unabhängig von Datenvolu-men oder der -aktualität erfolgt.
59% der geschilderten Hadoop-Szenarien wer-den vorwiegend bei „kleinen Datenvolumen“ bis zu 25 Terabyte (TB) umgesetzt. Szenarien jenseits von 1 Petabyte (PB) gibt es äußerst selten (1%). Der Blick in die Zukunft (in 12 Monaten) zeigt erwar-tungsgemäß eine Zunahme des Datenvolumens.
Unternehmen starten erste Hadoop-Initiativen im überschaubaren Rahmen und sehen bereits heu-te Potential für den weiteren Ausbau. Den größten Anstieg verzeichnen Szenarien ab 25 TB.
Nutzung von Hadoop nicht mehr nur auf Batch-Anwendungen beschränkt
Interessant in der Betrachtung der Datenaktualität ist die hohe Nennung von Streaming (21%) oder Near-Time-Nutzung (35%), die insbesondere im Anwendungsfeld Customer Intelligence vorkommt. Demnach beschränkt sich der Einsatz von Hadoop
und Map-Reduce nicht mehr nur auf Batch-Anwen-dungen, sondern wird vermehrt auch bei hohen Anforderungen an die Datenaktualität eingesetzt.
Aktualität von Daten in Hadoop-Anwendungenn=143
Near/Real-Time Anforderungen („Streaming“/„ Event Processing")
Near-Time-Anforderungen im Sinne einer zeitnahen Verarbeitung
Tägliche/seltenere Beladung des Hadoop Clusters
Au�au Datenarchiv mit nicht-zeitkritischen Zugrien auf historische Daten
36%
35%
21%8%
Datenvolumen in Hadoopn=251
Klein 59% 19%
Sehr groß (>500 TB) 1% 8%
Mittel (>25 TB) 29% 48%
Groß (>500 TB) 11% 25%
Heute In 12 Monaten
14
Hadoop und Data Lakes Einsatz von Hadoop unabhängig von Datenvolumen oder -aktualität
©2016 BARC - Business Application Research Center, a CXP Group Company Hadoop und Data Lakes
Über die Hälfte der Teilnehmer (53%) nutzen trans-aktionsorientierte Daten am häufigsten in Hadoop, aber auch Logdaten (40%) und Clickstream-Daten/Web-Analytics (33%) stellen bereits einen Groß-teil der Daten. Über ein Viertel der Befragten (27%) nutzt Dokumente und Texte in Hadoop-An-wendungen. Dies erscheint erstaunlich hoch im Vergleich zu verschiedenen BARC-Studien aus vergangenen Jahren. Ein Blick auf die Planwerte zeigt ambitionierte Vorhaben in fast jeder Daten-kategorie. Eine Aussage zur besonderen Eignung von Hadoop für einzelne Datentypen lässt sich da-raus nicht ableiten. Vielmehr scheint Hadoop eher zur Verarbeitung aller Datentypen eine potentiel-le Technologie zu sein. Es ist damit anzunehmen, dass Hadoop mehrheitlich Daten verwendet, die auch in herkömmlichen Plattformen genutzt wer-den können. Wenn also nicht Datenvolumen oder -typen relevant für die Nutzung von Hadoop sind, bleibt vorerst die Frage offen, welche Gründe für eine Nutzung von Hadoop sprechen. Letztendlich sind Punkte wie Kosten, Funktionen für Anwen-dungsfälle aber auch die vorhandene technische Infrastruktur wie auch vorhandene IT-Prozesse und Know-how zu bewerten.
Datentypen in Hadoop-Anwendungenn=143
Daten aus Transaktionssystemen
Logdaten aus IT-Systemen
Clickstream-Daten, Web-Analytics
Dokumente/Texte
Sensor-, RFID-, andere Maschinendaten
Open Data
Social-Media-Daten
Videoclips/Bilder
Sonstige
53%
40%
33%
27%
22%
17%
15%
10%
5%
35%
42%
49%
38%
33%
48%
53%
35%
9%
Im Einsatz Geplant
15
Hadoop und LakesTransaktionsorientierte Daten werden am häufigsten genutzt
IT LOG
Hadoop und Data Lakes ©2016 BARC - Business Application Research Center, a CXP Group Company
Hadoop wird für unterschiedliche Zwecke einge-setzt, vor allem als Ablaufumgebung für fortge-schrittene, neuartige Analysen (65%), als Speicher für Roh-/Detaildaten (60%) und zur Datenaufbe-reitung und Integration (57%). Aber auch weitere Einsatzszenarien sind gut denkbar und umgesetzt. Ein interessanteres Bild liefert hier wieder die Be-trachtung nach Regionen.
Nordamerika nutzt Hadoop intensiver als Ablaufumgebung für BI
Es findet sich ein deutlicher Unterschied in der Nutzung als Speicher für Roh-/Detaildaten zwi-schen Nordamerika und Europa. In der europäi-
schen Stichprobe nutzen 76% Hadoop als Spei-cher für Roh-/Detaildaten wohingegen es in der nordamerikanischen Stichprobe lediglich 15% der Befragten sind.
Eine mögliche Erklärung kann sein, dass die Nut-zung von Hadoop sich mit Erfahrung und Reife verschiebt, weg von der einfachen Datenablage mehr hin in Richtung analytischer Engine als Ab-laufumgebung für BI. Dies würde bedeuten, dass der nordamerikanische Markt insgesamt bereits mehr Erfahrung in der analytischen Nutzung von Hadoop hat und daher auch andere Nutzungs-schwerpunkte sieht.
Erwähnenswert ist die Verwendung von Hadoop als Ablaufumgebung für die fortgeschrittene Ana-lyse, die in Europa mit 11% Unterschied mehr An-klang findet als in Nordamerika. So scheint Hado-op in Nordamerika nicht „nur“ für neue analytische Disziplinen wie fortgeschrittene Analyse oder Ex-ploration genutzt zu werden, sondern die Techno-logie als solche zur Unterstützung neuer wie auch alter Aufgabenstellungen. Anzunehmen ist daher der breitere Einsatz und unter Umständen auch eine bessere Ausnutzung möglicher Potentiale im nordamerikanischen Markt.
Ablaufumgebung für fortgeschrittene Analysen, Discovery, Exploration
Speicher für Roh-/Detaildaten
Datenau�ereitung/Datenintegration
Datenarchiv
Ablaufumgebung für klassische BI
Unterstützung operativer Anwendungen
65%
60%
57%
40%
30%
19%
Weltweit
76%
69%
57%
42%
24%
20%
Europa
15%
58%
58%
35%
42%
19%
Nordamerika
Nutzung von Hadoop
n=144
16
Hadoop und Data Lakes Nach wie vor breites Einsatzfeld von Hadoop
IT LOG
Hadoop und Data Lakes ©2016 BARC - Business Application Research Center, a CXP Group Company
Der BARC Hadoop Survey 2015 zeigt die IT-Abtei-lung als Treiber und Vordenker für den Einsatz von Hadoop-Technologien und Data-Lake-Initiativen. Das Bild hat sich in der Zwischenzeit geändert. Mit 58% in Europa und 56% in Nordamerika steht namentlich das Business Intelligence Competence Center als treibende Kraft im Unternehmen mit Ab-stand an erster Stelle.
Spezielle Organisationseinheiten wie Data-Scien-ce-Teams, Big Data Labs etablieren sich vor allem in Europa, wohingegen in den Nordamerika die IT-Anwendungsentwicklung sowie eigenständi-ge Bereiche für Digitalisierungs- und Innovations initiativen die Hadoop-Themen treiben. Insgesamt verlieren reine IT-Abteilungen deutlich an Trieb-kraft. Ein Grund hierfür kann der große Bedarf an Analysen in den Fachabteilungen sein. Diese Ent-wicklung ruft vor allem die fachbereichsnäheren und Analyse-spezialisierten Organisationseinhei-ten auf den Plan.
Treiber für Hadoopn=110
Europa Nordamerika
BI-Organisation (BICC) 58% 56%
Data Science Team 27% 24%
(Big) Data Lab 26% 24%
Fachbereich 22% 8%
IT – Anwendungsentwicklung 21% 36%
Eigener Bereich für Digitalisierungs-/Innovationsinitiativen
20% 32%
IT – Innovationsbereich 19% 16%
IT – andere Bereiche 9% 4%
18
Hadoop und Data Lakes BI Competence Center und Data-Science-Team treiben Hadoop-Initiativen
Hadoop und Data Lakes ©2016 BARC - Business Application Research Center, a CXP Group Company
ViewpointFast ein Drittel der Befragten setzen zur Umset-zung von Hadoop-Projekten kommerzielle Pro-dukte bzw. Hadoop-Distributionen ein. Mehr als ein Viertel (27%) nutzt Apache-Komponenten zum Aufbau eines eigenen Hadoop-Ökosystems, was ein erstaunlich hoher Wert ist, da für die Implemen-tierung, Wartung und Betrieb doch ein tiefes Wis-sen notwendig ist um die Komponenten aufeinan-der abzustimmen und zu administrieren.
Über 40% der Befragten geben an, die Komponen-ten für die umgesetzten Anwendungsfälle nicht zu kennen oder klar zuordnen zu können. Es bleibt anzunehmen, dass etwa die hohe Produktvielfalt in einem Hadoop-Ökosystem die technische Im-plementierung nicht immer ganz nachvollziehbar
Viewpointsein lässt.
Anwender setzen auf on-premise Installationen
Eine weitere Auswertung zeigt, dass bei der Soft-wareauswahl die Entscheidung zu 61% auf Hado-op-Distributionen fällt, die im Hause installiert wer-den. Nur wenige vertrauen dabei auf Managed Services (11%), Plattformen aus der Cloud (9%) oder aber Appliances (10%).
Analyse und Visualisierung ist die klare Domäne kommerzieller Werkzeuge (64%).
Ein Blick auf die Werkzeugklassen liefert weite-re Erkenntnisse. Die Klassen Datenintegration und -qualität (48%), System Management (41%) und vor allem die fortgeschrittene Analysen und
ViewpointVisualisierung (64%) sind klar besetzt durch kom-merzielle Werkzeuge und Hadoop-Distributi-onen. Lediglich im Bereich der Datenspeicherung hat Apache Hadoop als Open Source Framework eine vergleichbar hohe Nutzung im Vergleich zu den kommerziellen Werkzeugen bzw. Hadoop-Dis-tributionen. Die Datenhaltung mit dem Hadoop Distributed File System (HDFS) zählt zu den ur-sprünglichen „Basisfunktionen“ von Hadoop und ist entsprechend bekannter.
Für die Kategorien Streaming (53%), Governance und Security (46%) haben ungefähr die Hälfte der Befragten keine Werkzeuge im Einsatz. Es scheint hier keine klar definierten Produkte zu geben.
27%
42%
Apache Hadoop
31%
KommerzielleProdukte
Nicht anwendbar
Datenintegration und -qualität
System Management
Fortgeschrittene Analyse und Visualisierung
Governance und Security
Streaming
Datenspeicherung und Zugri�
Apache Hadoop
28%
25%
20%
23%
25%
40%
Kommerzielle Produkte
48%
41%
64%
31%
22%
45%
Nicht anwendbar
23%
34%
16%
46%
53%
14%
Werkzeuge zur Umsetzung von Hadoopn=348
Werkzeuge zur Umsetzung von Hadoop nach Softwarekategorie n=141
20
Hadoop und Data Lakes Kommerzielle Software und Hadoop-Distributionen im eigenen Haus sind die erste Wahl zur Umsetzung
©2016 BARC - Business Application Research Center, a CXP Group Company Hadoop und Data Lakes 21
Hadoop und LakesKosteneffizienz, funktionale Leistungs-/Innovationskraft und Betreibbarkeit sind Hauptgründe für den Einsatz von Apache Hadoop
Als Hauptgründe für die Wahl von Apache Open Source nennen die Teilnehmer mit Abstand Kos-teneffizienz/-einsparung aber auch die funktionale Leistungs-/Innovationskraft und Betreibbarkeit. So werden mit der Wahl einer Apache-Open-Sour-
ce-Komponente in allen abgefragten Werkzeug-kategorien eben diese Gründe häufiger genannt als bei den kommerziellen Werkzeugen und Hado-op-Distributionen. Für kommerzielle Werkzeuge sprechen pro Werkzeugkategorie unterschied-
liche Gründe für den Einsatz. Häufiger genannt werden auch hier die funktionale Leistungs-/Inno-vationskraft und Betreibbarkeit, aber auch die An-wendbarkeit im Bereich Streaming und der fortge-schrittenen Analyse.
Gründe für den Einsatz von Apache Hadoop und kommerziellen Werkzeugen und Hadoop-Distributionen Apache Hadoop Kommerzielle Produkte
Flexibilität in der Anwen-dungsgestaltung
Funktionale Leistungs- /Innovationskraft
Betreibbarkeit
Vorhandene Skills/Know-how
Integration in Gesamtarchitektur/-Systemlandschaft
Einfachheit in der Anwendung
Kostene�zienz/-Einsparung
Umsetzungse�zienz
Wartungse�zienz
Governance und Metadatenmanagement
Risikominimierung
Governance und Security (n=80)
28%12%
32%38%
55%37%
31%34%
38%32%
24%15%
45%27%
24%29%
24%29%
27%10%
10%29%
10%24%
Fortgeschrittene Analyse (n=116)
41%33%
52%47%
35%41%
29%52%
41%40%
18%44%
47%23%
35%24%
35%24%
15%18%
18%7%
24%21%Skalierbarkeit
System Ma-nagement (n=91)
9%8%
40%22%
38%62%
31%25%
31%29%
22%27%
59%33%
13%15%
13%15%
12%9%
9%15%
13%17%
Datenspeicher-ung (n=120)
21%18%
40%49%
36%43%
28%27%
26%37%
8%18%
64%33%
13%22%
13%22%
18%9%
9%15%
23%30%
Streaming (n=80)
19%19%
48%33%
41%39%
26%32%
26%32%
22%45%
59%29%
11%32%
11%32%
13%4%
4%6%
19%23%
Datenintegration und -qualität (n=121)
24%21%
47%42%
30%49%
30%25%
27%35%
9%24%
61%37%
6%31%
9%22%
13%6%
6%7%
36%28%
Hadoop und Data Lakes ©2016 BARC - Business Application Research Center, a CXP Group Company
Unter allen Einsatzszenarien führen Customer In-telligence/Experience-Projekte (32%) dicht gefolgt von Predictive-Analytics-Projekte (31%) die Liste an. Für Customer Intelligence gibt es bereits re-lativ viele Einsatzszenarien, da zu Beginn des Big Data Hypes insbesondere Kunden im Mittelpunkt der Diskussion standen und heute bereits vie-le Daten zum Kunden, Kundenverhalten und den Kanälen verfügbar sind. Es wurden bereits einige Anwendungsbeispiele am Markt realisiert (bspw. Next best offer in Webportalen, Auswertung von POS-Daten).
Für Predictive Analytics gibt es ebenfalls schon viele Einsatzszenarien. Es gilt als Vorzeigediszip-lin für „neuartige“, explorative Analysen. Erst durch Predictive Analytics kann das Potential, das in Da-ten steckt, erkannt werden.
Eine Analyse der Einsatzszenarien nach Unterneh-mensgrößenklassen zeigt weitere Auffälligkeiten:
• Kleine Unternehmen fokussieren deutlich häufiger auf technische Use Cases wie Data Warehouse Offloading. In mittelständischen Un-ternehmen ist Customer Intelligence ein Haupt-thema und bei Großunternehmen steht Predicti-ve Analytics im Vordergrund.
• Mittelständische und Großunternehmen nutzen deutlich mehr Clickstream-, Sensor- und Soci-al-Media-Daten.
22
Hadoop und Data Lakes Customer Intelligence und Predictive Analytics sind die am häufigsten umgesetzten Hadoop-Projekte
32%Customer Intelligence/Experience
31%Predictive Analytics (Auswertung von Sensordaten)
13%Recommendation/Next Best Action
12%Technischer Use Case z.B. Data Warehouse O�oading
5%Innovation Discovery
4%Fraud Detection
3%Sonstige
Einsatzszenarien für Hadoop-Projekten=148
©2016 BARC - Business Application Research Center, a CXP Group Company Hadoop und Data Lakes
Der Einsatz von Hadoop erzielt in nahezu allen Be-reichen Nutzen. Auf Platz 1 steht die übergreifende Analysemöglichkeit bzw. verbesserte Dateninteg-ration (weltweit 59%), gefolgt von der Schaffung einer Plattform um Kundenverhalten vorhersagen bzw. die Kundenbindung verbessern zu können (weltweit 53%) als Nutzen der Hadoop-Initiative. Auf dem dritten Platz befindet sich die Steigerung der Flexibilität für die Analyse (weltweit 47%). In der länderspezifischen Betrachtung fällt auf, dass die nordamerikanische Stichprobe Hadoop über Kundenvorhersagen hinaus stärker für die Vorher-sage von Produkt- und Vertriebserfolgen (42%), für das Monitoring und Optimierung von IT-Systemen (38%) sowie für die Effizienzerhöhung operativer Prozesse (35%) nutzt.
Die Ergebnisse könnten dahingehend interpre-tiert werden, dass Nordamerika Hadoop breiter einsetzt, insbesondere neben dem Kunden auch stärker weitere Domänen wie Produkte untersucht und Hadoop stärker nutzt um operative Prozesse effizienter zu gestalten. Gerade im Letzteren sieht BARC mit das größte Potenzial von Daten. In der Entwicklung hin zum datengetriebenen Unterneh-men, ist es wichtig, dass auch in operativen Pro-zessen vermehrt Daten(-analysen) gefolgt wird und nicht vordefinierten Abläufen und Regeln. An-wender sollen auf ergänzende Funktionen direkt in ihrem Fachprozess zugreifen und auf Basis der Erkenntnisse handeln – der klassische Manage-ment-Regelkreis von Information zu Aktion wird geschlossen.
Analyse von Daten aus heterogenen, diver-genten Datenquellen ermöglichen/verbessern
Kundenverhalten vorhersagen, Kundenbin-dung verbessern
Steigerung der Flexibilität im Umgang mit Daten und in der fortgeschrittenen Analyse
Erhöhung der Wettbewerbsfähigkeit
Mehr/zusätzliche Daten kostene�zient speichern und analysieren
Verbesserung der Reaktionsgeschwindigkeit auf aktuelles Marktgeschehen
Produkt- und Vertriebserfolg vorhersagen
Betrug oder finanzielle Risiken vorhersagen
Monitoring von Maschinen/Geräte und proaktive Wartung ermöglichen
Sentiment/Stimmungs- und Trendanalysen
Erhöhung des Umsatzes
Monitoring und Optimierung von IT-Systemen und IT-Sicherheitsrisiken
E�zienz operativer Prozesse erhöhen
Wir können derzeit den fachlich-inhaltlichen Nutzen einer Hadoop-Initiative nicht bestimmen
Nutzen von Hadoop-Initiativenn=144
59%
53%
47%
43%
33%
33%
27%
26%
26%
25%
20%
19%
18%
6%
Weltweit
65%
64%
51%
48%
35%
34%
25%
30%
28%
28%
19%
14%
14%
6%
Europa
50%
46%
42%
42%
27%
31%
42%
27%
23%
23%
23%
38%
35%
4%
Nordamerika
23
Hadoop und LakesWichtigste Mehrwerte durch Hadoop: bessere Analyse auf heterogenen Daten, bes-seres Kundenverständnis und -bindung sowie Steigerung der Flexibilität
©2016 BARC - Business Application Research Center, a CXP Group Company
Viewpoint
Hadoop und Data Lakes
IT LOG
Der Data Lake ist ein vieldiskutiertes Konzept bisher ohne ganz klare Definition. Viele sehen in einem Data Lake einen Datenspeicher, der struk-turierte, semi- und unstrukturierte Daten nah am Rohdatenformat schemafrei vorhält. Die Struktur folgt mit der Anwendung, wenn die Daten ge-braucht werden. Diese Definition lässt noch viele Fragen offen:
• Ist der Data Lake als Synonym für Hadoop und Big Data Technologien zu verstehen oder eher als Sammlung aller verfügbaren Datenspeicher-konzepte im Unternehmen?
• Ist der Data Lake ein physischer Speicher oder
ein logisches Konzept?
• Welche Governance-Vorgaben sind an den Data Lake gestellt?
Wie dem auch sei: Das Konzept hat Relevanz. 47% der Anwender weltweit bestätigen den Nutzen des Data Lake.
35% der Teilnehmer sehen in einem Data Lake althergebrachte Konzepte neu verkauft oder einen Marketingbegriff und 13% sehen keine Relevanz im Data-Lake-Konzept.
Abweichungen im Regionenvergleich
Im Regionenvergleich sehen über ein Fünftel der
Befragten in Nordamerika das Konzept als Voraus-setzung für das datengetriebene Unternehmen (Vergleich 13% in Europa).
Sowohl in Europa (46% Befürworter, 37% Gegner) als auch in Nordamerika (42% Befürworter, 38% Gegner) spaltet sich die Gruppe der Befragten in zwei Lager.
In Summe scheint es hier noch Unsicherheiten bezüglich des Nutzen zu geben bzw. könnte eine fehlende Definition und/oder überzogene Ver-sprechen von Herstellerseite eine realistische Ein-schätzung des Konzeptes erschweren.
25
Hadoop und LakesFast die Hälfte der Anwender weltweit bestätigen den Nutzen des Data Lake
Data Lakes sind Voraussetzung für das datengetriebene Unternehmen
Der Data Lake ist wichtig um eine zentrale Anlaufstelle für alle Daten aufzubauen
Data Lake ist der neue Begri� für Data Warehouse, gemacht wird das Gleiche
Der Data Lake ist ein reiner Marketingbegri� ohne technische Innovation
Date Lake hat für mich keine Relevanz
15%
32%
24%
11%
13%
Weltweit
13%
33%
23%
14%
12%
Europa
21%
21%
31%
7%
12%
Nordamerika
Anwendermeinungen zum Data Laken=384
IT LOG
Hadoop und Data Lakes ©2016 BARC - Business Application Research Center, a CXP Group Company
Einhergehend mit der noch unpräzisen Definition ist auch keine einheitliche Linie in der Nutzung zu erkennen. Es zeigt sich aber eine Tendenz, das Konzept vorwiegend für Datenaufbereitung und Speicherung oder eine explorative Umgebung zu nutzen.
Eine differenzierte Betrachtung der Data-La-ke-Nutzung nach Regionen zeigt interessante Er-gebnisse. So ist die Nutzung des Data Lakes in Nordamerika stärker an der Datenaufbereitung und -nutzung orientiert als in Europa. In Europa hingegen zeigt sich mit 78% deutlich, dass das Da-ta-Lake-Konzept vornehmlich für die Speicherung von Roh-/ und Detaildaten genutzt wird.
26
Hadoop und Data Lakes Keine einheitliche Linie in der Nutzung zu erkennen
Nutzung des Data Laken=100
78%
54%
53%
48%
23%
17%
38%
54%
65%
46%
31%
19%
Speicher für Roh-/Detaildaten
Ablaufumgebung für fortgeschrittene Analysen, Discovery, Exploration
Datenau�ereitung/Datenintegration
Datenarchiv
Ablaufumgebung für klassisches BI
Unterstützung operationaler Anwendungen
Europa Nordamerika
IT LOG
Hadoop und Data Lakes ©2016 BARC - Business Application Research Center, a CXP Group Company
Die Frage nach den wichtigsten Treibern für den Hadoop-Einsatz zeigt eine deutliche Tendenz: Hadoop ist eine technisch neue Plattform für Din-ge, die bisher nicht gemacht werden können – ge-ben sechs von zehn Umfrageteilnehmer an. Im-merhin drei von zehn Umfrageteilnehmern sehen Hadoop als technisch bessere Plattform.
Lediglich bei mittelständischen Unternehmen lie-gen die zwei Treiber Nutzung zur Optimierung
durch technisch bessere Plattform und zur Umset-zung neuartiger Anwendungsfälle eng beieinan-der (40% zu 53%).
Kosten hingegen werden durchschnittlich nur von einem von zehn Teilnehmern als wichtigster Trei-ber identifiziert. Dieses Ergebnis ist überraschend niedrig, denn Kosten wurden auch als Grund für den Einsatz von Hadoop-Komponenten in den An-wendungsfällen ausgewiesen.
Die Ergebnisse belegen, dass der Einsatz von Hadoop in erster Linie durch neue analytische Herausforderungen getrieben wird und Kosten-einsparungen nicht als Haupttreiber gesehen wer-den. Galten Kosteneinsparungen lange Zeit als der entscheidende Vorteil von Hadoop, scheint damit heute ein differenzierterer Blick vorhanden zu sein. Hadoop kann kostengünstiger sein, abhängig vom Anwendungsfall muss es aber nicht sein.
Bis 250Mitarbeiter
22%
65%
13%
250 - 2.500Mitarbeiter
40%
53%
3%
Mehr als 2.500Mitarbeiter
27%
62%
11%
Technisch bessere Plattform für Dinge, die bisher schon gemacht werden
Technisch neue Plattform für Dinge, die bisher nicht gemacht werden können
Kostengünstiger Ersatz für Dinge, die heute bereits gemacht werden
Haupttreiber für den Einsatz von Hadoop
n=144
29%
60%
10%
Durchschnitt
28
Hadoop und Data Lakes Anwender sehen Hadoop vor allem als (potentielle) Technologie zur Umsetzung neuartiger Anwendungsfälle
IT LOG
Hadoop und Data Lakes ©2016 BARC - Business Application Research Center, a CXP Group Company
Bereits im letzten Hadoop Survey wurden „Un-sicherheit in den Nutzungsmöglichkeiten“ und vor allem das „fehlende technische“ aber auch „fachliche Know-how“ als Herausforderungen für Hadoop klar herausgestellt. In dieser Umfra-ge ist es ähnlich. So führen das fehlende fachli-che (54%) und technische (50%) Know-how klar die Liste der Herausforderungen an.
Im Regionenvergleich gibt es ein paar Auffäl-ligkeiten. In Europa wird beispielsweise stärker das fehlende Know-How Hadoop richtig ein-setzen zu können (50%) als Herausforderung gesehen. Die nordamerikanischen Teilnehmer hingegen kämpfen häufiger mit fehlenden Sponsoren aus der Führungsebene (36%) oder der Benutzerfreundlichkeit von Hadoop (26%).
Es scheinen viele über Hadoop zu reden, weni-ge setzen es überhaupt ein und die, die es ein-setzen, scheinen darüber nicht viel erzählen zu wollen. Nachvollziehbar – schließlich geht es um Wettbewerbsvorteile, wie die Auswertung zum Nutzen von Hadoop in dieser Umfrage ebenfalls bestätigt. Dem Markt fehlt es grund-sätzlich noch an Erfahrung und Sicherheit rund um Hadoop und vor allem an Know-how- Trä-gern.
Bekannte Kritikpunkte an das Hadoop-System wie Bedenken zu Datenschutz und -sicherheit stellen nur in jedem vierten oder fünften Fall eine Herausforderung dar. In puncto Daten-sicherheit zeigen sich in einer ergänzenden Branchenbetrachtung vor allem der Finanzsek-tor (33%) und die öffentliche Hand (38%) be-sorgt (Vergleich Industrie 18% und Handel 11%).
Fehlendes fachliches Know-how im Unternehmen
Fehlendes Know-how beim Au�au und Betrieb einer Big-Data-Architektur
Fehlendes Know-how Hadoop richtig einsetzen und nutzen zu können
Fehlende überzeugende Einsatzszenarien
Nutzen von Hadoop-Initiative ist nicht klar, kann nicht klar kann nicht klar kommuniziert werden
Fehlende Sponsoren/Unterstützung aus der Führungsebene
Bedenken im Hinblick auf Datenschutz oder Datensicherheit
Kosten für die Implementierung einer neuen Technologie zu hoch
Fehlende oder mangelnde Reife der Komponen-ten des Ökosystems
Benutzerfreundlichkeit
Kosten für die Schulung und Entwicklung zu hoch
Es gibt keine Probleme beim Einsatz von Hadoop
Herausforderungen beim Einsatz von Hadoop
n=309
54%54%
55%
50%52%
45%
41%50%
26%
33%34%
33%
27%30%
26%
27%24%
36%
22%20%
28%
21%19%
26%
19%16%
24%
16%12%
31%
14%10%
26%
4%4%
0%
Weltweit
Europa
Nordamerika
30
Hadoop und Data Lakes Größte Herausforderungen sind fehlendes Know-how und Unsicherheit in der Nutzung
Hadoop und Data Lakes ©2016 BARC - Business Application Research Center, a CXP Group Company
Dem Hype folgt die Ernüchterung und damit wächst die Erkenntnis, dass Hadoop und Data La-kes nicht das Allheilmittel für analytische Aufgaben sind. Auf der anderen Seite steckt aber auch viel Potential in der Technologie und in dem Konzept. Es bleibt einzufordern, dieses Bild weiter zu schär-
fen und Einsatz und Nutzen von Hadoop und Data Lakes anhand realer Erfahrungen transparenter und greifbarer zu machen. Denn dies scheint nach wie vor eine der größten Herausforderungen in der Diskussion zu sein. Um der Unsicherheit ein Stück weit entgegenzuwirken, hat BARC im Vor-
feld der Umfrage einige provokante Thesen zu Hadoop und dem Data-Lake-Konzept gesammelt, diese wurden dann zum einen mit den Ergebnis der Umfrage verglichen und durch Kommentare der BARC-Analysten bewertet.
These
Hadoop ist die präferierte Techno-logie zur Umsetzung eines Data
Lakes.
Umfrageergebnis
Konnte in der Umfrage nicht eindeutig beantwortet werden. Teilnehmer sehen Hadoop als eine von mehreren geeigneten Technologie zur Umsetzung des Data-La-ke-Konzeptes.
BARC-Analyse
Für den Au�au eines Data Lakes gibt es keinen klaren Leitfaden. Heute sind bei der Gestaltung eines Data Lakes unter anderem noch Fragen zu Metadaten-Management oder zu Anforderungen an den virtuellen/lo-gischen Data Lake o�en. Daher kann Hadoop nicht pauschal als „präferierte“ Technologie genannt werden.
Hadoop hat gegenüber klassi-schen BI-Werkzeugen funktionale
Vorteile.
Umfrageergebnis
Wird von den Umfrageteilnehmern nicht als Hauptvorteil von Hadoop gesehen, aber auch nicht als Nachteil. Insofern ist eine grundsätzliche Eignung anzunehmen, ebenso wie bei den kommerziellen Werk-zeugen und Hadoop-Distributionen.
BARC-Analyse
Grundsätzlich ja, aber auch hier steht Individualprogrammierung derPlattformunterstützung gegenüber. Voraus-setzung ist eine Grundausstattung unabhän-gig von den tatsächlichen Anforderungen.
These
32
Hadoop und Data Lakes Hadoop und Data Lakes verlangen weiterhin nach Aufklärung
©2016 BARC - Business Application Research Center, a CXP Group Company Hadoop und Data Lakes
These
Hadoop ist flexibel, schnell und einfach zu implementieren.Umfrageergebnis
Die Umfrage hat gezeigt, dass Flexibilität in der Anwendungsgestaltung ein Grund für Apache ist. Eine schnelle und einfache Implementierung (Stichwort Umsetzungse -zienz) wird eher als Grund für die Wahl kommerzieller Werkzeuge und Hadoop-Dis-tributionen angeführt.
BARC-Analyse
Hier steht Individualprogrammierung einer mangelnden, inhärenten Plattformunterstüt-zung gegenüber. Ist mitunter abhängig vom verfügbaren Wissen um MPP (Massive Parallel Processing).
These
Hadoop unterstützt unterschied-lichste strukturierte Daten.Umfrageergebnis
Ist das Ergebnis dieser als auch vorheriger Umfragen.
BARC-Analyse
Ja, im Sinne eines einfachen Dateisystems, Speicherung unterschiedlichsten Formaten, Schema kommt mit der Anwendung.
These
Hadoop ist kostene zient.Umfrageergebnis
Tri�t im Grunde zu, auch wenn dies nicht der Hauptgrund zur Nutzung von Hadoop ist.
BARC-Analyse
Kann, muss aber nicht. Viele denken in erster Linie an Lizenzkosten. Die Kosten hängen allerdings auch ab von Implemen-tierung, Hardware und Betrieb.
33
Hadoop und LakesHadoop und Data Lakes verlangen weiterhin nach Aufklärung
IT LOG
Hadoop und Data Lakes ©2016 BARC - Business Application Research Center, a CXP Group Company
These
These Hadoop skaliert einfach und schnell mit wachsenden
Datenvolumina und Workloads in parallelen Umgebungen.
Umfrageergebnis
Wird von den Umfrageteilnehmern nicht als Hauptvorteil von Hadoop gesehen, aber auch nicht als Nachteil. Insofern ist eine grundsätzliche Eignung anzunehmen.
BARC-Analyse
Grundsätzlich ja, aber hier steht Individual-programmierung der Plattformunterstützung gegenüber. Voraussetzung ist eine Grund-ausstattung unabhängig von den tatsächli-chen Anforderungen.
These
Hadoop kann für Analytik aber auch für Online-/ Real-Time-Verar-
beitung genutzt werden.
Umfrageergebnis
Hadoop wird in der Beschreibung der Anwendungsfälle als Technologie für die Analytik genutzt. Die Nutzung für eine Online-/ Real-Time-Verarbeitung kommt eher vereinzelt vor.
BARC-Analyse
Grundsätzlich ja, aber hier steht Individual-programmierung der Plattformunterstützung gegenüber. Analytik und transaktionale Anwendungen benötigen unterschiedliche Designs, Komponenten und Systemkonfigu-rationen.
34
Hadoop und Data Lakes Hadoop und Data Lakes verlangen weiterhin nach Aufklärung
Hadoop und Data Lakes ©2016 BARC - Business Application Research Center, a CXP Group Company36
Hadoop und Data Lakes
Mit der ersten integrierten Big Data-Plattform auf Basis des Apache™ Hadoop®-Frameworks gestaltet Cloudera die Datenverwaltung im Un-ternehmen von Grund auf neu. Cloudera bietet Unternehmenskunden integriertes Speichern, Bearbeiten und Analysieren all ihrer Daten und ermöglicht ihnen damit nicht nur eine effiziente-re Nutzung ihrer Systemlandschaft, sondern auch völlig neue Methoden der Datenverwertung. Nur Cloudera liefert sämtliche für den Aufbau eines in-ternen Daten-Hubs erforderlichen Komponenten, einschließlich der Software für geschäftskritische Kernfunktionen wie Speicherung, Zugang, Verwal-
tung, Analyse, Schutz und Suche von Daten. Als führender Anbieter hat Cloudera weltweit bereits mehr als 27.000 Hadoop®-Experten geschult. Dar-über hinaus sorgen über 2.300 Partner und ein er-fahrenes Serviceteam für den schnellstmöglichen Einsatz neuer Software. Nur Cloudera bietet den dynamischen und zukunftsorientierten Support, der Unternehmen darin unterstützt, ihren Enterpri-se Data Hub effizient einzusetzen. Führende Un-ternehmen aller Wirtschaftsbereiche, sowie staatli-che Institutionen setzen bei der Verarbeitung und Analyse großer Datenvolumen auf Cloudera!
Kontaktinformationen
Cloudera GmbH
Birketweg 31
80639 München
Email: [email protected]
Cloudera Unternehmensprofil
www.cloudera.com
Firmenprofile der Sponsoren
©2016 BARC - Business Application Research Center, a CXP Group Company Hadoop und Data Lakes 37
Hadoop und Lakes
SAS ist mit über drei Milliarden US-Dollar Umsatz einer der weltweit größten Softwarehersteller und der größte Anbieter von Big-Data-Analytics-Soft-ware. Unternehmen an weltweit mehr als 80.000 Standorten setzen SAS Lösungen ein, um aus ihren vielfältigen Geschäftsdaten auch im Zusammen-spiel mit externen Daten (Big Data) konkrete Infor-mationen für strategische und operative Unterneh-mensentscheidungen zu gewinnen (Analytics) und so ihre Wettbewerbsfähigkeit zu steigern.
Big Data Analytics ist der Schlüssel dazu, die Digi-tale Transformation nicht nur zu bewältigen, son-dern davon zu profitieren und die notwendigen disruptiven Prozesse im Unternehmen erfolgreich umzusetzen. Dank 40 Jahren Erfahrung auf dem Gebiet der Datenanalyse verfügt SAS dafür nicht nur über weitreichende Visionen – die Technolo-gie ist zugleich pragmatisch, bewährt, sicher und schnell produktiv einsetzbar.
SAS kommt in der gesamten Wirtschaft und öf-fentlichen Verwaltung zum Einsatz. Kernbranchen sind Banken, Versicherungen, Handel und die Fertigungsindustrie. Banken steuern mit SAS ihre Prozesse und erfüllen mit SAS die Vorschriften von Aufsichtsbehörden. Versicherungen kommen mit
SAS Versicherungsbetrügern auf die Spur. Händler optimieren ihre Kundenansprache und ihr Kampa-gnenmanagement oder steigern das Kundener-lebnis beim Online-Shopping. Industrieunterneh-men steuern ihre Service- und Wartungsprozesse zum Beispiel so, dass Teile ersetzt werden, bevor sie auszufallen drohen.
Big Data Analytics von SAS hilft Unternehmen, das Maximum aus ihren Daten herauszuholen. Ganz gleich, wie groß und wie komplex die Datenbe-stände sind – SAS Software erkennt die relevan-ten Strukturen und Zusammenhänge. So werden Daten zu Erkenntnissen, die als Basis für sichere und vorausschauende Geschäftsentscheidungen dienen.
SAS High-Performance Analytics nutzt intensiv die Möglichkeiten von Hadoop und In-Memory Com-puting für die wirtschaftliche und extrem schnelle Verarbeitung von Big Data. Zudem bietet SAS Un-ternehmen eine Plattform, um Daten zu analysie-ren, zu verbessern und zu kontrollieren und trägt somit dazu bei, die Datenqualität und Data Gover-nance entscheidend zu verbessern.
Alle Lösungen von SAS sind auch als Managed Services verfügbar und lassen sich sowohl in der
Public Cloud, der Private Cloud oder in hybriden Cloud-Umgebungen nutzen. Ein Schwerpunkt liegt dabei auf Lösungen für Self-Service Business Analytics, mobile Business Analytics oder Datenvi-sualisierung, die es auch Fachabteilungen und der Managementebene ermöglichen, ohne besondere Statistikkenntnisse oder Unterstützung der IT-Ab-teilung wertvolle Erkenntnisse aus dem Datenma-terial zu ziehen.
Hintergrund: SAS entstand im Rahmen eines For-schungsprojekts an der North Carolina State Uni-versity. Das 1976 gegründete Unternehmen mit Sitz im US-amerikanischen Cary, North Carolina, beschäftigt mehr als 14.000 Mitarbeiter in 59 Län-dern weltweit. SAS Deutschland hat seit 1982 sei-ne Zentrale in Heidelberg mit weiteren Niederlas-sungen in Berlin, Frankfurt, Hamburg, Köln sowie München und beschäftigt aktuell 520 Mitarbeiter. Zu den deutschen Kunden gehören zum Beispiel Allianz, Continental, Commerzbank, HUK Coburg, Fraport, DER Touristik, Nestlé, Galeria Kaufhof, BASF und die Meyer Werft.
SAS Unternehmensprofil
www.sas.com
Firmenprofile der Sponsoren
Hadoop und Data Lakes ©2016 BARC - Business Application Research Center, a CXP Group Company
Hadoop und Data Lakes Firmenprofile der Sponsoren
38
Talend (NASDAQ: TLND) ist ein führender Anbieter von Next-Generation-Lösungen in den Bereichen Big-Data- und Cloud-Integration und unterstützt Unternehmen bei der datengestützten Entschei-dungsfindung. Hierzu wird der Datenzugriff opti-miert und die Datenqualität erhöht. Daten stehen bei Bedarf schnell dort zur Verfügung, wo wichti-ge Entscheidungen in Echtzeit getroffen werden. Weil Talend das Thema Big Data mithilfe solcher Maßnahmen einfacher macht, können Unterneh-men auf der Grundlage präziser Echtzeitdaten zu ihrem Geschäft, ihren Kunden und ihrer Branche richtig handeln. Die innovativen Open-Source-Lö-
sungen von Talend ermöglichen das schnelle und effiziente Erfassen, Aufbereiten und Kombinieren von Daten aus einer breiten Palette von Daten-quellen. So können Unternehmen diese Daten für jeden geschäftlichen Aspekt optimal nutzen. Talend hat seinen Sitz im kalifornischen Redwood City (USA). Weitere Informationen finden Sie unter www.talend.com. Folgen Sie uns auch auf Twitter: @TalendDE.
Kontaktinformationen
Talend Germany GmbH
Servatiusstrasse 53
53175 Bonn
Deutschland
Tel: +49 228 76 37 76 0
www.talend.com
Talend Unternehmensprofil
www.talend.com
©2016 BARC - Business Application Research Center, a CXP Group Company Hadoop und Data Lakes 39
Teradata hilft Unternehmen dabei, größeren Nutzen aus ihren Daten zu ziehen. Mit unseren Big-Data-Analyselösungen erzielen Firmen nach-haltige Wettbewerbsvorteile. Die Experten von Teradata unterstützen Unternehmen bei der Aus-wertung ihrer Daten, sodass sie mehr über ihr Ge-schäft und ihre Kunden wissen und gezielt aktiv werden können. Mehr als 10.000 Mitarbeiter in 43 Ländern betreuen die Kunden von Teradata, die im Konsumgüterbereich, dem Finanzwesen, der Au-tomobilindustrie, dem Handel und vielen weiteren Branchen aktiv sind. Als zukunftsorientiertes Un-ternehmen wird Teradata von Medien und Analys-ten wegen seiner Technologiekompetenz, seiner Nachhaltigkeit, seines ethischen Handelns und seiner Unternehmenswerte anerkannt.
Teradata – Unsere Produkte
Teradata-Plattformen fassen alle Daten eines Un-ternehmens zusammen und verhelfen so zu einem einheitlichen Blick auf alle entscheidungsrelevan-
ten Daten. Durch die Integration unterschiedlicher Technologien in einer soliden Hybrid-Architektur sorgen wir dafür, dass einem Unternehmen je-derzeit verlässliche Daten zur Verfügung stehen. Dieses Analyse-Ökosystem nennen wir Teradata Unifed Data Architecture™. Mit der Teradata Hybrid Cloud bieten wir darüber hinaus eine abgestimmte IT-Umgebung, in der On-premise Systeme, Mana-ged Cloud sowie Public Cloud im Sinne einer ana-lytischen Gesamtarchitektur flexibel kombiniert werden.
Teradata – Unsere Services
Die erstklassigen Beratungsdienstleistungen von Teradata verbinden eine patentierte Methodik mit umfassendem Branchenwissen und jahrelanger praktischer Erfahrung. Unsere Berater unterstützen bei Fragen der Architektur vom Data Warehouse, seiner Implementierung und Optimierung sowie in Sachen Enterprise Analytics, Datenmanagement und Managed Services.
Neue Services für große Datenvolumen, wie z.B. die von Think Big, runden unser Beratungsportfo-lio ab. Think Big bietet fundiertes Expertenwissen über OpenSource Lösungen wie Hortonworks, Cloudera und MapR, und liefert darüber hinaus ein Set von eigenen Anwendungskomponenten und Big-Data-Analysen.
Teradata ist wegen seiner Technologiekompetenz, Nachhaltigkeit, sozialen Verantwortung, seines ethischen Handelns und seiner Unternehmens-werte anerkannt.
Weitere Informationen: www.teradata.de
Teradata Unternehmensprofil
www.teradata.de
Hadoop und LakesFirmenprofile der Sponsoren
©2016 BARC - Business Application Research Center, a CXP Group Company Hadoop und Data Lakes
IT LOG
41
Hadoop und LakesBARC-Unternehmensprofil
Das Business Application Research Center (BARC) ist ein Forschungs- und Beratungsinstitut für Un-ternehmenssoftware mit Fokus auf die Bereiche Business Intelligence, Enterprise Content Manage-ment (ECM), Customer Relationship Management (CRM) und Enterprise Ressource Planning (ERP). BARC-Mitarbeiter sind seit 1994 in der Evaluation von Business-Intelligence- und ECM-Produkten und Beratung von Unternehmen tätig. Dabei ver-einen die BARC-Analysten Markt-, Produkt- und Einführungswissen. Know-how-Basis sind die seit Jahren ständig durchgeführten Marktanalysen und Produktvergleichsstudien, die ein umfassen-des Detailwissen über den Leistungsumfang aller marktrelevanten Software-Anbieter und neueste Entwicklungen im Markt sicherstellen.
Neben dem Firmensitz in Würzburg unterhält BARC heute Niederlassungen in München, London, Wien
und Zürich. BARC formt mit den Analystenhäusern CXP und PAC die führende europäische Analys-tengruppe für Unternehmenssoftware und IT Ser-vices mit Vorortvertretungen in acht Ländern.
BARC ist aus den komparativen Produktanalysen am Lehrstuhl Wirtschaftsinformatik der Universität Würzburg, Prof. Dr. R. Thome hervorgegangen. In seiner Stellung als unabhängiges Institut beobach-tet und analysiert BARC den Markt für Business Applications. In Beratungsprojekten, Software-Ver-gleichsstudien und auf Fachtagungen bringt BARC Transparenz und Vergleichbarkeit in den Soft-ware-Markt. Dabei ist BARC strikt unabhängig von Software-Anbietern. Dies bedeutet, dass keine Gebühren für die Aufnahme in Studien oder Provi-sionen bei der Empfehlung von Software erhoben werden. BARC bietet auch keine Implementierung von Software an, um keine internen Interessen zu erzeugen.
BARC-Mitarbeiter evaluieren seit mehr als 20 Jah-ren Business-Intelligence- und Enterprise-Con-tent-Management-Produkte und nutzen das so erlangte Wissen in Beratungsprojekten zur Soft-ware-Auswahl und IT-Strategie.
Über 1.200 Kunden jährlich, darunter mehr als 90 Prozent der DAX100-Unternehmen nutzen in viel-fältiger Weise das Know-how der BARC-Analysten. BARC-Beratungsprojekte sind hoch effizient und gewährleisten ein Höchstmaß an Sicherheit bei Software-Auswahl und IT-Strategie. BARC-Studi-en bieten einen qualifizierten Marktüberblick und einen detaillierten Software-Vergleich. BARC-Ta-gungen und Seminare geben einen konzentrierten Eindruck aller relevanten Anbieter in verschiede-nen Segmenten des Marktes für Geschäftsanwen-dungen.
Das Business Application Research Center (BARC)
www.barc.de
Hadoop und Data Lakes ©2016 BARC - Business Application Research Center, a CXP Group Company42
NotizenHadoop und Data Lakes
IT LOG
Business Application Research Center – BARC GmbH
GermanyBARC GmbH
Berliner Platz 7D-97080 Würzburg
+49 (0) 931 880651-0www.barc.de
AustriaBARC GmbH
Goldschlagstraße 172 / Stiege 4 / 2.OGA-1140 Wien
+43 (1) 8901203-451www.barc.de
Rest of the World +44 1536 772 451
www.barc-research.com
SwitzerlandBARC Schweiz GmbH
Täfernstrasse 22aCH-5405 Baden-Dättwil
+41 76 340 35 16www.barc.ch