adoption de hadoop : des possibilités illimitées - hortonworks and talend

32
1 ©2015 Talend Inc. Adoption de Hadoop : Des possibilités illimitées 18 juin 2015

Upload: hortonworks

Post on 11-Aug-2015

251 views

Category:

Software


2 download

TRANSCRIPT

Page 1: Adoption de Hadoop : des Possibilités Illimitées - Hortonworks and Talend

1

©2015 Talend Inc.

Adoption de Hadoop :

Des possibilités illimitées 18 juin 2015

Page 2: Adoption de Hadoop : des Possibilités Illimitées - Hortonworks and Talend

2

Equipe de présentateurs

Benjamin Boutros Presales Channel Manager EMEA

Nicolas Maillard Solution Engineer EMEA

Page 3: Adoption de Hadoop : des Possibilités Illimitées - Hortonworks and Talend

Page 3 © Hortonworks Inc. 2011 – 2015. All Rights Reserved

Hadoop for the Enterprise: Implement a

Modern Data Architecture with HDP

Winter 2015 Version 1.0

Hortonworks. We do Hadoop.

Page 4: Adoption de Hadoop : des Possibilités Illimitées - Hortonworks and Talend

Page 4 © Hortonworks Inc. 2011 – 2015. All Rights Reserved

Traditional systems under pressure

Challenges

• Constrains data to app

• Can’t manage new data

• Costly to Scale

Business Value

Clickstream

Geolocation

Web Data

Internet of Things

Docs, emails

Server logs

2012

2.8 Zettabytes

2020

40 Zettabytes

LAGGARDS

INDUSTRY

LEADERS

1

2 New Data

ERP CRM SCM

New

Traditional

Page 5: Adoption de Hadoop : des Possibilités Illimitées - Hortonworks and Talend

Page 5 © Hortonworks Inc. 2011 – 2015. All Rights Reserved

Hadoop emerged as foundation of new data architecture

Apache Hadoop is an open source data platform for

managing large volumes of high velocity and variety of data

• Built by Yahoo! to be the heartbeat of its ad & search business

• Donated to Apache Software Foundation in 2005 with rapid adoption by

large web properties & early adopter enterprises

• Incredibly disruptive to current platform economics

Traditional Hadoop Advantages

Manages new data paradigm

Handles data at scale

Cost effective

Open source

Traditional Hadoop Had Limitations

Batch-only architecture

Single purpose clusters, specific data sets

Difficult to integrate with existing investments

Not enterprise-grade

Application

Storage

HDFS

Batch Processing

MapReduce

Page 6: Adoption de Hadoop : des Possibilités Illimitées - Hortonworks and Talend

Page 6 © Hortonworks Inc. 2011 – 2015. All Rights Reserved

Modern Data Architecture emerges to unify data & processing

Modern Data Architecture

• Enable applications to have access to

all your enterprise data through an

efficient centralized platform

• Supported with a centralized

approach governance, security and

operations

• Versatile to handle any applications

and datasets no matter the size or

type

Clickstream Web & Social

Geolocation Sensor & Machine

Server Logs

Unstructured

SO

UR

CE

S

Existing Systems

ERP CRM SCM

AN

AL

YT

ICS

Data

Marts

Business

Analytics

Visualization

& Dashboards

AN

AL

YT

ICS

Applications Business

Analytics

Visualization

& Dashboards

°

°

°

°

°

°

°

°

°

°

°

°

°

°

°

°

°

°

°

°

°

°

°

°

°

°

°

°

°

°

HDFS (Hadoop Distributed File System)

YARN: Data Operating System

Interactive Real-Time Batch Partner ISV Batch Batch MPP

EDW

Page 7: Adoption de Hadoop : des Possibilités Illimitées - Hortonworks and Talend

Page 7 © Hortonworks Inc. 2011 – 2015. All Rights Reserved

Hadoop adoption follows a predictable journey Cost Optimization, new analytic apps, and ultimately to a “data lake”

Page 8: Adoption de Hadoop : des Possibilités Illimitées - Hortonworks and Talend

Page 8 © Hortonworks Inc. 2011 – 2015. All Rights Reserved

Hadoop Driver: Cost optimization

Archive Data off EDW Move rarely used data to Hadoop as active

archive, store more data longer

Offload costly ETL process Free your EDW to perform high-value functions

like analytics & operations, not ETL

Enrich the value of your EDW Use Hadoop to refine new data sources, such as

web and machine data for new analytical context

AN

AL

YT

ICS

Data

Marts

Business

Analytics

Visualization

& Dashboards

HDP helps you reduce costs and optimize the value associated with your EDW

AN

AL

YT

ICS

D

AT

A S

YS

TE

MS

Data

Marts

Business

Analytics

Visualization

& Dashboards

HDP 2.2

ELT

°

°

°

°

°

°

°

°

°

°

°

°

°

°

°

°

°

°

°

N

Cold Data,

Deeper Archive

& New Sources

Enterprise

Data

Warehouse

Hot

MPP

In-Memory

Clickstream Web & Social

Geolocation Sensor & Machine

Server Logs

Unstructured

Existing Systems

ERP CRM SCM S

OU

RC

ES

Page 9: Adoption de Hadoop : des Possibilités Illimitées - Hortonworks and Talend

Page 9 © Hortonworks Inc. 2011 – 2015. All Rights Reserved

Single View Improve acquisition and

retention

Predictive Analytics Identify your next best action

Data Discovery Uncover new findings

Financial

Services

New Account Risk Screens Trading Risk Insurance Underwriting

Improved Customer Service Insurance Underwriting Aggregate Banking Data as a Service

Cross-sell & Upsell of Financial Products Risk Analysis for Usage-Based Car Insurance Identify Claims Errors for Reimbursement

Telecom

Unified Household View of the Customer Searchable Data for NPTB Recommendations Protect Customer Data from Employee Misuse

Analyze Call Center Contacts Records Network Infrastructure Capacity Planning Call Detail Records (CDR) Analysis

Inferred Demographics for Improved Targeting Proactive Maintenance on Transmission Equipment Tiered Service for High-Value Customers

Retail

360° View of the Customer Supply Chain Optimization Website Optimization for Path to Purchase

Localized, Personalized Promotions A/B Testing for Online Advertisements Data-Driven Pricing, improved loyalty programs

Customer Segmentation Personalized, Real-time Offers In-Store Shopper Behavior

Manufacturing

Supply Chain and Logistics Optimize Warehouse Inventory Levels Product Insight from Electronic Usage Data

Assembly Line Quality Assurance Proactive Equipment Maintenance Crowdsource Quality Assurance

Single View of a Product Throughout Lifecycle Connected Car Data for Ongoing Innovation Improve Manufacturing Yields

Healthcare

Electronic Medical Records Monitor Patient Vitals in Real-Time Use Genomic Data in Medical Trials

Improving Lifelong Care for Epilepsy Rapid Stroke Detection and Intervention Monitor Medical Supply Chain to Reduce Waste

Reduce Patient Re-Admittance Rates Video Analysis for Surgical Decision Support Healthcare Analytics as a Service

Oil & Gas Unify Exploration & Production Data Monitor Rig Safety in Real-Time Geographic exploration

DCA to Slow Well Declines Curves Proactive Maintenance for Oil Field Equipment Define Operational Set Points for Wells

Government Single View of Entity CBM & Autonomic Logistic Analysis Sentiment Analysis on Program Effectiveness

Prevent Fraud, Waste and Abuse Proactive Maintenance for Public Infrastructure Meet Deadlines for Government Reporting

Hadoop Driver: Advanced analytic applications

Page 10: Adoption de Hadoop : des Possibilités Illimitées - Hortonworks and Talend

Page 10 © Hortonworks Inc. 2011 – 2015. All Rights Reserved

Hadoop Driver: Enabling the data lake S

CA

LE

SCOPE

Data Lake Definition

• Centralized Architecture Multiple applications on a shared data set

with consistent levels of service

• Any App, Any Data Multiple applications accessing all data

affording new insights and opportunities.

• Unlocks ‘Systems of Insight’ Advanced algorithms and applications

used to derive new value and optimize

existing value.

Drivers:

1. Cost Optimization

2. Advanced Analytic Apps

Goal:

• Centralized Architecture

• Data-driven Business

DATA LAKE

Journey to the Data Lake with Hadoop

Systems of Insight

Page 11: Adoption de Hadoop : des Possibilités Illimitées - Hortonworks and Talend

Page 11 © Hortonworks Inc. 2011 – 2015. All Rights Reserved

Challenges to Hadoop Adoption

• Where do I start? Why is this of value to me

and my organization?

• Hadoop is complex, what do I use for what?

• It is too complex. I don’t have any trained

Hadoop resources.

Many have been down this path…

Page 12: Adoption de Hadoop : des Possibilités Illimitées - Hortonworks and Talend

12

Dynamiser l’entreprise par ses données

Page 13: Adoption de Hadoop : des Possibilités Illimitées - Hortonworks and Talend

13

Les plus grands défis du marché de l’intégration de données

BIG DATA Plus de données, moins structurées

PRODUCTIVITE Ne peut pas suivre la demande

COUT Solutions onéreuses

COMPETENCES Difficultés à trouver des compétences

Page 14: Adoption de Hadoop : des Possibilités Illimitées - Hortonworks and Talend

14

La demande de Big Data

4.4 MILLIONS d’EMPLOIS DANS LE BIG DATA EN 2015

mais seulement un tiers de ces emplois seront pourvus

Source: Gartner

Page 15: Adoption de Hadoop : des Possibilités Illimitées - Hortonworks and Talend

15

L’écosystème Hadoop est complexe

Source : “Hadoop Ecosystem Overview”, Forrester 2014

Page 16: Adoption de Hadoop : des Possibilités Illimitées - Hortonworks and Talend

16

Talend apporte une productivité inégalable

CODAGE à la MAIN

• Contre-productif

• Nécessite des compétences spécifiques

• Difficile à maintenir

• Support limité

TALEND Big Data

• + de 800 composants

• Génère du code optimisé

• Collaboration & management

• Support Gold (SLAs)

30 X PLUS

PRODUCTIF

Page 17: Adoption de Hadoop : des Possibilités Illimitées - Hortonworks and Talend

17

Architecture intemporelle avec génération de code natif

ETL Intégration quotidienne

ELT Data Warehouse

ESB Messaging, Routing, Transformation

HADOOP Hautement

évolutif

La Grande

Nouveauté

Spark

Page 18: Adoption de Hadoop : des Possibilités Illimitées - Hortonworks and Talend

18 Select Icons made by Freepik, Situ Herrera, www.flaticon.com

Talend Big Data

Systèmes hérités

ERP

Internet des Objets

DBMS / EDW

NoSQL

Rapports standards Outils de requêtes ad-hoc

Data Mining

MDD/OLAP

Applications analytiques

NoSQL

Web Logs

Développe et teste Equipe opérations

Studio

Talend Big Data

Inge

stio

n

Map Profile Parse Match

Nettoie Standardise Change Data

Capture Machine Learning

Partage Planifie

Natif

Accè

s

Avantages

Productivité améliorée

TCO plus bas

Future Proof Architecture

Page 19: Adoption de Hadoop : des Possibilités Illimitées - Hortonworks and Talend

19

La solution d’intégration de Big Data la plus facile et la plus puissante

Talend Big Data

Créer

Collaborer

Déployer Gérer

Adapter

• Interface utilisateur visuelle, glisser-déposer

• Plus de 800 connecteurs intégrés • Génère du code MapReduce Java ou SQL

• S’exécute au niveau du cluster

• Répartition de charge et haute disponibilité

• Optimisation du code

• Aucune installation de Talend sur Hadoop

• Nettoie et enrichie • Supporte nativement Kerberos

• Supporte des consoles de gestion Big Data

• Sécurité intégrée nativement • Planification, monitoring et

gestion centralisés

• Référentiel partagé • Auto-documentation

Page 20: Adoption de Hadoop : des Possibilités Illimitées - Hortonworks and Talend

20

Les plus grands défis du marché de la donnée

EVOLUTIF AGILE

TCO plus bas FACILE

Page 21: Adoption de Hadoop : des Possibilités Illimitées - Hortonworks and Talend

21

Finance et assurance

Services

Distribution et industrie

Secteur public et éducation

Une large base de clients

Page 22: Adoption de Hadoop : des Possibilités Illimitées - Hortonworks and Talend

22

©2015 Talend Inc

Démonstration

Page 23: Adoption de Hadoop : des Possibilités Illimitées - Hortonworks and Talend

23

Les points clés

• Talend Big Data Platform résout le problème des compétences

• Talend vous permet d’augmenter votre productivité Big Data

• Talend et Hortonworks ont la technologie et les compétences pour satisfaire les besoins de votre entreprise.

BIG DATA Plus de données, moins

structurées

PRODUCTIVITY Ne peut pas suivre la demande

COMPETENCES Difficulté de trouver des talents

Page 24: Adoption de Hadoop : des Possibilités Illimitées - Hortonworks and Talend

24

Démonstration d’un cas d’usage

Objectif : identifier les problèmes de qualité de données avant de charger les données dans l’entrepôt de données de l’entreprise sans augmenter le nombre de chargements en cours.

• Charger 500 TB de fichiers compressés dans HFDS - Fichiers de ventes aux tiers/prescriptions délivrés par des fournisseurs

• Calculer les totaux mensuels - Avant de charger dans la base de données, comparer les totaux des mois précédents aux

totaux du mois actuel dans de nouveaux fichiers de données.

• Afficher les résultats de ces comparaisons dans un outil analytique - Afficher les comparaisons de ventes pour chaque produit pour montrer les problèmes de qualité de

données avant la mise en place du chargement dans la base de l’entreprise.

Page 25: Adoption de Hadoop : des Possibilités Illimitées - Hortonworks and Talend

25

Chargement de données avec des tiers

Préparation des données Traitement de la base

de données

Rapports finaux / Vérification

de la qualité

Les problèmes de mauvaise qualité des Big Data entraînent une perte

de temps, de ressources et de revenus

Page 26: Adoption de Hadoop : des Possibilités Illimitées - Hortonworks and Talend

26

Optimisation de l’entrepôt de données

Cluster

Hadoop Vérifications des données au préalable

Identifier plus tôt les Master records

Charger des données non-compressées

directement dans l’entrepôt de données

Chargement optimisé

Préparation des données Traitement de la base

de données

Rapports finaux / Vérification

de la qualité

Page 27: Adoption de Hadoop : des Possibilités Illimitées - Hortonworks and Talend

27

©2015 Talend Inc

Démonstration

Page 28: Adoption de Hadoop : des Possibilités Illimitées - Hortonworks and Talend

28

Les points clés

Récap’ de la démonstration?

• Hortonworks et Talend peuvent vous aider à réduire vos coûts,

• Ils vous déchargent des processus ETL onéreux,

• Ils augmentent la valeur de votre entrepôt de données,

• Ils mettent à disposition un environnement visuel graphique

glissez-déposez.

Page 29: Adoption de Hadoop : des Possibilités Illimitées - Hortonworks and Talend

29

Hortonworks/Talend Sandbox

• Environnement visuel graphique glissez-déposez mettant en avant Hortonworks - Permet de montrer les résultats d’un travail d’intégration de façon visuelle

• Accélère le chargement de données et la transformation avec Hadoop - Construire et déployer des jobs MapReduce et Pig dans YARN

• Cas d’utilisation préconstruits : optimisation des entrepôts de données, données de parcours de clics, analyse sentimentale des données de Twitter, Analyse des weblogs Apache

• Démonstrations de plusieurs bases de données NoSQL

Page 30: Adoption de Hadoop : des Possibilités Illimitées - Hortonworks and Talend

30

De zero au Big Data en 10 minutes

Téléchargez la sandbox gratuite fr.talend.com/hortonworks-sandbox • Commencez en quelques minutes (pas en

semaines), avec une sandbox Big Data et une

démonstration

• Inclut : Une analyse de sentiments,

chargement ETL, analyse de fichiers Log

• Commencez à travailler avec Talend &

Hortonworks dès aujourd’hui !

Page 31: Adoption de Hadoop : des Possibilités Illimitées - Hortonworks and Talend

33

©2015 Talend Inc.

Question & Réponses

Page 32: Adoption de Hadoop : des Possibilités Illimitées - Hortonworks and Talend

34

©2015 Talend Inc.

Merci pour votre attention

A bientôt