ibm bluemix paris meetup - big data & analytics dans le cloud - epitech- 201611094

16
Big Data & Analytics dans le Cloud Francis Arnaudiès & Victor Hatinguais

Upload: ibm-france-lab

Post on 09-Jan-2017

59 views

Category:

Technology


4 download

TRANSCRIPT

Big Data & Analytics

dans le Cloud

Francis Arnaudiès & Victor Hatinguais

Big Data & Analytics dans le Cloud - Apports

Our Mission

Make Data Simple

Open access

with trust & security

Remove silos created by systems

& tools

Drive more intelligence faster than ever before

Innovate with Open Source

and the community

MAKE DATA SIMPLE AND ACCESSIBLE TO ALL

Big Data & Analytics dans le Cloud - Overview

Common Processes

Common Data

Business

Analyst

BI

Developer

API

Data

Scientist

DSx Tools

Data &

Analytics

Processing

Protected

Data Access

Data

Sources

Streams Public External Apps Cloud On Prem

Data

Engineer

Data Hub

Data Flows, Models,

Machine Learning

Security, Governance,

Auditing, etc.

Productive use

experiences geared to

specific personas

Broad set of connectivity

What is it?

Big Data & Analytics dans le Cloud – Architecture détaillée

Integrated

Tools

Data &

Analytics

Processing

Protected

Data Access

Data

Sources

Data Scientist

Analysis

Model Building

Tools

Content

Business Analyst

Visualization

Dashboards

Interactive Query

Developers

Custom Apps

3rd Party Apps

Add-ons

Data Engineer

Data Flows

Data Provisioning

Scheduler

Streams

API Data Flow (Canvas) Deployment

Runtimes

Catalog / Search

Auditing

Security / Access

On Prem

DB2

Oracle

SAP

Cloud

Swift Obj

AWS S3

HDFS

Apps

Salesforce

Google

Analytics

External

Twitter

Financial

Shipping

Public

Census

ACS

Streams

Kafka

IBM

Streams

… … … … … …

Master Data

Lineage

Data Store Ingest and Transform

Find Share

Data Science Business

Intelligence Data Engineering

Policy Enforcement

Development

Collaborate

Analytics

API

Governance Open Meta Data

Data Flows, Models,

Machine Learning

Security, Governance,

Auditing, etc.

Productive use

experiences geared to

specific personas

Broad set of connectivity

Integrated

Tools

Data &

Analytics

Processing

Protected

Data Access

Data

Sources

Data Scientist

Data Science

Experience

Business Analyst

Watson Analytics

Cognos Analytics

Developers

Bluemix

Data Engineer

Data Connect

Data Hub

Scheduler

Streams

API Data Flow (Canvas) MLaaS

Spark

On Prem

DB2

Oracle

SAP

Cloud

Swift Obj

AWS S3

HDFS

Apps

Salesforce

Google

Analytics

External

Twitter

Financial

Shipping

Public

Census

ACS

Streams

Kafka

IBM

Streams

… … … … … …

Architecture

Search Projects

Data Science Business

Intelligence Data Engineering Development

Community

API

Governance Service Open Meta Data Service

Predictive | Prescriptive | Text | ...

Object Store Compose Cloudant IBM dashDB IBM BigInsights Connectors Data Connect Lift Msg Hub Streams

Data Flows, Models,

Machine Learning

Security, Governance,

Auditing, etc.

Productive use

experiences geared to

specific personas

Broad set of connectivity

Big Data & Analytics dans le Cloud – IBM Bluemix & IBM Watson Data

Platform

Applications

Data

Runtime

Middleware

Operating System

Virtualization

Servers

Storage

Networking

Applications

Data

Runtime

Middleware

Operating System

Virtualization

Servers

Storage

Networking

Man

ag

ed

by

CU

ST

OM

ER

Man

ag

ed

by

CU

ST

OM

ER

Infrastructure as a Service

(IaaS)

Platform as a Service

(PaaS)

IaaS or PaaS model?

Projet PaaS: IBM Bluemix DashDB for Analytics

For apps that need:

• Elastic scalability

• High availability

• Data model flexibility

• Data mobility

• Text search

• Geospatial

Available as: • Fully managed DBaaS

• On-premises private cloud

• Hybrid architecture

BLU Acceleration

Netezza In-Database

Analytics

In-database analytics capabilities for best performance atop a fully-managed warehouse

dashDB MPP

for

Analytics

Fully-managed data warehouse on cloud

Choice of SoftLayer or Amazon Web Services

Columnar Technology

In-Memory Database

High Compression Level

Massively Parallel Processiong (MPP)

In-Database Analytics (Native predictive

Analytic algorithms)

Fully Integrated with RStudio & R

Language

On disk data encryption and

secure connectivity

Enjeux métiers : • Expérimentation avec des nouveaux outils Analytiques (Watson Analytics), • Simplicité, • Agilité, • Performance (DashDB),…

Architecture et Prototypage validés avec succés par les métiers (mode

PaaS) Enjeux IT :

• Sécurité, • Qualité de services, • Mise en place de nouveaux services,…

Points de vigilance

Projet PaaS: IBM Bluemix DashDB for Analytics

Projet PaaS: IBM Bluemix DashDB for Analytics

Points de vigilance : • Sécurité :

• Localisation de votre Data Center, • Solution dédiée ou partagée, • Zone sécurisée dédié au client (DMZ), • Chiffrement des données (réseaux et Stockage), • Accès Sécurisé (VPN, …), • Chargement des données, • Audit, • Conformité avec nos normes de sécurité ou autres

• Qualité de service :

• Backup&Recovery, • Disponibilité, • Performance, • Scalabilité

• Administration & Monitoring, …

Cluster Hadoop IBM BigInsights for Apache Hadoop

Big Sheets

Big SQL Big R

Text Analytics

IBM Open Platform with Apache Hadoop

HDFS MapReduce Spark Hive Pig Oozie

YARN Ambari HBase Flume Sqoop Solr

Kafka

Knox

Ranger Titan Phoenix SystemML Slider Zookeeper etc.

Big Integrate Big Quality

Big Match Big Replicate

SPSS Analytic Server

Streams Cognos Analytics Watson Explorer

Information Governance Catalog Guardium

Projet IaaS: IBM Bluemix BigInsights for Apache Hadoop

Projet IaaS: IBM Bluemix BigInsights for Apache Hadoop

Hadoop est une plateforme très spécifique : • Open Source • Maturité • Ensemble de briques logicielles • Evolution forte et régulière

Le modèle PaaS/SaaS présente des contraintes :

• Pas d’accès administrateur aux machines • Difficulté d’installer des logiciels tiers / complémentaires

Mais a d’énormes avantages:

• Peu de connaissances techniques requises • Rapidité de mise en place d’une plateforme pilote

Points d’attention et recommandations lors du prototypage

Localisation des données et législation

Disponibilité de l’offre en fonction de la géographie

Niveau de sécurité fourni

Vérification de la stack logicielle

Vérification des connecteurs et de l’intégration avec l’écosystème

Vérification de l’évolutivité attendue

Choix du modèle (IaaS vs PaaS)

Modèle IaaS: • Non managé • Plus de libertés sur les composants logiciels, versions, librairies • Intégrations entre les composants logiciels de la responsabilité de l’utilisateur • Choix des composants et des numéros de version • Sécurité adaptée suivant les besoins du projet • Des coûts de déploiement/installation/configuration et d’administration importants en

termes de ressources compétentes et de temps • Implication forte des équipes IT devant répondre aux demandes métiers

Modèle PaaS: • Prêt à l’emploi très rapidement, clé en main • Disponibilité des services garantie • Intégration des composants testée et éprouvée • Niveau de sécurité strict • Moins de compétences bas niveau requises • Implication forte du métier, la plateforme est prête pour le déploiement d’applications

Big Data & Analytics

dans le Cloud

Francis Arnaudiès & Victor Hatinguais

IBM offers tens of Data & Analytics services through the Bluemix

catalog

dashDB • SQL interface, ACID compliant

• Columnar, in-memory performance

• BLU augmented with

Netezza in-DB analytics

• RStudio & Spark for Analytics

• Built for Systems of Insight

• MPP

IBM Cloud Data Services

BigInsights on Cloud • Spark for in-memory Hadoop

• Built on IBM Open Platform

• Bare metal performance

• BigInsights enterprise features

• Deploy sandboxes is cheap and fast

Cloudant • Database as a Service (DBaaS)

• Massively scalable for global data distribution

• Eventually consistent data model

• Built for mobile, Systems of Engagement

ANALYTICAL TRANSACTIONAL

UNSTRUCTURE

D STRUCTURED

IBM CDS solutions combine workloads and data types for true hybrid services and faster

innovation

Watson Analytics Analytics & Visualization Services

Data Connect Data Refinery Services

dashDB Transactional • SQL interface, ACID compliant

• Optimized for transactional workloads

• Built for Systems of Record

• Oracle Compatibility