aws paris summit 2014 - t3 - du temps réel au data warehouse : capturez et analysez en temps réel...

© 2014 Amazon.com, Inc. and its affiliates. All rights reserved. May not be copied, modified, or distributed in whole or in part without the express consent of Amazon.com, Inc.

Du temps réel au data warehouse :

capturez et analysez en temps réel vos

données

Julien Lépine, Solutions Architect, Amazon

Adrien Schmidt, CEO, Squid Solutions

13 Mai 2014 @aws_actus / #awssummit

Big Data: des données en augmentation perpétuelle

Go To Po

95% des 1,2 zettaoctets des données dans l’univers digital sont non structurées

70% de ces données ont été générées par des utilisateurs

La croissance des données non structurées est explosive, avec des croissances annuelles (CAGR) de 62% entre 2008 et 2012. Source: IDC

Zo

Eo

Un écosystème Big Data

Amazon Redshift

Amazon EMR

Amazon EC2

Analyser

Amazon Glacier

Amazon S3

Amazon DynamoDB

Stocker

AWS Direct Connect

Collecter

Amazon Kinesis

Stockage illimité ; faible coût

Stockage d’objets ; disponibilité

Élastique et sécurisé

Durable: 99,999999999%

Amazon S3

Clusters Hadoop

Plateforme managée

Simple d’utilisation

Intégré à Amazon S3, DynamoDB

Amazon

Elastic

MapReduce

Service de métrologie AWS

Cas d’usage • X * 10M d’enregistrements/sec

• X * 100K sources

• X To par heure

Contraintes • Besoin de plus d’élasticité

• Envie d’alertes en temps-réel

• Coûteux à opérer

• Stockage éventuellement

consistent

Notre transition « Big Data »

Ancien besoin • Accepter des volumes très importants de données et les traiter par lots

horaires ou quotidiens

Nouveau besoin • Prendre des décisions plus rapidement, même en temps-réel

• Redimensionner le système complet à l’échelle, de manière élastique

• Rendre facile le fait de « garder tout »

• Permettre à plusieurs applications de traiter les données en parallèle

Scenarios

Capture-Transformation-Chargement accéléré

Métrique continue / KPI Extraction Analyse réactive sur les données

Types de données Infrastructure IT, Logs Applicatifs, Média Sociaux, Données Financières, Clics Web, Capteurs, Geolocalisation

Logiciels / technologie

Serveurs IT, Traitement Logs applications Tableaux de bord opérationnels IT Intelligence opérationnelle sur capteurs

Marketing / Publicité en ligne

Agrégation de données marketing Advertising metrics like coverage, yield, conversion

Analytique sur engagement client avec les publicités, optimisation des bids

Finance Collecte de données des marchés financiers

Métriques de données financières Analyse et détection de fraudes, suivi de VAR audit d’ordres sur les marchés

E-Commerce / Plateformes en ligne

Agrégation de données sur l’engagement en ligne des clients

Métriques d’engagement client, CTR, pages vues, …

Moteurs de recommandation, analyse de comportement

Scénarios clients sur plusieurs industries

Traitement temps-réel

Élastique; forte volumétrie

Simple d’utilisation

Intégré dans l’écosystème

Amazon

Kinesis

Architecture Amazon Kinesis

Amazon Web Services

AZ AZ AZ

Durable, highly consistent storage replicates dataacross three data centers (availability zones)

Aggregate andarchive to S3

Millions ofsources producing100s of terabytes

per hour

FrontEnd

AuthenticationAuthorization

Ordered streamof events supportsmultiple readers

Real-timedashboardsand alarms

Machine learningalgorithms or

sliding windowanalytics

Aggregate analysisin Hadoop or adata warehouse

Inexpensive: $0.028 per million puts

Plateforme pour l’intégration et le traitement continu

Le bon outil pour le bon cas d’usage

Intégration temps-réel

• Passe à l’échelle

• Durable

• Élastique

• Lecture / relecture

Traitement continu

• Équilibrage de charge sur les flux d’entrée

• Tolérance de panne, Checkpoint / Replay

• Élastique

• Plusieurs applications traitent en parallèle

Permet le transfert de données vers des points de stockage / traitement

Service managé

Latence faible de bout-en-bout

Traitement en continu et en temps-réel

Écrire dans Kinesis Une interface simple « Put »

• Les producteurs utilisent un appel PUT pour stocker

des données dans un Stream

• PutRecord {Data, PartitionKey, StreamName}

• Une clé de partitionnement est fournie par le

producteur afin de cibler un Shard

• Kinesis utilise un algorithme de hash pour

déterminer dans quel Shard stocker les données

• Un numéro unique de séquence est retourné au

producteur une fois les données stockées

Exemple Javascript

Accélérer le développement d’applications de

traitement Kinesis avec le Kinesis Client Library

o Bibliothèque Java ouverte, sources sur GitHub

o Concevez et déployez des applications sur Amazon EC2

o KCL sert d’intermédiaire de traitement:

Démarre un « Worker » pour chaque Shard

Simplifie la lecture via une abstraction des Shards

Augmente / Diminue le nombre de Workers en

fonction du nombre de Shards

Gère les Checkpoints et la reprise sur erreur

o Gère la répartition de charge avec les Auto Scaling Groups

Connecter Kinesis avec Amazon DynamoDB, S3, Redshift

ou votre système avec Kinesis Connector Library

Amazon S3

Amazon

DynamoDB

Amazon Redshift

Amazon

Kinesis

ITransformer

• Transforme un enregistrement Kinesis en une donnée utile

IFilter

• Exclue les enregistrements non pertinents

IBuffer

• Regroupe les enregistrements ensemble pour faciliter le traitement par lot

IEmitter

• Enregistre les lots d’enregistrements vers un système de stockage

D’autres options de lecture de Streams Kinesis

APIs, Storm

o Utiliser les APIs « Get* » pour lire les données brutes depuis les flux Kinesis

• GetRecords {Limit, ShardIterator}

• GetShardIterator {ShardId, ShardIteratorType, StartingSequenceNumber, StreamName}

o Intégrer Kinesis avec des Topologies Storm

• Bootstraps (Zookeeper) attache les Shards aux Spouts

• Lecture de données depuis les Streams Kinesis

• Émet des « tuples » et gère le Checkpoints (Zookeeper)

Envoyer et lire des données avec Kinesis

HTTP Post

AWS SDK

LOG4J

Flume

Fluentd

Get* APIs

Kinesis Client

Library

+

Connector Library

Apache

Storm

Amazon Elastic

MapReduce

Envoyer Lire

Utiliser EMR pour lire et traiter des flux Kinesis

Traitement

Source

• Analyste

• Développeur

Mon site

Kinesis

Log4J

Appender

Envoi vers

Kinesis

EMR – AMI 3.0.5

Hive Pig

Cascading MapReduce

Lit depuis

Exemple Hive

Tarif Kinesis Simple, paiement à l’usage, pas d’engagement

Type d’usage Prix

Shard par Heure $0,015

1,000,000 transactions PUT $0,028

• Le niveau de performance est défini en nombre de Shards, choisi par le client

• Chaque Shard fournit 1 Mo/s en écriture, and 2 Mo/s en lecture

• Bande passante entrante gratuite

• Les applications de lecture Kinesis sur EC2 sont facturées au tarif EC2

HDFS

Plateformes

d’analyse

Gestion de

données

Amazon

RedShift

Amazon EMR Amazon

RDS

Amazon S3 Amazon

DynamoDB

Amazon

Kinesis

Sources Sources Sources de

données

AWS Data Pipeline

À l’échelle du Pétaoctet

Massivement parallèle

Data warehouse relationnel

Totalement managé

Amazon

Redshift

beaucoup plus rapide

beaucoup moins cher

vraiment beaucoup plus simple

Maîtriser Amazon Redshift

Adrien Schmidt

CEO, Squid Solutions

A propos de Squid Solutions

• 10 ans d’expérience

• 4 profils tech différents

• 14 DWH en gestion

• 20To données en ligne

• 2 plateformes big data

• 8 semaines par POC

• Toute la chaine data

A propos de ProQuest

• Distribution de

contenus numériques

• 90,000 sources

• 6B pages de contenus

• 20M d’articles

• 450K Ebooks

• 100 pays

A propos d’Amazon Redshift Principes clé • MPP / Shared Nothing

• Horizontal scalability

• Data Distribution

• Parallel Import

Disponible à la demande • 4 configurations de base

• Extensible (up/down)

• Stop and go

10 GigE

(HPC)

Ingestion Backup Restore

JDBC/ODBC

Le choix de Redshift

• Les fonctions et

performances d’une

base SQL MPP mature – Performances pour des

requêtes interactives

– SQL avancé pour l’analyse

– Un moteur en en développement actif

• Le modèle de coût et

la flexibilité des

solutions Hadoop – Volumétrie adapté

Go/To/Po

– Engagement longue durée

divise les coûts par 3

Répondre aux attentes clients spécifiques

Données agrégées

Faible latence

End user reports & analysis

Données granulaires

Forte latence

Intégrité des

données, analyses avancées

Des couches de données bottom-up

Raw Data Layer

Reporting Layer

Global KPI Layer Business intelligence à

travers les départements

Rapports standard

“COUNTER-compliant”

Analyse fine de l’usage

Une infrastructure robuste sur AWS

ProQuest Big Data Analytics

Secure

Available

Flexible

Scalable

© 2014 Amazon.com, Inc. and its affiliates. All rights reserved. May not be copied, modified, or distributed in whole or in part without the express consent of Amazon.com, Inc.

13 Mai 2014

Merci !

Du temps réel au data warehouse :

capturez et analysez en temps réel vos

données

Julien Lépine, Solutions Architect, Amazon

Adrien Schmidt, CEO, Squid Solutions

@aws_actus / #awssummit

aws paris summit 2014 - t3 - du temps réel au data warehouse : capturez et analysez en temps réel...

Technology