aws paris summit 2014 - t3 - du temps réel au data warehouse : capturez et analysez en temps réel...
DESCRIPTION
Track 3 - Session 3 : Du temps réel au data warehouse : capturez et analysez en temps réel vos donnéesTRANSCRIPT
© 2014 Amazon.com, Inc. and its affiliates. All rights reserved. May not be copied, modified, or distributed in whole or in part without the express consent of Amazon.com, Inc.
Du temps réel au data warehouse :
capturez et analysez en temps réel vos
données
Julien Lépine, Solutions Architect, Amazon
Adrien Schmidt, CEO, Squid Solutions
13 Mai 2014 @aws_actus / #awssummit
Big Data: des données en augmentation perpétuelle
Go To Po
95% des 1,2 zettaoctets des données dans l’univers digital sont non structurées
70% de ces données ont été générées par des utilisateurs
La croissance des données non structurées est explosive, avec des croissances annuelles (CAGR) de 62% entre 2008 et 2012. Source: IDC
Zo
Eo
Un écosystème Big Data
Amazon Redshift
Amazon EMR
Amazon EC2
Analyser
Amazon Glacier
Amazon S3
Amazon DynamoDB
Stocker
AWS Direct Connect
Collecter
Amazon Kinesis
Stockage illimité ; faible coût
Stockage d’objets ; disponibilité
Élastique et sécurisé
Durable: 99,999999999%
Amazon S3
Clusters Hadoop
Plateforme managée
Simple d’utilisation
Intégré à Amazon S3, DynamoDB
Amazon
Elastic
MapReduce
Service de métrologie AWS
Cas d’usage • X * 10M d’enregistrements/sec
• X * 100K sources
• X To par heure
Contraintes • Besoin de plus d’élasticité
• Envie d’alertes en temps-réel
• Coûteux à opérer
• Stockage éventuellement
consistent
Notre transition « Big Data »
Ancien besoin • Accepter des volumes très importants de données et les traiter par lots
horaires ou quotidiens
Nouveau besoin • Prendre des décisions plus rapidement, même en temps-réel
• Redimensionner le système complet à l’échelle, de manière élastique
• Rendre facile le fait de « garder tout »
• Permettre à plusieurs applications de traiter les données en parallèle
Scenarios
Capture-Transformation-Chargement accéléré
Métrique continue / KPI Extraction Analyse réactive sur les données
Types de données Infrastructure IT, Logs Applicatifs, Média Sociaux, Données Financières, Clics Web, Capteurs, Geolocalisation
Logiciels / technologie
Serveurs IT, Traitement Logs applications Tableaux de bord opérationnels IT Intelligence opérationnelle sur capteurs
Marketing / Publicité en ligne
Agrégation de données marketing Advertising metrics like coverage, yield, conversion
Analytique sur engagement client avec les publicités, optimisation des bids
Finance Collecte de données des marchés financiers
Métriques de données financières Analyse et détection de fraudes, suivi de VAR audit d’ordres sur les marchés
E-Commerce / Plateformes en ligne
Agrégation de données sur l’engagement en ligne des clients
Métriques d’engagement client, CTR, pages vues, …
Moteurs de recommandation, analyse de comportement
Scénarios clients sur plusieurs industries
Traitement temps-réel
Élastique; forte volumétrie
Simple d’utilisation
Intégré dans l’écosystème
Amazon
Kinesis
Architecture Amazon Kinesis
Amazon Web Services
AZ AZ AZ
Durable, highly consistent storage replicates dataacross three data centers (availability zones)
Aggregate andarchive to S3
Millions ofsources producing100s of terabytes
per hour
FrontEnd
AuthenticationAuthorization
Ordered streamof events supportsmultiple readers
Real-timedashboardsand alarms
Machine learningalgorithms or
sliding windowanalytics
Aggregate analysisin Hadoop or adata warehouse
Inexpensive: $0.028 per million puts
Plateforme pour l’intégration et le traitement continu
Le bon outil pour le bon cas d’usage
Intégration temps-réel
• Passe à l’échelle
• Durable
• Élastique
• Lecture / relecture
Traitement continu
• Équilibrage de charge sur les flux d’entrée
• Tolérance de panne, Checkpoint / Replay
• Élastique
• Plusieurs applications traitent en parallèle
Permet le transfert de données vers des points de stockage / traitement
Service managé
Latence faible de bout-en-bout
Traitement en continu et en temps-réel
Écrire dans Kinesis Une interface simple « Put »
• Les producteurs utilisent un appel PUT pour stocker
des données dans un Stream
• PutRecord {Data, PartitionKey, StreamName}
• Une clé de partitionnement est fournie par le
producteur afin de cibler un Shard
• Kinesis utilise un algorithme de hash pour
déterminer dans quel Shard stocker les données
• Un numéro unique de séquence est retourné au
producteur une fois les données stockées
Exemple Javascript
Accélérer le développement d’applications de
traitement Kinesis avec le Kinesis Client Library
o Bibliothèque Java ouverte, sources sur GitHub
o Concevez et déployez des applications sur Amazon EC2
o KCL sert d’intermédiaire de traitement:
Démarre un « Worker » pour chaque Shard
Simplifie la lecture via une abstraction des Shards
Augmente / Diminue le nombre de Workers en
fonction du nombre de Shards
Gère les Checkpoints et la reprise sur erreur
o Gère la répartition de charge avec les Auto Scaling Groups
Connecter Kinesis avec Amazon DynamoDB, S3, Redshift
ou votre système avec Kinesis Connector Library
Amazon S3
Amazon
DynamoDB
Amazon Redshift
Amazon
Kinesis
ITransformer
• Transforme un enregistrement Kinesis en une donnée utile
IFilter
• Exclue les enregistrements non pertinents
IBuffer
• Regroupe les enregistrements ensemble pour faciliter le traitement par lot
IEmitter
• Enregistre les lots d’enregistrements vers un système de stockage
D’autres options de lecture de Streams Kinesis
APIs, Storm
o Utiliser les APIs « Get* » pour lire les données brutes depuis les flux Kinesis
• GetRecords {Limit, ShardIterator}
• GetShardIterator {ShardId, ShardIteratorType, StartingSequenceNumber, StreamName}
o Intégrer Kinesis avec des Topologies Storm
• Bootstraps (Zookeeper) attache les Shards aux Spouts
• Lecture de données depuis les Streams Kinesis
• Émet des « tuples » et gère le Checkpoints (Zookeeper)
Envoyer et lire des données avec Kinesis
HTTP Post
AWS SDK
LOG4J
Flume
Fluentd
Get* APIs
Kinesis Client
Library
+
Connector Library
Apache
Storm
Amazon Elastic
MapReduce
Envoyer Lire
Utiliser EMR pour lire et traiter des flux Kinesis
Traitement
Source
• Analyste
• Développeur
Mon site
Kinesis
Log4J
Appender
Envoi vers
Kinesis
EMR – AMI 3.0.5
Hive Pig
Cascading MapReduce
Lit depuis
Exemple Hive
Tarif Kinesis Simple, paiement à l’usage, pas d’engagement
Type d’usage Prix
Shard par Heure $0,015
1,000,000 transactions PUT $0,028
• Le niveau de performance est défini en nombre de Shards, choisi par le client
• Chaque Shard fournit 1 Mo/s en écriture, and 2 Mo/s en lecture
• Bande passante entrante gratuite
• Les applications de lecture Kinesis sur EC2 sont facturées au tarif EC2
HDFS
Plateformes
d’analyse
Gestion de
données
Amazon
RedShift
Amazon EMR Amazon
RDS
Amazon S3 Amazon
DynamoDB
Amazon
Kinesis
Sources Sources Sources de
données
AWS Data Pipeline
À l’échelle du Pétaoctet
Massivement parallèle
Data warehouse relationnel
Totalement managé
Amazon
Redshift
beaucoup plus rapide
beaucoup moins cher
vraiment beaucoup plus simple
Maîtriser Amazon Redshift
Adrien Schmidt
CEO, Squid Solutions
A propos de Squid Solutions
• 10 ans d’expérience
• 4 profils tech différents
• 14 DWH en gestion
• 20To données en ligne
• 2 plateformes big data
• 8 semaines par POC
• Toute la chaine data
A propos de ProQuest
• Distribution de
contenus numériques
• 90,000 sources
• 6B pages de contenus
• 20M d’articles
• 450K Ebooks
• 100 pays
A propos d’Amazon Redshift Principes clé • MPP / Shared Nothing
• Horizontal scalability
• Data Distribution
• Parallel Import
Disponible à la demande • 4 configurations de base
• Extensible (up/down)
• Stop and go
10 GigE
(HPC)
Ingestion Backup Restore
JDBC/ODBC
Le choix de Redshift
• Les fonctions et
performances d’une
base SQL MPP mature – Performances pour des
requêtes interactives
– SQL avancé pour l’analyse
– Un moteur en en développement actif
• Le modèle de coût et
la flexibilité des
solutions Hadoop – Volumétrie adapté
Go/To/Po
– Engagement longue durée
divise les coûts par 3
Répondre aux attentes clients spécifiques
Données agrégées
Faible latence
End user reports & analysis
Données granulaires
Forte latence
Intégrité des
données, analyses avancées
Des couches de données bottom-up
Raw Data Layer
Reporting Layer
Global KPI Layer Business intelligence à
travers les départements
Rapports standard
“COUNTER-compliant”
Analyse fine de l’usage
Une infrastructure robuste sur AWS
ProQuest Big Data Analytics
Secure
Available
Flexible
Scalable
© 2014 Amazon.com, Inc. and its affiliates. All rights reserved. May not be copied, modified, or distributed in whole or in part without the express consent of Amazon.com, Inc.
13 Mai 2014
Merci !
Du temps réel au data warehouse :
capturez et analysez en temps réel vos
données
Julien Lépine, Solutions Architect, Amazon
Adrien Schmidt, CEO, Squid Solutions
@aws_actus / #awssummit