s u m m i t - amazon web services...a n t 2 0 3 arnaud milleker manager datalake ogury. ......
TRANSCRIPT
S U MM I TP a r i s
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.SUMMIT
Exploiter, analyser et collaboreravec son datalake
Marc CabocelStartup Solution ArchitectAWS
A N T 2 0 3
Arnaud MillekerManager DataLakeOgury
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.SUMMIT
Donnée
Tous les 5 ans
La donnée estomniprésente
15ans
Dure
Plateforme Data
1,000xscale
>10xaugmente
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.SUMMIT
Plusieurs jobs gravitentautour de la donnée…
Avec de nouveaux besoins
Data Scientists
Analysts
Business Users
Applications
Sécurisée Temps réel
Flexible Scalable
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.SUMMIT
Démocratisation de la donnée
Gouvernance et controle
Comment correctement assurer la gouvernance/sécurité de la donnée?
Il n’y a jamais euautant de personnesqui travaillent autourde la donnée
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.SUMMIT
Un DataLake permet de centraliser de la donnéestructurée et non-structurée à n’importe quelle
échelle
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.SUMMIT
Les avantages du Data Lake sur AWS
Analyses / Traitements
• Durabilité et disponibilité élevée à l’échelle de l’Exa-
octets
• Meilleure sécurité, compliance et capacités d’audit
• Contrôle fin des accès au niveau Objet
• Meilleures performances en ne rapatriant qu’un
sous-ensemble des données
• Ingestion des données facilitée
• Très nombreuses intégrations avec les solutions
partenaires
• Le plus grand nombre de services d’analyse et de
Machine Learning
Machinelearning
Streaming de données
Temps-réel
Ingestion de données
Data Lake sur AWS
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.SUMMIT
Service de Machine Learning managé
AMIs de Deep Learning
Reconnaissance de Vidéo et d’Image
Interfaces conversationnelles
Caméra vidéo avec Deep-Learning
Traitement automatique du Langage Naturel
Traduction
Reconnaissance de la voix
Text-to-Speech
Analyses intéractives
Hadoop & Spark
Data Warehousing
Recherche full-text
Analyse temps réél
Visualisations et Dashboards
Connexion réseau dédiée
Valise renforcée pour le transport de vos données
Véhicule sécurisé pour le transport de vos données
Migration de base de données
Connectez des Objets sur AWS
Streaming de données temps réel
Streaming de vidéo temps réel
Data Lake sur AWS
Storage | Archival Storage | Data Catalog
Analyses et traitements Machine learning
Streaming de données temps-réelIngestion de données
Data Lakes, Analyses, et IoT Portfolio sur AWSLa plus large sélection de services d’analyses et de traitements
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.SUMMIT
Data Lakes, Analyses, et IoT Portfolio sur AWSLa plus large sélection de services d’analyses et de traitements
Amazon SageMaker
AWS Deep Learning AMIs
Amazon Rekognition
Amazon Lex
AWS DeepLens
Amazon Comprehend
Amazon Translate
Amazon Transcribe
Amazon Polly
Amazon Athena
Amazon EMR
Amazon Redshift / Amazon Redshift Spectrum
Amazon Elasticsearch Service
Amazon Kinesis
Amazon QuickSight
AWS Direct Connect
AWS Snowball
AWS Snowmobile
AWS Database Migration Service
AWS IoT Core
Amazon Kinesis Data Firehose
Amazon Kinesis Data Streams
Amazon Kinesis Video Streams
Data Lake sur AWS
Amazon S3 | Amazon Glacier | AWS Glue Data Catalog
Machine learning
Streaming de données temps-réel
Analyses et traitements
Ingestion de données
SUMMIT © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.SUMMIT
Athena Quicksight EMR Redshift
Traitement et AnalyseUtilisez des methodes prédictives et prescriptives
pour tirer la valeur de vos données Stockage centralStockage sécurisé et peu cher
de vos données sur S3
S3
Firehose Direct Connect Snowball DMS
Ingestion des donnéesPoussez vos données sur S3
rapidement et de façon sécurisée
Accès et gestion des utilisateursDonnez accès de façon sécurisé à vos utilisateurs
API Gateway IAM Cognito
Catalogue et RechercheGestion des metadata
DynamoDB Amazon ESGlue
Protégez et sécurisezGérez les droits pour assurez la sécurité de la donnée
et l’authentification des utilisateurs
Security Token
ServiceCloudwatch Cloudtrail KMS
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.SUMMIT
Comment importer de la donnée sur son datalake?
Data Lake on AWS
AWS Direct Connect
AWS Snowball
AWS Snowmobile
AWS Database Migration Service
Batch dataAWS IoT Core
Amazon Kinesis Data Firehose
Amazon Kinesis Data Streams
Amazon Kinesis Video Streams
Real-time data
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.SUMMIT
Amazon KinesisFacilement collecter, traiter et analyser de la donnée en temps réel
Capturer, traiter et stocker des
flux vidéos
Kinesis Video
Streams
Charger des flux de données
dans des datastores
Kinesis Data
Firehose
SQL
Analyser les flux de données
avec des requêtes SQL
Kinesis Data
Analytics
Capturer, traiter et stocker des
flux de données
Kinesis Data
Streams
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.SUMMIT
Que contient mon datalake?
Gartner:“En 2018, 80% des data lakes n’incluront pas de méthode efficace de gestion des metadatas, ce qui les rendra inutilisable."
Data Lake sur AWS
Storage | Archival Storage | Data Catalog
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.SUMMIT
AWS Glue – Le catalogue de la donnée
• Découvre automatiquement la donnée et stocke les
schémas de données
• Facilite la recherche de donnée pour les operations
d’ETL
• Le catalogue contient la definition des tables et des
jobs
• Optimise les requêtes
Le catalogue de donnée
de Glue
Décrouvre la donnée et
extrait les schémas de
données
Compliance
Découvrir ce qui se cache dans la donnée
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.SUMMIT
Data Lake sur Amazon S3 avec AWS Glue
AWS Glue
CrawlersAWS Glue
Data catalog Amazon EMR
Amazon Redshift
Amazon Athena
Amazon QuickSightS3 bucket
RDS
Direct Connect
Kinesis
Other DBs
Votre donnée
1. Les crawlers scannent le data set et remplissent le
data catalogue
2. Le catalogue de donnée est un répertoire de
métadonnées centrales
3. Une fois catalogué dans Glue, la donnée est
immédiatement disponible pour l’analyse
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.SUMMIT
Donnée
brute
Donnée
nettoyée
Import de la
donnée brute
• Normalisation
• Partitionnement
• Compression
• Optimisation
Donnée néttoyée
vers les outils
d’analyses
ETL
Préparer la donnée pour les services d’analyses
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.SUMMIT
AWS Glue - ETL Service
• Génération automatique de scriopts d’ETL
• Customiser le code avec Python et Spark
• Interface Graphique pour éditer, debugger et
tester le code
• Planification des jobs
• Serverless
Facilite le développement et déployement de scripts d’ETL
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.SUMM IT
AWS Glue - ETL Service
• Génération automatiquede scrioptsd’ETL
• Customiser le code avec Python et Spark
• InterfaceGraphiquepour éditer, debugger et
tester lecode
• Planification des jobs
• Serverless
Facilitele développement et déployement de scripts d’ETL
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.SUMMIT
Comment générer de la valeur?
Amazon SageMaker
AWS Deep Learning AMIs
Amazon Rekognition
Amazon Lex
AWS DeepLens
Amazon Comprehend
Amazon Translate
Amazon Transcribe
Amazon Polly
Amazon Athena
Amazon EMR
Amazon Redshift / Amazon Redshift Spectrum
Amazon Elasticsearch Service
Amazon Kinesis
Amazon QuickSight
AWS Direct Connect
AWS Snowball
AWS Snowmobile
AWS Database Migration Service
AWS IoT Core
Amazon Kinesis Data Firehose
Amazon Kinesis Data Streams
Amazon Kinesis Video Streams
Data Lake sur AWS
Amazon S3 | Amazon Glacier | AWS Glue Data Catalog
Machine learning
Streaming de données temps-réel
Analyses et traitements
Ingestion de données
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.SUMMIT
Amazon EMR — Traitements Big Data
Traitements, analyses et Machine Learning à grande échelle
19 projets open-source: Apache Hadoop, Spark, HBase, Presto, et plus…
Sécurité de niveau entreprise
$
Dernières versions
Mis à jour avec les
dernières versions des
framework open sources
dans les 30 jours suivant
leur mise à disposition
Faible coût
Paiement à la seconde,
instances EC2 Spot,
instances réservées et
auto-scaling pour réduire
les coûts de 50 à 80%
Stockage S3
Traitement des données
directement depuis S3 de
façon extrêmement
rapide grâce au
connecteur EMRFS
Facile
Lancez un cluster Hadoop et
Spark managé en quelques
minutes; pas de setup du
cluster, de provisionning des
nœuds ou de tuning du
cluster
Data Lake
1001100001001010111001
010101110010101000
00111100101100101
010001100001
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.SUMMIT
Amazon Athena: Analyse interactiveService de requête interactive pour analyser vos données stockées sur Amazon S3 en
utilisant le langage SQL standard
Pas d’infrastructure à paramétrer ni à manager, et aucun chargement de données
Capacité à lancer des requêtes SQL sur des données archivée dans Amazon Glacier
(bientôt)
$SQL
Requêtes instantanés
Aucun coût de setup;
pointez simplement
vers Amazon S3 et
commencez à
requêter.
Paiement à la requête
Payez simplement pour les
requêtes éxecutées;
Gagnez 30-90% sur votre
coût par requête avec les
algorithmes de
compression.
Ouvert
Interface SQL ANSI, drivers
JDBC/ODBC, multiple formats,
types de compression, et
gestion des jointures
complexes et des types de
données.
Facile
Serverless: zéro
infrastructure, zéro
administration
Intégré à Amazon
QuickSight.
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.SUMMIT
Amazon Redshift – Data Warehouse ModerneData Warehouse rapide, redimensionnable, complètement managé pour 1/10ème du coût des solutions existantes on-premise
Massivement parallèle, redimensionnable du giga-octet à l’exa-octet
Requêtez vos données sur votre cluster Amazon redshift et sur data lake Amazon S3
Mise à l’échelle
rapide
Technologie de stockage
colonne pour améliorer
l’efficience des I/O et mise à
l’échelle pour augmenter les
performances des requêtes
Faible coût
Débutez à $0.25 par
heure; soit $250-$333 par
To non compressé par an
Formats de fichier
ouvertSécurisé
Auditez tout, chiffrez de
bout en bout; haute
compatibilité avec les
certifications du marché
Analysez des données
stockées de façon optimisée
sur les disques attachés, et
les formats de fichier ouvert
directement sur Amazon S3
$
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.SUMMIT
CHALLENGE
Besoin de remonter un maximum
d’informations des joueurs pour les
designers.
Besoin de comprendre à la minute la
satisfaction des joueurs pour garantir leur
engagement, ce qui résulte au jeu le plus
populaire au monde
Fortnite | 125+ million de joueurs
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.SUMMIT
Epic Games utilise un datalake et des solutions analytiques
La plateforme d’analytics est all-in sur AWS
Amazon S3 comme datalake
Toutes les données sont remontées via Amazon Kinesis
L’analyse temps réelle est faites via Spark sur EMR et les tableaux d’affichages reposent sur DynamoDB
EMR est utilisé pour l’analyse batch de la plateforme.
Les designers du jeu se reposent sur l’information remontée pour prendre des decisions.
Game clients
Game
servers
Launcher
Game
services
N E A R R E A L T I M E P I P E L I N E
N E A R R E A L T I M E P I P E L I N E
Grafana
Scoreboards API
Limited raw data
(real time ad-hoc SQL)User ETL
(metric definition)
Spark on EMR DynamoDB
NEAR REAL-TIME PIPELINES
BATCH PIPELINES
ETL using
EMR
Tableau/BI
Ad-hoc SQLS3
(Data lake)
Kinesis
APIs
Databases
S3
Other
sources
Le Data Warehouse, cet accès au Data Lake AWS de 700 To
Ogury
Le
Data
Ware
hou
se, ce
t a
ccè
s a
uD
ata
La
ke
AW
S d
e 7
00
To
26
2018
2019
2020
2021
900+Brands
10,000+Apps
400mMobile User Profile
Une extrême croissance
Croissance doublée chaque année
280 employés
100M de $ de chiffre d’affaire en 2018
Une technologie de pointe
CTR & VTR
Ogury Mobile Journey Marketing
x2
10%
$
Summary
01
02
03
Évolution du Data Lake
Outils techniques
Pour aller plus loinLe
Data
Ware
hou
se, ce
t a
ccè
s a
uD
ata
La
ke
AW
S d
e 7
00
To
027
Le
Data
Ware
hou
se, ce
t a
ccè
s a
uD
ata
La
ke
AW
S d
e 7
00
To
028
Évolution du Data Lake
01
Du Data Warehouse …L
eD
ata
Ware
hou
se, ce
t a
ccè
s a
uD
ata
La
ke
AW
S d
e 7
00
To
29
Contexte
6 développeurs Data
1 Projet Data Science
Monitoring
Quelques To adressés
Forces/Faiblesses
Architecture simple mais peu dynamique
Répond aux besoins (DS et monitoring)
Bonne intégration AWS
Peu de Data exploitées
Data Pipeline
Redshift TableauS3
ETL (EC2, EMR)
Data WarehouseStockage fichier (JSON,
Parquet)
Reporting
…Au Data LakeL
eD
ata
Ware
hou
se, ce
t a
ccè
s a
uD
ata
La
ke
AW
S d
e 7
00
To
30
Contexte
35 développeurs Data
5-10 projets critiques de DScience déployés
Business
Monitoring
Data Lake de 700 To
Forces/Faiblesses
Architecture simple et dynamique
Tous accès simple
Expiration facile et rapide
Data Pipeline
Redshift TableauS3
ETL (EC2, EMR)
Data WarehouseStockage fichier (JSON,
Parquet) Data Lake
Reporting
Athena
Data Lake
Glue
Catalogue
Le
Data
Ware
hou
se, ce
t a
ccè
s a
uD
ata
La
ke
AW
S d
e 7
00
To
031
Outils Techniques
02
Comment choisir ses outils ?L
eD
ata
Ware
hou
se, ce
t a
ccè
s a
uD
ata
La
ke
AW
S d
e 7
00
To
32
Data pipeline : Job scheduler
EC2 : Instance pour scripts
EMR : Instance Hadoop/Spark
+ économique
- statique
Glue : Catalogue de données
Athena : Requêteur SQL sur fichier
+ rapide à développer/utiliser
- coûts à surveiller
Redshift : Data Warehouse clusterisé
Spectrum : Service Athena dans Redshift
+ performance
- investissement
Fichiers
JSON
Data Pipeline
avec EMR
Data Pipeline
Avec EC2
PETIT VOLUME
GRAND
VOLUME
ACCÈS
RÉGULIER
Athena
Glue
ACCÈS
IRRÉGULIE
R
Glue
Fichiers Parquet
Redshift
(dense storage)
Redshift
(dense compute)
Redshift
Spectrum
ACCÈS &
HISTORIQUE
BESOIN DE
COMPUTE
BESOIN DE
STORAGE
TRÈS
GROS
VOLIMES
Le
Data
Ware
hou
se, ce
t a
ccè
s a
uD
ata
La
ke
AW
S d
e 7
00
To
33
Fiche technique :
Redshift
Définition
Data Warehouse clusterisé
Avantages
Le compute facile pour tous, haute performance, scalable
Inconvénients
Investissement important au départ
Astuces
• Gestion des distkey (et sortkey)
• Externalisation des datas sur Athena/Spectrum
Prix
365K€ par an (173K € pour 3 ans) pour 40To de fichiers
Effet wahou
Une jointure de 2 tables (66Md et 2 Md de lignes) tourne en
31 secondes
+
-
Internal use only
Le
Data
Ware
hou
se, ce
t a
ccè
s a
uD
ata
La
ke
AW
S d
e 7
00
To
34
Fiche technique :
Data Pipeline
Définition
L’ETL complètement intégré à AWS
Avantages
Un coût économique faible
Inconvénients
Lourd à manipuler
Astuces
Utiliser le JSON pour plus de liberté, un autre outil ?
Prix
Négligeable
Effet wahou
On cherche encore
+
-
Internal use only
Le
Data
Ware
hou
se, ce
t a
ccè
s a
uD
ata
La
ke
AW
S d
e 7
00
To
35
Fiche technique :
Glue
Définition
Solution serverless pour créer des catalogues
(structure de données fichiers plats) ou scripter du
Spark avec Python ou Scala (/!\ librairies
spécifiques AWS)
Astuces
Bien initier une table rapidement
Prix
Négligeable
Effet wahou
Création d’un catalogue de données en 2 minutes
Internal use only
Le
Data
Ware
hou
se, ce
t a
ccè
s a
uD
ata
La
ke
AW
S d
e 7
00
To
36
Fiche technique :
Athena
Définition
Solution serverless de SQL sur fichier plat (via Glue)
Avantages
Très pratique pour exploration ou ETL (si données pas trop
grosses)
Inconvénients
Attention au prix qui peut s’envoler
Astuces
• Utiliser les CTAS
• Transformer les sources en Parquet ou ORC
• Lambda pour créer les partitions
Prix
Scan de 2 milliards de lignes pour 35 centimes (5$/To)
Effet wahou
Exploiter des fichiers de plusieurs Go pour quelques centimes en
1 minute tout compris
+
-
Le
Data
Ware
hou
se, ce
t a
ccè
s a
uD
ata
La
ke
AW
S d
e 7
00
To
37
Fiche technique :
Spectrum
Définition
Solution de SQL sur fichier plat depuis Redshift
Avantages
Récupération de données de grand volume et/ou semi-structurée,
possibilité de joindre avec le Data de Redshift, facilité d’utilisation
Inconvénients
Attention au prix qui peut s’envoler, distributions à refaire
Astuces
• Redistribuer la table (distkey)
• Réduire la table avant utilisation ou stockage dans Redshift
Prix
Scan de 2 milliards de lignes pour 35 centimes (5$/To)
Effet wahou
Exploiter des fichiers de plusieurs Go pour quelques centimes en 1
minute tout compris … Et l’avoir dans son Data Warehouse !
+
-
Internal use only
Redshift, un outil pour tous les unirL
eD
ata
Ware
hou
se, ce
t a
ccè
s a
uD
ata
La
ke
AW
S d
e 7
00
To
38
Redshift
Spectrum
Redshift
• Simplicité par le SQL
• Accès pour tous
• Centralise toutes les données
Glue + Athena
• Exploration très rapide de fichiers plats
• Coût raisonnable
Data Pipeline + Athena
• Archivage
Data Pipeline
• Des ETL économiques
Le
Data
Ware
hou
se, ce
t a
ccè
s a
uD
ata
La
ke
AW
S d
e 7
00
To
039
Pour aller plus loin
03
User Apps Ciblage Data Science Consent
Qualité(source, cleanings, ...)
Id unique(primary key)
Table unique (datamart ou
aggrégation)
Test automatisé(S3 vs Redshift)
Documentation
Matrice de maturitéL
eD
ata
Ware
hou
se, ce
t a
ccè
s a
uD
ata
La
ke
AW
S d
e 7
00
To
40
Le
Data
Ware
hou
se, ce
t a
ccè
s a
uD
ata
La
ke
AW
S d
e 7
00
To
41
L’équipe dans l’entreprise
Produit
Data Lake
Produit
Produit
ManagementDevops
Spotify engineering culture
• Tribe Data (SDK -> DL -> DScience -> Data Viz)
• Squad Scrum de 5 personnes (3 dev, 1 lead, 1 PO)
Adhérences avec les teams produit
Forte dépendance aux Devops et Management
« Centre névralgique de la data »
une team au service des autres autant que d’elle-même
Questions ?
Pa
na
ram
ad
es s
olu
tion
s B
ig D
ata
& A
I à
utilis
er…
et
ce
lles à
ou
blie
r
42
N O U S R E C R U TO N S …
80 dévelopeurs !
V E R Y H A P P Y H O U R S – à partir de 19h ce soir
Rencontrez-nous en Zone A Stand 62
D É V E L O P P E Z V O T R E P O S T E
avec des experts
Rejoignez Ogury pour voir la naissance d’une licorne !
• Récupération des données en temps-reel
• Ciblage en temps réel
• Data Lake
• Data Science
• Business Analysts
• Infrastructure
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.SUMMIT
Merci !Marc Cabocel@CabocelMarc
Arnaud Milleker