s u m m i t - amazon web services...a n t 2 0 3 arnaud milleker manager datalake ogury. ......

S U MM I TP a r i s

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.SUMMIT

Exploiter, analyser et collaboreravec son datalake

Marc CabocelStartup Solution ArchitectAWS

A N T 2 0 3

Arnaud MillekerManager DataLakeOgury


Donnée

Tous les 5 ans

La donnée estomniprésente

15ans

Dure

Plateforme Data

1,000xscale

>10xaugmente


Plusieurs jobs gravitentautour de la donnée…

Avec de nouveaux besoins

Data Scientists

Analysts

Business Users

Applications

Sécurisée Temps réel

Flexible Scalable


Démocratisation de la donnée

Gouvernance et controle

Comment correctement assurer la gouvernance/sécurité de la donnée?

Il n’y a jamais euautant de personnesqui travaillent autourde la donnée


Un DataLake permet de centraliser de la donnéestructurée et non-structurée à n’importe quelle

échelle


Les avantages du Data Lake sur AWS

Analyses / Traitements

• Durabilité et disponibilité élevée à l’échelle de l’Exa-

octets

• Meilleure sécurité, compliance et capacités d’audit

• Contrôle fin des accès au niveau Objet

• Meilleures performances en ne rapatriant qu’un

sous-ensemble des données

• Ingestion des données facilitée

• Très nombreuses intégrations avec les solutions

partenaires

• Le plus grand nombre de services d’analyse et de

Machine Learning

Machinelearning

Streaming de données

Temps-réel

Ingestion de données

Data Lake sur AWS


Service de Machine Learning managé

AMIs de Deep Learning

Reconnaissance de Vidéo et d’Image

Interfaces conversationnelles

Caméra vidéo avec Deep-Learning

Traitement automatique du Langage Naturel

Traduction

Reconnaissance de la voix

Text-to-Speech

Analyses intéractives

Hadoop & Spark

Data Warehousing

Recherche full-text

Analyse temps réél

Visualisations et Dashboards

Connexion réseau dédiée

Valise renforcée pour le transport de vos données

Véhicule sécurisé pour le transport de vos données

Migration de base de données

Connectez des Objets sur AWS

Streaming de données temps réel

Streaming de vidéo temps réel

Data Lake sur AWS

Storage | Archival Storage | Data Catalog

Analyses et traitements Machine learning

Streaming de données temps-réelIngestion de données

Data Lakes, Analyses, et IoT Portfolio sur AWSLa plus large sélection de services d’analyses et de traitements


Data Lakes, Analyses, et IoT Portfolio sur AWSLa plus large sélection de services d’analyses et de traitements

Amazon SageMaker

AWS Deep Learning AMIs

Amazon Rekognition

Amazon Lex

AWS DeepLens

Amazon Comprehend

Amazon Translate

Amazon Transcribe

Amazon Polly

Amazon Athena

Amazon EMR

Amazon Redshift / Amazon Redshift Spectrum

Amazon Elasticsearch Service

Amazon Kinesis

Amazon QuickSight

AWS Direct Connect

AWS Snowball

AWS Snowmobile

AWS Database Migration Service

AWS IoT Core

Amazon Kinesis Data Firehose

Amazon Kinesis Data Streams

Amazon Kinesis Video Streams

Data Lake sur AWS

Amazon S3 | Amazon Glacier | AWS Glue Data Catalog

Machine learning

Streaming de données temps-réel

Analyses et traitements



Athena Quicksight EMR Redshift

Traitement et AnalyseUtilisez des methodes prédictives et prescriptives

pour tirer la valeur de vos données Stockage centralStockage sécurisé et peu cher

de vos données sur S3

S3

Firehose Direct Connect Snowball DMS

Ingestion des donnéesPoussez vos données sur S3

rapidement et de façon sécurisée

Accès et gestion des utilisateursDonnez accès de façon sécurisé à vos utilisateurs

API Gateway IAM Cognito

Catalogue et RechercheGestion des metadata

DynamoDB Amazon ESGlue

Protégez et sécurisezGérez les droits pour assurez la sécurité de la donnée

et l’authentification des utilisateurs

Security Token

ServiceCloudwatch Cloudtrail KMS


Comment importer de la donnée sur son datalake?

Data Lake on AWS

AWS Direct Connect

AWS Snowball

AWS Snowmobile


Batch dataAWS IoT Core




Real-time data


Amazon KinesisFacilement collecter, traiter et analyser de la donnée en temps réel

Capturer, traiter et stocker des

flux vidéos

Kinesis Video

Streams

Charger des flux de données

dans des datastores

Kinesis Data

Firehose

SQL

Analyser les flux de données

avec des requêtes SQL

Kinesis Data

Analytics

Capturer, traiter et stocker des

flux de données

Kinesis Data

Streams


Que contient mon datalake?

Gartner:“En 2018, 80% des data lakes n’incluront pas de méthode efficace de gestion des metadatas, ce qui les rendra inutilisable."

Data Lake sur AWS

Storage | Archival Storage | Data Catalog


AWS Glue – Le catalogue de la donnée

• Découvre automatiquement la donnée et stocke les

schémas de données

• Facilite la recherche de donnée pour les operations

d’ETL

• Le catalogue contient la definition des tables et des

jobs

• Optimise les requêtes

Le catalogue de donnée

de Glue

Décrouvre la donnée et

extrait les schémas de

données

Compliance

Découvrir ce qui se cache dans la donnée


Data Lake sur Amazon S3 avec AWS Glue

AWS Glue

CrawlersAWS Glue

Data catalog Amazon EMR

Amazon Redshift

Amazon Athena

Amazon QuickSightS3 bucket

RDS

Direct Connect

Kinesis

Other DBs

Votre donnée

1. Les crawlers scannent le data set et remplissent le

data catalogue

2. Le catalogue de donnée est un répertoire de

métadonnées centrales

3. Une fois catalogué dans Glue, la donnée est

immédiatement disponible pour l’analyse


Donnée

brute

Donnée

nettoyée

Import de la

donnée brute

• Normalisation

• Partitionnement

• Compression

• Optimisation

Donnée néttoyée

vers les outils

d’analyses

ETL

Préparer la donnée pour les services d’analyses


AWS Glue - ETL Service

• Génération automatique de scriopts d’ETL

• Customiser le code avec Python et Spark

• Interface Graphique pour éditer, debugger et

tester le code

• Planification des jobs

• Serverless

Facilite le développement et déployement de scripts d’ETL

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.SUMM IT

AWS Glue - ETL Service

• Génération automatiquede scrioptsd’ETL

• Customiser le code avec Python et Spark

• InterfaceGraphiquepour éditer, debugger et

tester lecode

• Planification des jobs

• Serverless

Facilitele développement et déployement de scripts d’ETL


Comment générer de la valeur?

Amazon SageMaker

AWS Deep Learning AMIs

Amazon Rekognition

Amazon Lex

AWS DeepLens

Amazon Comprehend

Amazon Translate

Amazon Transcribe

Amazon Polly

Amazon Athena

Amazon EMR

Amazon Redshift / Amazon Redshift Spectrum

Amazon Elasticsearch Service

Amazon Kinesis

Amazon QuickSight

AWS Direct Connect

AWS Snowball

AWS Snowmobile


AWS IoT Core




Data Lake sur AWS

Amazon S3 | Amazon Glacier | AWS Glue Data Catalog

Machine learning

Streaming de données temps-réel

Analyses et traitements



Amazon EMR — Traitements Big Data

Traitements, analyses et Machine Learning à grande échelle

19 projets open-source: Apache Hadoop, Spark, HBase, Presto, et plus…

Sécurité de niveau entreprise

$

Dernières versions

Mis à jour avec les

dernières versions des

framework open sources

dans les 30 jours suivant

leur mise à disposition

Faible coût

Paiement à la seconde,

instances EC2 Spot,

instances réservées et

auto-scaling pour réduire

les coûts de 50 à 80%

Stockage S3

Traitement des données

directement depuis S3 de

façon extrêmement

rapide grâce au

connecteur EMRFS

Facile

Lancez un cluster Hadoop et

Spark managé en quelques

minutes; pas de setup du

cluster, de provisionning des

nœuds ou de tuning du

cluster

Data Lake

1001100001001010111001

010101110010101000

00111100101100101

010001100001


Amazon Athena: Analyse interactiveService de requête interactive pour analyser vos données stockées sur Amazon S3 en

utilisant le langage SQL standard

Pas d’infrastructure à paramétrer ni à manager, et aucun chargement de données

Capacité à lancer des requêtes SQL sur des données archivée dans Amazon Glacier

(bientôt)

$SQL

Requêtes instantanés

Aucun coût de setup;

pointez simplement

vers Amazon S3 et

commencez à

requêter.

Paiement à la requête

Payez simplement pour les

requêtes éxecutées;

Gagnez 30-90% sur votre

coût par requête avec les

algorithmes de

compression.

Ouvert

Interface SQL ANSI, drivers

JDBC/ODBC, multiple formats,

types de compression, et

gestion des jointures

complexes et des types de

données.

Facile

Serverless: zéro

infrastructure, zéro

administration

Intégré à Amazon

QuickSight.


Amazon Redshift – Data Warehouse ModerneData Warehouse rapide, redimensionnable, complètement managé pour 1/10ème du coût des solutions existantes on-premise

Massivement parallèle, redimensionnable du giga-octet à l’exa-octet

Requêtez vos données sur votre cluster Amazon redshift et sur data lake Amazon S3

Mise à l’échelle

rapide

Technologie de stockage

colonne pour améliorer

l’efficience des I/O et mise à

l’échelle pour augmenter les

performances des requêtes

Faible coût

Débutez à $0.25 par

heure; soit $250-$333 par

To non compressé par an

Formats de fichier

ouvertSécurisé

Auditez tout, chiffrez de

bout en bout; haute

compatibilité avec les

certifications du marché

Analysez des données

stockées de façon optimisée

sur les disques attachés, et

les formats de fichier ouvert

directement sur Amazon S3

$


CHALLENGE

Besoin de remonter un maximum

d’informations des joueurs pour les

designers.

Besoin de comprendre à la minute la

satisfaction des joueurs pour garantir leur

engagement, ce qui résulte au jeu le plus

populaire au monde

Fortnite | 125+ million de joueurs


Epic Games utilise un datalake et des solutions analytiques

La plateforme d’analytics est all-in sur AWS

Amazon S3 comme datalake

Toutes les données sont remontées via Amazon Kinesis

L’analyse temps réelle est faites via Spark sur EMR et les tableaux d’affichages reposent sur DynamoDB

EMR est utilisé pour l’analyse batch de la plateforme.

Les designers du jeu se reposent sur l’information remontée pour prendre des decisions.

Game clients

Game

servers

Launcher

Game

services

N E A R R E A L T I M E P I P E L I N E

N E A R R E A L T I M E P I P E L I N E

Grafana

Scoreboards API

Limited raw data

(real time ad-hoc SQL)User ETL

(metric definition)

Spark on EMR DynamoDB

NEAR REAL-TIME PIPELINES

BATCH PIPELINES

ETL using

EMR

Tableau/BI

Ad-hoc SQLS3

(Data lake)

Kinesis

APIs

Databases

S3

Other

sources

Le Data Warehouse, cet accès au Data Lake AWS de 700 To

Ogury

Le

Data

Ware

hou

se, ce

t a

ccè

s a

uD

ata

La

ke

AW

S d

e 7

00

To

26

2018

2019

2020

2021

900+Brands

10,000+Apps

400mMobile User Profile

Une extrême croissance

Croissance doublée chaque année

280 employés

100M de $ de chiffre d’affaire en 2018

Une technologie de pointe

CTR & VTR

Ogury Mobile Journey Marketing

x2

10%

$

Summary

01

02

03

Évolution du Data Lake

Outils techniques

Pour aller plus loinLe

Data

Ware

hou

se, ce

t a

ccè

s a

uD

ata

La

ke

AW

S d

e 7

00

To

027

Le

Data

Ware

hou

se, ce

t a

ccè

s a

uD

ata

La

ke

AW

S d

e 7

00

To

028

Évolution du Data Lake

01

Du Data Warehouse …L

eD

ata

Ware

hou

se, ce

t a

ccè

s a

uD

ata

La

ke

AW

S d

e 7

00

To

29

Contexte

6 développeurs Data

1 Projet Data Science

Monitoring

Quelques To adressés

Forces/Faiblesses

Architecture simple mais peu dynamique

Répond aux besoins (DS et monitoring)

Bonne intégration AWS

Peu de Data exploitées

Data Pipeline

Redshift TableauS3

ETL (EC2, EMR)

Data WarehouseStockage fichier (JSON,

Parquet)

Reporting

…Au Data LakeL

eD

ata

Ware

hou

se, ce

t a

ccè

s a

uD

ata

La

ke

AW

S d

e 7

00

To

30

Contexte

35 développeurs Data

5-10 projets critiques de DScience déployés

Business

Monitoring

Data Lake de 700 To

Forces/Faiblesses

Architecture simple et dynamique

Tous accès simple

Expiration facile et rapide

Data Pipeline

Redshift TableauS3

ETL (EC2, EMR)

Data WarehouseStockage fichier (JSON,

Parquet) Data Lake

Reporting

Athena

Data Lake

Glue

Catalogue

Le

Data

Ware

hou

se, ce

t a

ccè

s a

uD

ata

La

ke

AW

S d

e 7

00

To

031

Outils Techniques

02

Comment choisir ses outils ?L

eD

ata

Ware

hou

se, ce

t a

ccè

s a

uD

ata

La

ke

AW

S d

e 7

00

To

32

Data pipeline : Job scheduler

EC2 : Instance pour scripts

EMR : Instance Hadoop/Spark

+ économique

- statique

Glue : Catalogue de données

Athena : Requêteur SQL sur fichier

+ rapide à développer/utiliser

- coûts à surveiller

Redshift : Data Warehouse clusterisé

Spectrum : Service Athena dans Redshift

+ performance

- investissement

Fichiers

JSON

Data Pipeline

avec EMR

Data Pipeline

Avec EC2

PETIT VOLUME

GRAND

VOLUME

ACCÈS

RÉGULIER

Athena

Glue

ACCÈS

IRRÉGULIE

R

Glue

Fichiers Parquet

Redshift

(dense storage)

Redshift

(dense compute)

Redshift

Spectrum

ACCÈS &

HISTORIQUE

BESOIN DE

COMPUTE

BESOIN DE

STORAGE

TRÈS

GROS

VOLIMES

Le

Data

Ware

hou

se, ce

t a

ccè

s a

uD

ata

La

ke

AW

S d

e 7

00

To

33

Fiche technique :

Redshift

Définition

Data Warehouse clusterisé

Avantages

Le compute facile pour tous, haute performance, scalable

Inconvénients

Investissement important au départ

Astuces

• Gestion des distkey (et sortkey)

• Externalisation des datas sur Athena/Spectrum

Prix

365K€ par an (173K € pour 3 ans) pour 40To de fichiers

Effet wahou

Une jointure de 2 tables (66Md et 2 Md de lignes) tourne en

31 secondes

+

-

Internal use only

Le

Data

Ware

hou

se, ce

t a

ccè

s a

uD

ata

La

ke

AW

S d

e 7

00

To

34

Fiche technique :

Data Pipeline

Définition

L’ETL complètement intégré à AWS

Avantages

Un coût économique faible

Inconvénients

Lourd à manipuler

Astuces

Utiliser le JSON pour plus de liberté, un autre outil ?

Prix

Négligeable

Effet wahou

On cherche encore

+

-

Internal use only

Le

Data

Ware

hou

se, ce

t a

ccè

s a

uD

ata

La

ke

AW

S d

e 7

00

To

35

Fiche technique :

Glue

Définition

Solution serverless pour créer des catalogues

(structure de données fichiers plats) ou scripter du

Spark avec Python ou Scala (/!\ librairies

spécifiques AWS)

Astuces

Bien initier une table rapidement

Prix

Négligeable

Effet wahou

Création d’un catalogue de données en 2 minutes

Internal use only

Le

Data

Ware

hou

se, ce

t a

ccè

s a

uD

ata

La

ke

AW

S d

e 7

00

To

36

Fiche technique :

Athena

Définition

Solution serverless de SQL sur fichier plat (via Glue)

Avantages

Très pratique pour exploration ou ETL (si données pas trop

grosses)

Inconvénients

Attention au prix qui peut s’envoler

Astuces

• Utiliser les CTAS

• Transformer les sources en Parquet ou ORC

• Lambda pour créer les partitions

Prix

Scan de 2 milliards de lignes pour 35 centimes (5$/To)

Effet wahou

Exploiter des fichiers de plusieurs Go pour quelques centimes en

1 minute tout compris

+

-

Le

Data

Ware

hou

se, ce

t a

ccè

s a

uD

ata

La

ke

AW

S d

e 7

00

To

37

Fiche technique :

Spectrum

Définition

Solution de SQL sur fichier plat depuis Redshift

Avantages

Récupération de données de grand volume et/ou semi-structurée,

possibilité de joindre avec le Data de Redshift, facilité d’utilisation

Inconvénients

Attention au prix qui peut s’envoler, distributions à refaire

Astuces

• Redistribuer la table (distkey)

• Réduire la table avant utilisation ou stockage dans Redshift

Prix

Scan de 2 milliards de lignes pour 35 centimes (5$/To)

Effet wahou

Exploiter des fichiers de plusieurs Go pour quelques centimes en 1

minute tout compris … Et l’avoir dans son Data Warehouse !

+

-

Internal use only

Redshift, un outil pour tous les unirL

eD

ata

Ware

hou

se, ce

t a

ccè

s a

uD

ata

La

ke

AW

S d

e 7

00

To

38

Redshift

Spectrum

Redshift

• Simplicité par le SQL

• Accès pour tous

• Centralise toutes les données

Glue + Athena

• Exploration très rapide de fichiers plats

• Coût raisonnable

Data Pipeline + Athena

• Archivage

Data Pipeline

• Des ETL économiques

Le

Data

Ware

hou

se, ce

t a

ccè

s a

uD

ata

La

ke

AW

S d

e 7

00

To

039

Pour aller plus loin

03

User Apps Ciblage Data Science Consent

Qualité(source, cleanings, ...)

Id unique(primary key)

Table unique (datamart ou

aggrégation)

Test automatisé(S3 vs Redshift)

Documentation

Matrice de maturitéL

eD

ata

Ware

hou

se, ce

t a

ccè

s a

uD

ata

La

ke

AW

S d

e 7

00

To

40

Le

Data

Ware

hou

se, ce

t a

ccè

s a

uD

ata

La

ke

AW

S d

e 7

00

To

41

L’équipe dans l’entreprise

Produit

Data Lake

Produit

Produit

ManagementDevops

Spotify engineering culture

• Tribe Data (SDK -> DL -> DScience -> Data Viz)

• Squad Scrum de 5 personnes (3 dev, 1 lead, 1 PO)

Adhérences avec les teams produit

Forte dépendance aux Devops et Management

« Centre névralgique de la data »

une team au service des autres autant que d’elle-même

Questions ?

Pa

na

ram

ad

es s

olu

tion

s B

ig D

ata

& A

I à

utilis

er…

et

ce

lles à

ou

blie

r

42

N O U S R E C R U TO N S …

80 dévelopeurs !

V E R Y H A P P Y H O U R S – à partir de 19h ce soir

Rencontrez-nous en Zone A Stand 62

D É V E L O P P E Z V O T R E P O S T E

avec des experts

Rejoignez Ogury pour voir la naissance d’une licorne !

• Récupération des données en temps-reel

• Ciblage en temps réel

• Data Lake

• Data Science

• Business Analysts

• Infrastructure


Merci !Marc Cabocel@CabocelMarc

Arnaud Milleker

s u m m i t - amazon web services...a n t 2 0 3 arnaud milleker manager datalake ogury. ......

Documents