stephan hadinger, sr. mgr solutions architecture, aws stephan hadinger.pdf · amazon sns aws...
TRANSCRIPT
Salon du Big Data | 11 mars 2015
Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS
Accélération de l’innovation
2009
Amazon RDS
Amazon VPC
Auto Scaling
Elastic Load Balancing
+48
2010
Amazon SNS
AWS Identity & Access Management
Amazon Route 53
+61
2011
Amazon ElastiCache
Amazon SES
AWS CloudFormation
AWS Direct Connect
AWS Elastic Beanstalk
GovCloud
+82
Amazon CloudTrail
Amazon CloudHSM
Amazon WorkSpaces
Amazon Kinesis
Amazon Elastic Transcoder
Amazon AppStream
AWS OpsWorks
+280
2013
Amazon SWF
Amazon Redshift
Amazon Glacier
Amazon Dynamo DB
Amazon CloudSearch
AWS Storage Gateway
AWS Data Pipeline
+159
2012 2008
+24 Amazon EBS
Amazon CloudFront
+500
2014
Amazon Cognito
Amazon Zocalo
Amazon Mobile Analytics
AWS Directory Service
Amazon RDS for Aurora
AWS CodeDeploy
AWS Lambda
AWS Config
AWS Key Management
Service
AWS Service Catalog
Amazon EC2
Container Service
AWS CodePipeline
AWS CodeCommit
Mobile / Cable Telecom
Oil & Gas Industrial
Manufacturing
Retail/Consumer Entertainment
Hospitality
Life Sciences Scientific
Exploration
Financial Services
Publishing Media Advertising
Online Media Social Network
Gaming
AWS Cloud Big Data
Analyze Ingest
Kinesis
Import Export
Direct Connect
Collect
Glacier
S3
DynamoDB
Store
EMR EC2
Kinesis
S3
Share
Redshift Redshift Data Pipeline
Stockage en mode objet
Capacité sans limite
Elastique et parallèle
Durabilité 99.999999999%
Amazon
S3
Clusters Hadoop opérés
Hive, Pig, Impala, HBase
Facile à utiliser
Elastique : > milliers de nœuds
Amazon
Elastic
MapReduce
Entrepôt de données opéré
Relationnel, compatible avec les
produits du maché
Massivement parallèle
Capacité > Po
$1,000 / To / An
Amazon
Redshift
Traitement temps réel (< 1s.)
Elastique, haute débit
Facile à utiliser
Intégré à : EMR, S3, Redshift,
DynamoDB, Lambda…
Amazon
Kinesis
“THANKS TO AMAZON WEB SERVICES, WE CAN DELIGHT OUR PLAYERS WORLDWIDE.”
Sami Yliharju | Services Lead
Optimisation des coûts avec AWS
Un ADN de business à Gros Volume / Faible Marge
Remplacer des
investissements
CAPEX par des
coûts variables
OPEX
Des économies
d’échelle permettant
de réduire les prix
47 réductions de
prix depuis 2006
Un modèle de prix
qui s’adapte aux
types d’usage
A la demande
Réservé
Spot
Bénéficiez
d’économies
supplémentaires
Tarification dégressive
Réductions au volume
Trusted Advisor
Exemple à titre indicatif – Tous les prix à retrouver sur aws.amazon.com
Instances m3.xlarge Linux – 4 vCPU, 15 Go
Prix On Demand $0.308 / heure
Prix RI 3 ans all upfront lissé $0,134 / heure (–56% par rapport à OD)
Historique SPOT sur 3 mois :
Exemple à titre indicatif – Tous les prix à retrouver sur aws.amazon.com
Instances m3.xlarge Linux – 4 vCPU, 15 Go
Prix On Demand $0.308 / heure
Prix RI 3 ans all upfront lissé $0,134 / heure (–56% par rapport à OD)
Prix Spot sur 3 mois < $0.041 / heure (–86% par rapport à OD)
EMR
EMR Cluster S3
1. Code et
données
3. résultats
2. Démarrez votre
cluster
Choisisez:
•Hadoop distribution
•Le nombre de noeuds
•Le type de noeud (hi-
CPU, hi-memory, etc.)
•Hadoop apps (Hive,
Pig, HBase)
Comment ça marche?
Job Flow
Scénario #1
Comment ça marche?
14 Heures
Durée:
#1: Coût sans Spot 4 instances * 14 h * $0.308 = $17.25
Job Flow
Scénario #1
Job Flow
Scénario #2
Comment ça marche?
14 Heures
Durée: Durée:
7 Heures
#1: Coût sans Spot 4 instances * 14 h * $0.308 = $17.25
Job Flow
Scénario #1
Job Flow
Scénario #2
Comment ça marche?
14 Heures
Durée: Durée:
7 Heures
#2: Coût avec Spot 4 instances * 7 h * $0.308 = $8.62 5 instances * 7 h * $0.041 = $1.44
Total = $10.06
#1: Coût sans Spot 4 instances * 14 h * $0.308 = $17.25
Job Flow
14 Heures
Durée:
Scénario #1
Job Flow
Durée:
7 Heures
Scénario #2
Gains en Temps : 50% Economies : ~41%
Comment ça marche?
Exemple à titre indicatif – Tous les prix à retrouver sur aws.amazon.com
#2: Coût avec Spot 4 instances * 7 h * $0.308 = $8.62 5 instances * 7 h * $0.041 = $1.44
Total = $10.06
#1: Coût sans Spot 4 instances * 14 h * $0.308 = $17.25
EMR Cluster
Virtual Private Cloud
pour sécuriser
l’ensemble
Comment ça marche?
Prenons un calcul massif typique…
…qu’un cluster moyen mettrait
trop de temps à effectuer…
…que des algorithmes optimisés peuvent améliorer…
…et compléter le traitement dans les temps requis.
Acquérir un cluster plus gros…
…est bien souvent exagéré et trop coûteux.
Les clusters à base d’instances AWS
peuvent être ajustés aux besoins ponctuels…
…pas trop gros…
…ni trop petits…
…avec de multiples clusters s’exécutant en parallèle.
Elasticité sur AWS
Temps : +00h
<10 cœurs
Temps : +24h >1500 cœurs
Elasticité sur AWS
Temps : +72h
<10 cœurs
Elasticité sur AWS
Temps : +120h
>600 cœurs
Elasticité sur AWS
Schrodinger & CycleComputing: computational chemistry
Simulation by Mark
Thompson of the University
of Southern California to see
which of 205,000 organic
compounds could be used
for photovoltaic cells for solar
panel material.
Estimated computation time
264 years completed in 18
hours.
• Cluster de 156,314 cœurs
• 1.21 petaFLOPS (Rpeak)
• $33,000 au total ou
$0.16 par molécule
Nouveau record de tri à
grande échelle
● Databricks, créateur de
Apache Spark
● Pourquoi AWS?
● EC2 – rapide, SSD,
réseau 10Gbps
● Agilité
15 mois
50 personnes
€€ millions
Réseaux
Serveurs
Stockage
Virtualisation
Sécurité
Outils de gestion
Etc.
Data Center
Primaire
Data Center
Secondaire
5 minutes
1 personne
0€ zéro
Réseaux
Serveurs
Stockage
Virtualisation
Sécurité
Outils de gestion
Etc.
Architectes
Solutions
Services
Professionnels Support 24x7 Réseau de milliers de
partenaires AWS