paris spark meetup : extension de spark (tachyon / spark jobserver) par jlamiel
TRANSCRIPT
2
Présentation de Spark Packages & Co
Comment partager de la données entre différents job Spark ?
Comment s’interfacer avec Spark ?
Comment rendre une application Spark interactive ?
4
Comment partager de la données entre différents job Spark ?
Cas d’usage : Plusieurs contextes Spark utilisant un même
fichier d’enrichissement.
Solution 1 : Lire et relire et rerelire le même fichier à chaque
fois.
Solution 2 : Utiliser Tachyon
14
Spark
Des RDDs :
HadoopRDD, PairRDD, AvroRDD, JsonRDD, JdbcRDD,
ESSpark, CassandraRDD etc …
Pour le reste : Hadoop InputFormats
Comment s’interfacer avec Spark ?
15
Spark Streaming
Des Dstreams:
File systems, Socket, Akka actors, Kafka, Flume,
Kinesis, Twitter
Pour le reste : Custom Receiver ou Camel ???
Comment s’interfacer avec Spark ?
18
Comment rendre une application Sparkinteractive ?
Cas d’usage : Créer une API Rest pour exécuter du Spark et
aider au management des contextes Spark.
Solution 1 : Le faire à la main à base d’Akka + Spray etc …
Solution 2 : Utiliser ce qu’il y’a de disponible dans les Spark-
Packages
19
Spark-jobserver
Open Source
Gestion des contextes Spark par le JobServer
Gestion des « applications » sous forme de jar
Appel d’applications Synchrone ou Asynchrone
Statuts des jobs exécutés
Gestion de la validation des paramètres avant soumission a
Spark