paris spark meetup : extension de spark (tachyon / spark jobserver) par jlamiel

1

©2015 Talend Inc.©2015 Talend Inc.

Spark Meetup

Jonathan Lamiel

Talend Labs

2

Présentation de Spark Packages & Co

Comment partager de la données entre différents job Spark ?

Comment s’interfacer avec Spark ?

Comment rendre une application Spark interactive ?

4

Comment partager de la données entre différents job Spark ?

Cas d’usage : Plusieurs contextes Spark utilisant un même

fichier d’enrichissement.

Solution 1 : Lire et relire et rerelire le même fichier à chaque

fois.

Solution 2 : Utiliser Tachyon

5

Open Source

Système de fichier distribué In-memory

6

Utilisation avec Spark mais pas seulement

7

Avec Spark comment ca marche ?

8

Et mon problème de réutilisation ?

9

Et mon code Spark il devient quoi ?

10

Tachyon accède aux données de manière intelligente ?

11

Coté Perf ?

13

Spark Packages

14

Spark

Des RDDs :

HadoopRDD, PairRDD, AvroRDD, JsonRDD, JdbcRDD,

ESSpark, CassandraRDD etc …

Pour le reste : Hadoop InputFormats


15

Spark Streaming

Des Dstreams:

File systems, Socket, Akka actors, Kafka, Flume,

Kinesis, Twitter

Pour le reste : Custom Receiver ou Camel ???


18

Comment rendre une application Sparkinteractive ?

Cas d’usage : Créer une API Rest pour exécuter du Spark et

aider au management des contextes Spark.

Solution 1 : Le faire à la main à base d’Akka + Spray etc …

Solution 2 : Utiliser ce qu’il y’a de disponible dans les Spark-

Packages

19

Spark-jobserver

Open Source

Gestion des contextes Spark par le JobServer

Gestion des « applications » sous forme de jar

Appel d’applications Synchrone ou Asynchrone

Statuts des jobs exécutés

Gestion de la validation des paramètres avant soumission a

Spark

20

Spark-jobserver

Ca ressemble à quoi ?

21

Spark-jobserver

A quoi ressemble mon code Spark ?

22

Spark-jobserver

Comment je l’utilise ?

23

Spark-jobserver

D’un point de vue architecture ?

24

Suivre l’évolution des projets sortant.

What next ?

….

25

Q&A ?

paris spark meetup : extension de spark (tachyon / spark jobserver) par jlamiel

Internet

code spark

management des contextes

diffrents job spark

application spark interactive

spark streamingdes dstreams

cas dusage

mme fichier denrichissement

akka actors