cassandra spark connector

@doanduyhai

Cassandra Spark Connector DuyHai DOAN, Technical Advocate

@doanduyhai

Who Am I ?!

Duy Hai DOAN Cassandra technical advocate •  talks, meetups, confs •  open-source devs (Achilles, …) •  OSS Cassandra point of contact

☞ duy_hai.doan@datastax.com ☞ @doanduyhai

@doanduyhai

Datastax!

•  Founded in April 2010

•  We contribute a lot to Apache Cassandra™

•  400+ customers (25 of the Fortune 100), 200+ employees

•  Headquarter in San Francisco Bay area

•  EU headquarter in London, offices in France and Germany

•  Datastax Enterprise = OSS Cassandra + extra features

Spark/C* Connector Architecture!

Token ranges reminder!Stand-alone cluster deployment!

Data locality!!

@doanduyhai

Spark eco-system!

Local Standalone cluster YARN Mesos

Spark Core Engine (Scala/Java/Python)

Spark Streaming MLLib GraphX Spark SQL

Persistence

Cluster Manager

@doanduyhai

Spark eco-system!

Local Standalone cluster YARN Mesos

Spark Core Engine (Scala/Java/Python)

Spark Streaming MLLib GraphX Spark SQL

Persistence

Cluster Manager

@doanduyhai

Data distribution!Random: hash of #partition → token = hash(#p) Hash: ]-X, X] X = huge number (264/2)

@doanduyhai

Normal token ranges!A: ]0, X/8] B: ] X/8, 2X/8] C: ] 2X/8, 3X/8] D: ] 3X/8, 4X/8] E: ] 4X/8, 5X/8] F: ] 5X/8, 6X/8] G: ] 6X/8, 7X/8] H: ] 7X/8, X]

@doanduyhai

Cassandra Query Language (CQL)!

INSERT INTO users(login, name, age) VALUES(‘jdoe’, ‘John DOE’, 33);

UPDATE users SET age = 34 WHERE login = jdoe;

DELETE age FROM users WHERE login = jdoe;

SELECT age FROM users WHERE login = jdoe;

@doanduyhai

Why Spark on Cassandra ?!

Fast disk access

Structured data (columnar format)

Multi data-center !!!

Cross-table operations (JOIN, UNION, etc.)

Real-time/batch processing

Complex analytics (e.g. machine learning)

For Spark

For Cassandra

@doanduyhai

Connector objectives!

Data locality Resources-efficient, performant Fluent & friendly API Object mapper

@doanduyhai

Cluster deployment!

C* SparkM SparkW

C* SparkW

Stand-alone cluster

@doanduyhai

Cluster deployment!

Spark Master

Spark Worker Spark Worker Spark Worker Spark Worker

Executor Executor Executor Executor

Driver Program

Cassandra – Spark placement

C* C* C* C*

@doanduyhai

Connector architecture – Core API!

Cassandra tables exposed as Spark RDDs

Read from and write to Cassandra

Mapping of C* tables and rows to Scala objects •  CassandraRow •  case class (object mapper) •  Scala tuples

@doanduyhai

Connector architecture – Spark SQL !

Mapping of C* table to SchemaRDD •  custom query plan •  CassandraRDD à SchemaRDD •  push predicates to CQL

@doanduyhai

Connector architecture – Spark Streaming !

Streaming data INTO Cassandra table •  trivial setup •  be careful about your Cassandra data model !!!

Streaming data OUT of Cassandra table •  fetch all data from table •  send each row as a DStream

@doanduyhai

Connector architecture!

All Cassandra types supported and converted to Scala types Server side data selection (SELECT … WHERE …) Use Java-driver underneath !Scala and Java support

@doanduyhai

Data Locality!

C* SparkM SparkW

C* SparkW

Spark partition RDD

Cassandra tokens ranges

@doanduyhai

Data Locality!

C* SparkM SparkW

C* SparkW

Use Murmur3Partitioner

@doanduyhai

Data locality!

Read/Write from/to Cassandra

Spark shuffle operations

@doanduyhai

Data Locality!

Remember RDD interface ?

abstract'class'RDD[T](…)'{'' @DeveloperApi'' def'compute(split:'Partition,'context:'TaskContext):'Iterator[T]''' protected'def'getPartitions:'Array[Partition]'' '' protected'def'getPreferredLocations(split:'Partition):'Seq[String]'='Nil'''''''''''''''}'

@doanduyhai

Data Locality!

getPartitions : 1.  fetch all token ranges and their corresponding nodes from C*

(describe_ring method)

2.  group token ranges together so that 1 Spark partition = n token ranges belonging to the same node

@doanduyhai

Data Locality!

def getPreferredLocations(split: Partition): Cassandra node IP corresponding to this Spark partition compute(split: Partition, context: TaskContext): read from Cassandra/write to Cassandra

Connector API & Usage!

Resources handling!Connector API!

Live demo!

@doanduyhai

Resources Handling!

Open connections to C* cluster Connections pooled (using Ref counting) on each executor Scala Loan Pattern

!connector.withSessionDo!{!! session!=>!session.execute("SELECT!xxx!FROM!yyy").all()!!}!

@doanduyhai

Connector API!

Connecting to Cassandra

!//!Import!Cassandra.specific!functions!on!SparkContext!and!RDD!objects!!import!com.datastax.driver.spark._!!!!//!Spark!connection!options!!val!conf!=!new!SparkConf(true)!! .setMaster("spark://192.168.123.10:7077")!! .setAppName("cassandra.demo")!! .set("cassandra.connection.host","192.168.123.10")!//!initial!contact!! .set("cassandra.username",!"cassandra")!! .set("cassandra.password",!"cassandra")!!!val!sc!=!new!SparkContext(conf)!

@doanduyhai

Connector API!

Preparing test data

CREATE&TABLE&test.words&(word&text&PRIMARY&KEY,&count&int);&&INSERT&INTO&test.words&(word,&count)&VALUES&('bar',&30);&INSERT&INTO&test.words&(word,&count)&VALUES&('foo',&20);&

@doanduyhai

Connector API!

Reading from Cassandra

!//!Use!table!as!RDD!!val!rdd!=!sc.cassandraTable("test",!"words")!!//!rdd:!CassandraRDD[CassandraRow]!=!CassandraRDD[0]!!!rdd.toArray.foreach(println)!!//!CassandraRow[word:!bar,!count:!30]!!//!CassandraRow[word:!foo,!count:!20]!!!rdd.columnNames!!!!//!Stream(word,!count)!!rdd.size!!!!!!!!!!!//!2!!!val!firstRow!=!rdd.first!!//firstRow:CassandraRow=CassandraRow[word:!bar,!count:!30]!!!firstRow.getInt("count")!!//!Int!=!30!

@doanduyhai

Connector API!

Writing data to Cassandra

!val!newRdd!=!sc.parallelize(Seq(("cat",!40),!("fox",!50)))!!!//!newRdd:!org.apache.spark.rdd.RDD[(String,!Int)]!=!ParallelCollectionRDD[2]!!!!!newRdd.saveToCassandra("test",!"words",!Seq("word",!"count"))!

SELECT&*&FROM&test.words;&&&&&&word&|&count&&&&&&999999+9999999&&&&&&bar&|&&&&30&&&&&&foo&|&&&&20&&&&&&cat&|&&&&40&&&&&&fox&|&&&&50&&

https://github.com/doanduyhai/Cassandra-Spark-Demo

DSE features!

@doanduyhai

Use Cases!

Load data from various sources

Analytics (join, aggregate, transform, …)

Sanitize, validate, normalize data

Schema migration, Data conversion

@doanduyhai

Without DSE!

C* SparkM SparkW

C* SparkW

@doanduyhai

With DSE!

C* SparkM SparkW

C* SparkW*

C* SparkW

Master state in C*

Spare master for H/A

@doanduyhai

Spark/Cassandra integration!

Master state •  saved in Cassandra

Integration •  packaging •  start-up script (dse –k) •  fine tuning for resources (CPU, memory …) •  more to come …

@doanduyhai

Multi-DC with Spark!

Workload segregation with virtual DC

Production (Live)

Analytics with Spark

Same physical DC

Async replication

Thank You @doanduyhai

duy_hai.doan@datastax.com

https://academy.datastax.com/

cassandra spark connector

Technology

using spark over cassandra

spark cassandra integration, theory and practice

spark and cassandra - goto...

analytics with cassandra, spark & mllib - cassandra...

cassandra summit 2014: interactive olap queries using apache...

cassandra and spark - tim berglund

maximum overdrive: tuning the spark cassandra connector

analytics with cassandra & spark

spark/cassandra integration theory & practicedoanduyhai...

spark cassandra connector: past, present, and future

performance analysis of spark using k-means · like...

munich march 2015 - cassandra + spark overview

cassandra day 2014: interactive analytics with cassandra and...

manchester hadoop meetup: cassandra spark internals

cassandra and spark

data driven performance repository to classify and ... ·...

scotland data science meetup oct 13, 2015: spark sql,...

advanced apache spark meetup data sources api cassandra...

a guide to stress testing kafka, spark and cassandra … ·...

big data analytics with spark & cassandra