big data-driven applications with cassandra and spark

Big Data-Driven Applications

with Cassandra and Spark

Artem Chebotko, Ph.D.

Solution Architect

1 Modern Big Data and Cloud Applications

2 Cassandra and Spark Highlights

3 Architecture Overview

4 Languages and APIs

5 Live Demo

Modern Application Requirements

• Numerous Endpoints

• Geographically Distributed

• Continuously Available

• Instantaneously Responsive

• Immediately Decisive

• Predictably Scalable

Applications by Response Time and Workload

Analytical (OLAP)Operational (OLTP)

Real-time transactions

• Web and IoT apps

• Financial transactions

Real-time analytics

• Recommendations

Real-time analytics

Streaming analytics

• Recommendations

• Fraud prevention

Real-time analytics

Streaming analytics

Batch analytics

• Recommendations

• Predictive models

• Fraud detection

Roles of Cassandra and Spark

Real-time analytics

Streaming analytics

Batch analytics

• Recommendations

• Predictive models

• Fraud detection

Numerous Endpoints

Geographically Distributed

Continuously Available

Instantaneously Responsive

Immediately Decisive

Predictably Scalable

5 Live Demo

Cassandra – Operational Database

• Millions of concurrent users

• Millisecond response time

• Linear scalability

• Always on

Cassandra – Operational Database

Spark – Analytics Platform

• Real-time, streaming and batch analytics

• Up to 100x faster than Hadoop

• Scalability, fault-resilience

• Versatile and rich API

Spark – Analytics Platform

SQL Streaming MLlib GraphX

Cluster Manager

Standalone YARN Mesos

Spark-Cassandra Connector

Open-Source Package for Spark

• Routine Spark-Cassandra interactions

– Read from and write into Cassandra

• Profound optimizations

– Predicate pushdown

– Data locality

– Cassandra-optimized joins

– Cassandra-aware partitioning

– Shuffle-free grouping

5 Live Demo

C*: Distributed, Shared Nothing, Peer-to-Peer

C* Client

+263-1

Driver

C* Client Driver

transaction

C*: Partitioning and Replication

replica 2

replica 1

replica 3

coordinatorpartitioner

partition

write request

acknowledgment

CL=QUORUM

C*: Partitioning and Replication

replica 2

replica 1

replica 3

partition

result

CL=ONE

coordinatorpartitioner

read request

Spark: Master-Worker, Failover Masters

ClientDriver

Master

Worker

SparkContext

ClientDriver

SparkContextWorker

Worker

Executor Executor

Spark: Computation Scheduling

Driver

SparkContextDAG Job 0

Stage 1

task task

Stage 0

task task

Stage 2

task task

Stage 4

task task

Stage 3

task task

Stage 5

task task

Executor

Master WorkerExecutor

Executor

WorkerExecutor

Executor

Spark-Cassandra

Connector

WorkerExecutor

Executor

Spark-Cassandra

Connector

Master WorkerExecutor

Executor

WorkerExecutor

Executor

Spark-Cassandra

Connector

WorkerExecutor

Executor

Spark-Cassandra

Connector

Spark NodeMaster JVM

Connector.jar

Worker JVMExecutor JVM

Executor JVM

C* NodeC* JVM

Multi-DC Deployment and Workload Separation

C* Client Driver Spark

ClientDriver

SparkContextC* Client Driver

Master

WorkerExecutor

WorkerWorkerC*

Executor

ExecutorExecutor Executor

Executor

Replication

C* Client Driver

ClientDriver

SparkContext

real-time

transactions

interactive and

batch analytics

Operations

Analytics

5 Live Demo

Getting Started with Cassandra and Spark Applications

• Data Model and Cassandra Query Language

• Core Spark and Spark-Cassandra Connector

Keyspace and Replication

CREATE KEYSPACE iot

WITH replication = {'class': 'NetworkTopologyStrategy',

'DC-Kyiv-Operations' : 3,

'DC-Houston-Analytics': 2};

USE iot;

Table with Single-Row Partitions

username age address

Alice 28 Santa Clara, CA

Alex 37 Austin, TX

users CREATE TABLE users (

username TEXT,

age INT,

address TEXT,

PRIMARY KEY(username)

SELECT * FROM users

WHERE username = ?;

Table with Single-Row Partitions

id type settings owner

1 phone {gps ⇒ on,

pedometer ⇒ on}

2 wristband {heart rate ⇒ on, …} Alice

3 thermostat {temp ⇒ 75, …} Alice

4 security {…} Alex

5 phone {…} Alex

sensors CREATE TABLE sensors (

id INT,

type TEXT,

settings MAP<TEXT,TEXT>,

owner TEXT,

PRIMARY KEY(id)

SELECT * FROM sensors

WHERE id = ?;

Table with Multi-Row Partitions

username id type settings age address

Alice 1 phone {gps ⇒ on, …} 28 Santa Clara, CA

Alice 2 wristband {heart rate ⇒ on, …} 28 Santa Clara, CA

Alice 3 thermostat {temp ⇒ 75, …} 28 Santa Clara, CA

Alex 4 security … 37 Austin, TX

Alex 5 phone … 37 Austin, TX

sensors_by_user

Table with Multi-Row Partitions

CREATE TABLE sensors_by_user (

username TEXT, age INT STATIC, address TEXT STATIC,

id INT, type TEXT, settings MAP<TEXT,TEXT>,

PRIMARY KEY(username, id)

) WITH CLUSTERING ORDER BY (id ASC);

SELECT * FROM sensors_by_user WHERE username = ?;

SELECT * FROM sensors_by_user WHERE username = ? AND id = ?;

SELECT * FROM sensors_by_user WHERE username = ? AND id > ?

ORDER BY id DESC;

Retrieving Data from C*

• SparkContext, RDD, Connector

val rdd = sc.cassandraTable("iot","sensors_by_user")

.select("username","id","type")

Predicate Pushdown

sc.cassandraTable("iot","sensors_by_user")

.filter(row => row.getString("username") == "Alice")

• Suboptimal code

Predicate Pushdown

.filter(row => row.getString("username") == "Alice")

.where("username = 'Alice'")

• Predicate pushed down to C*

Data Locality

input.split.size_in_mb input.consistency.level input.fetch.size_in_rows

Cassandra Spark

(64) (LOCAL_ONE) (1000)

• Standard Spark join = shuffle + shuffle

Cassandra-Optimized Joins

val s = sc.cassandraTable("iot","sensors")

.keyBy(row => row.getString("owner"))

val u = sc.cassandraTable("iot","users")

.keyBy(row => row.getString("username"))

s.join(u)

• Shuffle

Partition 1

Map Task

Partition A

Reduce Task

Partition 2

Map Task

Partition B

Reduce Task

Partition 3

Map Task

Partition D

Reduce Task

Partition C

Reduce Task

Buckets:

memory

Shuffle write

Shuffle read

Aggregation Aggregation Aggregation

Aggregation AggregationAggregationAggregation

• Connector join = no shuffle + no data locality

sc.cassandraTable("iot","sensors")

.select("id","type","owner".as("username"))

.joinWithCassandraTable("iot","users")

.on(SomeColumns("username"))

id type owner

username

1 … Alice

4 … Alex

3 ... Alice

2 … Alice

5 … Alexusername age address

Alex 37 …

Alice 28 …

• Connector join + CAP = shuffle + data locality

Cassandra-Aware Partitioning

sc.cassandraTable("iot","sensors")

.select("id","type","owner".as("username"))

.repartitionByCassandraReplica("iot","users")

.joinWithCassandraTable("iot","users")

.on(SomeColumns("username"))

Cassandra-Aware Partitioning

id type owner

username

1 … Alice

2 … Alice

3 ... Alice

Alex 37 …

Alice 28 …

id type owner

username

4 … Alex

5 … Alex

• Suboptimal code

Shuffle-Free Grouping

.as((u:String,i:Int,t:String)=>(u,(i,t)))

.groupByKey

• Shuffling eliminated at no extra cost

Shuffle-Free Grouping

.as((u:String,i:Int,t:String)=>(u,(i,t)))

.groupByKeyspanByKey

Saving Data to C*

rdd.saveToCassandra("iot","users",

SomeColumns("username", "age"))

output.consistency.level (LOCAL_QUORUM)

output.batch.grouping.key (Partition)

output.batch.size.bytes (1024)

output.batch.grouping.buffer.size (1000)

output.concurrent.writes (5)

5 Live Demo

Artem Chebotko

achebotko@datastax.com

www.linkedin.com/in/artemchebotko

big data-driven applications with cassandra and spark

Documents

stratiodeep: an integration layer between spark and...

chapter 1: an introduction to smack...chapter 7: study case...

spark/cassandra integration theory & practicedoanduyhai...

cassandra spark integration - university of southern...

spark/cassandra integration theory & practice

manchester hadoop meetup: cassandra spark internals

performance analysis of spark using k-means · like...

cassandra summit 2014: interactive olap queries using apache...

analytics with cassandra, spark & mllib - cassandra...

big data analytics with spark & cassandra

data driven performance repository to classify and ... ·...

introduction to cassandra • why spark + cassandra ... ·...

announcing spark driver for cassandra

spark with cassandra by christopher batey

munich march 2015 - cassandra + spark overview

analytics with cassandra & spark

intro to py spark (and cassandra)

advanced apache spark meetup data sources api cassandra...

cassandra and spark

spark cassandra integration 2016