Cb AI GP
►
►
► v
► o
► BXIZS
► AMLQ
► G MMXMZ
► I SI
1OM LI
►
►
► v
► o
► BXIZS
► AMLQ
► G MMXMZ
► I SI
1OM LI
►
► 4Vi (Volume)g (Velocity)g (Variety)g (Value)
► Wikipediai
*
P X -##M _QSQXMLQI ZO#_QSQ#2QOHLI I
►
► + f q …)
► TataUFO h
► h
►
►
► v
► o
► BXIZS
► AMLQ
► G MMXMZ
► I SI
1OM LI
►► m
► l
► (Splittable)► XML, JSON (x)
► CSV, JSON , Avro, Parquet
► (Block Compressable)► CSV, JSON (x)
► Avro, Parquet
►
►
► v
► o
► BXIZS
► AMLQ
► G MMXMZ
► I SI
1OM LI
Alluxio
Batch Processing
Real Time Processing
Cassandra, MongoDB, Redis, MySQL, ElasticSearch/solr
Reporting, Visualization (Tableau, Zepplin, Hue…)
Storm/Heron
Spark Streaming
Flink
Spark
MapReduce
HDFS / Hbase / Object Storage
IaaS
MonitoringAlarm
MeteringSecurity
Governance(ZooKeeper)
LogsMetricsSocial Data
Sensor Data
Messages
Kafka/Flume
Big SQL
SparkSQL
Phoenix
Hive
Kylin
GreenPlum
►
►
► v
► o
► BXIZS
► AMLQ
► G MMXMZ
► I SI
1OM LI
o
►
►
► | API | | Auto Scaling
►
► |
► o
► g
► g
► r
Don’t try to do it yourself. Let us handle it.
Hadoop on Cloud
► 3r
► l 3r j
► j
SQL on Cloud
► HashData QingCloud l SQL-on-Cloud
g r PB
► |PostgreSQL Greenplum Database, HashData
SQL BI
►
►
► IO – SDN 2.0 ( )
► IO – gUnikernelg IaaS
►
►
► v
► o
► BXIZS
► AMLQ
► G MMXMZ
► I SI
1OM LI
► r
► =IXAML KM n |
► =IXAML KM f
► | g
► g
► 1 P :I I BKITI I L B <
► t
► r
► gp z |
► 8IL X
1XIKPM BXIZS
Hadoop HDFS
► BXIZS 3 ZM-
I S KPML TQ O UMU Z UI IOMUM I T
ZMK MZ Q MZIK Q O _Q P
ZIOM MU I L U ZM
8 UM PM 1 PI LM Q M ZM QTQM
LQ ZQJ ML LI I M A44 _PQKP IZM BXIZSd
UIQ XZ OZIUUQ O IJ ZIK Q
A44 ZMXZM M I K TTMK Q Q MU LQ ZQJ ML
IKZ UI K UX M
LM PI KI JM UI QX TI ML Q XIZITTMT
BXIZS
BXIZS
► v lg JQ # IZ ITT P
►► K # XIZS M P
► K # TI M
► K # XIZS LM I T K
►► P X-##. XIZS UI MZ 0-, ,
► P X-##. XIZS LZQ MZ 0-( (
► 4ZQ MZl R J PQ Z MZ MZgP X -##L K YQ OKT L K U#O QLM# XIZS P UT R J PQ Z
BXIZS
► PMTT
► #JQ # XIZS PMTT UI MZ XIZS -##. XIZS UI MZ QX0-
► B 1A H5E53DC>AH=5=>AF/ O #JQ # XIZS PMTT UI MZ XIZS -##. XIZS
UI MZ QX0-
► #JQ #X XIZS UI MZ XIZS -##. XIZS UI MZ QX0-
► _ ZL K IUXTM
BXIZS
Spark RDD
► Resilient Distributed Dataset
► An immutable distributed collection of
objects
P X -##LI IUQaM _ ZLXZM K U# )# # ,# Q ITQaQ O JI QK ZLL XMZI Q PZ OP _ ZLK Q X XIZS#
with word count sample
Spark RDD
P X-##___ QK T K U#IZ QKTM #D: *
with word count sample using HDFS
Spark RDD
► transformations and actions
► lazy fashion – DAG (Directed Acyclic
Graph)
► map(), filter(), flatmap()
Spark RDD
► persist() RDD persist
► errorsRDD = inputRDD.filter(lambda x: "error" in x)
warningsRDD = inputRDD.filter(lambda x: "warning" in x)
badLinesRDD = errorsRDD.union(warningsRDD)
► persist g persist
► persist(StorageLevel.DISK_ONLY)
► collect() n lg HDFS
Spark
► driver program
► main g yRDDg SparkContext
► shell driver program (sc )
► Standalone, Yarn, Mesos
Spark
► bin/spark-submit --class org.apache.spark.examples.SparkPi --master
spark://skn-im9crqkd-spark-master:7077
--executor-memory 1G
--total-executor-cores 3
/usr/local/spark/lib/spark-examples-1.6.0-hadoop2.6.0.jar 1000
► http://spark.apache.org/docs/latest/submitting-applications.html
Spark SQL
► g g JSON, Hive, Parquet
► 4I I6 ZIUM c A42=B IJTM
► 4I I M c
► Can be created from external data sources, from the results of queries, or from
regular RDDs
http://www.agildata.com/apache-spark-rdd-vs-dataframe-vs-dataset/
Spark Streaming►
Spark Streaming►
Spark Streaming - _ ZL K► 1 inc -lk 9999
► 2 ibin/spark-submitexamples/src/main/python/streaming/network_wordcount.py192.168.100.99999
Spark Streaming - _ ZL K► DiscretizedStream(DStream)– RDD
Spark MLlib► iK-means z
► i r Dg s r nr g
D kr g r z
g n s r r
Spark MLlib► iK-means z
►
►
► v
► o
► BXIZS
► AMLQ
► G MMXMZ
► I SI
1OM LI
► Redis
► Redis o
► Redis
Redis
Redis
► NoSQL g g s
► w aof, rdb
► t set, list, hash, string, sorted set
►
► Redis v.s. Memcached
Redis
► Standalone
► vg v
► Sentinel
► Cluster
► v 0 g v
► kvfkr )
Redis
► 1000 r g
► proxyg r r
► 16384 hash slots r l
► r key hash slotg r l
► HASH_SLOT = CRC16(key) mod 16384
► g
Redis
► redis-trib.rb
► ./redis-trib.rb create --replicas 1
► 192.168.1.2:6379 192.168.1.3:6379 192.168.1.4:6379 192.168.2.2:6379 192.168.2.3:6379
192.168.2.4:6379
►
► ./redis-trib.rb check 192.168.1.3:6379
► https://docs.qingcloud.com/guide/cache.html#id14
Redis
► commons-pool2-2.0.jar jedis-2.7.3.jar
https://docs.qingcloud.com/guide/cache.html#id14
►
►
► v
► o
► BXIZS
► AMLQ
► G MMXMZ
► I SI
1OM LI
► o
►
ZooKeeper
► ZIKM K LQ Q LMILT KS
► G ru g i
► g 7 OTM 3P JJ r
► 8IL X 82I M
► M KL K T
ZooKeeper
► r g l
► r
► | g w ZI IK Q T O IX P
► h a LM
► Nodesandephemeralnodes
► n e
► )r
► r a K O
► JQ #aSBMZ MZ P IZ
► zooKeeper Commands:TheFourLetterWords
► MKP U Z b K T K I T P ,
►
►
► v
► o
► BXIZS
► AMLQ
► G MMXMZ
► I SI
1OM LI
► o
►
►
Kafka
► i o z n r
► I SI r
► I SI MZ MZ XZ L KMZ c , )) ZMK ZL # MK , =2# MK
► | g
https://engineering.linkedin.com/kafka/benchmarking-apache-kafka-2-million-writes-second-three-cheap-machines
Kafka
► . ,
►
► . *
►
► :I I
* -
* -
* - .
Thank [email protected]@yunify.com