deepgreen db: 性能优化、开发方向
TRANSCRIPT
![Page 1: DeepGreen DB: 性能优化、开发方向](https://reader030.vdocuments.us/reader030/viewer/2022012017/615b6c08a37c523b397b8bf1/html5/thumbnails/1.jpg)
Postgres Conference China 2016 中国用户大会Postgres Conference China 2016 中国用户大会
DeepGreen DB: 性能优化、开发方向
CK Tan
Vitesse Data, Inc. 201
6Pos
tgre
s中国
用户
大会
![Page 2: DeepGreen DB: 性能优化、开发方向](https://reader030.vdocuments.us/reader030/viewer/2022012017/615b6c08a37c523b397b8bf1/html5/thumbnails/2.jpg)
Postgres Conference China 2016 中国用户大会 2
016P
ostg
res中
国用
户大
会
![Page 3: DeepGreen DB: 性能优化、开发方向](https://reader030.vdocuments.us/reader030/viewer/2022012017/615b6c08a37c523b397b8bf1/html5/thumbnails/3.jpg)
Postgres Conference China 2016 中国用户大会 2
016P
ostg
res中
国用
户大
会
![Page 4: DeepGreen DB: 性能优化、开发方向](https://reader030.vdocuments.us/reader030/viewer/2022012017/615b6c08a37c523b397b8bf1/html5/thumbnails/4.jpg)
Postgres Conference China 2016 中国用户大会 2
016P
ostg
res中
国用
户大
会
![Page 5: DeepGreen DB: 性能优化、开发方向](https://reader030.vdocuments.us/reader030/viewer/2022012017/615b6c08a37c523b397b8bf1/html5/thumbnails/5.jpg)
Postgres Conference China 2016 中国用户大会 2
016P
ostg
res中
国用
户大
会
![Page 6: DeepGreen DB: 性能优化、开发方向](https://reader030.vdocuments.us/reader030/viewer/2022012017/615b6c08a37c523b397b8bf1/html5/thumbnails/6.jpg)
Postgres Conference China 2016 中国用户大会 2
016P
ostg
res中
国用
户大
会
![Page 7: DeepGreen DB: 性能优化、开发方向](https://reader030.vdocuments.us/reader030/viewer/2022012017/615b6c08a37c523b397b8bf1/html5/thumbnails/7.jpg)
Postgres Conference China 2016 中国用户大会
创始人
• CK Tan • 田丰
– 美国威斯康星大学硕士/博士、数据库系
– 原 Greenplum Database 团队 2006-2009• gpfdist, external table, column store, executor opt,
storage opt, gpmon, hashagg opt, etc. 201
6Pos
tgre
s中国
用户
大会
![Page 8: DeepGreen DB: 性能优化、开发方向](https://reader030.vdocuments.us/reader030/viewer/2022012017/615b6c08a37c523b397b8bf1/html5/thumbnails/8.jpg)
Postgres Conference China 2016 中国用户大会 2
016P
ostg
res中
国用
户大
会
![Page 9: DeepGreen DB: 性能优化、开发方向](https://reader030.vdocuments.us/reader030/viewer/2022012017/615b6c08a37c523b397b8bf1/html5/thumbnails/9.jpg)
Postgres Conference China 2016 中国用户大会
MPP 起源:威斯康星大学
• Gamma Database Machine, 1985-1990• 20 VAX 11/750• 32 intel iPSC/2
201
6Pos
tgre
s中国
用户
大会
![Page 10: DeepGreen DB: 性能优化、开发方向](https://reader030.vdocuments.us/reader030/viewer/2022012017/615b6c08a37c523b397b8bf1/html5/thumbnails/10.jpg)
Postgres Conference China 2016 中国用户大会 2
016P
ostg
res中
国用
户大
会
![Page 11: DeepGreen DB: 性能优化、开发方向](https://reader030.vdocuments.us/reader030/viewer/2022012017/615b6c08a37c523b397b8bf1/html5/thumbnails/11.jpg)
Postgres Conference China 2016 中国用户大会
Gamma1990
201
6Pos
tgre
s中国
用户
大会
![Page 12: DeepGreen DB: 性能优化、开发方向](https://reader030.vdocuments.us/reader030/viewer/2022012017/615b6c08a37c523b397b8bf1/html5/thumbnails/12.jpg)
Postgres Conference China 2016 中国用户大会
GPDB 2008
201
6Pos
tgre
s中国
用户
大会
![Page 13: DeepGreen DB: 性能优化、开发方向](https://reader030.vdocuments.us/reader030/viewer/2022012017/615b6c08a37c523b397b8bf1/html5/thumbnails/13.jpg)
Postgres Conference China 2016 中国用户大会
万变不离其宗
201
6Pos
tgre
s中国
用户
大会
![Page 14: DeepGreen DB: 性能优化、开发方向](https://reader030.vdocuments.us/reader030/viewer/2022012017/615b6c08a37c523b397b8bf1/html5/thumbnails/14.jpg)
Postgres Conference China 2016 中国用户大会
Vitesse Data 简介
• 成立于 9月2014• 产品
• vitesse db 9.3, 9.4, 9.5• deepgreen db, loft, xdrive
• 产品发布:30+ 次
201
6Pos
tgre
s中国
用户
大会
![Page 15: DeepGreen DB: 性能优化、开发方向](https://reader030.vdocuments.us/reader030/viewer/2022012017/615b6c08a37c523b397b8bf1/html5/thumbnails/15.jpg)
Postgres Conference China 2016 中国用户大会 2
016P
ostg
res中
国用
户大
会
![Page 16: DeepGreen DB: 性能优化、开发方向](https://reader030.vdocuments.us/reader030/viewer/2022012017/615b6c08a37c523b397b8bf1/html5/thumbnails/16.jpg)
Postgres Conference China 2016 中国用户大会
性能优化
• LLVM JIT• Hash table• Spill Framework• Planner • CSV Parser - SIMD• lz4, zstd 压缩
• approx count distinct 201
6Pos
tgre
s中国
用户
大会
![Page 17: DeepGreen DB: 性能优化、开发方向](https://reader030.vdocuments.us/reader030/viewer/2022012017/615b6c08a37c523b397b8bf1/html5/thumbnails/17.jpg)
Postgres Conference China 2016 中国用户大会
LLVM JIT 黑技术
201
6Pos
tgre
s中国
用户
大会
![Page 18: DeepGreen DB: 性能优化、开发方向](https://reader030.vdocuments.us/reader030/viewer/2022012017/615b6c08a37c523b397b8bf1/html5/thumbnails/18.jpg)
Postgres Conference China 2016 中国用户大会
此 JIT 非彼 JIT
Just-in-time compilation of query plan• 将整个咨询转换成一个汇编语言程式
• 有效去除 x86 执行器与内存的摩擦
LLVM 只是工具。用法不同,效果各异。
shipping since … 3/2015
201
6Pos
tgre
s中国
用户
大会
![Page 19: DeepGreen DB: 性能优化、开发方向](https://reader030.vdocuments.us/reader030/viewer/2022012017/615b6c08a37c523b397b8bf1/html5/thumbnails/19.jpg)
Postgres Conference China 2016 中国用户大会
TPCH 10g
0.
12.5
25.
37.5
50.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
Greenplum DeepGreen
201
6Pos
tgre
s中国
用户
大会
![Page 20: DeepGreen DB: 性能优化、开发方向](https://reader030.vdocuments.us/reader030/viewer/2022012017/615b6c08a37c523b397b8bf1/html5/thumbnails/20.jpg)
Postgres Conference China 2016 中国用户大会
TPCH Q1
17.1
3.2
0 4.5 9 13.5 18
Greenplum
Deep Green
Q1 runtime in seconds (lower is better)
5.5X Faster
201
6Pos
tgre
s中国
用户
大会
![Page 21: DeepGreen DB: 性能优化、开发方向](https://reader030.vdocuments.us/reader030/viewer/2022012017/615b6c08a37c523b397b8bf1/html5/thumbnails/21.jpg)
Postgres Conference China 2016 中国用户大会
TPCH Q5
7.2
2.1
0 2 4 6 8
Greenplum
Deep Green
Q5 runtime in seconds (lower is better)
3.4X Faster
201
6Pos
tgre
s中国
用户
大会
![Page 22: DeepGreen DB: 性能优化、开发方向](https://reader030.vdocuments.us/reader030/viewer/2022012017/615b6c08a37c523b397b8bf1/html5/thumbnails/22.jpg)
Postgres Conference China 2016 中国用户大会
请别如此对待您的x86
201
6Pos
tgre
s中国
用户
大会
![Page 23: DeepGreen DB: 性能优化、开发方向](https://reader030.vdocuments.us/reader030/viewer/2022012017/615b6c08a37c523b397b8bf1/html5/thumbnails/23.jpg)
Postgres Conference China 2016 中国用户大会
CSV 解析器
• 已完成 SIMD: parse 8 bytes at a time.• 比 GPDB CSV parser 大约快 2 倍。
• 开发中 AVX-512: parse 64 bytes at a time• 估计可比现在加速至少 2 倍。
201
6Pos
tgre
s中国
用户
大会
![Page 24: DeepGreen DB: 性能优化、开发方向](https://reader030.vdocuments.us/reader030/viewer/2022012017/615b6c08a37c523b397b8bf1/html5/thumbnails/24.jpg)
Postgres Conference China 2016 中国用户大会
压缩器:lz4, zstd, zlib
压缩率 压缩时间 解压缩时间
memcpy 1.00 4200 MB/s 4200 MB/s
lz4 1.61 690 MB/s 2220 MB/s
zstd 2.88 240 MB/s 620 MB/s
zlib ‐1 2.73 59 MB/s 250 MB/s
10倍 10倍
2倍4倍
201
6Pos
tgre
s中国
用户
大会
![Page 25: DeepGreen DB: 性能优化、开发方向](https://reader030.vdocuments.us/reader030/viewer/2022012017/615b6c08a37c523b397b8bf1/html5/thumbnails/25.jpg)
Postgres Conference China 2016 中国用户大会
Approximate count distinct
select count(distinct url) from page_view;– 必须记住每一个URL - 非常耗内存。
select approximate_count_distinct(url) from page_view;
– hyper log log algorithm– 1% 错误,但快 3 倍。 2
016P
ostg
res中
国用
户大
会
![Page 26: DeepGreen DB: 性能优化、开发方向](https://reader030.vdocuments.us/reader030/viewer/2022012017/615b6c08a37c523b397b8bf1/html5/thumbnails/26.jpg)
Postgres Conference China 2016 中国用户大会 2
016P
ostg
res中
国用
户大
会
![Page 27: DeepGreen DB: 性能优化、开发方向](https://reader030.vdocuments.us/reader030/viewer/2022012017/615b6c08a37c523b397b8bf1/html5/thumbnails/27.jpg)
Postgres Conference China 2016 中国用户大会
xdrive
理解
• gpfdist for Hadoop• DeepGreen DB 上加了 HAWQ 功能
高扩展性
• HDFS, S3, Hive• NFS, Ceph FS• Local FS 2
016P
ostg
res中
国用
户大
会
![Page 28: DeepGreen DB: 性能优化、开发方向](https://reader030.vdocuments.us/reader030/viewer/2022012017/615b6c08a37c523b397b8bf1/html5/thumbnails/28.jpg)
Postgres Conference China 2016 中国用户大会
xdrive: 灵活、便捷
• 只需一个配置文件
• 可以在任何地方灵活运行
• 可以连接多个 NFS, Hadoop, S3 等系统
• 可以转换多种文件 csv, parquet, spq, orc• 嵌入 DeepGreen. 服务 Spark.
201
6Pos
tgre
s中国
用户
大会
![Page 29: DeepGreen DB: 性能优化、开发方向](https://reader030.vdocuments.us/reader030/viewer/2022012017/615b6c08a37c523b397b8bf1/html5/thumbnails/29.jpg)
Postgres Conference China 2016 中国用户大会
master
mastermirror
xdriveslave hadoophadoop
xdriveslave
xdriveslave
xdriveslave
hadoophadoop
hadoophadoop
201
6Pos
tgre
s中国
用户
大会
![Page 30: DeepGreen DB: 性能优化、开发方向](https://reader030.vdocuments.us/reader030/viewer/2022012017/615b6c08a37c523b397b8bf1/html5/thumbnails/30.jpg)
Postgres Conference China 2016 中国用户大会
master
mastermirror
xdriveslave
xdriveslave
xdriveslave
xdriveslave
201
6Pos
tgre
s中国
用户
大会
![Page 31: DeepGreen DB: 性能优化、开发方向](https://reader030.vdocuments.us/reader030/viewer/2022012017/615b6c08a37c523b397b8bf1/html5/thumbnails/31.jpg)
Postgres Conference China 2016 中国用户大会
xdrive: 性能
0.
15.
30.
45.
60.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
Greenplum vs DeepGreen vs DeepGreen + XDrive Local
Greenplum DeepGreen Xdrive Local
201
6Pos
tgre
s中国
用户
大会
![Page 32: DeepGreen DB: 性能优化、开发方向](https://reader030.vdocuments.us/reader030/viewer/2022012017/615b6c08a37c523b397b8bf1/html5/thumbnails/32.jpg)
Postgres Conference China 2016 中国用户大会
xdrive: 性能 [2]
• xdrive 外表性能远高于 GPDB 外表
• xdrive 外表性能高于 GPDB 内建的 Heap表• xdrive 外表性能略低于 DeepGreen 内建的
Heap表• 主要是数据从 HDFS 读出
201
6Pos
tgre
s中国
用户
大会
![Page 33: DeepGreen DB: 性能优化、开发方向](https://reader030.vdocuments.us/reader030/viewer/2022012017/615b6c08a37c523b397b8bf1/html5/thumbnails/33.jpg)
Postgres Conference China 2016 中国用户大会
xdrive: 双活
企业里的两派人马
• SQL 组• spark / hive
• 通过 xdrive• 共享原数据
• 共享分析结果
201
6Pos
tgre
s中国
用户
大会
![Page 34: DeepGreen DB: 性能优化、开发方向](https://reader030.vdocuments.us/reader030/viewer/2022012017/615b6c08a37c523b397b8bf1/html5/thumbnails/34.jpg)
Postgres Conference China 2016 中国用户大会
xdrive: Data Mart
• EDW 太贵或太忙
• 各个部门有不同的需求
• 不同数据
• 不同新鲜度
• 不同用户群
• 复制数个 data mart 可大量减轻 EDW 负荷
201
6Pos
tgre
s中国
用户
大会
![Page 35: DeepGreen DB: 性能优化、开发方向](https://reader030.vdocuments.us/reader030/viewer/2022012017/615b6c08a37c523b397b8bf1/html5/thumbnails/35.jpg)
Postgres Conference China 2016 中国用户大会
xdrive: Data Mart
201
6Pos
tgre
s中国
用户
大会
![Page 36: DeepGreen DB: 性能优化、开发方向](https://reader030.vdocuments.us/reader030/viewer/2022012017/615b6c08a37c523b397b8bf1/html5/thumbnails/36.jpg)
Postgres Conference China 2016 中国用户大会 2
016P
ostg
res中
国用
户大
会
![Page 37: DeepGreen DB: 性能优化、开发方向](https://reader030.vdocuments.us/reader030/viewer/2022012017/615b6c08a37c523b397b8bf1/html5/thumbnails/37.jpg)
Postgres Conference China 2016 中国用户大会
DeepGreen DB + Zabbix 监控
201
6Pos
tgre
s中国
用户
大会
![Page 38: DeepGreen DB: 性能优化、开发方向](https://reader030.vdocuments.us/reader030/viewer/2022012017/615b6c08a37c523b397b8bf1/html5/thumbnails/38.jpg)
Postgres Conference China 2016 中国用户大会
DeepGreen 2017 开发方向
• xdrive plugin• session query monitor• new utilities with local agent (in GO)• new interconnect with local hub• GPU
201
6Pos
tgre
s中国
用户
大会
![Page 39: DeepGreen DB: 性能优化、开发方向](https://reader030.vdocuments.us/reader030/viewer/2022012017/615b6c08a37c523b397b8bf1/html5/thumbnails/39.jpg)
Postgres Conference China 2016 中国用户大会
颠覆性的 PG 9.6
• 一年一版 = GPDB 永远落后 PG 十年
• 必须考虑非常手段
• multiple backend• 足以完全改变 GPDB 的进程架构。
• 针对 GPDB 的 SLICE,改成 co-backend.• 针对 GPDB 的镜子,改成 pg standby.
• 其他 201
6Pos
tgre
s中国
用户
大会
![Page 40: DeepGreen DB: 性能优化、开发方向](https://reader030.vdocuments.us/reader030/viewer/2022012017/615b6c08a37c523b397b8bf1/html5/thumbnails/40.jpg)
Postgres Conference China 2016 中国用户大会Postgres Conference China 2016 中国用户大会
Thanks!Q & A
201
6Pos
tgre
s中国
用户
大会