how impala works
DESCRIPTION
An Introduction to Cloudera Impala, shows how Impala works, and the internal processing of query of Impala, including architecture, frontend, query compilation, backend, code generation, HDFS-related stuff and performance comparison.TRANSCRIPT
![Page 1: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/1.jpg)
英文标题:40-47pt
副标题:26-30pt
字体颜色:反白
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:35-47pt
字体:黑体
副标题:24-28pt
字体颜色:反白
字体:细黑体
How Impala Works
Yue Chen
http://linkedin.com/in/yuechen2
http://dataera.wordpress.com
![Page 2: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/2.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
What’s Impala?
![Page 3: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/3.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
This is Impala…
![Page 4: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/4.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
Goal of Impala
A general SQL engine for distributed systems,
supporting both OLTP and OLAP.
Interactive (real-time) queries.
Built on top of HDFS and HBase.
Engine is written in C++, fast.
The database execution engine is like that of
massively parallel processing (MPP) databases,
not using MapReduce.
![Page 5: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/5.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
What’s Impala?
In-memory, distributed SQL query engine
(no MapReduce)
Native backend code (C++)
Distributed on HDFS data nodes
![Page 6: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/6.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
What’s Impala?
![Page 7: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/7.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
Why Impala?
![Page 8: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/8.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
FAST!
![Page 9: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/9.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
Why HDFS?
Low cost
Reliability
Easy to scale out
![Page 10: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/10.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
Architecture
![Page 11: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/11.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
Architecture Overview
impalad daemon runs on HDFS nodes
statestored for cluster metadata
(Hive) metastore for database metadata
Queries run on relevant nodes
Data streamed to clients
![Page 12: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/12.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
Architecture Overview
Submit queries via Hue/Beeswax, Thrift
API, CLI, ODBC, JDBC
No fault tolerance (query fails if any
query on any node fails)
Intermediate data never hits disk
![Page 13: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/13.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
statestored
Acts as a cluster monitor
Not a single point of failure
![Page 14: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/14.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
Metadata
Uses Hive metastore
Daemons cache metadata
Can create tables in Hive or Impala
![Page 15: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/15.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
Impala Architecture Summary
impalad
Runs on every node
Handles client requests
Handles query planning & execution
statestored
Provides name service
Metadata distribution
Used for finding data
catalogd
Relays metadata changes to all impalad’s
![Page 16: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/16.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
![Page 17: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/17.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
![Page 18: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/18.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
![Page 19: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/19.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
![Page 20: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/20.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
Impala Architecture: Query Execution Phases
![Page 21: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/21.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
Query Planning: Overview
![Page 22: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/22.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
Impala Partition
Example:
create table census (name string, census_year int) partitioned
by (year int);
insert into census partition (year=2010) values
('Smith',2010),('Jones',2010);
Each partition has its own HDFS directory, and all the
data for that partition is stored in a data file in that
directory
To manually define how to partition the table (e.g., year
mod 5 == 0), we have to create a new column to store the
calculation result and then do the partition
![Page 23: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/23.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
Frontend
![Page 24: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/24.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
Flow of a SQL query
![Page 25: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/25.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
Query Compilation
![Page 26: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/26.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
Query Parsing
![Page 27: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/27.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
Semantic Analysis
![Page 28: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/28.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
Semantic Analysis
![Page 29: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/29.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
Query Planning: Goals
Generates executable plan (“tree” of
operators)
Maximize scan locality using DataNode block metadata
Minimize data movement
Full distribution of operators
Query operators
Scan, HashJoin, HashAggregation, Union, TopN, Exchange
![Page 30: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/30.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
Query Planning: Overview
![Page 31: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/31.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
Query Planning: Single-Node Plan
Four major functions:
1. Parse Tree -> Plan Tree
2. Assigns predicates to lowest plan node
Optimizes join order
Prunes irrelevant columns
![Page 32: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/32.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
Parse Tree → Single-Node Plan Tree
![Page 33: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/33.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
Predicate Assignment & Inference
![Page 34: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/34.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
Join-Order Optimization
Impala only considers left-deep join trees
(Right join input is a table, not another join)
Find cheapest valid join order
Relies heavily on table and column statistics
![Page 35: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/35.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
Invalid Join Orders
![Page 36: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/36.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
Join-Order Optimization
![Page 37: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/37.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
Join-Order Optimization
Impala’s Implementation:
1. Heuristic
Order tables descending by size
Best plan typically has largest table on the left (if
valid)
2. Plan enumeration & costing
Generates all possible join orders starting from a given
left-most table (starting with largest one)
Ignore invalid join orders
Estimates intermediate result sizes (key!)
Chooses plan that minimizes intermediate result sizes
![Page 38: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/38.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
Query Planning: Overview
![Page 39: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/39.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
Query Planning: Distributed Plans
![Page 40: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/40.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
Query Planning: Distributed Plans
![Page 41: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/41.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
Two Types of Hash Joins
Default is BROADCAST (aka Replicated)
Each node ends up with a copy of the right table(s)
Left side, read locally and streamed through local hash join
Good for one large table and multiple small tables
Alternative hash join type is SHUFFLE (aka partitioned)
Right side hashed and shuffled; each node gets 1/N of the data
Left side hashed and shuffled, then streamed through join
Best choice for large_table JOIN large_table
![Page 42: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/42.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
Join Hint
select …
from large_table
join [broadcast] small_table
select …
from large_table
join [shuffle] large_table
![Page 43: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/43.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
Determine Join Type from EXPLAIN
![Page 44: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/44.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
Query Planning: Distributed Plans
![Page 45: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/45.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
HDFS Improvement Motivated by Impala
Exposes HDFS block replica disk location
information
Allows for explicitly co-located block replicas
across files
In-memory caching of hot tables/files
Reduces copies during reading, short-circuit
reads
![Page 46: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/46.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
Disk Location of Block Replica
Problem:
DataNode knows which DataNode blocks are on, not which
disks
Only the DNs are aware of block replica->disk mapping
Impala wants to make sure that separate plan
fragments operate on data on separate disks
Maximizes aggregate available disk throughput
![Page 47: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/47.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
Disk Location of Block Replica
Solution:
Adds new RPC call to DataNode to expose which volumes (disks)
replicas are stored on
During query planning phase, impalad…
Determines all DNs data for query is stored on
Queries these DNs to get volume information
During query execution phase, impalad…
Queues disk reads so that only 1 or 2 reads ever happen to a given disk at
a given time
With this additional information, Impala is able to ensure
disk reads are large, minimizing seeks
![Page 48: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/48.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
Co-located Block Replicas
Problem:
When performing a join, a single impalad may
have to read from both a local file and a
remote file on another DN
Ideally all reads should be done on local
disks (assuming that local read is faster than
remote read)
![Page 49: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/49.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
Co-located Block Replicas
Solution:
Adds features to HDFS to specify that a set of files
should have their replicas placed on the same set of
nodes
Gives Impala more control of data
Can ensure that tables/files which are joined frequently
have their data co-located
Additionally, more fine-grained block placement control
allows for potential improvement in columnar storage
format like Parquet
![Page 50: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/50.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
In-memory Caching
Problem:
Impala queries are IO-bound
Memory is fast and getting cheaper
![Page 51: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/51.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
In-memory Caching
Solution:
Adds facility to HDFS to explicitly read specific HDFS
files into memory
Allows Impala to read data at full memory bandwidth
speed
Gives cluster operator control over which files/tables
are queried frequently and thus could be kept in memory
![Page 52: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/52.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
Short-circuit Reads
Problem:
A typical read in HDFS must be read from disk by
DataNode, copied into DN memory, sent over network,
copied into client buffers.
![Page 53: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/53.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
Short-circuit Reads
Solution:
Reads are performed directly on local files,
using direct buffers
In HDFS, allow for reads to completely bypass
DataNode when client is co-located with block
replica files, avoiding overhead of HDFS API
Reads data directly from disk to client
buffers
![Page 54: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/54.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
![Page 55: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/55.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
Code Generation
![Page 56: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/56.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
Why Code Generation?
![Page 57: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/57.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
Why Code Generation?
SPEED!
![Page 58: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/58.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
Why Code Generation?
Code generation (codegen) lets us use query-
specific information to do less work
Remove conditionals
Propagate constant offsets, pointers, etc.
Inline virtual function calls
![Page 59: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/59.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
![Page 60: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/60.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
![Page 61: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/61.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
![Page 62: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/62.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
![Page 63: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/63.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
User-Defined Functions (UDFs)
Allows users to extend Impala’s functionality
by writing their own functions
e.g. select my_func(c1) from table;
Defined as C++ functions
UDFs can be compiled to LLVM IR with Clang ⇒
inline UDFs
IR can be just-in-time compiled (JIT’d) and
replace the interpreted functions
![Page 64: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/64.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
![Page 65: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/65.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
Performance (Jan 2014)
3TB (TPC-DS scale factor 3,000) across five typical Hadoop DataNodes (dual-
socket, 8-core, 16-thread CPU; 96GB memory; 1Gbps Ethernet; 12 x 2TB disk
drives).
![Page 66: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/66.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
Performance (Jan 2014) 30TB set of TPC-DS data (scale factor 30,000), 20 nodes with 96GB memory per
node
![Page 67: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/67.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
Weaknesses and Limitations
Data is immutable, no updating
Response time is not microsecond
Do not support some operations, like update and delete
No beyond SQL and advanced data structures (buckets,
samples, transforms, arrays, structs, maps, xpath, json)
When broadcast join, smaller table has to fit in aggregate
memory of all executing nodes
No custom storage format
LIMIT required when using ORDER BY
High memory usage
![Page 68: How Impala Works](https://reader033.vdocuments.us/reader033/viewer/2022052216/54bf71674a7959ce088b45be/html5/thumbnails/68.jpg)
http://dataera.wordpress.com http://linkedin.com/in/yuechen2
英文标题:32-35pt
颜色: R153 G0 B0
内部使用字体 :
FrutigerNext LT Medium
外部使用字体 : Arial
中文标题:30-32pt
颜色: R153 G0 B0
字体:黑体
英文正文:20-22pt
子目录 (2-5级) :18pt
颜色:黑色
内部使用字体 :
FrutigerNext LT Regular
外部使用字体 : Arial
中文正文:18-20pt
子目录(2-5级):18pt
颜色:黑色
字体:细黑体
配色参考方案:
建议同一页面
内不超过四种
颜色,以下是
13组配色方案,
同一页面内只
选择一组使用。
(仅供参考)
客户或者合作
伙伴的标志放
在右上角.
References
Cloudera Impala official documentation and slides