三级无码视频,大鸡巴久久久久久久久久久,淫欲5月网,老鸭窝日本天堂中文字幕在线免费观看 ,老鸭窝在线成人免费观看,色五月久久婷婷综合片丁香花,草久在线观看,一级日逼视频

Hive SQL的執(zhí)行計(jì)劃描述SQL實(shí)際執(zhí)行的整體輪廓，通過(guò)執(zhí)行計(jì)劃能了解SQL程序在轉(zhuǎn)換成相應(yīng)計(jì)算引擎的執(zhí)行邏輯，掌握了執(zhí)行邏輯也就能更好地把握程序出現(xiàn)的瓶頸點(diǎn)，從而能夠?qū)崿F(xiàn)更有針對(duì)性的優(yōu)化。可以說(shuō)執(zhí)行計(jì)劃是打開SQL優(yōu)化大門的一把鑰匙。

要想學(xué)SQL執(zhí)行計(jì)劃，就需要學(xué)習(xí)查看執(zhí)行計(jì)劃的命令：explain，在查詢語(yǔ)句的SQL前面加上關(guān)鍵字explain是查看執(zhí)行計(jì)劃的基本方法。

學(xué)會(huì)explain，能夠給我們工作中使用hive帶來(lái)極大的便利！

查看SQL的執(zhí)行計(jì)劃

Hive提供的執(zhí)行計(jì)劃目前可以查看的信息有以下幾種：

explain：查看執(zhí)行計(jì)劃的基本信息；
explain dependency：dependency在explain語(yǔ)句中使用會(huì)產(chǎn)生有關(guān)計(jì)劃中輸入的額外信息。它顯示了輸入的各種屬性；
explain authorization：查看SQL操作相關(guān)權(quán)限的信息；
explain vectorization：查看SQL的向量化描述信息，顯示為什么未對(duì)Map和Reduce進(jìn)行矢量化。從 Hive 2.3.0 開始支持；
explain analyze：用實(shí)際的行數(shù)注釋計(jì)劃。從 Hive 2.2.0 開始支持；
explain cbo：輸出由Calcite優(yōu)化器生成的計(jì)劃。CBO 從 Hive 4.0.0 版本開始支持；
explain locks：這對(duì)于了解系統(tǒng)將獲得哪些鎖以運(yùn)行指定的查詢很有用。LOCKS 從 Hive 3.2.0 開始支持；
explain ast：輸出查詢的抽象語(yǔ)法樹。AST 在 Hive 2.1.0 版本刪除了，存在bug，轉(zhuǎn)儲(chǔ)AST可能會(huì)導(dǎo)致OOM錯(cuò)誤，將在4.0.0版本修復(fù)；
explain extended：加上 extended 可以輸出有關(guān)計(jì)劃的額外信息。這通常是物理信息，例如文件名，這些額外信息對(duì)我們用處不大；

1. explain 的用法

Hive提供了explain命令來(lái)展示一個(gè)查詢的執(zhí)行計(jì)劃，這個(gè)執(zhí)行計(jì)劃對(duì)于我們了解底層原理，Hive 調(diào)優(yōu)，排查數(shù)據(jù)傾斜等很有幫助。

使用語(yǔ)法如下：

explain query;

在 hive cli 中輸入以下命令(hive 2.3.7)：

explain select sum(id) from test1;

得到結(jié)果：

STAGE DEPENDENCIES:
  Stage-1 is a root stage
  Stage-0 depends on stages: Stage-1

STAGE PLANS:
  Stage: Stage-1
    Map Reduce
      Map Operator Tree:
          TableScan
            alias: test1
            Statistics: Num rows: 6 Data size: 75 Basic stats: COMPLETE Column stats: NONE
            Select Operator
              expressions: id (type: int)
              outputColumnNames: id
              Statistics: Num rows: 6 Data size: 75 Basic stats: COMPLETE Column stats: NONE
              Group By Operator
                aggregations: sum(id)
                mode: hash
                outputColumnNames: _col0
                Statistics: Num rows: 1 Data size: 8 Basic stats: COMPLETE Column stats: NONE
                Reduce Output Operator
                  sort order:
                  Statistics: Num rows: 1 Data size: 8 Basic stats: COMPLETE Column stats: NONE
                  value expressions: _col0 (type: bigint)
      Reduce Operator Tree:
        Group By Operator
          aggregations: sum(VALUE._col0)
          mode: mergepartial
          outputColumnNames: _col0
          Statistics: Num rows: 1 Data size: 8 Basic stats: COMPLETE Column stats: NONE
          File Output Operator
            compressed: false
            Statistics: Num rows: 1 Data size: 8 Basic stats: COMPLETE Column stats: NONE
            table:
                input format: org.apache.hadoop.mapred.SequenceFileInputFormat
                output format: org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat
                serde: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe

  Stage: Stage-0
    Fetch Operator
      limit: -1
      Processor Tree:
        ListSink

看完以上內(nèi)容有什么感受，是不是感覺(jué)都看不懂，不要著急，下面將會(huì)詳細(xì)講解每個(gè)參數(shù)，相信你學(xué)完下面的內(nèi)容之后再看 explain 的查詢結(jié)果將游刃有余。

一個(gè)HIVE查詢被轉(zhuǎn)換為一個(gè)由一個(gè)或多個(gè)stage組成的序列（有向無(wú)環(huán)圖DAG）。這些stage可以是MapReduce stage，也可以是負(fù)責(zé)元數(shù)據(jù)存儲(chǔ)的stage，也可以是負(fù)責(zé)文件系統(tǒng)的操作（比如移動(dòng)和重命名）的stage。

我們將上述結(jié)果拆分看，先從最外層開始，包含兩個(gè)大的部分：

stage dependencies：各個(gè)stage之間的依賴性
stage plan：各個(gè)stage的執(zhí)行計(jì)劃

先看第一部分 stage dependencies ，包含兩個(gè) stage，Stage-1 是根stage，說(shuō)明這是開始的stage，Stage-0 依賴 Stage-1，Stage-1執(zhí)行完成后執(zhí)行Stage-0。

再看第二部分 stage plan，里面有一個(gè) Map Reduce，一個(gè)MR的執(zhí)行計(jì)劃分為兩個(gè)部分：

Map Operator Tree：MAP端的執(zhí)行計(jì)劃樹
Reduce Operator Tree：Reduce端的執(zhí)行計(jì)劃樹

這兩個(gè)執(zhí)行計(jì)劃樹里面包含這條sql語(yǔ)句的 operator：

TableScan：表掃描操作，map端第一個(gè)操作肯定是加載表，所以就是表掃描操作，常見(jiàn)的屬性：

alias：表名稱
Statistics：表統(tǒng)計(jì)信息，包含表中數(shù)據(jù)條數(shù)，數(shù)據(jù)大小等

Select Operator：選取操作，常見(jiàn)的屬性：

expressions：需要的字段名稱及字段類型
outputColumnNames：輸出的列名稱
Statistics：表統(tǒng)計(jì)信息，包含表中數(shù)據(jù)條數(shù)，數(shù)據(jù)大小等

Group By Operator：分組聚合操作，常見(jiàn)的屬性：

aggregations：顯示聚合函數(shù)信息
mode：聚合模式，值有 hash：隨機(jī)聚合，就是hash partition；partial：局部聚合；final：最終聚合
keys：分組的字段，如果沒(méi)有分組，則沒(méi)有此字段
outputColumnNames：聚合之后輸出列名
Statistics：表統(tǒng)計(jì)信息，包含分組聚合之后的數(shù)據(jù)條數(shù)，數(shù)據(jù)大小等

Reduce Output Operator：輸出到reduce操作，常見(jiàn)屬性：

sort order：值為空不排序；值為 + 正序排序，值為 - 倒序排序；值為 +- 排序的列為兩列，第一列為正序，第二列為倒序

Filter Operator：過(guò)濾操作，常見(jiàn)的屬性：

predicate：過(guò)濾條件，如sql語(yǔ)句中的where id>=1，則此處顯示(id >= 1)

Map Join Operator：join 操作，常見(jiàn)的屬性：

condition map：join方式，如Inner Join 0 to 1 Left Outer Join0 to 2
keys: join 的條件字段
outputColumnNames：join 完成之后輸出的字段
Statistics：join 完成之后生成的數(shù)據(jù)條數(shù)，大小等

File Output Operator：文件輸出操作，常見(jiàn)的屬性

compressed：是否壓縮
table：表的信息，包含輸入輸出文件格式化方式，序列化方式等

Fetch Operator 客戶端獲取數(shù)據(jù)操作，常見(jiàn)的屬性：

limit，值為 -1 表示不限制條數(shù)，其他值為限制的條數(shù)

2. explain 的使用場(chǎng)景

本節(jié)介紹 explain 能夠?yàn)槲覀冊(cè)谏a(chǎn)實(shí)踐中帶來(lái)哪些便利及解決我們哪些迷惑

案例一：join 語(yǔ)句會(huì)過(guò)濾 null 的值嗎？

現(xiàn)在，我們?cè)趆ive cli 輸入以下查詢計(jì)劃語(yǔ)句

select a.id,b.user_name from test1 a join test2 b on a.id=b.id;

問(wèn)：上面這條 join 語(yǔ)句會(huì)過(guò)濾 id 為 null 的值嗎

執(zhí)行下面語(yǔ)句：

explain select a.id,b.user_name from test1 a join test2 b on a.id=b.id;

我們來(lái)看結(jié)果 (為了適應(yīng)頁(yè)面展示，僅截取了部分輸出信息)：

TableScan
 alias: a
 Statistics: Num rows: 6 Data size: 75 Basic stats: COMPLETE Column stats: NONE
 Filter Operator
    predicate: id is not null (type: boolean)
    Statistics: Num rows: 6 Data size: 75 Basic stats: COMPLETE Column stats: NONE
    Select Operator
        expressions: id (type: int)
        outputColumnNames: _col0
        Statistics: Num rows: 6 Data size: 75 Basic stats: COMPLETE Column stats: NONE
        HashTable Sink Operator
           keys:
             0 _col0 (type: int)
             1 _col0 (type: int)
 ...

從上述結(jié)果可以看到 predicate: id is not null 這樣一行，說(shuō)明 join 時(shí)會(huì)自動(dòng)過(guò)濾掉關(guān)聯(lián)字段為 null 值的情況，但 left join 或 full join 是不會(huì)自動(dòng)過(guò)濾null值的，大家可以自行嘗試下。

案例二：group by 分組語(yǔ)句會(huì)進(jìn)行排序嗎？

看下面這條sql

select id,max(user_name) from test1 group by id;

問(wèn)：group by 分組語(yǔ)句會(huì)進(jìn)行排序嗎

直接來(lái)看 explain 之后結(jié)果 (為了適應(yīng)頁(yè)面展示，僅截取了部分輸出信息)

 TableScan
    alias: test1
    Statistics: Num rows: 9 Data size: 108 Basic stats: COMPLETE Column stats: NONE
    Select Operator
        expressions: id (type: int), user_name (type: string)
        outputColumnNames: id, user_name
        Statistics: Num rows: 9 Data size: 108 Basic stats: COMPLETE Column stats: NONE
        Group By Operator
           aggregations: max(user_name)
           keys: id (type: int)
           mode: hash
           outputColumnNames: _col0, _col1
           Statistics: Num rows: 9 Data size: 108 Basic stats: COMPLETE Column stats: NONE
           Reduce Output Operator
             key expressions: _col0 (type: int)
             sort order: +
             Map-reduce partition columns: _col0 (type: int)
             Statistics: Num rows: 9 Data size: 108 Basic stats: COMPLETE Column stats: NONE
             value expressions: _col1 (type: string)
 ...

我們看 Group By Operator，里面有 keys: id (type: int) 說(shuō)明按照 id 進(jìn)行分組的，再往下看還有 sort order: + ，說(shuō)明是按照 id 字段進(jìn)行正序排序的。

案例三：哪條sql執(zhí)行效率高呢？

觀察兩條sql語(yǔ)句

SELECT
 a.id,
 b.user_name
FROM
 test1 a
JOIN test2 b ON a.id = b.id
WHERE
 a.id > 2;

SELECT
 a.id,
 b.user_name
FROM
 (SELECT * FROM test1 WHERE id > 2) a
JOIN test2 b ON a.id = b.id;

這兩條sql語(yǔ)句輸出的結(jié)果是一樣的，但是哪條sql執(zhí)行效率高呢？

有人說(shuō)第一條sql執(zhí)行效率高，因?yàn)榈诙lsql有子查詢，子查詢會(huì)影響性能；

有人說(shuō)第二條sql執(zhí)行效率高，因?yàn)橄冗^(guò)濾之后，在進(jìn)行join時(shí)的條數(shù)減少了，所以執(zhí)行效率就高了。

到底哪條sql效率高呢，我們直接在sql語(yǔ)句前面加上 explain，看下執(zhí)行計(jì)劃不就知道了嘛！

在第一條sql語(yǔ)句前加上 explain，得到如下結(jié)果

hive (default)> explain select a.id,b.user_name from test1 a join test2 b on a.id=b.id where a.id >2;
OK
Explain
STAGE DEPENDENCIES:
  Stage-4 is a root stage
  Stage-3 depends on stages: Stage-4
  Stage-0 depends on stages: Stage-3

STAGE PLANS:
  Stage: Stage-4
    Map Reduce Local Work
      Alias -> Map Local Tables:
        $hdt$_0:a
          Fetch Operator
            limit: -1
      Alias -> Map Local Operator Tree:
        $hdt$_0:a
          TableScan
            alias: a
            Statistics: Num rows: 6 Data size: 75 Basic stats: COMPLETE Column stats: NONE
            Filter Operator
              predicate: (id > 2) (type: boolean)
              Statistics: Num rows: 2 Data size: 25 Basic stats: COMPLETE Column stats: NONE
              Select Operator
                expressions: id (type: int)
                outputColumnNames: _col0
                Statistics: Num rows: 2 Data size: 25 Basic stats: COMPLETE Column stats: NONE
                HashTable Sink Operator
                  keys:
                    0 _col0 (type: int)
                    1 _col0 (type: int)

  Stage: Stage-3
    Map Reduce
      Map Operator Tree:
          TableScan
            alias: b
            Statistics: Num rows: 6 Data size: 75 Basic stats: COMPLETE Column stats: NONE
            Filter Operator
              predicate: (id > 2) (type: boolean)
              Statistics: Num rows: 2 Data size: 25 Basic stats: COMPLETE Column stats: NONE
              Select Operator
                expressions: id (type: int), user_name (type: string)
                outputColumnNames: _col0, _col1
                Statistics: Num rows: 2 Data size: 25 Basic stats: COMPLETE Column stats: NONE
                Map Join Operator
                  condition map:
                       Inner Join 0 to 1
                  keys:
                    0 _col0 (type: int)
                    1 _col0 (type: int)
                  outputColumnNames: _col0, _col2
                  Statistics: Num rows: 2 Data size: 27 Basic stats: COMPLETE Column stats: NONE
                  Select Operator
                    expressions: _col0 (type: int), _col2 (type: string)
                    outputColumnNames: _col0, _col1
                    Statistics: Num rows: 2 Data size: 27 Basic stats: COMPLETE Column stats: NONE
                    File Output Operator
                      compressed: false
                      Statistics: Num rows: 2 Data size: 27 Basic stats: COMPLETE Column stats: NONE
                      table:
                          input format: org.apache.hadoop.mapred.SequenceFileInputFormat
                          output format: org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat
                          serde: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe
      Local Work:
        Map Reduce Local Work

  Stage: Stage-0
    Fetch Operator
      limit: -1
      Processor Tree:
        ListSink

在第二條sql語(yǔ)句前加上 explain，得到如下結(jié)果

hive (default)> explain select a.id,b.user_name from(select * from  test1 where id>2 ) a join test2 b on a.id=b.id;
OK
Explain
STAGE DEPENDENCIES:
  Stage-4 is a root stage
  Stage-3 depends on stages: Stage-4
  Stage-0 depends on stages: Stage-3

STAGE PLANS:
  Stage: Stage-4
    Map Reduce Local Work
      Alias -> Map Local Tables:
        $hdt$_0:test1
          Fetch Operator
            limit: -1
      Alias -> Map Local Operator Tree:
        $hdt$_0:test1
          TableScan
            alias: test1
            Statistics: Num rows: 6 Data size: 75 Basic stats: COMPLETE Column stats: NONE
            Filter Operator
              predicate: (id > 2) (type: boolean)
              Statistics: Num rows: 2 Data size: 25 Basic stats: COMPLETE Column stats: NONE
              Select Operator
                expressions: id (type: int)
                outputColumnNames: _col0
                Statistics: Num rows: 2 Data size: 25 Basic stats: COMPLETE Column stats: NONE
                HashTable Sink Operator
                  keys:
                    0 _col0 (type: int)
                    1 _col0 (type: int)

  Stage: Stage-3
    Map Reduce
      Map Operator Tree:
          TableScan
            alias: b
            Statistics: Num rows: 6 Data size: 75 Basic stats: COMPLETE Column stats: NONE
            Filter Operator
              predicate: (id > 2) (type: boolean)
              Statistics: Num rows: 2 Data size: 25 Basic stats: COMPLETE Column stats: NONE
              Select Operator
                expressions: id (type: int), user_name (type: string)
                outputColumnNames: _col0, _col1
                Statistics: Num rows: 2 Data size: 25 Basic stats: COMPLETE Column stats: NONE
                Map Join Operator
                  condition map:
                       Inner Join 0 to 1
                  keys:
                    0 _col0 (type: int)
                    1 _col0 (type: int)
                  outputColumnNames: _col0, _col2
                  Statistics: Num rows: 2 Data size: 27 Basic stats: COMPLETE Column stats: NONE
                  Select Operator
                    expressions: _col0 (type: int), _col2 (type: string)
                    outputColumnNames: _col0, _col1
                    Statistics: Num rows: 2 Data size: 27 Basic stats: COMPLETE Column stats: NONE
                    File Output Operator
                      compressed: false
                      Statistics: Num rows: 2 Data size: 27 Basic stats: COMPLETE Column stats: NONE
                      table:
                          input format: org.apache.hadoop.mapred.SequenceFileInputFormat
                          output format: org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat
                          serde: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe
      Local Work:
        Map Reduce Local Work

  Stage: Stage-0
    Fetch Operator
      limit: -1
      Processor Tree:
        ListSink

大家有什么發(fā)現(xiàn)，除了表別名不一樣，其他的執(zhí)行計(jì)劃完全一樣，都是先進(jìn)行 where 條件過(guò)濾，在進(jìn)行 join 條件關(guān)聯(lián)。說(shuō)明 hive 底層會(huì)自動(dòng)幫我們進(jìn)行優(yōu)化，所以這兩條sql語(yǔ)句執(zhí)行效率是一樣的。

以上僅列舉了3個(gè)我們生產(chǎn)中既熟悉又有點(diǎn)迷糊的例子，explain 還有很多其他的用途，如查看stage的依賴情況、排查數(shù)據(jù)傾斜、hive 調(diào)優(yōu)等，小伙伴們可以自行嘗試。

2. explain dependency的用法

explain dependency用于描述一段SQL需要的數(shù)據(jù)來(lái)源，輸出是一個(gè)json格式的數(shù)據(jù)，里面包含以下兩個(gè)部分的內(nèi)容：

input_partitions：描述一段SQL依賴的數(shù)據(jù)來(lái)源表分區(qū)，里面存儲(chǔ)的是分區(qū)名的列表，如果整段SQL包含的所有表都是非分區(qū)表，則顯示為空。
input_tables：描述一段SQL依賴的數(shù)據(jù)來(lái)源表，里面存儲(chǔ)的是Hive表名的列表。

使用explain dependency查看SQL查詢非分區(qū)普通表，在 hive cli 中輸入以下命令：

explain dependency select s_age,count(1) num from student_orc;

得到結(jié)果：

{"input_partitions":[],"input_tables":[{"tablename":"default@student_tb _orc","tabletype":"MANAGED_TABLE"}]}

使用explain dependency查看SQL查詢分區(qū)表，在 hive cli 中輸入以下命令：

explain dependency select s_age,count(1) num from student_orc_partition;

得到結(jié)果：

{"input_partitions":[{"partitionName":"default@student_orc_partition@ part=0"}, 
{"partitionName":"default@student_orc_partition@part=1"}, 
{"partitionName":"default@student_orc_partition@part=2"}, 
{"partitionName":"default@student_orc_partition@part=3"},
{"partitionName":"default@student_orc_partition@part=4"}, 
{"partitionName":"default@student_orc_partition@part=5"},
{"partitionName":"default@student_orc_partition@part=6"},
{"partitionName":"default@student_orc_partition@part=7"},
{"partitionName":"default@student_orc_partition@part=8"},
{"partitionName":"default@student_orc_partition@part=9"}], 
"input_tables":[{"tablename":"default@student_orc_partition", "tabletype":"MANAGED_TABLE"}]

explain dependency的使用場(chǎng)景有兩個(gè)：

場(chǎng)景一：快速排除?？焖倥懦?yàn)樽x取不到相應(yīng)分區(qū)的數(shù)據(jù)而導(dǎo)致任務(wù)數(shù)據(jù)輸出異常。例如，在一個(gè)以天分區(qū)的任務(wù)中，上游任務(wù)因?yàn)樯a(chǎn)過(guò)程不可控因素出現(xiàn)異?；蛘呖张埽瑢?dǎo)致下游任務(wù)引發(fā)異常。通過(guò)這種方式，可以快速查看SQL讀取的分區(qū)是否出現(xiàn)異常。
場(chǎng)景二：理清表的輸入，幫助理解程序的運(yùn)行，特別是有助于理解有多重子查詢，多表連接的依賴輸入。

下面通過(guò)兩個(gè)案例來(lái)看explain dependency的實(shí)際運(yùn)用：

案例一：識(shí)別看似等價(jià)的代碼

對(duì)于剛接觸SQL的程序員，很容易將

select * from a inner join b on a.no=b.no and a.f>1 and a.f<3;

等價(jià)于

select * from a inner join b on a.no=b.no where a.f>1 and a.f<3;

我們可以通過(guò)案例來(lái)查看下它們的區(qū)別：

代碼1：

select 
a.s_no 
from student_orc_partition a 
inner join 
student_orc_partition_only b 
on a.s_no=b.s_no and a.part=b.part and a.part>=1 and a.part<=2;

代碼2：

select 
a.s_no 
from student_orc_partition a 
inner join 
student_orc_partition_only b 
on a.s_no=b.s_no and a.part=b.part 
where a.part>=1 and a.part<=2;

我們看下上述兩段代碼explain dependency的輸出結(jié)果：

代碼1的explain dependency結(jié)果：

{"input_partitions": 
[{"partitionName":"default@student_orc_partition@part=0"}, 
{"partitionName":"default@student_orc_partition@part=1"}, 
{"partitionName":"default@student_orc_partition@part=2"},
{"partitionName":"default@student_orc_partition_only@part=1"}, 
{"partitionName":"default@student_orc_partition_only@part=2"}], 
"input_tables": [{"tablename":"default@student_orc_partition","tabletype":"MANAGED_TABLE"}, {"tablename":"default@student_orc_partition_only","tabletype":"MANAGED_TABLE"}]}

代碼2的explain dependency結(jié)果：

{"input_partitions": 
[{"partitionName":"default@student_orc_partition@part=1"}, 
{"partitionName" : "default@student_orc_partition@part=2"},
{"partitionName" :"default@student_orc_partition_only@part=1"},
{"partitionName":"default@student_orc_partition_only@part=2"}], 
"input_tables": [{"tablename":"default@student_orc_partition","tabletype":"MANAGED_TABLE"}, {"tablename":"default@student_orc_partition_only","tabletype":"MANAGED_TABLE"}]}

通過(guò)上面的輸出結(jié)果可以看到，其實(shí)上述的兩個(gè)SQL并不等價(jià)，代碼1在內(nèi)連接（inner join）中的連接條件（on）中加入非等值的過(guò)濾條件后，并沒(méi)有將內(nèi)連接的左右兩個(gè)表按照過(guò)濾條件進(jìn)行過(guò)濾，內(nèi)連接在執(zhí)行時(shí)會(huì)多讀取part=0的分區(qū)數(shù)據(jù)。而在代碼2中，會(huì)過(guò)濾掉不符合條件的分區(qū)。

案例二：識(shí)別SQL讀取數(shù)據(jù)范圍的差別

代碼1：

explain dependency
select
a.s_no 
from student_orc_partition a 
left join 
student_orc_partition_only b 
on a.s_no=b.s_no and a.part=b.part and b.part>=1 and b.part<=2;

代碼2：

explain dependency 
select 
a.s_no 
from student_orc_partition a 
left join 
student_orc_partition_only b 
on a.s_no=b.s_no and a.part=b.part and a.part>=1 and a.part<=2;

以上兩個(gè)代碼的數(shù)據(jù)讀取范圍是一樣的嗎？答案是不一樣，我們通過(guò)explain dependency來(lái)看下：

代碼1的explain dependency結(jié)果：

{"input_partitions": 
[{"partitionName": "default@student_orc_partition@part=0"}, 
{"partitionName":"default@student_orc_partition@part=1"}, …中間省略7個(gè)分區(qū)
{"partitionName":"default@student_orc_partition@part=9"}, 
{"partitionName":"default@student_orc_partition_only@part=1"}, 
{"partitionName":"default@student_orc_partition_only@part=2"}], 
"input_tables": [{"tablename":"default@student_orc_partition","tabletype":"MANAGED_TABLE"}, {"tablename":"default@student_orc_partition_only","tabletype":"MANAGED_TABLE"}]}

代碼2的explain dependency結(jié)果：

{"input_partitions": 
[{"partitionName":"default@student_orc_partition@part=0"}, 
{"partitionName":"default@student_orc_partition@part=1"}, …中間省略7個(gè)分區(qū) 
{"partitionName":"default@student_orc_partition@part=9"}, 
{"partitionName":"default@student_orc_partition_only@part=0"}, 
{"partitionName":"default@student_orc_partition_only@part=1"}, …中間省略7個(gè)分區(qū) 
{"partitionName":"default@student_orc_partition_only@part=9"}],
"input_tables": [{"tablename":"default@student_orc_partition","tabletype":"MANAGED_TABLE"}, {"tablename":"default@student_orc_partition_only","tabletype":"MANAGED_TABLE"}]}

可以看到，對(duì)左外連接在連接條件中加入非等值過(guò)濾的條件，如果過(guò)濾條件是作用于右表（b表）有起到過(guò)濾的效果，則右表只要掃描兩個(gè)分區(qū)即可，但是左表（a表）會(huì)進(jìn)行全表掃描。如果過(guò)濾條件是針對(duì)左表，則完全沒(méi)有起到過(guò)濾的作用，那么兩個(gè)表將進(jìn)行全表掃描。這時(shí)的情況就如同全外連接一樣都需要對(duì)兩個(gè)數(shù)據(jù)進(jìn)行全表掃描。

在使用過(guò)程中，容易認(rèn)為代碼片段2可以像代碼片段1一樣進(jìn)行數(shù)據(jù)過(guò)濾，通過(guò)查看explain dependency的輸出結(jié)果，可以知道不是如此。

3. explain authorization 的用法

通過(guò)explain authorization可以知道當(dāng)前SQL訪問(wèn)的數(shù)據(jù)來(lái)源（INPUTS）和數(shù)據(jù)輸出（OUTPUTS），以及當(dāng)前Hive的訪問(wèn)用戶（CURRENT_USER）和操作（OPERATION）。

在 hive cli 中輸入以下命令：

explain authorization 
select variance(s_score) from student_tb_orc;

結(jié)果如下：

INPUTS: 
  default@student_tb_orc 
OUTPUTS: 
  hdfs://node01:8020/tmp/hive/hdfs/cbf182a5-8258-4157-9194- 90f1475a3ed5/-mr-10000 
CURRENT_USER: 
  hdfs 
OPERATION: 
  QUERY 
AUTHORIZATION_FAILURES: 
  No privilege 'Select' found for inputs { database:default, table:student_ tb_orc, columnName:s_score}

從上面的信息可知：

上面案例的數(shù)據(jù)來(lái)源是defalut數(shù)據(jù)庫(kù)中的 student_tb_orc表；

數(shù)據(jù)的輸出路徑是hdfs://node01:8020/tmp/hive/hdfs/cbf182a5-8258-4157-9194-90f1475a3ed5/-mr-10000；

當(dāng)前的操作用戶是hdfs，操作是查詢；

觀察上面的信息我們還會(huì)看到AUTHORIZATION_FAILURES信息，提示對(duì)當(dāng)前的輸入沒(méi)有查詢權(quán)限，但如果運(yùn)行上面的SQL的話也能夠正常運(yùn)行。為什么會(huì)出現(xiàn)這種情況？Hive在默認(rèn)不配置權(quán)限管理的情況下不進(jìn)行權(quán)限驗(yàn)證，所有的用戶在Hive里面都是超級(jí)管理員，即使不對(duì)特定的用戶進(jìn)行賦權(quán)，也能夠正常查詢。

最后

通過(guò)上面對(duì)explain的介紹，可以發(fā)現(xiàn)explain中有很多值得我們?nèi)パ芯康膬?nèi)容，讀懂 explain 的執(zhí)行計(jì)劃有利于我們優(yōu)化Hive SQL，同時(shí)也能提升我們對(duì)SQL的掌控力。

·················END·················

萬(wàn)字長(zhǎng)文詳解HiveSQL執(zhí)行計(jì)劃

查看SQL的執(zhí)行計(jì)劃

1. explain 的用法

2. explain 的使用場(chǎng)景

案例一：join 語(yǔ)句會(huì)過(guò)濾 null 的值嗎？

案例二：group by 分組語(yǔ)句會(huì)進(jìn)行排序嗎？

案例三：哪條sql執(zhí)行效率高呢？

2. explain dependency的用法

案例一：識(shí)別看似等價(jià)的代碼

案例二：識(shí)別SQL讀取數(shù)據(jù)范圍的差別

3. explain authorization 的用法

最后

推薦閱讀

萬(wàn)字長(zhǎng)文詳解HiveSQL執(zhí)行計(jì)劃

查看SQL的執(zhí)行計(jì)劃

1. explain 的用法

2. explain 的使用場(chǎng)景

案例一：join 語(yǔ)句會(huì)過(guò)濾 null 的值嗎？

案例二：group by 分組語(yǔ)句會(huì)進(jìn)行排序嗎？

案例三：哪條sql執(zhí)行效率高呢？

2. explain dependency的用法

案例一：識(shí)別看似等價(jià)的代碼

案例二：識(shí)別SQL讀取數(shù)據(jù)范圍的差別

3. explain authorization 的用法

最后

推薦閱讀

案例一：join 語(yǔ)句會(huì)過(guò)濾 null 的值嗎？

案例二：group by 分組語(yǔ)句會(huì)進(jìn)行排序嗎？

案例三：哪條sql執(zhí)行效率高呢？