<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          數(shù)據(jù)倉庫之拉鏈表

          共 4913字,需瀏覽 10分鐘

           ·

          2020-12-06 13:19

          dfff9e27d5ef21a1c7697af2b5a7a347.webp

          拉鏈表是針對(duì)數(shù)據(jù)倉庫設(shè)計(jì)中表存儲(chǔ)數(shù)據(jù)的方式而定義的,顧名思義,所謂拉鏈,就是記錄歷史。記錄一個(gè)事物從開始,一直到當(dāng)前狀態(tài)的所有變化的信息。

          下面就是一張拉鏈表,存儲(chǔ)的是用戶的最基本信息以及每條記錄的生命周期。我們可以使用這張表拿到最新的當(dāng)天的最新數(shù)據(jù)以及之前的歷史數(shù)據(jù)。

          注冊(cè)日期用戶編號(hào)手機(jī)號(hào)碼t_start_datet_end_date
          2017-01-010011111112017-01-019999-12-31
          2017-01-010022222222017-01-012017-01-01
          2017-01-010022333332017-01-029999-12-31
          2017-01-010033333332017-01-019999-12-31
          2017-01-010044444442017-01-012017-01-01
          2017-01-010044324322017-01-022017-01-02
          2017-01-010044324322017-01-039999-12-31
          2017-01-020055555552017-01-022017-01-02
          2017-01-020051151152017-01-039999-12-31
          2017-01-030066666662017-01-039999-12-31

          說明:

          • t_start_date 表示該條記錄的生命周期開始時(shí)間,t_end_date 表示該條記錄的生命周期結(jié)束時(shí)間;

          • t_end_date = '9999-12-31' 表示該條記錄目前處于有效狀態(tài);

          • 如果查詢當(dāng)前所有有效的記錄,則select * from user where t_end_date = '9999-12-31'

          • 如果查詢2017-01-01的歷史快照,則select * from user where t_start_date <= '2017-01-01' and end_date >= '2017-01-01'

          拉鏈表的使用場(chǎng)景

          在數(shù)據(jù)倉庫的數(shù)據(jù)模型設(shè)計(jì)過程中,經(jīng)常會(huì)遇到下面這種表的設(shè)計(jì):

          1. 有一些表的數(shù)據(jù)量很大,比如一張用戶表,大約10億條記錄,50個(gè)字段,這種表,即使使用ORC壓縮,單張表的存儲(chǔ)也會(huì)超過100G,在HDFS使用雙備份或者三備份的話就更大一些。

          2. 表中的部分字段會(huì)被update更新操作,如用戶聯(lián)系方式,產(chǎn)品的描述信息,訂單的狀態(tài)等等。

          3. 需要查看某一個(gè)時(shí)間點(diǎn)或者時(shí)間段的歷史快照信息,比如,查看某一個(gè)訂單在歷史某一個(gè)時(shí)間點(diǎn)的狀態(tài)。

          4. 表中的記錄變化的比例和頻率不是很大,比如,總共有10億的用戶,每天新增和發(fā)生變化的有200萬左右,變化的比例占的很小。

          對(duì)于這種表的設(shè)計(jì)?下面有幾種方案可選:

          • 方案一:每天只留最新的一份,比如我們每天用datax抽取最新的一份全量數(shù)據(jù)到Hive中。

          • 方案二:每天保留一份全量的切片數(shù)據(jù)。

          • 方案三:使用拉鏈表。

          為什么使用拉鏈表

          方案一:每天只留最新的一份

          這種方案就不用多說了,實(shí)現(xiàn)起來很簡(jiǎn)單,每天drop掉前一天的數(shù)據(jù),重新抽一份最新的。
          優(yōu)點(diǎn)很明顯,節(jié)省空間,一些普通的使用也很方便,不用在選擇表的時(shí)候加一個(gè)時(shí)間分區(qū)什么的。
          缺點(diǎn)同樣明顯,沒有歷史數(shù)據(jù),先翻翻舊賬只能通過其它方式,比如從流水表里面抽。

          方案二:每天保留一份全量的切片數(shù)據(jù)

          每天一份全量的切片是一種比較穩(wěn)妥的方案,而且歷史數(shù)據(jù)也在。
          缺點(diǎn)就是存儲(chǔ)空間占用量太大太大了,如果對(duì)這邊表每天都保留一份全量,那么每次全量中會(huì)保存很多不變的信息,對(duì)存儲(chǔ)是極大的浪費(fèi)。
          當(dāng)然我們也可以做一些取舍,比如只保留近一個(gè)月的數(shù)據(jù)?但是,需求是無恥的,數(shù)據(jù)的生命周期不是我們能完全左右的。

          方案三:拉鏈表

          拉鏈表在使用上基本兼顧了我們的需求。
          首先它在空間上做了一個(gè)取舍,雖說不像方案一那樣占用量那么小,但是它每日的增量可能只有方案二的千分之一甚至是萬分之一。
          其實(shí)它能滿足方案二所能滿足的需求,既能獲取最新的數(shù)據(jù),也能添加篩選條件也獲取歷史的數(shù)據(jù)。
          所以我們還是很有必要來使用拉鏈表的。

          拉鏈表的設(shè)計(jì)

          在Mysql關(guān)系型數(shù)據(jù)庫里的user表中信息變化

          在2017-01-01表中的數(shù)據(jù)是:

          注冊(cè)日期用戶編號(hào)手機(jī)號(hào)碼
          2017-01-01001111111
          2017-01-01002222222
          2017-01-01003333333
          2017-01-01004444444

          2017-01-02表中的數(shù)據(jù)是,用戶002004資料進(jìn)行了修改,005是新增用戶:

          注冊(cè)日期用戶編號(hào)手機(jī)號(hào)碼備注
          2017-01-01001111111
          2017-01-01002233333(由222222變成233333)
          2017-01-01003333333
          2017-01-01004432432(由444444變成432432)
          2017-01-02005555555(2017-01-02新增)

          2017-01-03表中的數(shù)據(jù)是,用戶004005資料進(jìn)行了修改,006是新增用戶:

          注冊(cè)日期用戶編號(hào)手機(jī)號(hào)碼備注
          2017-01-01001111111
          2017-01-01002233333
          2017-01-01003333333
          2017-01-01004654321(由432432 變成 654321)
          2017-01-02005115115(由555555 變成 115115)
          2017-01-03006115115(2017-01-03 新增)

          如果在數(shù)據(jù)倉庫中設(shè)計(jì)成歷史拉鏈表保存該表,則會(huì)有下面這樣一張表,這是最新一天(即2017-01-03)的數(shù)據(jù):

          注冊(cè)日期用戶編號(hào)手機(jī)號(hào)碼t_start_datet_end_date
          2017-01-010011111112017-01-019999-12-31
          2017-01-010022222222017-01-012017-01-01
          2017-01-010022333332017-01-029999-12-31
          2017-01-010033333332017-01-019999-12-31
          2017-01-010044444442017-01-012017-01-01
          2017-01-010044324322017-01-022017-01-02
          2017-01-010044324322017-01-039999-12-31
          2017-01-020055555552017-01-022017-01-02
          2017-01-020051151152017-01-039999-12-31
          2017-01-030066666662017-01-039999-12-31

          說明:

          • t_start_date?表示該條記錄的生命周期開始時(shí)間,t_end_date?表示該條記錄的生命周期結(jié)束時(shí)間;

          • t_end_date = '9999-12-31'表示該條記錄目前處于有效狀態(tài);

          • 如果查詢當(dāng)前所有有效的記錄,則select * from user where t_end_date = '9999-12-31'

          • 如果查詢2017-01-01的歷史快照,則select * from user where t_start_date <= ‘2017-01-01′ and end_date >= '2017-01-01'

          拉鏈表的實(shí)現(xiàn)與更新

          Hive中實(shí)現(xiàn)拉鏈表

          1. 我們需要一張ODS層的用戶全量表。至少需要用它來初始化。

          2. 每日的用戶更新表。

          而且我們要確定拉鏈表的時(shí)間粒度,比如說拉鏈表每天只取一個(gè)狀態(tài),也就是說如果一天有3個(gè)狀態(tài)變更,我們只取最后一個(gè)狀態(tài),這種天粒度的表其實(shí)已經(jīng)能解決大部分的問題了。

          獲取每日的用戶增量

          監(jiān)聽Mysql數(shù)據(jù)的變化,比如說用Canal,最后合并每日的變化,獲取到最后的一個(gè)狀態(tài)。假設(shè)我們每天都會(huì)獲得一份切片數(shù)據(jù),我們可以通過取兩天切片數(shù)據(jù)的不同來作為每日更新表,這種情況下我們可以對(duì)所有的字段先進(jìn)行concat,再取md5,這樣就ok了。流水表,有每日的變更流水表

          表結(jié)構(gòu)

          ods層的user

          CREATE EXTERNAL TABLE ods.user (
          user_num STRING COMMENT '用戶編號(hào)',
          mobile STRING COMMENT '手機(jī)號(hào)碼',
          reg_date STRING COMMENT '注冊(cè)日期'
          COMMENT '用戶資料表'
          PARTITIONED BY (dt string)
          ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n'
          STORED AS ORC
          LOCATION '/ods/user';
          )

          ods層的user_update

          CREATE EXTERNAL TABLE ods.user_update (
          user_num STRING COMMENT '用戶編號(hào)',
          mobile STRING COMMENT '手機(jī)號(hào)碼',
          reg_date STRING COMMENT '注冊(cè)日期'
          COMMENT '每日用戶資料更新表'
          PARTITIONED BY (dt string)
          ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n'
          STORED AS ORC
          LOCATION '/ods/user_update';
          )

          拉鏈表

          CREATE EXTERNAL TABLE dws.user_his (
          user_num STRING COMMENT '用戶編號(hào)',
          mobile STRING COMMENT '手機(jī)號(hào)碼',
          reg_date STRING COMMENT '用戶編號(hào)',
          t_start_date ,
          t_end_date
          COMMENT '用戶資料拉鏈表'
          ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n'
          STORED AS ORC
          LOCATION '/dws/user_his';
          )

          更新

          假設(shè)已經(jīng)初始化了2017-01-01的日期,然后需要更新2017-01-02那一天的數(shù)據(jù)

          INSERT OVERWRITE TABLE dws.user_his
          SELECT * FROM
          (
          SELECT A.user_num,
          A.mobile,
          A.reg_date,
          A.t_start_time,
          CASE
          WHEN A.t_end_time = '9999-12-31' AND B.user_num IS NOT NULL THEN '2017-01-01'
          ELSE A.t_end_time
          END AS t_end_time
          FROM dws.user_his AS A
          LEFT JOIN ods.user_update AS B
          ON A.user_num = B.user_num
          UNION
          SELECT C.user_num,
          C.mobile,
          C.reg_date,
          '2017-01-02' AS t_start_time,
          '9999-12-31' AS t_end_time
          FROM ods.user_update AS C
          ) AS T

          補(bǔ)充

          拉鏈表和流水表

          流水表存放的是一個(gè)用戶的變更記錄,比如在一張流水表中,一天的數(shù)據(jù)中,會(huì)存放一個(gè)用戶的每條修改記錄,但是在拉鏈表中只有一條記錄。這是拉鏈表設(shè)計(jì)時(shí)需要注意的一個(gè)粒度問題。我們當(dāng)然也可以設(shè)置的粒度更小一些,一般按天就足夠。

          查詢性能

          鏈表當(dāng)然也會(huì)遇到查詢性能的問題,比如說我們存放了5年的拉鏈數(shù)據(jù),那么這張表勢(shì)必會(huì)比較大,當(dāng)查詢的時(shí)候性能就比較低了,個(gè)人認(rèn)為兩個(gè)思路來解決:

          1. 在一些查詢引擎中,我們對(duì)start_date和end_date做索引,這樣能提高不少性能。

          2. 保留部分歷史數(shù)據(jù),比如說我們一張表里面存放全量的拉鏈表數(shù)據(jù),然后再對(duì)外暴露一張只提供近3個(gè)月數(shù)據(jù)的拉鏈表。

          瀏覽 48
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  无码尤物波多野结衣性开放∧V | 一级黄色片中文字幕 | 免费视频播放一区二区 | 在线成人免费视频 | 2020天天日天天干 |