萬字長文詳解ETL和數據建模~!

源 / 文/
什么是ETL
數據倉庫的架構
ETL構建企業(yè)級數據倉庫五步法的流程
1.確定主題
2.確定量度
3.確定事實數據粒度
4.確定維度
緩慢變化維度第一種類型:歷史數據需要修改。這樣新來的數據要改寫歷史數據,這時我們要使用UPDATE,例如產品的ID號碼為123,后來發(fā)現ID 號碼錯誤了,需要改寫成456,那么在修改好的新數據插入時,維度表中原來的ID號碼會相應改為456,這樣在維度加載時要使用第一種類型,做法是完全更 改。 緩慢變化維度第二種類型:歷史數據保留,新增數據也要保留。這時要將原數據更新,將新數據插入,需要使用UPDATE / INSERT,比如某一員工2005年在A部門,2006年時他調到了B部門。那么在統(tǒng)計2005年的數據時就應該將該員工定位到A部門;而在統(tǒng)計 2006年數據時就應該定位到B部門,然后再有新的數據插入時,將按照新部門(B部門)進行處理,這樣我們的做法是將該維度成員列表加入標識列,將歷史的 數據標識為“過期”,將目前的數據標識為“當前的”。另一種方法是將該維度打上時間戳,即將歷史數據生效的時間段作為它的一個屬性,在與原始表匹配生成事 實表時將按照時間段進行關聯(lián),這樣的好處是該維度成員生效時間明確。 緩慢變化維度第三種類型:新增數據維度成員改變了屬性。例如某一維度成 員新加入了一列,該列在歷史數據中不能基于它瀏覽,而在目前數據和將來數據中可 以按照它瀏覽,那么此時我們需要改變維度表屬性,即加入新的列,那么我們將使用存儲過程或程序生成新的維度屬性,在后續(xù)的數據中將基于新的屬性進行查看。
5.創(chuàng)建事實表
ETL中高級技巧的運用
1.準備區(qū)的運用
2.時間戳的運用
3.日志表的運用
4.使用調度
ETL和SQL的區(qū)別與聯(lián)系
ETL算法和工具簡介:
1.常用的ETL工具
2.ETL是DW系統(tǒng)的基礎
3.源數據的分類
4.數據文件的類型
5.ETL標準算法
6.ETL標準算法選擇
7.歷史拉鏈法
8.追加算法
9.Upsert算法
10.全刪全加算法
11.處理復雜度
12.近源模型層主要算法
13.整合模型層算法
14.技術緩沖到近源模型層的數據流算法-APPEND算法
15.技術緩沖到近源模型層的數據流算法-常規(guī)拉鏈算法
16.技術緩沖到近源模型層的數據流算法-全量帶刪除拉鏈算法
17.近源模型層到整合模型層的數據流算法-APPEND算法
18.近源模型層到整合模型層的數據流算法-MERGE INTO算法
19.近源模型層到整合模型層的數據流算法-常規(guī)拉鏈算法
20.近源模型層到整合模型層的數據流算法-基于增量數據刪除拉鏈算法
21.近源模型層到整合模型層的數據流算法-基于全量數據刪除拉鏈算法
22.近源模型層到整合模型層的數據流算法-經濟型常規(guī)拉鏈算法
23.近源模型層到整合模型層的數據流算法-經濟型基于增量數據刪除拉鏈算法
24.近源模型層到整合模型層的數據流算法-經濟型基于全量數據刪除拉鏈算法
25.近源模型層到整合模型層的數據流算法-PK_NOT_IN_APPEND算法
26.近源模型層到整合模型層的數據流算法-以源日期字段自拉鏈算法

好文推薦

拜訪了這位小哥的GitHub后,我失眠了

知乎高贊:國內高校的計算機專業(yè)教育都怎么啦?

鴻蒙到底是不是Android套皮?(少BB看源碼)
一鍵三連「分享」、「點贊」和「在看」
技術干貨與你天天見~
評論
圖片
表情

