8000字,詳解數(shù)據(jù)建模的方法、模型、規(guī)范和工具!

來源:數(shù)據(jù)學堂
OLAP中的ER模型,與OLTP中的有所區(qū)別。其本質(zhì)差異是站在企業(yè)角度面向主題的抽象,而不是針對某個具體業(yè)務(wù)流程的實體對象關(guān)系的抽象。
多維模型,是維度模型的另一種實現(xiàn)。當數(shù)據(jù)被加載到OLAP多維數(shù)據(jù)庫時,對這些數(shù)據(jù)的存儲的索引,采用了為維度數(shù)據(jù)涉及的格式和技術(shù)。性能聚集或預(yù)計算匯總表通常由多維數(shù)據(jù)庫引擎建立并管理。由于采用預(yù)計算、索引策略和其他優(yōu)化方法,多維數(shù)據(jù)庫可實現(xiàn)高性能查詢。

【粒度】:每筆訂單(拆分為單個物品)
【維度】:地域、年齡、渠道等(可供分析的角度)
【事實/度量】:訂單金額等(可用于分析的數(shù)據(jù))


ODS:Operational Data Store,操作數(shù)據(jù)層,在結(jié)構(gòu)上其與源系統(tǒng)的增量或者全量數(shù)據(jù)基本保持 一致。
它相當于一個數(shù)據(jù)準備區(qū),同時又承擔著基礎(chǔ)數(shù)據(jù)的記錄以及歷史變化。其主要作用是把基礎(chǔ)數(shù)據(jù)引入到MaxCompute。CDM:Common Data Model,公共維度模型層,又細分為DWD和DWS。它的主要作用是完成數(shù)據(jù)加工與整合、建立一致性的維度、構(gòu)建可復(fù)用的面向分析和統(tǒng)計的明細事實表以及匯總公共粒度的指標。?
DWD:Data Warehouse Detail,明細數(shù)據(jù)層。
DWS:Data Warehouse Summary,匯總數(shù)據(jù)層。
ADS:Application Data Service,應(yīng)用數(shù)據(jù)層。

公共維度層:
基于維度建模理念思想,建立整個企業(yè)的一致性維度。明細粒度事實層:
以業(yè)務(wù)過程為建模驅(qū)動,基于每個具體業(yè)務(wù)過程的特點,構(gòu)建最細粒度的明細層事實表。
可以結(jié)合企業(yè)的數(shù)據(jù)使用特點,將明細事實表的某些重要維度屬性字段做適當?shù)娜哂?,即寬表化處理?/span>公共匯總粒度事實層:
以分析的主題對象為建模驅(qū)動,基于上層的應(yīng)用和產(chǎn)品的指標需求,構(gòu)建公共粒度的匯總指標事實表,以寬表化手段來物理化模型。

按業(yè)務(wù)劃分:
命名時按主要的業(yè)務(wù)劃分,以指導(dǎo)物理模型的劃分原則、命名原則及使用的ODS project。
例如,按業(yè)務(wù)定義英文縮寫,阿里的“淘寶”英文縮寫可以定義為“tb”。按數(shù)據(jù)域劃分:
命名時按照CDM層的數(shù)據(jù)進行數(shù)據(jù)域劃分,以便有效地對數(shù)據(jù)進行管理,以及指導(dǎo)數(shù)據(jù)表的命名。
例如,“交易”數(shù)據(jù)的英文縮寫可定義為“trd”。按業(yè)務(wù)過程劃分:
當一個數(shù)據(jù)域由多個業(yè)務(wù)過程組成時,命名時可以按業(yè)務(wù)流程劃分。
業(yè)務(wù)過程是從數(shù)據(jù)分析角度看客觀存在的或者抽象的業(yè)務(wù)行為動作。
例如,交易數(shù)據(jù)域中的“退款”這個業(yè)務(wù)過程的英文縮寫可約定命名為“rfd_ent”。
(1)高內(nèi)聚和低耦合
(2)核心模型與擴展模型分離
(3)公共處理邏輯下沉及單一
(4)成本與性能平衡
(5)數(shù)據(jù)可回滾
(6)一致性
(7)命名清晰可理解
一個模型無法滿足所有的需求。 需合理選擇數(shù)據(jù)模型的建模方式。 通常,設(shè)計順序依次為:概念模型->邏輯模型->物理模型。
維度屬性盡量豐富,為數(shù)據(jù)使用打下基礎(chǔ)。 給出詳實的、富有意義的文字描述。 沉淀通用維度屬性,為建立一致性維度做好鋪墊。 嚴格區(qū)分事實與維度,通過使用場景進行區(qū)分。

選擇一種適合的事實表類型。 事實盡可能完整,包含整個業(yè)務(wù)過程的全部事實。 確保每一個事實度量都是一致性,反復(fù)計算都會得到相同的結(jié)果。盡量記錄一些“原子”事實,而不是加工后的結(jié)果。 可適當做些”維度退化屬性”,提高事實表的查詢性能。 為提高聚合性能,可適度做些上卷匯聚事實表。







