8000字,詳解數(shù)據(jù)建模的方法、模型、規(guī)范和工具!

OLAP中的ER模型,與OLTP中的有所區(qū)別。其本質(zhì)差異是站在企業(yè)角度面向主題的抽象,而不是針對(duì)某個(gè)具體業(yè)務(wù)流程的實(shí)體對(duì)象關(guān)系的抽象。
多維模型,是維度模型的另一種實(shí)現(xiàn)。當(dāng)數(shù)據(jù)被加載到OLAP多維數(shù)據(jù)庫(kù)時(shí),對(duì)這些數(shù)據(jù)的存儲(chǔ)的索引,采用了為維度數(shù)據(jù)涉及的格式和技術(shù)。性能聚集或預(yù)計(jì)算匯總表通常由多維數(shù)據(jù)庫(kù)引擎建立并管理。由于采用預(yù)計(jì)算、索引策略和其他優(yōu)化方法,多維數(shù)據(jù)庫(kù)可實(shí)現(xiàn)高性能查詢。

【粒度】:每筆訂單(拆分為單個(gè)物品)
【維度】:地域、年齡、渠道等(可供分析的角度)
【事實(shí)/度量】:訂單金額等(可用于分析的數(shù)據(jù))


ODS:Operational Data Store,操作數(shù)據(jù)層,在結(jié)構(gòu)上其與源系統(tǒng)的增量或者全量數(shù)據(jù)基本保持 一致。
它相當(dāng)于一個(gè)數(shù)據(jù)準(zhǔn)備區(qū),同時(shí)又承擔(dān)著基礎(chǔ)數(shù)據(jù)的記錄以及歷史變化。其主要作用是把基礎(chǔ)數(shù)據(jù)引入到MaxCompute。CDM:Common Data Model,公共維度模型層,又細(xì)分為DWD和DWS。它的主要作用是完成數(shù)據(jù)加工與整合、建立一致性的維度、構(gòu)建可復(fù)用的面向分析和統(tǒng)計(jì)的明細(xì)事實(shí)表以及匯總公共粒度的指標(biāo)。?
DWD:Data Warehouse Detail,明細(xì)數(shù)據(jù)層。
DWS:Data Warehouse Summary,匯總數(shù)據(jù)層。
ADS:Application Data Service,應(yīng)用數(shù)據(jù)層。

公共維度層:
基于維度建模理念思想,建立整個(gè)企業(yè)的一致性維度。明細(xì)粒度事實(shí)層:
以業(yè)務(wù)過程為建模驅(qū)動(dòng),基于每個(gè)具體業(yè)務(wù)過程的特點(diǎn),構(gòu)建最細(xì)粒度的明細(xì)層事實(shí)表。
可以結(jié)合企業(yè)的數(shù)據(jù)使用特點(diǎn),將明細(xì)事實(shí)表的某些重要維度屬性字段做適當(dāng)?shù)娜哂啵磳挶砘幚怼?/span>公共匯總粒度事實(shí)層:
以分析的主題對(duì)象為建模驅(qū)動(dòng),基于上層的應(yīng)用和產(chǎn)品的指標(biāo)需求,構(gòu)建公共粒度的匯總指標(biāo)事實(shí)表,以寬表化手段來物理化模型。

按業(yè)務(wù)劃分:
命名時(shí)按主要的業(yè)務(wù)劃分,以指導(dǎo)物理模型的劃分原則、命名原則及使用的ODS project。
例如,按業(yè)務(wù)定義英文縮寫,阿里的“淘寶”英文縮寫可以定義為“tb”。按數(shù)據(jù)域劃分:
命名時(shí)按照CDM層的數(shù)據(jù)進(jìn)行數(shù)據(jù)域劃分,以便有效地對(duì)數(shù)據(jù)進(jìn)行管理,以及指導(dǎo)數(shù)據(jù)表的命名。
例如,“交易”數(shù)據(jù)的英文縮寫可定義為“trd”。按業(yè)務(wù)過程劃分:
當(dāng)一個(gè)數(shù)據(jù)域由多個(gè)業(yè)務(wù)過程組成時(shí),命名時(shí)可以按業(yè)務(wù)流程劃分。
業(yè)務(wù)過程是從數(shù)據(jù)分析角度看客觀存在的或者抽象的業(yè)務(wù)行為動(dòng)作。
例如,交易數(shù)據(jù)域中的“退款”這個(gè)業(yè)務(wù)過程的英文縮寫可約定命名為“rfd_ent”。
(1)高內(nèi)聚和低耦合
(2)核心模型與擴(kuò)展模型分離
(3)公共處理邏輯下沉及單一
(4)成本與性能平衡
(5)數(shù)據(jù)可回滾
(6)一致性
(7)命名清晰可理解
一個(gè)模型無法滿足所有的需求。 需合理選擇數(shù)據(jù)模型的建模方式。 通常,設(shè)計(jì)順序依次為:概念模型->邏輯模型->物理模型。
維度屬性盡量豐富,為數(shù)據(jù)使用打下基礎(chǔ)。 給出詳實(shí)的、富有意義的文字描述。 沉淀通用維度屬性,為建立一致性維度做好鋪墊。 嚴(yán)格區(qū)分事實(shí)與維度,通過使用場(chǎng)景進(jìn)行區(qū)分。

選擇一種適合的事實(shí)表類型。 事實(shí)盡可能完整,包含整個(gè)業(yè)務(wù)過程的全部事實(shí)。 確保每一個(gè)事實(shí)度量都是一致性,反復(fù)計(jì)算都會(huì)得到相同的結(jié)果。盡量記錄一些“原子”事實(shí),而不是加工后的結(jié)果。 可適當(dāng)做些”維度退化屬性”,提高事實(shí)表的查詢性能。 為提高聚合性能,可適度做些上卷匯聚事實(shí)表。







推薦閱讀:
世界的真實(shí)格局分析,地球人類社會(huì)底層運(yùn)行原理
不是你需要中臺(tái),而是一名合格的架構(gòu)師(附各大廠中臺(tái)建設(shè)PPT)
企業(yè)IT技術(shù)架構(gòu)規(guī)劃方案
論數(shù)字化轉(zhuǎn)型——轉(zhuǎn)什么,如何轉(zhuǎn)?
企業(yè)10大管理流程圖,數(shù)字化轉(zhuǎn)型從業(yè)者必備!
【中臺(tái)實(shí)踐】華為大數(shù)據(jù)中臺(tái)架構(gòu)分享.pdf
華為如何實(shí)施數(shù)字化轉(zhuǎn)型(附PPT)
