數(shù)據(jù)倉庫架構(gòu)以及數(shù)據(jù)模型的設(shè)計(jì)
面對(duì)大數(shù)據(jù)的多樣性,在存儲(chǔ)和處理這些大數(shù)據(jù)時(shí),我們就必須要知道兩個(gè)重要的技術(shù)。
分別是:數(shù)據(jù)倉庫技術(shù)、Hadoop。當(dāng)數(shù)據(jù)為結(jié)構(gòu)化數(shù)據(jù),來自傳統(tǒng)的數(shù)據(jù)源,則采用數(shù)據(jù)倉庫技術(shù)來存儲(chǔ)和處理這些數(shù)據(jù),如下圖:

1)基礎(chǔ)能力上的區(qū)別
2)業(yè)務(wù)能力上的區(qū)別
描述 "數(shù)據(jù)"背后的業(yè)務(wù)含義。
主題定義:每段 ETL、表背后的歸屬業(yè)務(wù)主題。
業(yè)務(wù)描述:每段代碼實(shí)現(xiàn)的具體業(yè)務(wù)邏輯。
標(biāo)準(zhǔn)指標(biāo):類似于 BI 中的語義層、數(shù)倉中的一致性事實(shí);將分析中的指標(biāo)進(jìn)行規(guī)范化。
標(biāo)準(zhǔn)維度:同標(biāo)準(zhǔn)指標(biāo),對(duì)分析的各維度定義實(shí)現(xiàn)規(guī)范化、標(biāo)準(zhǔn)化。
不斷的進(jìn)行維護(hù)且與業(yè)務(wù)方進(jìn)行溝通確認(rèn)。
根據(jù) ETL 目的的不同,可以分為兩類:數(shù)據(jù)清洗元數(shù)據(jù);數(shù)據(jù)處理元數(shù)據(jù)。
數(shù)據(jù)清洗,主要目的是為了解決掉臟數(shù)據(jù)及規(guī)范數(shù)據(jù)格式;因此此處元數(shù)據(jù)主要為:各表各列的"正確"數(shù)據(jù)規(guī)則;默認(rèn)數(shù)據(jù)類型的"正確"規(guī)則。
數(shù)據(jù)處理,例如常見的表輸入表輸出;非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化;特殊字段的拆分等。源數(shù)據(jù)到數(shù)倉、數(shù)據(jù)集市層的各類規(guī)則。比如內(nèi)容、清理、數(shù)據(jù)刷新規(guī)則。
星型模型
雪花模型
星座模型
分層可以清晰數(shù)據(jù)結(jié)構(gòu),使用時(shí)更好的定位和理解
方便追蹤數(shù)據(jù)的血緣關(guān)系
規(guī)范數(shù)據(jù)分層,可以開發(fā)一些通用的中間層數(shù)據(jù),能夠減少極大的重復(fù)計(jì)算
把復(fù)雜的問題簡(jiǎn)單化
屏蔽原始數(shù)據(jù)的異常,下游任務(wù)沒有感知異常
推薦閱讀:
關(guān)于構(gòu)建與優(yōu)化數(shù)據(jù)倉庫架構(gòu)與模型設(shè)計(jì)
金融行業(yè)大數(shù)據(jù)治理之路——數(shù)據(jù)模型篇
