關(guān)于數(shù)倉(cāng)基礎(chǔ)知識(shí)的超全概括!
面對(duì)大數(shù)據(jù)的多樣性,在存儲(chǔ)和處理這些大數(shù)據(jù)時(shí),我們就必須要知道兩個(gè)重要的技術(shù)。
分別是:數(shù)據(jù)倉(cāng)庫(kù)技術(shù)、Hadoop。當(dāng)數(shù)據(jù)為結(jié)構(gòu)化數(shù)據(jù),來自傳統(tǒng)的數(shù)據(jù)源,則采用數(shù)據(jù)倉(cāng)庫(kù)技術(shù)來存儲(chǔ)和處理這些數(shù)據(jù),如下圖:

1)基礎(chǔ)能力上的區(qū)別
2)業(yè)務(wù)能力上的區(qū)別
描述 "數(shù)據(jù)"背后的業(yè)務(wù)含義。
主題定義:每段 ETL、表背后的歸屬業(yè)務(wù)主題。
業(yè)務(wù)描述:每段代碼實(shí)現(xiàn)的具體業(yè)務(wù)邏輯。
標(biāo)準(zhǔn)指標(biāo):類似于 BI 中的語義層、數(shù)倉(cāng)中的一致性事實(shí);將分析中的指標(biāo)進(jìn)行規(guī)范化。
標(biāo)準(zhǔn)維度:同標(biāo)準(zhǔn)指標(biāo),對(duì)分析的各維度定義實(shí)現(xiàn)規(guī)范化、標(biāo)準(zhǔn)化。
不斷的進(jìn)行維護(hù)且與業(yè)務(wù)方進(jìn)行溝通確認(rèn)。
根據(jù) ETL 目的的不同,可以分為兩類:數(shù)據(jù)清洗元數(shù)據(jù);數(shù)據(jù)處理元數(shù)據(jù)。
數(shù)據(jù)清洗,主要目的是為了解決掉臟數(shù)據(jù)及規(guī)范數(shù)據(jù)格式;因此此處元數(shù)據(jù)主要為:各表各列的"正確"數(shù)據(jù)規(guī)則;默認(rèn)數(shù)據(jù)類型的"正確"規(guī)則。
數(shù)據(jù)處理,例如常見的表輸入表輸出;非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化;特殊字段的拆分等。源數(shù)據(jù)到數(shù)倉(cāng)、數(shù)據(jù)集市層的各類規(guī)則。比如內(nèi)容、清理、數(shù)據(jù)刷新規(guī)則。
星型模型
雪花模型
星座模型
分層可以清晰數(shù)據(jù)結(jié)構(gòu),使用時(shí)更好的定位和理解
方便追蹤數(shù)據(jù)的血緣關(guān)系
規(guī)范數(shù)據(jù)分層,可以開發(fā)一些通用的中間層數(shù)據(jù),能夠減少極大的重復(fù)計(jì)算
把復(fù)雜的問題簡(jiǎn)單化
屏蔽原始數(shù)據(jù)的異常,下游任務(wù)沒有感知異常
推薦閱讀:
世界的真實(shí)格局分析,地球人類社會(huì)底層運(yùn)行原理
企業(yè)數(shù)字化轉(zhuǎn)型與運(yùn)營(yíng)策略(120頁P(yáng)PT)
企業(yè)IT技術(shù)架構(gòu)規(guī)劃方案
論數(shù)字化轉(zhuǎn)型——轉(zhuǎn)什么,如何轉(zhuǎn)?
企業(yè)10大管理流程圖,數(shù)字化轉(zhuǎn)型從業(yè)者必備!
【中臺(tái)實(shí)踐】華為大數(shù)據(jù)中臺(tái)架構(gòu)分享.pdf
華為如何實(shí)施數(shù)字化轉(zhuǎn)型(附PPT)
