企業(yè)大數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)的建設(shè)思路
本文作者主要從總體思路、模型設(shè)計(jì)、數(shù)據(jù)架構(gòu)、數(shù)據(jù)治理四個(gè)方面介紹了如何利用大數(shù)據(jù)平臺(tái)的特性,構(gòu)建更貼合大數(shù)據(jù)應(yīng)用的數(shù)據(jù)倉(cāng)庫(kù)。
我們之所以選擇基于大數(shù)據(jù)平臺(tái)構(gòu)建數(shù)據(jù)倉(cāng)庫(kù),是由大數(shù)據(jù)平臺(tái)豐富的特征決定的:
強(qiáng)大的計(jì)算和存儲(chǔ)能力,使得更扁平化的數(shù)據(jù)流程設(shè)計(jì)成為可能,簡(jiǎn)化計(jì)算過(guò)程
多樣的編程接口和框架,豐富了數(shù)據(jù)加工的手段
豐富的數(shù)據(jù)采集通道,能夠?qū)崿F(xiàn)非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)的采集
各種安全和管理措施,保障了平臺(tái)的可用性
倉(cāng)庫(kù)架構(gòu)設(shè)計(jì)原則包括四點(diǎn):
第四無(wú)需擔(dān)心數(shù)據(jù)冗余,充分利用存儲(chǔ)換易用。
數(shù)據(jù)采集:把不同數(shù)據(jù)源的數(shù)據(jù)統(tǒng)一采集到一個(gè)平臺(tái)上
數(shù)據(jù)清洗,清洗不符合質(zhì)量要求的數(shù)據(jù),避免臟數(shù)據(jù)參與后續(xù)數(shù)據(jù)計(jì)算
數(shù)據(jù)歸類(lèi),建立數(shù)據(jù)目錄,在基礎(chǔ)層一般按照來(lái)源系統(tǒng)和業(yè)務(wù)域進(jìn)行分類(lèi)
數(shù)據(jù)結(jié)構(gòu)化,對(duì)于半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),進(jìn)行結(jié)構(gòu)化
數(shù)據(jù)規(guī)范化,包括規(guī)范維度標(biāo)識(shí)、統(tǒng)一計(jì)量單位等規(guī)范化操作
統(tǒng)計(jì)服務(wù)主要是偏傳統(tǒng)的報(bào)表服務(wù),利用大數(shù)據(jù)平臺(tái)將數(shù)據(jù)加工后的結(jié)果放入關(guān)系型數(shù)據(jù)庫(kù)中,供前端的報(bào)表系統(tǒng)或業(yè)務(wù)系統(tǒng)查詢
分析服務(wù)用來(lái)提供明細(xì)的事實(shí)數(shù)據(jù),利用大數(shù)據(jù)平臺(tái)的實(shí)時(shí)計(jì)算能力,允許操作人員自主靈活的進(jìn)行各種維度的交叉組合查詢。分析服務(wù)的能力類(lèi)似于傳統(tǒng)cube提供的內(nèi)容,但是在大數(shù)據(jù)平臺(tái)下不需要預(yù)先建好cube,更靈活、更節(jié)省成本
標(biāo)簽服務(wù),大數(shù)據(jù)的應(yīng)用場(chǎng)景下,經(jīng)常會(huì)對(duì)主體進(jìn)行特征刻畫(huà),比如客戶的消費(fèi)能力、興趣習(xí)慣、物理特征等等,這些數(shù)據(jù)通過(guò)打標(biāo)簽轉(zhuǎn)換成KV的數(shù)據(jù)服務(wù),用于前端應(yīng)用查詢。
<END>
推薦閱讀:
世界的真實(shí)格局分析,地球人類(lèi)社會(huì)底層運(yùn)行原理
不是你需要中臺(tái),而是一名合格的架構(gòu)師(附各大廠中臺(tái)建設(shè)PPT)
企業(yè)IT技術(shù)架構(gòu)規(guī)劃方案
論數(shù)字化轉(zhuǎn)型——轉(zhuǎn)什么,如何轉(zhuǎn)?
企業(yè)10大管理流程圖,數(shù)字化轉(zhuǎn)型從業(yè)者必備!
【中臺(tái)實(shí)踐】華為大數(shù)據(jù)中臺(tái)架構(gòu)分享.pdf
華為如何實(shí)施數(shù)字化轉(zhuǎn)型(附PPT)
超詳細(xì)280頁(yè)Docker實(shí)戰(zhàn)文檔!開(kāi)放下載
