企業(yè)大數(shù)據(jù)平臺(tái)倉庫架構(gòu)建設(shè)思路
我們之所以選擇基于大數(shù)據(jù)平臺(tái)構(gòu)建數(shù)據(jù)倉庫,是由大數(shù)據(jù)平臺(tái)豐富的特征決定的:
強(qiáng)大的計(jì)算和存儲(chǔ)能力,使得更扁平化的數(shù)據(jù)流程設(shè)計(jì)成為可能,簡化計(jì)算過程
多樣的編程接口和框架,豐富了數(shù)據(jù)加工的手段
豐富的數(shù)據(jù)采集通道,能夠?qū)崿F(xiàn)非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)的采集
各種安全和管理措施,保障了平臺(tái)的可用性
倉庫架構(gòu)設(shè)計(jì)原則包括四點(diǎn):
第四無需擔(dān)心數(shù)據(jù)冗余,充分利用存儲(chǔ)換易用。
數(shù)據(jù)采集:把不同數(shù)據(jù)源的數(shù)據(jù)統(tǒng)一采集到一個(gè)平臺(tái)上
數(shù)據(jù)清洗,清洗不符合質(zhì)量要求的數(shù)據(jù),避免臟數(shù)據(jù)參與后續(xù)數(shù)據(jù)計(jì)算
數(shù)據(jù)歸類,建立數(shù)據(jù)目錄,在基礎(chǔ)層一般按照來源系統(tǒng)和業(yè)務(wù)域進(jìn)行分類
數(shù)據(jù)結(jié)構(gòu)化,對(duì)于半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),進(jìn)行結(jié)構(gòu)化
數(shù)據(jù)規(guī)范化,包括規(guī)范維度標(biāo)識(shí)、統(tǒng)一計(jì)量單位等規(guī)范化操作
統(tǒng)計(jì)服務(wù)主要是偏傳統(tǒng)的報(bào)表服務(wù),利用大數(shù)據(jù)平臺(tái)將數(shù)據(jù)加工后的結(jié)果放入關(guān)系型數(shù)據(jù)庫中,供前端的報(bào)表系統(tǒng)或業(yè)務(wù)系統(tǒng)查詢
分析服務(wù)用來提供明細(xì)的事實(shí)數(shù)據(jù),利用大數(shù)據(jù)平臺(tái)的實(shí)時(shí)計(jì)算能力,允許操作人員自主靈活的進(jìn)行各種維度的交叉組合查詢。分析服務(wù)的能力類似于傳統(tǒng)cube提供的內(nèi)容,但是在大數(shù)據(jù)平臺(tái)下不需要預(yù)先建好cube,更靈活、更節(jié)省成本
標(biāo)簽服務(wù),大數(shù)據(jù)的應(yīng)用場景下,經(jīng)常會(huì)對(duì)主體進(jìn)行特征刻畫,比如客戶的消費(fèi)能力、興趣習(xí)慣、物理特征等等,這些數(shù)據(jù)通過打標(biāo)簽轉(zhuǎn)換成KV的數(shù)據(jù)服務(wù),用于前端應(yīng)用查詢。
