企業(yè)大數(shù)據(jù)平臺數(shù)據(jù)倉庫架構(gòu)建設(shè)思路



強(qiáng)大的計(jì)算和存儲能力,使得更扁平化的數(shù)據(jù)流程設(shè)計(jì)成為可能,簡化計(jì)算過程
多樣的編程接口和框架,豐富了數(shù)據(jù)加工的手段
豐富的數(shù)據(jù)采集通道,能夠?qū)崿F(xiàn)非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)的采集
各種安全和管理措施,保障了平臺的可用性

第四無需擔(dān)心數(shù)據(jù)冗余,充分利用存儲換易用。

除了建模方式之外,在星型模型和雪花模型的選擇上也有可能讓使用者左右為難。事實(shí)上,兩種模型是并存的,星型是雪花模型的一種。理論上真實(shí)數(shù)據(jù)的模型都是雪花模型;實(shí)際數(shù)據(jù)倉庫中兩種模型是并存的。



數(shù)據(jù)采集:把不同數(shù)據(jù)源的數(shù)據(jù)統(tǒng)一采集到一個(gè)平臺上
數(shù)據(jù)清洗,清洗不符合質(zhì)量要求的數(shù)據(jù),避免臟數(shù)據(jù)參與后續(xù)數(shù)據(jù)計(jì)算
數(shù)據(jù)歸類,建立數(shù)據(jù)目錄,在基礎(chǔ)層一般按照來源系統(tǒng)和業(yè)務(wù)域進(jìn)行分類
數(shù)據(jù)結(jié)構(gòu)化,對于半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),進(jìn)行結(jié)構(gòu)化
數(shù)據(jù)規(guī)范化,包括規(guī)范維度標(biāo)識、統(tǒng)一計(jì)量單位等規(guī)范化操作



結(jié)構(gòu)化數(shù)據(jù)采集又可細(xì)分為全量采集、增量采集、實(shí)時(shí)采集三類。三種采集方式的各自特點(diǎn)和適應(yīng)場合如下圖所示,其中全量采集的方式最為簡單;實(shí)時(shí)采集的采集質(zhì)量最難控制。

在傳統(tǒng)的架構(gòu)中,日志的結(jié)構(gòu)化處理是放在數(shù)倉體系之外的。在大數(shù)據(jù)平臺倉庫架構(gòu)中,日志在采集到平臺之前不做結(jié)構(gòu)化處理;在大數(shù)據(jù)平臺上按行符分割每條日志,整條日志存儲在一個(gè)數(shù)據(jù)表字段;后續(xù),通過UDF或MR計(jì)算框架實(shí)現(xiàn)日志結(jié)構(gòu)化。

非結(jié)構(gòu)化的數(shù)據(jù)需要結(jié)構(gòu)化才能使用。非結(jié)構(gòu)化數(shù)據(jù)特征提取包括語音轉(zhuǎn)文本、圖片識別、自然語言處理、圖片達(dá)標(biāo)、視頻識別等方式。


統(tǒng)計(jì)服務(wù)主要是偏傳統(tǒng)的報(bào)表服務(wù),利用大數(shù)據(jù)平臺將數(shù)據(jù)加工后的結(jié)果放入關(guān)系型數(shù)據(jù)庫中,供前端的報(bào)表系統(tǒng)或業(yè)務(wù)系統(tǒng)查詢。
分析服務(wù)用來提供明細(xì)的事實(shí)數(shù)據(jù),利用大數(shù)據(jù)平臺的實(shí)時(shí)計(jì)算能力,允許操作人員自主靈活的進(jìn)行各種維度的交叉組合查詢。分析服務(wù)的能力類似于傳統(tǒng)cube提供的內(nèi)容,但是在大數(shù)據(jù)平臺下不需要預(yù)先建好cube,更靈活、更節(jié)省成本。
標(biāo)簽服務(wù),大數(shù)據(jù)的應(yīng)用場景下,經(jīng)常會對主體進(jìn)行特征刻畫,比如客戶的消費(fèi)能力、興趣習(xí)慣、物理特征等等,這些數(shù)據(jù)通過打標(biāo)簽轉(zhuǎn)換成KV的數(shù)據(jù)服務(wù),用于前端應(yīng)用查詢。(了解更多數(shù)據(jù)服務(wù)化的內(nèi)容,歡迎點(diǎn)擊閱讀:快手大數(shù)據(jù)平臺服務(wù)化實(shí)踐)


數(shù)據(jù)治理的內(nèi)容主要體現(xiàn)在三個(gè)方面:
保障體系:開展數(shù)據(jù)治理組織建設(shè),并建立配套的流程和標(biāo)準(zhǔn)規(guī)范 內(nèi)容建設(shè):包括數(shù)據(jù)架構(gòu)頂層規(guī)劃設(shè)計(jì)、數(shù)據(jù)模型標(biāo)準(zhǔn)設(shè)計(jì)、數(shù)據(jù)開發(fā)、生產(chǎn)運(yùn)營維護(hù)、數(shù)據(jù)共享服務(wù) 管理體系:數(shù)據(jù)治理和數(shù)據(jù)安全是核心重點(diǎn)



事前,我們可以通過制定每份數(shù)據(jù)的數(shù)據(jù)質(zhì)量監(jiān)控規(guī)則,越重要的數(shù)據(jù)對應(yīng)的監(jiān)控規(guī)則應(yīng)該越多。
事中,通過監(jiān)控和影響數(shù)據(jù)生產(chǎn)過程,對不符合質(zhì)量要求的數(shù)據(jù)進(jìn)行干預(yù),使其不影響下流數(shù)據(jù)的質(zhì)量。
事后,通過對數(shù)據(jù)質(zhì)量情況進(jìn)行分析和打分,將一些不足和改進(jìn)反饋數(shù)據(jù)監(jiān)控體系,推動整體的數(shù)據(jù)質(zhì)量提升。(了解更多數(shù)據(jù)質(zhì)量的內(nèi)容,歡迎請點(diǎn)擊閱讀:企業(yè)數(shù)據(jù)質(zhì)量管理的核心要素和技術(shù)路線(PPT))

