大數(shù)據(jù)平臺(tái)的3個(gè)核心功能
導(dǎo)讀:大數(shù)據(jù)平臺(tái)可以分為操作數(shù)據(jù)存儲(chǔ)(ODS)、數(shù)據(jù)倉(cāng)庫(kù)(DW)和數(shù)據(jù)集市(DM)三層,分別對(duì)應(yīng)著數(shù)據(jù)清洗、數(shù)據(jù)管理和數(shù)據(jù)應(yīng)用這三個(gè)核心功能。

▲數(shù)據(jù)架構(gòu)示意圖
01 原始數(shù)據(jù)清洗
操作數(shù)據(jù)存儲(chǔ)(Operational Data Store,ODS),又被稱為貼源層,是原始數(shù)據(jù)經(jīng)過(guò)ETL(Extract-Transform-Load)清洗后存儲(chǔ)的位置。ODS通常有如下幾個(gè)作用。
在業(yè)務(wù)系統(tǒng)和數(shù)據(jù)倉(cāng)庫(kù)之間做了隔離,將業(yè)務(wù)系統(tǒng)產(chǎn)生的原始數(shù)據(jù)備份的同時(shí),保證了兩個(gè)系統(tǒng)之間數(shù)據(jù)的一致性。
存儲(chǔ)了業(yè)務(wù)側(cè)的明細(xì)數(shù)據(jù),方便后續(xù)的查詢和加工以及報(bào)表的產(chǎn)出。
完成數(shù)據(jù)倉(cāng)庫(kù)中不能實(shí)現(xiàn)的一些功能,相比于DW和DM層通常使用Hive查詢,ODS一般利用更底層的編程語(yǔ)言加工而成,可以實(shí)現(xiàn)一些更復(fù)雜和更高效的ETL操作。
此外,ODS層保留了大量的歷史明細(xì)數(shù)據(jù),通常約定只能增加不能修改,利用時(shí)間分區(qū)的方式進(jìn)行區(qū)分。
02 數(shù)據(jù)倉(cāng)庫(kù)管理
數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse,DW)是企業(yè)級(jí)數(shù)據(jù)集中匯總的位置。DW層最大的特點(diǎn)是面向主題,根據(jù)不同的主題設(shè)計(jì)表的結(jié)構(gòu)和內(nèi)容,這樣做的好處是排除了與主題無(wú)關(guān)的冗余數(shù)據(jù),提高了特定主題下的查詢和加工效率。
另一方面,數(shù)據(jù)倉(cāng)庫(kù)作為連接原始數(shù)據(jù)和標(biāo)簽之間的中間層,必須保證數(shù)據(jù)質(zhì)量,包括唯一性、權(quán)威性、準(zhǔn)確性等。
以風(fēng)控主題為例,DW層中通常會(huì)包括授信、支用、還款、催收等一系列數(shù)據(jù),方便后期相關(guān)標(biāo)簽的計(jì)算。另外,還會(huì)有一些公用的維度表被存在與DW層平行的DIM層中,這些表通常是一些城市、日期類的字典數(shù)據(jù),貫穿多個(gè)主題數(shù)據(jù)。

03 數(shù)據(jù)標(biāo)簽應(yīng)用
整個(gè)數(shù)據(jù)平臺(tái)的最上層是數(shù)據(jù)集市(Data Market,DM),也是與風(fēng)控人員聯(lián)系最緊密的一層。顧名思義,數(shù)據(jù)集市就是將數(shù)據(jù)倉(cāng)庫(kù)中的主題數(shù)據(jù)根據(jù)不同的業(yè)務(wù)需要挑選出來(lái),構(gòu)成特定的業(yè)務(wù)場(chǎng)景標(biāo)簽。
例如想構(gòu)建與客戶逾期表現(xiàn)相關(guān)的標(biāo)簽,只需要將DW層中與還款相關(guān)的表抽取出來(lái)加工即可,這樣不僅結(jié)構(gòu)清晰,還保證了標(biāo)簽計(jì)算的效率。
由于DM層的數(shù)據(jù)標(biāo)簽與業(yè)務(wù)聯(lián)系較為緊密,建議在DM層邏輯設(shè)計(jì)的初期,讓更多的業(yè)務(wù)人員參與進(jìn)來(lái),這樣才能避免后期技術(shù)與業(yè)務(wù)在標(biāo)簽計(jì)算口徑上不統(tǒng)一的問(wèn)題。
最后想補(bǔ)充說(shuō)明的是,由于大數(shù)據(jù)平臺(tái)的計(jì)算鏈條較長(zhǎng),且充斥著大量的數(shù)據(jù)處理步驟,在實(shí)際生產(chǎn)中平臺(tái)的監(jiān)控和預(yù)警機(jī)制至關(guān)重要,例如對(duì)于上下游依賴關(guān)系的判斷、每個(gè)時(shí)間分區(qū)數(shù)據(jù)量的監(jiān)控、郵件和短信報(bào)警等,都是把控?cái)?shù)據(jù)準(zhǔn)確性和時(shí)效性的必要手段。


劃重點(diǎn)??
