終于有人把數(shù)據(jù)倉庫講明白了

建立公司業(yè)務(wù)數(shù)據(jù)模型; 整合公司數(shù)據(jù)源,讓清洗和治理之后的數(shù)據(jù)成為業(yè)務(wù)數(shù)據(jù)的唯一事實(shí); 支持進(jìn)行細(xì)粒度的、多維的分析,幫助高層管理者或者業(yè)務(wù)分析人員做出商業(yè)戰(zhàn)略決策; 為更高一層的數(shù)據(jù)服務(wù)、機(jī)器學(xué)習(xí)應(yīng)用提供主要的歷史數(shù)據(jù)來源。

概念模型將業(yè)務(wù)抽象出來,實(shí)現(xiàn)對實(shí)際業(yè)務(wù)的數(shù)字化描述。 邏輯模型將概念模型進(jìn)行結(jié)構(gòu)化的設(shè)計(jì),使其能夠用于后續(xù)的分析和管理。 物理模型將邏輯模型映射到實(shí)際的物理存儲(chǔ)上,例如數(shù)據(jù)庫、表的設(shè)計(jì)。

比較直觀和便于理解,一條事實(shí)表中的記錄就可以還原一個(gè)業(yè)務(wù)流程的大部分信息; 處理復(fù)雜的查詢效率較高,無須做大量會(huì)占用很多計(jì)算資源的join操作; 能夠快速支持業(yè)務(wù)的變化和擴(kuò)展,可以方便地添加新的業(yè)務(wù)模型及維度,而無須考慮復(fù)雜的依賴關(guān)系; 可以快速實(shí)施和見效,可以有針對性地選擇業(yè)務(wù)場景落地然后再逐漸擴(kuò)展。

其一,根據(jù)業(yè)務(wù)需求人工確定最常用的組合,例如,上面的表可以分為sales_by_channel_gender_age_income_referer_region和sales_by_channel_category_referer_region,如果業(yè)務(wù)部門有其他組合,可以使用即席計(jì)算來算一下,但無法做到實(shí)時(shí)交互了。 其二,使用Kylin這樣的預(yù)計(jì)算和動(dòng)態(tài)規(guī)劃的Cube Planner。

第一,數(shù)據(jù)分散、雜亂,無法理解。很多企業(yè)業(yè)務(wù)線眾多,數(shù)據(jù)源分散,且各系統(tǒng)間無法打通,成為信息孤島;數(shù)據(jù)收集標(biāo)準(zhǔn)不相同,數(shù)據(jù)零散地存儲(chǔ)在各個(gè)業(yè)務(wù)系統(tǒng)中,難以形成全局?jǐn)?shù)據(jù)聯(lián)動(dòng)。 第二,數(shù)據(jù)收集渠道單一,模式落后,效率低,成本高。業(yè)務(wù)增長帶來數(shù)據(jù)增長,傳統(tǒng)數(shù)據(jù)管理模式難以應(yīng)對大數(shù)據(jù)增長。從渠道上來說,傳統(tǒng)數(shù)據(jù)收集渠道單一、落后、偏線下化;從方式上來說,很多企業(yè)收集信息的手段仍停留在手工收集階段,效率低、成本高且造成數(shù)據(jù)不匹配。 第三,數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一,缺乏分析工具,數(shù)據(jù)難運(yùn)用。一方面,數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一導(dǎo)致整合困難,難以進(jìn)行全局聯(lián)動(dòng);另一方面,缺乏數(shù)據(jù)分析工具,僅靠數(shù)據(jù)專業(yè)人才難以滿足企業(yè)需求,且難以看到數(shù)據(jù)的實(shí)時(shí)變化及價(jià)值。這兩方面的因素導(dǎo)致難以真正實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)發(fā)展,提升運(yùn)營管理水平。 第四,系統(tǒng)落后,難以滿足數(shù)據(jù)管理需求,存在數(shù)據(jù)風(fēng)險(xiǎn)隱患。在數(shù)據(jù)井噴式增長的當(dāng)下,眾多企業(yè)未能跟上隨數(shù)據(jù)增長而變化的需求,難以滿足監(jiān)管要求,同時(shí)存在數(shù)據(jù)隱患及風(fēng)險(xiǎn)問題。
元數(shù)據(jù)管理:通過統(tǒng)一的元數(shù)據(jù)管理滿足各類用戶的數(shù)據(jù)資源使用需求,實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)的可視化管理。 數(shù)據(jù)質(zhì)量管理:通過數(shù)據(jù)質(zhì)量控制方法,使得數(shù)據(jù)的采集、存儲(chǔ)和使用符合相關(guān)的質(zhì)量要求。 數(shù)據(jù)安全管理:保證數(shù)據(jù)不因偶然或惡意的原因而遭到破壞、更改或泄露,還包括數(shù)據(jù)訪問權(quán)限控制、數(shù)據(jù)安全服務(wù)、數(shù)據(jù)訪問審計(jì)等。 數(shù)據(jù)標(biāo)準(zhǔn)管理:為數(shù)據(jù)標(biāo)準(zhǔn)提供系統(tǒng)工具支撐,包括標(biāo)準(zhǔn)管理、標(biāo)準(zhǔn)展示、標(biāo)準(zhǔn)監(jiān)控等功能。 元數(shù)據(jù)管理接口:提供元數(shù)據(jù)查詢、數(shù)據(jù)加解密、數(shù)據(jù)資產(chǎn)注冊接口和SSO接口。 數(shù)據(jù)管理門戶:包括數(shù)據(jù)資產(chǎn)查詢以及數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全、元數(shù)據(jù)和數(shù)據(jù)標(biāo)準(zhǔn)集成門戶等。
基礎(chǔ)類數(shù)據(jù)標(biāo)準(zhǔn)一般包括數(shù)據(jù)維度標(biāo)準(zhǔn)、主數(shù)據(jù)標(biāo)準(zhǔn)、邏輯數(shù)據(jù)模型標(biāo)準(zhǔn)、物理數(shù)據(jù)模型標(biāo)準(zhǔn)、元數(shù)據(jù)標(biāo)準(zhǔn)、公共代碼標(biāo)準(zhǔn)等。 指標(biāo)類數(shù)據(jù)標(biāo)準(zhǔn)一般分為基礎(chǔ)指標(biāo)標(biāo)準(zhǔn)和計(jì)算指標(biāo)(又稱組合指標(biāo))標(biāo)準(zhǔn)?;A(chǔ)指標(biāo)一般不含維度信息,且具有特定業(yè)務(wù)和經(jīng)濟(jì)含義,計(jì)算指標(biāo)通常由兩個(gè)以上基礎(chǔ)指標(biāo)計(jì)算得出。
理解數(shù)據(jù)標(biāo)準(zhǔn)化需求; 構(gòu)建數(shù)據(jù)標(biāo)準(zhǔn)體系和規(guī)范; 規(guī)劃制定數(shù)據(jù)標(biāo)準(zhǔn)化的實(shí)施路線和方案; 制定數(shù)據(jù)標(biāo)準(zhǔn)管理辦法和實(shí)施流程要求; 建設(shè)數(shù)據(jù)標(biāo)準(zhǔn)管理工具,推動(dòng)數(shù)據(jù)標(biāo)準(zhǔn)的執(zhí)行落地; 評估數(shù)據(jù)標(biāo)準(zhǔn)化工作的開展情況。

數(shù)據(jù)不完整,例如患者的屬性中缺少性別、籍貫、年齡等。 數(shù)據(jù)不唯一,例如不同來源的數(shù)據(jù)出現(xiàn)重復(fù)的現(xiàn)象。 數(shù)據(jù)不權(quán)威,例如同一個(gè)指標(biāo)出現(xiàn)多個(gè)來源的數(shù)據(jù),且數(shù)值不一樣。 數(shù)據(jù)不合法,例如獲取的數(shù)據(jù)與常識(shí)不符,如年齡大于150歲。 數(shù)據(jù)不一致,例如不同來源的不同指標(biāo)實(shí)際內(nèi)涵是一樣的。
數(shù)據(jù)完整性:直接補(bǔ)齊數(shù)據(jù)。沒有辦法直接補(bǔ)齊的,通過其他信息補(bǔ)全,例如使用身份證件號(hào)碼推算性別、籍貫、出生日期、年齡等。還可以通過前后數(shù)據(jù)補(bǔ)全,例如時(shí)間序列缺數(shù)據(jù),可以使用前后的均值;如果缺的數(shù)據(jù)較多,可以使用平滑等處理。 數(shù)據(jù)唯一性:去除重復(fù)記錄,只保留一條。可以按數(shù)據(jù)庫主鍵去重,也可以按規(guī)則去重。編寫一系列規(guī)則,對重復(fù)情況復(fù)雜的數(shù)據(jù)進(jìn)行去重,例如對于不同渠道來的客戶數(shù)據(jù),可以通過相同的關(guān)鍵信息進(jìn)行匹配,合并去重。 數(shù)據(jù)的權(quán)威性:對不同渠道設(shè)定權(quán)威級(jí)別,用最權(quán)威的那個(gè)渠道的數(shù)據(jù)。 數(shù)據(jù)的合法性:設(shè)定強(qiáng)制合法規(guī)則,凡是不在此規(guī)則范圍內(nèi)的,強(qiáng)制設(shè)為最大值,或者判為無效并剔除。例如,字段類型合法規(guī)則中,日期字段格式為year-month-day;字段內(nèi)容合法規(guī)則中,性別屬于男、女或未知。 數(shù)據(jù)的一致性:建立數(shù)據(jù)體系,包含但不限于指標(biāo)體系(度量)、維度(分組、統(tǒng)計(jì)口徑)、單位、頻度、數(shù)據(jù)。
降低高維度數(shù)據(jù)的維度:一般采用主成分分析法和隨機(jī)森林法。 處理低維度數(shù)據(jù):通過匯總、平均、加總、取最大值、取最小值、離散化、聚類、自定義分組等方法來抽象。 處理無關(guān)和冗余信息:剔除無關(guān)的和冗余的字段。 處理多指標(biāo)數(shù)值:對多指標(biāo)數(shù)值進(jìn)行歸一化,例如取最大/最小值、取均值等。
關(guān)于作者:彭鋒,智領(lǐng)云科技聯(lián)合創(chuàng)始人兼CEO。武漢大學(xué)計(jì)算機(jī)系本科及碩士,美國馬里蘭大學(xué)計(jì)算機(jī)專業(yè)博士,主要研究方向是流式半結(jié)構(gòu)化數(shù)據(jù)的高性能查詢引擎,在數(shù)據(jù)庫頂級(jí)會(huì)議和期刊SIGMOD、ICDE、TODS上發(fā)表多篇開創(chuàng)性論文。2011年加入Twitter,任大數(shù)據(jù)平臺(tái)主任工程師、公司架構(gòu)師委員會(huì)大數(shù)據(jù)負(fù)責(zé)人,負(fù)責(zé)公司大數(shù)據(jù)平臺(tái)及流水線的建設(shè)和管理。
宋文欣,智領(lǐng)云科技聯(lián)合創(chuàng)始人兼CTO。武漢大學(xué)計(jì)算機(jī)系本科及碩士,美國紐約州立大學(xué)石溪分校計(jì)算機(jī)專業(yè)博士。曾先后就職于Ask.com和EA(電子藝界)。2016年回國聯(lián)合創(chuàng)立智領(lǐng)云科技有限公司,組建智領(lǐng)云技術(shù)團(tuán)隊(duì),開發(fā)了BDOS大數(shù)據(jù)平臺(tái)操作系統(tǒng)。
孫浩峰,智領(lǐng)云科技市場總監(jiān)。前CSDN內(nèi)容運(yùn)營副總編,關(guān)注云計(jì)算、大數(shù)據(jù)、人工智能、區(qū)塊鏈等技術(shù)領(lǐng)域,對云計(jì)算、網(wǎng)絡(luò)技術(shù)、網(wǎng)絡(luò)存儲(chǔ)有深刻認(rèn)識(shí)。擁有豐富的媒體從業(yè)經(jīng)驗(yàn)和專業(yè)的網(wǎng)絡(luò)安全技術(shù)功底,具有超過15年的企業(yè)級(jí)IT市場傳播、推廣、宣傳和寫作經(jīng)驗(yàn),撰寫過多篇在業(yè)界具有一定影響力的文章。
本文摘編自《云原生數(shù)據(jù)中臺(tái):架構(gòu)、方法論與實(shí)踐》,經(jīng)出版方授權(quán)發(fā)布。


