<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          終于有人把數(shù)據(jù)倉庫講明白了

          共 7967字,需瀏覽 16分鐘

           ·

          2021-08-24 18:56


          作者:彭鋒 宋文欣 孫浩峰
          來源:大數(shù)據(jù)DT(ID:hzdashuju)




          數(shù)據(jù)倉庫是一個(gè)面向主題的、集成的、隨時(shí)間變化但信息本身相對穩(wěn)定的數(shù)據(jù)集合,用于支持管理決策過程。數(shù)據(jù)倉庫的主要功能如下:

          • 建立公司業(yè)務(wù)數(shù)據(jù)模型;
          • 整合公司數(shù)據(jù)源,讓清洗和治理之后的數(shù)據(jù)成為業(yè)務(wù)數(shù)據(jù)的唯一事實(shí);
          • 支持進(jìn)行細(xì)粒度的、多維的分析,幫助高層管理者或者業(yè)務(wù)分析人員做出商業(yè)戰(zhàn)略決策;
          • 為更高一層的數(shù)據(jù)服務(wù)、機(jī)器學(xué)習(xí)應(yīng)用提供主要的歷史數(shù)據(jù)來源。

          數(shù)據(jù)倉庫的發(fā)展已有近40年的歷史,但是它在大數(shù)據(jù)平臺(tái)出現(xiàn)之前主要處理的是關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)(這里稱之為傳統(tǒng)數(shù)據(jù)倉庫)。在大數(shù)據(jù)出現(xiàn)之后,數(shù)據(jù)倉庫承擔(dān)的任務(wù)并沒有變,但是其建設(shè)方式、建設(shè)內(nèi)容和技術(shù)架構(gòu)都發(fā)生了很大的變化。本文將對此做個(gè)簡單介紹。

          與ODS一般保存支持業(yè)務(wù)運(yùn)營的當(dāng)前數(shù)據(jù)不同,數(shù)據(jù)倉庫記錄的是業(yè)務(wù)數(shù)據(jù)的歷史及匯總數(shù)據(jù)。在很多系統(tǒng)中,ODS對應(yīng)的持久性數(shù)據(jù)存儲(chǔ)也叫作貼源數(shù)據(jù)層,其意義都是一樣的:從業(yè)務(wù)系統(tǒng)中采集的不作修改的OLTP操作數(shù)據(jù)集。ODS除了作為OLTP數(shù)據(jù)的導(dǎo)入?yún)^(qū)之外,也可以處理一些分析需求。表10-2對二者進(jìn)行了簡單對比。

          ▼表10-2 ODS和數(shù)據(jù)倉庫的對比


          01 數(shù)據(jù)建模方式

          關(guān)于數(shù)據(jù)倉庫中的建模,已經(jīng)有很多介紹傳統(tǒng)數(shù)據(jù)倉庫的書詳細(xì)介紹過,因此這里只做簡單介紹。

          數(shù)據(jù)倉庫的模型分為三層:概念模型、邏輯模型和物理模型。

          • 概念模型將業(yè)務(wù)抽象出來,實(shí)現(xiàn)對實(shí)際業(yè)務(wù)的數(shù)字化描述。
          • 邏輯模型將概念模型進(jìn)行結(jié)構(gòu)化的設(shè)計(jì),使其能夠用于后續(xù)的分析和管理。
          • 物理模型將邏輯模型映射到實(shí)際的物理存儲(chǔ)上,例如數(shù)據(jù)庫、表的設(shè)計(jì)。

          一般數(shù)據(jù)倉庫中的建模工作主要在于邏輯模型層,常見的有實(shí)體關(guān)系(ER)建模和維度(dimensional)建模兩種方式。

          實(shí)體關(guān)系建模使用實(shí)體加關(guān)系的3NF模型來描述企業(yè)業(yè)務(wù)架構(gòu)。值得注意的是,業(yè)務(wù)系統(tǒng)(OLTP)里的3NF模型一般針對某個(gè)具體的業(yè)務(wù)流程,而數(shù)據(jù)倉庫(OLAP)里的3NF模型一般針對企業(yè)全局的實(shí)體和關(guān)系抽象,強(qiáng)調(diào)數(shù)據(jù)的匯聚整合和一致性治理。

          被譽(yù)為“數(shù)據(jù)倉庫之父”的Bill Inmon比較倡導(dǎo)實(shí)體關(guān)系建模。例如,Teradata為金融業(yè)設(shè)計(jì)的FS-LDM(Financial Services Logical Data Model)就是一個(gè)典型的實(shí)體關(guān)系模型(見圖10-2),它將常見的金融活動(dòng)抽象和總結(jié)為10個(gè)主題以及它們之間的關(guān)系,這10個(gè)主題是當(dāng)事人、產(chǎn)品、協(xié)議、事件、資產(chǎn)、財(cái)務(wù)、機(jī)構(gòu)、地域、營銷和渠道。

          ▲圖10-2 Teradata FS-LDM

          實(shí)體關(guān)系建模的好處是符合3NF,數(shù)據(jù)冗余少,容易進(jìn)行數(shù)據(jù)整合和治理。但是不推薦將這種方式用于基于大數(shù)據(jù)的數(shù)據(jù)倉庫建模,因?yàn)槠浣ㄔO(shè)周期長,設(shè)計(jì)者必須深刻了解企業(yè)的全局業(yè)務(wù)之后才能設(shè)計(jì)和實(shí)施,且其不能很好地支持業(yè)務(wù)的快速變化。

          維度建模由數(shù)據(jù)倉庫和商務(wù)智能領(lǐng)域的權(quán)威專家Ralph Kimball提出,其核心思想是從業(yè)務(wù)分析決策的需求出發(fā)構(gòu)建模型。

          具體來講,就是將需要分析的業(yè)務(wù)流程的基本信息(如一次交易的交易ID、客戶ID、門店ID、貨物ID、交易時(shí)間、交易金額)記錄在事實(shí)表中,而將與此業(yè)務(wù)流程相關(guān)的通用信息(如客戶信息、門店信息、貨物信息)記錄在維度表中。

          與實(shí)體關(guān)系建模不同,維度建模一般使用星型模型或者雪花模型,會(huì)有一定的數(shù)據(jù)冗余(例如在同一次交易中的多個(gè)貨物記錄中,交易ID、客戶ID、門店ID等可能會(huì)重復(fù)),也不符合3NF,但它是我們在為數(shù)據(jù)中臺(tái)建設(shè)數(shù)據(jù)倉庫時(shí)更推薦的建模方式,因?yàn)橄啾葘?shí)體關(guān)系建模,它具有以下優(yōu)勢:

          • 比較直觀和便于理解,一條事實(shí)表中的記錄就可以還原一個(gè)業(yè)務(wù)流程的大部分信息;
          • 處理復(fù)雜的查詢效率較高,無須做大量會(huì)占用很多計(jì)算資源的join操作;
          • 能夠快速支持業(yè)務(wù)的變化和擴(kuò)展,可以方便地添加新的業(yè)務(wù)模型及維度,而無須考慮復(fù)雜的依賴關(guān)系;
          • 可以快速實(shí)施和見效,可以有針對性地選擇業(yè)務(wù)場景落地然后再逐漸擴(kuò)展。


          02 數(shù)據(jù)倉庫建設(shè)的層次

          理論上,基于Hadoop的數(shù)據(jù)倉庫建設(shè)有多種分層方法:有的體系中沒有專門的數(shù)據(jù)湖,而把ODS歸為數(shù)據(jù)倉庫的一部分,有的體系中把數(shù)據(jù)集市也歸為數(shù)據(jù)倉庫的一部分,還有的體系中把維度數(shù)據(jù)單獨(dú)算作一層。雖然分層方法不一,但是一般的數(shù)據(jù)倉庫建設(shè)過程和思路在原理上都是類似的。

          在本文中,我們將數(shù)據(jù)倉庫的建設(shè)簡單分為數(shù)據(jù)湖、數(shù)據(jù)倉庫和數(shù)據(jù)集市三層,其中,數(shù)據(jù)倉庫層可以進(jìn)一步分為明細(xì)數(shù)據(jù)層(DWD,也稱基礎(chǔ)數(shù)據(jù)層)和數(shù)據(jù)匯總層(DWS,也稱通用數(shù)據(jù)層)。此外,我們使用統(tǒng)一的維度數(shù)據(jù)表和元數(shù)據(jù)/主數(shù)據(jù)管理系統(tǒng),如圖10-3所示。

          ▲圖10-3 數(shù)據(jù)倉庫層次

          下面介紹一下數(shù)據(jù)倉庫里各個(gè)層次的主要功能、數(shù)據(jù)模型以及主要數(shù)據(jù)處理方式。

          值得注意的是,很多數(shù)據(jù)倉庫系統(tǒng)都可以根據(jù)自己的實(shí)際情況來組織這些層次的功能,比如,由于使用專門的原始明細(xì)數(shù)據(jù)層會(huì)多占用很多空間,很多實(shí)際項(xiàng)目就將數(shù)據(jù)湖中的ODS稍微擴(kuò)展一下,而不專門設(shè)置原始明細(xì)數(shù)據(jù)層;也有系統(tǒng)干脆就把ODS規(guī)劃到數(shù)據(jù)倉庫的范疇。

          還有,雖然數(shù)據(jù)集市通常是與數(shù)據(jù)倉庫區(qū)分開的,以顯示其面向具體業(yè)務(wù)、直接使用的特征(所以一般稱之為應(yīng)用數(shù)據(jù)集市),但是數(shù)據(jù)倉庫的建設(shè)一般都會(huì)包括數(shù)據(jù)集市。其實(shí)這個(gè)名稱是什么并不重要,關(guān)鍵是要理解每一層承擔(dān)的工作和設(shè)計(jì)原則。

          1. 原始數(shù)據(jù)

          一般按照業(yè)務(wù)域組織業(yè)務(wù)數(shù)據(jù)的原始明細(xì)歷史記錄。有時(shí)這一層直接由ODS承擔(dān),如單獨(dú)設(shè)置了這一層,其數(shù)據(jù)模型基本與ODS一致,再加上一些數(shù)據(jù)處理需要的統(tǒng)一擴(kuò)展字段,例如入庫時(shí)間、更新時(shí)間、處理批次等。

          有時(shí)會(huì)在這一層進(jìn)行名稱、代碼的標(biāo)準(zhǔn)化,例如表名的統(tǒng)一規(guī)范、表名的去重處理,以及一些簡單的維度表合并和代碼轉(zhuǎn)換等。這些數(shù)據(jù)既可以按增量組織,根據(jù)年、月、日進(jìn)行分區(qū),也可以進(jìn)行全量組織,每天存儲(chǔ)一個(gè)最新的全量快照。

          2. 明細(xì)數(shù)據(jù)

          將原始明細(xì)數(shù)據(jù)根據(jù)業(yè)務(wù)規(guī)則進(jìn)行各種數(shù)據(jù)清洗處理,包括ID轉(zhuǎn)換、字段合并、臟數(shù)據(jù)處理、維度數(shù)據(jù)標(biāo)準(zhǔn)化、脫敏處理、數(shù)據(jù)質(zhì)量檢測等。

          這一層的數(shù)據(jù)模型需要將主數(shù)據(jù)和維度數(shù)據(jù)模型確定下來,例如用戶、產(chǎn)品、交易等主數(shù)據(jù)及其標(biāo)準(zhǔn)維度,并將原始數(shù)據(jù)通過ETL執(zhí)行前期處理,將結(jié)果數(shù)據(jù)存儲(chǔ)到相應(yīng)的清洗明細(xì)表里。

          一般這一層還負(fù)責(zé)將一些非結(jié)構(gòu)化數(shù)據(jù)(日志、埋點(diǎn)數(shù)據(jù))解析和治理轉(zhuǎn)換成結(jié)構(gòu)化的明細(xì)表,例如將服務(wù)器日志解析成用戶訪問明細(xì)表等。絕大部分的數(shù)據(jù)治理工作都發(fā)生在這一層,這一層的工作量也是最大的。

          這一層的數(shù)據(jù)的ID、維度數(shù)據(jù)值已經(jīng)標(biāo)準(zhǔn)化和經(jīng)過驗(yàn)證,將被作為數(shù)據(jù)分析的主要基礎(chǔ),其清洗和處理的邏輯比較復(fù)雜,在處理中出現(xiàn)錯(cuò)誤時(shí)往往需要重新計(jì)算。因此,血緣、版本、變更管理對這一層數(shù)據(jù)的有效管理是很關(guān)鍵的。

          3. 匯總數(shù)據(jù)

          匯總數(shù)據(jù)是在清洗的明細(xì)數(shù)據(jù)基礎(chǔ)上生成的細(xì)粒度的匯總聚合結(jié)果。這一層的數(shù)據(jù)模型一般就是根據(jù)業(yè)務(wù)需求按照星型模型或者雪花模型建設(shè)的最細(xì)粒度的匯總,所以基本上就把數(shù)據(jù)倉庫的分析功能確定了。

          例如,如果要按渠道(channel)、用戶性別(gender)、年齡(age)、收入水平(income)、產(chǎn)品品類(category)、廣告引流(referer)來查詢產(chǎn)品的銷售情況,那么就要有一個(gè)專門的匯總事實(shí)表來處理這個(gè)查詢,其命名類似于sales_by_channel_gender_age_income_category_referer。

          這個(gè)表名中包含了涉及的每個(gè)維度的每一個(gè)可能的取值組合,且細(xì)化到每天或每小時(shí)的銷售額。每一個(gè)字段里的維度值都是標(biāo)準(zhǔn)的ID,對應(yīng)到相應(yīng)維度表中的取值。

          數(shù)據(jù)倉庫的建模就主要發(fā)生在這一階段,數(shù)據(jù)倉庫分析的限制就是這里建立的數(shù)據(jù)模型的能力。

          例如,在上面的模型里,我們可以使用細(xì)粒度數(shù)據(jù)的聚合來回答sales_by_channel(上月在淘寶上的銷售額)+sales_by_referer(昨天百度廣告帶來的銷售額)這樣的聚合查詢(roll up),也可以回答“昨天35歲以上高收入男性通過百度廣告在淘寶上購買3C產(chǎn)品的銷售額”這種下鉆查詢(drill down)。

          但是,如果我們再加一個(gè)維度,例如地區(qū)(region),這個(gè)模型就不能支持了。這時(shí)我們需要修改模型,重新計(jì)算。

          對于這種情況,有一種思路是,可不可以事先把所有的維度都加進(jìn)去?這種思路的主要問題在于數(shù)據(jù)條目會(huì)隨維度組合數(shù)目的增加而迅速增長。

          如果有50個(gè)維度,每個(gè)維度有100個(gè)可能的取值,那么一條銷售記錄就可能產(chǎn)生5000條匯總記錄,在實(shí)際工作場景中可能會(huì)更多。除了數(shù)據(jù)量巨大、ETL任務(wù)耗時(shí)長之外,這樣的方案在做聚合查詢的時(shí)候效率也很低。

          這種高維組合數(shù)據(jù)一般稱為數(shù)據(jù)立方體(Data Cube),其生成和計(jì)算問題有兩個(gè)傳統(tǒng)的解決辦法。

          • 其一,根據(jù)業(yè)務(wù)需求人工確定最常用的組合,例如,上面的表可以分為sales_by_channel_gender_age_income_referer_region和sales_by_channel_category_referer_region,如果業(yè)務(wù)部門有其他組合,可以使用即席計(jì)算來算一下,但無法做到實(shí)時(shí)交互了。
          • 其二,使用Kylin這樣的預(yù)計(jì)算和動(dòng)態(tài)規(guī)劃的Cube Planner。

          4. 數(shù)據(jù)集市

          這一層一般包含業(yè)務(wù)部門按照業(yè)務(wù)域建立的特定主題的匯總表,反映了業(yè)務(wù)運(yùn)行的狀況。數(shù)據(jù)集市中的數(shù)據(jù)主要來源于匯總數(shù)據(jù)事實(shí)表,但是近年來也有不少人通過數(shù)據(jù)分析或機(jī)器學(xué)習(xí)應(yīng)用直接從數(shù)據(jù)湖生成數(shù)據(jù)集市報(bào)表,畢竟匯總明細(xì)表受限于事先的設(shè)計(jì)。

          與匯總數(shù)據(jù)事實(shí)表不同,數(shù)據(jù)集市的數(shù)據(jù)表包含直接體現(xiàn)業(yè)務(wù)屬性的字段,比如數(shù)據(jù)集市中的客戶訂單統(tǒng)計(jì)表包含地區(qū)名稱和商品名稱(但不一定包含地區(qū)編碼和商品編碼)。

          這是因?yàn)閿?shù)據(jù)集市中的數(shù)據(jù)表往往會(huì)被直接輸入可視化的BI工具中進(jìn)行進(jìn)一步的分析,地區(qū)和商品這些維度字段都會(huì)直接采用名稱來直觀表示其業(yè)務(wù)屬性,以省去查詢時(shí)的join操作。

          例如前面的銷售匯總表可能會(huì)生成一個(gè)名為sales_by_channel_referer_region的數(shù)據(jù)集市報(bào)告,供市場部門監(jiān)測廣告在各個(gè)渠道和市場中的表現(xiàn)。

          數(shù)據(jù)集市中的數(shù)據(jù)一般都是數(shù)據(jù)應(yīng)用的數(shù)據(jù)來源,比如我們前面提到的可視化BI工具可以以圖表的方式呈現(xiàn)數(shù)據(jù)集市中的數(shù)據(jù),或者以數(shù)據(jù)立方體(多維數(shù)據(jù))的方式對數(shù)據(jù)集市中的數(shù)據(jù)進(jìn)行多維度分析(比如上卷、鉆取、切片、切塊等操作)。



          03 數(shù)據(jù)倉庫中的數(shù)據(jù)治理

          數(shù)據(jù)倉庫中的數(shù)據(jù)治理以解決實(shí)際業(yè)務(wù)問題為導(dǎo)向,以提升數(shù)據(jù)資產(chǎn)的管理水平和使用效率為目標(biāo),并以元數(shù)據(jù)為驅(qū)動(dòng),連接數(shù)據(jù)標(biāo)準(zhǔn)管理、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)安全管理各個(gè)階段,形成統(tǒng)一、完善、覆蓋數(shù)據(jù)全生命周期的數(shù)據(jù)治理體系。數(shù)據(jù)倉庫中的數(shù)據(jù)治理主要針對以下問題。

          • 第一,數(shù)據(jù)分散、雜亂,無法理解。很多企業(yè)業(yè)務(wù)線眾多,數(shù)據(jù)源分散,且各系統(tǒng)間無法打通,成為信息孤島;數(shù)據(jù)收集標(biāo)準(zhǔn)不相同,數(shù)據(jù)零散地存儲(chǔ)在各個(gè)業(yè)務(wù)系統(tǒng)中,難以形成全局?jǐn)?shù)據(jù)聯(lián)動(dòng)。
          • 第二,數(shù)據(jù)收集渠道單一,模式落后,效率低,成本高。業(yè)務(wù)增長帶來數(shù)據(jù)增長,傳統(tǒng)數(shù)據(jù)管理模式難以應(yīng)對大數(shù)據(jù)增長。從渠道上來說,傳統(tǒng)數(shù)據(jù)收集渠道單一、落后、偏線下化;從方式上來說,很多企業(yè)收集信息的手段仍停留在手工收集階段,效率低、成本高且造成數(shù)據(jù)不匹配。
          • 第三,數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一,缺乏分析工具,數(shù)據(jù)難運(yùn)用。一方面,數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一導(dǎo)致整合困難,難以進(jìn)行全局聯(lián)動(dòng);另一方面,缺乏數(shù)據(jù)分析工具,僅靠數(shù)據(jù)專業(yè)人才難以滿足企業(yè)需求,且難以看到數(shù)據(jù)的實(shí)時(shí)變化及價(jià)值。這兩方面的因素導(dǎo)致難以真正實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)發(fā)展,提升運(yùn)營管理水平。
          • 第四,系統(tǒng)落后,難以滿足數(shù)據(jù)管理需求,存在數(shù)據(jù)風(fēng)險(xiǎn)隱患。在數(shù)據(jù)井噴式增長的當(dāng)下,眾多企業(yè)未能跟上隨數(shù)據(jù)增長而變化的需求,難以滿足監(jiān)管要求,同時(shí)存在數(shù)據(jù)隱患及風(fēng)險(xiǎn)問題。

          為了解決以上問題,數(shù)據(jù)治理一般需要提供以下功能組件。

          • 元數(shù)據(jù)管理:通過統(tǒng)一的元數(shù)據(jù)管理滿足各類用戶的數(shù)據(jù)資源使用需求,實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)的可視化管理。
          • 數(shù)據(jù)質(zhì)量管理:通過數(shù)據(jù)質(zhì)量控制方法,使得數(shù)據(jù)的采集、存儲(chǔ)和使用符合相關(guān)的質(zhì)量要求。
          • 數(shù)據(jù)安全管理:保證數(shù)據(jù)不因偶然或惡意的原因而遭到破壞、更改或泄露,還包括數(shù)據(jù)訪問權(quán)限控制、數(shù)據(jù)安全服務(wù)、數(shù)據(jù)訪問審計(jì)等。
          • 數(shù)據(jù)標(biāo)準(zhǔn)管理:為數(shù)據(jù)標(biāo)準(zhǔn)提供系統(tǒng)工具支撐,包括標(biāo)準(zhǔn)管理、標(biāo)準(zhǔn)展示、標(biāo)準(zhǔn)監(jiān)控等功能。
          • 元數(shù)據(jù)管理接口:提供元數(shù)據(jù)查詢、數(shù)據(jù)加解密、數(shù)據(jù)資產(chǎn)注冊接口和SSO接口。
          • 數(shù)據(jù)管理門戶:包括數(shù)據(jù)資產(chǎn)查詢以及數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全、元數(shù)據(jù)和數(shù)據(jù)標(biāo)準(zhǔn)集成門戶等。

          在數(shù)據(jù)治理的過程中,我們一般需要解決數(shù)據(jù)采集、數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)組織和轉(zhuǎn)換、數(shù)據(jù)使用等問題。這里我們主要介紹數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)質(zhì)量的有關(guān)工作。

          數(shù)據(jù)標(biāo)準(zhǔn)是指保障數(shù)據(jù)內(nèi)外部使用和交換的一致性和準(zhǔn)確性的規(guī)范性約束。數(shù)據(jù)標(biāo)準(zhǔn)一般包括三個(gè)要素:標(biāo)準(zhǔn)分類、標(biāo)準(zhǔn)信息項(xiàng)(標(biāo)準(zhǔn)內(nèi)容)和相關(guān)公共代碼(如國別代碼、郵政編碼)。

          數(shù)據(jù)標(biāo)準(zhǔn)通常可分為基礎(chǔ)類數(shù)據(jù)標(biāo)準(zhǔn)指標(biāo)類數(shù)據(jù)標(biāo)準(zhǔn)。

          • 基礎(chǔ)類數(shù)據(jù)標(biāo)準(zhǔn)一般包括數(shù)據(jù)維度標(biāo)準(zhǔn)、主數(shù)據(jù)標(biāo)準(zhǔn)、邏輯數(shù)據(jù)模型標(biāo)準(zhǔn)、物理數(shù)據(jù)模型標(biāo)準(zhǔn)、元數(shù)據(jù)標(biāo)準(zhǔn)、公共代碼標(biāo)準(zhǔn)等。
          • 指標(biāo)類數(shù)據(jù)標(biāo)準(zhǔn)一般分為基礎(chǔ)指標(biāo)標(biāo)準(zhǔn)和計(jì)算指標(biāo)(又稱組合指標(biāo))標(biāo)準(zhǔn)?;A(chǔ)指標(biāo)一般不含維度信息,且具有特定業(yè)務(wù)和經(jīng)濟(jì)含義,計(jì)算指標(biāo)通常由兩個(gè)以上基礎(chǔ)指標(biāo)計(jì)算得出。

          數(shù)據(jù)標(biāo)準(zhǔn)管理是指制定和實(shí)施數(shù)據(jù)標(biāo)準(zhǔn)的一系列活動(dòng),其中的關(guān)鍵活動(dòng)有:

          • 理解數(shù)據(jù)標(biāo)準(zhǔn)化需求;
          • 構(gòu)建數(shù)據(jù)標(biāo)準(zhǔn)體系和規(guī)范;
          • 規(guī)劃制定數(shù)據(jù)標(biāo)準(zhǔn)化的實(shí)施路線和方案;
          • 制定數(shù)據(jù)標(biāo)準(zhǔn)管理辦法和實(shí)施流程要求;
          • 建設(shè)數(shù)據(jù)標(biāo)準(zhǔn)管理工具,推動(dòng)數(shù)據(jù)標(biāo)準(zhǔn)的執(zhí)行落地;
          • 評估數(shù)據(jù)標(biāo)準(zhǔn)化工作的開展情況。

          數(shù)據(jù)標(biāo)準(zhǔn)管理的目標(biāo)是通過制定和發(fā)布統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn),結(jié)合制度約束、系統(tǒng)控制等手段,確保企業(yè)大數(shù)據(jù)平臺(tái)數(shù)據(jù)的完整性、有效性、一致性、規(guī)范性和開放性,為數(shù)據(jù)資產(chǎn)管理活動(dòng)提供參考依據(jù)。

          很多行業(yè)監(jiān)管機(jī)構(gòu)都會(huì)組織發(fā)布行業(yè)數(shù)據(jù)標(biāo)準(zhǔn)。例如,中國銀保監(jiān)會(huì)于2018年5月發(fā)布了《銀行業(yè)金融機(jī)構(gòu)數(shù)據(jù)治理指引》,絕大部分銀行在建設(shè)大數(shù)據(jù)平臺(tái)或數(shù)據(jù)中臺(tái)的時(shí)候,必須了解這個(gè)數(shù)據(jù)標(biāo)準(zhǔn)中的內(nèi)容,并將其融入數(shù)據(jù)中臺(tái)的建設(shè)中。

          那么,怎樣才算將數(shù)據(jù)標(biāo)準(zhǔn)融入數(shù)據(jù)中臺(tái)的建設(shè)中了呢?

          一般來說,就是將數(shù)據(jù)標(biāo)準(zhǔn)中所描述的數(shù)據(jù)必須遵守的規(guī)則,比如數(shù)據(jù)取值范圍、數(shù)據(jù)項(xiàng)之間的關(guān)系和局限,都用代碼表現(xiàn)出來,然后系統(tǒng)持續(xù)對需要管理的數(shù)據(jù)集運(yùn)行這些檢查代碼(也有直接修補(bǔ)的代碼),如果出問題就報(bào)錯(cuò)。這樣就保證了數(shù)據(jù)系統(tǒng)中的數(shù)據(jù)符合規(guī)范。

          很多時(shí)候,達(dá)到這些標(biāo)準(zhǔn)的要求并不需要直接編寫代碼,而可以使用專門的數(shù)據(jù)治理工具的DSL來配置數(shù)據(jù)質(zhì)量規(guī)則。

          因?yàn)閿?shù)據(jù)標(biāo)準(zhǔn)的編寫與行業(yè)結(jié)合緊密,而且通常有專門的數(shù)據(jù)治理工具來實(shí)施這些數(shù)據(jù)質(zhì)量的工作,這里就不展開了。



          04 數(shù)據(jù)清洗

          數(shù)據(jù)治理工作中有一個(gè)很重要的步驟是數(shù)據(jù)清洗。數(shù)據(jù)清洗有兩個(gè)目的:一是解決數(shù)據(jù)質(zhì)量問題,二是讓數(shù)據(jù)更適合做挖掘。數(shù)據(jù)清洗的結(jié)果是對各種臟數(shù)據(jù)進(jìn)行相應(yīng)的處理,得到標(biāo)準(zhǔn)、干凈、連續(xù)的數(shù)據(jù),供數(shù)據(jù)統(tǒng)計(jì)、數(shù)據(jù)挖掘等使用。數(shù)據(jù)的質(zhì)量問題一般包括下面幾種情況。

          • 數(shù)據(jù)不完整,例如患者的屬性中缺少性別、籍貫、年齡等。
          • 數(shù)據(jù)不唯一,例如不同來源的數(shù)據(jù)出現(xiàn)重復(fù)的現(xiàn)象。
          • 數(shù)據(jù)不權(quán)威,例如同一個(gè)指標(biāo)出現(xiàn)多個(gè)來源的數(shù)據(jù),且數(shù)值不一樣。
          • 數(shù)據(jù)不合法,例如獲取的數(shù)據(jù)與常識(shí)不符,如年齡大于150歲。
          • 數(shù)據(jù)不一致,例如不同來源的不同指標(biāo)實(shí)際內(nèi)涵是一樣的。

          處理數(shù)據(jù)質(zhì)量問題一般有以下方法。

          • 數(shù)據(jù)完整性:直接補(bǔ)齊數(shù)據(jù)。沒有辦法直接補(bǔ)齊的,通過其他信息補(bǔ)全,例如使用身份證件號(hào)碼推算性別、籍貫、出生日期、年齡等。還可以通過前后數(shù)據(jù)補(bǔ)全,例如時(shí)間序列缺數(shù)據(jù),可以使用前后的均值;如果缺的數(shù)據(jù)較多,可以使用平滑等處理。
          • 數(shù)據(jù)唯一性:去除重復(fù)記錄,只保留一條。可以按數(shù)據(jù)庫主鍵去重,也可以按規(guī)則去重。編寫一系列規(guī)則,對重復(fù)情況復(fù)雜的數(shù)據(jù)進(jìn)行去重,例如對于不同渠道來的客戶數(shù)據(jù),可以通過相同的關(guān)鍵信息進(jìn)行匹配,合并去重。
          • 數(shù)據(jù)的權(quán)威性:對不同渠道設(shè)定權(quán)威級(jí)別,用最權(quán)威的那個(gè)渠道的數(shù)據(jù)。
          • 數(shù)據(jù)的合法性:設(shè)定強(qiáng)制合法規(guī)則,凡是不在此規(guī)則范圍內(nèi)的,強(qiáng)制設(shè)為最大值,或者判為無效并剔除。例如,字段類型合法規(guī)則中,日期字段格式為year-month-day;字段內(nèi)容合法規(guī)則中,性別屬于男、女或未知。
          • 數(shù)據(jù)的一致性:建立數(shù)據(jù)體系,包含但不限于指標(biāo)體系(度量)、維度(分組、統(tǒng)計(jì)口徑)、單位、頻度、數(shù)據(jù)。

          讓數(shù)據(jù)更適合做數(shù)據(jù)挖掘的方法一般有如下幾種。

          • 降低高維度數(shù)據(jù)的維度:一般采用主成分分析法和隨機(jī)森林法。
          • 處理低維度數(shù)據(jù):通過匯總、平均、加總、取最大值、取最小值、離散化、聚類、自定義分組等方法來抽象。
          • 處理無關(guān)和冗余信息:剔除無關(guān)的和冗余的字段。
          • 處理多指標(biāo)數(shù)值:對多指標(biāo)數(shù)值進(jìn)行歸一化,例如取最大/最小值、取均值等。


          關(guān)于作者:彭鋒,智領(lǐng)云科技聯(lián)合創(chuàng)始人兼CEO。武漢大學(xué)計(jì)算機(jī)系本科及碩士,美國馬里蘭大學(xué)計(jì)算機(jī)專業(yè)博士,主要研究方向是流式半結(jié)構(gòu)化數(shù)據(jù)的高性能查詢引擎,在數(shù)據(jù)庫頂級(jí)會(huì)議和期刊SIGMOD、ICDE、TODS上發(fā)表多篇開創(chuàng)性論文。2011年加入Twitter,任大數(shù)據(jù)平臺(tái)主任工程師、公司架構(gòu)師委員會(huì)大數(shù)據(jù)負(fù)責(zé)人,負(fù)責(zé)公司大數(shù)據(jù)平臺(tái)及流水線的建設(shè)和管理。

          宋文欣,智領(lǐng)云科技聯(lián)合創(chuàng)始人兼CTO。武漢大學(xué)計(jì)算機(jī)系本科及碩士,美國紐約州立大學(xué)石溪分校計(jì)算機(jī)專業(yè)博士。曾先后就職于Ask.com和EA(電子藝界)。2016年回國聯(lián)合創(chuàng)立智領(lǐng)云科技有限公司,組建智領(lǐng)云技術(shù)團(tuán)隊(duì),開發(fā)了BDOS大數(shù)據(jù)平臺(tái)操作系統(tǒng)。

          孫浩峰,智領(lǐng)云科技市場總監(jiān)。前CSDN內(nèi)容運(yùn)營副總編,關(guān)注云計(jì)算、大數(shù)據(jù)、人工智能、區(qū)塊鏈等技術(shù)領(lǐng)域,對云計(jì)算、網(wǎng)絡(luò)技術(shù)、網(wǎng)絡(luò)存儲(chǔ)有深刻認(rèn)識(shí)。擁有豐富的媒體從業(yè)經(jīng)驗(yàn)和專業(yè)的網(wǎng)絡(luò)安全技術(shù)功底,具有超過15年的企業(yè)級(jí)IT市場傳播、推廣、宣傳和寫作經(jīng)驗(yàn),撰寫過多篇在業(yè)界具有一定影響力的文章。


          本文摘編自云原生數(shù)據(jù)中臺(tái):架構(gòu)、方法論與實(shí)踐》,經(jīng)出版方授權(quán)發(fā)布。


          延伸閱讀云原生數(shù)據(jù)中臺(tái):架構(gòu)、方法論與實(shí)踐
          點(diǎn)擊上圖了解及購買
          轉(zhuǎn)載請聯(lián)系微信:DoctorData

          推薦語:前Twitter大數(shù)據(jù)平臺(tái)主任工程師撰寫,融合硅谷與國內(nèi)經(jīng)驗(yàn),全面講解云原生數(shù)據(jù)中臺(tái)架構(gòu)、選型、方法論、實(shí)施路徑,國內(nèi)外專家聯(lián)袂推薦。


          劃重點(diǎn)??


          干貨直達(dá)??


          更多精彩??

          在公眾號(hào)對話框輸入以下關(guān)鍵詞
          查看更多優(yōu)質(zhì)內(nèi)容!

          PPT | 讀書 | 書單 | 硬核 | 干貨 | 講明白 | 神操作
          大數(shù)據(jù) | 云計(jì)算 | 數(shù)據(jù)庫 | Python | 爬蟲 | 可視化
          AI | 人工智能 | 機(jī)器學(xué)習(xí) | 深度學(xué)習(xí) | NLP
          5G | 中臺(tái) | 用戶畫像 1024 | 數(shù)學(xué) | 算法 數(shù)字孿生

          據(jù)統(tǒng)計(jì),99%的大咖都關(guān)注了這個(gè)公眾號(hào)
          ??
          瀏覽 19
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  操操视频网站 | 丰满人妻一区二区三区四区色 | 伊人影院99 | 日韩 人妻 精品 | 北条麻妃人妻上门在线播放 |