<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          數(shù)據(jù)治理方法論和實踐小百科全書

          共 10664字,需瀏覽 22分鐘

           ·

          2021-07-04 19:23

          點擊上方藍色字體,選擇“設(shè)為星標(biāo)”

          回復(fù)”資源“獲取更多驚喜

          什么是數(shù)據(jù)治理?

          數(shù)據(jù)治理是指從使用零散數(shù)據(jù)變?yōu)槭褂媒y(tǒng)一數(shù)據(jù)、從具有很少或沒有組織流程到企業(yè)范圍內(nèi)的綜合數(shù)據(jù)管控、從數(shù)據(jù)混亂狀況到數(shù)據(jù)井井有條的一個過程。

          從范圍來講,數(shù)據(jù)治理涵蓋了從前端業(yè)務(wù)系統(tǒng)、后端業(yè)務(wù)數(shù)據(jù)庫再到業(yè)務(wù)終端的數(shù)據(jù)分析,從源頭到終端再回到源頭,形成的一個閉環(huán)負反饋系統(tǒng)。從目的來講,數(shù)據(jù)治理就是要對數(shù)據(jù)的獲取、處理和使用進行監(jiān)督管理。

          是以服務(wù)組織戰(zhàn)略目標(biāo)為基本原則,通過組織成員的協(xié)同努力,流程制度的制定,以及數(shù)據(jù)資產(chǎn)的梳理、采集清洗、結(jié)構(gòu)化存儲、可視化管理和多維度分析,實現(xiàn)數(shù)據(jù)資產(chǎn)價值獲取、業(yè)務(wù)模式創(chuàng)新和經(jīng)營風(fēng)險控制的過程。是一個持續(xù)性的服務(wù),而不是一個有著明確范圍的一錘子買賣。

          為什么要實施數(shù)據(jù)治理?

          • 經(jīng)過 30 年的信息化建設(shè),企業(yè)和政府部門都圍繞著業(yè)務(wù)需求建設(shè)了眾多的業(yè)務(wù)系統(tǒng),從而導(dǎo)致數(shù)據(jù)的種類和數(shù)量大增,看似積累了眾多的數(shù)據(jù)資產(chǎn),實則在需要使用時,困難重重。

          • 因為各個業(yè)務(wù)系統(tǒng)的建設(shè)都是圍繞著業(yè)務(wù)需求來建設(shè)的,當(dāng)業(yè)務(wù)環(huán)境發(fā)生變化時,原來的業(yè)務(wù)系統(tǒng)不能互聯(lián)互通,不能滿足跨部門、跨職能、跨組織的協(xié)作需求。

          • 各個業(yè)務(wù)系統(tǒng)所產(chǎn)生的海量數(shù)據(jù)以復(fù)雜而分散的形式存儲,導(dǎo)致數(shù)據(jù)之間的不一致和沖突等質(zhì)量問題,從而導(dǎo)致數(shù)據(jù)在應(yīng)用過程中的無所適從,難以實現(xiàn)數(shù)據(jù)的深度利用,從而難以實現(xiàn)業(yè)務(wù)模式創(chuàng)新和經(jīng)營風(fēng)險控制。

          數(shù)據(jù)治理的目標(biāo)是什么?

          數(shù)據(jù)治理本身不是目的,它只是實現(xiàn)組織戰(zhàn)略目標(biāo)的一個手段。

          從組織職能和體量大小方面來看,不同類型組織的數(shù)據(jù)治理目標(biāo)大不相同:

          • 集團企業(yè)總部和政府大數(shù)據(jù)管理局的目標(biāo)是:制定數(shù)據(jù)政策、保障數(shù)據(jù)安全、促進數(shù)據(jù)在組織內(nèi)無障礙共享,其重點目標(biāo)是推進和保障數(shù)據(jù)戰(zhàn)略的順利實施。

          • 企業(yè)和政府業(yè)務(wù)部門的目標(biāo)是:通過提升信息管理能力,提升組織精細化管理水平,提高業(yè)務(wù)運營效率,增強組織決策能力和核心競爭力,從而為實現(xiàn)組織戰(zhàn)略目標(biāo)提供能力支撐,其重點目標(biāo)是數(shù)據(jù)價值獲取、業(yè)務(wù)模式創(chuàng)新和經(jīng)營風(fēng)險控制

          數(shù)據(jù)治理包含哪些內(nèi)容?

          相對于國際組織和國際企業(yè)發(fā)布的數(shù)據(jù)治理框架,以下國家標(biāo)準 GB/T 34960 發(fā)布的數(shù)據(jù)治理框架比較符合我國企業(yè)和政府的組織現(xiàn)狀。包含頂層設(shè)計、數(shù)據(jù)治理環(huán)境、數(shù)據(jù)治理域和數(shù)據(jù)治理過程。

          1.頂層設(shè)計是數(shù)據(jù)治理實施的基礎(chǔ),是根據(jù)據(jù)組織當(dāng)前的業(yè)務(wù)現(xiàn)狀、信息化現(xiàn)狀和數(shù)據(jù)現(xiàn)狀,設(shè)定組織機構(gòu)的職權(quán)利,并定義符合組織戰(zhàn)略目標(biāo)的數(shù)據(jù)治理目標(biāo)和可行的行動路徑。

          2.數(shù)據(jù)治理環(huán)境是數(shù)據(jù)治理成功實施的保障,指的是分析領(lǐng)導(dǎo)層、管理層、執(zhí)行層等等利益相關(guān)方的需求,識別項目支持力量和阻力,制定相關(guān)制度以確保項目的順利推進。

          3.數(shù)據(jù)治理域是數(shù)據(jù)治理的相關(guān)管理制度,是指制定數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全、數(shù)據(jù)管理體系等相關(guān)標(biāo)準制度,并基于數(shù)據(jù)價值目標(biāo)構(gòu)建數(shù)據(jù)共享體系、數(shù)據(jù)服務(wù)體系和數(shù)據(jù)分析體系。

          4.數(shù)據(jù)治理過程就是一個 PDCA(plan-do-check-act)的過程,是數(shù)據(jù)治理的實際落地過程,包含確定數(shù)據(jù)治理目標(biāo),制定數(shù)據(jù)治理計劃,執(zhí)行業(yè)務(wù)梳理、設(shè)計數(shù)據(jù)架構(gòu)、數(shù)據(jù)采集清洗、存儲核心數(shù)據(jù)、實施元數(shù)據(jù)管理和血緣追蹤,并檢查治理結(jié)果與治理目標(biāo)的匹配程度。

          數(shù)據(jù)治理實施方法論

          近年來,推動數(shù)據(jù)治理體系建設(shè)一直是業(yè)界探索的熱點。結(jié)合多年政府各個部門及各類企業(yè)數(shù)據(jù)治理項目經(jīng)驗,百分點曾經(jīng)提出數(shù)據(jù)治理項目開展過程中數(shù)據(jù)治理平臺應(yīng)具備 4 大能力:聚、治、通、用,以及項目實施總體指導(dǎo)思想:PDCA。

          四大能力建設(shè):

          • 聚:數(shù)據(jù)匯聚能力

          • 治:狹義數(shù)據(jù)治理能力,包括數(shù)據(jù)標(biāo)準、數(shù)據(jù)質(zhì)量、元數(shù)據(jù)、數(shù)據(jù)安全、數(shù)據(jù)生命周期、主數(shù)據(jù)。

          • 通:數(shù)據(jù)拉通整合能力,原始業(yè)務(wù)數(shù)據(jù)分散在各業(yè)務(wù)系統(tǒng)中,數(shù)據(jù)組織是以滿足業(yè)務(wù)流轉(zhuǎn)為前提。

          • 用:數(shù)據(jù)服務(wù)能力,數(shù)據(jù)資產(chǎn)只有真正賦能于前端業(yè)務(wù)才能發(fā)揮實際效用,所以如何讓業(yè)務(wù)部門快速找到并便利的使用所需數(shù)據(jù)資產(chǎn)是數(shù)據(jù)治理平臺的另一項核心能力。

          P:plan,標(biāo)準、規(guī)劃、流程制定;D:do,產(chǎn)品工具輔助落地;C:check,業(yè)務(wù)技術(shù)雙重檢查保證;A:action,持續(xù)優(yōu)化提升數(shù)據(jù)質(zhì)量及服務(wù)。

          結(jié)合數(shù)據(jù)治理項目實際落地實施過程以四大能力構(gòu)建、PDCA 實施指導(dǎo)思想提出了“PAI”實施方法論,即流程化(process-oriented)、自動化(automation)、智能化(intelligence)三化論,以逐步遞進方式不斷提升數(shù)據(jù)治理能力,為政府和企業(yè)后續(xù)的數(shù)據(jù)賦能業(yè)務(wù)及數(shù)據(jù)催生業(yè)務(wù)創(chuàng)新打下堅實基礎(chǔ)。

          流程化將數(shù)據(jù)治理項目執(zhí)行過程進行流程化梳理,同時規(guī)范流程節(jié)點中的標(biāo)準輸入輸出,并將標(biāo)準輸入輸出模板化。另外對各流程節(jié)點的重點注意事項進行提示。是數(shù)據(jù)治理工作開展第一步,是自動化和智能化的基礎(chǔ),將數(shù)據(jù)治理各節(jié)點開展過程中用到的內(nèi)容進行梳理并規(guī)范,包括:業(yè)務(wù)流程圖、網(wǎng)絡(luò)架構(gòu)圖、業(yè)務(wù)系統(tǒng)臺賬等,行業(yè)知識梳理完善以后形成行業(yè)版知識(抽離通用版),如標(biāo)準文件梳理:1.代碼表整理,2.數(shù)據(jù)元標(biāo)準整理(數(shù)據(jù)倉庫行業(yè)模型對應(yīng)標(biāo)準梳理)。

          自動化針對流程化之后的相關(guān)節(jié)點及標(biāo)準輸入輸出進行自動化開發(fā),減輕人力負擔(dān),讓大家將精力放在業(yè)務(wù)層面及新技術(shù)拓展上,避免重復(fù)人力工作。如自動化數(shù)據(jù)接入及自動化腳本開發(fā)等。

          智能化針對新項目或是新領(lǐng)域結(jié)合歷史項目經(jīng)驗及沉淀給出推薦內(nèi)容,比如模型創(chuàng)建、數(shù)據(jù)質(zhì)量稽核規(guī)則等。在流程化、自動化基礎(chǔ)之上針對數(shù)據(jù)拉通整合、主題模型、數(shù)據(jù)加工檢查給出智能化建議,減少人工分析的工作。

          數(shù)據(jù)治理需要哪些工具?

          從技術(shù)實施角度看,數(shù)據(jù)治理包含“理”“采”“存”“管”“用”這五個步驟,即業(yè)務(wù)和數(shù)據(jù)資源梳理、數(shù)據(jù)采集清洗、數(shù)據(jù)庫設(shè)計和存儲、數(shù)據(jù)管理、數(shù)據(jù)使用。

          • 數(shù)據(jù)資源梳理:數(shù)據(jù)治理的第一個步驟是從業(yè)務(wù)的視角厘清組織的數(shù)據(jù)資源環(huán)境和數(shù)據(jù)資源清單,包含組織機構(gòu)、業(yè)務(wù)事項、信息系統(tǒng),以及以數(shù)據(jù)庫、網(wǎng)頁、文件和 API 接口形式存在的數(shù)據(jù)項資源,本步驟的輸出物為分門別類的數(shù)據(jù)資源清單。

          • 數(shù)據(jù)采集清洗:通過可視化的 ETL 工具(例如阿里的 DataX,Pentaho Data Integration)將數(shù)據(jù)從來源端經(jīng)過抽取 (extract)、轉(zhuǎn)換 (transform)、加載 (load) 至目的端的過程,目的是將散落和零亂的數(shù)據(jù)集中存儲起來。

          • 基礎(chǔ)庫主題庫建設(shè):基礎(chǔ)數(shù)據(jù)一般指的是核心實體數(shù)據(jù),主題數(shù)據(jù)一般指的是某個業(yè)務(wù)主題數(shù)據(jù),分析數(shù)據(jù)指的是基于業(yè)務(wù)主題數(shù)據(jù)綜合分析而得的分析結(jié)果數(shù)據(jù)。基礎(chǔ)庫和主題庫的建設(shè)就是在對業(yè)務(wù)理解的基礎(chǔ)上,基于易存儲、易管理、易使用的原則抽像數(shù)據(jù)存儲結(jié)構(gòu),就是基于一定的原則設(shè)計數(shù)據(jù)庫表結(jié)構(gòu),然后再根據(jù)數(shù)據(jù)資源清單設(shè)計數(shù)據(jù)采集清洗流程,將整潔干凈的數(shù)據(jù)存儲到數(shù)據(jù)庫或數(shù)據(jù)倉庫中。

          • 元數(shù)據(jù)管理:元數(shù)據(jù)管理是對基礎(chǔ)庫和主題庫中的數(shù)據(jù)項屬性的管理,同時,將數(shù)據(jù)項的業(yè)務(wù)含義與數(shù)據(jù)項進行關(guān)聯(lián),還是自動化數(shù)據(jù)共享、數(shù)據(jù)交換和商業(yè)智能(BI)的基礎(chǔ)。

          • 血緣追蹤:數(shù)據(jù)被業(yè)務(wù)場景使用時,發(fā)現(xiàn)數(shù)據(jù)錯誤,數(shù)據(jù)治理團隊需要快速定位數(shù)據(jù)來源,修復(fù)數(shù)據(jù)錯誤。我們的實踐是在元數(shù)據(jù)和數(shù)據(jù)資源清單之間建立關(guān)聯(lián)關(guān)系,且業(yè)務(wù)團隊使用的數(shù)據(jù)項由元數(shù)據(jù)組合配置而來,這樣,就建立了數(shù)據(jù)使用場景與數(shù)據(jù)源頭之間的血緣關(guān)系。

          • 數(shù)據(jù)資源目錄:基于業(yè)務(wù)場景和行業(yè)規(guī)范而創(chuàng)建,同時依托于元數(shù)據(jù)和基礎(chǔ)庫主題而實現(xiàn)自動化的數(shù)據(jù)申請和使用。一般應(yīng)用于數(shù)據(jù)共享的場景。

          • 質(zhì)量管理:數(shù)據(jù)價值的成功發(fā)掘必須依托于高質(zhì)量的數(shù)據(jù),唯有準確、完整、一致的數(shù)據(jù)才有使用價值。因此,需要從多維度來分析數(shù)據(jù)的質(zhì)量。例如:偏移量、非空檢查、值域檢查、規(guī)范性檢查、重復(fù)性檢查、關(guān)聯(lián)關(guān)系檢查、離群值檢查、波動檢查等等。

          • 商業(yè)智能(BI):數(shù)據(jù)治理的目的是使用,對于一個大型的數(shù)據(jù)倉庫來說,數(shù)據(jù)使用的場景和需求是多變的,那么可以使用 BI 類的產(chǎn)品快速獲取需要的數(shù)據(jù),并分析形成報表。

          • 數(shù)據(jù)共享交換:數(shù)據(jù)共享包括組織內(nèi)部和組織之間的數(shù)據(jù)共享,共享方式也分為庫表、文件和 API 接口三種共享方式,庫表共享比較直接粗暴,文件共享方式通過 ETL 工具做一個反向的數(shù)據(jù)交換就可以實現(xiàn)。

          通過大數(shù)據(jù)治理提供多種數(shù)據(jù)服務(wù),從根本上解決數(shù)據(jù)問題

          傳統(tǒng)數(shù)據(jù)治理更多是在強調(diào)通過一些流程和制度把數(shù)據(jù)質(zhì)量提高,并不能很好地解決以上種種數(shù)據(jù)問題?,F(xiàn)在做數(shù)據(jù)治理,更多是為大家提供統(tǒng)一的數(shù)據(jù)服務(wù)的能力,從而讓數(shù)據(jù)問題得以解決。

          這樣的環(huán)境應(yīng)該包括哪些東西?需要能解決一些什么樣的問題?簡單總結(jié)就是四個字:管(Manage)、看(Browse)、找(Discover)、用(Apply)。

          • 管。我們管的時候,需要建立整個企業(yè)層面的元數(shù)據(jù)以及跟合作伙伴打交道的元數(shù)據(jù),這樣才能把所有的數(shù)據(jù)和數(shù)據(jù)之間的關(guān)系統(tǒng)一整合起來,而這些元數(shù)據(jù)不是手工錄入進去,而是采進去的。后面會講到我們元數(shù)據(jù)的智能化采集,這是能體現(xiàn)數(shù)據(jù)治理智能化的概念之一。

          • 看?!翱础钡牟糠质悄苷宫F(xiàn)數(shù)據(jù)治理效果、決定數(shù)據(jù)治理成敗的主要部分。

          • 找。要想實現(xiàn)“找”,要建立業(yè)務(wù)元數(shù)據(jù)跟技術(shù)元數(shù)據(jù)的匹配,其中的難點是如何通過業(yè)務(wù)含義來查找數(shù)據(jù),如果從技術(shù)含義找這些數(shù)據(jù)其實問題不是很大。恰恰我們做數(shù)據(jù)分析做使用都是從業(yè)務(wù)含義上來找,需要找到語義以及語義的上下級的關(guān)系,并且做一個延伸的搜索。

          • 用。

          美團配送數(shù)據(jù)治理實踐

          1.定標(biāo)準,提質(zhì)量

          第一步,主要圍繞著業(yè)務(wù)標(biāo)準、技術(shù)標(biāo)準、數(shù)據(jù)安全標(biāo)準和資源管理標(biāo)準進行展開。通過業(yè)務(wù)標(biāo)準,指導(dǎo)一線團隊完成指標(biāo)的規(guī)范定義,最終達成業(yè)務(wù)對指標(biāo)認知一致性這一目標(biāo);然后通過技術(shù)標(biāo)準來指導(dǎo)研發(fā)同學(xué)規(guī)范建模,從技術(shù)層面解決模型擴展性差、冗余多等問題并保障數(shù)據(jù)一致性;通過安全標(biāo)準來指導(dǎo)我們加強數(shù)據(jù)的安全管控,確保數(shù)據(jù)拿不走、走不脫,針對敏感數(shù)據(jù),用戶看不懂;通過資源管理標(biāo)準的制定,幫助我們在事前做好資源預(yù)算,在事中做好資源管理,在事后做好賬單管理。

          業(yè)務(wù)標(biāo)準

          • 業(yè)務(wù)團隊負責(zé)指標(biāo)的定義。

          • 產(chǎn)研商分負責(zé)給出指標(biāo)定義標(biāo)準和輔助工具,輔助業(yè)務(wù)團隊完成指標(biāo)的規(guī)范定義,達成指標(biāo)認知一致性這一目標(biāo)。

          • 最后由指標(biāo)管理委員會負責(zé)指標(biāo)的管理與運營,保障指標(biāo)從創(chuàng)建、審核、上線以及到最后消亡的整個生命周期的運營。

          技術(shù)標(biāo)準

          這里所說的技術(shù)標(biāo)準,主要是針對數(shù)據(jù)RD提出的建模標(biāo)準和數(shù)據(jù)生產(chǎn)規(guī)范,通過建模標(biāo)準來明確數(shù)倉分層架構(gòu),并清晰定義每一層的邊界與職責(zé),采用維度建模的設(shè)計理念。我們的整個倉庫架構(gòu)分為四層:操作層、基礎(chǔ)事實層、中間層和應(yīng)用層,并在每一層同步制定對應(yīng)的建模規(guī)范,如下圖所示:

          除了建模標(biāo)準外,我們還制定了涵蓋從生產(chǎn)到運維環(huán)節(jié)的生產(chǎn)規(guī)范以保障模型的質(zhì)量,主要包括上線前的模型評審、生產(chǎn)過程中的完成元數(shù)據(jù)配置、DQC、SLA和生命周期設(shè)置以及上線后的日常運維機制等等。

          倉庫各層元數(shù)據(jù)管理標(biāo)準

          倉庫各層生命周期管理策略

          安全標(biāo)準

          首先要有數(shù)據(jù)的分級、分類標(biāo)準,確保數(shù)據(jù)在上線前有著準確的密級。
          第二,針對數(shù)據(jù)使用方,要有明確的角色授權(quán)標(biāo)準,通過分級分類和角色授權(quán),來保障重要數(shù)據(jù)拿不走。
          第三,針對敏感數(shù)據(jù),要有隱私管理標(biāo)準,保障敏感數(shù)據(jù)的安全存儲,即使未授權(quán)用戶繞過權(quán)限管理拿到敏感數(shù)據(jù),也要確保其看不懂。
          第四,通過制定審計標(biāo)準,為后續(xù)的審計提供審計依據(jù),確保數(shù)據(jù)走不脫。

          資源管理標(biāo)準

          在資源管理方面,配送技術(shù)工程部已經(jīng)對資源管理涉及的內(nèi)容進行了合理抽象和準確定義,抽象出租戶、資源和項目組等概念。不管是后續(xù)的資源預(yù)算還是資源管理,我們都需要基于租戶和項目組來進行運營,因此,對于業(yè)務(wù)團隊而言,我們只需要將租戶和項目組特定職能劃分清楚,然后根據(jù)不同的職能歸屬我們的資產(chǎn),并分配生產(chǎn)該資產(chǎn)所需要的資源。為了方便后續(xù)的運營,我們對每個租戶和項目組分配確定了責(zé)任人,由責(zé)任人對運營結(jié)果負責(zé)。

          對業(yè)務(wù)部門來說,資源管理的關(guān)鍵是對數(shù)據(jù)資產(chǎn)做清晰的分類,基于數(shù)據(jù)的分類劃分不同的租戶和項目組,將數(shù)據(jù)和租戶、項目組實現(xiàn)一一映射。由于租戶和項目組都有特定的責(zé)任人對其負責(zé),因此,我們通過這種映射關(guān)系,不僅實現(xiàn)了資產(chǎn)的隔離,還實現(xiàn)了資產(chǎn)確權(quán)(項目組負責(zé)人同時對資產(chǎn)負責(zé)和運營)。我們整體將數(shù)據(jù)分為兩大類,一是原始數(shù)據(jù),包括流到數(shù)據(jù)中心的數(shù)據(jù)和日志中心的數(shù)據(jù),針對流入數(shù)據(jù)中心的數(shù)據(jù),根據(jù)其產(chǎn)生的方式不同,又進一步分為業(yè)務(wù)數(shù)據(jù)和流量數(shù)據(jù)。二是加工數(shù)據(jù),對應(yīng)著數(shù)據(jù)團隊的倉庫建設(shè)和其他團隊的集市建設(shè)?;谏鲜龅拿枋?,針對資源管理,我們做了如下劃分和確權(quán):

          資源劃分與管理

          2.重實施,保落實

          第二步,落實第一步的標(biāo)準,完成數(shù)據(jù)治理第一階段的目標(biāo),實現(xiàn)存量數(shù)據(jù)“由亂到治”,并完成相應(yīng)組織和工具的建設(shè),為實現(xiàn)第二階段“行不逾矩”這一目標(biāo)提供工具和組織能力。在此過程中,主要分成三個方面的治理工作:第一,架構(gòu)模型“由亂到治”的治理,消除模型冗余、跨層引用和鏈路過長等問題,在架構(gòu)上保證模型的穩(wěn)定性和數(shù)據(jù)一致性;第二,元數(shù)據(jù)“由亂到治”的治理,實現(xiàn)指標(biāo)的標(biāo)準定義、技術(shù)元數(shù)據(jù)的完整采集并建立指標(biāo)與表、字段的映射關(guān)系,徹底解決指標(biāo)認知一致性,以及用戶在使用數(shù)據(jù)過程中的“找數(shù)難”等問題;第三,圍繞著隱私安全和共享安全加強數(shù)據(jù)的安全管控來實現(xiàn)數(shù)據(jù)走不脫、拿不走,以及隱私數(shù)據(jù)看不懂這一目標(biāo)。

          架構(gòu)治理

          主要是解決兩個問題:

          • 第一,模型的靈活性,避免需求變更和業(yè)務(wù)迭代對核心模型帶來的沖擊,讓RD深陷無休止的需求迭代中;

          • 第二,數(shù)據(jù)一致性,消除因模型冗余、跨層引用等問題帶來的數(shù)據(jù)一致性問題。

          模型靈活性

          配送解決的是效率、成本和體驗三者之間的平衡問題,即在滿足一定用戶體驗的條件下,如何提升騎手配送效率,服務(wù)更多的商家,以及如何管控騎手,降低配送成本。抽象到數(shù)據(jù)層面,基本上反映為上游包裹來源的變化、配送對外提供服務(wù)的變化以及對內(nèi)業(yè)務(wù)管控的變化。為屏蔽業(yè)務(wù)迭代給核心模型帶來的沖擊,我們通過對外封裝包裹屬性和對內(nèi)封裝運單屬性,抽象出包裹來源、提供服務(wù)、業(yè)務(wù)架構(gòu)等一致性維度,任何業(yè)務(wù)迭代在數(shù)據(jù)層面只涉及維度的調(diào)整,大大降低了對核心模型沖擊和“煙囪式”數(shù)據(jù)建設(shè)問題(新來一個業(yè)務(wù),就拉起一個分支進行建設(shè))。

          包裹事實分配到運單明細構(gòu)造單一運單模型

          配送指標(biāo)體系建設(shè)的一個重點就是要輸出各組織層級的規(guī)模、體驗和效率指標(biāo),實現(xiàn)對運力的有效管控,運力所屬組織的層級關(guān)系會隨業(yè)務(wù)的迭代而不斷變化。為了適應(yīng)這種變化,避免僅僅因增加維度帶來中間層數(shù)據(jù)的重復(fù)建設(shè),我們將組織層級維表由固定層級建模方式調(diào)整為橋接表的方式來自適配組織層級變化,從而實現(xiàn)了中間層模型可以自動適配組織層級的變化,能自動產(chǎn)生新維度的指標(biāo)。如下圖所示:

          橋接表自適配組織層級靈活變動

          在精細化分析的場景下,業(yè)務(wù)會有分時段、分距離段以及分價格段的數(shù)據(jù)分析訴求。我們以分時段為例,有晚高峰、午高峰、下午茶等不同的分時段,不同的業(yè)務(wù)方對同一個時段的定義口徑不同,即不同的業(yè)務(wù)方會有不同的分時段策略。為解決該場景下的分析訴求,我們在事實表中消除退化維度,將原來封裝到事實表的時段邏輯遷移到維度表中,并將事實表中的時間進行按特定的間隔進行刻度化作為維表中的主鍵,將該主鍵作為事實表的外鍵。這樣,針對業(yè)務(wù)不同的時間策略需要,我們就可以在維表中進行配置,避免了重復(fù)調(diào)整事實表和反復(fù)刷數(shù)的問題。即通過將時間、價格、距離事實刻度化,實現(xiàn)靈活維度分析。如下圖所示:

          數(shù)據(jù)一致性

          數(shù)據(jù)一致性得不到保障的一個根本原因,是在建模的過程中沒有實現(xiàn)業(yè)務(wù)口徑標(biāo)簽化,并將業(yè)務(wù)口徑下沉到主題層。

          治理前模型架構(gòu)

          治理后模型架構(gòu)

          元數(shù)據(jù)治理

          元數(shù)據(jù)治理主要解決三個問題:

          • 首先,通過建立相應(yīng)的組織、流程和工具,推動業(yè)務(wù)標(biāo)準的落地實施,實現(xiàn)指標(biāo)的規(guī)范定義,消除指標(biāo)認知的歧義;

          • 其次,基于業(yè)務(wù)現(xiàn)狀和未來的演進方式,對業(yè)務(wù)模型進行抽象,制定清晰的主題、業(yè)務(wù)過程和分析方向,構(gòu)建完備的技術(shù)元數(shù)據(jù),對物理模型進行準確完善的描述,并打通技術(shù)元數(shù)據(jù)與業(yè)務(wù)元數(shù)據(jù)的關(guān)系,對物理模型進行完備的刻畫;

          • 最后,通過元數(shù)據(jù)建設(shè),為使用數(shù)據(jù)提效,解決“找數(shù)、理解數(shù)、評估”難題以及“取數(shù)、數(shù)據(jù)可視化”等難題。

          元數(shù)據(jù)采集

          元數(shù)據(jù)采集分為人工錄入和自動抽取,通過人工錄入的方式實現(xiàn)物理表的準確歸屬(包括該表屬于倉庫哪一層、對應(yīng)的主題、業(yè)務(wù)過程、星型模型關(guān)系等)以及指標(biāo)的采集,從而完成技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù)的采集,通過自動抽取的方式完成生產(chǎn)元數(shù)據(jù)的采集和使用元數(shù)據(jù)的采集,主要包括:物理模型的依賴關(guān)系、存儲占用、熱度、等信息。

          元模型構(gòu)建

          分為以物理表為核心的基礎(chǔ)元模型構(gòu)建,以及以血緣為中心的血緣元模型?;A(chǔ)元模型構(gòu)建以物理表為中心,打通其與技術(shù)元數(shù)據(jù)(主題、業(yè)務(wù)過程、Schema)的關(guān)系,實現(xiàn)了物理表的清晰歸屬,打通其與生產(chǎn)元數(shù)據(jù)的關(guān)系,為其加上了物理表查詢熱度、資源消耗、查詢密級等生產(chǎn)使用信息,打通其與指標(biāo)、維度和應(yīng)用的對應(yīng)關(guān)系,為上層的取數(shù)應(yīng)用建立了完備的元數(shù)據(jù)。血緣元模型以血緣為中心,不僅構(gòu)建了從上游業(yè)務(wù)表到倉庫離線表的物理血緣,而且打通了倉庫離線表到下游對應(yīng)報表的血緣,為后續(xù)的影響評估構(gòu)建了完備的元數(shù)據(jù)基礎(chǔ)。

          元數(shù)據(jù)服務(wù)

          統(tǒng)一元數(shù)據(jù)服務(wù)(OneService),主要提供兩類元數(shù)據(jù)服務(wù),提供查詢表、指標(biāo)、維度基本信息的基礎(chǔ)元數(shù)據(jù)服務(wù)以及查詢表級血緣、字段級血緣的血緣服務(wù)。

          元數(shù)據(jù)應(yīng)用

          主要孵化出了三個產(chǎn)品,以“找數(shù)、理解數(shù)、影響評估”為應(yīng)用場景的數(shù)據(jù)地圖(Wherehows),以“取數(shù)、數(shù)據(jù)可視化”為應(yīng)用場景的數(shù)據(jù)可視化(QuickSight),以及以管理審計為目的的管理審計報表。

          安全治理

          安全治理主要加強了敏感數(shù)據(jù)的安全治理和數(shù)據(jù)共享環(huán)節(jié)的安全治理。通過對隱私數(shù)據(jù)的安全治理,不僅要保證其在存儲環(huán)節(jié)的不可見性,而且還要保證在其使用環(huán)節(jié)對用戶進行雙重鑒權(quán),字段的密級鑒權(quán)和解密的密鑰鑒權(quán);通過對數(shù)據(jù)共享環(huán)節(jié)的安全治理,在數(shù)據(jù)分級分類的基礎(chǔ)上,使數(shù)據(jù)的權(quán)限控制從表級權(quán)限控制擴展到行級權(quán)限控制。

          共享環(huán)節(jié)安全治理

          針對共享環(huán)節(jié)的安全治理,主要在數(shù)據(jù)生產(chǎn)環(huán)節(jié)完成數(shù)據(jù)的分級分類和數(shù)據(jù)確權(quán),在數(shù)據(jù)的使用環(huán)節(jié)完成數(shù)據(jù)的表級權(quán)限控制和行級權(quán)限控制。確保數(shù)據(jù)在使用環(huán)節(jié)規(guī)范的審批流轉(zhuǎn),權(quán)限開放以后的安全審計,保證數(shù)據(jù)走不脫。

          3.工具簡介

          數(shù)據(jù)地圖(Wherehows)

          數(shù)據(jù)地圖作為元數(shù)據(jù)應(yīng)用的一個產(chǎn)品,聚焦于數(shù)據(jù)使用者的“找數(shù)”場景,實現(xiàn)檢索數(shù)據(jù)和理解數(shù)據(jù)的“找數(shù)”訴求。通過對離線數(shù)據(jù)集和在線數(shù)據(jù)集的元數(shù)據(jù)刻畫,滿足了用戶找數(shù)和理解數(shù)的訴求,通過血緣圖譜,完成物理表到產(chǎn)品的血緣建設(shè),消除用戶人肉評估的痛苦。

          離線數(shù)據(jù)場景

          • 關(guān)鍵字檢索和向?qū)Р樵児餐鉀Q了“找數(shù)據(jù)”的問題

          • 打通業(yè)務(wù)元數(shù)據(jù)和技術(shù)元數(shù)據(jù)之間的關(guān)系,提高“找數(shù)據(jù)”的能力

          • 提供較為完善的數(shù)據(jù)信息,幫助用戶更好理解數(shù)據(jù)

          • 通過評論問答功能,幫助用戶快速得到問題反饋

          業(yè)務(wù)數(shù)據(jù)場景

          業(yè)務(wù)數(shù)據(jù)場景主要想解決的一個問題是,如何知道一個業(yè)務(wù)表(MySQL表)有沒有同步到數(shù)倉。

          生產(chǎn)評估場景

          在日常數(shù)據(jù)生產(chǎn)工作中,經(jīng)常需要對表進行影響評估、故障排查、鏈路分析等工作,這些工作如果靠純?nèi)斯とプ?,費時費力。但現(xiàn)在打通了“業(yè)務(wù)表/字段 -> 數(shù)倉表/字段 -> 產(chǎn)品”三者之間的血緣關(guān)系,就能夠在10分鐘內(nèi)完成評估工作。對于不同的場景,血緣鏈路提供了兩個便捷的功能:過濾和剪枝。例如,某個表邏輯需要修改,需要看影響哪些下游表或產(chǎn)品?應(yīng)該要通知哪些RD和PM?這種情況下,血緣工具直觀地顯示影響了哪些負責(zé)人和產(chǎn)品,以及這個表的下游鏈路。

          有些表的鏈路很長,整個血緣關(guān)系圖很大,這樣會導(dǎo)致用戶定位信息或問題。所以血緣工具提供了剪枝的功能,對于沒用的、不想看到的分支可以剪掉,從而讓整個鏈路變得更加直觀。

          數(shù)據(jù)可視化(QuickSight)

          聚焦于數(shù)據(jù)使用者“取數(shù)”場景,使用QuickSight,用戶可以不再關(guān)心數(shù)據(jù)的來源,不再擔(dān)心數(shù)據(jù)的一致性,不再依賴RD的排期開發(fā)。通過所選即所得的方式,滿足用戶對業(yè)務(wù)核心指標(biāo)的二次加工、報表和取數(shù)訴求。

          首先,通過指標(biāo)池、數(shù)據(jù)集等概念對離線生產(chǎn)的指標(biāo)進行邏輯隔離,針對不同用戶開發(fā)不同的數(shù)據(jù)集以達到權(quán)限控制的目的。

          用戶、指標(biāo)池與數(shù)據(jù)集間的關(guān)系

          其次,為用戶提供一系列的組件,幫助用戶基于為其開放的數(shù)據(jù)集實現(xiàn)指標(biāo)的二次加工和數(shù)據(jù)可視化功能,滿足其在不同業(yè)務(wù)場景下的取數(shù)和可視化應(yīng)用。

          指標(biāo)加工組件

          總結(jié)

          • 在數(shù)據(jù)標(biāo)準方面,制定了業(yè)務(wù)標(biāo)準、技術(shù)標(biāo)準、安全標(biāo)準、資源管理標(biāo)準,從而保障了數(shù)據(jù)生產(chǎn)、管理、使用合規(guī)。

          • 在數(shù)據(jù)架構(gòu)方面,通過橋接表、時間刻度化、業(yè)務(wù)口徑下沉等手段提升模型靈活性,并保障數(shù)據(jù)一致性,消除跨層引用和模型冗余等問題。

          • 在數(shù)據(jù)安全方面,加強了對敏感數(shù)據(jù)和數(shù)據(jù)共享環(huán)節(jié)的安全治理,保證數(shù)據(jù)拿不走、走不脫,隱私數(shù)據(jù)看不懂。

          • 在元數(shù)據(jù)建設(shè)方面,打通了從采集到構(gòu)建再到應(yīng)用的整條鏈路,并為數(shù)據(jù)使用人員提供數(shù)據(jù)地圖、數(shù)據(jù)可視化等元數(shù)據(jù)應(yīng)用產(chǎn)品,幫助解決了“找數(shù)”、“取數(shù)”、“影響評估”等難題。

          螞蟻金服的數(shù)據(jù)治理實踐

          螞蟻的業(yè)務(wù)形態(tài)和面臨的多方面挑戰(zhàn)

          當(dāng)今,螞蟻的業(yè)務(wù)形態(tài)成為了“技術(shù)+數(shù)據(jù)+算法”三者的融合來追求價值最大化。與此同時,數(shù)據(jù)質(zhì)量治理也存在著諸多挑戰(zhàn),它們來自于業(yè)務(wù)方面、數(shù)據(jù)方面、用戶方面。

          數(shù)據(jù)質(zhì)量治理思路

          從事金融業(yè)務(wù)的同學(xué)往往深有感觸,互聯(lián)網(wǎng)金融時代業(yè)務(wù)的生命周期縮短了很多,并且變化也非常頻繁,相比于原本銀行的節(jié)奏顯得非???。此外,目前無論是螞蟻金服還是阿里巴巴都在談“數(shù)據(jù)業(yè)務(wù)化、業(yè)務(wù)數(shù)據(jù)化”,數(shù)據(jù)和業(yè)務(wù)一同共同發(fā)展和前進,并且已經(jīng)進入了發(fā)展的深水區(qū)。

          那么如何實現(xiàn)數(shù)據(jù)質(zhì)量治理呢?

          首先,需要有一套明確的組織,這是持續(xù)建設(shè)企業(yè)文化的土壤。而數(shù)據(jù)質(zhì)量治理文化的建設(shè)一定是一個確定的、有組織的并且需要長期持續(xù)推進的事情。

          在組織保障和質(zhì)量文化的基礎(chǔ)之上,螞蟻還側(cè)重了研發(fā)流和數(shù)據(jù)流。在金融領(lǐng)域,研發(fā)流的管控更嚴格,也更嚴謹。而對于如今的互聯(lián)網(wǎng)金融而言,也需要進行強管控,這是因為業(yè)務(wù)形態(tài)決定了研發(fā)周期很短,現(xiàn)在螞蟻在研發(fā)流做了強管控,在一站式數(shù)據(jù)研發(fā)平臺上,使用了分級管控。需求提出之后就會被等級管理,并且進行打標(biāo),進而走入不同流程。其次,研發(fā)流上還側(cè)重分級管控,在同一套標(biāo)準上定義級別,拉平不同的研發(fā)流。對于數(shù)據(jù)流而言,當(dāng)一個應(yīng)用發(fā)布到生產(chǎn)環(huán)境之后,大部分精力花費在數(shù)據(jù)流中,每天需要從生產(chǎn)環(huán)境將數(shù)據(jù)采集到處理平臺,然后運行算法計算,之后將數(shù)據(jù)返回到生產(chǎn)環(huán)境中,走這樣的閉環(huán)。

          基于以上的數(shù)據(jù)質(zhì)量治理思路,螞蟻金服做了很多有意思的東西,在數(shù)據(jù)平臺運行時會將整個體系監(jiān)控起來,如果出現(xiàn)數(shù)據(jù)質(zhì)量故障,就能夠及時進行修復(fù)。

          此外,從研發(fā)到生產(chǎn)的各個環(huán)節(jié),螞蟻都做了大量的工作,這是因為基于平臺進行數(shù)據(jù)研發(fā)的同學(xué)很多,需要盡量降低使用門檻。對于全數(shù)據(jù)流而言,主要建設(shè)了四大能力,包括感知能力、識別能力、智愈能力和運營能力。

          最后是運營能力,數(shù)據(jù)質(zhì)量不會被展現(xiàn)在前臺,如果數(shù)據(jù)質(zhì)量足夠好,完全可以實現(xiàn)無感知,使用者不用再擔(dān)心數(shù)據(jù)能不能用,也不會出現(xiàn)敢不敢用的疑惑,因此數(shù)據(jù)質(zhì)量對于運營而言也非常重要。其實,數(shù)據(jù)質(zhì)量問題既不僅屬于研發(fā)也不僅屬于業(yè)務(wù),而是需要全員參與,共同來解決,這就是數(shù)據(jù)治理的思路。

          螞蟻數(shù)據(jù)質(zhì)量治理架構(gòu)

          在系統(tǒng)層,研發(fā)階段主要集中在數(shù)據(jù)測試、發(fā)布管控以及變更管理等方面的建設(shè),這里著重提及變更問題,數(shù)據(jù)的變更不僅僅設(shè)計到系統(tǒng)層的變更管理,也會涉及到在線系統(tǒng)的相互打通。如今,在線數(shù)據(jù)源的變更,也會使得數(shù)據(jù)運營發(fā)生變更,更可能會導(dǎo)致數(shù)據(jù)運營的數(shù)據(jù)質(zhì)量問題。

          在線研發(fā)部分為數(shù)據(jù)運營系統(tǒng)提供了一些相關(guān)的接口,能夠通知使用者線上的哪些變更會影響到數(shù)據(jù)運營。對于發(fā)布管控能力而言,螞蟻投入了大量精力進行研發(fā)。目前在螞蟻已經(jīng)沒有專職負責(zé)數(shù)據(jù)測試的同學(xué),基本上全部都是全棧工程師,所以對于研發(fā)而言可能管控不是非常強,但卻實現(xiàn)了強大的發(fā)布管控能力,將與經(jīng)驗、規(guī)范、性能以及質(zhì)量相關(guān)的檢測全部在這部分執(zhí)行。

          在生產(chǎn)階段,則主要側(cè)重于質(zhì)量監(jiān)控、應(yīng)急演練以及質(zhì)量治理這三個系統(tǒng)能力。螞蟻做了一件很有意思的事情——數(shù)據(jù)攻防演練,工程師會人為創(chuàng)造故障,然后測試系統(tǒng)能否在短時間內(nèi)發(fā)現(xiàn)故障并進行有效修復(fù),這部分也是目前螞蟻在重點進行建設(shè)的能力。在質(zhì)量治理部分,會根據(jù)不同應(yīng)用的級別,發(fā)布到生產(chǎn)環(huán)境之后進行定期巡檢,分析是否會影響數(shù)據(jù)質(zhì)量??傊?,對于數(shù)據(jù)質(zhì)量架構(gòu)體系的系統(tǒng)層而言,不僅原數(shù)據(jù)非常重要,如今更是結(jié)合機器學(xué)習(xí)來自動配置一些相關(guān)策略。

          數(shù)據(jù)質(zhì)量治理方案

          如下圖所示的是螞蟻金服在實踐中的事前、事中、事后的數(shù)據(jù)質(zhì)量質(zhì)量方案。

          整體而言,事前包括需求、研發(fā)、和預(yù)發(fā)三個階段,而如今螞蟻在事前可以做到的可管控、可仿真、可灰度。在事中,監(jiān)控問題是重點建設(shè)的,出現(xiàn)問題不可怕,但是需要實現(xiàn)自主發(fā)現(xiàn)問題。而為了使得防御能力更強,螞蟻實現(xiàn)了主動的攻擊演練,而正是通過攻防演練,幫助螞蟻發(fā)現(xiàn)了自身很多薄弱的地方。除此之外,還在事中提供了強大的應(yīng)急能力,某些事件將會觸發(fā)應(yīng)急預(yù)案,在這部分,保證數(shù)據(jù)質(zhì)量其實就是把不確定的數(shù)據(jù)風(fēng)險變成確定的東西。在事后,數(shù)據(jù)質(zhì)量也非常重要,事后需要通過有效的指標(biāo)和管控手段來進行審計和度量,以此發(fā)現(xiàn)整個鏈路上不完善的地方并持續(xù)完善。

          最后為大家分享螞蟻金服在數(shù)據(jù)質(zhì)量治理方面的兩個案例:

          案例 1:在螞蟻數(shù)據(jù)治理架構(gòu)體系下的發(fā)布環(huán)節(jié),實現(xiàn)了一個發(fā)布強管控的流程。任何腳本在提交時都需要經(jīng)過檢測,然后發(fā)布到線上,并再進行一次檢測。

          案例 2:數(shù)據(jù)治理涉及到整個鏈路,而針對不同鏈路上的數(shù)據(jù)版本,數(shù)據(jù)采集主要是將數(shù)據(jù)從一端搬運到另一端,不存在加工的過程,此時可以人為注入一些故障,分析數(shù)據(jù)質(zhì)量治理體系能否發(fā)現(xiàn)問題并作出修改,因此這就產(chǎn)生了“攻”與“防”雙方。數(shù)據(jù)加工處理又另外一套體系結(jié)構(gòu),其涉及邏輯的加工,更多地需要考慮注入怎樣的故障,需要面臨什么。如今,在螞蟻真正落地數(shù)據(jù)質(zhì)量治理體系的時候,在攻防演練環(huán)節(jié)投入了大量精力。


          平平無奇SQL面試題:經(jīng)典50例


          Flink面試通關(guān)手冊「160題升級版」


          Apache Iceberg技術(shù)調(diào)研&在各大公司的實踐應(yīng)用大總結(jié)


          Apache Kafka架構(gòu)設(shè)計&部署&實踐小指南

          瀏覽 70
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  美女操逼福利 | 亚洲在线无码播放 | 欧美成人视频在线观看 | 色婷婷综合成人 | 日韩欧美高清视频 |