<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          美團(tuán)酒旅數(shù)據(jù)治理實(shí)踐

          共 11087字,需瀏覽 23分鐘

           ·

          2021-04-22 07:34

          總第445

          2021年 第015篇

          數(shù)據(jù)已成為很多公司的核心資產(chǎn),而在數(shù)據(jù)開發(fā)的過程中會(huì)引入各種質(zhì)量、效率、安全等方面的問題,而數(shù)據(jù)治理就是要不斷消除引入的這些問題,保障數(shù)據(jù)準(zhǔn)確、全面和完整,為業(yè)務(wù)創(chuàng)造價(jià)值,同時(shí)嚴(yán)格管理數(shù)據(jù)的權(quán)限,避免數(shù)據(jù)泄露帶來的業(yè)務(wù)風(fēng)險(xiǎn)。數(shù)據(jù)治理是數(shù)字時(shí)代很多公司一項(xiàng)非常重要的核心能力,本文介紹了美團(tuán)酒旅平臺(tái)在數(shù)據(jù)治理方面的實(shí)踐。
          • 一、背景

            • 1. 為什么要做數(shù)據(jù)治理

            • 2. 需要治理哪些問題

            • 3. 美團(tuán)酒旅數(shù)據(jù)現(xiàn)狀

            • 4. 治理目標(biāo)

          • 二、數(shù)據(jù)治理實(shí)踐

            • 1. 數(shù)據(jù)治理策略

            • 2. 標(biāo)準(zhǔn)化和組織保障

            • 3. 技術(shù)系統(tǒng)

            • 4. 衡量指標(biāo)

            • 5. 治理效果總結(jié)

          • 三、未來規(guī)劃

          • 四、作者簡(jiǎn)介

          一、背景

          1. 為什么要做數(shù)據(jù)治理

          隨著移動(dòng)互聯(lián)網(wǎng)的興起,線下商業(yè)活動(dòng)逐漸開始向線上化發(fā)展,數(shù)據(jù)的產(chǎn)生速度有了極大的提升。越來越多的公司開始認(rèn)識(shí)到數(shù)據(jù)的重要性,并將其打造成為公司的核心資產(chǎn),從而驅(qū)動(dòng)業(yè)務(wù)的發(fā)展。在數(shù)據(jù)相關(guān)的領(lǐng)域中,“數(shù)據(jù)治理”這個(gè)話題近兩年尤為火熱,很多公司特別是大型互聯(lián)網(wǎng)公司都在做一些數(shù)據(jù)治理的規(guī)劃和動(dòng)作。

          為什么要做數(shù)據(jù)治理?因?yàn)樵跀?shù)據(jù)產(chǎn)生、采集、加工、存儲(chǔ)、應(yīng)用到銷毀的全過程中,每個(gè)環(huán)節(jié)都可能會(huì)引入各種質(zhì)量、效率或安全相關(guān)的問題。在公司早期的發(fā)展階段,這些數(shù)據(jù)問題對(duì)公司發(fā)展的影響并不是很大,公司對(duì)問題的容忍度相對(duì)也比較高。但是,隨著業(yè)務(wù)的發(fā)展,公司在利用數(shù)據(jù)資產(chǎn)創(chuàng)造價(jià)值的同時(shí),對(duì)數(shù)據(jù)質(zhì)量和穩(wěn)定性要求也有所提升。此外,當(dāng)數(shù)據(jù)積累得越來越多,公司對(duì)數(shù)據(jù)精細(xì)化運(yùn)營(yíng)程度的要求也隨之提高,會(huì)逐漸發(fā)現(xiàn)有很多問題需要治理。

          2. 需要治理哪些問題

          數(shù)據(jù)治理是一項(xiàng)需要長(zhǎng)期被關(guān)注的復(fù)雜工程,這項(xiàng)工程通過建立一個(gè)滿足企業(yè)需求的數(shù)據(jù)決策體系,在數(shù)據(jù)資產(chǎn)管理過程中行使權(quán)力、管控和決策等活動(dòng),并涉及到組織、流程、管理制度和技術(shù)體系等多個(gè)方面。一般而言,數(shù)據(jù)治理的治理內(nèi)容主要包括下面幾個(gè)部分:

          • 質(zhì)量問題:這是最重要的問題,很多公司的數(shù)據(jù)部門啟動(dòng)數(shù)據(jù)治理的大背景就是數(shù)據(jù)質(zhì)量存在問題,比如數(shù)倉(cāng)的及時(shí)性、準(zhǔn)確性、規(guī)范性,以及數(shù)據(jù)應(yīng)用指標(biāo)的邏輯一致性問題等。
          • 成本問題:互聯(lián)網(wǎng)行業(yè)數(shù)據(jù)膨脹速度非???,大型互聯(lián)網(wǎng)公司在大數(shù)據(jù)基礎(chǔ)設(shè)施上的成本投入占比非常高,而且隨著數(shù)據(jù)量的增加,成本也將繼續(xù)攀升。
          • 效率問題:在數(shù)據(jù)開發(fā)和數(shù)據(jù)管理過程中都會(huì)遇到一些影響效率的問題,很多時(shí)候是靠“盲目”地堆人力在做。
          • 安全問題:業(yè)務(wù)部門特別關(guān)注用戶數(shù)據(jù),一旦泄露,對(duì)業(yè)務(wù)的影響非常之大,甚至能左右整個(gè)業(yè)務(wù)的生死。
          • 標(biāo)準(zhǔn)問題:當(dāng)公司業(yè)務(wù)部門比較多的時(shí)候,各業(yè)務(wù)部門、開發(fā)團(tuán)隊(duì)的數(shù)據(jù)標(biāo)準(zhǔn)不一致,數(shù)據(jù)打通和整合過程中都會(huì)出現(xiàn)很多問題。

          3. 美團(tuán)酒旅數(shù)據(jù)現(xiàn)狀

          2014年,美團(tuán)酒旅業(yè)務(wù)成為獨(dú)立的業(yè)務(wù)部門,到2018年,酒旅平臺(tái)已經(jīng)成為國(guó)內(nèi)酒旅業(yè)務(wù)重要的在線預(yù)訂平臺(tái)之一。業(yè)務(wù)發(fā)展速度較快,數(shù)據(jù)增長(zhǎng)速度也很快。在2017到2018兩年里,生產(chǎn)任務(wù)數(shù)以每年超過一倍的速度在增長(zhǎng),數(shù)據(jù)量以每年兩倍多的速度在增長(zhǎng)。如果不做治理的話,根據(jù)這種接近指數(shù)級(jí)的數(shù)據(jù)增長(zhǎng)趨勢(shì)來預(yù)測(cè),未來數(shù)據(jù)生產(chǎn)任務(wù)的復(fù)雜性及成本負(fù)擔(dān)都會(huì)變得非常之高。在2019年初,我們面臨著下面五種問題:

          • 數(shù)據(jù)質(zhì)量問題嚴(yán)重:一是數(shù)據(jù)冗余嚴(yán)重,從數(shù)據(jù)任務(wù)增長(zhǎng)的速度來看,新上線任務(wù)多,下線任務(wù)少,對(duì)數(shù)據(jù)表生命周期的控制較少;二是在數(shù)據(jù)建設(shè)過程中,很多應(yīng)用層數(shù)據(jù)都屬于“煙囪式”建設(shè),很多指標(biāo)口徑?jīng)]有統(tǒng)一的管理規(guī)范,數(shù)據(jù)一致性無法進(jìn)行保證,同名不同義、同義不同名的現(xiàn)象頻發(fā)。
          • 數(shù)據(jù)成本增長(zhǎng)過快:某些業(yè)務(wù)線大數(shù)據(jù)存儲(chǔ)和計(jì)算資源的機(jī)器費(fèi)用占比已經(jīng)超過了35%,如果不加以控制,大數(shù)據(jù)成本費(fèi)用只會(huì)變得越來越高。
          • 數(shù)據(jù)運(yùn)營(yíng)效率低下:數(shù)據(jù)使用和咨詢多,數(shù)據(jù)開發(fā)工程師需要花費(fèi)大量時(shí)間一對(duì)一解答業(yè)務(wù)用戶的各種問題。但是這種方式對(duì)于用戶來說,并沒有提升數(shù)據(jù)的易用性,無法有效地積累和沉淀數(shù)據(jù)知識(shí),還降低了研發(fā)人員的工作效率。
          • 數(shù)據(jù)安全缺乏控制:各業(yè)務(wù)線之間可以共用的數(shù)據(jù)比較多,而且每個(gè)業(yè)務(wù)線沒有統(tǒng)一的數(shù)據(jù)權(quán)限管控標(biāo)準(zhǔn)。
          • 開發(fā)標(biāo)準(zhǔn)規(guī)范缺失:早期為快速響應(yīng)業(yè)務(wù)需求,研發(fā)人員通常采用“煙囪式”的開發(fā)模式,由于缺乏相應(yīng)的開發(fā)規(guī)范約束,且數(shù)據(jù)工程師的工作思路和方式差異性都非常大,導(dǎo)致數(shù)據(jù)倉(cāng)庫(kù)內(nèi)的重復(fù)數(shù)據(jù)多,規(guī)范性較差。當(dāng)發(fā)生數(shù)據(jù)問題時(shí),問題的排查難度也非常大,且耗時(shí)較長(zhǎng)。

          4. 治理目標(biāo)

          2019年,美團(tuán)酒旅數(shù)據(jù)團(tuán)隊(duì)開始主動(dòng)啟動(dòng)數(shù)據(jù)治理工作,對(duì)數(shù)據(jù)生命周期全鏈路進(jìn)行體系化數(shù)據(jù)治理,期望保障數(shù)據(jù)的長(zhǎng)期向好,解決數(shù)據(jù)各個(gè)鏈路的問題,并保持?jǐn)?shù)據(jù)體系的長(zhǎng)期穩(wěn)定。具體的目標(biāo)包含以下幾個(gè)方面:

          1. 建立數(shù)據(jù)開發(fā)全鏈路的標(biāo)準(zhǔn)規(guī)范,提高數(shù)據(jù)質(zhì)量,通過系統(tǒng)化手段管理指標(biāo)口徑,保障數(shù)據(jù)一致性。
          2. 控制大數(shù)據(jù)成本,避免大數(shù)據(jù)機(jī)器成本膨脹對(duì)業(yè)務(wù)營(yíng)收帶來的影響,合理控制數(shù)據(jù)的生命周期,避免數(shù)據(jù)重復(fù)建設(shè),減少數(shù)據(jù)冗余,及時(shí)歸檔和清理冷數(shù)據(jù)。
          3. 管理數(shù)據(jù)的使用安全,建立完善的數(shù)據(jù)安全審批流程和使用規(guī)范,確保數(shù)據(jù)被合理地使用,避免因用戶數(shù)據(jù)泄露帶來的安全風(fēng)險(xiǎn)和商業(yè)損失。
          4. 提高數(shù)據(jù)工程師的開發(fā)和運(yùn)維效率,減少他們數(shù)據(jù)運(yùn)營(yíng)時(shí)間的投入,提高數(shù)據(jù)運(yùn)營(yíng)的自動(dòng)化和系統(tǒng)化程度。

          二、數(shù)據(jù)治理實(shí)踐

          其實(shí)早在2018年以前,酒旅數(shù)據(jù)組就做過數(shù)據(jù)治理,當(dāng)時(shí)只是從數(shù)倉(cāng)建模、指標(biāo)管理和應(yīng)用上單點(diǎn)做了優(yōu)化和流程規(guī)范。之后,基于上面提到的五個(gè)問題,我們又做了一個(gè)體系化的數(shù)據(jù)治理工作。下面將介紹一下美團(tuán)酒旅數(shù)據(jù)團(tuán)隊(duì)在數(shù)據(jù)治理各個(gè)方向上的具體實(shí)踐。

          1. 數(shù)據(jù)治理策略

          數(shù)據(jù)治理方案需要覆蓋數(shù)據(jù)生命周期的全鏈路,我們把數(shù)據(jù)治理的內(nèi)容劃分為幾大部分:組織、標(biāo)準(zhǔn)規(guī)范、技術(shù)、衡量指標(biāo)。整體數(shù)據(jù)治理的實(shí)現(xiàn)路徑是以標(biāo)準(zhǔn)化的規(guī)范和組織保障為前提,通過做技術(shù)體系整體保證數(shù)據(jù)治理策略的實(shí)現(xiàn)。同時(shí),搭建數(shù)據(jù)治理的衡量體系,隨時(shí)觀測(cè)和監(jiān)控?cái)?shù)據(jù)治理的效果,保障數(shù)據(jù)治理長(zhǎng)期向好的方向發(fā)展。

          2. 標(biāo)準(zhǔn)化和組織保障

          我們制定了一個(gè)全鏈路的數(shù)據(jù)標(biāo)準(zhǔn),從數(shù)據(jù)采集、數(shù)倉(cāng)開發(fā)、指標(biāo)管理到數(shù)據(jù)生命周期管理,全鏈路建立標(biāo)準(zhǔn),在標(biāo)準(zhǔn)化建立過程中聯(lián)合組建了業(yè)務(wù)部門的數(shù)據(jù)管理委員會(huì)。

          2.1 標(biāo)準(zhǔn)化

          數(shù)據(jù)標(biāo)準(zhǔn)化包括三個(gè)方面:一是標(biāo)準(zhǔn)制定;二是標(biāo)準(zhǔn)執(zhí)行;三是在標(biāo)準(zhǔn)制定和執(zhí)行過程中的組織保障,比如怎么讓標(biāo)準(zhǔn)能在數(shù)據(jù)技術(shù)部門、業(yè)務(wù)部門和相關(guān)商業(yè)分析部門達(dá)成統(tǒng)一。

          從標(biāo)準(zhǔn)制定上,我們制定了一套覆蓋數(shù)據(jù)生產(chǎn)到使用全鏈路的數(shù)據(jù)標(biāo)準(zhǔn)方法,從數(shù)據(jù)采集、數(shù)倉(cāng)開發(fā)、指標(biāo)管理到數(shù)據(jù)生命周期管理都建立了相應(yīng)環(huán)節(jié)的標(biāo)準(zhǔn)化的研發(fā)規(guī)范,數(shù)據(jù)從接入到消亡整個(gè)生命周期全部實(shí)現(xiàn)了標(biāo)準(zhǔn)化。

          2.2 組織保障

          根據(jù)美團(tuán)數(shù)據(jù)管理分散的現(xiàn)狀,專門建立一個(gè)職能全面的治理組織去監(jiān)督執(zhí)行數(shù)據(jù)治理工作的成本有點(diǎn)太高,在推動(dòng)和執(zhí)行上,阻力也會(huì)比較大。所以,在組織保障上,我們建立了委員會(huì)機(jī)制,通過聯(lián)合業(yè)務(wù)部門和技術(shù)部門中與數(shù)據(jù)最相關(guān)的團(tuán)隊(duì)成立了數(shù)據(jù)管理委員會(huì),再通過委員會(huì)去推動(dòng)相關(guān)各方去協(xié)同數(shù)據(jù)治理的相關(guān)工作。

          業(yè)務(wù)部門的數(shù)據(jù)接口團(tuán)隊(duì)是數(shù)據(jù)產(chǎn)品組,數(shù)據(jù)技術(shù)體系是由數(shù)據(jù)開發(fā)組負(fù)責(zé)建設(shè),所以我們以這兩個(gè)團(tuán)隊(duì)作為核心建立了業(yè)務(wù)數(shù)據(jù)管理委員會(huì),并由這兩個(gè)團(tuán)隊(duì)負(fù)責(zé)聯(lián)合業(yè)務(wù)部門和技術(shù)部門的相關(guān)團(tuán)隊(duì),一起完成數(shù)據(jù)治理各個(gè)環(huán)節(jié)工作和流程的保障。組織中各個(gè)團(tuán)隊(duì)的職責(zé)分工如下:

          數(shù)據(jù)管理委員會(huì):負(fù)責(zé)數(shù)據(jù)治理策略、目標(biāo)、流程和標(biāo)準(zhǔn)的制定,并推動(dòng)所有相關(guān)團(tuán)隊(duì)達(dá)成認(rèn)知一致。業(yè)務(wù)數(shù)據(jù)產(chǎn)品組:負(fù)責(zé)數(shù)據(jù)標(biāo)準(zhǔn)、需求對(duì)接流程、指標(biāo)統(tǒng)一管理、數(shù)據(jù)安全控制以及業(yè)務(wù)方各部門的協(xié)調(diào)推動(dòng)工作。技術(shù)數(shù)據(jù)開發(fā)組:負(fù)責(zé)數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)產(chǎn)品、數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全和數(shù)據(jù)工具的技術(shù)實(shí)現(xiàn),以及技術(shù)團(tuán)隊(duì)各個(gè)部門的協(xié)調(diào)推動(dòng)工作。

          3. 技術(shù)系統(tǒng)

          數(shù)據(jù)治理涉及的范圍非常廣,需要協(xié)作的團(tuán)隊(duì)也很多,除了需要通過組織和流程來保障治理行動(dòng)正常開展,我們也考慮通過技術(shù)系統(tǒng)化和自動(dòng)化的方式進(jìn)一步提效,讓系統(tǒng)代替人工。下面我們將從數(shù)據(jù)質(zhì)量、數(shù)據(jù)成本、數(shù)據(jù)安全和運(yùn)營(yíng)效率等幾個(gè)方向,來逐一介紹技術(shù)實(shí)現(xiàn)方案。

          3.1 數(shù)據(jù)質(zhì)量

          數(shù)據(jù)質(zhì)量是影響數(shù)據(jù)價(jià)值最重要的因素,高質(zhì)量的數(shù)據(jù)給帶來準(zhǔn)確的數(shù)據(jù)分析,錯(cuò)誤的數(shù)據(jù)會(huì)把業(yè)務(wù)引導(dǎo)到錯(cuò)誤的方向。數(shù)據(jù)質(zhì)量涉及范圍較廣,在數(shù)據(jù)鏈路的每一個(gè)環(huán)節(jié)都有可能出現(xiàn)數(shù)據(jù)質(zhì)量問題,酒旅業(yè)務(wù)現(xiàn)階段的主要質(zhì)量問題包括:

          • 數(shù)倉(cāng)規(guī)范性差,數(shù)倉(cāng)架構(gòu)無統(tǒng)一的強(qiáng)制規(guī)范執(zhí)行約束,數(shù)倉(cāng)歷史冗余數(shù)據(jù)嚴(yán)重。
          • 應(yīng)用層數(shù)據(jù)屬于“煙囪式”建設(shè),指標(biāo)在多個(gè)任務(wù)中生產(chǎn),無法保證數(shù)據(jù)的一致性。
          • 數(shù)據(jù)下游應(yīng)用的數(shù)據(jù)使用無法把控,數(shù)據(jù)準(zhǔn)確較差,接口穩(wěn)定性無法得到保障。
          • 業(yè)務(wù)方對(duì)多個(gè)數(shù)據(jù)產(chǎn)品的指標(biāo)邏輯無統(tǒng)一的定義,各個(gè)產(chǎn)品中數(shù)據(jù)不能直接對(duì)標(biāo)。

          數(shù)據(jù)組的治理數(shù)據(jù)質(zhì)量方案覆蓋了數(shù)據(jù)生命周期的各個(gè)環(huán)節(jié),下面將介紹一下整體的技術(shù)架構(gòu)。

          • 統(tǒng)一數(shù)倉(cāng)規(guī)范建模(One Model):通過統(tǒng)一數(shù)倉(cāng)規(guī)范建模系統(tǒng)化保障數(shù)倉(cāng)規(guī)范執(zhí)行,做到業(yè)務(wù)數(shù)倉(cāng)規(guī)范標(biāo)準(zhǔn)化,并及時(shí)監(jiān)控和刪除重復(fù)和過期的數(shù)據(jù)。
          • 統(tǒng)一指標(biāo)邏輯管理(One Logic):通過業(yè)務(wù)內(nèi)統(tǒng)一的指標(biāo)定義和使用,并系統(tǒng)化管理指標(biāo)邏輯,數(shù)據(jù)應(yīng)用層的數(shù)據(jù)指標(biāo)邏輯都從指標(biāo)管理系統(tǒng)中獲取,保障所有產(chǎn)品中的指標(biāo)邏輯一致。
          • 統(tǒng)一數(shù)據(jù)服務(wù)(One Service):通過建設(shè)統(tǒng)一的數(shù)據(jù)服務(wù)接口層,解耦數(shù)據(jù)邏輯和接口服務(wù),當(dāng)數(shù)據(jù)邏輯發(fā)生變化后不影響接口數(shù)據(jù)準(zhǔn)確性,同時(shí)監(jiān)控接口的調(diào)用,掌握數(shù)據(jù)的使用情況。
          • 統(tǒng)一用戶產(chǎn)品入口(One Portal):分用戶整合數(shù)據(jù)產(chǎn)品入口,使同一場(chǎng)景下數(shù)據(jù)邏輯和使用方式相同,用戶沒有數(shù)據(jù)不一致的困惑。

          3.1.1 統(tǒng)一數(shù)倉(cāng)規(guī)范建模(One Model)

          在業(yè)務(wù)發(fā)展初期,數(shù)據(jù)團(tuán)隊(duì)集中精力在快速建設(shè)數(shù)倉(cāng)來支持業(yè)務(wù),數(shù)倉(cāng)建模規(guī)范疏于管理。隨著業(yè)務(wù)的發(fā)展,數(shù)倉(cāng)中的數(shù)據(jù)急劇增多,數(shù)據(jù)產(chǎn)品和下游應(yīng)用快速增加,數(shù)據(jù)工程師和數(shù)據(jù)使用方也變得越來越多,數(shù)倉(cāng)的問題日益突顯。業(yè)務(wù)數(shù)據(jù)倉(cāng)庫(kù)從初期發(fā)展到現(xiàn)在主要暴露了3方面的問題:

          • 數(shù)據(jù)規(guī)范性較差,不同時(shí)間的數(shù)倉(cāng)規(guī)范不同,數(shù)倉(cāng)規(guī)范的執(zhí)行審核需要較多的人力。
          • 數(shù)據(jù)不一致問題多,同一指標(biāo)在多個(gè)ETL中生產(chǎn),數(shù)據(jù)更新同步也不及時(shí)。
          • 歷史數(shù)據(jù)冗余嚴(yán)重,數(shù)據(jù)存儲(chǔ)方式較多,業(yè)務(wù)方查詢不知道該用哪個(gè)數(shù)據(jù)。

          數(shù)據(jù)團(tuán)隊(duì)主要通過數(shù)倉(cāng)規(guī)范化制定、數(shù)倉(cāng)分層架構(gòu)和數(shù)倉(cāng)規(guī)范化系統(tǒng)來解決上述問題,下面是我們的具體解決方案。

          制定標(biāo)準(zhǔn)-數(shù)倉(cāng)規(guī)范

          做好數(shù)倉(cāng)規(guī)范化最基本的前提是要制定一系列標(biāo)準(zhǔn)化的規(guī)范,并推動(dòng)組內(nèi)同學(xué)執(zhí)行。標(biāo)準(zhǔn)化的適用性、全面性和可執(zhí)行性直接影響到規(guī)范的執(zhí)行效果。數(shù)倉(cāng)規(guī)范主要從3個(gè)方面制定數(shù)據(jù)標(biāo)準(zhǔn)化:

          • 數(shù)倉(cāng)建模規(guī)范,數(shù)倉(cāng)建設(shè)最基礎(chǔ)的規(guī)范,包括分層、命名、碼值、指標(biāo)定義、分層依賴等維度。
          • 主數(shù)據(jù)管理規(guī)范,數(shù)倉(cāng)各個(gè)主題的數(shù)據(jù)只有一份,團(tuán)隊(duì)共建復(fù)用,不能重復(fù)開發(fā)。
          • 數(shù)據(jù)使用規(guī)范,在查詢數(shù)據(jù)時(shí)優(yōu)先查詢主題層,不再提供明細(xì)層和ODS層的查詢?cè)L問入口。

          工具保障-數(shù)倉(cāng)規(guī)范化開發(fā)系統(tǒng)-Dataman

          在執(zhí)行數(shù)據(jù)規(guī)范化的過程中,我們發(fā)現(xiàn)團(tuán)隊(duì)中每個(gè)人對(duì)規(guī)范的理解不一致,很可能造成數(shù)據(jù)規(guī)范不統(tǒng)一,審核人在審核上線任務(wù)時(shí)需要考慮規(guī)范的全部規(guī)則,審批需要投入的人力較多。在這樣的流程下,數(shù)據(jù)規(guī)范性無法從根源上進(jìn)行控制,因此需要建設(shè)數(shù)據(jù)規(guī)范化的工具,通過系統(tǒng)保障規(guī)范的一致性。數(shù)據(jù)組使用的數(shù)據(jù)層規(guī)范化工具-Dataman,主要包括3個(gè)功能模塊:標(biāo)準(zhǔn)化規(guī)范、配置化開發(fā)和規(guī)則化驗(yàn)證。

          • 標(biāo)準(zhǔn)化規(guī)范:制定業(yè)務(wù)數(shù)據(jù)倉(cāng)庫(kù)的標(biāo)準(zhǔn)規(guī)范并配置在系統(tǒng)中,包括架構(gòu)分層、字段管理、詞根管理、公共維度和碼值管理等,在ETL開發(fā)時(shí)通過統(tǒng)一的數(shù)倉(cāng)規(guī)范開發(fā),通過配置化實(shí)現(xiàn)數(shù)倉(cāng)的命名、分層和碼值,保障數(shù)倉(cāng)長(zhǎng)期的規(guī)范性。
          • 配置化開發(fā):系統(tǒng)化保障工程師在開發(fā)ETL過程中遵守?cái)?shù)倉(cāng)規(guī)范,Dataman可以用配置化的方式生成XT任務(wù)模板,模板中包含數(shù)據(jù)模型的基礎(chǔ)信息,研發(fā)同學(xué)只需要在任務(wù)模板中開發(fā)數(shù)據(jù)生產(chǎn)邏輯。
          • 規(guī)則化驗(yàn)證:跟進(jìn)數(shù)據(jù)倉(cāng)庫(kù)底層元數(shù)據(jù)和標(biāo)準(zhǔn)化配置信息,定期掃描數(shù)倉(cāng)的規(guī)范性情況,判斷出不符合數(shù)倉(cāng)規(guī)范的任務(wù)和高相似度的數(shù)據(jù)表。

          3.1.2 統(tǒng)一指標(biāo)邏輯管理(One Logic)

          業(yè)務(wù)使用數(shù)據(jù)的第一步是搭建業(yè)務(wù)指標(biāo)體系,業(yè)務(wù)的目標(biāo)和策略的執(zhí)行情況需要通過指標(biāo)來分析,指標(biāo)體系的合理性和指標(biāo)數(shù)據(jù)的質(zhì)量直接影響到業(yè)務(wù)決策,指標(biāo)的重要性不言而喻。我們通過系統(tǒng)化地管理數(shù)據(jù)指標(biāo),從根源上解決指標(biāo)口徑一致性問題,主要從以下3個(gè)方向入手:

          • 指標(biāo)定義規(guī)范化
          • 指標(biāo)管理系統(tǒng)化
          • 數(shù)據(jù)查詢智能化

          指標(biāo)定義規(guī)范化

          此處主要從指標(biāo)的生成和管理上做好規(guī)范,確保業(yè)務(wù)同學(xué)和研發(fā)人員對(duì)指標(biāo)體系管理的認(rèn)知一致,確保指標(biāo)的新建、更改和使用都按照規(guī)范執(zhí)行。我們通過下面2個(gè)方向來實(shí)現(xiàn)指標(biāo)定義的規(guī)范統(tǒng)一。

          • 業(yè)務(wù)指標(biāo)體系的規(guī)范化:我們?cè)跇I(yè)務(wù)線內(nèi)統(tǒng)一了指標(biāo)體系規(guī)范,指標(biāo)分為原子指標(biāo)、計(jì)算指標(biāo)和復(fù)合指標(biāo),通過使用這3類指標(biāo)支持業(yè)務(wù)的數(shù)據(jù)分析需求,業(yè)務(wù)未來新增指標(biāo)也要按照這個(gè)標(biāo)準(zhǔn)分類。
          • 指標(biāo)的管理規(guī)范化:我們與商業(yè)分析團(tuán)隊(duì)一起梳理業(yè)務(wù)指標(biāo)邏輯標(biāo)準(zhǔn)和錄入流程,通過制定指標(biāo)的新增和變更規(guī)范SOP,解決由指標(biāo)管理流程引起的質(zhì)量問題,使得指標(biāo)定義、系統(tǒng)錄入、指標(biāo)認(rèn)證和使用各個(gè)環(huán)節(jié)都有嚴(yán)格的流程管控,經(jīng)由業(yè)務(wù)側(cè)數(shù)據(jù)產(chǎn)品經(jīng)理、業(yè)務(wù)側(cè)數(shù)據(jù)治理數(shù)據(jù)管理員和數(shù)據(jù)工程師共同審批,確保標(biāo)準(zhǔn)規(guī)范的落地執(zhí)行。

          指標(biāo)管理系統(tǒng)化

          物理數(shù)據(jù)表管理:數(shù)據(jù)表管理的信息主要包括表的基礎(chǔ)元數(shù)據(jù)信息、表類型(維表或事實(shí)表)、表的推薦度、描述信息和樣例數(shù)據(jù)等。數(shù)據(jù)表管理主要是面向數(shù)據(jù)開發(fā)同學(xué),通過維護(hù)數(shù)據(jù)表信息,為數(shù)據(jù)模型和指標(biāo)管理提供數(shù)據(jù)基礎(chǔ)支持。

          數(shù)據(jù)模型管理:是對(duì)物理數(shù)據(jù)表的模型構(gòu)建,通過一個(gè)物理模型可以查詢到指標(biāo)和相關(guān)的維度數(shù)據(jù)。數(shù)據(jù)模型可以是星型模型或?qū)挶?,星型模型中維護(hù)多個(gè)數(shù)據(jù)表的關(guān)聯(lián)方式、關(guān)聯(lián)字段、維度表包含字段和模型的ER圖等信息。

          指標(biāo)管理:主要包括2部分的內(nèi)容,指標(biāo)的業(yè)務(wù)信息和技術(shù)信息。

          • 業(yè)務(wù)信息:為了保障業(yè)務(wù)的指標(biāo)信息準(zhǔn)確且統(tǒng)一,指標(biāo)的業(yè)務(wù)信息需要數(shù)據(jù)產(chǎn)品經(jīng)理與商業(yè)分析團(tuán)隊(duì)討論確定后錄入,錄入后需要指標(biāo)所屬數(shù)據(jù)主題的負(fù)責(zé)人審批后才能上線。
          • 技術(shù)信息:技術(shù)信息主要包括指標(biāo)對(duì)應(yīng)的物理模型以及指標(biāo)的計(jì)算邏輯,技術(shù)信息的填寫需要數(shù)據(jù)工程師配置。技術(shù)信息配置后會(huì)在系統(tǒng)里生成技術(shù)元數(shù)據(jù),指標(biāo)管理系統(tǒng)通過技術(shù)元數(shù)據(jù)生成數(shù)據(jù)查詢語句,提供給下游應(yīng)用。

          指標(biāo)查詢智能化

          在指標(biāo)管理系統(tǒng)中創(chuàng)建指標(biāo)時(shí),我們系統(tǒng)化管理了指標(biāo)與數(shù)倉(cāng)物理模型的關(guān)聯(lián)關(guān)系和取數(shù)邏輯,通過數(shù)據(jù)物理模型獲得指標(biāo)對(duì)應(yīng)的字段和可以關(guān)聯(lián)的維度,以此把指標(biāo)解析為數(shù)據(jù)查詢SQL語句,通過數(shù)據(jù)查詢引擎執(zhí)行生產(chǎn)的SQL,智能化獲得指標(biāo)數(shù)據(jù)。

          在查詢解析過程中,經(jīng)常出現(xiàn)指標(biāo)綁定了多個(gè)底層數(shù)據(jù)表的情況,此時(shí)需要我們手動(dòng)的選一個(gè)物理模型作為指標(biāo)生產(chǎn)的底層數(shù)據(jù)。但問題是,如果一個(gè)指標(biāo)對(duì)應(yīng)的模型太多,每次解析都需要手動(dòng)指定,研發(fā)人員不確定選擇哪個(gè)模型的性能最好。另外,隨著物理模型的增多,大量舊的指標(biāo)配置的關(guān)聯(lián)模型不是最優(yōu)解,就需要手動(dòng)優(yōu)化更改。為了解決這個(gè)問題,指標(biāo)管理系統(tǒng)增加了智能解析模塊,在選擇智能模式查詢時(shí),系統(tǒng)會(huì)根據(jù)指標(biāo)管理模型的數(shù)據(jù)量、存儲(chǔ)性能和查詢次數(shù)等信息自動(dòng)選取最優(yōu)的物理模型。

          3.1.3 統(tǒng)一數(shù)據(jù)服務(wù)(One Service)

          數(shù)據(jù)倉(cāng)庫(kù)對(duì)外提供數(shù)據(jù)的需求越來越多,除了管理層、分析師和產(chǎn)品運(yùn)營(yíng)同學(xué)使用數(shù)據(jù)產(chǎn)品和報(bào)表外,數(shù)據(jù)還需要提供到各個(gè)業(yè)務(wù)系統(tǒng)中使用。常用的提供數(shù)據(jù)的方式主要包括同步數(shù)據(jù)表、提供SQL和為下游服務(wù)開發(fā)定制化API接口等方式,但存在以下幾個(gè)方面的問題:

          • 數(shù)據(jù)一致性無法保障,當(dāng)數(shù)據(jù)指標(biāo)邏輯更改時(shí),業(yè)務(wù)系統(tǒng)不能及時(shí)調(diào)整,導(dǎo)致不同業(yè)務(wù)系統(tǒng)的數(shù)據(jù)不一致。
          • 數(shù)據(jù)同步到業(yè)務(wù)系統(tǒng)后,我們就無法管控?cái)?shù)據(jù)的使用方式,也不能監(jiān)控到數(shù)據(jù)是否被其他下游使用的情況。
          • 數(shù)據(jù)開發(fā)效率比較低,數(shù)據(jù)服務(wù)穩(wěn)定性比較差,數(shù)據(jù)工程師開發(fā)一個(gè)定制化API接口需要幾天時(shí)間,各個(gè)接口服務(wù)單獨(dú)維護(hù),服務(wù)穩(wěn)定性也比較差。

          從2018年開始,數(shù)據(jù)BP中心與分析系統(tǒng)中心合作建設(shè)了統(tǒng)一數(shù)據(jù)API服務(wù)平臺(tái)(Buffalo),通過開發(fā)可配置的數(shù)據(jù)接口服務(wù)平臺(tái)實(shí)現(xiàn)數(shù)據(jù)對(duì)外的靈活提供,并實(shí)現(xiàn)對(duì)數(shù)據(jù)服務(wù)的下游使用及性能的可監(jiān)控。統(tǒng)一的數(shù)據(jù)服務(wù)平臺(tái)解決了幾個(gè)比較關(guān)鍵的問題:

          • 數(shù)據(jù)邏輯統(tǒng)一收口:數(shù)據(jù)服務(wù)接口和數(shù)據(jù)邏輯解耦,當(dāng)數(shù)倉(cāng)更改和數(shù)據(jù)指標(biāo)邏輯變更后下游無感知。
          • 數(shù)據(jù)服務(wù)的更好管控:研發(fā)同學(xué)能夠了解到數(shù)據(jù)被哪些下游使用、調(diào)用了多少次和數(shù)據(jù)服務(wù)是否穩(wěn)定等信息。
          • 開發(fā)效率大幅提升,服務(wù)穩(wěn)定性大幅提高:通過統(tǒng)一服務(wù)平臺(tái)可以在1小時(shí)內(nèi)完成一個(gè)接口的配置化開發(fā),與此同時(shí),接口穩(wěn)定性統(tǒng)一運(yùn)維,服務(wù)穩(wěn)定性有了很好的保障。

          3.1.4 統(tǒng)一用戶產(chǎn)品入口(One Portal)

          如果不加控制,數(shù)據(jù)產(chǎn)品就會(huì)建設(shè)得越來越多。酒旅業(yè)務(wù)在2018年有超過10個(gè)數(shù)據(jù)相關(guān)產(chǎn)品的入口,用戶很難快速地找到自己想要查的數(shù)據(jù)產(chǎn)品和報(bào)表。不同產(chǎn)品面對(duì)的用戶不一樣,數(shù)據(jù)的使用場(chǎng)景和展示方式也各不相同,業(yè)務(wù)方在使用數(shù)據(jù)時(shí)不知道從哪里能看到最全面的數(shù)據(jù)產(chǎn)品。

          此外,也存在因?yàn)檫m用場(chǎng)景不一樣,導(dǎo)致面向不同用戶的數(shù)據(jù)邏輯不同的情況,比如某些業(yè)務(wù)同學(xué)查看的GMV不包含民宿數(shù)據(jù),但是商業(yè)分析團(tuán)隊(duì)要看的GMV是包含民宿數(shù)據(jù)的。為了能夠讓業(yè)務(wù)方能夠在一個(gè)數(shù)據(jù)產(chǎn)品門戶中找到更全面的數(shù)據(jù),且這個(gè)產(chǎn)品門戶中多個(gè)產(chǎn)品的數(shù)據(jù)邏輯是一致的,我們將數(shù)據(jù)門戶按照使用用戶和應(yīng)用場(chǎng)景劃分為3類:

          • 決策分析使用“大圣”(美團(tuán)內(nèi)部的數(shù)據(jù)平臺(tái)),面向管理者和商業(yè)分析團(tuán)隊(duì),所有業(yè)務(wù)管理者和商業(yè)分析團(tuán)隊(duì)成員需要的數(shù)據(jù)都可以從大圣數(shù)據(jù)產(chǎn)品里查看。
          • 業(yè)務(wù)數(shù)據(jù)查詢使用“天狼” (美團(tuán)內(nèi)部的數(shù)據(jù)平臺(tái)),用戶主要是銷售,在天狼里能查看銷售所需的各種數(shù)據(jù)。
          • 數(shù)據(jù)資產(chǎn)信息查詢使用“大禹”(美團(tuán)內(nèi)部的數(shù)據(jù)平臺(tái)),用戶是研發(fā)人員和檢索數(shù)據(jù)信息的業(yè)務(wù)方,在大禹數(shù)據(jù)門戶里可以找到數(shù)據(jù)資產(chǎn)的信息,能更快地找到想要的數(shù)據(jù),更全面地了解相關(guān)的元數(shù)據(jù)。

          3.1.5 整體系統(tǒng)架構(gòu)

          整體的技術(shù)架構(gòu)分為三層,從統(tǒng)一數(shù)據(jù)建模到統(tǒng)一指標(biāo)邏輯、統(tǒng)一數(shù)據(jù)服務(wù)和統(tǒng)一產(chǎn)品入口,整體保障了數(shù)據(jù)的質(zhì)量,同時(shí)配合數(shù)據(jù)管理的組織保障體系和流程規(guī)范,將整體數(shù)據(jù)質(zhì)量相關(guān)的架構(gòu)搭建起來。

          3.2 數(shù)據(jù)運(yùn)營(yíng)效率

          數(shù)據(jù)工程師在日常工作中的主要工作包括兩大部分:數(shù)據(jù)開發(fā)和數(shù)據(jù)運(yùn)營(yíng)。我們?cè)谇懊娼榻B了通過數(shù)據(jù)開發(fā)和指標(biāo)管理相關(guān)的工具系統(tǒng)建設(shè),開發(fā)效率得到了大幅提升。而數(shù)據(jù)運(yùn)營(yíng)是另一大類工作,他們的主要時(shí)間投入在數(shù)據(jù)使用咨詢和數(shù)據(jù)問題答疑,大概占數(shù)據(jù)工程師日常工作5%~10%的時(shí)間。

          數(shù)據(jù)工程師日常投入到運(yùn)營(yíng)的人力多的主要原因是信息不對(duì)稱和信息檢索能力弱,數(shù)據(jù)團(tuán)隊(duì)建設(shè)了很多數(shù)據(jù)模型和數(shù)據(jù)產(chǎn)品,但是用戶不知道怎么快速地找到和使用這些數(shù)據(jù),問題主要體現(xiàn)在下面3個(gè)方面:

          • 找數(shù)難:所需要的數(shù)據(jù)有沒有?在哪里能找到?
          • 看不懂:數(shù)據(jù)倉(cāng)庫(kù)是以數(shù)據(jù)表和報(bào)表等方式提供,數(shù)據(jù)的邏輯和含義不夠清晰易懂。
          • 不會(huì)用:數(shù)據(jù)指標(biāo)的查詢邏輯是什么?多個(gè)表怎么關(guān)聯(lián)使用?

          3.2.1 方案思路

          數(shù)據(jù)團(tuán)隊(duì)通過數(shù)據(jù)資產(chǎn)信息的系統(tǒng)化的方式建設(shè)易用的數(shù)據(jù)檢索產(chǎn)品,幫助用戶更快捷、更方便地找到數(shù)據(jù),并指導(dǎo)用戶正確地使用數(shù)據(jù),提高數(shù)據(jù)信息的易用性,以此減少數(shù)據(jù)工程師的數(shù)據(jù)答疑和運(yùn)維時(shí)間。實(shí)現(xiàn)策略是通過用戶的問題分類,通過數(shù)據(jù)信息系統(tǒng)化的方式分類解答80%的問題,最后少量的問題透?jìng)鞯窖邪l(fā)人員再進(jìn)行人工答疑。系統(tǒng)化方式主要分兩層,數(shù)據(jù)使用智能和數(shù)據(jù)答疑機(jī)器人。

          3.2.2 數(shù)據(jù)使用指南系統(tǒng)

          數(shù)據(jù)使用指南的定位是業(yè)務(wù)數(shù)據(jù)信息的知識(shí)白皮書,提供最新、最全、最準(zhǔn)確的指標(biāo)口徑、項(xiàng)目指標(biāo)體系、數(shù)據(jù)表用法等信息,以簡(jiǎn)潔、流暢的操作支持?jǐn)?shù)據(jù)指南中的內(nèi)容及時(shí)更新,降低業(yè)務(wù)方的數(shù)據(jù)答疑和數(shù)據(jù)使用成本。

          數(shù)據(jù)使用指南通過把業(yè)務(wù)場(chǎng)景和數(shù)據(jù)使用場(chǎng)景打通,從業(yè)務(wù)場(chǎng)景分析到使用到的數(shù)據(jù)表、指標(biāo)和數(shù)據(jù)產(chǎn)品打通,在系統(tǒng)中能夠快速找到數(shù)據(jù)表、指標(biāo)定義、數(shù)據(jù)查詢SQL、指標(biāo)所在數(shù)據(jù)產(chǎn)品等信息,一站式解決數(shù)據(jù)查找、使用和分析的全部場(chǎng)景。主要功能包括指標(biāo)信息和數(shù)據(jù)表信息及使用。

          • 指標(biāo)信息:包括業(yè)務(wù)分類指標(biāo)和指標(biāo)的詳細(xì)信息,在指標(biāo)詳細(xì)信息頁(yè)面可以查看指標(biāo)定義、指標(biāo)使用場(chǎng)景、指標(biāo)統(tǒng)計(jì)維度、指標(biāo)對(duì)應(yīng)數(shù)據(jù)表、指標(biāo)所在數(shù)據(jù)產(chǎn)品和指標(biāo)的SQL查詢示例等信息,把指標(biāo)信息與數(shù)據(jù)表和數(shù)據(jù)產(chǎn)品關(guān)聯(lián),方便用戶快速根據(jù)指標(biāo)信息查找到數(shù)據(jù)。
          • 數(shù)據(jù)表信息及使用方式:包括數(shù)據(jù)表的基礎(chǔ)信息、表的使用推薦度、SQL查詢樣例、數(shù)據(jù)更新時(shí)間和數(shù)據(jù)就緒時(shí)間等信息,幫助使用者快速定位需要的數(shù)據(jù)表和數(shù)據(jù)SQL的查詢使用。

          3.2.3 數(shù)據(jù)答疑機(jī)器人

          用戶在使用數(shù)據(jù)時(shí),經(jīng)常咨詢數(shù)據(jù)工程師一些問題,比如想找的數(shù)據(jù)在哪個(gè)表?指標(biāo)怎么取?業(yè)務(wù)系統(tǒng)的一個(gè)字段怎么在數(shù)倉(cāng)里面取到?很多問題會(huì)被重復(fù)問到,每次解答都需要研發(fā)人員花費(fèi)一定的時(shí)間,而通過Wiki的方式維護(hù)效果較差,于是我們考慮用自動(dòng)化答疑的方式,把數(shù)據(jù)工程師在日常答疑過程中積累問題和答案,通過一定的規(guī)則匹配,當(dāng)再次被問到時(shí)系統(tǒng)可以自動(dòng)地給出解答。

          使用日常答疑中積累的咨詢問題和答案作為基礎(chǔ)答疑知識(shí)庫(kù),數(shù)據(jù)答疑機(jī)器人使用美團(tuán)AI平臺(tái)的摩西機(jī)器人搭建,配合問題答疑的策略,實(shí)現(xiàn)對(duì)歷史已有問題和答案通過搜索匹配后發(fā)送給用戶,具體實(shí)現(xiàn)方式如下:

          3.3 數(shù)據(jù)成本

          大數(shù)據(jù)的主要成本構(gòu)成有3大部分,計(jì)算資源、存儲(chǔ)資源和日志采集資源,其中計(jì)算資源和存儲(chǔ)占總成本超過90%,我們的數(shù)據(jù)成本治理主要是針對(duì)大數(shù)據(jù)計(jì)算和存儲(chǔ)這兩個(gè)部分。

          大數(shù)據(jù)成本優(yōu)化方案

          • 計(jì)算資源

            • 無效任務(wù)清理,通過任務(wù)生產(chǎn)出來數(shù)據(jù)的使用情況判斷是否為無效任務(wù),通過下線無效任務(wù),減少任務(wù)執(zhí)行使用的計(jì)算資源。
            • 超長(zhǎng)任務(wù)優(yōu)化,經(jīng)過任務(wù)的計(jì)算資源使用數(shù)據(jù)可以發(fā)現(xiàn),某幾個(gè)大任務(wù)在執(zhí)行時(shí)會(huì)占用大部分的計(jì)算資源,導(dǎo)致其他任務(wù)執(zhí)行時(shí)間變長(zhǎng),或者占用配置外的彈性計(jì)算資源,導(dǎo)致計(jì)算成本增加。數(shù)據(jù)組會(huì)統(tǒng)計(jì)和監(jiān)控每天任務(wù)的執(zhí)行情況,發(fā)現(xiàn)執(zhí)行時(shí)間長(zhǎng)(超過2個(gè)小時(shí))或者占用資源多的任務(wù)會(huì)及時(shí)進(jìn)行優(yōu)化。
            • 分散利用計(jì)算資源,數(shù)倉(cāng)的夜間批處理任務(wù)使用計(jì)算資源的實(shí)際一般都集中在早晨2點(diǎn)到上午10點(diǎn)前,這就導(dǎo)致在一天中只有三分之一的資源被充分利用,而且這段時(shí)間內(nèi)通常資源都是不夠用的,需要使用平臺(tái)提供的配置外彈性資源。而其他時(shí)間段的計(jì)算資源閑置,對(duì)資源有較大的浪費(fèi)。為了把全天的資源都有效地利用起來,我們會(huì)把一些對(duì)就緒時(shí)間不敏感的任務(wù)(比如算法挖掘、用戶標(biāo)簽、數(shù)據(jù)回刷等)放到10點(diǎn)之后,把配置的計(jì)算資源充分利用起來。
            • 租戶拆分和整合統(tǒng)一管理,提高資源池總量和資源總體的使用率。
          • 存儲(chǔ)資源

            • 數(shù)倉(cāng)架構(gòu)優(yōu)化和重構(gòu):通過統(tǒng)一數(shù)倉(cāng)建模規(guī)范,把相似或相同模型進(jìn)行整合和去重,確保每個(gè)主題數(shù)據(jù)只保留一份。
            • 數(shù)據(jù)存儲(chǔ)壓縮:在數(shù)據(jù)倉(cāng)庫(kù)建設(shè)初期,很多Hive表的存儲(chǔ)格式是txt,通過壓縮為ORC格式可以減少大量的存儲(chǔ)空間。
            • 冷數(shù)據(jù)處理:把數(shù)據(jù)分為冷、熱兩大類數(shù)據(jù),通過每天對(duì)全部數(shù)倉(cāng)表掃描識(shí)別出冷數(shù)據(jù),發(fā)給數(shù)據(jù)負(fù)責(zé)人及時(shí)處理。
            • 數(shù)據(jù)生命周期控制:按照數(shù)倉(cāng)分層的應(yīng)用場(chǎng)景配置數(shù)據(jù)的生命周期,明細(xì)數(shù)倉(cāng)層保留的全部歷史數(shù)據(jù),主題層保留5年數(shù)據(jù),應(yīng)用層保留1~3年數(shù)據(jù)。通過數(shù)據(jù)生命周期控制,極大地減少了數(shù)據(jù)存儲(chǔ)成本。
          • 日志采集資源

            • 下線冷數(shù)據(jù)的上游日志數(shù)據(jù)收集任務(wù),數(shù)據(jù)收集費(fèi)用主要來自兩類數(shù)據(jù),業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫(kù)的Log同步和后臺(tái)日志數(shù)據(jù)收集,通過對(duì)收集數(shù)據(jù)的使用情況監(jiān)控,及時(shí)下線下游無應(yīng)用的數(shù)據(jù)收集任務(wù)。

          3.4 數(shù)據(jù)安全

          數(shù)據(jù)資產(chǎn)對(duì)業(yè)務(wù)來說既是價(jià)值,也是風(fēng)險(xiǎn)。數(shù)據(jù)安全作為業(yè)務(wù)部門“事關(guān)生死”的核心工作,在技術(shù)架構(gòu)上會(huì)從數(shù)據(jù)產(chǎn)生到數(shù)據(jù)應(yīng)用各個(gè)環(huán)節(jié)進(jìn)行控制,保障數(shù)據(jù)應(yīng)用事前有控制、事中有監(jiān)控和事后有審計(jì)。數(shù)據(jù)安全控制從業(yè)務(wù)系統(tǒng)開始對(duì)用戶高敏感數(shù)據(jù)加密,在數(shù)倉(cāng)進(jìn)行分級(jí)和脫敏,在應(yīng)用層做密文數(shù)據(jù)權(quán)限和密鑰權(quán)限的雙重保障,管控用戶相關(guān)的高敏感數(shù)據(jù),按照三層系統(tǒng)控制加五個(gè)使用原則實(shí)現(xiàn)如下:

          4. 衡量指標(biāo)

          業(yè)務(wù)部門在業(yè)務(wù)發(fā)展初級(jí)就會(huì)建立指標(biāo)體系,并使用數(shù)據(jù)指標(biāo)對(duì)各個(gè)業(yè)務(wù)過程做精細(xì)化的分析,衡量業(yè)務(wù)目標(biāo)的達(dá)成情況和行動(dòng)的執(zhí)行程度。數(shù)據(jù)治理也需要一套成熟穩(wěn)定的衡量指標(biāo)體系,對(duì)數(shù)據(jù)體系做到長(zhǎng)期、穩(wěn)定和可量化的衡量。我們通過制定體系化的數(shù)據(jù)衡量指標(biāo)體系,來及時(shí)監(jiān)測(cè)數(shù)據(jù)治理過程中哪些部分做的好,哪些部分還有問題。

          4.1 衡量指標(biāo)建設(shè)

          為了能夠不重不漏地把指標(biāo)都建立起來,我們從2個(gè)方面進(jìn)行考慮:

          • 技術(shù)分類,按照數(shù)據(jù)團(tuán)隊(duì)關(guān)注的問題和目標(biāo),把數(shù)據(jù)治理的指標(biāo)體系分成質(zhì)量、成本、安全、易用性和效率這5大類。
          • 數(shù)據(jù)流環(huán)節(jié),分別從數(shù)據(jù)的采集、生產(chǎn)、存儲(chǔ)、指標(biāo)管理、應(yīng)用和銷毀等環(huán)節(jié)監(jiān)控關(guān)注的指標(biāo)。

          4.2 衡量指標(biāo)保障數(shù)據(jù)治理

          根據(jù)PDCA原則,將數(shù)據(jù)治理作為日常的運(yùn)營(yíng)項(xiàng)目做起來,底層依賴數(shù)據(jù)指標(biāo)體系進(jìn)行監(jiān)控,之上從發(fā)現(xiàn)問題到提出優(yōu)化方案,然后跟進(jìn)處理,再到日常監(jiān)控,構(gòu)成一個(gè)完整的循環(huán)。

          5. 治理效果總結(jié)

          數(shù)據(jù)治理覆蓋了數(shù)據(jù)生命周期全鏈路,通過圍繞數(shù)據(jù)從產(chǎn)生到價(jià)值消亡全部生命周期,建立數(shù)據(jù)治理組織、制定治理衡量體系和建設(shè)治理技術(shù)系統(tǒng)來達(dá)到數(shù)據(jù)治理目標(biāo)。經(jīng)過體系化的數(shù)據(jù)治理,數(shù)據(jù)系統(tǒng)的治理、成本、安全和運(yùn)營(yíng)效率都有了比較大的改善。

          • 數(shù)據(jù)質(zhì)量:技術(shù)架構(gòu)優(yōu)化后,通過標(biāo)準(zhǔn)化規(guī)范和系統(tǒng)保障數(shù)據(jù)的準(zhǔn)確性,并在治理過程中清除和整合了歷史冗余數(shù)據(jù),數(shù)據(jù)質(zhì)量問題有很大的改善。2019年數(shù)據(jù)生產(chǎn)任務(wù)的增長(zhǎng)率比2018年減少了60%左右。
          • 數(shù)據(jù)成本:經(jīng)過數(shù)據(jù)成本優(yōu)化后,在支持2019年酒旅業(yè)務(wù)高速增長(zhǎng)的同時(shí),大數(shù)據(jù)的單均成本費(fèi)用降低了40%左右。
          • 數(shù)據(jù)安全:通過業(yè)務(wù)系統(tǒng)數(shù)據(jù)加密和數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)脫敏,雙重保障高敏感數(shù)據(jù)安全,避免數(shù)據(jù)泄露。通過數(shù)據(jù)安全規(guī)范和數(shù)據(jù)敏感性的宣導(dǎo),加強(qiáng)業(yè)務(wù)同學(xué)的數(shù)據(jù)安全意識(shí),業(yè)務(wù)沒有嚴(yán)重?cái)?shù)據(jù)安全問題的發(fā)生。
          • 運(yùn)營(yíng)效率:運(yùn)營(yíng)工具化減少了研發(fā)同學(xué)超過60%的日常答疑時(shí)間,極大地減少了研發(fā)同學(xué)工作被打擾的次數(shù),提高了開發(fā)效率。

          三、未來規(guī)劃

          數(shù)據(jù)治理分為三個(gè)大階段:被動(dòng)治理、主動(dòng)治理、自動(dòng)治理。

          • 第一階段我們做的是被動(dòng)治理,也就是階段性治理,確少統(tǒng)籌考慮,主要是基于單個(gè)問題的治理,而且治理之后過一段時(shí)間可能還要做重復(fù)治理。這個(gè)階段更多是人治,一個(gè)項(xiàng)目成立,協(xié)調(diào)幾個(gè)人按照項(xiàng)目制完成,沒有體系規(guī)劃,也沒有組織保障。
          • 第二階段是主動(dòng)治理,有長(zhǎng)期的統(tǒng)籌規(guī)劃,能覆蓋到數(shù)據(jù)生命周期的各個(gè)鏈路,在治理過程中把一些手段和經(jīng)驗(yàn)流程化、標(biāo)準(zhǔn)化、系統(tǒng)化,長(zhǎng)期解決一些數(shù)據(jù)問題,讓數(shù)據(jù)治理長(zhǎng)期可控。
          • 第三階段是自動(dòng)治理,也是智能治理,在長(zhǎng)期規(guī)劃和數(shù)據(jù)生命周期各環(huán)節(jié)鏈路確定好之后,把已經(jīng)有的經(jīng)驗(yàn)、流程和標(biāo)準(zhǔn)做成策略。一旦出現(xiàn)問題,自動(dòng)監(jiān)控,通過一些系統(tǒng)化的方式解決。自動(dòng)治理的第一步還是治理方案的落地和策略化,這非常依賴于元數(shù)據(jù),把數(shù)據(jù)治理各個(gè)過程中的一些經(jīng)驗(yàn)技術(shù)都沉淀起來。做完策略沉淀之后做自動(dòng)化,把策略用工具的方式實(shí)現(xiàn),當(dāng)系統(tǒng)發(fā)現(xiàn)數(shù)據(jù)有問題時(shí),自動(dòng)就去處理。

          目前,美團(tuán)酒旅業(yè)務(wù)數(shù)據(jù)治理處在第二階段和第三階段之間,雖然有整體治理計(jì)劃、技術(shù)架構(gòu)和組織保障,但仍需要投入一定的人力去做。未來,數(shù)據(jù)治理會(huì)繼續(xù)朝著智能化的方向進(jìn)行探索,真正把自動(dòng)化治理工作做得更好。

          四、作者簡(jiǎn)介

          • 建舒,2015年加入美團(tuán),數(shù)據(jù)科學(xué)與平臺(tái)部數(shù)據(jù)工程師。
          • 王磊,2017年加入美團(tuán),數(shù)據(jù)科學(xué)與平臺(tái)部數(shù)據(jù)工程師。
          • 羅茜,2017年加入美團(tuán),數(shù)據(jù)科學(xué)與平臺(tái)部數(shù)據(jù)產(chǎn)品經(jīng)理。

          瀏覽 49
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  日韩一级片大全 | WWW.精品天堂网一区二区三区 | 狠狠穞A片一區二區三區 | 欧美逼XXXX | 91土豪约大长腿美女嫩模 |