<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          數(shù)據(jù)治理究竟是份什么工作?

          共 2071字,需瀏覽 5分鐘

           ·

          2022-07-04 23:22

          為什么是臟活、累活?

          1. 源數(shù)據(jù)

          • 煙囪式開發(fā)

            業(yè)務(wù)繁多、數(shù)據(jù)庫(kù)多而亂,系統(tǒng)與系統(tǒng)之間錯(cuò)綜復(fù)雜

          • 數(shù)據(jù)庫(kù)種類:

            架構(gòu)經(jīng)歷多次變遷,切換不完全,需要從Mysql、oracle、hbase甚至excle表中跨庫(kù)、跨實(shí)例、跨種類才能獲得有效業(yè)務(wù)數(shù)據(jù)

          • 數(shù)據(jù)結(jié)構(gòu)混亂:

            同一字段,類型、命名都不一致

          • 文檔缺失:

            無(wú)數(shù)據(jù)庫(kù)文檔或文檔陳舊

          2. 變遷

          • 系統(tǒng)版本升級(jí):

            每一次升級(jí)都只是掩蓋之前的錯(cuò)誤,數(shù)據(jù)治理需要從源頭

          • 人員變更:

            梳理過程中的大部分問題最終答案:

            “不清楚,原來(lái)維護(hù)人已離職”

          • 數(shù)據(jù)流轉(zhuǎn):

            數(shù)據(jù)從源頭經(jīng)過很多次不規(guī)范的同步

          3. 存量

          • 各自為政:

            各業(yè)務(wù)部門已有自己的統(tǒng)計(jì)邏輯和報(bào)表,同一指標(biāo)匯總維度又不一致,梳理、治理、輸出還要盡量不影響已有報(bào)表結(jié)果

          • 半途而廢:

            前任都知道數(shù)據(jù)治理、統(tǒng)一出口的重要性,但只完成一部分就放棄了。

            問題在于“完成的一部分”有人還在用

          怎么開始?

          1. 方法論

          • 統(tǒng)一定義:

            對(duì)個(gè)性化的數(shù)據(jù)指標(biāo)統(tǒng)一規(guī)范定義

          • 標(biāo)準(zhǔn)建模

            建立數(shù)據(jù)公共層對(duì)模型架構(gòu)進(jìn)行標(biāo)準(zhǔn)規(guī)范設(shè)計(jì)和管理

          • 規(guī)范研發(fā):

            將建模方法體系貫穿在整個(gè)數(shù)據(jù)研發(fā)流程

          • 工具保障:

            通過研發(fā)一系列的工具保障方法體系的落地實(shí)施

          2. 統(tǒng)一方法策略:統(tǒng)一歸口、統(tǒng)一出口



          圖片來(lái)源:阿里巴巴 OneData



          3. 統(tǒng)一業(yè)務(wù)歸口

          1.模型

          規(guī)范化模型分層、數(shù)據(jù)流向和主題劃分,從而降低研發(fā)成本,增強(qiáng)指標(biāo)復(fù)用性,并提高業(yè)務(wù)的支撐能力。

          2.規(guī)范

          規(guī)范是數(shù)倉(cāng)建設(shè)的保障。為了避免出現(xiàn)指標(biāo)重復(fù)建設(shè)和數(shù)據(jù)字段難以理解的情況

          (1) 詞根

          詞根是維度和指標(biāo)管理的基礎(chǔ),劃分為普通詞根與專有詞根,提高詞根的易用性和關(guān)聯(lián)性。

          • 普通詞根:

            描述事物的最小單元體

          • 專有詞根:

            具備約定成俗或行業(yè)專屬的描述體,如:

            -USD。

          (2) 表命名規(guī)范

          通用規(guī)范

          • 表名、字段名采用一個(gè)下劃線分隔詞根(示例:

            clienttype->client_type)。

          • 每部分使用小寫英文單詞,屬于通用字段的必須滿足通用字段信息的定義。

          • 表名、字段名需以字母為開頭

          • 表名、字段名最長(zhǎng)不超過64個(gè)英文字符。

          • 優(yōu)先使用詞根中已有關(guān)鍵字(數(shù)倉(cāng)標(biāo)準(zhǔn)配置中的詞根管理)

          • 在表名自定義部分禁止采用非標(biāo)準(zhǔn)的縮寫

          表命名規(guī)則

          表名稱 = 所處分層 + 業(yè)務(wù)主題 + 子主題 + 表含義 + 更新頻率 + [分表:_0、_10]

          (3) 指標(biāo)命名規(guī)范

          結(jié)合指標(biāo)的特性以及詞根管理規(guī)范,將指標(biāo)進(jìn)行結(jié)構(gòu)化處理。

          A. 基礎(chǔ)指標(biāo)詞根,即所有指標(biāo)必須包含以下基礎(chǔ)詞根:

          基礎(chǔ)指標(biāo)詞根英文全稱Hive數(shù)據(jù)類型MySQL數(shù)據(jù)類型長(zhǎng)度精度詞根樣例
          數(shù)量countBigintBigint100cnt
          金額類amoutDecimalDecimal204amt
          比率/占比ratioDecimalDecimal104ratio0.9818

          B.日期修飾詞,用于修飾業(yè)務(wù)發(fā)生的時(shí)間區(qū)間。

          日期類型全稱詞根備注
          dailyd
          weeklyw
          monthym
          季度quarterlyqQ1 ~ Q4

          C.聚合修飾詞,對(duì)結(jié)果進(jìn)行聚集操作。

          聚合類型全稱詞根備注
          平均averageavg
          周累計(jì)wtdwtd

          E.基礎(chǔ)指標(biāo),單一的業(yè)務(wù)修飾詞 + 基礎(chǔ)指標(biāo)詞根構(gòu)建基礎(chǔ)指標(biāo) ,例如:交易金額 - trade_amt

          F.派生指標(biāo),多修飾詞+基礎(chǔ)指標(biāo)詞根構(gòu)建派生指標(biāo)。派生指標(biāo)繼承基礎(chǔ)指標(biāo)的特性,例如:新增門店數(shù)量-new_store_cnt

          (4) 清洗規(guī)范

          確認(rèn)了字段命名和指標(biāo)命名之后,根據(jù)指標(biāo)與字段的部分特性,我們整理出了整個(gè)數(shù)倉(cāng)可預(yù)知的24條清洗規(guī)范:

          數(shù)據(jù)類型數(shù)據(jù)類別Hive類型MySQL類型長(zhǎng)度精度詞根格式說(shuō)明備注
          日期類型字符日期類stringvarchar10
          dateYYYY-MM-DD日期清洗為相應(yīng)的格式
          數(shù)據(jù)類型數(shù)量類bigintbigint100cnt活躍門店

          3. 統(tǒng)一數(shù)據(jù)出口

          數(shù)倉(cāng)建設(shè)保證數(shù)據(jù)質(zhì)量以及數(shù)據(jù)的使用,對(duì)數(shù)據(jù)資產(chǎn)管理和統(tǒng)一數(shù)據(jù)出口之前:

          • 統(tǒng)一指標(biāo)管理,保證了指標(biāo)定義、計(jì)算口徑、數(shù)據(jù)來(lái)源的一致性

          • 統(tǒng)一維度管理,保證了維度定義、維度值的一致性

          • 統(tǒng)一數(shù)據(jù)出口,實(shí)現(xiàn)了維度和指標(biāo)元數(shù)據(jù)信息的唯一出口,維值和指標(biāo)數(shù)據(jù)的唯一出口

          4. 數(shù)據(jù)資產(chǎn)沉淀


          圖片來(lái)源:阿里巴巴 OneData


          • 詞根、命名歸檔

          • 指標(biāo)定義說(shuō)明、指標(biāo)樹歸檔

          • 維度、維度樹、數(shù)據(jù)類型

          • 計(jì)算邏輯統(tǒng)一,如:

            利潤(rùn)、成本等形成標(biāo)準(zhǔn)計(jì)算公式

          5. 流程改善

          建立運(yùn)維監(jiān)控體系

          開發(fā)流程(僅包含數(shù)據(jù)模型及 ETL ),關(guān)鍵節(jié)點(diǎn)維度、指標(biāo)及計(jì)算邏輯確定


          開發(fā)流程


          6. 標(biāo)準(zhǔn)化規(guī)范化數(shù)據(jù)流向

          避免大量的煙囪式開發(fā)、重復(fù)生成明細(xì)表或輕度匯總表、分層引用等不規(guī)范性及數(shù)據(jù)鏈路混亂


          標(biāo)準(zhǔn)化數(shù)據(jù)流向圖


          • 標(biāo)準(zhǔn)的數(shù)據(jù)流向進(jìn)行開發(fā):

            即ODS–>DWD–>DWS–>APP 或 ODS–>DWD–>DWM–>APP

          • 新業(yè)務(wù)數(shù)據(jù)流:

            遵循ODS->DWD->APP或者ODS->DWD->DWS->APP兩個(gè)模型數(shù)據(jù)流

          寄語(yǔ):一旦開始數(shù)據(jù)治理,不要半途而廢


          https://www.zhihu.com/answer/2551758354
          原文
          瀏覽 33
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  夜噜噜在线 | 69亚洲精品 | 日韩精品在线观看免费 | 乱伦激情综合网 | 在线xx视频 |