<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          分析師應(yīng)該用數(shù)據(jù)來治理數(shù)據(jù)

          共 3872字,需瀏覽 8分鐘

           ·

          2021-01-16 14:52

          數(shù)據(jù)資產(chǎn)治理概要:用數(shù)據(jù)來治理數(shù)據(jù)

          |0x00 為什么數(shù)據(jù)治理難做

          毛主席說:“研究任何過程,如果是存在著兩個以上矛盾的復(fù)雜過程的話,就要用全力找出它的主要矛盾,捉住了這個主要矛盾,一切問題就迎刃而解了。”

          對于數(shù)據(jù)治理而言,矛盾就是:“有限的機(jī)器資源與存儲計算的無限增長之間的矛盾”。

          因為存在主要矛盾,因而“數(shù)據(jù)治理”在被提出10多年后,依然是目前數(shù)據(jù)領(lǐng)域的熱門問題。解決的方法也很簡單,就是盡量限制存儲計算的增長,不論是通過技術(shù)手段,比如數(shù)據(jù)壓縮、列式存儲,還是通過方法論,比如維度建模、存儲健康分,都能夠延緩數(shù)據(jù)增長的困境。

          但最大的問題,還是人的問題,可以這么說,不是數(shù)倉崗位,或者是數(shù)據(jù)開發(fā)崗位,對于數(shù)據(jù)治理或者數(shù)據(jù)風(fēng)險問題的敏感性,都是不足的。這些不足主要體現(xiàn)在三個方面:

          全局層面

          1. 風(fēng)險意識不強(qiáng):一是數(shù)據(jù)治理通常偏事后分析,日常的生產(chǎn)與發(fā)布習(xí)慣非常隨意;二是數(shù)據(jù)質(zhì)量校驗覆蓋率不夠,或者是數(shù)據(jù)問題識別不夠準(zhǔn)確;三是大多團(tuán)隊成員都是業(yè)務(wù)開發(fā),對于基礎(chǔ)治理動作投入有限。
          2. 治理方式不合理:數(shù)據(jù)治理通常面臨獎懲不平衡的問題,例如做的不好只會懲罰,做的再好也不表揚(yáng);治理動作通常是周期性的、個別人參與的,無法激發(fā)個體的主觀能動性。

          業(yè)務(wù)層面

          1. 精細(xì)化運(yùn)營:業(yè)務(wù)的細(xì)分場景越來越多,導(dǎo)致需求量的膨脹,同樣一份數(shù)據(jù),需要在各種各樣的業(yè)務(wù)場景中展示,客觀導(dǎo)致了存儲計算的增長。
          2. 臨時性任務(wù):一些老的業(yè)務(wù),因為維護(hù)人的變更,導(dǎo)致數(shù)據(jù)即使不再使用了,也沒有人能夠決定是否可以下線。
          3. 數(shù)據(jù)回刷頻繁:在電商等場景下,數(shù)據(jù)回刷的訴求非常多,導(dǎo)致集群的計算資源一直滿負(fù)荷運(yùn)作。

          開發(fā)層面

          1. 效率第一:因為個人的主要任務(wù)是快速支持業(yè)務(wù)發(fā)展,對于成本消耗改進(jìn)的意愿不高。
          2. 資源不足:沒有時間或者只有很少的時間,能夠用在資源治理上。
          3. 能力不足:由于建模能力或者規(guī)范問題,導(dǎo)致數(shù)據(jù)的相似計算、數(shù)據(jù)傾斜、簡單加工、暴力掃描、參數(shù)不合理等問題非常突出。

          因此,數(shù)據(jù)治理,首要在統(tǒng)一“人的共識”,建立“法制”流程

          |0x01 分析數(shù)據(jù)治理的核心問題

          既然要統(tǒng)一“人的共識”,那么我們就從“共性”的問題入手,逐步來分析解決的突破口。

          作為數(shù)據(jù)開發(fā),我們經(jīng)常遇到的“共性”問題有哪些?我想,大概有三點(diǎn):

          1. 找不到數(shù)據(jù):為什么我們要強(qiáng)調(diào)建模的規(guī)范?是因為為了讓其他人能夠看到這張表在做什么。當(dāng)公司規(guī)模不斷擴(kuò)大、數(shù)據(jù)依賴鏈路不斷加深,如果上下游的規(guī)范存在差異,比如命名、注釋與刷新周期,那么即便能夠根據(jù)血緣找到上游的表,也因為看不懂?dāng)?shù)據(jù)是什么意思、怎么設(shè)計的,而無法使用,只能自己再做一遍。
          2. 不敢用數(shù)據(jù):重復(fù)數(shù)據(jù)一直是數(shù)據(jù)治理中的大問題,因為相似的表名或者字段,在元數(shù)據(jù)中通常能找到一大堆,加工的口徑各不相同,看到了也不敢用,只能自己再做一遍。
          3. 不讓用數(shù)據(jù):隨著很多公司意識到機(jī)器成本的增長過快時,都會對數(shù)據(jù)的預(yù)算提出嚴(yán)格的要求,進(jìn)而導(dǎo)致一些占用了過多資源的大業(yè)務(wù),如何做新的需求成為難題。大家都在提要治理數(shù)據(jù)、降低存儲計算資源,卻很少有人來告訴你如何在有限規(guī)模下做數(shù)據(jù)的開發(fā)。

          我們設(shè)想一個案例:指標(biāo)A是公司的核心資產(chǎn),但是因為客觀的原因,需要修改計算規(guī)則,那么我們會碰到這么幾類情況。

          1. 公司的指標(biāo)都是從ODS直接拉取計算的,這時候所有下游表都需要修改計算邏輯,涉及X張表,Y個接口,Z個產(chǎn)品模塊;
          2. 只需要修改對應(yīng)的DWS表,但下游需要逐步排查影響范圍,涉及Y個接口,Z個產(chǎn)品模塊;
          3. 該指標(biāo)在公司內(nèi)有唯一的涵義和計算規(guī)則,數(shù)據(jù)只在單一接口上透出,這時候只需要修改固定的幾張表。

          盡管公司的業(yè)務(wù)通常非常復(fù)雜,但如果抽象的好,底層邏輯的修改,就不會對使用方產(chǎn)生過多的影響,避免無意義的數(shù)據(jù)整頓工作。

          從這里例子中,我們能夠整理一下一些常見的問題:

          1. 從數(shù)據(jù)生產(chǎn)的角度:公共層的建模要有一定的規(guī)范性,至少需要經(jīng)過分析師或者是業(yè)務(wù)方的認(rèn)可,不能隨意建表;同時,數(shù)據(jù)的產(chǎn)出時間需要保證,對應(yīng)的質(zhì)量測試與監(jiān)控要有機(jī)制;
          2. 從數(shù)據(jù)使用的角度:研發(fā)工具要能夠統(tǒng)一起來,歷史表要有下線機(jī)制。

          別小看了研發(fā)工具統(tǒng)一,在業(yè)務(wù)高速增長的時候,技術(shù)方案非常多變,用的越靈活,未來的技術(shù)債務(wù)就可能越高。

          數(shù)據(jù)資產(chǎn)依托于Hadoop生態(tài),其治理成本非常高,尤其是非結(jié)構(gòu)化的數(shù)據(jù),占用存儲計算量大,產(chǎn)出的價值又相對有限。過去我們主要針對的是存儲治理,但隨著任務(wù)量的增加,計算的治理也提上了日程。因而,從全局的角度出發(fā),一家公司需要有自己統(tǒng)一的建模與評估方法,有統(tǒng)一的開發(fā)與運(yùn)維平臺,在統(tǒng)一開發(fā)規(guī)范與開發(fā)方式的基礎(chǔ)上,才能談有效的數(shù)據(jù)資產(chǎn)治理

          書同文,車同軌,統(tǒng)一度量衡”,是數(shù)據(jù)治理的核心思路。

          |0x02 用數(shù)據(jù)來治理數(shù)據(jù)

          統(tǒng)一共識,統(tǒng)一度量衡之后,我們就有了數(shù)據(jù)治理的“抓手”。更具體一些,就是當(dāng)工作行為有了一定的標(biāo)準(zhǔn)化之后,就可以通過“數(shù)據(jù)指標(biāo)”來進(jìn)行一些衡量,從而看清楚數(shù)據(jù)資產(chǎn)的全局情況,以及需要改進(jìn)的重點(diǎn)方向。

          做用戶增長的都知道建立指標(biāo)體系的重要性,做數(shù)據(jù)治理的同樣要有“用數(shù)據(jù)來治理數(shù)據(jù)”的意識。

          那么思路具體怎么樣呢?主要有兩點(diǎn),一個是數(shù)據(jù)模型本身的監(jiān)控,一個是業(yè)務(wù)復(fù)雜性的監(jiān)控

          數(shù)據(jù)模型的監(jiān)控可以理解,但為什么要監(jiān)控業(yè)務(wù)復(fù)雜性?是因為業(yè)務(wù)復(fù)雜性很大程度上影響了數(shù)據(jù)模型的復(fù)雜性和成本,因此同樣需要監(jiān)控。

          先說數(shù)據(jù)模型的監(jiān)控,簡單講,有四條策略:規(guī)范要好;復(fù)用率要高;使用率要高;依賴層級不過深。

          規(guī)范要好:做開發(fā)的基本都知道,做事情要有基本的規(guī)范,比如表的命名,要能夠清晰的看出是屬于哪個業(yè)務(wù)域、服務(wù)哪個產(chǎn)品模塊、是同步導(dǎo)出數(shù)據(jù)還是披露視圖、刷新周期如何,等等,這些都需要通過名稱來規(guī)范,因此當(dāng)數(shù)據(jù)規(guī)范定好之后,就可以針對性的統(tǒng)計不符合規(guī)范的表,限期整改。

          復(fù)用率要高:這一條是針對CDM層的。在維度建模理論中,CDM的主要作用就是提升數(shù)據(jù)的復(fù)用率,因此CDM(包括DWD、DWS和DIM)一定不是面向需求做的開發(fā),而是針對業(yè)務(wù)過程做的統(tǒng)計。統(tǒng)計CDM層每張表的下游依賴數(shù)量,就能夠有效的考核公共層的建設(shè)水平,少有人用的CDM是不合格的。

          使用率要高:這一條是針對ODS層的。ODS通常存儲了最多的數(shù)據(jù),因此ODS數(shù)據(jù)如果被引用的不夠多,那么通常它的業(yè)務(wù)都不是那么重要,那么ODS表的存儲周期就可以適當(dāng)?shù)目紤]縮減,并在引用數(shù)量與存儲周期之間尋找一種平衡。當(dāng)然,肯定有特殊的例子,但特殊不代表普遍情況。另外,有一些ADS表是直接引用ODS的,如果業(yè)務(wù)發(fā)展初期,這么做是可以考慮的,但如果是成熟業(yè)務(wù),這就應(yīng)該。區(qū)分的方法依舊是通過表的命名,來判斷表述所屬的業(yè)務(wù)域與產(chǎn)品,并與業(yè)務(wù)域的成熟度掛鉤起來。

          依賴層級不過深:這一條是針對ADS層的。最讓數(shù)據(jù)人頭疼的問題,莫過于數(shù)據(jù)層層向前追溯,發(fā)現(xiàn)鏈路極其之長,用都不敢用。因此ADS層自身的依賴深度,包括最大依賴深度、不同依賴深度的統(tǒng)計,能夠看出ADS層建設(shè)的一些問題。

          再說業(yè)務(wù)復(fù)雜性的監(jiān)控,也是四條策略:總鏈路長度、總代碼量、總成本預(yù)估、項目管理。業(yè)務(wù)復(fù)雜性監(jiān)控的前提,是梳理核心的ADS產(chǎn)品出口表,整理清楚每個產(chǎn)品模塊或者接口對應(yīng)了哪些ADS表。

          總鏈路長度:計算一個產(chǎn)品出口表從ODS到ADS的全路徑長度,鏈路越長,存儲和資源資源占用越多。

          總代碼量:計算一個產(chǎn)品出口表從ODS到ADS中涉及的代碼總量是多少,代碼量越高,代表計算資源消耗越多。

          總成本預(yù)估:依據(jù)鏈路表的存儲數(shù)據(jù)量與機(jī)器資源消耗,推斷一個產(chǎn)品消耗的數(shù)據(jù)成本。

          項目管理:從根源上治理需求多亂的情況,這里不展開說這個問題。

          當(dāng)然,隨著對于數(shù)據(jù)的理解不斷加深,我們還會做更多有價值的分析,比如分析每個SQL的寫法是否合理,等等。但不論怎樣,有了統(tǒng)計指標(biāo),就能夠看清全局現(xiàn)狀,就能夠針對性的治理。

          |0xFF 數(shù)據(jù)治理的短中長期策略

          就像任何方案都有“上中下”三策一樣,解決問題同樣要有“短中長”的策略。

          短期方案著重點(diǎn)在于改善上述提到的統(tǒng)計指標(biāo),迅速將一些低級問題解決掉。因為一旦有了指標(biāo)的概念,可以調(diào)動研發(fā)同學(xué)的主觀能動性。

          中期方案要整理數(shù)據(jù)的架構(gòu)體系,包括建立完整規(guī)范制度和技術(shù)結(jié)構(gòu),通過方法論和文化的方式,來影響每一位小二。

          長期通過技術(shù)創(chuàng)新的方式,實現(xiàn)自動任務(wù)優(yōu)化,協(xié)助降低數(shù)據(jù)的維護(hù)管理工作量,例如最近比較熱門的“云原生”概念。

          但不論怎樣的策略,都需要考慮歷史債務(wù)的問題,以及如何不再新增債務(wù)

          完美的解決方案通常不存在,退而求其次是大多數(shù)人的選擇。當(dāng)技術(shù)無法解決問題時,不妨用另類思路去解決。

          當(dāng)然,廣義的數(shù)據(jù)資產(chǎn)治理,要擴(kuò)展到更多的方面去闡述,比如數(shù)據(jù)安全、比如數(shù)據(jù)孤島問題,每一個都需要系統(tǒng)的理論來闡述。

          但最后我想講的是,這其實涉及到了擇業(yè)的問題,企業(yè)效率的提升無非兩點(diǎn):降本與提效。提效可以通過數(shù)據(jù)分析的角度來解決,而降本就需要通過數(shù)據(jù)資產(chǎn)治理來推動了。擇業(yè)的時候,如果僅僅是熟練使用工具,很容易被淘汰,而掌握了降本與提效的方法論,應(yīng)對中年危機(jī),就要更加的得心應(yīng)手一些了。

          ·················END·················

          推薦閱讀

          1. 寫給所有數(shù)據(jù)人。

          2. 從留存率業(yè)務(wù)案例談0-1的數(shù)據(jù)指標(biāo)體系

          3. NB,真PDF神處理工具!

          4. 超級菜鳥如何入門數(shù)據(jù)分析?

          5. 后來,我去了拼多多,做了數(shù)據(jù)分析師。


          歡迎長按掃碼關(guān)注「數(shù)據(jù)管道」

          瀏覽 17
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  www肏 | 99在线观看免费高清 | 成人在线视频黄色 | 影音先锋福利资源91p | 色无码一区二区 |