<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          數(shù)據(jù)準(zhǔn)備:讓ETL敏捷起來(lái)

          共 3199字,需瀏覽 7分鐘

           ·

          2021-09-26 07:44

          數(shù)據(jù)分析是一個(gè)不斷探索數(shù)據(jù)背后的規(guī)律,得出業(yè)務(wù)洞察的過(guò)程,開(kāi)始整個(gè)工作之前,分析師需要先將原始數(shù)據(jù)轉(zhuǎn)換為面向分析的、有業(yè)務(wù)語(yǔ)義的數(shù)據(jù),數(shù)據(jù)清洗和整理是提升整個(gè)分析過(guò)程效率和質(zhì)量的關(guān)鍵環(huán)節(jié),數(shù)據(jù)分析是建立在一致、準(zhǔn)確、完整的數(shù)據(jù)基礎(chǔ)之上。


          很多調(diào)查顯示,數(shù)據(jù)分析師通常會(huì)將60%以上的時(shí)間花在數(shù)據(jù)清洗和各種數(shù)據(jù)整理上,真正用來(lái)探索數(shù)據(jù),獲取業(yè)務(wù)洞察的時(shí)間反而有限,工作效率亟待提高。


          面對(duì)這些工作過(guò)程中的挑戰(zhàn),我們不禁反思:如何降低數(shù)據(jù)處理的門(mén)檻,提高數(shù)據(jù)分析效率,推廣基于數(shù)據(jù)驅(qū)動(dòng)的決策文化,建設(shè)數(shù)據(jù)驅(qū)動(dòng)型組織?實(shí)踐過(guò)程中,我們發(fā)現(xiàn)將數(shù)據(jù)準(zhǔn)備產(chǎn)品化,業(yè)務(wù)化,可視化,自助式數(shù)據(jù)準(zhǔn)備工具可以有效賦能業(yè)務(wù),有效提高了數(shù)據(jù)的整體運(yùn)轉(zhuǎn)效率。本文基于有數(shù)的數(shù)據(jù)準(zhǔn)備產(chǎn)品,介紹有數(shù)BI在產(chǎn)品上的實(shí)踐。



          業(yè)務(wù)場(chǎng)景描述


          隨著企業(yè)發(fā)展,業(yè)務(wù)對(duì)數(shù)據(jù)實(shí)效性和敏捷性要求越來(lái)越高,但是受到數(shù)據(jù)開(kāi)發(fā)周期長(zhǎng)、流程復(fù)雜的制約,很多業(yè)務(wù)決策仍然僅能依靠經(jīng)驗(yàn),成本高、效率低,如何降低分析和開(kāi)發(fā)的門(mén)檻,提高效率,成為迫在眉睫的需求。(下圖為常見(jiàn)數(shù)據(jù)工作流程圖)

          • 業(yè)務(wù)向分析師提出數(shù)據(jù)分析需求,比如效果評(píng)估、趨勢(shì)預(yù)測(cè)、異常診斷等

          • 分析師根據(jù)業(yè)務(wù)需求,整理分析思路,梳理數(shù)據(jù)指標(biāo),提供數(shù)據(jù)報(bào)告和業(yè)務(wù)策略,基于數(shù)據(jù)的完備性、可用性向數(shù)據(jù)產(chǎn)品提出數(shù)據(jù)需求

          • 數(shù)據(jù)產(chǎn)品梳理數(shù)據(jù)指標(biāo),抽象業(yè)務(wù)流程,設(shè)計(jì)最終產(chǎn)品,并向數(shù)據(jù)開(kāi)發(fā)提需求

          • 數(shù)據(jù)開(kāi)發(fā)根據(jù)產(chǎn)品需求,完成數(shù)倉(cāng)建設(shè)以及實(shí)體表開(kāi)發(fā),最終交付分析師使用

          • 分析師在數(shù)倉(cāng)基礎(chǔ)上向業(yè)務(wù)提供數(shù)據(jù)報(bào)告和決策建議,完成整個(gè)分析鏈路


          復(fù)盤(pán)整個(gè)工作流程,數(shù)據(jù)分析師需要數(shù)據(jù)產(chǎn)品、數(shù)據(jù)開(kāi)發(fā)的協(xié)作配合才能完成整個(gè)工作,中間需要反復(fù)溝通,確認(rèn)需求,工作效率很容易遇到瓶頸。


          回到問(wèn)題的起點(diǎn),如果大部分場(chǎng)景分析師可以獨(dú)立完成整個(gè)過(guò)程,效率是否會(huì)提高很多?面向分析師的工作場(chǎng)景,一款體量輕,應(yīng)用簡(jiǎn)單,操作便捷的工具是產(chǎn)品必然要求。這個(gè)工具可以賦能分析師獨(dú)立完成大部分?jǐn)?shù)據(jù)整理工作,縮短流程、提高效率。推而廣之,甚至業(yè)務(wù)同學(xué)可以自己完成數(shù)據(jù)分析,得出有價(jià)值的業(yè)務(wù)結(jié)論。



          數(shù)據(jù)準(zhǔn)備介紹


          從數(shù)據(jù)分析的整個(gè)流程上來(lái)看,數(shù)據(jù)準(zhǔn)備既包含排除異常、保證一致性、缺失值處理等清洗工作,也包含組合、轉(zhuǎn)置、透視、合并等數(shù)據(jù)整理工作,是一個(gè)不斷迭代、改進(jìn)、優(yōu)化的過(guò)程。


          數(shù)據(jù)準(zhǔn)備的產(chǎn)出即可應(yīng)用于各種數(shù)據(jù)分析工作,也能作為數(shù)據(jù)集應(yīng)用于各種場(chǎng)景化數(shù)據(jù)產(chǎn)品。具體來(lái)說(shuō),數(shù)據(jù)準(zhǔn)備將原始數(shù)據(jù)轉(zhuǎn)化為準(zhǔn)確、一致、清晰,并且有一定業(yè)務(wù)含義的數(shù)據(jù),是數(shù)據(jù)和業(yè)務(wù)之間的橋梁和紐帶。


          介紹到這里,很多人可能有疑問(wèn)“這不就是ETL工要做的事情嗎?”,從某種角度來(lái)說(shuō)確實(shí)是的,但是相對(duì)于ETL工具,數(shù)據(jù)準(zhǔn)備有其獨(dú)特的產(chǎn)品需求和用戶(hù)群體。(ETL是英文Extract-Transform-Load的縮寫(xiě),用來(lái)描述將數(shù)據(jù)從來(lái)源端經(jīng)過(guò)抽取(extract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過(guò)程)。


          詳細(xì)來(lái)說(shuō),ETL與數(shù)據(jù)準(zhǔn)備之間的對(duì)比:

          用戶(hù)群體:ETL一般面向數(shù)據(jù)開(kāi)發(fā),而數(shù)據(jù)準(zhǔn)備面向業(yè)務(wù)用戶(hù),例如數(shù)據(jù)分析師,產(chǎn)品經(jīng)理,市場(chǎng)運(yùn)營(yíng)等。

          應(yīng)用場(chǎng)景:ETL一般用來(lái)做數(shù)據(jù)歸集和建模,面向長(zhǎng)期,規(guī)范化數(shù)倉(cāng)建模,數(shù)據(jù)準(zhǔn)備一般用來(lái)做分析前數(shù)據(jù)預(yù)處理,很多場(chǎng)景是臨時(shí),短期,探索性場(chǎng)景為主。

          產(chǎn)品形態(tài):ETL一般是以任務(wù)和代碼的方式處理數(shù)據(jù),用戶(hù)需要有比較高的開(kāi)發(fā)能力。數(shù)據(jù)準(zhǔn)備一般以可視化方式做數(shù)據(jù)處理,產(chǎn)品會(huì)提供很多內(nèi)置算子,用戶(hù)僅需要了解基本的數(shù)據(jù)概念即可。



          產(chǎn)品介紹

          從源頭和工具上來(lái)說(shuō),現(xiàn)有數(shù)據(jù)清洗和整理必須在數(shù)據(jù)開(kāi)發(fā)平臺(tái)完成,平臺(tái)配置、代碼開(kāi)發(fā)等都要求用戶(hù)有比較高的開(kāi)發(fā)素養(yǎng),但是對(duì)業(yè)務(wù)同學(xué)來(lái)說(shuō)門(mén)檻太高,實(shí)用價(jià)值不大。



          (典型的數(shù)據(jù)開(kāi)發(fā)平臺(tái))

          以終為始,面向業(yè)務(wù)用戶(hù),有數(shù)BI將數(shù)據(jù)開(kāi)發(fā)過(guò)程產(chǎn)品化、工具化、可視化,用戶(hù)僅需掌握基本的數(shù)據(jù)知識(shí),不需數(shù)據(jù)開(kāi)發(fā)輔助,幾步拖拽即可實(shí)現(xiàn)復(fù)雜數(shù)據(jù)處理,門(mén)檻低、效率高。



          數(shù)據(jù)準(zhǔn)備:涵蓋數(shù)據(jù)獲取、整理、建模的整體數(shù)據(jù)處理流程

          • 數(shù)據(jù)連接:數(shù)據(jù)開(kāi)發(fā)在產(chǎn)品上經(jīng)過(guò)簡(jiǎn)單配置即可獲取數(shù)據(jù)

          • 輕量ETL:產(chǎn)品將常用轉(zhuǎn)置邏輯包裝成算子,用戶(hù)拖拉拽即可實(shí)現(xiàn)數(shù)據(jù)整理

          • 數(shù)據(jù)建模:用戶(hù)將處理好的數(shù)據(jù)表關(guān)聯(lián)合并,為分析做好準(zhǔn)備

          數(shù)據(jù)分析:無(wú)需轉(zhuǎn)換平臺(tái),直接在現(xiàn)有平臺(tái)即可實(shí)現(xiàn)數(shù)據(jù)分析

          數(shù)據(jù)產(chǎn)品:用戶(hù)可以將數(shù)據(jù)和可視化報(bào)表加工成數(shù)據(jù)產(chǎn)品



          在設(shè)計(jì)上,有數(shù)BI基于MPP架構(gòu),數(shù)據(jù)計(jì)算節(jié)點(diǎn)支持水平擴(kuò)展,隨著數(shù)據(jù)量不斷增長(zhǎng),產(chǎn)品仍然能夠高效處理數(shù)據(jù)。同時(shí),面向數(shù)據(jù)分析場(chǎng)景,現(xiàn)有數(shù)據(jù)準(zhǔn)備跟BI無(wú)縫銜接,數(shù)據(jù)準(zhǔn)備產(chǎn)出的表直接可以用來(lái)分析。不需要切換平臺(tái),即可實(shí)現(xiàn)數(shù)據(jù)的獲取,處理,分析,整個(gè)平臺(tái)的連貫性,一致性為用戶(hù)的分析過(guò)程提供了極大的便利,從根本上降低了操作門(mén)檻,提高了效率,節(jié)約了整個(gè)企業(yè)的成本。



          實(shí)際場(chǎng)景簡(jiǎn)介

          假設(shè)業(yè)務(wù)需要分析不同等級(jí)會(huì)員的忠誠(chéng)度,以便后續(xù)有的放矢,提高業(yè)務(wù)經(jīng)營(yíng)效率。用戶(hù)手頭有如下數(shù)據(jù):2012-2015年的訂單明細(xì)數(shù)據(jù);2016-2019年的訂單明細(xì)數(shù)據(jù);會(huì)員維表。



          基于當(dāng)前數(shù)據(jù),分析師面對(duì)以下幾個(gè)難題:

          • 用戶(hù)僅關(guān)注會(huì)員粒度的銷(xiāo)售數(shù)據(jù),當(dāng)前訂單表粒度過(guò)細(xì),數(shù)據(jù)量太大,不適合用來(lái)做數(shù)據(jù)分析;

          • 訂單表的客戶(hù)ID是“姓名+訂單ID”組合字段,分析師需要先把這個(gè)字段拆分成兩個(gè)字段;

          • 分析過(guò)程中需要做關(guān)聯(lián)查詢(xún),但很多數(shù)據(jù)引擎針對(duì)Join操作查詢(xún)效率比較低。


          基于數(shù)據(jù)準(zhǔn)備,分析師可以直接在產(chǎn)品上完成整個(gè)數(shù)據(jù)整理過(guò)程,然后直接基于清洗的數(shù)據(jù)的建模分析,制作報(bào)告。

          • 將兩個(gè)表做清洗操作,去掉異常值,將姓名拆分成兩列;

          • 將2015年、2019年的明細(xì)數(shù)據(jù)合并成同一份數(shù)據(jù);

          • 基于用戶(hù)ID跟用戶(hù)維表做關(guān)聯(lián)操作,形成一個(gè)明細(xì)粒度的大寬表;

          • 將日期、會(huì)員信息、銷(xiāo)售信息做聚合操作,后續(xù)分析可以基于當(dāng)前數(shù)據(jù)直接分析

          基于當(dāng)前表建立模型,制作報(bào)表,展示數(shù)據(jù)。



          面向未來(lái)建設(shè)數(shù)據(jù)準(zhǔn)備

          為了數(shù)據(jù)建設(shè)的全局性、一致性、可維護(hù)性,保證數(shù)倉(cāng)體系的整體產(chǎn)出質(zhì)量,頻繁使用、相對(duì)確定的需求應(yīng)該由數(shù)據(jù)團(tuán)隊(duì)負(fù)責(zé)開(kāi)發(fā)、運(yùn)維。相對(duì)來(lái)說(shuō),臨時(shí)的、高度不確定的探索性分析可以根據(jù)需要靈活處理,分析師在工作過(guò)程中可以將根據(jù)業(yè)務(wù)需求和上下文將原始數(shù)據(jù)加工成需要的數(shù)據(jù)。

          經(jīng)過(guò)實(shí)踐證明,探索性需求由分析師完成,然后將需求明確、應(yīng)用范圍較廣的需求向數(shù)據(jù)產(chǎn)品提出需求,整體工作流程更加順暢,協(xié)作更佳便捷,有事半功倍的效果。



          基于可視化、產(chǎn)品化的數(shù)據(jù)準(zhǔn)備流程可以縮短整個(gè)分析流程的時(shí)間,推廣數(shù)據(jù)驅(qū)動(dòng)的企業(yè)文化,但是實(shí)際運(yùn)行工作中,我們?nèi)匀幻鎸?duì)很多挑戰(zhàn),突出表現(xiàn)為統(tǒng)一運(yùn)維監(jiān)控,產(chǎn)品適用性,架構(gòu)可擴(kuò)展性等方面,這些挑戰(zhàn)的有效應(yīng)對(duì)可以進(jìn)一步提升產(chǎn)品能力,擴(kuò)展應(yīng)用場(chǎng)景,提高整個(gè)企業(yè)的運(yùn)營(yíng)效率。


          統(tǒng)一運(yùn)維、監(jiān)控

          基于有數(shù)BI的數(shù)據(jù)準(zhǔn)備,探索性數(shù)據(jù)分析工作不需要由開(kāi)發(fā)參與,分析師可以獨(dú)立完成,省去了中間反復(fù)確認(rèn)需求,不斷修改設(shè)計(jì)過(guò)程,可以顯著節(jié)省工作時(shí)間,提高業(yè)務(wù)滿(mǎn)意率。但是在實(shí)際運(yùn)行中,我們發(fā)現(xiàn)由分析師創(chuàng)建的表已經(jīng)遠(yuǎn)多于開(kāi)發(fā)創(chuàng)建的表,這部分表很多是臨時(shí)創(chuàng)建,難以判斷價(jià)值,體量又大,運(yùn)維起來(lái)非常痛苦。同時(shí),缺乏專(zhuān)業(yè)的數(shù)據(jù)開(kāi)發(fā)支持,很多表的設(shè)計(jì)并不合理,執(zhí)行效率較低,浪費(fèi)資源。


          數(shù)據(jù)分析的靈活性、開(kāi)放性

          為了降低產(chǎn)品的使用成本,擴(kuò)展用戶(hù)群體,數(shù)據(jù)準(zhǔn)備將常用算法包裝為算子,降低了用戶(hù)用戶(hù)整理數(shù)據(jù)的成本,但是這種設(shè)計(jì)降低了數(shù)據(jù)開(kāi)發(fā)的靈活性,某種程度上無(wú)法達(dá)到效率最優(yōu)。


          不同平臺(tái)的搭配應(yīng)用

          基于效率和質(zhì)量考慮,部分大數(shù)據(jù)量,高復(fù)雜度的計(jì)算不適宜用可視化產(chǎn)品實(shí)現(xiàn),數(shù)據(jù)準(zhǔn)備需要搭配大數(shù)據(jù)平臺(tái)使用,但是不同平臺(tái)的聯(lián)合應(yīng)用建設(shè)帶來(lái)了運(yùn)維上的難題。

          瀏覽 46
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国产成人三级 | 老鸭窝在线观看视频 | 天天综合网~永久入口红桃 | 麻豆成人AV一二三区在线播放 | 大香蕉伊人免费网站 |