<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          美團王慶:當老板對指標進行靈魂拷問時,該如何診斷分析?

          共 5896字,需瀏覽 12分鐘

           ·

          2021-11-14 07:01


          分享嘉賓:王慶 美團?數(shù)據(jù)分析專家
          編輯整理:劉學 字節(jié)跳動
          出品平臺:DataFunTalk

          導讀:指標為什么升?為什么降?為什么不升也不降?相信這是數(shù)據(jù)從業(yè)者經(jīng)常面對的靈魂三問!在競爭激烈的市場環(huán)境下,如何快速準確定位問題原因變得越來越重要。本文將結(jié)合在外賣業(yè)務中的診斷分析實踐,與大家分享數(shù)據(jù)科學在業(yè)務診斷分析中的一些應用經(jīng)驗。
          主要從四個方面進行展開:
          • 為什么要做診斷分析?

          • 如何做診斷分析?

          • 智能診斷案例解析

          • Tips:診斷分析中易犯的錯誤

          01
          為什么要做診斷分析
          為什么要做診斷分析呢?可以從兩個方向理解:診斷分析是有價值的,并且與每個人息息相關(guān)。
          診斷分析的價值,至少有兩類:
          價值1:找病根,確認問題出現(xiàn)的原因,為策略制定和問題解決提供方向。
          比如,2020年12月份,谷歌宕機了45分鐘,損失了大概170萬美金,事后需要對宕機的原因進行分析;再比如,今年抖音發(fā)生一次事故,很多用戶登錄不上影響用戶體驗并且影響了廣告收入,那為什么崩了,也需要引入診斷分析。
          諸如此類的問題,在互聯(lián)網(wǎng)公司經(jīng)常出現(xiàn),那就需要及時發(fā)現(xiàn)問題、分析原因、制定策略、解決問題,以避免發(fā)生類似問題。
          當然,并不是所有的問題都能找到原因或者是需要找原因的。比如上班途中車胎扎了,因為屬于偶發(fā)性因素,不需要找原因;再比如,通過數(shù)據(jù)分析發(fā)現(xiàn)了一批特別喜歡吃辣的用戶,則未必能找到吃辣的原因,而且哪怕找到原因,也未必有價值。反而不如先把這個發(fā)現(xiàn)利用起來。
          價值2:找亮點,然后推廣亮點。
          找亮點,找到亮點后,推廣亮點。當前,多數(shù)公司的推薦系統(tǒng),就是在利用找亮點,基本上把亮點做到了極致。
          本次分享主要是論述價值1:找病根。

          02
          為什么要做診斷分析
          1. 什么是診斷分析
          Gartner對診斷分析有一個定義:Diagnostic analytics is a form of advanced analytics that examines data or content to answer the question, “Why?did it happen?
          上述概念比較抽象,結(jié)合工作中的實踐,我認為,診斷分析就是通過數(shù)據(jù)分析對問題進行拆解,并通過對比找到問題發(fā)生的原因。這種定義方式,比較容易利用數(shù)據(jù)化的語言進行表達,并且可在工作中進行充分利用。?
          2. 什么是問題
          診斷分析的關(guān)鍵是就是對問題的拆解。那什么是問題呢?在日常數(shù)據(jù)分析工作中,又會遇到哪些問題?
          ① 問題的定義
          看幾個常見的問題例子:
          在工作中,我們經(jīng)常會遇到的問題是中間3類。
          問題的定義是現(xiàn)狀與期望的差距。
          ② 常見的問題類型
          常見的問題有三類:
          • 第一類是發(fā)生型問題。昨天相比訂單量為什么下降10%?現(xiàn)狀就是今天的訂單量,期望是昨天的大量問題。

          • 第二類是潛在型問題。天氣變冷,客服人力是否夠用,現(xiàn)狀是當前的供需關(guān)系,期望是按這個趨勢走下去,供需關(guān)系會怎樣?是否存在差距,過剩還是不足?

          • 第三類為理想型的問題,比如如何完成Q3的OKR,當前的訪購率是10%,期望下個季度的訪購率是12%,差距就是2pp。?

          本次分享,主要圍繞發(fā)生型問題和潛在型問題展開。
          3.?如何做診斷分析
          一種相對普適性的方法就是“邏輯樹+假設(shè)驅(qū)動”。?因為邏輯樹能夠幫助我們確定分析問題的框架,而假設(shè)驅(qū)動可以確定分析問題的視角。這里,邏輯樹是表達指標(問題)內(nèi)部結(jié)構(gòu)的最佳方法,適用于外賣業(yè)務多數(shù)指標的問題診斷。
          結(jié)合上圖,再來看一下診斷分析的過程:首先是明確問題差距;有了問題后對問題拆解(注意:是對問題拆解而不是指標)。這里,需要進行兩類拆解:一類是按照構(gòu)成的期望占比拆解,一類是按實際占比拆解,最后對比兩棵邏輯樹的差異并給出原因。
          通過一個交易額波動的例子,來看一下怎么用邏輯樹+假設(shè)驅(qū)動解決診斷分析問題。
          訂單量周同比下降了10%,在這個例子中是60單,這就是問題。那問題為什么會發(fā)生?那就需要利用假設(shè)驅(qū)動,確定分析視角。比如可以從城市(假設(shè))的維度進行拆解,發(fā)現(xiàn)其他城市的單量變化不大,而北京同比下降了,貢獻其中的50單。那繼續(xù)進行,為什么北京下降那么多?繼續(xù)拆解后,發(fā)現(xiàn)是朝陽區(qū)貢獻40單。再繼續(xù)拆解,發(fā)現(xiàn)是上周下雨、本周晴天導致單量下降了42單,此時得出訂單量下降的主要原因是天氣變化。
          在整個過程中,我們不斷地問為什么,不斷地對問題進行拆解,最終定位到問題發(fā)生的原因。

          03
          智能診斷分析案例解析
          在上面的例子中,我們發(fā)現(xiàn),哪怕知道了如何做診斷分析,還是需要投入大量的人力進行人工分析,數(shù)據(jù)獲取的成本比較高,耗時耗力。所以需要通過一些算法和數(shù)據(jù)建模的方法,對診斷分析進行智能化、自動化,提升診斷分析的效率。
          下面將通過美團外賣的兩個項目,介紹怎么進行診斷分析:
          項目1:天氣指數(shù)
          1. 背景與目標
          ①?項目背景
          外賣作為O2O項目,分析和經(jīng)營決策非常依賴線下場景信息。而其中一個重要的信息就是天氣,而業(yè)務希望利用更準確的天氣信息提升決策質(zhì)量。
          天氣對于外賣的影響還是比較大的,比如下雨對DAU有正向促進作用,用戶更可能登錄APP點外賣;而春天比較舒適的日子,則會有抑制作用。
          還是回到之前的例子。訂單量下降,發(fā)現(xiàn)是DAU下降。那DAU下降,天氣的影響又有多少。
          ② 項目目標
          構(gòu)建天氣對外賣DAU波動(分城市)影響程度的指數(shù)模型,輔助DAU波動分析。
          當然,影響DAU的因素有很多,這里主要對天氣進行建模。
          業(yè)務上,需要指數(shù)在時間、空間上具有可比性。這里的可比性,是指所構(gòu)建的指數(shù),在不同的天氣以及不同的地域上,表達的含義是一致的。比如,如果下雨對北京的DAU影響是20%,高溫對上海的影響是20%。這兩個20%應該表達同樣的意思,才方便業(yè)務使用。
          2. 方案制定
          ① 問題分析——將波動分析問題轉(zhuǎn)化為構(gòu)成分析問題
          問題本身是要回答,業(yè)務下降的部分有多少是由天氣帶來的。為了解決這個問題,我們將DAU拆解成三個部分,分別是天氣因素帶來的DAU、其他因素帶來的DAU以及自然增長帶來的DAU。這里的自然增長,是指在沒有天氣和其他因素影響的前提下,DAU的正常值是多少。這里,如果我們把天氣因素帶來的DAU計算出來,問題就解決了。
          ② 相關(guān)要素及關(guān)系梳理——DAU構(gòu)成及影響要素
          這三個部分,又分別受到不同因素的影響:天氣帶來的影響,會受到溫度、濕度、天氣現(xiàn)象、次生災害的影響,其他因素帶來的DAU會受到業(yè)務策略、節(jié)假日等影響。
          而項目目標是構(gòu)建天氣對外賣DAU影響程度的指數(shù)模型,輔助DAU波動分析。就是刻畫圖中黃色框所表達的關(guān)系。
          ③ 方案框架圖
          如下給出天氣指數(shù)建設(shè)的整體方案:
          整個方案其實包括五部分,分別是數(shù)據(jù)獲取、數(shù)據(jù)預處理、目標值構(gòu)建、指數(shù)建模以及指數(shù)匯總。前兩部分主要是為模型準備數(shù)據(jù),后面是建立模型,并計算出天氣指數(shù)。下面主要介紹第三、四部分。
          3. 方案實施
          定義:
          如上圖所示,如果DAU為540萬,其中三部分分別為100萬、50萬、390萬,則目標值為100 /?(390 + 50) * 100% = 22.7%。
          因此,我們只要分別求出如上三個因素,就可以求解出目標值了。
          a. 計算自然增長帶來的DAU
          這里借用時間序列分析中的思想,對DAU做一個擬合,并將DAU分解出趨勢項和周期項。定義:自然增長帶來的 DAU=趨勢項+周期項。
          b. 計算其他因素帶來的DAU
          這個問題一般的反應是,先依次找出其他因素是什么,然后分別計算其影響。但這里會有三個困難:影響因素無法窮盡;影響無明顯規(guī)律,比如五一具體影響多少,很難獲得;影響會相互疊加,逐一剔除的技術(shù)難度極大。
          這里,引入概率思想,認為其他因素之間相互疊加后,對DAU的影響為零。為什么可以忽略呢?一是其他因素,如活動、節(jié)假日,影響是隨機出現(xiàn)的,模型一定程度上可以抵消這種影響;二是惡劣天氣的影響遠大于其他因素。因為這里是想通過算法學習天氣對DAU影響的規(guī)律,不需要被太多因素去干擾。
          c. 計算目標值
          通過上述操作,將整個問題轉(zhuǎn)化為一個回歸問題。
          整體有如下四個步驟:
          這里,第一步是特征工程,第二、三步依據(jù)氣侯特點,將城市進行分區(qū)并分別建模,第四步是將細粒度的指數(shù)匯總,得到空間上更大顆粒度、時間上支持天、周、月、季等天氣指數(shù)。
          為什么要將全國城市分區(qū)建模?全國統(tǒng)一建模,面臨天氣在不同城市的影響不同;而每個城市分別建模,樣本少,尤其是一些特殊天氣較少。比如2018年和2019年的北京,就下了一兩場雪,不可能找到什么規(guī)律。解決這類問題,想到兩種方案:一個是采購更多的天氣數(shù)據(jù),增加樣本量;第二個是通過聚類方法橫向增加樣本量,將天氣、氣候類型相似的天氣放在一起建模。這里,我們采用了第二個方案:城市分區(qū)建模,充分利用已有數(shù)據(jù)。
          最后,目標有了,天氣有了,引入XGBOOST模型建立關(guān)系。從模型效果上看,完全可以滿足業(yè)務要求。具體的數(shù)據(jù),這里就不展示了。
          項目2:智能化診斷分析系統(tǒng)的建設(shè)
          1.?背景與目標
          ① 項目背景
          為什么要開發(fā)這套智能化診斷分析系統(tǒng)?三個方面:
          • 一個是剛需,業(yè)務側(cè)希望通過對指標的監(jiān)控,發(fā)現(xiàn)業(yè)務問題、機會和潛在的風險,以及定位背后的原因,用于輔助經(jīng)營決策;

          • 第二個是痛點,外賣側(cè)的指標和維度非常多,靠人工分析和診斷的成本很高,對分析師的業(yè)務能力和專業(yè)素質(zhì)要求也比較高,而現(xiàn)在的系統(tǒng)又無法做到有效的診斷分析;

          • 最后是高頻,業(yè)務側(cè)的經(jīng)營決策以及日常用數(shù),都會遇到指標的波動,并期望知道波動的原因。

          ② 項目目標
          構(gòu)建一套幫助用戶發(fā)現(xiàn)指標是否有異常并定位指標異常原因的智能化異動分析系統(tǒng),提升異常分析效率,從而提升決策的效率和質(zhì)量。
          整個系統(tǒng)會包括兩部分:異常識別和異常診斷。
          比如上面兩個例子,交易額的異常上升,通過縱向拆解,可以定位到DAU;點擊率的異常上升,定位到Android曝光次數(shù)的下降。
          2. 方案制定
          方案制定主要包括5個模塊,數(shù)據(jù)獲取、數(shù)據(jù)預處理、異常識別、異常診斷和數(shù)據(jù)服務。這里主要介紹算法部分的實現(xiàn)思路。異常識別主要是自動化判斷是否異常,做到“知其然”,而異常診斷模塊,要回答異常波動的原因,做到“知其所以然”。下面分別進行介紹。
          3.?方案實施
          ① 異常識別
          比如看如下一種場景,一天早上,老板說我發(fā)現(xiàn)最近單量下降了,幫我看一下原因。這里,有幾個問題:單量下降是和誰比下降了,環(huán)比、同比還是去年同期;下降了,下降了多少,是1%還是10%。所以這個模塊,需要解決三個問題:第一個是比什么,就是比較什么樣的業(yè)務指標;第二個是和誰比,是不同對象的橫向?qū)Ρ?,比如北京與上海,還是同一對象在縱向比;第三個是怎么比,是絕對比較(現(xiàn)狀和期望的絕對差),還是相對比較(現(xiàn)狀和期望的比值、TOPN、或者概率分布等),注意,很多距離類的函數(shù)都可以用到這邊。
          ② 異常診斷
          異常診斷包括定性與定量兩部分。其中,定量部分又包括貢獻分析和構(gòu)成分析,貢獻分析是指當指標異常時進行公式拆解,包括指標拆解,還有維度拆解,然后量化相關(guān)指標對指標異常的貢獻度,接下來主要介紹加和形式的診斷分析;構(gòu)成分析,就是用來判斷指標結(jié)構(gòu)是否有異常。很多時候,業(yè)務指標沒有問題,但他的內(nèi)部結(jié)構(gòu)有問題。比如埋點錯誤,將安卓下面的埋在了其他之中,雖然整體上沒有問題。而定性部分包括兩個方法,相關(guān)分析和事件分析。相關(guān)分析,是指對不具有公式關(guān)系的指標進行簡單分析,比如一個交易上升,定位到某個具體的活動上線;而事件分析,與相關(guān)分析有些類似,主要包括一些相關(guān)事件,如天氣、節(jié)假日、活動等。后期會嘗試量化事件對于業(yè)務指標的影響。
          下面,以加和形式的異常診斷為例,介紹一下如何智能化的實現(xiàn)異常診斷。
          還是采用第二部分介紹的“邏輯樹+假設(shè)驅(qū)動”。系統(tǒng)主要是提供構(gòu)建邏輯樹的功能,當然,還需要提供用戶分析視角,就是假設(shè)驅(qū)動。而診斷效果的好壞,往往非常依賴于用戶提供的分析視角。診斷效果不僅取決于模型設(shè)計,且依賴于使用系統(tǒng)的人,如果沒有找到好的分析視角,也不會得到很好的結(jié)果。
          比如外賣DAU異常了,從城市維度看,是不是城市有異常;從訂單維度看,是不是線下做了活動。這些都需要用戶提前告知系統(tǒng)。當然,從系統(tǒng)建設(shè)角度看,也有義務去收集分析的維度。
          那算法是怎么定位異常的呢?
          所謂異常,就是異常節(jié)點對指標異常的實際(本期)貢獻比期望(基期)貢獻大。這與問題的定義是一致的。當然,異常診斷的算法有很多,但原理大同小異,一般包括兩個部分:第一個是識別異常維度,該系統(tǒng)采用的方法類似于基尼系數(shù);第二部分是識別異常維值,依然從問題的定義出發(fā),選出對異常貢獻最大的維值。這里不介紹算法的細節(jié),近期會公開相關(guān)文章。

          04
          失敗的邏輯——診斷分析中易犯的錯誤
          為什么診斷會失敗呢?
          能夠順利解決問題的一個很重要的原因是診斷分析結(jié)果的好壞,即是否找到真正的原因。這里,將導致診斷效果不理解的原因概括為兩個方面:一個是問題界定不清楚,一個是停留在舒適地帶。
          原因1:問題界定不清楚
          回到問題的定義,是指現(xiàn)狀與期望的差距。這里有三個關(guān)鍵詞,一是現(xiàn)狀。有時候我們無法正確描繪問題,主要原因就是對現(xiàn)狀的認識不清。比如想診斷外賣的供需關(guān)系是否正常,就需要定義清楚當前的供需關(guān)系;二是期望,選擇是否合理。比如每次節(jié)假日回來的那周,都會收到業(yè)務側(cè)的反饋,比如國慶回來,為什么10月9號環(huán)比10月2號訂單量異常下降了?這里就是選擇的對比對象的問題,如果沒有意識到這個問題,而是直接進行拆解,效果未必好;三是差距,即問題的定義。比如小城市的訂單量波動10%,可能是正常的,但北京的就不正常。
          原因2:舒適地帶偏見
          就是在分析的時候停留在舒適區(qū),在有限的時間、有限的維度內(nèi)進行診斷,只尋找局部最優(yōu)解,很容易導致漏診和誤診。當然,局部與全局是相對的,當前場景的全局最優(yōu),可能是更大場景的局部。所以要不斷擴大認知邊界,提供找到全局最優(yōu)的可能性。舉一個實際的例子,有一天,美團搜索入口的單量異常,業(yè)務方和算法排查了幾天時間,搜索鏈路的各個環(huán)節(jié)經(jīng)排查后都正常。最后經(jīng)分析發(fā)現(xiàn),有一個入口在做活動,把流量吸走了。而之前的分析,只是限制在了搜索這樣一個場景下,走了很多彎路。
          總結(jié)一下,如果想要順利地解決問題,還是要在每個環(huán)節(jié)有邏輯地做事,增加成功的概率。
          今天的分享就到這里,謝謝大家。
          ↘好文推薦:
          Notion:后office時代的新生產(chǎn)力平臺
          超全!體驗度量理論2021版
          干貨!最全需求評審指南,讓你不再怕被懟

          點個“在看”吧
          瀏覽 54
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国产无遮挡裸体色视频免费观看 | 国产黄色A片三级熟女 | 高清无码在线观看18 | 亚洲第一黄色视东北女人操逼 | 天天躁日日躁AAAAXXXX |