使用SQL構(gòu)建數(shù)據(jù)指標體系
點擊關注上方“SQL數(shù)據(jù)庫開發(fā)”,
設為“置頂或星標”,第一時間送達干貨
背景
經(jīng)常會聽到互聯(lián)網(wǎng)人形容一個產(chǎn)品的體量和知名度用活躍用戶來衡量,比如:“微信的日活接近10億了,真社交巨獸。”
這里面有個幾個關鍵的詞:衡量、日、活躍、用戶。這些綜合起來是什么,DAU。對于分析師來說,這是一個可反應業(yè)務產(chǎn)品活躍用戶現(xiàn)狀的一個指標。
這樣思考下去你可能會問想知道:

指標是什么?
按照比較官方的定義是在一定條件和時間下反應某種現(xiàn)象的規(guī)模和比例,由指標名稱和數(shù)值構(gòu)成。
實際上是不是所有的這種反應某種現(xiàn)象和規(guī)模的數(shù)據(jù)都可以叫做指標呢?我覺得不是,因為不是所有這樣的數(shù)據(jù)都是對業(yè)務有參考價值的。
張濤老師的說法個人較為認可:對當前業(yè)務有參考價值的可統(tǒng)計的數(shù)據(jù)可以是指標,它是可以反應哪個用戶做了哪些行為,給業(yè)務帶來了什么樣的結(jié)果指標[1]。
所以常用的數(shù)據(jù)指標可以分成:用戶數(shù)據(jù)(新增、日活、留存等);行為數(shù)據(jù)(訪問深度、轉(zhuǎn)化率等);業(yè)務數(shù)據(jù)(一般會和用戶數(shù)據(jù)指標和行為數(shù)據(jù)指標有些交叉,反應的是業(yè)務大盤的情況,比如GMV、ARPU值等)。
使用這些指標的注意和坑
假如你是一名分析師嗎,可能你會遇到這樣的場景,”同一個指標“不同的人可能也得到不一樣的結(jié)果:
比如產(chǎn)品經(jīng)理A說的本月的留存率是20%,產(chǎn)品經(jīng)理B說本月的留存是24%,那到底誰是對的,為什么他們計算的結(jié)果會不一樣?
其實沒有絕對的對錯,只是A和B對這些數(shù)據(jù)指標背后的定義和口徑是不一致的。但后續(xù)分析過程中一定要注意形成統(tǒng)一明確的數(shù)據(jù)指標定義,這樣才能去做后續(xù)的分析,不然后續(xù)的對比結(jié)果可能也是錯的。
留存率的案例
某高質(zhì)量用戶產(chǎn)品在2020年國慶節(jié)那一天(10月1日)開始試運營,那天通過拉新來了5位用戶,國慶節(jié)過完來,老板想知道10月1日這波拉新用戶的7日留存率。
Fake數(shù)據(jù)表
CREATE?TABLE?ods_study_1.ods_study_retain_1
(
userid?int,
min_date?DATE,
active_date?DATE
);
INSERT?INTO?ods_study_1.ods_study_retain_2(userid,min_date,active_date)?VALUES(1,'2020-10-01','2020-10-02'),(2,'2020-10-01','2020-10-02'),(3,'2020-10-01','2020-10-02'),(4,'2020-10-01','2020-10-03'),(5,'2020-10-01','2020-10-03')
查看下數(shù)據(jù)
?SELECT?userid,min_date,active_date,active_date-min_date?FROM?ods_study_1.ods_study_retain_2

國慶后,產(chǎn)品經(jīng)理A匯報說,“老板,我們這次7日留存下來的用戶是0,7日留存率0,效果非常不好,不可以繼續(xù)投放拉新了
SELECT?
??min_date,
??COUNT(CASE?WHEN?(active_date-min_date)?=?6?THEN?userid?ELSE?NULL?END?)?restay_num,
??COUNT(DISTINCT?userid)?all_num?
FROM
??ods_study_1.ods_study_retain_2?
GROUP?BY?
??min_date;

國慶后,產(chǎn)品經(jīng)理B匯報說,“老板,我們這次7日留存下來的用戶是5,7日留存率是100%,效果非常好,可以繼續(xù)投放拉新”。
SELECT?
??min_date,
??COUNT(CASE?WHEN?(active_date-min_date)?<=?6?THEN?userid?ELSE?NULL?END?)?restay_num,
??COUNT(DISTINCT?userid)?all_num?
FROM
??ods_study_1.ods_study_retain_2?
GROUP?BY?
??min_date;

老板非常疑惑,你們怎么回事,怎么得出的結(jié)論正好相反?
產(chǎn)品經(jīng)理B看了看A的計算邏輯,給A說,兄弟,我們這款產(chǎn)品具有周期性,當時調(diào)研的時候就反饋了用戶一般只會在每個月的2號和3號有時間去使用這款產(chǎn)品。
所以你不能計算10月1日之后的第7日還剩下多少人活躍,要計算10月2日-10月7日之間一共有多少用戶在活躍。
這個小案例其實反饋的就是業(yè)務線對指標定義不一致計算得到不同的結(jié)果,一個是7日日留存,一個是7日內(nèi)留存。
數(shù)據(jù)指標體系的構(gòu)建
所以指標準確的定義是產(chǎn)品、運營、數(shù)據(jù)等團隊做分析必要的前提,且在每個分析師心中都有一套完整的數(shù)據(jù)指標體系。指標是單一的,指標體系是完整的,是可以表示業(yè)務之間的相關性和結(jié)構(gòu)性。
一個優(yōu)質(zhì)的數(shù)據(jù)指標體系可以反應出:發(fā)生了什么?為什么這件事會發(fā)生?這樣持續(xù)下去未來可能會發(fā)生什么?我們應該根據(jù)這些做些什么?

這一塊涉及的內(nèi)容較多,一篇文章應該講不完整,這次簡單分享下。分析師構(gòu)建一套完整的指標體系搭建步驟和所需合作同事:
明確產(chǎn)品各業(yè)務線目的(相關業(yè)務線產(chǎn)品經(jīng)理出) 明確指標體系的建設規(guī)劃模型方案(分析師和相關業(yè)務線的產(chǎn)品經(jīng)理拉通統(tǒng)一) 明確指標對應的埋點和存儲邏輯(各業(yè)務線產(chǎn)品經(jīng)理和埋點研發(fā)人員) 梳理指標的準確性,取數(shù)校驗(分析師) 指標跌倒更新和刪減(分析師和產(chǎn)品經(jīng)理) 數(shù)據(jù)指標體系平臺建設和迭代(分析師、產(chǎn)品、研發(fā))
步驟2的規(guī)劃模型方案思路這一塊建議閱讀GrowingIO發(fā)布的那本小冊子《指標體系與數(shù)據(jù)采集》[2],寫的比較清晰。

參考資料
張濤: 神策數(shù)據(jù)副總裁
[2]GrowingIO,《指標體系與數(shù)據(jù)采集》: 某電商產(chǎn)品基于OSM和UJM相結(jié)合的指標體系構(gòu)建全景圖
——End——
后臺回復關鍵字:1024,獲取一份精心整理的技術(shù)干貨 后臺回復關鍵字:進群,帶你進入高手如云的交流群。 推薦閱讀
一款SQL自動檢查神器,再也不用擔心SQL出錯了! SQL 語句中 where 條件后 寫上1=1 是什么意思 國產(chǎn)數(shù)據(jù)庫建模工具,看到界面第一眼,良心了! 快手公司廁所裝坑位計時器,網(wǎng)友:再也不能帶薪拉屎了! 這是一個能學到技術(shù)的公眾號,歡迎關注
點擊「閱讀原文」了解SQL訓練營
