數(shù)據(jù)分析案例:淺談生存分析在用戶流失中的應(yīng)用
導(dǎo)讀:生存分析(Survival analysis),是醫(yī)學(xué)領(lǐng)域常見的分析方法,直白點(diǎn)說,就是分析“因素”和“生存”是否相關(guān),能夠直接將研究的因子和患者最終的預(yù)后表型關(guān)聯(lián)起來,其重要性可想而知。目前,生存分析已經(jīng)廣泛應(yīng)用于社會科學(xué)和商業(yè)領(lǐng)域,今天我們將從用戶流失的視角來談?wù)勊膽?yīng)用。
前言
生存分析可以簡單概括為:研究特定事件的發(fā)生與時(shí)間的關(guān)系的回歸。這里特定事件可以是:病人死亡、病人康復(fù)、用戶流失、商品下架等。
以用戶流失為例:
將用戶下首單日期當(dāng)做“出生”時(shí)刻,用戶注銷(或長時(shí)間不下單)當(dāng)做“死亡”時(shí)刻(用戶流失),兩者相減即為用戶的生存時(shí)間。
當(dāng)研究用戶流失與時(shí)間的關(guān)系時(shí)我們往往會在意,什么樣性別年齡的客戶、在什么樣消費(fèi)力水平下、面對什么樣促銷力度誘惑、結(jié)合什么樣的召回手段,會產(chǎn)生什么樣的"生存時(shí)間"?帶著這些疑問,繼續(xù)看下去,生存分析能夠給我們答案。
介紹到這里可能有同學(xué)會問:為什么上述場景不能用普通的線性回歸呢?
仔細(xì)回顧這個場景,我們將2020年1月1日當(dāng)做觀察開始時(shí)間,將2021年6月30日當(dāng)做觀察截止時(shí)間,用戶在這期間下首單的日期為該用戶出生時(shí)時(shí)刻,注銷日期為該用戶死亡時(shí)刻。
有一類用戶,在這1年半期間完成了下首單(出生)到注銷(死亡)的流程,可以算出來他們準(zhǔn)確的生存時(shí)間;但是還有另外一類用戶,在這期間下首單之后不斷購買,未注銷(未死亡),這部分用戶的生存時(shí)間還有多久?并不清楚!
生存分析中將這部分用戶的生存數(shù)據(jù)稱為刪失數(shù)據(jù),結(jié)合刪失數(shù)據(jù)與完整數(shù)據(jù)來研究用戶的生存時(shí)間,這是普通的線性回歸難以實(shí)現(xiàn)的。
案例介紹
為了使大家有個直觀的感受,下面以一個特殊的案例簡要介紹該方法在用戶流失中的應(yīng)用(本案例數(shù)據(jù)純屬模擬生成,僅用于本節(jié)生存分析案例的使用介紹)。
1. 定義
觀察起始時(shí)間:2020年1月1日-2021年6月30日
用戶出生時(shí)刻:用戶第一次下單時(shí)間
用戶死亡時(shí)刻:用戶注銷時(shí)間(或者用戶超X個月未下單),為了表述方便,這里使用用戶注銷當(dāng)做用戶流失
生存時(shí)間(Y):對于在觀察期間注銷用戶來說:生存時(shí)間=用戶注銷時(shí)間-用戶第一次下單時(shí)間;對于到觀察期截止,仍未注銷的用戶來說:生存時(shí)間=觀察截止日期-用戶第一次下單時(shí)間
是否死亡(N):觀察期截止,用戶是否注銷
影響因素(X):影響用戶生存時(shí)間長短的因素,比如性別、年齡、是否會員、最大消費(fèi)金額、是否評論、最大購買間隔天數(shù)等
2. 數(shù)據(jù)格式化
?需要的原始數(shù)據(jù)格式如下:

?轉(zhuǎn)換后的數(shù)據(jù)格式如下:

3. 描述分析
結(jié)合生存時(shí)間(Y)、是否死亡(N)兩個變量,可以研究所有用戶在不同生存時(shí)間下,存活的概率(這里需要用到K-M估計(jì),本文主要講應(yīng)用,相關(guān)理論方法可查閱文末的參考文獻(xiàn))?

由上圖可知:
(1)0-3個月的用戶處于對平臺新鮮感保持的狀態(tài),此階段用戶的流失速度不大(斜率小) ;
(2)3-12個月的用戶流失速度較大(斜率大),此時(shí)所有用戶都處于快速流失階段;
(3)12個月之后的用戶生存概率幾乎不變,流失速度幾乎未0(斜率幾乎未0),用戶高粘性,對平臺已是忠實(shí)用戶。
根據(jù)上述表現(xiàn)可知:要特殊關(guān)注3-12個月用戶在平臺的體驗(yàn),必要時(shí)刻采取特殊手段延續(xù)他們的生存時(shí)間,這部分用戶潛力很大,一旦成為12月+的留存用戶,用戶整體對平臺的依賴度、忠實(shí)度會更高。
除了數(shù)據(jù)生存時(shí)間(Y)、是否死亡(N)2個變量外,還可以加入X變量(比如下圖:是否會員)觀測不同組別下,用戶的生存時(shí)間和存活概率的關(guān)系。

由上圖可知:會員的生存曲線在非會員生存曲線之上,非會員用戶更容易流失。從而可以針對不同類型用戶的生存曲線,做對應(yīng)的干預(yù)動作,實(shí)現(xiàn)精細(xì)化運(yùn)營。
4. 量化分析
到這里可能大家會問:生存分析能否量化不同的影響因素(性別、年齡、是否會員、最大消費(fèi)金額、最大購買間隔天數(shù))對用戶生存時(shí)間的影響?
答案是可以!
(此時(shí)會用到COX回歸等,對理論感興趣的同學(xué)可查閱附錄中的參考文獻(xiàn))
生存分析可以針對不同影響因素建立回歸方式,最后輸出如下結(jié)果:
| 影響因素 | 影響因子 |
| 會員_是 | 1.8 |
| 評論_是 | 2.1 |
| 最大購買間隔天數(shù) | 0.8 |
| 最大消費(fèi)金額 | 1.3 |
(1)[會員_是]因素的影響因子為1.8,含義:會員的生存天數(shù)是非會員的1.8倍;
(2)[最大購買間隔天數(shù)]因素的影響因子是0.8,含義:最大購買間隔天數(shù)每增加1天,用戶的平均生存天數(shù)減少0.2天。
其中評論的影響因子(2.1)高于會員影響因子(1.8),是提升用戶生存時(shí)間ROI較高的因素。
總結(jié)
生存分析不僅可以應(yīng)用于傳統(tǒng)的醫(yī)學(xué)領(lǐng)域,還能應(yīng)用于研究用戶流失與時(shí)間的關(guān)系、用戶轉(zhuǎn)化與時(shí)間的關(guān)系分析、用戶點(diǎn)擊與時(shí)間的關(guān)系、商品衰退與時(shí)間的關(guān)系,只要有特定事件和時(shí)間,生存分析無處不在。
以用戶流失分析為例,生存分析方法能提供不同影響因子(性別、年齡、消費(fèi)力水平、促銷力度等)下,不同時(shí)間截點(diǎn)下、用戶發(fā)生流失的概率。從而指導(dǎo)業(yè)務(wù)在不同時(shí)間階段、針對不同類型用戶、進(jìn)行不同的干預(yù)動作,提升用戶生存時(shí)間,防止流失。
生存分析在用戶流失等場景的應(yīng)用,筆者還在探索階段,大家如果有相關(guān)想法和建議,歡迎在評論區(qū)留言探討~~
參考文獻(xiàn):
《Clinical Statistics》,https://book.douban.com/subject/4699839/
Kylin,網(wǎng)易嚴(yán)選數(shù)據(jù)分析師,喜歡用數(shù)據(jù)來探索世界。主要負(fù)責(zé)流量分發(fā)、商品分析相關(guān)工作。

