數(shù)據(jù)分析案例:網(wǎng)易云音樂用戶微觀洞察&精細化運營
面對云音樂1.8億的用戶體量,用戶精細化運營是當下重點投入的業(yè)務領域。精細化運營的前提是對用戶的聽歌動機和喜好進行挖掘,本篇文章focus用戶的微觀音樂消費行為洞察,通過用戶關鍵行為的數(shù)據(jù)分析,提煉出用戶的偏好,最終應用在用戶的促活召回、版權回歸和新客留存等多個業(yè)務場景,提升了各業(yè)務精細化運營的能力。
背景介紹
“2021年云音樂月活用戶數(shù)1.826億”,網(wǎng)易云音樂擁有如此大體量的月活用戶,但整個行業(yè)新用戶增長見頂,拉新成本越來越高,因此新用戶的承接、老用戶促活和流失用戶召回,用戶精細化運營是當下重點投入的業(yè)務領域。本次分享對用戶如何分層不做探討,聚焦在老客中的低活用戶促活和流失用戶召回的數(shù)據(jù)化運營上面。
談到用戶精細化運營,可謂老生常談的問題,比如電商、短視頻都有非常多的方法論和實踐沉淀;對電商行業(yè),對用戶分層之后,對不同分層的用戶通過大促營銷、日常發(fā)券,用合作的超低價商品等運營策略,都是有效的用戶精細化運營策略;對短視頻ugc內(nèi)容平臺,因其內(nèi)容更新頻率高,基于關注、瀏覽等多種方式做促活和召回也是行之有效的運營策略......
回到音樂平臺,音樂平臺既沒有“優(yōu)惠券”可以發(fā)放,內(nèi)容的創(chuàng)作成本也較高,那么音樂平臺如何做用戶促活和召回呢?大部分用戶的核心訴求是聽歌和互動,歌曲的生命周期較其他類型內(nèi)容會更長,比如有很大一部分用戶仍喜歡聽80、90年代的老歌,有些用戶對最近的熱門或流行歌曲比較感興趣,有些用戶只聽一些音樂人的歌曲,因此豐富的曲庫是音樂平臺做用戶促活和召回的最重要手段。
那么精細化運營的前提是對用戶的聽歌動機和喜好進行挖掘,本篇文章focus用戶的微觀音樂消費行為洞察,用戶如何分層不做過多討論,后續(xù)有專門的文章進行介紹。
用戶微觀音樂偏好洞察
基于上述背景,如何更加精準的識別用戶的聽歌動機和聽歌偏好,在不同的運營場上,給用戶提供更匹配的歌曲,是各大音樂平臺的重點關注問題。用戶平臺中消費的內(nèi)容多種多樣,包括音樂、播客、動態(tài)、視頻、直播等。其中,99%的月活用戶都在聽歌。因此,深入分析研究用戶在音樂場景下的行為尤其重要。
2.1 先看兩個典型用戶
在開展分析之前,我們先來看一些典型的音樂用戶,通過用戶的關鍵行為的數(shù)據(jù)分析,我們可以清晰構建出用戶個人profile。
用戶1:音樂發(fā)燒友

用戶1是云音樂平臺中的一個活躍用戶,從官網(wǎng)的用戶頁面可以得知,該用戶是一個歐美歌單達人和圖文達人,來自河南的90后小哥哥。從個人簡介中可以了解到這位用戶的經(jīng)歷和愛好,用戶也附上了自己的其他媒體社交賬號。
聽歌時長、次數(shù)和天數(shù)是刻畫用戶聽歌多少的重要指標,兩個聽歌時長一樣的用戶,在聽歌行為上差異可以很大,即單一維度的指標無法立體還原用戶的真實聽歌訴求;為了能夠更好地對用戶洞察,我們首次提出了音樂消費領域的“多廣深”模型,目前該模型涉及的相關專利已經(jīng)提交到國家專利局評審。
(1)多度刻畫的是用戶聽歌的時間的投入程度,我們選取了用戶的聽歌時長、天數(shù)和有效播放次數(shù),這三個核心指標數(shù)值越大,多度分數(shù)越高;
(2)廣度刻畫的是用戶聽歌的類型的廣泛程度,我們選取了用戶播放的語言和曲風的數(shù)量和占比,不同類型的語言和曲風越多,廣度分數(shù)越高;
(3)深度刻畫的是用戶聽歌的藝人的小眾程度,我們選取了用戶與藝人之間的幾大核心交互行為,包括播放、收藏紅心、點贊評等。首先我們需要基于藝人的熱度、生產(chǎn)力和影響力等核心指標計算出藝人的“頭腰尾”等級,然后基于藝人的等級計算出用戶在不同類型的藝人的消費比例。最終體現(xiàn)到用戶顆粒度的指標是,用戶對腰尾部藝人的播放/收藏/評論等行為的數(shù)量越多,深度分越高;

回到這個具體的用戶例子上來,用戶在音樂消費的多廣深上全部是高,是一個十足的音樂發(fā)燒友,這類用戶在大盤用戶中的占比僅有1.5%。
多度上,近30天用戶聽歌30天,總共播放時長85小時,日均播放時長達到了2.8小時,日均有效播放次數(shù)達到了63次;
廣度上,近30天用戶總共涉獵曲風12種,語言5種,曲風上包括了流行、原聲帶、二次元、搖滾等:

深度上,近30天用戶播放過的藝人有1000個,其中63%的藝人數(shù)據(jù)尾部藝人,頭部藝人的占比僅有6.4%,消費top6的藝人中有5個藝人屬于尾部藝人。

用戶2:偏好英語搖滾的夜貓子

用戶2是一位來自于天津的95后小哥哥,從官網(wǎng)的用戶首頁的聽歌排行就可以明顯感受到了滿屏的英文歌曲和搖滾氣息。

與用戶1對比,用戶2是一個完全的素人用戶,主要消費行為都集中在音樂的消費上,日均聽歌時長約1小時,屬于平臺中的活躍用戶,同時聽歌的廣度和深度都是高,代表著用戶也有著廣泛的語言曲風偏好,偏好藝人也偏小眾。

基于日常的作息時間,我們把一天24小時區(qū)分成了6個時間段,分別是早上(6點~8點)、上午(9點~12點)、中午(12點~13點)、下午(14點~17點)、晚上(18點~22點)、深夜(23點~次日5點)。
從用戶的聽歌時長的分布上看,用戶最喜歡在深夜聽歌,其次是早上,這兩個時間段的累計時長占比達到了93%,是一位非常典型的夜貓子。

對用戶的行為進行拆解后可以得到一個很好的驗證,就是用戶2確實最愛聽英語搖滾樂,符合我們在分析用戶首頁時給出的判斷。從語言的消費分布上看,用戶2是一位外語歌曲的偏好者,華語類的歌曲的占比小于1%。從播放的來源渠道看,云盤占比達到了91%,其他來自于用戶自己創(chuàng)建的歌單和藝人頁播放,可見用戶對音樂有著自己非常明確的執(zhí)著。同時,該用戶近一個月活躍了25天,可見用戶2對于在深夜播放英語搖滾樂的這個興趣愛好也逐漸塑造了自己的中長期愛好。
2.2 用戶偏好挖掘
基于用戶個體的簡單分析后不難發(fā)現(xiàn),就單指聽歌這個事情上,不同用戶的行為差異最終可能會導致用戶的偏好完全不一樣。為了能夠更清晰地看清我們的用戶,我們基于用戶行為和歌曲屬性搭建了一整套用戶音樂偏好標簽體系。根據(jù)偏好的行為類型的差異,分別為音樂偏好、行為偏好、垂類偏好三大類型。其中,音樂偏好主要來基于用戶播放的音樂的屬性計算得到,行為偏好主要基于用戶播放音樂的方式來計算得到,垂類偏好主要基于用戶對非音樂內(nèi)容的播放計算得到。

基于這套用戶偏好的標簽體系,我們可以快速定位一個用戶的典型特征,并且圈選出類似的人群,生成人群包之后即可發(fā)送到用戶觸達平臺使用。為了方便理解,下面我們以藝人偏好的挖掘作為例子展示如何通過用戶的原始行為,挖掘出用戶的偏好標簽。
步驟一:尋找偏好數(shù)據(jù)特征
我們知道,用戶在平臺中活躍和聽歌,就會跟歌曲產(chǎn)生各種各樣的交互,沉淀了海量的行為數(shù)據(jù)。在數(shù)據(jù)分析和建模面前,數(shù)據(jù)量越多越好,但是對于海量的零散的數(shù)據(jù),卻無法直接使用。針對這個痛點,我們重申了用戶偏好挖掘的重要性,用戶偏好標簽將直接影響著數(shù)據(jù)分析、挖掘建模、算法推薦、運營觸達和廣告投放等所有跟用戶相關的全鏈路流程。
為了能夠更好地還原用戶的真實偏好,我們基于數(shù)據(jù)分布和常態(tài)認知提煉出用戶跟音樂內(nèi)容的核心互動行為,不同行為由于發(fā)生的難易程度不同,體現(xiàn)到數(shù)據(jù)層面就是行為發(fā)生占播放的比例的大小差異。如下圖所示,從左到右,從下到上,行為發(fā)生的難易程度依次遞增,在還原用戶真實偏好這個場景的重要性也隨之增大。

(1)針對云音樂對于絕大多數(shù)的用戶來說,聽歌就是剛需,也就是上圖中的音樂消費行為。其中,音樂消費行為又可以基于不同的播放方式,分成了有效播放、完整播放、主動播放、循環(huán)播放、搜索播放等。
(2)在聽歌的過程中,用戶會對自己感興趣的內(nèi)容進行更深層次的交互行為,如紅心、收藏、分享、評論等,這些行為本質上是用戶基于平臺的內(nèi)容生產(chǎn)屬于自己偏好的組合內(nèi)容,也就是上圖中的生產(chǎn)行為。
(3)隨著用戶進行不斷的內(nèi)容生產(chǎn),用戶的資產(chǎn)沉淀也會越來越多,部分優(yōu)質的UGC歌單就會逐漸被分發(fā),從而影響著更多平臺上的其他用戶對其進行消費,形成一個良性循環(huán)。
步驟二:計算用戶偏好
在完成用戶行為的提煉后,結合內(nèi)容的屬性或者行為的渠道,即可開始用戶偏好的計算。下面,我們以偏好藝人的挖掘作為例子,展開描述我們是如何還原用戶的藝人偏好。

(1)數(shù)據(jù)清洗
聽歌行為可以細分成四大類,每一類的發(fā)生難度遞增:播放行為 → 主動行為 → 交互行為 → 付費行為。
針對播放行為相關的數(shù)據(jù),鑒于數(shù)據(jù)量過于龐大,所以選擇統(tǒng)計近30天的行為,在后續(xù)的驗證工作中發(fā)現(xiàn),用戶的近30天行為最能體現(xiàn)用戶的近期偏好。
針對交互行為和付費行為的數(shù)據(jù),我們采用的是歷史全量數(shù)據(jù),數(shù)據(jù)顆粒度統(tǒng)計到用戶、行為類型和行為時間,這樣方便后續(xù)的特征處理。
(2)特征工程
首先,針對不同行為的數(shù)據(jù)特性,加工成可用的數(shù)據(jù)指標,具體有以下幾步:
通過對數(shù)轉換把播放類的數(shù)據(jù)分布轉化成對數(shù)分布,好處在于降低數(shù)據(jù)極值對模型的影響;
通過計算不同行為的占比,來消除由于個體行為過多或者過少導致的計算偏差;
通過引入時間衰減權重,來處理不同發(fā)生時間的行為的對用戶真實偏好的影響的合理性;
通過平滑計算不同行為的占比,來確定不同行為的權重,并對同類型行為進行線性組合;
通過分別對付費次數(shù)和金額進行算分并相加,來實現(xiàn)強調次數(shù)的同時也強調了金額。
(3)計算偏好
基于已經(jīng)加工好的特征,進行標準化和加權匯總。其中,標準化使用max_min的方式進行,這種計算方式的好處是不影響原始數(shù)據(jù)的單調性和個體間差異,能夠等比例縮放原始數(shù)據(jù)。
在完成基礎數(shù)據(jù)的匯總后即可以得到用戶偏好的原始得分,基于原始得分的倒序即可大致了解用戶對不同藝人的偏好程度。但是此時會比較容易發(fā)現(xiàn)大部分用戶的top 10偏好藝人中會經(jīng)常出現(xiàn)林俊杰、薛之謙等熱門大藝人,所以我們還需要引入IDF因子,以實現(xiàn)對大藝人的降權處理。
對最終得到的藝人偏好得分進行排序后,即可以得到用戶對不同藝人偏好的排名。對得分進行標準化處理后,就可以得到用戶對不同藝人偏好程度的差異。
步驟三:解決疑難問題
我們在做藝人挖掘的時候,會遇到很多棘手的問題需要處理,下面幾點是我們在處理相關問題的時候提出的創(chuàng)新點:

問題一:用戶真實偏好被大數(shù)據(jù)淹沒
針對這個問題,我們主張僅僅使用用戶的主動行為進行計算,這個方案可以完美解決數(shù)據(jù)不聚焦的問題,也能更好地還原用戶的真實偏好。
問題二:完播率差異比較小
目前平臺中完播率的計算默認為完播的次數(shù)除以總的播放次數(shù),由于用戶對歌曲的復播行為比較少,直接導致用戶對大部分歌曲的完播率偏高或者偏低。為了增加特征的信息增益,我們通過計算用戶的實際播放時長和歌曲的可供播放時長的比值計算一個線性的完播比例,解決原有完播率過于粗糙的問題。
問題三:如何合理計算不同時間行為的權重
我們假設用戶每一次行為都有一個原始溫度值(這里假設每次行為將增加1攝氏度),隨著時間的推移,行為也會隨之降溫。
因此,我們引用了牛頓冷卻定律的原理:
當前溫度=上一期溫度 x exp(-冷卻系數(shù) x 間隔的小時數(shù))
類比的,
時間衰減得分=1 x exp(-冷卻系數(shù) x 用戶發(fā)生行為的時間距離當前的天數(shù))
其中冷卻系數(shù)一般選擇0.002~0.01之間,差異在于半衰期(衰減一半所需的時間)的長短。0.002代表的半衰期大概是一年,冷卻系數(shù)越大,半衰期越短。
問題四:用戶的top5偏好經(jīng)常被大藝人霸榜
由于用戶的行為信息對用戶偏好的信息增益最大,所以我們在計算用戶偏好是最重要的信息就是近一個月的用戶行為。因此,我們在做藝人偏好的時候就無法避免一個事實,絕大部分用戶都與頭部藝人進行行為的交集,導致了頭部藝人經(jīng)常出現(xiàn)在用戶偏好藝人top列表中。
我們的解決方案是,引入藝人IDF權重因子,該思路主要受益于NLP中的TF-IDF算法,IDF的全稱翻譯是反文檔頻次,如果某個詞在所有文檔中出現(xiàn)的次數(shù)越多,那么IDF值就越小,IDF主要用過倒數(shù)和對數(shù)的處理方式降低了熱詞在文本分析中的權重。相應的,藝人的IDF的公式如下:
藝人IDF=ln(近一個月有發(fā)生播放行為的用戶數(shù) / 近一個月有播放該藝人的用戶數(shù))
這里我們使用的是用戶數(shù)量,主要是基于不同用戶對不同藝人的播放是隨機的假設上的,可以基于業(yè)務場景的需求,把該計算公式中的用戶數(shù)改成有效播放次數(shù)、播放時長或者紅心用戶數(shù)等核心指標。
用戶洞察在精細化運營上的應用
基于對用戶在微觀層面的偏好洞察,最終我們挖掘出用戶在音樂、行為及垂類等方面的偏好。這些偏好的建設為用戶的精細化運營提供了強有力的抓手?;貞奖尘敖榻B上談到的對低活用戶促活和流失用戶召回命題,我們將上面的用戶微觀音樂洞察結果,結合人x內(nèi)容匹配后,在push通道上實驗不同的策略對用戶促活和召回的效果。
我們將用戶偏好應用在push促活和召回場景上,給用戶推送其偏好的內(nèi)容,實現(xiàn)千人千面的個性化push推送。比如,用戶偏好的藝人最近發(fā)布了新歌,就可以推送 [你喜歡的藝人XX發(fā)新歌了];如果用戶是偏好深夜聽歌的用戶,就可以為在深夜為其推送睡眠相關主題的push。
經(jīng)過幾個月的實驗,對于促活流失用戶,基于偏好推送的個性化push的召回點擊率,相較千人一面push提升了50%。其中[偏好藝人發(fā)新歌]的push召回效率非常好,點擊率相較全量提升了118%。

基于偏好推送個性化push,對于云音樂回歸版權的用戶召回也起到了助力作用。以英皇為例,英皇版權回歸,需要告知用戶,這個場景需要解決的問題就是給哪些用戶推送push,推送具體什么內(nèi)容。
選擇哪些用戶,有兩個角度,一是選擇與回歸歌曲發(fā)生互動行為的用戶,比如歌曲的紅心、分享、收藏、評論用戶;第二個維度,就是選擇關注或者偏好回歸藝人的用戶,來圈出更多對英皇版權感興趣的用戶。在這個場景下,通過偏好藝人push的推送,促活人群的召回效率提升了23%,召回人群的效率提升了33%。

用戶偏好除了應用在促活流失用戶召回外,還已經(jīng)應用到新客留存、音樂交友等多個業(yè)務場景,提升了各業(yè)務精細化運營的能力。
未來展望
一方面需要在用戶的音樂消費偏好洞察上進一步深挖,豐富用戶個人profile,比如用戶的聽歌場景訴求,用戶是僅早晚高峰的公共交通工具上聽歌,還是邊學習邊聽歌,還是深夜下班后用歌曲拂去一天的勞累?再比如用戶的聽歌情感訴求,是動感的、傷感的、亦或是emo的?
另一方面持續(xù)拓展用戶的偏好洞察結果在精細化運營中的應用,比如個性化banner、氣泡提示等多個場景,提高其對業(yè)務的效率。
以上兩部分已經(jīng)在陸續(xù)開展中,后續(xù)階段性的成果產(chǎn)出會持續(xù)分享,也希望和有興趣的同學一起討論,一起構建音樂領域的用戶微觀洞察和精細化運營的有效實踐!
相關專利:

宇嬛,云音樂用戶策略數(shù)據(jù)產(chǎn)品,負責用戶標簽、用戶圈選、定向投放等用戶精細化運營相關的數(shù)據(jù)產(chǎn)品;
栗子流,云音樂資深數(shù)據(jù)產(chǎn)品經(jīng)理,負責用戶觸達及內(nèi)容投放策略平臺的數(shù)據(jù)產(chǎn)品等工作;
Timzon,云音樂資深數(shù)據(jù)挖掘工程師,負責用戶側、內(nèi)容側數(shù)據(jù)資產(chǎn)沉淀,搭建用戶畫像產(chǎn)品;
楊斐,云音樂高級數(shù)據(jù)挖掘工程師,負責用戶側數(shù)據(jù)建設和特征挖掘、諾倫push數(shù)據(jù)體系搭建、效果監(jiān)控等


