用戶畫像-標簽體系
1 前言
最近在學習用戶畫像,翻看了“彭友會”的七十多份資料,簡單過了一遍趙宏田老師的書,最近又看了許多微信公眾號里的文章。
整體感受就是,資料太雜、內(nèi)容太亂、重復的太多、相互間也會有些沖突。但大致可以歸為兩類:趙宏田老師的一套,另外其它的一套。
有那么七八張圖在各種文檔、公眾號文章里反復出現(xiàn),我也搞不清楚哪個是原創(chuàng)了。用戶畫像的描述至少在六個地方看到連文字都是一樣的。
本來想著直接抄一下權(quán)威老師的作業(yè)就好了,但發(fā)現(xiàn)了一些問題,比如標簽分類違背了分類的基本原則、混淆了標簽與標簽取值的區(qū)別。可能是我較真了但還是希望能按照我認為的更好的方式去實現(xiàn)。
最后,由于以下內(nèi)容大多源于最近看過的資料,原創(chuàng)聲明肯定是不能寫的,有參考到的比較好的文章我會在文末一一列出來。
2 標簽體系概覽
2.1 什么是對象

2.2 什么是標簽
標簽是人為設定的、根據(jù)業(yè)務場景需求,對目標對象運用一定的算法得到的高度精煉的特征標識。
標簽是對對象某個維度特征的描述與刻畫,是某一種用戶特征的符號表示,每一種標簽都規(guī)定了我們觀察認識描述對象的一個角度,用于對象的標注、刻畫、分類和特征提取。
現(xiàn)實世界中標簽還有三種表現(xiàn)形態(tài):實物標簽、網(wǎng)絡標簽和電子標簽。
實物標簽(Label)是用于標明物品的品名、重量、體積、用途等信息的簡要標牌,例如:商品標簽、價格標簽、車檢標簽、服裝吊牌、車票、登機牌都是實物標簽;
網(wǎng)絡標簽(Tag)是一種互聯(lián)網(wǎng)內(nèi)容組織方式,是相關(guān)性很強的關(guān)鍵字,它能幫助人們通過關(guān)鍵詞快速建立對內(nèi)容總體印象;
電子標簽又稱RFID射頻標簽(Label),是一種識別效率和準確度都比較高的識別工具,通過射頻信號自動識別目標對象并獲取相關(guān)數(shù)據(jù),識別工作無須人工干預,可工作于各種惡劣環(huán)境。
用戶畫像里的標簽,實際上屬于網(wǎng)絡標簽(Tag)。
2.3 什么是標簽體系
所謂標簽體系,就是對企業(yè)需要的多種標簽進行歸類、同時對標簽屬性加以定義,從而更方便的對標簽進行管理維護。標簽體系包含兩部分(標簽分類體系即標簽類目+標簽內(nèi)容信息),最好能通過標簽系統(tǒng)來維護。也可按描述對象分類。

2.4 用戶標簽體系
標簽類目,分類方式很多,建議采用按業(yè)務場景的分類方式。
以下是電商場景的標簽類目(最底層分類我只是象征性寫了幾個能說明問題就好)。個人覺得阿里達摩盤的分類更好些,因為趙宏田老師的分類違背了不丟不重的基本分類原則:


標簽內(nèi)容信息,也叫標簽屬性,是從多個不同角度對標簽進行描述。

2.5 商品標簽體系
按照應用場景區(qū)分,商品標簽分為基礎屬性、交互行為、適配場景、供應鏈屬性、商品價值等。

2.6 什么是用戶畫像
用戶畫像,即用戶信息標簽化,通過收集用戶的社會屬性、消費習慣、偏好特征等各個維度的數(shù)據(jù),進而對用戶或者產(chǎn)品特征屬性進行刻畫,并對這些特征進行分析、統(tǒng)計,挖掘潛在價值信息,從而抽象出用戶的信息全貌。
用戶畫像可看作企業(yè)應用大數(shù)據(jù)的根基,是定向廣告投放與個性化推薦的前置條件,為數(shù)據(jù)驅(qū)動運營奠定了基礎。由此看來,如何從海量數(shù)據(jù)中挖掘出有價值的信息越發(fā)重要。
上邊這段話是趙宏田老師書里寫的。我覺得,用戶畫像就是在用戶標簽的基礎上進行組合提煉,來刻畫描述用戶群體,以便更清晰的了解用戶,從而投其所好。畢竟用戶才是金主爸爸。
2.7 標簽體系的應用場景
DMP、CDP
CRM應該聽的比較多,就是客戶關(guān)系管理系統(tǒng)(Customer Relationship Management)。
DMP就比較少的人聽說了,是數(shù)據(jù)管理系統(tǒng)(Data Management Platform),對應的前臺應用叫DSP,廣告精準投放平臺(Demand-Side Platform )。
CDP最近倒是挺火的,是客戶數(shù)據(jù)平臺(customer data platform)。
以下是摘要,想看更多的,文末有分享鏈接。
CRM,它應該是企業(yè)的核心客戶的系統(tǒng),是以交易ID或者Leads ID定義數(shù)據(jù)的系統(tǒng),存放的主要是“井水不犯河水”時代的那些客戶的靜態(tài)數(shù)據(jù)。
DMP,它應該是以廣告投放管理,尤其是程序化廣告投放管理為核心目的的受眾數(shù)據(jù)系統(tǒng)。
CDP,它應該是支持流量運營、用戶運營、客戶運營、潛在客戶運營的人群細分的數(shù)據(jù)系統(tǒng)。
DMP的核心思想,是記錄每一個個體消費者在不同營銷觸點上的“交互痕跡”,基于這些痕跡,區(qū)分不同消費者的特征,并對不同特征的消費者群體提供針對性營銷策略或是輸出這些人群作為細分受眾給其他營銷執(zhí)行機構(gòu)。
因此,它具有幾個核心特征:
1. 它能夠收集不同營銷觸點上的數(shù)據(jù),如果有遇到不能收集的營銷觸點的情況,也應該能夠整合別人收集的數(shù)據(jù);
2. 它能夠通過這些數(shù)據(jù),建立不同的消費者的特征,即建立消費者特征屬性的標簽;
3. 它能夠依據(jù)不同的消費者屬性標簽及消費者觸點上的數(shù)據(jù),將具有同樣特征或數(shù)據(jù)的消費者篩選出來,并組合成特定受眾人群;
4. 它能夠分析特定人群的觸點數(shù)據(jù)和屬性數(shù)據(jù),并進而判斷已經(jīng)執(zhí)行的營銷決策是否合理,或是為即將執(zhí)行的營銷提供策略支持;
5. 它能夠?qū)⑺傻奶囟毞秩巳杭跋嚓P(guān)數(shù)據(jù)輸出給營銷執(zhí)行機構(gòu)實現(xiàn)相關(guān)人群觸達或投放。
上面的是標準意義上的DMP的意思。圍繞人的數(shù)據(jù),收集數(shù)據(jù) - 整合數(shù)據(jù) - 打標簽 - 人群細分為群主 - 輸出為策略/輸出為人群包 - 投放支持。
DMP的數(shù)據(jù)源可以是第一方自己的數(shù)據(jù)、也可以是合作企業(yè)的數(shù)據(jù)、也可以是購買的公開數(shù)據(jù)源或者數(shù)據(jù)市場里面的數(shù)據(jù)。
推薦系統(tǒng)
一個推薦系統(tǒng)效果好與壞最基本的保障、最基礎的是什么?如果讓我來回答,一定是標簽體系。我這里說的標簽主要是針對物料的,對于電商平臺來說就是商品;對于音樂平臺來說就是每一個首歌,對于新聞資訊平臺來說就是每一條新聞。下一篇要介紹的是用戶畫像,畫像中那些用戶實時變化的興趣點大都也是來自于標簽體系,依據(jù)用戶長期和短期行為中對于物料搜索、點擊、收藏、評論、轉(zhuǎn)發(fā)等事件,將物料的標簽傳導到用戶畫像上,就構(gòu)成了用戶的實時畫像和離線畫像中的各個動態(tài)維度。
用戶畫像系統(tǒng)
所謂的用戶畫像系統(tǒng),顧名思義,就是對用戶進行一些畫像……這句話好像啥信息量也沒有。但說白了,其實就是對用戶的特征進行提煉、進行復原。
功能上,其實主要分為兩大系統(tǒng),一部分是標簽系統(tǒng),一部分畫像系統(tǒng)。用戶標簽是整個系統(tǒng)的數(shù)據(jù)基礎,是鏈接標簽系統(tǒng)和畫像系統(tǒng)的橋梁。除此之外,也包括一些人群管理等外圍系統(tǒng)功能。
所謂標簽系統(tǒng),就是利用企業(yè)自由數(shù)據(jù)、第三方數(shù)據(jù)、采購數(shù)據(jù)等等,對自有的用戶進行打標簽的處理。標簽系統(tǒng)既可以自主生成標簽,也可以對標簽進行有序管理維護。
所謂畫像系統(tǒng),就是利用標簽,進行的可視化分析及各類應用的落地。簡單的,可以是一些統(tǒng)計分析;復雜的,可以是人群的各維度的透視。
數(shù)據(jù)中臺
在眾多的數(shù)據(jù)中臺的解決方案中,一個叫做“標簽中心”或“標簽體系”的應用,幾乎成了數(shù)據(jù)中臺的“標配”。
數(shù)據(jù)中臺是數(shù)據(jù)+技術(shù)+產(chǎn)品+組織的有機組合,是快、準、全、統(tǒng)、通的智能大數(shù)據(jù)體系。與數(shù)據(jù)倉庫等傳統(tǒng)數(shù)據(jù)工具相比,數(shù)據(jù)中臺是一種新的理念,以“技術(shù)+業(yè)務”為雙驅(qū)動,是企業(yè)開展新型運營的一個中樞系統(tǒng)。
因此,如果你將數(shù)據(jù)中臺定位成一個存數(shù)據(jù)、管數(shù)據(jù)的技術(shù)平臺,那或許有“分類體系”就可以了。如果你的數(shù)據(jù)中臺定位的是企業(yè)數(shù)字化轉(zhuǎn)型的運營中樞系統(tǒng),要實現(xiàn)對前端業(yè)務的支持和賦能,那“標簽體系”就是數(shù)據(jù)中臺一個標配。原因前邊介紹過,分類是自上而下的規(guī)劃,側(cè)重標準化,標簽是自下而上的倒推,注重業(yè)務場景。
“數(shù)字轉(zhuǎn)型,場景為王”,在“技術(shù)+業(yè)務”雙驅(qū)模式的數(shù)據(jù)中臺中,標簽體系、數(shù)據(jù)萃取將助力企業(yè)運營轉(zhuǎn)型升級。
3 標簽體系建設方法及質(zhì)量評估標準
3.1 標簽體系構(gòu)建流程

標簽體系構(gòu)建原則
原則一:
因此最佳的處理方式是,我們應該放棄頂層的用戶抽象視角,針對各業(yè)務線或部門的訴求和實際的應用場景,分別將標簽聚類起來提供給相應部門。
原則二:
標簽生成的自助化能夠讓溝通成本降最低
標簽生成的自助化,可重復修改的規(guī)則,降低無效標簽的堆積
釋放數(shù)據(jù)團隊人力,釋放業(yè)務團隊的想象力
原則三:
規(guī)則及元信息維護
調(diào)度機制及信息同步
高效統(tǒng)一的輸出接口
我們回顧標簽體系構(gòu)建的三原則,本質(zhì)上是解決了價值、手段、可持續(xù)性三方面的問題:以業(yè)務場景倒推需求,讓業(yè)務方用起來作為最終目標,讓標簽系統(tǒng)價值得以實現(xiàn);標簽生成的自助化,它解決的是我們用什么樣的手段去實現(xiàn)價值;有效的標簽管理機制,意味著一套標簽體系能否可持續(xù)性地在一家企業(yè)里面運作下去。
總之,對企業(yè)最重要的是:一套標簽系統(tǒng)在業(yè)務上用起來,能不能覆蓋更廣泛的需求,而不是一個大而全的框架。
標簽體系實施架構(gòu)
標簽體系架構(gòu)可以分為三個部分:數(shù)據(jù)加工層,數(shù)據(jù)服務層,數(shù)據(jù)應用層。每個層面面向用戶對象不一樣,處理事務有所不同。層級越往下,與業(yè)務的耦合度就越小。層級越往上,業(yè)務關(guān)聯(lián)性就越強。

標簽體系整體設計-業(yè)務梳理
以業(yè)務需求為導向,可以按下面的思路來梳理標簽體系:
有哪些產(chǎn)品線?產(chǎn)品線有哪些來源渠道?一一列出
每個產(chǎn)品線有哪些業(yè)務對象?比如用戶,商品
最后再根據(jù)對象聚合業(yè)務,每個對象涉及哪些業(yè)務?每個業(yè)務下哪些業(yè)務數(shù)據(jù)和用戶行為?

標簽體系整體設計-標簽分類
按業(yè)務需求梳理了業(yè)務數(shù)據(jù)后,可以繼續(xù)按照業(yè)務產(chǎn)出對象的屬性來進行分類,主要目的:
方便管理標簽,便于維護和擴展
結(jié)構(gòu)清晰,展示標簽之間的關(guān)聯(lián)關(guān)系
為標簽建模提供子集。方便獨立計算某個標簽下的屬性偏好或者權(quán)重
梳理標簽分類時,盡可能按照MECE原則,相互獨立,完全窮盡。
標簽層級控制在三到四個為宜。
一級標簽控制中 10 個以內(nèi),太多不易于使用。
3.2 標簽體系質(zhì)量評估標準
為什么要進行標簽質(zhì)量評估
想象一下,我們開發(fā)了一個“用戶年齡”標簽,業(yè)務想針對20-30歲的人進行精準投放。但經(jīng)過篩選,才篩出來幾千個人,和公司總體用戶相比僅僅是九牛一毛,那這樣的標簽,還有價值不?
因此,對標簽的質(zhì)量進行科學完整地評估,有助于指導標簽的管理者、開發(fā)者不斷地提升標簽質(zhì)量。通過創(chuàng)建一套完整的評估體系,對于質(zhì)量過差的標簽,不著急上線,等達到基本的質(zhì)量要求后再開放給業(yè)務使用。不然,既對業(yè)務帶來不了價值,也容易讓標簽畫像系統(tǒng)失去用戶的信任。
回過頭來,上面這個例子反映的問題,其實就是標簽的質(zhì)量差。準確地說,是標簽的覆蓋度太低了。除了覆蓋度,還有很多指標可以衡量一個標簽的質(zhì)量,咱們在下面詳細展開,主要通過 數(shù)據(jù)質(zhì)量、應用質(zhì)量、業(yè)務質(zhì)量 三個方面來評價標簽的質(zhì)量。
數(shù)據(jù)質(zhì)量評估是標簽質(zhì)量最基礎的評價,主要分為準確度、覆蓋度、穩(wěn)定性 三部分。
標簽覆蓋度的含義,是指在一個標簽中,有業(yè)務含義的人群數(shù)量與總?cè)巳簲?shù)量的比例。
標簽的穩(wěn)定性也是影響標簽質(zhì)量的重要因素。
什么是穩(wěn)定性呢?舉個用戶年齡標簽的例子。昨天30歲以下的用戶有200萬,占比10%,今天就成了1000萬,占比50%。這種標簽數(shù)據(jù),你敢用么?是數(shù)據(jù)的計算邏輯出現(xiàn)問題,還是其他原因?qū)е拢?br>
因此在標簽的質(zhì)量評估中,標簽值的相對穩(wěn)定性,是重要的評估標準之一。
應用質(zhì)量評估是從產(chǎn)品角度出發(fā),評估標簽對于產(chǎn)品應用的價值。
若一個標簽的數(shù)據(jù)質(zhì)量高,但是用戶都用不起來,不好用,那么也是難以發(fā)揮出標簽內(nèi)在的價值。
關(guān)于應用價值的衡量,往往會用一些滯后性的指標衡量。基礎假設是,業(yè)務人員用的多的標簽,一定是應用質(zhì)量好的;業(yè)務人員用得少的標簽,一定是應用質(zhì)量弱的。
具體衡量應用多少的指標,可以用【使用次數(shù)】、【使用熱度】、【調(diào)用次數(shù)】等來綜合衡量。
對于應用價值低的標簽,可以針對性地進行分析,不斷提升每個標簽的應用價值。
業(yè)務質(zhì)量評估是最不好衡量的,但又是最最重要的。因為相比于數(shù)據(jù)質(zhì)量是從數(shù)據(jù)層出發(fā)、應用質(zhì)量是從產(chǎn)品層出發(fā),業(yè)務質(zhì)量是從業(yè)務層出發(fā),是離業(yè)務價值最近的。
想象一下,業(yè)務如果用了一個標簽,對一群人進行了投放,ROI是日常投放的好幾倍,那這個標簽的價值可以說是毋庸置疑了。這時,我們可以說這個標簽的業(yè)務質(zhì)量很高。
什么樣的標簽的業(yè)務質(zhì)量會比較高呢?比如:【用戶購買偏好】、【用戶的營銷敏感度】等等。這類的標簽往往都是一些復雜邏輯的算法標簽,常常有比較強的業(yè)務質(zhì)量。
但這里存在的一個悖論,就是業(yè)務質(zhì)量是后驗的。即想知道一個標簽的業(yè)務質(zhì)量,就一定要進行投放測試才行。而且往往不同場景的一些投放帶來的結(jié)果也不太一樣,就導致業(yè)務質(zhì)量的評估往往很難落地。
這確實是個難點。作者的經(jīng)驗是,在評估標簽質(zhì)量時,先重點考慮數(shù)據(jù)質(zhì)量和應用質(zhì)量,這兩者都沒問題的時候,就可以上線開放給業(yè)務使用。但對于業(yè)務使用標簽后的數(shù)據(jù)進行回流,監(jiān)控標簽應用在業(yè)務場景的價值情況。最終可以有個比較公允的衡量。而這個衡量,將對后面標簽的優(yōu)化方向,帶來很強的指導性意義。
推薦閱讀:
不是你需要中臺,而是一名合格的架構(gòu)師(附各大廠中臺建設PPT)
企業(yè)IT技術(shù)架構(gòu)規(guī)劃方案
論數(shù)字化轉(zhuǎn)型——轉(zhuǎn)什么,如何轉(zhuǎn)?
企業(yè)10大管理流程圖,數(shù)字化轉(zhuǎn)型從業(yè)者必備!
【中臺實踐】華為大數(shù)據(jù)中臺架構(gòu)分享.pdf
