淺談Hbase在用戶畫像上的應用
背景
用戶畫像,即用戶信息標簽化,是大數據精細化運營和精準營銷服務的基礎。設計從基礎設施建設到應用層面,主要有數據平臺搭建及運維管理、數據倉庫開發(fā)、上層應用的統計分析、報表生成及可視化、用戶畫像建模、個性化推薦與精準營銷等應用方向。
基本流程是:根據人口學特征、瀏覽行為&內容、社交活動和消費行為等信息而抽象出的一個標簽化的用戶模型。通過分析用戶的基礎信息、特征偏好、社會屬性等各維度的數據,刻畫出用戶的信息全貌,從中挖掘用戶價值。
用戶畫像的定義并不復雜,是系統通過用戶自行上傳或埋點上報收集記錄了用戶大量信息,為便于各業(yè)務應用,將這些信息進行沉淀、加工和抽象,形成一個以用戶標志為主 key 的標簽樹,用于全面刻畫用戶的屬性和行為信息,這就是用戶畫像。簡而言之:畫像是由標簽樹及末級標簽的標簽值構成的,全面定量刻畫用戶的結構化信息產品。畫像是標簽的總成,用戶標簽是具體刻畫用戶的結構化信息。

介紹
基礎處理邏輯架構:

數倉架構:

主要覆蓋模塊:

數據倉庫ETL加工流程是對每日的業(yè)務數據、日志數據、埋點數據等數據經過ETL過程,加工到對應的原始數據層(ODS)、數據倉庫(DW)、數據集市層(DM)中。
用戶畫像不是產生數據的源頭,是經過ODS層、DW層、DM層中的數據與用戶相關數據的二次建模加工得到的數據。
在ETL過程將用戶標簽寫入Hive,根據不同數據對應不同數據庫的應用場景,再將數據同步到MySQL、HBase、Elasticsearch等數據庫中。
Hive:存儲用戶標簽、用戶人群及用戶特征庫的計算結果
MySQL:存儲標簽元數據,監(jiān)控相關數據,導出到業(yè)務系統的數據
HBase:存儲線上實時數據
Elasticsearch:支持海量數據的實時查詢分析
其中用戶畫像最主要的兩個部分:
用戶指標體系
用戶標簽體系
指標體系:
數據指標體系是建立用戶畫像的關鍵環(huán)節(jié),也是在標簽開發(fā)前要進行的工作,具體來說就是需要結合企業(yè)的業(yè)務情況設定相關的指標。
通常我們講述的指標是指將業(yè)務單元精分后量化的度量值,譬如:DAU、訂單數、金額等。當然,原子指標還會基于維度、修飾詞、統計口徑而構建出派生指標。指標的核心意義是它使得業(yè)務目標可描述、可度量、可拆解。
一個好的指標體系設計,不能說可以規(guī)避掉百分百的問題,但至少讓問題出現時各方臨危不亂。
首先,業(yè)務同學需要對自己的業(yè)務有一個大概的預判,譬如:在整體的業(yè)務里程碑上什么時間點會有哪些策略動作,對應的業(yè)務體量會是多大。與此同時也提前去預知大概會監(jiān)控哪些指標,從哪些維度拆解等
其次,在有了初步預判之后與團隊技術溝通,與數據團隊溝通,盡量讓各方信息對稱。這樣的好處是我們能盡量提前將指標體系設計得不重不漏、條理清晰。同時技術團隊也會有所準備,在做數據底層設計時多去考慮其穩(wěn)定性、擴展性等。
1、明確業(yè)務是什么
在搭建指標體系之前,需要明確自己的業(yè)務是什么?公司整體的目標是什么?在產品實現上,如何幫助用戶解決問題?
譬如像:電商C2C企業(yè),業(yè)務本質上要解決的是需求「匹配」和「匹配效率」的問題,是一個不斷豐富供給和滿足需要的過程。目標上會去追求實現更多用戶的雙邊關系需要,對應到數據去看會衍生出「DAU」、「訂單」、「GMV」等戰(zhàn)略指標。
2、按業(yè)務大盤拆解
根據企業(yè)戰(zhàn)略目標,按照業(yè)務大盤的方式拆解數據指標體系,在業(yè)內有個有名的方法論AARRR(也叫海盜指標法,Acquisition用戶獲取、Activation用戶活躍、Retention用戶留存、Revenue營收、Refer傳播),整體的拆分邏輯是「獲取→活躍→留存→營收→傳播」,觀察其在業(yè)務主流程上,不同階段實現用戶側買家和賣家需求時,用戶會做什么、產生哪些數據、我們需要監(jiān)控哪些數據。
3、第一關鍵指標
“第一關鍵指標”指的是當前階段無比重要的第一指標,同時也指出了在創(chuàng)業(yè)階段的任意時間點上應該且只關注一項重要指標。這套理論在我們去考核不同團隊的時候同樣有借鑒意義,公司當前階段的“第一關鍵指標”拆解到不同部門之后,就成了各部門的“第一關鍵指標”,也是團隊的考核度量(OKR或KPI)
例如:訂單體系

數據指標體系設計流程:

注意:模型未動 , 指標先行。
常見C端的指標模型:

標簽體系:
在我們建立用戶標簽時,首先要明確基于哪種維度去建立標簽。
一般除了基于用戶維度(userid)建立用戶標簽體系外,還有基于設備維度(cookieid)建立相應的標簽體系,當用戶沒有登錄設備時,就需要這個維度。當然這兩個維度還可以進行關聯。而兩者的關聯就是需要ID-Mapping算法來解決,這也是一個非常復雜的算法。更多的時候我們還是以用戶的唯一標識來建立用戶畫像。
用戶指標體系和用戶標簽體系的最大的區(qū)別是:用戶指標是我們定義的一系列和業(yè)務相關的統計指標,而標簽是在指標上面的一層聚合和模型的定義。雖然可以定義成千上萬個指標,但是可能多個指標的聚合才能對用戶的某個維度進行打標簽。而且標簽是分層級的,可以為標簽建模提供標簽子集,梳理某類別的子分類時,盡可能的遵循MECE原則(相互獨立、完全窮盡),最后要依據標簽的相識度,標簽的權重,以及標簽的組合去圈選用戶,做精確化營銷或者推送。
用戶畫像指標體系和標簽分類從兩個不同角度來梳理標簽,用戶畫像指標體系偏戰(zhàn)略和應用,標簽分類偏管理和技術實現側。
例如:

一個比較成熟的畫像系統,會有成千上百的標簽,這些標簽的生產不是一次完成的,而是隨著業(yè)務的發(fā)展需要,逐步補充完善,最終呈現在大家眼前的就是一棵龐大的標簽樹。所以在前期最重要的仍然是搭好畫像骨架,確保后續(xù)的發(fā)展過程中,依然保持清晰的結構和高延展性。相反的,如果一開始為了搶時間,將大量標簽無序的堆在線上,后期管理和使用的難度會迅速凸顯出來,重構的代價巨大。
一個好的標簽樹結構要滿足兩個條件,“高概括性”和“強延展性”,高概括性意味著結構體系能夠很好的包含一個用戶的基本屬性和產品交互的相關行為,同時對于業(yè)務重點單獨強調,沒有遺漏;“強延展性”意味著結構全面的同時也有一定的抽象概括能力,保證新增的標簽可以很好的找到對應的分類,整個體系不會過于收斂局限。
從對用戶打標簽的方式來看,一般分為三種類型:1、基于統計類的標簽;2、基于規(guī)則類的標簽、3、基于挖掘類的標簽。下面我們介紹這三種類型標簽的區(qū)別:
統計類標簽:這類標簽是最為基礎也最為常見的標簽類型,例如對于某個用戶來說,他的性別、年齡、城市、星座、近7日活躍時長、近7日活躍天數、近7日活躍次數等字段可以從用戶注冊數據、用戶訪問、消費類數據中統計得出。該類標簽構成了用戶畫像的基礎;
規(guī)則類標簽:該類標簽基于用戶行為及確定的規(guī)則產生。例如對平臺上“消費活躍”用戶這一口徑的定義為近30天交易次數>=2。在實際開發(fā)畫像的過程中,由于運營人員對業(yè)務更為熟悉、而數據人員對數據的結構、分布、特征更為熟悉,因此規(guī)則類標簽的規(guī)則確定由運營人員和數據人員共同協商確定;
機器學習挖掘類標簽:該類標簽通過數據挖掘產生,應用在對用戶的某些屬性或某些行為進行預測判斷。例如根據一個用戶的行為習慣判斷該用戶是男性還是女性,根據一個用戶的消費習慣判斷其對某商品的偏好程度。該類標簽需要通過算法挖掘產生。
畫像通常從八個維度組織標簽,分別為:基本屬性、平臺屬性、行為屬性、產品偏好、興趣偏好、敏感度、消費屬性、用戶生命周期及用戶價值,每個維度再分成二級標簽、三級標簽等。

① 基本屬性
基本屬性是指一個用戶的基本社會屬性和變更頻率低的平臺特征,例如真實社會年齡、性別、婚姻狀況、昵稱、號碼、賬號、lbs 等標簽。這些標簽類型多為直采型,可從用戶基本信息表中直接獲取,不需要統計或者算法挖掘。
② 平臺屬性
平臺屬性是用戶在平臺上表現出的基本屬性特征,是利用用戶行為進行算法挖掘,標識用戶真實屬性的標簽。
最典型的平臺屬性標簽例如平臺年齡標簽,這里就有一個疑問,為什么在用戶的基礎屬性中已經有年齡標簽,但在平臺屬性中重復又有一個呢,這里就涉及兩者之間的差別。設想一個真實的場景:一個用戶社會身份為 20 歲,但他喜歡中年人的穿衣風格,在使用 app 購物的時候,表現出的真實偏好為 30-40 歲,對于這樣使用產品時表現出的用戶心智和真實年齡不相符合的用戶,如果只采用上傳的基本屬性,給他推薦年輕人喜歡的物品,是不是很難命中個體用戶的興趣呢?
數據源與計算邏輯:基礎屬性是利用用戶自行上傳的存儲在用戶基礎信息表里的數據,平臺屬性則利用客戶端或者服務端埋點上報采集的用戶行為數據進行挖掘計算生成。基本屬性是典型的直采型標簽,平臺屬性是典型的算法挖掘型標簽。
應用場景:平臺屬性通過用戶行為進行挖掘,更能代表用戶的真實傾向,輸出結果比基本屬性準確率高,在定向營銷和算法里,年齡、性別等通常采用平臺屬性。而社會屬性中電話、身份證、賬號、昵稱等使用較多。
③ 行為屬性
行為屬性記錄的是用戶的全部單點行為,用戶的單點行為包括啟動、登錄、瀏覽、點擊、加車、下單等非常多,而且跟不同的產品,不同的模塊交互,不同的時間窗選取,行為就更加復雜了,如何能夠全面的梳理,可以按照“產品*功能模塊*用戶單點行為 * 時間”四大要素來組織。
④ 產品偏好
產品偏好是對用戶使用某些產品、產品核心功能或者其他渠道的偏好程度的刻畫,屬于挖掘型標簽,其中產品的選取可以包括自家產品、競品;功能和渠道包括站內產品功能,也包括 push、短信、開屏、彈窗等幾大運營和產品法寶。
示例:搜索模塊偏好、直接競品 _ 京東偏好、短信偏好。
⑤ 興趣偏好
興趣偏好是用戶畫像內非常重要的維度,以電商產品為例,用戶對商品的喜愛程度是用戶最終的信息之一,興趣偏好就是對用戶和物品之間的關系進行深度刻畫的重要標簽,其中最典型的要屬品牌偏好、類目偏好和標簽偏好。
⑥ 敏感度
在營銷活動時,我們留意到有些用戶不需要優(yōu)惠也會下單,而有些用戶一定要通過優(yōu)惠券刺激才會轉化,優(yōu)惠券的額度也影響了用戶下單的金額,這種情況下,如何識別對優(yōu)惠敏感的用戶發(fā)放合理的券額的優(yōu)惠券,保證優(yōu)惠券不浪費,去報促銷活動的 ROI 最大,其中一個很重要的標簽就是用戶的敏感度標簽,敏感度代表用戶對平臺活動或者優(yōu)惠的敏感程度,也是典型的挖掘類標簽。
示例:熱點敏感度、折扣敏感度。
⑦ 消費屬性
無論是電商、內容或者其他領域,公司的目標最終都是收益,所以消費屬性往往作為一個單獨的維度重點刻畫。消費屬性包括統計型標簽——消費頻次、消費金額、最近一次消費時間等,也包括挖掘型標簽——消費能力和消費意愿,同時包含敏感度標簽——優(yōu)惠促銷敏感度、活動敏感度、新品敏感度、爆款敏感度等。
⑧ 用戶生命周期及用戶價值
用戶生命周期是用戶運營的重要法典,一個用戶從進入產品到離開,通常會經歷“新手”“成長”“成熟”“衰退”“流失”5 個典型階段,每個階段對用戶運營存在策略差異,畫像在其中的作用是明確標記用戶所處生命周期的階段,便于后續(xù)業(yè)務同學落地。
用戶價值是體現用戶為產品貢獻價值高低的標簽,最經典的是 RFM 模型獲得交易維度標簽,與此同時,也應該看到用戶的其它價值,例如為產品貢獻活躍度,通過裂變拉來新用戶,這些都可設計相應的標簽。
示例:新手、成長、成熟、衰退、流失、高價值用戶、VIP 等級等。
標簽命名規(guī)范:
在確定好標簽后,需要對標簽進行命名,以便于管理。
對一個標簽,可從多個角度來確定唯一名稱。


1、標簽主題
標明屬于哪個類型的標簽,如人口屬性(ATTRITUBE),行為屬性(ACTION),用戶消費(CONSUME),風險控制(RISKMANAGE)等。
2、用戶維度
表明該標簽來源,是用戶唯一標識(userid),還是用戶設備(cookie),一般用U和C區(qū)分。
一般常用userid,因為用戶設備這塊不同操作系統對應的唯一標識可能會有區(qū)別,而且在關聯用戶的時候會比較麻煩。
3、標簽類型
標簽分類,統計型(01)、規(guī)則型(02)、算法型(03)。
4、一級歸類
在每個標簽大類下面,進一步細分的標簽類型。
參照上面的命名方式,舉例用戶的性別標簽:
命名規(guī)則:標簽主題_用戶維度_標簽類型_一級歸類
【男】:ATTRITUBE_U_01_001
【女】:ATTRITUBE_U_01_002
ps: 實際應該全部顯示文本,只有背后實現是字母數字。

最后可以根據標簽數據進行聚合,ER圖如下:

用戶畫像流程

● 用戶畫像基礎
了解和明確用戶畫像包含的模塊,設計數據倉庫架構、開發(fā)流程、表結構,及ETL的設計。主要就是明確大方向的規(guī)劃。
● 數據指標體系
建立數據指標體系,根據業(yè)務線梳理,包括用戶屬性、用戶行為、用戶消費、風險控制等維度的指標體系。
● 標簽數據存儲
設計好數據指標體系后,考慮不同應用場景使用哪種存儲方式。
● 標簽數據開發(fā)
重點模塊。標簽數據開發(fā)包含統計類、規(guī)則雷、挖掘類、流式計算類標簽的開發(fā),以及人群計算功能的開發(fā)。
重點內容:數據調研、和業(yè)務方確認數據口徑、標簽開發(fā)上線。打通畫像數據和各業(yè)務系統之間的路,提供接口服務
● 開發(fā)性能調優(yōu)
標簽數據開發(fā)上線后,為了縮短調度時間、保證數據穩(wěn)定性,需要對標簽腳本、調度腳本進行迭代重構、調優(yōu)。梳理現有標簽開發(fā)、調度、校驗告警、同步到服務層等相關腳本、明確可以優(yōu)化的地方,迭代優(yōu)化
重點內容:減少ETL調度時間,降低調度時的資源消耗。
● 作業(yè)流程調度
標簽加工、人群計算、同步數據和業(yè)務系統、數據監(jiān)控預警腳本開發(fā)完成后,需要調度工具把整套流程調度起來。
重點內容:滿足定式調度、監(jiān)控預警、失敗重試,各調度任務之家的復雜依賴關系。
● 用戶畫像產品化
產品化的模塊包括包括標簽視圖、用戶標簽查詢、用戶分群、透視分析等。
重點內容:滿足業(yè)務方對用戶精準營銷的需求。
● 用戶畫像應用
應用場景包括用戶特征分析、短信郵件、站內信、Push消息的精準推送、用戶圈選等,客戶針對不同用戶的話術、針對高價值用戶的極速退款等高級服務應用等。
重點內容:幫助業(yè)務方理解和應用用戶畫像數據,提高用戶活躍度和GMV。
其中指標體系和標簽體系這兩個重要的點在上面已經介紹完了。后續(xù)主要是標簽流程的開發(fā)和標簽數據的存儲。
標簽完成梳理和命名后,需要維護一張碼表用例記錄標簽id名稱、標簽含義及標簽口徑等主要信息,方便元數據的維護與管理。
用戶畫像的數據存儲的技術選型有多種,不同存儲方式適用于不同場景。主要有Hive、MySQL、HBase、Elasticsearch。
在數倉建模過程中,主要是設計事實表和維度表的建模開發(fā)。
在畫像系統中主要使用Hive作為數據倉庫,開發(fā)相應的事實表和維度表來存儲標簽、人群、應用到服務層的相關數據。
結論
上面文章主要討論的用戶畫像的主要流程,以及用戶畫像最主要的幾個部分。
用戶畫像的底層架構;
用戶畫像的指標定義和篩選;
用戶畫像的標簽體系;
用戶畫像的標簽的命名方式和元數據存儲方式。
系統架構圖:

模型架構圖:

后續(xù)還會更新用戶標簽模型中權重的計算方法(核心算法包括聚類分析、分類算法、時間序列分析、RFM模型、推薦系統算法、關聯分析),以及一些常用的標簽開發(fā)規(guī)范,最后會在展現層實現用戶畫像的使用,例如:用戶圈選、推送等等。
目前業(yè)內最常用的第三方軟件:神策、GrowingIO等都提供了這塊的第三方服務。
推薦閱讀:
不是你需要中臺,而是一名合格的架構師(附各大廠中臺建設PPT)
