淺談Hbase在用戶畫像上的應(yīng)用
背景
用戶畫像,即用戶信息標(biāo)簽化,是大數(shù)據(jù)精細(xì)化運(yùn)營(yíng)和精準(zhǔn)營(yíng)銷服務(wù)的基礎(chǔ)。設(shè)計(jì)從基礎(chǔ)設(shè)施建設(shè)到應(yīng)用層面,主要有數(shù)據(jù)平臺(tái)搭建及運(yùn)維管理、數(shù)據(jù)倉(cāng)庫(kù)開發(fā)、上層應(yīng)用的統(tǒng)計(jì)分析、報(bào)表生成及可視化、用戶畫像建模、個(gè)性化推薦與精準(zhǔn)營(yíng)銷等應(yīng)用方向。
基本流程是:根據(jù)人口學(xué)特征、瀏覽行為&內(nèi)容、社交活動(dòng)和消費(fèi)行為等信息而抽象出的一個(gè)標(biāo)簽化的用戶模型。通過分析用戶的基礎(chǔ)信息、特征偏好、社會(huì)屬性等各維度的數(shù)據(jù),刻畫出用戶的信息全貌,從中挖掘用戶價(jià)值。
用戶畫像的定義并不復(fù)雜,是系統(tǒng)通過用戶自行上傳或埋點(diǎn)上報(bào)收集記錄了用戶大量信息,為便于各業(yè)務(wù)應(yīng)用,將這些信息進(jìn)行沉淀、加工和抽象,形成一個(gè)以用戶標(biāo)志為主 key 的標(biāo)簽樹,用于全面刻畫用戶的屬性和行為信息,這就是用戶畫像。簡(jiǎn)而言之:畫像是由標(biāo)簽樹及末級(jí)標(biāo)簽的標(biāo)簽值構(gòu)成的,全面定量刻畫用戶的結(jié)構(gòu)化信息產(chǎn)品。畫像是標(biāo)簽的總成,用戶標(biāo)簽是具體刻畫用戶的結(jié)構(gòu)化信息。

介紹
基礎(chǔ)處理邏輯架構(gòu):

數(shù)倉(cāng)架構(gòu):

主要覆蓋模塊:

數(shù)據(jù)倉(cāng)庫(kù)ETL加工流程是對(duì)每日的業(yè)務(wù)數(shù)據(jù)、日志數(shù)據(jù)、埋點(diǎn)數(shù)據(jù)等數(shù)據(jù)經(jīng)過ETL過程,加工到對(duì)應(yīng)的原始數(shù)據(jù)層(ODS)、數(shù)據(jù)倉(cāng)庫(kù)(DW)、數(shù)據(jù)集市層(DM)中。
用戶畫像不是產(chǎn)生數(shù)據(jù)的源頭,是經(jīng)過ODS層、DW層、DM層中的數(shù)據(jù)與用戶相關(guān)數(shù)據(jù)的二次建模加工得到的數(shù)據(jù)。
在ETL過程將用戶標(biāo)簽寫入Hive,根據(jù)不同數(shù)據(jù)對(duì)應(yīng)不同數(shù)據(jù)庫(kù)的應(yīng)用場(chǎng)景,再將數(shù)據(jù)同步到MySQL、HBase、Elasticsearch等數(shù)據(jù)庫(kù)中。
Hive:存儲(chǔ)用戶標(biāo)簽、用戶人群及用戶特征庫(kù)的計(jì)算結(jié)果
MySQL:存儲(chǔ)標(biāo)簽元數(shù)據(jù),監(jiān)控相關(guān)數(shù)據(jù),導(dǎo)出到業(yè)務(wù)系統(tǒng)的數(shù)據(jù)
HBase:存儲(chǔ)線上實(shí)時(shí)數(shù)據(jù)
Elasticsearch:支持海量數(shù)據(jù)的實(shí)時(shí)查詢分析
其中用戶畫像最主要的兩個(gè)部分:
用戶指標(biāo)體系
用戶標(biāo)簽體系
指標(biāo)體系:
數(shù)據(jù)指標(biāo)體系是建立用戶畫像的關(guān)鍵環(huán)節(jié),也是在標(biāo)簽開發(fā)前要進(jìn)行的工作,具體來(lái)說就是需要結(jié)合企業(yè)的業(yè)務(wù)情況設(shè)定相關(guān)的指標(biāo)。
通常我們講述的指標(biāo)是指將業(yè)務(wù)單元精分后量化的度量值,譬如:DAU、訂單數(shù)、金額等。當(dāng)然,原子指標(biāo)還會(huì)基于維度、修飾詞、統(tǒng)計(jì)口徑而構(gòu)建出派生指標(biāo)。指標(biāo)的核心意義是它使得業(yè)務(wù)目標(biāo)可描述、可度量、可拆解。
一個(gè)好的指標(biāo)體系設(shè)計(jì),不能說可以規(guī)避掉百分百的問題,但至少讓問題出現(xiàn)時(shí)各方臨危不亂。
首先,業(yè)務(wù)同學(xué)需要對(duì)自己的業(yè)務(wù)有一個(gè)大概的預(yù)判,譬如:在整體的業(yè)務(wù)里程碑上什么時(shí)間點(diǎn)會(huì)有哪些策略動(dòng)作,對(duì)應(yīng)的業(yè)務(wù)體量會(huì)是多大。與此同時(shí)也提前去預(yù)知大概會(huì)監(jiān)控哪些指標(biāo),從哪些維度拆解等
其次,在有了初步預(yù)判之后與團(tuán)隊(duì)技術(shù)溝通,與數(shù)據(jù)團(tuán)隊(duì)溝通,盡量讓各方信息對(duì)稱。這樣的好處是我們能盡量提前將指標(biāo)體系設(shè)計(jì)得不重不漏、條理清晰。同時(shí)技術(shù)團(tuán)隊(duì)也會(huì)有所準(zhǔn)備,在做數(shù)據(jù)底層設(shè)計(jì)時(shí)多去考慮其穩(wěn)定性、擴(kuò)展性等。
1、明確業(yè)務(wù)是什么
在搭建指標(biāo)體系之前,需要明確自己的業(yè)務(wù)是什么?公司整體的目標(biāo)是什么?在產(chǎn)品實(shí)現(xiàn)上,如何幫助用戶解決問題?
譬如像:電商C2C企業(yè),業(yè)務(wù)本質(zhì)上要解決的是需求「匹配」和「匹配效率」的問題,是一個(gè)不斷豐富供給和滿足需要的過程。目標(biāo)上會(huì)去追求實(shí)現(xiàn)更多用戶的雙邊關(guān)系需要,對(duì)應(yīng)到數(shù)據(jù)去看會(huì)衍生出「DAU」、「訂單」、「GMV」等戰(zhàn)略指標(biāo)。
2、按業(yè)務(wù)大盤拆解
根據(jù)企業(yè)戰(zhàn)略目標(biāo),按照業(yè)務(wù)大盤的方式拆解數(shù)據(jù)指標(biāo)體系,在業(yè)內(nèi)有個(gè)有名的方法論AARRR(也叫海盜指標(biāo)法,Acquisition用戶獲取、Activation用戶活躍、Retention用戶留存、Revenue營(yíng)收、Refer傳播),整體的拆分邏輯是「獲取→活躍→留存→營(yíng)收→傳播」,觀察其在業(yè)務(wù)主流程上,不同階段實(shí)現(xiàn)用戶側(cè)買家和賣家需求時(shí),用戶會(huì)做什么、產(chǎn)生哪些數(shù)據(jù)、我們需要監(jiān)控哪些數(shù)據(jù)。
3、第一關(guān)鍵指標(biāo)
“第一關(guān)鍵指標(biāo)”指的是當(dāng)前階段無(wú)比重要的第一指標(biāo),同時(shí)也指出了在創(chuàng)業(yè)階段的任意時(shí)間點(diǎn)上應(yīng)該且只關(guān)注一項(xiàng)重要指標(biāo)。這套理論在我們?nèi)タ己瞬煌瑘F(tuán)隊(duì)的時(shí)候同樣有借鑒意義,公司當(dāng)前階段的“第一關(guān)鍵指標(biāo)”拆解到不同部門之后,就成了各部門的“第一關(guān)鍵指標(biāo)”,也是團(tuán)隊(duì)的考核度量(OKR或KPI)
例如:訂單體系

數(shù)據(jù)指標(biāo)體系設(shè)計(jì)流程:

注意:模型未動(dòng) , 指標(biāo)先行。
常見C端的指標(biāo)模型:

標(biāo)簽體系:
在我們建立用戶標(biāo)簽時(shí),首先要明確基于哪種維度去建立標(biāo)簽。
一般除了基于用戶維度(userid)建立用戶標(biāo)簽體系外,還有基于設(shè)備維度(cookieid)建立相應(yīng)的標(biāo)簽體系,當(dāng)用戶沒有登錄設(shè)備時(shí),就需要這個(gè)維度。當(dāng)然這兩個(gè)維度還可以進(jìn)行關(guān)聯(lián)。而兩者的關(guān)聯(lián)就是需要ID-Mapping算法來(lái)解決,這也是一個(gè)非常復(fù)雜的算法。更多的時(shí)候我們還是以用戶的唯一標(biāo)識(shí)來(lái)建立用戶畫像。
用戶指標(biāo)體系和用戶標(biāo)簽體系的最大的區(qū)別是:用戶指標(biāo)是我們定義的一系列和業(yè)務(wù)相關(guān)的統(tǒng)計(jì)指標(biāo),而標(biāo)簽是在指標(biāo)上面的一層聚合和模型的定義。雖然可以定義成千上萬(wàn)個(gè)指標(biāo),但是可能多個(gè)指標(biāo)的聚合才能對(duì)用戶的某個(gè)維度進(jìn)行打標(biāo)簽。而且標(biāo)簽是分層級(jí)的,可以為標(biāo)簽建模提供標(biāo)簽子集,梳理某類別的子分類時(shí),盡可能的遵循MECE原則(相互獨(dú)立、完全窮盡),最后要依據(jù)標(biāo)簽的相識(shí)度,標(biāo)簽的權(quán)重,以及標(biāo)簽的組合去圈選用戶,做精確化營(yíng)銷或者推送。
用戶畫像指標(biāo)體系和標(biāo)簽分類從兩個(gè)不同角度來(lái)梳理標(biāo)簽,用戶畫像指標(biāo)體系偏戰(zhàn)略和應(yīng)用,標(biāo)簽分類偏管理和技術(shù)實(shí)現(xiàn)側(cè)。
例如:

一個(gè)比較成熟的畫像系統(tǒng),會(huì)有成千上百的標(biāo)簽,這些標(biāo)簽的生產(chǎn)不是一次完成的,而是隨著業(yè)務(wù)的發(fā)展需要,逐步補(bǔ)充完善,最終呈現(xiàn)在大家眼前的就是一棵龐大的標(biāo)簽樹。所以在前期最重要的仍然是搭好畫像骨架,確保后續(xù)的發(fā)展過程中,依然保持清晰的結(jié)構(gòu)和高延展性。相反的,如果一開始為了搶時(shí)間,將大量標(biāo)簽無(wú)序的堆在線上,后期管理和使用的難度會(huì)迅速凸顯出來(lái),重構(gòu)的代價(jià)巨大。
一個(gè)好的標(biāo)簽樹結(jié)構(gòu)要滿足兩個(gè)條件,“高概括性”和“強(qiáng)延展性”,高概括性意味著結(jié)構(gòu)體系能夠很好的包含一個(gè)用戶的基本屬性和產(chǎn)品交互的相關(guān)行為,同時(shí)對(duì)于業(yè)務(wù)重點(diǎn)單獨(dú)強(qiáng)調(diào),沒有遺漏;“強(qiáng)延展性”意味著結(jié)構(gòu)全面的同時(shí)也有一定的抽象概括能力,保證新增的標(biāo)簽可以很好的找到對(duì)應(yīng)的分類,整個(gè)體系不會(huì)過于收斂局限。
從對(duì)用戶打標(biāo)簽的方式來(lái)看,一般分為三種類型:1、基于統(tǒng)計(jì)類的標(biāo)簽;2、基于規(guī)則類的標(biāo)簽、3、基于挖掘類的標(biāo)簽。下面我們介紹這三種類型標(biāo)簽的區(qū)別:
統(tǒng)計(jì)類標(biāo)簽:這類標(biāo)簽是最為基礎(chǔ)也最為常見的標(biāo)簽類型,例如對(duì)于某個(gè)用戶來(lái)說,他的性別、年齡、城市、星座、近7日活躍時(shí)長(zhǎng)、近7日活躍天數(shù)、近7日活躍次數(shù)等字段可以從用戶注冊(cè)數(shù)據(jù)、用戶訪問、消費(fèi)類數(shù)據(jù)中統(tǒng)計(jì)得出。該類標(biāo)簽構(gòu)成了用戶畫像的基礎(chǔ);
規(guī)則類標(biāo)簽:該類標(biāo)簽基于用戶行為及確定的規(guī)則產(chǎn)生。例如對(duì)平臺(tái)上“消費(fèi)活躍”用戶這一口徑的定義為近30天交易次數(shù)>=2。在實(shí)際開發(fā)畫像的過程中,由于運(yùn)營(yíng)人員對(duì)業(yè)務(wù)更為熟悉、而數(shù)據(jù)人員對(duì)數(shù)據(jù)的結(jié)構(gòu)、分布、特征更為熟悉,因此規(guī)則類標(biāo)簽的規(guī)則確定由運(yùn)營(yíng)人員和數(shù)據(jù)人員共同協(xié)商確定;
機(jī)器學(xué)習(xí)挖掘類標(biāo)簽:該類標(biāo)簽通過數(shù)據(jù)挖掘產(chǎn)生,應(yīng)用在對(duì)用戶的某些屬性或某些行為進(jìn)行預(yù)測(cè)判斷。例如根據(jù)一個(gè)用戶的行為習(xí)慣判斷該用戶是男性還是女性,根據(jù)一個(gè)用戶的消費(fèi)習(xí)慣判斷其對(duì)某商品的偏好程度。該類標(biāo)簽需要通過算法挖掘產(chǎn)生。
畫像通常從八個(gè)維度組織標(biāo)簽,分別為:基本屬性、平臺(tái)屬性、行為屬性、產(chǎn)品偏好、興趣偏好、敏感度、消費(fèi)屬性、用戶生命周期及用戶價(jià)值,每個(gè)維度再分成二級(jí)標(biāo)簽、三級(jí)標(biāo)簽等。

① 基本屬性
基本屬性是指一個(gè)用戶的基本社會(huì)屬性和變更頻率低的平臺(tái)特征,例如真實(shí)社會(huì)年齡、性別、婚姻狀況、昵稱、號(hào)碼、賬號(hào)、lbs 等標(biāo)簽。這些標(biāo)簽類型多為直采型,可從用戶基本信息表中直接獲取,不需要統(tǒng)計(jì)或者算法挖掘。
② 平臺(tái)屬性
平臺(tái)屬性是用戶在平臺(tái)上表現(xiàn)出的基本屬性特征,是利用用戶行為進(jìn)行算法挖掘,標(biāo)識(shí)用戶真實(shí)屬性的標(biāo)簽。
最典型的平臺(tái)屬性標(biāo)簽例如平臺(tái)年齡標(biāo)簽,這里就有一個(gè)疑問,為什么在用戶的基礎(chǔ)屬性中已經(jīng)有年齡標(biāo)簽,但在平臺(tái)屬性中重復(fù)又有一個(gè)呢,這里就涉及兩者之間的差別。設(shè)想一個(gè)真實(shí)的場(chǎng)景:一個(gè)用戶社會(huì)身份為 20 歲,但他喜歡中年人的穿衣風(fēng)格,在使用 app 購(gòu)物的時(shí)候,表現(xiàn)出的真實(shí)偏好為 30-40 歲,對(duì)于這樣使用產(chǎn)品時(shí)表現(xiàn)出的用戶心智和真實(shí)年齡不相符合的用戶,如果只采用上傳的基本屬性,給他推薦年輕人喜歡的物品,是不是很難命中個(gè)體用戶的興趣呢?
數(shù)據(jù)源與計(jì)算邏輯:基礎(chǔ)屬性是利用用戶自行上傳的存儲(chǔ)在用戶基礎(chǔ)信息表里的數(shù)據(jù),平臺(tái)屬性則利用客戶端或者服務(wù)端埋點(diǎn)上報(bào)采集的用戶行為數(shù)據(jù)進(jìn)行挖掘計(jì)算生成。基本屬性是典型的直采型標(biāo)簽,平臺(tái)屬性是典型的算法挖掘型標(biāo)簽。
應(yīng)用場(chǎng)景:平臺(tái)屬性通過用戶行為進(jìn)行挖掘,更能代表用戶的真實(shí)傾向,輸出結(jié)果比基本屬性準(zhǔn)確率高,在定向營(yíng)銷和算法里,年齡、性別等通常采用平臺(tái)屬性。而社會(huì)屬性中電話、身份證、賬號(hào)、昵稱等使用較多。
③ 行為屬性
行為屬性記錄的是用戶的全部單點(diǎn)行為,用戶的單點(diǎn)行為包括啟動(dòng)、登錄、瀏覽、點(diǎn)擊、加車、下單等非常多,而且跟不同的產(chǎn)品,不同的模塊交互,不同的時(shí)間窗選取,行為就更加復(fù)雜了,如何能夠全面的梳理,可以按照“產(chǎn)品*功能模塊*用戶單點(diǎn)行為 * 時(shí)間”四大要素來(lái)組織。
④ 產(chǎn)品偏好
產(chǎn)品偏好是對(duì)用戶使用某些產(chǎn)品、產(chǎn)品核心功能或者其他渠道的偏好程度的刻畫,屬于挖掘型標(biāo)簽,其中產(chǎn)品的選取可以包括自家產(chǎn)品、競(jìng)品;功能和渠道包括站內(nèi)產(chǎn)品功能,也包括 push、短信、開屏、彈窗等幾大運(yùn)營(yíng)和產(chǎn)品法寶。
示例:搜索模塊偏好、直接競(jìng)品 _ 京東偏好、短信偏好。
⑤ 興趣偏好
興趣偏好是用戶畫像內(nèi)非常重要的維度,以電商產(chǎn)品為例,用戶對(duì)商品的喜愛程度是用戶最終的信息之一,興趣偏好就是對(duì)用戶和物品之間的關(guān)系進(jìn)行深度刻畫的重要標(biāo)簽,其中最典型的要屬品牌偏好、類目偏好和標(biāo)簽偏好。
⑥ 敏感度
在營(yíng)銷活動(dòng)時(shí),我們留意到有些用戶不需要優(yōu)惠也會(huì)下單,而有些用戶一定要通過優(yōu)惠券刺激才會(huì)轉(zhuǎn)化,優(yōu)惠券的額度也影響了用戶下單的金額,這種情況下,如何識(shí)別對(duì)優(yōu)惠敏感的用戶發(fā)放合理的券額的優(yōu)惠券,保證優(yōu)惠券不浪費(fèi),去報(bào)促銷活動(dòng)的 ROI 最大,其中一個(gè)很重要的標(biāo)簽就是用戶的敏感度標(biāo)簽,敏感度代表用戶對(duì)平臺(tái)活動(dòng)或者優(yōu)惠的敏感程度,也是典型的挖掘類標(biāo)簽。
示例:熱點(diǎn)敏感度、折扣敏感度。
⑦ 消費(fèi)屬性
無(wú)論是電商、內(nèi)容或者其他領(lǐng)域,公司的目標(biāo)最終都是收益,所以消費(fèi)屬性往往作為一個(gè)單獨(dú)的維度重點(diǎn)刻畫。消費(fèi)屬性包括統(tǒng)計(jì)型標(biāo)簽——消費(fèi)頻次、消費(fèi)金額、最近一次消費(fèi)時(shí)間等,也包括挖掘型標(biāo)簽——消費(fèi)能力和消費(fèi)意愿,同時(shí)包含敏感度標(biāo)簽——優(yōu)惠促銷敏感度、活動(dòng)敏感度、新品敏感度、爆款敏感度等。
⑧ 用戶生命周期及用戶價(jià)值
用戶生命周期是用戶運(yùn)營(yíng)的重要法典,一個(gè)用戶從進(jìn)入產(chǎn)品到離開,通常會(huì)經(jīng)歷“新手”“成長(zhǎng)”“成熟”“衰退”“流失”5 個(gè)典型階段,每個(gè)階段對(duì)用戶運(yùn)營(yíng)存在策略差異,畫像在其中的作用是明確標(biāo)記用戶所處生命周期的階段,便于后續(xù)業(yè)務(wù)同學(xué)落地。
用戶價(jià)值是體現(xiàn)用戶為產(chǎn)品貢獻(xiàn)價(jià)值高低的標(biāo)簽,最經(jīng)典的是 RFM 模型獲得交易維度標(biāo)簽,與此同時(shí),也應(yīng)該看到用戶的其它價(jià)值,例如為產(chǎn)品貢獻(xiàn)活躍度,通過裂變拉來(lái)新用戶,這些都可設(shè)計(jì)相應(yīng)的標(biāo)簽。
示例:新手、成長(zhǎng)、成熟、衰退、流失、高價(jià)值用戶、VIP 等級(jí)等。
標(biāo)簽命名規(guī)范:
在確定好標(biāo)簽后,需要對(duì)標(biāo)簽進(jìn)行命名,以便于管理。
對(duì)一個(gè)標(biāo)簽,可從多個(gè)角度來(lái)確定唯一名稱。


1、標(biāo)簽主題
標(biāo)明屬于哪個(gè)類型的標(biāo)簽,如人口屬性(ATTRITUBE),行為屬性(ACTION),用戶消費(fèi)(CONSUME),風(fēng)險(xiǎn)控制(RISKMANAGE)等。
2、用戶維度
表明該標(biāo)簽來(lái)源,是用戶唯一標(biāo)識(shí)(userid),還是用戶設(shè)備(cookie),一般用U和C區(qū)分。
一般常用userid,因?yàn)橛脩粼O(shè)備這塊不同操作系統(tǒng)對(duì)應(yīng)的唯一標(biāo)識(shí)可能會(huì)有區(qū)別,而且在關(guān)聯(lián)用戶的時(shí)候會(huì)比較麻煩。
3、標(biāo)簽類型
標(biāo)簽分類,統(tǒng)計(jì)型(01)、規(guī)則型(02)、算法型(03)。
4、一級(jí)歸類
在每個(gè)標(biāo)簽大類下面,進(jìn)一步細(xì)分的標(biāo)簽類型。
參照上面的命名方式,舉例用戶的性別標(biāo)簽:
命名規(guī)則:標(biāo)簽主題_用戶維度_標(biāo)簽類型_一級(jí)歸類
【男】:ATTRITUBE_U_01_001
【女】:ATTRITUBE_U_01_002
ps: 實(shí)際應(yīng)該全部顯示文本,只有背后實(shí)現(xiàn)是字母數(shù)字。

最后可以根據(jù)標(biāo)簽數(shù)據(jù)進(jìn)行聚合,ER圖如下:

用戶畫像流程

● 用戶畫像基礎(chǔ)
了解和明確用戶畫像包含的模塊,設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)、開發(fā)流程、表結(jié)構(gòu),及ETL的設(shè)計(jì)。主要就是明確大方向的規(guī)劃。
● 數(shù)據(jù)指標(biāo)體系
建立數(shù)據(jù)指標(biāo)體系,根據(jù)業(yè)務(wù)線梳理,包括用戶屬性、用戶行為、用戶消費(fèi)、風(fēng)險(xiǎn)控制等維度的指標(biāo)體系。
● 標(biāo)簽數(shù)據(jù)存儲(chǔ)
設(shè)計(jì)好數(shù)據(jù)指標(biāo)體系后,考慮不同應(yīng)用場(chǎng)景使用哪種存儲(chǔ)方式。
● 標(biāo)簽數(shù)據(jù)開發(fā)
重點(diǎn)模塊。標(biāo)簽數(shù)據(jù)開發(fā)包含統(tǒng)計(jì)類、規(guī)則雷、挖掘類、流式計(jì)算類標(biāo)簽的開發(fā),以及人群計(jì)算功能的開發(fā)。
重點(diǎn)內(nèi)容:數(shù)據(jù)調(diào)研、和業(yè)務(wù)方確認(rèn)數(shù)據(jù)口徑、標(biāo)簽開發(fā)上線。打通畫像數(shù)據(jù)和各業(yè)務(wù)系統(tǒng)之間的路,提供接口服務(wù)
● 開發(fā)性能調(diào)優(yōu)
標(biāo)簽數(shù)據(jù)開發(fā)上線后,為了縮短調(diào)度時(shí)間、保證數(shù)據(jù)穩(wěn)定性,需要對(duì)標(biāo)簽?zāi)_本、調(diào)度腳本進(jìn)行迭代重構(gòu)、調(diào)優(yōu)。梳理現(xiàn)有標(biāo)簽開發(fā)、調(diào)度、校驗(yàn)告警、同步到服務(wù)層等相關(guān)腳本、明確可以優(yōu)化的地方,迭代優(yōu)化
重點(diǎn)內(nèi)容:減少ETL調(diào)度時(shí)間,降低調(diào)度時(shí)的資源消耗。
● 作業(yè)流程調(diào)度
標(biāo)簽加工、人群計(jì)算、同步數(shù)據(jù)和業(yè)務(wù)系統(tǒng)、數(shù)據(jù)監(jiān)控預(yù)警腳本開發(fā)完成后,需要調(diào)度工具把整套流程調(diào)度起來(lái)。
重點(diǎn)內(nèi)容:滿足定式調(diào)度、監(jiān)控預(yù)警、失敗重試,各調(diào)度任務(wù)之家的復(fù)雜依賴關(guān)系。
● 用戶畫像產(chǎn)品化
產(chǎn)品化的模塊包括包括標(biāo)簽視圖、用戶標(biāo)簽查詢、用戶分群、透視分析等。
重點(diǎn)內(nèi)容:滿足業(yè)務(wù)方對(duì)用戶精準(zhǔn)營(yíng)銷的需求。
● 用戶畫像應(yīng)用
應(yīng)用場(chǎng)景包括用戶特征分析、短信郵件、站內(nèi)信、Push消息的精準(zhǔn)推送、用戶圈選等,客戶針對(duì)不同用戶的話術(shù)、針對(duì)高價(jià)值用戶的極速退款等高級(jí)服務(wù)應(yīng)用等。
重點(diǎn)內(nèi)容:幫助業(yè)務(wù)方理解和應(yīng)用用戶畫像數(shù)據(jù),提高用戶活躍度和GMV。
其中指標(biāo)體系和標(biāo)簽體系這兩個(gè)重要的點(diǎn)在上面已經(jīng)介紹完了。后續(xù)主要是標(biāo)簽流程的開發(fā)和標(biāo)簽數(shù)據(jù)的存儲(chǔ)。
標(biāo)簽完成梳理和命名后,需要維護(hù)一張碼表用例記錄標(biāo)簽id名稱、標(biāo)簽含義及標(biāo)簽口徑等主要信息,方便元數(shù)據(jù)的維護(hù)與管理。
用戶畫像的數(shù)據(jù)存儲(chǔ)的技術(shù)選型有多種,不同存儲(chǔ)方式適用于不同場(chǎng)景。主要有Hive、MySQL、HBase、Elasticsearch。
在數(shù)倉(cāng)建模過程中,主要是設(shè)計(jì)事實(shí)表和維度表的建模開發(fā)。
在畫像系統(tǒng)中主要使用Hive作為數(shù)據(jù)倉(cāng)庫(kù),開發(fā)相應(yīng)的事實(shí)表和維度表來(lái)存儲(chǔ)標(biāo)簽、人群、應(yīng)用到服務(wù)層的相關(guān)數(shù)據(jù)。
結(jié)論
上面文章主要討論的用戶畫像的主要流程,以及用戶畫像最主要的幾個(gè)部分。
用戶畫像的底層架構(gòu);
用戶畫像的指標(biāo)定義和篩選;
用戶畫像的標(biāo)簽體系;
用戶畫像的標(biāo)簽的命名方式和元數(shù)據(jù)存儲(chǔ)方式。
系統(tǒng)架構(gòu)圖:

模型架構(gòu)圖:

后續(xù)還會(huì)更新用戶標(biāo)簽?zāi)P椭袡?quán)重的計(jì)算方法(核心算法包括聚類分析、分類算法、時(shí)間序列分析、RFM模型、推薦系統(tǒng)算法、關(guān)聯(lián)分析),以及一些常用的標(biāo)簽開發(fā)規(guī)范,最后會(huì)在展現(xiàn)層實(shí)現(xiàn)用戶畫像的使用,例如:用戶圈選、推送等等。
目前業(yè)內(nèi)最常用的第三方軟件:神策、GrowingIO等都提供了這塊的第三方服務(wù)。
