用戶畫像小百科全書數(shù)據(jù)管道關(guān)注共 7254字,需瀏覽 15分鐘 ·2020-08-31 17:42 點(diǎn)擊上方“數(shù)據(jù)管道”,選擇“置頂星標(biāo)”公眾號(hào)干貨福利,第一時(shí)間送達(dá)來(lái)源:http://suo.im/6aVjHQ一、 什么是用戶畫像用戶畫像是指根據(jù)用戶的屬性、用戶偏好、生活習(xí)慣、用戶行為等信息而抽象出來(lái)的標(biāo)簽化用戶模型。通俗說(shuō)就是給用戶打標(biāo)簽,而標(biāo)簽是通過(guò)對(duì)用戶信息分析而來(lái)的高度精煉的特征標(biāo)識(shí)。通過(guò)打標(biāo)簽可以利用一些高度概括、容易理解的特征來(lái)描述用戶,可以讓人更容易理解用戶,并且可以方便計(jì)算機(jī)處理。用戶畫像是對(duì)現(xiàn)實(shí)世界中用戶的建模,用戶畫像應(yīng)該包含目標(biāo),方式,組織,標(biāo)準(zhǔn),驗(yàn)證這5個(gè)方面。目標(biāo):指的是描述人,認(rèn)識(shí)人,了解人,理解人。方式:又分為非形式化手段,如使用文字、語(yǔ)言、圖像、視頻等方式描述人;形式化手段,即使用數(shù)據(jù)的方式來(lái)刻畫人物的畫像。組織:指的是結(jié)構(gòu)化、非結(jié)構(gòu)化的組織形式。標(biāo)準(zhǔn):指的是使用常識(shí)、共識(shí)、知識(shí)體系的漸進(jìn)過(guò)程來(lái)刻畫人物,認(rèn)識(shí)了解用戶。驗(yàn)證:依據(jù)側(cè)重說(shuō)明了用戶畫像應(yīng)該來(lái)源事實(shí)、經(jīng)得起推理和檢驗(yàn)。在產(chǎn)品早期和發(fā)展期,會(huì)較多地借助用戶畫像,幫助產(chǎn)品人員理解用戶的需求,想象用戶使用的場(chǎng)景,產(chǎn)品設(shè)計(jì)從為所有人做產(chǎn)品變成為三四個(gè)人做產(chǎn)品,間接的降低復(fù)雜度。二、 用戶畫像的作用在互聯(lián)網(wǎng)、電商領(lǐng)域用戶畫像常用來(lái)作為精準(zhǔn)營(yíng)銷、推薦系統(tǒng)的基礎(chǔ)性工作,其作用總體包括:(1)精準(zhǔn)營(yíng)銷:根據(jù)歷史用戶特征,分析產(chǎn)品的潛在用戶和用戶的潛在需求,針對(duì)特定群體,利用短信、郵件等方式進(jìn)行營(yíng)銷。(2)用戶統(tǒng)計(jì):根據(jù)用戶的屬性、行為特征對(duì)用戶進(jìn)行分類后,統(tǒng)計(jì)不同特征下的用戶數(shù)量、分布;分析不同用戶畫像群體的分布特征。(3)數(shù)據(jù)挖掘:以用戶畫像為基礎(chǔ)構(gòu)建推薦系統(tǒng)、搜索引擎、廣告投放系統(tǒng),提升服務(wù)精準(zhǔn)度。(4)服務(wù)產(chǎn)品:對(duì)產(chǎn)品進(jìn)行用戶畫像,對(duì)產(chǎn)品進(jìn)行受眾分析,更透徹地理解用戶使用產(chǎn)品的心理動(dòng)機(jī)和行為習(xí)慣,完善產(chǎn)品運(yùn)營(yíng),提升服務(wù)質(zhì)量。(5)行業(yè)報(bào)告&用戶研究:通過(guò)用戶畫像分析可以了解行業(yè)動(dòng)態(tài),比如人群消費(fèi)習(xí)慣、消費(fèi)偏好分析、不同地域品類消費(fèi)差異分析根據(jù)用戶畫像的作用可以看出,用戶畫像的使用場(chǎng)景較多,用戶畫像可以用來(lái)挖掘用戶興趣、偏好、人口統(tǒng)計(jì)學(xué)特征,主要目的是提升營(yíng)銷精準(zhǔn)度、推薦匹配度,終極目的是提升產(chǎn)品服務(wù),起到提升企業(yè)利潤(rùn)。用戶畫像適合于各個(gè)產(chǎn)品周期:從新用戶的引流到潛在用戶的挖掘、從老用戶的培養(yǎng)到流失用戶的回流等。總結(jié)來(lái)說(shuō),用戶畫像必須從實(shí)際業(yè)務(wù)場(chǎng)景出發(fā),解決實(shí)際的業(yè)務(wù)問(wèn)題,之所以進(jìn)行用戶畫像,要么是獲取新用戶,要么是提升用戶體驗(yàn)、或者挽回流失用戶等具有明確的業(yè)務(wù)目標(biāo)。另外關(guān)于用戶畫像數(shù)據(jù)維度的問(wèn)題,并不是說(shuō)數(shù)據(jù)維度越豐富越好,總之,畫像維度的設(shè)計(jì)同樣需要緊跟業(yè)務(wù)實(shí)際情況進(jìn)行開(kāi)展。三、?用戶畫像的分類從畫像方法來(lái)說(shuō),可以分為定性畫像、定性+定量畫像、定量畫像從應(yīng)用角度來(lái)看,可以分為行為畫像、健康畫像、企業(yè)信用畫像、個(gè)人信用畫像、靜態(tài)產(chǎn)品畫像、旋轉(zhuǎn)設(shè)備畫像、社會(huì)畫像和經(jīng)濟(jì)畫像等。四、 用戶畫像需要用到哪些數(shù)據(jù)一般來(lái)說(shuō),根據(jù)具體的業(yè)務(wù)內(nèi)容,會(huì)有不同的數(shù)據(jù),不同的業(yè)務(wù)目標(biāo),也會(huì)使用不同的數(shù)據(jù)。在互聯(lián)網(wǎng)領(lǐng)域,用戶畫像數(shù)據(jù)可以包括以下內(nèi)容:(1)人口屬性:包括性別、年齡等人的基本信息(2)興趣特征:瀏覽內(nèi)容、收藏內(nèi)容、閱讀咨詢、購(gòu)買物品偏好等(3)消費(fèi)特征:與消費(fèi)相關(guān)的特征(4)位置特征:用戶所處城市、所處居住區(qū)域、用戶移動(dòng)軌跡等(5)設(shè)備屬性:使用的終端特征等(6)行為數(shù)據(jù):訪問(wèn)時(shí)間、瀏覽路徑等用戶在網(wǎng)站的行為日志數(shù)據(jù)(7)社交數(shù)據(jù):用戶社交相關(guān)數(shù)據(jù)用戶畫像數(shù)據(jù)來(lái)源廣泛,這些數(shù)據(jù)是全方位了解用戶的基礎(chǔ),這里以Qunar的畫像為例,其畫像數(shù)據(jù)主要維度如下所示,包括用戶RFM信息、航線信息等。Qunar的畫像數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建都是基于Qunar基礎(chǔ)數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建,然后按照維度進(jìn)行劃分。五、?用戶畫像主要應(yīng)用場(chǎng)景a)用戶屬性b)用戶標(biāo)簽畫像c)用戶偏好畫像d)用戶流失e)用戶行為f)產(chǎn)品設(shè)計(jì)g)?個(gè)性化推薦、廣告系統(tǒng)、活動(dòng)營(yíng)銷、內(nèi)容推薦、興趣偏好六、?用戶畫像使用的技術(shù)方法靜態(tài)和動(dòng)態(tài)的劃分,其實(shí)是根據(jù)某個(gè)維度來(lái)定的,或者是在某個(gè)時(shí)間窗口內(nèi)的。靜態(tài)畫像一般是實(shí)時(shí)性弱更新慢;動(dòng)態(tài)畫像變化相對(duì)更快一些,可以在時(shí)效性、空間上有差異。不同的行業(yè),不同的業(yè)務(wù),也會(huì)有不一樣的構(gòu)建目標(biāo)和方式。在這個(gè)過(guò)程中,通過(guò)業(yè)務(wù)應(yīng)用的要素分析,去驅(qū)動(dòng)標(biāo)簽維度的擴(kuò)展,然后通過(guò)標(biāo)簽維度的擴(kuò)展。然后我又可以去驅(qū)動(dòng)業(yè)務(wù)。七、 用戶畫像標(biāo)簽體系的建立1、什么是標(biāo)簽體系用戶畫像是對(duì)現(xiàn)實(shí)用戶做的一個(gè)數(shù)學(xué)模型,在整個(gè)數(shù)學(xué)模型中,核心是怎么描述業(yè)務(wù)知識(shí)體系,而這個(gè)業(yè)務(wù)知識(shí)體系就是本體論,本體論很復(fù)雜,我們找到一個(gè)特別樸素的實(shí)現(xiàn),就是標(biāo)簽。標(biāo)簽是某一種用戶特征的符號(hào)表示。是一種內(nèi)容組織方式,是一種關(guān)聯(lián)性很強(qiáng)的關(guān)鍵字,能方便的幫助我們找到合適的內(nèi)容及內(nèi)容分類。(注:簡(jiǎn)單說(shuō),就是你把用戶分到多少個(gè)類別里面去,這些類是什么,彼此之間有什么關(guān)系,就構(gòu)成了標(biāo)簽體系)標(biāo)簽解決的是描述(或命名)問(wèn)題,但在實(shí)際應(yīng)用中,還需要解決數(shù)據(jù)之間的關(guān)聯(lián),所以通常將標(biāo)簽作為一個(gè)體系來(lái)設(shè)計(jì),以解決數(shù)據(jù)之間的關(guān)聯(lián)問(wèn)題。一般來(lái)說(shuō),將能關(guān)聯(lián)到具體用戶數(shù)據(jù)的標(biāo)簽,稱為葉子標(biāo)簽。對(duì)葉子標(biāo)簽進(jìn)行分類匯總的標(biāo)簽,稱為父標(biāo)簽。父標(biāo)簽和葉子標(biāo)簽共同構(gòu)成標(biāo)簽體系,但兩者是相對(duì)概念。例如:下表中,地市、型號(hào)在標(biāo)簽體系中相對(duì)于省份、品牌,是葉子標(biāo)簽。用戶畫像標(biāo)簽體系創(chuàng)建后一般要包含以下幾個(gè)方面的內(nèi)容(1)標(biāo)簽分類用戶畫像標(biāo)簽可以分為基礎(chǔ)屬性標(biāo)簽和行為屬性標(biāo)簽。由于基于一個(gè)目標(biāo)的畫像,其標(biāo)簽是在動(dòng)態(tài)擴(kuò)展的,所以其標(biāo)簽體系也沒(méi)有統(tǒng)一的模板,在大分類上,與自身的業(yè)務(wù)特征有很大的關(guān)聯(lián),在整體思路上可以從橫縱兩個(gè)維度展開(kāi)思考:橫向是產(chǎn)品內(nèi)數(shù)據(jù)和產(chǎn)品外數(shù)據(jù),縱向是線上數(shù)據(jù)和線下數(shù)據(jù)。而正中間則是永恒不變的“人物基礎(chǔ)屬性”。如果說(shuō)其他的分類因企業(yè)特征而定,那么只有人物特征屬性(至于名字叫什么不重要,關(guān)鍵是內(nèi)涵)是各家企業(yè)不能缺失的板塊。所謂人物基礎(chǔ)屬性指的是:用戶客觀的屬性而非用戶自我表達(dá)的屬性,也就是描述用戶真實(shí)人口屬性的標(biāo)簽。所謂非“自我表達(dá)”,舉例來(lái)說(shuō),某產(chǎn)品內(nèi)個(gè)人信息有性別一項(xiàng),用戶填寫為“女”,而通過(guò)用戶上傳的身份證號(hào),以及用戶照片,用戶購(gòu)買的產(chǎn)品,甚至用戶打來(lái)的客服電話,都發(fā)現(xiàn)該用戶性別是“男性”。那么在人物基礎(chǔ)屬性中的性別,應(yīng)該標(biāo)識(shí)的是“男性”,但是用戶信息標(biāo)簽部分,自我描述的性別則可能標(biāo)注為女性。(2)標(biāo)簽級(jí)別(標(biāo)簽的體系結(jié)構(gòu))分級(jí)有兩個(gè)層面的含義,其一是:指標(biāo)到最低層級(jí)的涵蓋的層級(jí);其二是指:指標(biāo)的運(yùn)算層級(jí)。其一非常好理解,這里重點(diǎn)說(shuō)運(yùn)算層級(jí)。標(biāo)簽從運(yùn)算層級(jí)角度可以分為三層:事實(shí)標(biāo)簽、模型標(biāo)簽、預(yù)測(cè)標(biāo)簽。事實(shí)標(biāo)簽:是通過(guò)對(duì)于原始數(shù)據(jù)庫(kù)的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析而來(lái)的,比如用戶投訴次數(shù),是基于用戶一段時(shí)間內(nèi)實(shí)際投訴的行為做的統(tǒng)計(jì)。模型標(biāo)簽:模型標(biāo)簽是以事實(shí)標(biāo)簽為基礎(chǔ),通過(guò)構(gòu)建事實(shí)標(biāo)簽與業(yè)務(wù)問(wèn)題之間的模型,進(jìn)行模型分析得到。比如,結(jié)合用戶實(shí)際投訴次數(shù)、用戶購(gòu)買品類、用戶支付的金額等,進(jìn)行用戶投訴傾向類型的識(shí)別,方便客服進(jìn)行分類處理。預(yù)測(cè)標(biāo)簽:則是在模型的基礎(chǔ)上做預(yù)測(cè),比如針對(duì)投訴傾向類型結(jié)構(gòu)的變化,預(yù)測(cè)平臺(tái)輿情風(fēng)險(xiǎn)指數(shù)。(3)標(biāo)簽命名&賦值我們用一張圖來(lái)說(shuō)明一下命名和賦值的差別,只要在構(gòu)建用戶標(biāo)簽的過(guò)程種,有意識(shí)的區(qū)別標(biāo)簽命名和賦值足矣,不再贅述。(4)標(biāo)簽屬性標(biāo)簽屬性可以理解為針對(duì)標(biāo)簽進(jìn)行的再標(biāo)注,這一環(huán)節(jié)的工作主要目的是幫助內(nèi)部理解標(biāo)簽賦值的來(lái)源,進(jìn)而理解指標(biāo)的含義。如圖所示,可以總結(jié)為5種來(lái)源:1、固有屬性:是指這些指標(biāo)的賦值體現(xiàn)的是用戶生而有之或者事實(shí)存在的,不以外界條件或者自身認(rèn)知的改變而改變的屬性。比如:性別、年齡、是否生育等。2、推導(dǎo)屬性:由其他屬性推導(dǎo)而來(lái)的屬性,比如星座,我們可以通過(guò)用戶的生日推導(dǎo),比如用戶的品類偏好,則可以通過(guò)日常購(gòu)買來(lái)推導(dǎo)。3、行為屬性:產(chǎn)品內(nèi)外實(shí)際發(fā)生的行為被記錄后形成的賦值,比如用戶的登陸時(shí)間,頁(yè)面停留時(shí)長(zhǎng)等。4、態(tài)度屬性:用戶自我表達(dá)的態(tài)度和意愿。比如說(shuō)我們通過(guò)一份問(wèn)卷向用戶詢問(wèn)一些問(wèn)題,并形成標(biāo)簽,如詢問(wèn)用戶:是否愿意結(jié)婚,是否喜歡某個(gè)品牌等。當(dāng)然在大數(shù)據(jù)的需求背景下,利用問(wèn)卷收集用戶標(biāo)簽的方法效率顯得過(guò)低,更多的是利用產(chǎn)品中相關(guān)的模塊做了用戶態(tài)度信息收集。5、測(cè)試屬性:測(cè)試屬性是指來(lái)自用戶的態(tài)度表達(dá),但并不是用戶直接表達(dá)的內(nèi)容,而是通過(guò)分析用戶的表達(dá),結(jié)構(gòu)化處理后,得出的測(cè)試結(jié)論。比如,用戶填答了一系列的態(tài)度問(wèn)卷,推導(dǎo)出用戶的價(jià)值觀類型等。值得注意的是,一種標(biāo)簽的屬性可以是多重的,比如:個(gè)人星座這個(gè)標(biāo)簽,既是固有屬性,也是推導(dǎo)屬性,它首先不以個(gè)人的意志為轉(zhuǎn)移,同時(shí)可以通過(guò)身份證號(hào)推導(dǎo)而來(lái)。即便你成功了建立用戶畫像的標(biāo)簽體系,也不意味著你就開(kāi)啟了用戶畫像的成功之路,因?yàn)橛泻艽蟮目赡苁沁@些標(biāo)簽根本無(wú)法獲得,或者說(shuō)無(wú)法賦值。標(biāo)簽無(wú)法賦值的原因有:數(shù)據(jù)無(wú)法采集(沒(méi)有有效的渠道和方法采集到準(zhǔn)確的數(shù)據(jù),比如用戶身份證號(hào))、數(shù)據(jù)庫(kù)不能打通、建模失?。A(yù)測(cè)指標(biāo)無(wú)法獲得賦值)等等。?2、標(biāo)簽體系結(jié)構(gòu)? ? ? ? 標(biāo)簽體系可以歸納出如下的層級(jí)結(jié)構(gòu)。(1)原始輸入層主要指用戶的歷史數(shù)據(jù)信息,如會(huì)員信息、消費(fèi)信息、網(wǎng)絡(luò)行為信息。經(jīng)過(guò)數(shù)據(jù)的清洗,從而達(dá)到用戶標(biāo)簽體系的事實(shí)層。(2)事實(shí)層事實(shí)層是用戶信息的準(zhǔn)確描述層,其最重要的特點(diǎn)是,可以從用戶身上得到確定與肯定的驗(yàn)證。如用戶的人口屬性、性別、年齡、籍貫、會(huì)員信息等。(3)模型預(yù)測(cè)層通過(guò)利用統(tǒng)計(jì)建模,數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)的思想,對(duì)事實(shí)層的數(shù)據(jù)進(jìn)行分析利用,從而得到描述用戶更為深刻的信息。如通過(guò)建模分析,可以對(duì)用戶的性別偏好進(jìn)行預(yù)測(cè),從而能對(duì)沒(méi)有收集到性別數(shù)據(jù)的新用戶進(jìn)行預(yù)測(cè)。還可以通過(guò)建模與數(shù)據(jù)挖掘,使用聚類、關(guān)聯(lián)思想,發(fā)現(xiàn)人群的聚集特征。(4)營(yíng)銷模型預(yù)測(cè)利用模型預(yù)測(cè)層結(jié)果,對(duì)不同用戶群體,相同需求的客戶,通過(guò)打標(biāo)簽,建立營(yíng)銷模型,從而分析用戶的活躍度、忠誠(chéng)度、流失度、影響力等可以用來(lái)進(jìn)行營(yíng)銷的數(shù)據(jù)。(5)業(yè)務(wù)層業(yè)務(wù)層可以是展現(xiàn)層。它是業(yè)務(wù)邏輯的直接體現(xiàn),如圖中所表示的,有車一族、有房一族等。3、標(biāo)簽體系結(jié)構(gòu)分類一般來(lái)說(shuō),設(shè)計(jì)一個(gè)標(biāo)簽體系有3種思路,分別是:(1)結(jié)構(gòu)化標(biāo)簽體系;(2)半結(jié)構(gòu)化標(biāo)簽體系;(3)非結(jié)構(gòu)化標(biāo)簽體系。(1)結(jié)構(gòu)化標(biāo)簽體系簡(jiǎn)單地說(shuō),就是標(biāo)簽組織成比較規(guī)整的樹或森林,有明確的層級(jí)劃分和父子關(guān)系。結(jié)構(gòu)化標(biāo)簽體系看起來(lái)整潔,又比較好解釋,在面向品牌廣告井噴時(shí)比較好用。性別、年齡這類人口屬性標(biāo)簽,是最典型的結(jié)構(gòu)化體系。下圖就是Yahoo!受眾定向廣告平臺(tái)采用的結(jié)構(gòu)化標(biāo)簽體系。(2)半結(jié)構(gòu)化標(biāo)簽體系在用于效果廣告時(shí),標(biāo)簽設(shè)計(jì)的靈活性大大提高了。標(biāo)簽體系是不是規(guī)整,就不那么重要了,只要有效果就行。在這種思路下,用戶標(biāo)簽往往是在行業(yè)上呈現(xiàn)出一定的并列體系,而各行業(yè)內(nèi)的標(biāo)簽設(shè)計(jì)則以“逮住老鼠就是好貓”為最高指導(dǎo)原則,切不可拘泥于形式。下圖是Bluekai聚合多家數(shù)據(jù)形成的半結(jié)構(gòu)化標(biāo)簽體系。(3)非結(jié)構(gòu)化標(biāo)簽體系非結(jié)構(gòu)化,就是各個(gè)標(biāo)簽就事論事,各自反應(yīng)各自的用戶興趣,彼此之間并無(wú)層級(jí)關(guān)系,也很難組織成規(guī)整的樹狀結(jié)構(gòu)。非結(jié)構(gòu)化標(biāo)簽的典型例子,是搜索廣告里用的關(guān)鍵詞。還有Facebook用的用戶興趣詞。?4、用戶畫像標(biāo)簽層級(jí)的建模方法用戶畫像的核心是標(biāo)簽的建立,用戶畫像標(biāo)簽建立的各個(gè)階段使用的模型和算法如下圖所示。原始數(shù)據(jù)層。對(duì)原始數(shù)據(jù),我們主要使用文本挖掘的算法進(jìn)行分析如常見(jiàn)的TF-IDF、TopicModel主題模型、LDA 等算法,主要是對(duì)原始數(shù)據(jù)的預(yù)處理和清洗,對(duì)用戶數(shù)據(jù)的匹配和標(biāo)識(shí)。事實(shí)標(biāo)簽層。通過(guò)文本挖掘的方法,我們從數(shù)據(jù)中盡可能多的提取事實(shí)數(shù)據(jù)信息,如人口屬性信息,用戶行為信息,消費(fèi)信息等。其主要使用的算法是分類和聚類。分類主要用于預(yù)測(cè)新用戶,信息不全的用戶的信息,對(duì)用戶進(jìn)行預(yù)測(cè)分類。聚類主要用于分析挖掘出具有相同特征的群體信息,進(jìn)行受眾細(xì)分,市場(chǎng)細(xì)分。對(duì)于文本的特征數(shù)據(jù),其主要使用相似度計(jì)算,如余弦?jiàn)A角,歐式距離等。模型標(biāo)簽層。使用機(jī)器學(xué)習(xí)的方法,結(jié)合推薦算法。模型標(biāo)簽層完成對(duì)用戶的標(biāo)簽建模與用戶標(biāo)識(shí)。其主要可以采用的算法有回歸,決策樹,支持向量機(jī)等。通過(guò)建模分析,我們可以進(jìn)一步挖掘出用戶的群體特征和個(gè)性權(quán)重特征,從而完善用戶的價(jià)值衡量,服務(wù)滿意度衡量等。預(yù)測(cè)層。也是標(biāo)簽體系中的營(yíng)銷模型預(yù)測(cè)層。這一層級(jí)利用預(yù)測(cè)算法,如機(jī)器學(xué)習(xí)中的監(jiān)督學(xué)習(xí),計(jì)量經(jīng)濟(jì)學(xué)中的回歸預(yù)測(cè),數(shù)學(xué)中的線性規(guī)劃等方法。實(shí)習(xí)對(duì)用戶的流失預(yù)測(cè),忠實(shí)度預(yù)測(cè),興趣程度預(yù)測(cè)等等,從而實(shí)現(xiàn)精準(zhǔn)營(yíng)銷,個(gè)性化和定制化服務(wù)。不同的標(biāo)簽層級(jí)會(huì)考慮使用對(duì)其適用的建模方法,對(duì)一些具體的問(wèn)題,有專門的文章對(duì)其進(jìn)行研究。八、 用戶畫像基本步驟根據(jù)具體業(yè)務(wù)規(guī)則確定用戶畫像方向后,開(kāi)展用戶畫像分析,總體來(lái)說(shuō),一個(gè)用戶畫像流程包括以下三步。(1)用戶畫像的基本方向;(2)用戶數(shù)據(jù)收集;(3)用戶標(biāo)簽建模。另外,需要注意的是用戶畫像的時(shí)效性,構(gòu)建畫像的數(shù)據(jù)多為歷史數(shù)據(jù),但用戶的行為、偏好等特征多會(huì)隨著時(shí)間的推移而發(fā)生變化。九、 用戶畫像驗(yàn)證十、 用戶畫像的實(shí)際例子注:此處涉及到工作中的項(xiàng)目?jī)?nèi)容,由于保密,就不能分享了十一、? ? 用戶畫像平臺(tái)&架構(gòu)用戶畫像平臺(tái)需要實(shí)現(xiàn)的功能。用戶畫像系統(tǒng)技術(shù)架構(gòu)(1)? ? 數(shù)據(jù)處理a、數(shù)據(jù)指標(biāo)的梳理來(lái)源于各個(gè)系統(tǒng)日常積累的日志記錄系統(tǒng),通過(guò)sqoop導(dǎo)入hdfs,也可以用代碼來(lái)實(shí)現(xiàn),比如spark的jdbc連接傳統(tǒng)數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)的cache。還有一種方式,可以通過(guò)將數(shù)據(jù)寫入本地文件,然后通過(guò)sparksql的load或者h(yuǎn)ive的export等方式導(dǎo)入HDFS。b、通過(guò)hive編寫UDF 或者h(yuǎn)iveql根據(jù)業(yè)務(wù)邏輯拼接ETL,使用戶對(duì)應(yīng)上不同的用戶標(biāo)簽數(shù)據(jù)(這里的指標(biāo)可以理解為每個(gè)用戶打上了相應(yīng)的標(biāo)簽),生成相應(yīng)的源表數(shù)據(jù),以便于后續(xù)用戶畫像系統(tǒng),通過(guò)不同的規(guī)則進(jìn)行標(biāo)簽寬表的生成。(2)? ? 數(shù)據(jù)平臺(tái)a、數(shù)據(jù)平臺(tái)應(yīng)用的分布式文件系統(tǒng)為Hadoop的HDFS,因?yàn)镠adoop2.0以后,任何的大數(shù)據(jù)應(yīng)用都可以通過(guò)ResoureManager申請(qǐng)資源,注冊(cè)服務(wù)。比如(sparksubmit、hive)等等。而基于內(nèi)存的計(jì)算框架的出現(xiàn),就并不選用Hadoop的MapReduce了。當(dāng)然很多離線處理的業(yè)務(wù),很多人還是傾向于使用Hadoop,但是Hadoop封裝的函數(shù)只有map和Reduce太過(guò)單一,而不像spark一類的計(jì)算框架有更多封裝的函數(shù)(可參考博客spark專欄)??梢源蟠筇嵘_(kāi)發(fā)效率。b、計(jì)算的框架選用Spark以及RHadoop,這里Spark的主要用途有兩種,一種是對(duì)于數(shù)據(jù)處理與上層應(yīng)用所指定的規(guī)則的數(shù)據(jù)篩選過(guò)濾,(通過(guò)Scala編寫spark代碼提交至sparksubmit)。一種是服務(wù)于上層應(yīng)用的SparkSQL(通過(guò)啟動(dòng)spark thriftserver與前臺(tái)應(yīng)用進(jìn)行連接)。RHadoop的應(yīng)用主要在于對(duì)于標(biāo)簽數(shù)據(jù)的打分,比如利用協(xié)同過(guò)濾算法等各種推薦算法對(duì)數(shù)據(jù)進(jìn)行各方面評(píng)分。c、MongoDB內(nèi)存數(shù)據(jù)的應(yīng)用主要在于對(duì)于單個(gè)用戶的實(shí)時(shí)的查詢,也是通過(guò)對(duì)spark數(shù)據(jù)梳理后的標(biāo)簽寬表進(jìn)行數(shù)據(jù)格式轉(zhuǎn)換(json格式)導(dǎo)入mongodb,前臺(tái)應(yīng)用可通過(guò)連接mongodb進(jìn)行數(shù)據(jù)轉(zhuǎn)換,從而進(jìn)行單個(gè)標(biāo)簽的展現(xiàn)。(當(dāng)然也可將數(shù)據(jù)轉(zhuǎn)換為Redis中的key value形式,導(dǎo)入Redis集群)d、mysql的作用在于針對(duì)上層應(yīng)用標(biāo)簽規(guī)則的存儲(chǔ),以及頁(yè)面信息的展現(xiàn)。后臺(tái)的數(shù)據(jù)寬表是與spark相關(guān)聯(lián),通過(guò)連接mysql隨后cache元數(shù)據(jù)進(jìn)行filter、select、map、reduce等對(duì)元數(shù)據(jù)信息的整理,再與真實(shí)存在于Hdfs的數(shù)據(jù)進(jìn)行處理。(3)? ? 面向應(yīng)用從剛才的數(shù)據(jù)整理、數(shù)據(jù)平臺(tái)的計(jì)算,都已經(jīng)將服務(wù)于上層應(yīng)用的標(biāo)簽大寬表生成。(用戶所對(duì)應(yīng)的各類標(biāo)簽信息)。那么前臺(tái)根據(jù)業(yè)務(wù)邏輯,勾選不同的標(biāo)簽進(jìn)行求和、剔除等操作,比如本月流量大于200M用戶(標(biāo)簽)+本月消費(fèi)超過(guò)100元用戶(標(biāo)簽)進(jìn)行和的操作,通過(guò)前臺(tái)代碼實(shí)現(xiàn)sql的拼接,進(jìn)行客戶數(shù)目的探索。這里就是通過(guò)jdbc的方式連接spark的thriftserver,通過(guò)集群進(jìn)行HDFS上的大寬表的運(yùn)算求count。(這里要注意一點(diǎn),很多sql聚合函數(shù)以及多表關(guān)聯(lián)join 相當(dāng)于hadoop的mapreduce的shuffle,很容易造成內(nèi)存溢出,相關(guān)參數(shù)調(diào)整可參考本博客spark欄目中的配置信息)這樣便可以定位相應(yīng)的客戶數(shù)量,從而進(jìn)行客戶群、標(biāo)簽的分析,產(chǎn)品的策略匹配從而精準(zhǔn)營(yíng)銷。十二、用戶畫像困難點(diǎn)、用戶畫像瓶頸用戶畫像困難點(diǎn)主要表現(xiàn)為以下4個(gè)方面資料搜集和數(shù)據(jù)挖掘在畫像之前需要知道產(chǎn)品的用戶特征和用戶使用產(chǎn)品的行為等因素,從而從總體上掌握對(duì)用戶需求創(chuàng)建用戶畫像不是抽離出典型進(jìn)行單獨(dú)標(biāo)簽化的過(guò)程,而是要融合邊緣環(huán)境的相關(guān)信息來(lái)進(jìn)行討論定量調(diào)研分析我們的用戶標(biāo)簽包含基本特征、社會(huì)身份、顧客用戶生命周期、類目偏好等等。比如說(shuō)你怎么判斷一個(gè)人是不是對(duì)女裝感興趣,假設(shè)我們有一個(gè)類目就是女裝,那很好辦,如果你購(gòu)買都是女裝,那會(huì)認(rèn)為你這個(gè)人對(duì)女裝比較感興趣。我們期間遇到了兩方面的挑戰(zhàn):億級(jí)畫像系統(tǒng)實(shí)踐和應(yīng)用記錄和存儲(chǔ)億級(jí)用戶的畫像,支持和擴(kuò)展不斷增加的維度和偏好,毫秒級(jí)的更新,支撐公司個(gè)性化推薦、廣告投放和精細(xì)化營(yíng)銷等產(chǎn)品。 瀏覽 56點(diǎn)贊 評(píng)論 收藏 分享 手機(jī)掃一掃分享分享 舉報(bào) 評(píng)論圖片表情視頻評(píng)價(jià)全部評(píng)論推薦 用戶畫像數(shù)據(jù)森麟0【用戶畫像】小米用戶畫像實(shí)戰(zhàn)數(shù)據(jù)D江湖0用戶畫像基礎(chǔ)一行數(shù)據(jù)0精油全書 : 芳香療法使用小百科《精油全書》是寫給精油的愛(ài)好者或研習(xí)芳香治療的專業(yè)人士看的,內(nèi)容不僅包含了芳香藥草的歷史典故、主治癥精油全書 : 芳香療法使用小百科精油全書 : 芳香療法使用小百科0手把手教你做用戶畫像產(chǎn)品劉0實(shí)時(shí)用戶畫像實(shí)踐經(jīng)驗(yàn)浪尖聊大數(shù)據(jù)0如何做用戶畫像分析?有關(guān)SQL0數(shù)據(jù)治理方法論和實(shí)踐小百科全書程序源代碼0用戶畫像-標(biāo)簽體系浪尖聊大數(shù)據(jù)0點(diǎn)贊 評(píng)論 收藏 分享 手機(jī)掃一掃分享分享 舉報(bào)