<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          全網(wǎng)超詳細(xì)!用戶(hù)畫(huà)像標(biāo)簽體系建設(shè)指南!

          共 7081字,需瀏覽 15分鐘

           ·

          2022-03-18 19:11

          大家好,最近工作之余看了很多用戶(hù)畫(huà)像的文章,要么描述淺顯、要么相對(duì)片面,對(duì)于數(shù)據(jù)分析人員來(lái)說(shuō)算是窺中豹管。

          今天我將結(jié)合日常工作實(shí)踐和理解,整理了一份用戶(hù)畫(huà)像的文章,內(nèi)容偏向數(shù)據(jù)分析方法論,個(gè)人覺(jué)得這篇文章在宏觀(guān)上可以很好地描述用戶(hù)畫(huà)像的主要內(nèi)容,實(shí)戰(zhàn)代碼可以看我的歷史文章,喜歡本文記得關(guān)注、收藏、點(diǎn)贊。

          一、 什么是用戶(hù)畫(huà)像

          用戶(hù)畫(huà)像是指根據(jù)用戶(hù)的屬性、用戶(hù)偏好、生活習(xí)慣、用戶(hù)行為等信息而抽象出來(lái)的標(biāo)簽化用戶(hù)模型。通俗說(shuō)就是給用戶(hù)打標(biāo)簽,而標(biāo)簽是通過(guò)對(duì)用戶(hù)信息分析而來(lái)的高度精煉的特征標(biāo)識(shí)。通過(guò)打標(biāo)簽可以利用一些高度概括、容易理解的特征來(lái)描述用戶(hù),可以讓人更容易理解用戶(hù),并且可以方便計(jì)算機(jī)處理。

          用戶(hù)畫(huà)像是對(duì)現(xiàn)實(shí)世界中用戶(hù)的建模,用戶(hù)畫(huà)像應(yīng)該包含目標(biāo),方式,組織,標(biāo)準(zhǔn),驗(yàn)證這5個(gè)方面。

          目標(biāo): 指的是描述人,認(rèn)識(shí)人,了解人,理解人。

          方式: 又分為非形式化手段,如使用文字、語(yǔ)言、圖像、視頻等方式描述人;形式化手段,即使用數(shù)據(jù)的方式來(lái)刻畫(huà)人物的畫(huà)像。

          組織: 指的是結(jié)構(gòu)化、非結(jié)構(gòu)化的組織形式。

          標(biāo)準(zhǔn): 指的是使用常識(shí)、共識(shí)、知識(shí)體系的漸進(jìn)過(guò)程來(lái)刻畫(huà)人物,認(rèn)識(shí)了解用戶(hù)。

          驗(yàn)證: 依據(jù)側(cè)重說(shuō)明了用戶(hù)畫(huà)像應(yīng)該來(lái)源事實(shí)、經(jīng)得起推理和檢驗(yàn)。

          在產(chǎn)品早期和發(fā)展期,會(huì)較多地借助用戶(hù)畫(huà)像,幫助產(chǎn)品人員理解用戶(hù)的需求,想象用戶(hù)使用的場(chǎng)景,產(chǎn)品設(shè)計(jì)從為所有人做產(chǎn)品變成為三四個(gè)人做產(chǎn)品,間接的降低復(fù)雜度。

          二、 用戶(hù)畫(huà)像的作用

          在互聯(lián)網(wǎng)、電商領(lǐng)域用戶(hù)畫(huà)像常用來(lái)作為精準(zhǔn)營(yíng)銷(xiāo)、推薦系統(tǒng)的基礎(chǔ)性工作,其作用總體包括:

          (1)精準(zhǔn)營(yíng)銷(xiāo):根據(jù)歷史用戶(hù)特征,分析產(chǎn)品的潛在用戶(hù)和用戶(hù)的潛在需求,針對(duì)特定群體,利用短信、郵件等方式進(jìn)行營(yíng)銷(xiāo)。

          (2)用戶(hù)統(tǒng)計(jì):根據(jù)用戶(hù)的屬性、行為特征對(duì)用戶(hù)進(jìn)行分類(lèi)后,統(tǒng)計(jì)不同特征下的用戶(hù)數(shù)量、分布;分析不同用戶(hù)畫(huà)像群體的分布特征。

          (3)數(shù)據(jù)挖掘:以用戶(hù)畫(huà)像為基礎(chǔ)構(gòu)建推薦系統(tǒng)、搜索引擎、廣告投放系統(tǒng),提升服務(wù)精準(zhǔn)度。

          (4)服務(wù)產(chǎn)品:對(duì)產(chǎn)品進(jìn)行用戶(hù)畫(huà)像,對(duì)產(chǎn)品進(jìn)行受眾分析,更透徹地理解用戶(hù)使用產(chǎn)品的心理動(dòng)機(jī)和行為習(xí)慣,完善產(chǎn)品運(yùn)營(yíng),提升服務(wù)質(zhì)量。

          (5)行業(yè)報(bào)告&用戶(hù)研究:通過(guò)用戶(hù)畫(huà)像分析可以了解行業(yè)動(dòng)態(tài),比如人群消費(fèi)習(xí)慣、消費(fèi)偏好分析、不同地域品類(lèi)消費(fèi)差異分析

          根據(jù)用戶(hù)畫(huà)像的作用可以看出,用戶(hù)畫(huà)像的使用場(chǎng)景較多,用戶(hù)畫(huà)像可以用來(lái)挖掘用戶(hù)興趣、偏好、人口統(tǒng)計(jì)學(xué)特征,主要目的是提升營(yíng)銷(xiāo)精準(zhǔn)度、推薦匹配度,終極目的是提升產(chǎn)品服務(wù),起到提升企業(yè)利潤(rùn)。用戶(hù)畫(huà)像適合于各個(gè)產(chǎn)品周期:從新用戶(hù)的引流到潛在用戶(hù)的挖掘、從老用戶(hù)的培養(yǎng)到流失用戶(hù)的回流等。

          總結(jié)來(lái)說(shuō),用戶(hù)畫(huà)像必須從實(shí)際業(yè)務(wù)場(chǎng)景出發(fā),解決實(shí)際的業(yè)務(wù)問(wèn)題,之所以進(jìn)行用戶(hù)畫(huà)像,要么是獲取新用戶(hù),要么是提升用戶(hù)體驗(yàn)、或者挽回流失用戶(hù)等具有明確的業(yè)務(wù)目標(biāo)。

          另外關(guān)于用戶(hù)畫(huà)像數(shù)據(jù)維度的問(wèn)題,并不是說(shuō)數(shù)據(jù)維度越豐富越好,總之,畫(huà)像維度的設(shè)計(jì)同樣需要緊跟業(yè)務(wù)實(shí)際情況進(jìn)行開(kāi)展。

          三、 用戶(hù)畫(huà)像的分類(lèi)

          從畫(huà)像方法來(lái)說(shuō),可以分為定性畫(huà)像、定性+定量畫(huà)像、定量畫(huà)像

          圖片來(lái)自網(wǎng)絡(luò)

          從應(yīng)用角度來(lái)看,可以分為行為畫(huà)像、健康畫(huà)像、企業(yè)信用畫(huà)像、個(gè)人信用畫(huà)像、靜態(tài)產(chǎn)品畫(huà)像、旋轉(zhuǎn)設(shè)備畫(huà)像、社會(huì)畫(huà)像和經(jīng)濟(jì)畫(huà)像等。

          四、 用戶(hù)畫(huà)像需要用到哪些數(shù)據(jù)

          一般來(lái)說(shuō),根據(jù)具體的業(yè)務(wù)內(nèi)容,會(huì)有不同的數(shù)據(jù),不同的業(yè)務(wù)目標(biāo),也會(huì)使用不同的數(shù)據(jù)。在互聯(lián)網(wǎng)領(lǐng)域,用戶(hù)畫(huà)像數(shù)據(jù)可以包括以下內(nèi)容:

          (1)人口屬性:包括性別、年齡等人的基本信息

          (2)興趣特征:瀏覽內(nèi)容、收藏內(nèi)容、閱讀咨詢(xún)、購(gòu)買(mǎi)物品偏好等

          (3)消費(fèi)特征:與消費(fèi)相關(guān)的特征

          (4)位置特征:用戶(hù)所處城市、所處居住區(qū)域、用戶(hù)移動(dòng)軌跡等

          (5)設(shè)備屬性:使用的終端特征等

          (6)行為數(shù)據(jù):訪(fǎng)問(wèn)時(shí)間、瀏覽路徑等用戶(hù)在網(wǎng)站的行為日志數(shù)據(jù)

          (7)社交數(shù)據(jù):用戶(hù)社交相關(guān)數(shù)據(jù)

          用戶(hù)畫(huà)像數(shù)據(jù)來(lái)源廣泛,這些數(shù)據(jù)是全方位了解用戶(hù)的基礎(chǔ),這里以Qunar的畫(huà)像為例,其畫(huà)像數(shù)據(jù)主要維度如下所示,包括用戶(hù)RFM信息、航線(xiàn)信息等。

          Qunar的畫(huà)像數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建都是基于Qunar基礎(chǔ)數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建,然后按照維度進(jìn)行劃分。

          五、 用戶(hù)畫(huà)像主要應(yīng)用場(chǎng)景

          • a)用戶(hù)屬性

          • b)用戶(hù)標(biāo)簽畫(huà)像

          • c)用戶(hù)偏好畫(huà)像

          • d)用戶(hù)流失

          • e)用戶(hù)行為

          • f)產(chǎn)品設(shè)計(jì)

          • g) 個(gè)性化推薦、廣告系統(tǒng)、活動(dòng)營(yíng)銷(xiāo)、內(nèi)容推薦、興趣偏好

          六、 用戶(hù)畫(huà)像使用的技術(shù)方法

          歷史文章已分享,不再贅述

          七、 用戶(hù)畫(huà)像標(biāo)簽體系的建立

          1、什么是標(biāo)簽體系

          用戶(hù)畫(huà)像是對(duì)現(xiàn)實(shí)用戶(hù)做的一個(gè)數(shù)學(xué)模型,在整個(gè)數(shù)學(xué)模型中,核心是怎么描述業(yè)務(wù)知識(shí)體系,而這個(gè)業(yè)務(wù)知識(shí)體系就是本體論,本體論很復(fù)雜,我們找到一個(gè)特別樸素的實(shí)現(xiàn),就是標(biāo)簽。

          標(biāo)簽是某一種用戶(hù)特征的符號(hào)表示。是一種內(nèi)容組織方式,是一種關(guān)聯(lián)性很強(qiáng)的關(guān)鍵字,能方便的幫助我們找到合適的內(nèi)容及內(nèi)容分類(lèi)。(注:簡(jiǎn)單說(shuō),就是你把用戶(hù)分到多少個(gè)類(lèi)別里面去,這些類(lèi)是什么,彼此之間有什么關(guān)系,就構(gòu)成了標(biāo)簽體系)

          標(biāo)簽解決的是描述(或命名)問(wèn)題,但在實(shí)際應(yīng)用中,還需要解決數(shù)據(jù)之間的關(guān)聯(lián),所以通常將標(biāo)簽作為一個(gè)體系來(lái)設(shè)計(jì),以解決數(shù)據(jù)之間的關(guān)聯(lián)問(wèn)題。

          一般來(lái)說(shuō),將能關(guān)聯(lián)到具體用戶(hù)數(shù)據(jù)的標(biāo)簽,稱(chēng)為葉子標(biāo)簽。對(duì)葉子標(biāo)簽進(jìn)行分類(lèi)匯總的標(biāo)簽,稱(chēng)為父標(biāo)簽。父標(biāo)簽和葉子標(biāo)簽共同構(gòu)成標(biāo)簽體系,但兩者是相對(duì)概念。例如:下表中,地市、型號(hào)在標(biāo)簽體系中相對(duì)于省份、品牌,是葉子標(biāo)簽。

          用戶(hù)畫(huà)像標(biāo)簽體系創(chuàng)建后一般要包含以下幾個(gè)方面的內(nèi)容

          (1)標(biāo)簽分類(lèi)

          用戶(hù)畫(huà)像標(biāo)簽可以分為基礎(chǔ)屬性標(biāo)簽和行為屬性標(biāo)簽。

          由于基于一個(gè)目標(biāo)的畫(huà)像,其標(biāo)簽是在動(dòng)態(tài)擴(kuò)展的,所以其標(biāo)簽體系也沒(méi)有統(tǒng)一的模板,在大分類(lèi)上,與自身的業(yè)務(wù)特征有很大的關(guān)聯(lián),在整體思路上可以從橫縱兩個(gè)維度展開(kāi)思考:橫向是產(chǎn)品內(nèi)數(shù)據(jù)和產(chǎn)品外數(shù)據(jù),縱向是線(xiàn)上數(shù)據(jù)和線(xiàn)下數(shù)據(jù)。而正中間則是永恒不變的“人物基礎(chǔ)屬性”。

          如果說(shuō)其他的分類(lèi)因企業(yè)特征而定,那么只有人物特征屬性(至于名字叫什么不重要,關(guān)鍵是內(nèi)涵)是各家企業(yè)不能缺失的板塊。

          所謂人物基礎(chǔ)屬性指的是:用戶(hù)客觀(guān)的屬性而非用戶(hù)自我表達(dá)的屬性,也就是描述用戶(hù)真實(shí)人口屬性的標(biāo)簽。所謂非“自我表達(dá)”,舉例來(lái)說(shuō),某產(chǎn)品內(nèi)個(gè)人信息有性別一項(xiàng),用戶(hù)填寫(xiě)為“女”,而通過(guò)用戶(hù)上傳的身份證號(hào),以及用戶(hù)照片,用戶(hù)購(gòu)買(mǎi)的產(chǎn)品,甚至用戶(hù)打來(lái)的客服電話(huà),都發(fā)現(xiàn)該用戶(hù)性別是“男性”。那么在人物基礎(chǔ)屬性中的性別,應(yīng)該標(biāo)識(shí)的是“男性”,但是用戶(hù)信息標(biāo)簽部分,自我描述的性別則可能標(biāo)注為女性。

          (2)標(biāo)簽級(jí)別(標(biāo)簽的體系結(jié)構(gòu))

          分級(jí)有兩個(gè)層面的含義,其一是:指標(biāo)到最低層級(jí)的涵蓋的層級(jí);其二是指:指標(biāo)的運(yùn)算層級(jí)。其一非常好理解,這里重點(diǎn)說(shuō)運(yùn)算層級(jí)。

          標(biāo)簽從運(yùn)算層級(jí)角度可以分為三層:事實(shí)標(biāo)簽、模型標(biāo)簽、預(yù)測(cè)標(biāo)簽。

          事實(shí)標(biāo)簽:是通過(guò)對(duì)于原始數(shù)據(jù)庫(kù)的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析而來(lái)的,比如用戶(hù)投訴次數(shù),是基于用戶(hù)一段時(shí)間內(nèi)實(shí)際投訴的行為做的統(tǒng)計(jì)。

          模型標(biāo)簽:模型標(biāo)簽是以事實(shí)標(biāo)簽為基礎(chǔ),通過(guò)構(gòu)建事實(shí)標(biāo)簽與業(yè)務(wù)問(wèn)題之間的模型,進(jìn)行模型分析得到。比如,結(jié)合用戶(hù)實(shí)際投訴次數(shù)、用戶(hù)購(gòu)買(mǎi)品類(lèi)、用戶(hù)支付的金額等,進(jìn)行用戶(hù)投訴傾向類(lèi)型的識(shí)別,方便客服進(jìn)行分類(lèi)處理。

          預(yù)測(cè)標(biāo)簽:則是在模型的基礎(chǔ)上做預(yù)測(cè),比如針對(duì)投訴傾向類(lèi)型結(jié)構(gòu)的變化,預(yù)測(cè)平臺(tái)輿情風(fēng)險(xiǎn)指數(shù)。

          (3)標(biāo)簽命名&賦值

          我們用一張圖來(lái)說(shuō)明一下命名和賦值的差別,只要在構(gòu)建用戶(hù)標(biāo)簽的過(guò)程種,有意識(shí)的區(qū)別標(biāo)簽命名和賦值足矣,不再贅述。

          (4)標(biāo)簽屬性

          標(biāo)簽屬性可以理解為針對(duì)標(biāo)簽進(jìn)行的再標(biāo)注,這一環(huán)節(jié)的工作主要目的是幫助內(nèi)部理解標(biāo)簽賦值的來(lái)源,進(jìn)而理解指標(biāo)的含義。如圖所示,可以總結(jié)為5種來(lái)源:

          1、固有屬性:是指這些指標(biāo)的賦值體現(xiàn)的是用戶(hù)生而有之或者事實(shí)存在的,不以外界條件或者自身認(rèn)知的改變而改變的屬性。比如:性別、年齡、是否生育等。

          2、推導(dǎo)屬性:由其他屬性推導(dǎo)而來(lái)的屬性,比如星座,我們可以通過(guò)用戶(hù)的生日推導(dǎo),比如用戶(hù)的品類(lèi)偏好,則可以通過(guò)日常購(gòu)買(mǎi)來(lái)推導(dǎo)。

          3、行為屬性:產(chǎn)品內(nèi)外實(shí)際發(fā)生的行為被記錄后形成的賦值,比如用戶(hù)的登陸時(shí)間,頁(yè)面停留時(shí)長(zhǎng)等。

          4、態(tài)度屬性:用戶(hù)自我表達(dá)的態(tài)度和意愿。比如說(shuō)我們通過(guò)一份問(wèn)卷向用戶(hù)詢(xún)問(wèn)一些問(wèn)題,并形成標(biāo)簽,如詢(xún)問(wèn)用戶(hù):是否愿意結(jié)婚,是否喜歡某個(gè)品牌等。當(dāng)然在大數(shù)據(jù)的需求背景下,利用問(wèn)卷收集用戶(hù)標(biāo)簽的方法效率顯得過(guò)低,更多的是利用產(chǎn)品中相關(guān)的模塊做了用戶(hù)態(tài)度信息收集。

          5、測(cè)試屬性:測(cè)試屬性是指來(lái)自用戶(hù)的態(tài)度表達(dá),但并不是用戶(hù)直接表達(dá)的內(nèi)容,而是通過(guò)分析用戶(hù)的表達(dá),結(jié)構(gòu)化處理后,得出的測(cè)試結(jié)論。比如,用戶(hù)填答了一系列的態(tài)度問(wèn)卷,推導(dǎo)出用戶(hù)的價(jià)值觀(guān)類(lèi)型等。

          值得注意的是,一種標(biāo)簽的屬性可以是多重的,比如:個(gè)人星座這個(gè)標(biāo)簽,既是固有屬性,也是推導(dǎo)屬性,它首先不以個(gè)人的意志為轉(zhuǎn)移,同時(shí)可以通過(guò)身份證號(hào)推導(dǎo)而來(lái)。

          即便你成功了建立用戶(hù)畫(huà)像的標(biāo)簽體系,也不意味著你就開(kāi)啟了用戶(hù)畫(huà)像的成功之路,因?yàn)橛泻艽蟮目赡苁沁@些標(biāo)簽根本無(wú)法獲得,或者說(shuō)無(wú)法賦值。

          標(biāo)簽無(wú)法賦值的原因有:數(shù)據(jù)無(wú)法采集(沒(méi)有有效的渠道和方法采集到準(zhǔn)確的數(shù)據(jù),比如用戶(hù)身份證號(hào))、數(shù)據(jù)庫(kù)不能打通、建模失敗(預(yù)測(cè)指標(biāo)無(wú)法獲得賦值)等等。

          2、標(biāo)簽體系結(jié)構(gòu)

          標(biāo)簽體系可以歸納出如下的層級(jí)結(jié)構(gòu)。

          (1)原始輸入層

          主要指用戶(hù)的歷史數(shù)據(jù)信息,如會(huì)員信息、消費(fèi)信息、網(wǎng)絡(luò)行為信息。經(jīng)過(guò)數(shù)據(jù)的清洗,從而達(dá)到用戶(hù)標(biāo)簽體系的事實(shí)層。

          (2)事實(shí)層

          事實(shí)層是用戶(hù)信息的準(zhǔn)確描述層,其最重要的特點(diǎn)是,可以從用戶(hù)身上得到確定與肯定的驗(yàn)證。如用戶(hù)的人口屬性、性別、年齡、籍貫、會(huì)員信息等。

          (3)模型預(yù)測(cè)層

          通過(guò)利用統(tǒng)計(jì)建模,數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)的思想,對(duì)事實(shí)層的數(shù)據(jù)進(jìn)行分析利用,從而得到描述用戶(hù)更為深刻的信息。如通過(guò)建模分析,可以對(duì)用戶(hù)的性別偏好進(jìn)行預(yù)測(cè),從而能對(duì)沒(méi)有收集到性別數(shù)據(jù)的新用戶(hù)進(jìn)行預(yù)測(cè)。還可以通過(guò)建模與數(shù)據(jù)挖掘,使用聚類(lèi)、關(guān)聯(lián)思想,發(fā)現(xiàn)人群的聚集特征。

          (4)營(yíng)銷(xiāo)模型預(yù)測(cè)

          利用模型預(yù)測(cè)層結(jié)果,對(duì)不同用戶(hù)群體,相同需求的客戶(hù),通過(guò)打標(biāo)簽,建立營(yíng)銷(xiāo)模型,從而分析用戶(hù)的活躍度、忠誠(chéng)度、流失度、影響力等可以用來(lái)進(jìn)行營(yíng)銷(xiāo)的數(shù)據(jù)。

          (5)業(yè)務(wù)層

          業(yè)務(wù)層可以是展現(xiàn)層。它是業(yè)務(wù)邏輯的直接體現(xiàn),如圖中所表示的,有車(chē)一族、有房一族等。

          3、標(biāo)簽體系結(jié)構(gòu)分類(lèi)

          一般來(lái)說(shuō),設(shè)計(jì)一個(gè)標(biāo)簽體系有3種思路,分別是:(1)結(jié)構(gòu)化標(biāo)簽體系;(2)半結(jié)構(gòu)化標(biāo)簽體系;(3)非結(jié)構(gòu)化標(biāo)簽體系。

          (1)結(jié)構(gòu)化標(biāo)簽體系

          簡(jiǎn)單地說(shuō),就是標(biāo)簽組織成比較規(guī)整的樹(shù)或森林,有明確的層級(jí)劃分和父子關(guān)系。結(jié)構(gòu)化標(biāo)簽體系看起來(lái)整潔,又比較好解釋?zhuān)诿嫦蚱放茝V告井噴時(shí)比較好用。性別、年齡這類(lèi)人口屬性標(biāo)簽,是最典型的結(jié)構(gòu)化體系。下圖就是Yahoo!受眾定向廣告平臺(tái)采用的結(jié)構(gòu)化標(biāo)簽體系。

          (2)半結(jié)構(gòu)化標(biāo)簽體系

          在用于效果廣告時(shí),標(biāo)簽設(shè)計(jì)的靈活性大大提高了。標(biāo)簽體系是不是規(guī)整,就不那么重要了,只要有效果就行。在這種思路下,用戶(hù)標(biāo)簽往往是在行業(yè)上呈現(xiàn)出一定的并列體系,而各行業(yè)內(nèi)的標(biāo)簽設(shè)計(jì)則以“逮住老鼠就是好貓”為最高指導(dǎo)原則,切不可拘泥于形式。下圖是Bluekai聚合多家數(shù)據(jù)形成的半結(jié)構(gòu)化標(biāo)簽體系。

          (3)非結(jié)構(gòu)化標(biāo)簽體系

          非結(jié)構(gòu)化,就是各個(gè)標(biāo)簽就事論事,各自反應(yīng)各自的用戶(hù)興趣,彼此之間并無(wú)層級(jí)關(guān)系,也很難組織成規(guī)整的樹(shù)狀結(jié)構(gòu)。非結(jié)構(gòu)化標(biāo)簽的典型例子,是搜索廣告里用的關(guān)鍵詞。還有Facebook用的用戶(hù)興趣詞。

          4、用戶(hù)畫(huà)像標(biāo)簽層級(jí)的建模方法

          用戶(hù)畫(huà)像的核心是標(biāo)簽的建立,用戶(hù)畫(huà)像標(biāo)簽建立的各個(gè)階段使用的模型和算法如下圖所示。

          原始數(shù)據(jù)層

          對(duì)原始數(shù)據(jù),我們主要使用文本挖掘的算法進(jìn)行分析如常見(jiàn)的TF-IDF、TopicModel主題模型、LDA 、深度學(xué)習(xí)等算法,主要是對(duì)原始數(shù)據(jù)的預(yù)處理和清洗,對(duì)用戶(hù)數(shù)據(jù)的匹配和標(biāo)識(shí)。

          事實(shí)標(biāo)簽層

          通過(guò)文本挖掘的方法,我們從數(shù)據(jù)中盡可能多的提取事實(shí)數(shù)據(jù)信息,如人口屬性信息,用戶(hù)行為信息,消費(fèi)信息等。其主要使用的算法是分類(lèi)和聚類(lèi)。分類(lèi)主要用于預(yù)測(cè)新用戶(hù),信息不全的用戶(hù)的信息,對(duì)用戶(hù)進(jìn)行預(yù)測(cè)分類(lèi)。聚類(lèi)主要用于分析挖掘出具有相同特征的群體信息,進(jìn)行受眾細(xì)分,市場(chǎng)細(xì)分。對(duì)于文本的特征數(shù)據(jù),其主要使用相似度計(jì)算,如余弦?jiàn)A角,歐式距離等。

          模型標(biāo)簽層

          使用機(jī)器學(xué)習(xí)的方法,結(jié)合推薦算法。模型標(biāo)簽層完成對(duì)用戶(hù)的標(biāo)簽建模與用戶(hù)標(biāo)識(shí)。其主要可以采用的算法有回歸,決策樹(shù),支持向量機(jī)等。通過(guò)建模分析,我們可以進(jìn)一步挖掘出用戶(hù)的群體特征和個(gè)性權(quán)重特征,從而完善用戶(hù)的價(jià)值衡量,服務(wù)滿(mǎn)意度衡量等。

          預(yù)測(cè)層

          也是標(biāo)簽體系中的營(yíng)銷(xiāo)模型預(yù)測(cè)層。這一層級(jí)利用預(yù)測(cè)算法,如機(jī)器學(xué)習(xí)中的監(jiān)督學(xué)習(xí),計(jì)量經(jīng)濟(jì)學(xué)中的回歸預(yù)測(cè),數(shù)學(xué)中的線(xiàn)性規(guī)劃等方法。實(shí)習(xí)對(duì)用戶(hù)的流失預(yù)測(cè),忠實(shí)度預(yù)測(cè),興趣程度預(yù)測(cè)等等,從而實(shí)現(xiàn)精準(zhǔn)營(yíng)銷(xiāo),個(gè)性化和定制化服務(wù)。

          不同的標(biāo)簽層級(jí)會(huì)考慮使用對(duì)其適用的建模方法,對(duì)一些具體的問(wèn)題,有專(zhuān)門(mén)的文章對(duì)其進(jìn)行研究。

          八、 用戶(hù)畫(huà)像基本步驟

          根據(jù)具體業(yè)務(wù)規(guī)則確定用戶(hù)畫(huà)像方向后,開(kāi)展用戶(hù)畫(huà)像分析,總體來(lái)說(shuō),一個(gè)用戶(hù)畫(huà)像流程包括以下三步。(1)用戶(hù)畫(huà)像的基本方向;(2)用戶(hù)數(shù)據(jù)收集;(3)用戶(hù)標(biāo)簽建模。

          另外,需要注意的是用戶(hù)畫(huà)像的時(shí)效性,構(gòu)建畫(huà)像的數(shù)據(jù)多為歷史數(shù)據(jù),但用戶(hù)的行為、偏好等特征多會(huì)隨著時(shí)間的推移而發(fā)生變化。

          九、 用戶(hù)畫(huà)像驗(yàn)證

          十、 用戶(hù)畫(huà)像的實(shí)際例子

          注:此處涉及到工作中的項(xiàng)目?jī)?nèi)容,由于保密,就不能分享了

          十一、 用戶(hù)畫(huà)像平臺(tái)&架構(gòu)

          用戶(hù)畫(huà)像平臺(tái)需要實(shí)現(xiàn)的功能。

          用戶(hù)畫(huà)像系統(tǒng)技術(shù)架構(gòu)

          1、數(shù)據(jù)處理

          a、數(shù)據(jù)指標(biāo)的梳理來(lái)源于各個(gè)系統(tǒng)日常積累的日志記錄系統(tǒng),通過(guò)sqoop導(dǎo)入hdfs,也可以用代碼來(lái)實(shí)現(xiàn),比如spark的jdbc連接傳統(tǒng)數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)的cache。還有一種方式,可以通過(guò)將數(shù)據(jù)寫(xiě)入本地文件,然后通過(guò)sparksql的load或者h(yuǎn)ive的export等方式導(dǎo)入HDFS。

          b、通過(guò)hive編寫(xiě)UDF 或者h(yuǎn)iveql根據(jù)業(yè)務(wù)邏輯拼接ETL,使用戶(hù)對(duì)應(yīng)上不同的用戶(hù)標(biāo)簽數(shù)據(jù)(這里的指標(biāo)可以理解為每個(gè)用戶(hù)打上了相應(yīng)的標(biāo)簽),生成相應(yīng)的源表數(shù)據(jù),以便于后續(xù)用戶(hù)畫(huà)像系統(tǒng),通過(guò)不同的規(guī)則進(jìn)行標(biāo)簽寬表的生成。

          2、數(shù)據(jù)平臺(tái)

          a、數(shù)據(jù)平臺(tái)應(yīng)用的分布式文件系統(tǒng)為Hadoop的HDFS,因?yàn)镠adoop2.0以后,任何的大數(shù)據(jù)應(yīng)用都可以通過(guò)ResoureManager申請(qǐng)資源,注冊(cè)服務(wù)。比如(sparksubmit、hive)等等。而基于內(nèi)存的計(jì)算框架的出現(xiàn),就并不選用Hadoop的MapReduce了。當(dāng)然很多離線(xiàn)處理的業(yè)務(wù),很多人還是傾向于使用Hadoop,但是Hadoop封裝的函數(shù)只有map和Reduce太過(guò)單一,而不像spark一類(lèi)的計(jì)算框架有更多封裝的函數(shù)(可參考博客spark專(zhuān)欄)。可以大大提升開(kāi)發(fā)效率。

          b、計(jì)算的框架選用Spark以及RHadoop,這里Spark的主要用途有兩種,一種是對(duì)于數(shù)據(jù)處理與上層應(yīng)用所指定的規(guī)則的數(shù)據(jù)篩選過(guò)濾,(通過(guò)Scala編寫(xiě)spark代碼提交至sparksubmit)。一種是服務(wù)于上層應(yīng)用的SparkSQL(通過(guò)啟動(dòng)spark thriftserver與前臺(tái)應(yīng)用進(jìn)行連接)。RHadoop的應(yīng)用主要在于對(duì)于標(biāo)簽數(shù)據(jù)的打分,比如利用協(xié)同過(guò)濾算法等各種推薦算法對(duì)數(shù)據(jù)進(jìn)行各方面評(píng)分。

          c、MongoDB內(nèi)存數(shù)據(jù)的應(yīng)用主要在于對(duì)于單個(gè)用戶(hù)的實(shí)時(shí)的查詢(xún),也是通過(guò)對(duì)spark數(shù)據(jù)梳理后的標(biāo)簽寬表進(jìn)行數(shù)據(jù)格式轉(zhuǎn)換(json格式)導(dǎo)入mongodb,前臺(tái)應(yīng)用可通過(guò)連接mongodb進(jìn)行數(shù)據(jù)轉(zhuǎn)換,從而進(jìn)行單個(gè)標(biāo)簽的展現(xiàn)。(當(dāng)然也可將數(shù)據(jù)轉(zhuǎn)換為Redis中的key value形式,導(dǎo)入Redis集群)

          d、mysql的作用在于針對(duì)上層應(yīng)用標(biāo)簽規(guī)則的存儲(chǔ),以及頁(yè)面信息的展現(xiàn)。后臺(tái)的數(shù)據(jù)寬表是與spark相關(guān)聯(lián),通過(guò)連接mysql隨后cache元數(shù)據(jù)進(jìn)行filter、select、map、reduce等對(duì)元數(shù)據(jù)信息的整理,再與真實(shí)存在于Hdfs的數(shù)據(jù)進(jìn)行處理。

          3、面向應(yīng)用

          從剛才的數(shù)據(jù)整理、數(shù)據(jù)平臺(tái)的計(jì)算,都已經(jīng)將服務(wù)于上層應(yīng)用的標(biāo)簽大寬表生成。(用戶(hù)所對(duì)應(yīng)的各類(lèi)標(biāo)簽信息)。那么前臺(tái)根據(jù)業(yè)務(wù)邏輯,勾選不同的標(biāo)簽進(jìn)行求和、剔除等操作,比如本月流量大于200M用戶(hù)(標(biāo)簽)+本月消費(fèi)超過(guò)100元用戶(hù)(標(biāo)簽)進(jìn)行和的操作,通過(guò)前臺(tái)代碼實(shí)現(xiàn)sql的拼接,進(jìn)行客戶(hù)數(shù)目的探索。這里就是通過(guò)jdbc的方式連接spark的thriftserver,通過(guò)集群進(jìn)行HDFS上的大寬表的運(yùn)算求count。(這里要注意一點(diǎn),很多sql聚合函數(shù)以及多表關(guān)聯(lián)join 相當(dāng)于hadoop的mapreduce的shuffle,很容易造成內(nèi)存溢出,相關(guān)參數(shù)調(diào)整可參考本博客spark欄目中的配置信息)這樣便可以定位相應(yīng)的客戶(hù)數(shù)量,從而進(jìn)行客戶(hù)群、標(biāo)簽的分析,產(chǎn)品的策略匹配從而精準(zhǔn)營(yíng)銷(xiāo)。

          十二、用戶(hù)畫(huà)像困難點(diǎn)、用戶(hù)畫(huà)像瓶頸

          困難點(diǎn)

          用戶(hù)畫(huà)像困難點(diǎn)主要表現(xiàn)為以下4個(gè)方面

          在畫(huà)像之前需要知道產(chǎn)品的用戶(hù)特征和用戶(hù)使用產(chǎn)品的行為等因素,從而從總體上掌握對(duì)用戶(hù)需求需求

          創(chuàng)建用戶(hù)畫(huà)像不是抽離出典型進(jìn)行單獨(dú)標(biāo)簽化的過(guò)程,而是要融合邊緣環(huán)境的相關(guān)信息來(lái)進(jìn)行討論

          挑戰(zhàn)

          我們期間遇到了兩方面的挑戰(zhàn):

          1、億級(jí)畫(huà)像系統(tǒng)實(shí)踐和應(yīng)用

          2、記錄和存儲(chǔ)億級(jí)用戶(hù)的畫(huà)像,支持和擴(kuò)展不斷增加的維度和偏好,毫秒級(jí)的更新,支撐個(gè)公司性化推薦、廣告投放和精細(xì)化營(yíng)銷(xiāo)等產(chǎn)品。

          瀏覽 111
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  亚洲第一成人网址 | 做爱www | 亚洲三级在线播放 | 天堂va欧美ⅴa亚洲va一夜 | 黄色片网站视频看免费在线 |