構(gòu)建用戶畫像中所用到的數(shù)據(jù)挖掘算法數(shù)據(jù)管道關(guān)注共 4944字,需瀏覽 10分鐘 ·2020-10-22 08:02 前言談及用戶畫像,我想產(chǎn)品和運(yùn)營的朋友們都不會(huì)陌生,用戶畫像是用戶研究的重要輸出,它能幫助我們更好的進(jìn)行業(yè)務(wù)決策以及產(chǎn)品設(shè)計(jì)。用戶畫像落實(shí)到產(chǎn)品設(shè)計(jì),本質(zhì)上是將數(shù)據(jù)組合成數(shù)據(jù)特征,從而形成用戶的數(shù)據(jù)模型。構(gòu)建用戶畫像的主流方法有4種:1、基于數(shù)據(jù)統(tǒng)計(jì)2、基于規(guī)則定義3、基于聚類4、基于主題模型前兩者是基于已有數(shù)據(jù)的構(gòu)建方法,其缺陷是無法處理數(shù)據(jù)缺失或不在規(guī)則范圍內(nèi)的用戶。而解決這一類問題,也正是機(jī)器學(xué)習(xí)存在的意義,它讓計(jì)算機(jī)像人一樣去學(xué)習(xí)處理問題,并給出答案。本文將從構(gòu)建用戶畫像的角度和大家分享能夠運(yùn)用在其中的一些AI算法,希望能給大家提供一些價(jià)值。用戶畫像偏向于定性,而產(chǎn)品設(shè)計(jì)是將需求從定性轉(zhuǎn)換為定量的過程,用戶畫像在量化過后我們也稱之為用戶標(biāo)簽。一、標(biāo)簽的層級圖1-構(gòu)建用戶畫像的三個(gè)步驟構(gòu)建用戶標(biāo)簽我拆分了三個(gè)步驟,分別是層級、生產(chǎn)以及權(quán)重。理解標(biāo)簽的層級能夠幫助我們設(shè)計(jì)產(chǎn)品架構(gòu),并且熟悉標(biāo)簽生產(chǎn)的方法。圖2-標(biāo)簽的層級劃分方式標(biāo)簽的層級有兩種劃分方式,方式1是較為常見的做法,而方式2查閱于京東的數(shù)據(jù)分析師凌靖的文章,結(jié)合兩種方式之后形成了下圖圖3。圖3-標(biāo)簽的層級標(biāo)簽的每一個(gè)層級,可以將其理解為對上一層標(biāo)簽的再次提煉。對照著圖3,我們試著理解這4個(gè)層級:1、原始數(shù)據(jù)來源于用戶的基礎(chǔ)信息、交易數(shù)據(jù)、訪問數(shù)據(jù),如:用戶的注冊手機(jī)號(hào)碼、用戶的歷史訂單、用戶的訪問軌跡等。2、事實(shí)標(biāo)簽是對原始數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析后的初步提煉結(jié)果。3、模型標(biāo)簽及預(yù)測標(biāo)簽3-1、模型標(biāo)簽由一個(gè)或多個(gè)事實(shí)標(biāo)簽組合而成,是基于模型訓(xùn)練的結(jié)果。以模型標(biāo)簽“交易偏好”為例,它是由交易商品類型、交易場景、交易來源這幾個(gè)事實(shí)標(biāo)簽組合而成的。3-2、預(yù)測標(biāo)簽以已有的模型標(biāo)簽數(shù)據(jù)作為特征,經(jīng)過機(jī)器學(xué)習(xí)生產(chǎn)的標(biāo)簽。由于預(yù)測標(biāo)簽會(huì)映射成為模型標(biāo)簽,所以在圖3中將2者放置于同一個(gè)層級。4、策略標(biāo)簽策略標(biāo)簽,則是用戶標(biāo)簽構(gòu)建的最終目的,根據(jù)目的提煉用戶,并對用戶進(jìn)行定向的營銷。標(biāo)簽的層級,指導(dǎo)著產(chǎn)品經(jīng)理構(gòu)建用戶畫像的每個(gè)步驟。前兩個(gè)層級,我們需要對缺失的數(shù)據(jù)建立數(shù)據(jù)源,對數(shù)據(jù)進(jìn)行清洗、修復(fù)以及特征構(gòu)建等;后兩個(gè)層級,我們需要使用合適的方式生產(chǎn)標(biāo)簽。二、標(biāo)簽的生產(chǎn)在第一章中我們理解了標(biāo)簽的層級,這一章主要講述標(biāo)簽的生產(chǎn)過程,用戶畫像的構(gòu)建方式不同,生產(chǎn)方式也不同。1、基于規(guī)則定義的標(biāo)簽生產(chǎn)方式顧名思義,這種生產(chǎn)方式是根據(jù)固定的規(guī)則,通過數(shù)據(jù)查詢的結(jié)果生產(chǎn)標(biāo)簽。這里的重點(diǎn)在于如何制定規(guī)則。從數(shù)據(jù)的變化頻次來看,可以將標(biāo)簽劃分為靜態(tài)標(biāo)簽以及動(dòng)態(tài)標(biāo)簽。靜態(tài)標(biāo)簽變化的頻次低,或者一旦確認(rèn)不做改變。而動(dòng)態(tài)標(biāo)簽變化頻繁,它會(huì)衰減也可能會(huì)消失。以靜態(tài)標(biāo)簽和動(dòng)態(tài)標(biāo)簽為思路向下順延,我們可以劃分為基礎(chǔ)屬性以及偏好行為兩大類,如下圖圖4所示:圖4-用戶標(biāo)簽的規(guī)則分類這是一張比較普適的圖,在實(shí)際應(yīng)用的過程中產(chǎn)品經(jīng)理可以根據(jù)業(yè)務(wù)去定義更多的類型。將類型劃分清楚,用戶標(biāo)簽的生產(chǎn)工具已經(jīng)初具雛形。在設(shè)置規(guī)則時(shí)產(chǎn)品經(jīng)理應(yīng)該適當(dāng)抽象,過于精細(xì)會(huì)增加研發(fā)的周期,上線后的數(shù)據(jù)查詢也會(huì)有較大的壓力。其次也可能因?yàn)楹Y選條件過多,查詢的數(shù)據(jù)樣本不足,導(dǎo)致空耗資源。適當(dāng)抽象考驗(yàn)產(chǎn)品經(jīng)理對需求、資源以及應(yīng)用的平衡能力,以用戶訪問行為為例,在初期不建議放開全量查詢,可以優(yōu)先將頻次高、強(qiáng)度高的查詢需求抽象成規(guī)則,如商品詳情、平臺(tái)活動(dòng)、渠道投放等。基于規(guī)則定義和基于數(shù)據(jù)統(tǒng)計(jì)這兩種用戶標(biāo)簽構(gòu)建方式在產(chǎn)品設(shè)計(jì)中的邏輯是相對簡單的,就不花更多的篇幅解釋了。2、基于主題模型的標(biāo)簽生產(chǎn)方式主題模型,最開始運(yùn)用于內(nèi)容領(lǐng)域,目的是找到用戶的偏好,它將內(nèi)容劃分為了3個(gè)層級:分類、主題、關(guān)鍵詞。圖5-基于主題模型的標(biāo)簽生產(chǎn)方式在用戶標(biāo)簽中我們可以參照分類算法將用戶進(jìn)行分類、聚類,使用關(guān)鍵詞的算法挖掘用戶的偏好,從而生產(chǎn)標(biāo)簽。2-1、線性支持向量機(jī)線性支持向量機(jī)(Linear Support Vector Machine)是一種二分類算法,適用于“是與否”,“有或無”的問題,它隸屬于機(jī)器學(xué)習(xí)中的有監(jiān)督學(xué)習(xí)(Supervised Learning)。圖6-函數(shù)公式有監(jiān)督學(xué)習(xí),類似我們從小接觸的函數(shù)公式,即根據(jù)輸入(x),和公式f(x)得到輸出(y),假設(shè)x是數(shù)據(jù)的特征,那么經(jīng)過函數(shù)的運(yùn)算后我們能夠得到分類結(jié)果。以人口屬性為例,非社交應(yīng)用用戶填寫自己性別的主動(dòng)性較低。當(dāng)我們想了解用戶的性別組成,卻只有10%用戶填寫了性別,而另外90%的用戶的性別是未知的。在機(jī)器學(xué)習(xí)中,我們會(huì)將明確性別的用戶作為數(shù)據(jù)樣本,提取他們的數(shù)據(jù)特征訓(xùn)練模型。以明確性別的用戶的數(shù)據(jù)特征設(shè)為x,性別為y,訓(xùn)練出f(x)的函數(shù)之后,我們將其他未知性別的用戶特征代入到公式f(x)中,從而去預(yù)測他們的性別。函數(shù)是是由模型訓(xùn)練而成的,線性支持向量機(jī)是怎么訓(xùn)練的呢?圖7-支持向量機(jī)圖解在圖7中,我們發(fā)現(xiàn)有一條直線將象限中的數(shù)據(jù)分成了兩部分,而支持向量機(jī)則是找到一條劃分效果最好的直線。劃分效果越好,新數(shù)據(jù)分類錯(cuò)誤的可能性也越低,而這兩個(gè)類別在支持向量機(jī)中我們也叫正樣本和負(fù)樣本。回到線性支持向量機(jī)的定義:“對于給定的數(shù)據(jù)集,能在樣本空間中找到一條劃分直線,從而將兩個(gè)不同類別的樣本分開,并且這條直線距離最接近的訓(xùn)練數(shù)據(jù)點(diǎn)最遠(yuǎn)?!?/span>圖8-支持向量機(jī)實(shí)例圖8以購買過男性/女性短袖作為男性用戶和女性用戶的特征,黑點(diǎn)表示為已知的男性用戶,白點(diǎn)為已知的女性用戶。當(dāng)遇到新的未知性別的用戶,但是我們發(fā)現(xiàn)其有購買過男性短袖這一行為,而這一用戶的數(shù)據(jù)落在了男性部分,所以我們預(yù)測這個(gè)用戶是男性。當(dāng)然在實(shí)際過程中,數(shù)據(jù)的特征絕對不僅是簡單的二維特征,在這里只是方便大家理解。線性支持向量機(jī)在三維求解的是一個(gè)分類效果最好的平面,而在高維則是線性函數(shù)。圖9-線性支持向量機(jī)的目標(biāo)函數(shù)線性支持向量機(jī)的目標(biāo)函數(shù)求解的過程比較復(fù)雜(文末彩蛋預(yù)警),在小規(guī)模數(shù)據(jù)集中線性支持向量機(jī)的表現(xiàn)是較好的,但是由于受到了數(shù)據(jù)量的限制,我們會(huì)運(yùn)用訓(xùn)練更加簡單并且能實(shí)時(shí)計(jì)算的算法——邏輯回歸。2-2、邏輯回歸邏輯回歸(Logistic Regression)是和線性支持向量機(jī)非常相似,它們都是有監(jiān)督學(xué)習(xí)方法,在不考慮核函數(shù)時(shí)都是線性的分類方法。其不同點(diǎn)在于,線性支持向量機(jī)是基于距離分類,而邏輯回歸是基于可能性分類。理解邏輯回歸之前,我們先復(fù)習(xí)一下最簡單的一元線性回歸。一元線性回歸的公式是:y=kx+b。圖10-一元線性回歸圖例我們假定圖10中的直線,代表著人在勻速狀態(tài)下路程與速度的關(guān)系。但在實(shí)際情況下人的速度不是恒定的,我們沒有辦法使不同時(shí)間的速度都穿過這條直線。退而求其次,我們?nèi)フ乙粭l最接近這些速度數(shù)據(jù)的支線。看到圖10的函數(shù)圖例,大家會(huì)發(fā)現(xiàn)線性回歸和線性支持向量機(jī)非常的相像,線性回歸與邏輯回歸有什么關(guān)系?邏輯回歸又是怎樣的一種分類方式?邏輯回歸在線性回歸的基礎(chǔ)上套用了sigmoid函數(shù),它將回歸函數(shù)的結(jié)果映射在sigmoid函數(shù)之中,這個(gè)函數(shù)的特點(diǎn)是其值域分布在[0,1]之間,1和0對應(yīng)了二分類的“是與否”,隨著x值的變化,y值會(huì)不斷的趨近于0或1,這種趨近我們稱之為可能性。圖11-sigmoid函數(shù)圖例在線性支持向量機(jī)中只有兩種值:正樣本和負(fù)樣本,而邏輯回歸除了分類還能夠表達(dá)分類的概率。2-3、文本挖掘算法:TF-IDFTF意思是詞頻(Term Frequency),IDF意思是逆文本頻率指數(shù)(Inverse Document Frequency),在用戶畫像的構(gòu)建中我們會(huì)將其運(yùn)用于生產(chǎn)用戶的偏好標(biāo)簽。TF表述的核心思想是,在1條文本中反復(fù)出現(xiàn)的詞更重要。而IDF的思想是,在所有文本都出現(xiàn)的詞是不重要的,IDF用于修正TF所表示的計(jì)算結(jié)果。圖12-TF-IDF計(jì)算公式上文描述TF-IDF能夠用于生產(chǎn)用戶的偏好標(biāo)簽,其中的原理是什么呢?我們將一名用戶類比為一篇文章,用戶瀏覽的商品標(biāo)題在分詞匯總后作為其中的詞庫,平臺(tái)的用戶總數(shù)即為文本總數(shù),出現(xiàn)該詞語的文本數(shù)作為有同樣瀏覽行為的用戶。這樣轉(zhuǎn)置過后,就能夠進(jìn)行計(jì)算了。圖13-用戶A的商品瀏覽記錄以用戶A為例,用戶A擁有3條瀏覽記錄,分詞后總計(jì)17個(gè)詞。設(shè):平臺(tái)的用戶總數(shù)=10000人,用戶瀏覽過的商品標(biāo)題帶有“黑色”1詞的用戶有500人,底數(shù)為2。圖14-標(biāo)簽“黑色”的TF-IDF以底數(shù)為2,可計(jì)算“黑色”這個(gè)標(biāo)簽對用戶的權(quán)重是0.52,有了權(quán)重我們能夠?qū)⑵溥\(yùn)用于尋找相似用戶。三、標(biāo)簽的權(quán)重圖15-標(biāo)簽權(quán)重計(jì)算公式標(biāo)簽權(quán)重的計(jì)算公式來源于趙洪田撰寫的文章《用戶標(biāo)簽之標(biāo)簽權(quán)重算法》,權(quán)重公式的解讀如下:1、行為類型權(quán)重指的是對于同一類標(biāo)簽,由于其行為的輕重不同所以權(quán)重不同。如:用戶對于某商品有過生成訂單的行為,根據(jù)訂單未支付、已支付未退款、已支付已退款三種訂單狀態(tài),制定不同的權(quán)重。2、時(shí)間衰減因子時(shí)間衰減因子體現(xiàn)了標(biāo)簽的熱度隨著時(shí)間逐漸冷卻的過程,它來源于牛頓冷卻定律。圖16-牛頓冷卻定律原始公式定律描述的是物體的冷卻速度與其當(dāng)前溫度和室溫之間的溫差成正比。運(yùn)用于新聞?lì)I(lǐng)域,一條新聞可能在今天它的“溫度”是最高的,但是隨著時(shí)間,這條新聞會(huì)逐漸的變成和普通新聞一樣的“溫度”。經(jīng)過對牛頓冷卻定律的推導(dǎo),我們得出了以下公式:圖17-冷卻系數(shù)計(jì)算公式將公式翻譯成中文:當(dāng)前溫度=原始溫度 X exp(-冷卻系數(shù) X 間隔時(shí)間)運(yùn)用于標(biāo)簽的翻譯:當(dāng)前權(quán)重=原始權(quán)重 X exp(-冷卻系數(shù) X 間隔時(shí)間)如:將用戶發(fā)生行為的當(dāng)日該偏好的權(quán)重設(shè)置為1,10天后設(shè)置為0.2,也就是經(jīng)過9天后權(quán)重會(huì)衰減是0.2,將已知變量代入到圖13的公式中,經(jīng)過指數(shù)的運(yùn)算得到冷卻系數(shù),從而得到時(shí)間衰減因子。對于不同的標(biāo)簽,時(shí)間的衰減因子系數(shù)是不同的,有的標(biāo)簽甚至是不受時(shí)間所影響,在計(jì)算時(shí)可以不必考慮衰減因子。公式中的TF-IDF、行為頻次,前者已經(jīng)描述過,后者也比較好理解在這里也不再贅述。標(biāo)簽的權(quán)重可以用于查找相似用戶,進(jìn)行個(gè)性化推薦,如果有有興趣的朋友可以閱讀我的上一篇文章《如何理解個(gè)性化推薦中的數(shù)學(xué)原理》。寫在最后近期恰好設(shè)計(jì)了用戶標(biāo)簽的提取工具,撰寫本文原意是想回顧項(xiàng)目、查漏補(bǔ)缺。過程中閱讀了一些人工智能的書籍,給了自己很多的啟發(fā),于是也將所了解的一些算法添加進(jìn)來,如果有理解不正確的地方也請朋友們不吝指教。這篇文章涉及的算法部分主要參考了:《產(chǎn)品經(jīng)理進(jìn)階:100個(gè)案例搞懂人工智能》,這是一本很好的工具書,提供了特別好的知識(shí)框架讓我體系化的認(rèn)識(shí)人工智能。重點(diǎn)參考資料1、林中翹—《產(chǎn)品經(jīng)理進(jìn)階:100個(gè)案例搞懂人工智能》2、吳軍—《數(shù)學(xué)之美》3、CWS_chen—《用戶畫像原理、技術(shù)選型及架構(gòu)實(shí)現(xiàn)》https://blog.csdn.net/SecondLieutenant/article/details/811535654、凌靖—《用戶畫像》https://zhuanlan.zhihu.com/p/343859145、Jack Cui—機(jī)器學(xué)習(xí)實(shí)戰(zhàn)教程(八):支持向量機(jī)原理篇之手撕線性SVMhttps://cuijiahua.com/blog/2017/11/ml_8_svm_1.html6、伏草唯存—邏輯回歸模型算法研究和案例分析https://cloud.tencent.com/developer/article/13308107、hffzkl—基于牛頓冷卻定律的時(shí)間衰減函數(shù)模型https://blog.51cto.com/9269309/18655548、趙宏田—《用戶標(biāo)簽之權(quán)重算法》9、劉星辰—《基于文本挖掘的用戶畫像系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)》10、Coding Fish—《SVM原理及推導(dǎo)》https://www.jianshu.com/p/05693f2091b7 瀏覽 159點(diǎn)贊 評論 收藏 分享 手機(jī)掃一掃分享分享 舉報(bào) 評論圖片表情視頻評價(jià)全部評論推薦 用戶畫像的構(gòu)建及應(yīng)用數(shù)據(jù)D江湖0如何構(gòu)建用戶畫像系統(tǒng)?數(shù)據(jù)管道0數(shù)據(jù)應(yīng)用—用戶畫像產(chǎn)品劉0構(gòu)建用戶畫像的流程與方法三分設(shè)0數(shù)據(jù)挖掘十大算法 : 數(shù)據(jù)挖掘十《世界著名計(jì)算機(jī)教材精選:數(shù)據(jù)挖掘十大算法》詳細(xì)介紹了在實(shí)際中用途最廣、影響最大的十種數(shù)據(jù)挖掘算法,數(shù)據(jù)挖掘十大算法 : 數(shù)據(jù)挖掘十數(shù)據(jù)挖掘十大算法 : 數(shù)據(jù)挖掘十0【用戶畫像】小米用戶畫像實(shí)戰(zhàn)數(shù)據(jù)D江湖0數(shù)據(jù)挖掘原理與算法《數(shù)據(jù)挖掘原理與算法》(第2版)是一本全面介紹數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)技術(shù)的專業(yè)書籍,它系統(tǒng)地闡述了數(shù)據(jù)挖數(shù)據(jù)挖掘原理與算法數(shù)據(jù)挖掘原理與算法0這樣構(gòu)建的用戶畫像!想不懂你的用戶都難杰哥的IT之旅0點(diǎn)贊 評論 收藏 分享 手機(jī)掃一掃分享分享 舉報(bào)