用戶畫像

用戶標簽

標簽是我們對多維事物的降維理解，抽象出事物更具有代表性的特點。我們永遠無法完全的了解一個人，所以我們只能夠通過一個一個標簽的來刻畫他，所有的標簽最終會構建為一個立體的畫像，一個詳盡的用戶畫像可以幫助我們更加好的理解用戶。

用戶畫像的分類

原始數(shù)據(jù)

原始數(shù)據(jù)一共包含四個方面

用戶數(shù)據(jù)：例如用戶的性別、年齡、渠道、注冊時間、手機機型等。
內(nèi)容數(shù)據(jù)：例如游戲的品類，對游戲描述、評論的爬蟲之后得到的關鍵詞、標簽等。
用戶與內(nèi)容的交互：基于用戶的行為，了解了什么樣的用戶喜歡什么樣的游戲品類、關鍵詞、標簽等。
外部數(shù)據(jù)：單一的產(chǎn)品只能描述用戶的某一類喜好，例如游戲的喜好、視頻的喜好，外部數(shù)據(jù)標簽可以讓用戶更加的立體。

事實標簽

事實標簽可以分為靜態(tài)畫像和動態(tài)畫像。

靜態(tài)畫像：用戶獨立于產(chǎn)品場景之外的屬性，例如用戶的自然屬性，這類信息比較穩(wěn)定，具有統(tǒng)計性意義。
動態(tài)畫像：用戶在場景中所產(chǎn)生的顯示行為或隱式行為。
顯示行為：用戶明確的表達了自己的喜好，例如點贊、分享、關注、評分等。（評論的處理更加復雜，需要通過 NLP 的方式來判斷用戶的感情是正向、負向、中性）。
隱式行為：用戶沒有明確表達自己的喜好，但“口嫌體正直”，用戶會用實際行動，例如點擊、停留時長等隱性的行為表達自己的喜好。

隱式行為的權重往往不會有顯示行為大，但是在實際業(yè)務中，用戶的顯示行為都是比較稀疏的，所以需要依賴大量的隱式行為。

模型標簽

模型標簽是由事實標簽通過加權計算或是聚類分析所得。通過一層加工處理后，標簽所包含的信息量得到提升，在推薦過程中效果更好。

聚類分析：例如按照用戶的活躍度進行聚類，將用戶分為高活躍-中活躍-低活躍三類。
加權計算：根據(jù)用戶的行為將用戶的標簽加權計算，得到每一個標簽的分數(shù)，用于之后推薦算法的計算。

內(nèi)容畫像

內(nèi)容畫像：例如對于文章中的新聞資訊類推薦，需要利用 NLP 的技術對文章的標題，正文等等提取關鍵詞、找到對應的標簽等。視頻除了對于分類、標題關鍵詞的抓取外，還依賴于圖片處理的技術。因此在推薦前需要對推薦的商品或內(nèi)容進行一系列的處理過程。環(huán)境變量：對于推薦系統(tǒng)來說，環(huán)境畫像也非常的重要。例如在短視頻的推薦場景中，用戶在看到一條視頻所處的時間、地點以及當時所瀏覽的前后內(nèi)容、當天已瀏覽時間等是非常重要的變量。推薦內(nèi)容與場景通?？梢苑譃橐韵聨最?/p>

算法構建

召回策略

召回的目的：當用戶與內(nèi)容的量級比較大，例如對百萬量級的用戶與內(nèi)容計算概率，就會產(chǎn)生百萬*百萬量級的計算量。但同時，大量內(nèi)容中真正的精品只是少數(shù)，對所有內(nèi)容進行一次計算將非常的低效，會浪費大量的資源和時間。因此采用召回策略，例如熱銷召回，召回一段時間內(nèi)最熱門的 100 個內(nèi)容，只需進行一次計算動作，就可以對所有用戶應用。
召回的重要性：雖然精排模型一直是優(yōu)化的重點，但召回模型也非常的重要，因為如果召回的內(nèi)容不對，怎么精排都是錯誤的。
召回方法：召回的策略不應該是簡單的策略堆砌，而應該是方法的相互補充。

熱銷召回：將一段時間內(nèi)的熱門內(nèi)容召回。
協(xié)同召回：基于用戶與用戶行為的相似性推薦，可以很好的突破一定的限制，發(fā)現(xiàn)用戶潛在的興趣偏好。
標簽召回：根據(jù)每個用戶的行為，構建標簽，并根據(jù)標簽召回內(nèi)容。
時間召回：將一段時間內(nèi)最新的內(nèi)容召回，在新聞視頻等有時效性的領域常用。是常見的幾種召回方法。

精排策略

精排模型

精排模型的不同類別

精排模型的基本原理

Model-based 精排模型——邏輯回歸為例

原理介紹

1.概念：邏輯回歸通過 sigmoid 函數(shù)，將線性回歸變?yōu)榭梢越鉀Q二分類的方法，它可用于估計某種事物發(fā)生的可能性。

2.計算公式：Y 根據(jù)目標設計：例如是否點擊（是：1，否：0，最后預測一個 0-1 之間的點擊概率）；X 根據(jù)特征工程設計：這一塊就涉及到了前面提到的用戶畫像與內(nèi)容畫像，所有的畫像都是對樣本的特征的刻畫。特征工程需要根據(jù)業(yè)務場景選擇合適的特征并進行一定的加工；W 由模型訓練得到。構建流程基于我們的目標，需要進行樣本的收集（樣本是對客觀世界的具體描述），通過對已收集到的樣本進行特征構造，并對其進行訓練，最終求出模型參數(shù)的具體數(shù)值。

建立樣本邏輯回歸為有監(jiān)督模型，因此需要有已經(jīng)分類好的樣本。正樣本：用戶曝光過某物品并點擊。負樣本：用戶曝光過某物品并且沒有點擊。如果正負樣本差距過大，可以將負樣本隨機抽樣后與正樣本一起訓練?；蛑槐Ａ粲悬c擊行為的用戶作為樣本，將曝光但是沒有被點擊的物品作為負樣本。

特征工程特征工程是對收集到的樣本進行更加深度的特征刻畫。雖然作為算法人員與用戶接觸較少，但對身邊使用該產(chǎn)品的同學，進行深入的觀察與訪談，了解他們對于所推薦內(nèi)容的反饋，往往可以得到意料之外的特征開發(fā)方向。主要分為以下幾個維度。

基礎數(shù)據(jù)
趨勢數(shù)據(jù)
時間數(shù)據(jù)
交叉數(shù)據(jù)

不同交叉方法得到的不同的參數(shù)數(shù)量

其他

拓展閱讀：Learning and Reasoning on Graph for Recommendation

staff.ustc.edu.cn/~hexn

Concept to Code:Deep Learning for Multitask Recommendation

drive.google.com/file/d

算法衡量標準

算法衡量指標

硬指標：對于大多數(shù)的平臺而言，推薦系統(tǒng)最重要的作用是提升一些“硬指標”。例如新聞推薦中的點擊率，但是如果單純以點擊率提升為目標，最后容易成為一些低俗內(nèi)容，“標題黨”的天下。
軟指標：除了“硬指標”，推薦系統(tǒng)還需要很多“軟指標”以及“反向指標”來衡量除了點擊等之外的價值。好的推薦系統(tǒng)能夠擴展用戶的視野，發(fā)現(xiàn)那些他們感興趣，但是不會主動獲取的內(nèi)容。同時推薦系統(tǒng)還可以幫助平臺挖掘被埋沒的優(yōu)質長尾內(nèi)容，介紹給感興趣的用戶。

獲得推薦效果

如何去獲得推薦效果?？梢苑譃殡x線實驗、用戶調(diào)查、在線實驗三種方法。

離線實驗：通過反復在數(shù)據(jù)樣本進行實驗來獲得算法的效果。通常這種方法比較簡單、明確。但是由于數(shù)據(jù)是離線的，基于過去的歷史數(shù)據(jù)，不能夠真實的反應線上效果。同時需要通過時間窗口的滾動來保證模型的客觀性和普適性。
用戶反饋：當在離線實驗階段得到了一個比較不錯的預測結果之后，就需要將推薦的結果拿到更加真實的環(huán)境中進行測評，如果這個時候將算法直接上線，會面臨較高的風險。因為推薦結果的好壞不能僅僅從離線的數(shù)字指標衡量，更要關注用戶體驗，所以可以通過小范圍的反復白板測試，獲得自己和周圍的人對于推薦結果的直觀反饋，進行優(yōu)化。
在線測試（AB test）：實踐是檢驗真理的唯一標準，在推薦系統(tǒng)的優(yōu)化過程中，在線測試是最貼近現(xiàn)實、最重要的反饋方式。通過 AB 測試的方式，可以衡量算法與其他方法、算法與算法之間的效果差異。但是要注意的是，AB 測序需要一定的觀察期以及科學的實驗流程，才能證明得到的結論是真實可信的。

除了算法本身之外...

推薦算法是否會導致信息不平等和信息繭房？

推薦系統(tǒng)并非導致信息不平等和信息繭房的根本原因。

內(nèi)容的不平等或許更多的產(chǎn)生于用戶天性本身，而推薦算法的作用更像是幫助用戶“訂閱”了不同的內(nèi)容。用戶天然的會對信息產(chǎn)生篩選，并集中在自己的興趣領域。在過去雜志訂閱的階段，雖然每個雜志和報紙的內(nèi)容都是完全相同的，但是用戶通過訂閱不同的雜志實際接受到了完全不同的消息。而今天的內(nèi)容 APP 提供了各種話題，各種類型的內(nèi)容，但用戶通過推薦算法，在無意識的情況下“訂閱”了不同的“雜志”。
人們更加集中于垂直的喜好是不可逆轉的趨勢。從內(nèi)容供給的角度來講，從內(nèi)容的匱乏到繁榮，從中心化到垂直聚群，用戶的選擇更貼近自己的喜好是不可逆轉的趨勢。在沒有提供太多選項的時候，人們會更多的集中在某幾個內(nèi)容上面，而當今天層出不窮的內(nèi)容出現(xiàn)，人們開始追逐更加個性化，精細化的內(nèi)容。

但不可否認的是，推薦系統(tǒng)的便捷性、自動化、實時性會加重這些問題。在這樣的情況下，我們能做些什么？

追求長期價值，“帶用戶探索世界”：展示更多的優(yōu)質內(nèi)容，而不是僅僅局限于用戶更有可能點擊的內(nèi)容，擴展用戶興趣認知，給用戶展示多元化的內(nèi)容，用戶消費更多的內(nèi)容，更久的在平臺上停留。讓用戶獲取到更多的，更長遠價值，才是讓用戶在平臺上留存的本質。

推薦算法如何幫助用戶挖掘小眾興趣？

擴大系統(tǒng)的資源池，讓小眾的興趣也有足夠的內(nèi)容覆蓋。
產(chǎn)品設計鼓勵更主動的行為表達（收藏、關注），減少因為時間衰減的將小眾興趣遺忘。
在混排的時候加入更多隨機的內(nèi)容，或者限制某一類型出現(xiàn)的頻率。

算法如何更好的與產(chǎn)品結合？

關注產(chǎn)品體驗，而不僅僅是算法本身的表現(xiàn)。
關注隱性反向指標：用戶對于內(nèi)容的感知是非常敏感的，不好的內(nèi)容會損傷用戶體驗，甚至導致用戶流失。但問題是不是所有用戶在被推薦了不喜歡或不良的內(nèi)容后會產(chǎn)生顯性行為，例如“投訴行為”，所以還需要更多的關注反向的隱性指標，例如觀察用戶在被推薦了某些內(nèi)容后是否造成了流失或使用頻率的下降。

推薦閱讀：
世界的真實格局分析，地球人類社會底層運行原理
企業(yè)IT技術架構規(guī)劃方案
論數(shù)字化轉型——轉什么，如何轉？
企業(yè)10大管理流程圖，數(shù)字化轉型從業(yè)者必備！
【中臺實踐】華為大數(shù)據(jù)中臺架構分享.pdf
數(shù)字化轉型的本質（10個關鍵詞）
小米用戶畫像實戰(zhàn)，48頁PPT下載
華為大數(shù)據(jù)解決方案（PPT）

推薦系統(tǒng)架構與算法流程詳解

推薦算法的理解

推薦系統(tǒng)的整體框架

用戶畫像

用戶標簽

用戶畫像的分類

原始數(shù)據(jù)

事實標簽

模型標簽

內(nèi)容畫像

算法構建

推薦算法流程

召回策略

精排策略

精排模型

精排模型的不同類別

精排模型的基本原理

Model-based 精排模型——邏輯回歸為例

其他

算法衡量標準

算法衡量指標

獲得推薦效果

除了算法本身之外...

推薦算法是否會導致信息不平等和信息繭房？

推薦算法如何幫助用戶挖掘小眾興趣？

算法如何更好的與產(chǎn)品結合？

推薦系統(tǒng)架構與算法流程詳解

推薦算法的理解

推薦系統(tǒng)的整體框架

用戶畫像

用戶標簽

用戶畫像的分類

原始數(shù)據(jù)

事實標簽

模型標簽

內(nèi)容畫像

算法構建

推薦算法流程

召回策略

精排策略

精排模型

精排模型的不同類別

精排模型的基本原理

Model-based 精排模型——邏輯回歸為例

其他

算法衡量標準

算法衡量指標

獲得推薦效果

除了算法本身之外...

推薦算法是否會導致信息不平等和信息繭房？

推薦算法如何幫助用戶挖掘小眾興趣？

算法如何更好的與產(chǎn)品結合？

推薦算法是否會導致信息不平等和信息繭房？

算法如何更好的與產(chǎn)品結合？