<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          20分鐘吃掉推薦算法業(yè)務(wù)知識

          共 3519字,需瀏覽 8分鐘

           ·

          2022-08-09 06:50

          一, 搜索和推薦

          搜索是人找物,而推薦是物找人。搜索一般用來滿足用戶比較明確的需求,而推薦則可以用來滿足用戶相對模糊的需求。

          大家熟悉的推薦系統(tǒng)包括 抖音短視頻、今日頭條新聞推薦、網(wǎng)易云音樂每日推薦、淘寶京東的猜你喜歡推薦、B站的視頻推薦等等。

          大家熟悉的搜索系統(tǒng)包括 谷歌百度搜索、淘寶京東的商品搜索欄、知乎問題搜索欄、以及脈脈上的找人搜索等等。

          搜索有一定的使用門檻,用戶需要輸入關(guān)鍵詞,至少要會打字吧,并相對準(zhǔn)確地描述自己的興趣。

          但推薦幾乎沒有使用門檻,用戶只要會刷新就可以了,每次刷新都會出來新的東西。

          完成一個最簡單的推薦系統(tǒng)的方法就是每次請求都保證能出新的東西,也就是隨機(jī)不重復(fù)推薦。

          但搜索不能這么簡單,你一定出來的要是和輸入相關(guān)的東西,不然就不叫搜索了。

          一個較理想的推薦系統(tǒng)可以做到千人千面,根據(jù)用戶偏好個性化地進(jìn)行推薦。

          二, 推薦系統(tǒng)的價值

          推薦系統(tǒng)是連接生產(chǎn)者和消費者的中間媒介。它對于生產(chǎn)者、消費者、以及平臺都有各自的價值。

          以抖音短視頻為例,生產(chǎn)者指的是視頻創(chuàng)者,消費者是刷視頻的用戶,平臺指的是抖音公司團(tuán)隊。

          • 對消費者:幫助消費者便捷地獲取信息。

          • 對生產(chǎn)者:幫助生產(chǎn)者獲取流量曝光和用戶增長。

          • 對平臺:平臺可以通過賣廣告賺取收益。

          一般來說說,用戶使用時長越長,平臺就可以插入更多的廣告。所以,推薦系統(tǒng)常常以用戶使用時常為核心優(yōu)化指標(biāo)。

          對于生產(chǎn)者,推薦系統(tǒng)非常重要的一點特性是要具備長尾效應(yīng),即頭部的作者能獲得主要的曝光,但中小創(chuàng)作者也必須要能夠獲得一定的流量。

          否則大部分的作者創(chuàng)作積極性被打壓掉之后,平臺會慢慢死掉。

          我們可以看到發(fā)展比較好的推薦系統(tǒng)的長尾都做的非常好,像抖音、B站、快手,捧紅了非常多的草根創(chuàng)作者。

          這一點是非常重要的。

          三, 推薦系統(tǒng)架構(gòu)

          如何來搭建一個推薦系統(tǒng)呢?

          第一步,我們得知道有哪些東西可以推薦吧。這就需要一個索引池,里面存儲了可能被推薦的全量內(nèi)容的id以及它們的一些特征。對于有些有時效性的內(nèi)容,比如新聞,我們在其時間過期之后,要從索引池中拿掉。同時,通過審核與控制索引池中的內(nèi)容,我們可以確保不犯致命錯誤,不推薦涉黃涉非的內(nèi)容給用戶。

          第二步,當(dāng)用戶通過登錄APP或者刷新操作觸發(fā)了一個獲取推薦信息的請求的時候,我們得知道這個用戶當(dāng)前有啥喜好吧。這就需要一個特征服務(wù),獲取用戶的年齡性別地域等屬性特征,以及根據(jù)用戶之前的瀏覽點贊等記錄計算的行為特征,由于用戶的喜好可能變化較快且需求較高,我們需要搭建服務(wù)以保證高性能。

          第三步,我們得確定把索引池中哪個內(nèi)容或者哪些內(nèi)容推薦給用戶吧。這就需要一個排序模塊,其目的是將索引池中所有內(nèi)容按照用戶可能的喜好程度進(jìn)行排序。如果索引池非常大,排序模塊通常會進(jìn)一步分成 召回和排序兩個階段,有些推薦系統(tǒng)還會在它們中間加上一個粗排階段。此外,排序模塊中通常還會使用一些打壓保送重排的策略來對模型預(yù)測結(jié)果進(jìn)行一些人為干預(yù)。

          第四步,現(xiàn)在我們已經(jīng)確定把哪些內(nèi)容推薦給用戶了,那趕緊推吧! 且慢,我們還有一個展示邏輯。許多時候我們最終呈現(xiàn)給用戶的是圖文的混排,或者內(nèi)容和廣告的混排,這個時候需要設(shè)計適當(dāng)?shù)恼故具壿嫿o到前端。

          Congratulations! 經(jīng)過 物料索引,特征服務(wù),排序模塊,展示邏輯 這樣4步,我們終于成功地把東西推給用戶了。現(xiàn)在我們是不是就可以收工,坐等數(shù)錢就行了呢?Too young too Naive, 還有無窮無盡的監(jiān)控和迭代呀。

          第五步,為了監(jiān)控我們的推薦是否有效,我們需要搭建日志系統(tǒng),記錄推送前后一切信息。這些信息包括推送前獲取的特征、模型的排序結(jié)果 以及 推送后用戶的行為反饋。通過對比排序結(jié)果和用戶反饋我們可以計算點擊率以及瀏覽時長評估指標(biāo),并且形成新的訓(xùn)練數(shù)據(jù)來讓排序模塊繼續(xù)訓(xùn)練。

          第六步,為了進(jìn)一步迭代優(yōu)化我們的推薦系統(tǒng),我們需要做AB測試實驗,并分析實驗結(jié)果,這就需要一個分析系統(tǒng),分析系統(tǒng)基于日志系統(tǒng)的數(shù)據(jù)。AB測試一般把用戶隨機(jī)進(jìn)行劃分為對照組(A組,不添加改進(jìn)點)和實驗組(B組,添加改進(jìn)點),通過對比AB之間的差異,來展示我們所加的改進(jìn)點是否有效。推薦系統(tǒng)的迭代一般是這么個流程,設(shè)計改進(jìn)idea->做線下實驗->上AB試試->有效就推廣到全量。

          四, 召回粗排精排

          推薦系統(tǒng)架構(gòu)中的排序模塊,一般會分成 召回、粗排、精排三個階段。這幾個階段,可以比喻成索引庫全部item爭奪最終展示機(jī)會的初賽,復(fù)賽 和 決賽。

          召回(recall)就好像是初賽,比較簡單,效率優(yōu)先。

          一開始我們的索引庫中可能有數(shù)萬數(shù)十萬的item,這些item都是有資格被展示的,如果我們直接上復(fù)雜模型對這么多item進(jìn)行排序,性能是很差的。所以我們可以先設(shè)計方法簡單性能高效(例如雙塔模型,LR,FM以及各種規(guī)則策略)的召回模塊來挖掘出原則上任何用戶有可能感興趣的東西,召回的輸出一般在幾千這樣的量級。為什么這個環(huán)節(jié)叫做召回呢,因為這個環(huán)節(jié)不在乎你把多少錯誤的東西放進(jìn)來,但是非常在乎你沒有把對的東西放進(jìn)來(漏召回)。

          實踐中,召回一般都會做多路召回策略。第一種召回,是非個性化的。比如對于新用戶,我們要確保用最高質(zhì)量的視頻把他們留住,那么我們可以劃一個"精品池"出來,作為一路召回。第二種召回,是i2i,即item-to-item。根據(jù)用戶的歷史item,來找相似的item。比如說我們把用戶過去點過贊的視頻拿出來,去找畫面上,BGM上,或者用戶行為結(jié)構(gòu)上相似的視頻。第三種召回是u2i,即純粹從user和item的關(guān)系出發(fā)。雙塔就是一個典型的u2i。在用戶請求過來的時候,計算出user的embedding,然后去一個事先存好的item embedding的空間,尋找最相似的一批拿出來。由于要實時計算user特征,它的負(fù)擔(dān)要大于前面兩者,但這種召回個性化程度最高,一般會作為主路召回。

          粗排(pre-rank)就好像是復(fù)賽,中等難度,平衡精效。

          召回的輸出有數(shù)千,直接上精排的話可能還是比較慢,我們可以使用一些中等復(fù)雜的模型(例如MLP,DeepFM) 對召回輸出的幾千個item進(jìn)行初步的排序,輸出幾百個到最終的精排環(huán)節(jié)。起到在召回和精排之間進(jìn)行精度和效率的平衡。粗排環(huán)節(jié)不是必須的,如果索引庫中的候選的item數(shù)量很少,甚至召回環(huán)節(jié)也可不要。

          精排(rank)就好像是決賽,瘋狂難度,精度優(yōu)先。

          精排是最純粹的排序,也是最純粹的機(jī)器學(xué)習(xí)模塊。它的目標(biāo)只有一個,就是根據(jù)手頭所有的信息輸出最準(zhǔn)的預(yù)測。精排的輸入只有幾百個,模型就可以非常復(fù)雜(例如DCN啊, 各種序列模型DIEN啊, 什么Transformer啊, 什么MMOE啊),是一個純粹的追求模型精度的環(huán)節(jié)。這個環(huán)節(jié)也是學(xué)術(shù)界各種相關(guān)的論文paper研究得最多的部分。

          召回->粗排->精排 實際上是計算壓力從大到小,模型復(fù)雜度從小到大的一個過程。

          5, 打壓保送重排

          在模型之外,在推薦的整個過程中還穿插著許多策略(規(guī)則)環(huán)節(jié)來輔助。

          這些策略有些是為了推薦的結(jié)果更好,有些則是為了某種長期規(guī)劃或者營利訴求。

          推薦系統(tǒng)中常用到的一些策略包括以下三種。

          1,打壓。有政策風(fēng)險或者與平臺風(fēng)格不符合的內(nèi)容需要打壓。

          2,保送。常見的是營收原因(金主爸爸掏錢了)需要保送。此外,對于新內(nèi)容,常常有一定的保送流量,以確保長尾效應(yīng),維持平臺活力。

          3,重排。重排一是確保最終推薦內(nèi)容的多樣性,二是防止重復(fù)推薦用戶最近瀏覽過的內(nèi)容。

          六, 推薦系統(tǒng)的局限性

          盡管各個推薦系統(tǒng)平臺都把自己的模型和算法吹得天花亂墜,但實際上模型和算法對于推薦系統(tǒng)的成功的貢獻(xiàn)是有限的,并且具有它的局限性。

          主要體現(xiàn)在以下幾點。

          1,優(yōu)質(zhì)內(nèi)容是根本。沒有足夠多用戶喜愛的優(yōu)質(zhì)內(nèi)容,推薦系統(tǒng)的模型算法再厲害也是無用武之地的。如果內(nèi)容足夠優(yōu)質(zhì),非常簡單的推薦算法就能夠起到很好的效果。

          2,存在用戶信息繭房。推薦系統(tǒng)存在著過分迎合用戶偏好的傾向,讓用戶沉浸在一些短期的感覺刺激中浪費許多時間,這對用戶的長期價值可能是負(fù)的。

          3,模型自己學(xué)自己。推薦系統(tǒng)的模型學(xué)習(xí)的數(shù)據(jù)是有偏的,都是曾經(jīng)被模型選中的樣本才有可能受到用戶點贊喜歡獲得正反饋成為正樣本。雖然大部分推薦系統(tǒng)對新內(nèi)容都有一些隨機(jī)流量,但絕大部分樣本都沒有足夠多的流量來進(jìn)行評估。可能相同的內(nèi)容換個id重新再發(fā)一遍就能獲得多得多的流量,這里面存在著很大的隨機(jī)性。

          本文主要參考知乎@水哥的《從零單排推薦系統(tǒng)》系列專欄博客,根據(jù)個人理解進(jìn)行了一些概要整理,特此感謝。

          https://zhuanlan.zhihu.com/p/407871839

          瀏覽 53
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  亚洲熟女乱伦 | 亚洲高清福利视频 | 国产足交在线观看 | 欧美日韩国产一区二区三区 | 色播婷婷五月天 |