<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          Youtube的value-based強化學習推薦系統(tǒng)

          共 2882字,需瀏覽 6分鐘

           ·

          2021-07-31 11:48

          嘿,記得給“機器學習與推薦算法”添加星標

          作者:陽光明媚
          | 單位:華東師范大學

          研究方向:推薦系統(tǒng)、強化學習

          本文介紹Youtube在2019年放出的兩篇強化學習推薦系統(tǒng)中基于value-based的一篇,論文標題:SLATEQ: A Tractable Decomposition for Reinforcement Learning with Recommendation Sets (IJCAI 2019)

          原文地址:

          https://arxiv.org/pdf/1905.12767.pdf

          https://www.ijcai.org/Proceedings/2019/0360.pdf

          強化學習推薦系統(tǒng)快速入門

          強化學習算法可以大體分為value-based和policy-based,value-based方法在訓練階段的學習目標是學到一個函數(shù),知道當前狀態(tài)和動作之后,這個函數(shù)可以輸出狀態(tài)下這個動作所能帶來的期望的長期價值,記為Q值,或者狀態(tài)動作值函數(shù);在決策階段,在一個新的狀態(tài)下,我們可以根據(jù)訓練好的函數(shù),嘗試可選動作集合中的每一個動作,最終采取Q值最大的動作,這樣就可以帶來最大的長期收益。本文主要討論value-based的強化學習推薦系統(tǒng)。

          在每次采取動作之后,會受到來自環(huán)境的一個反饋的獎勵,然后狀態(tài)會從變化到,value-based的強化學習的優(yōu)化目標一般為:
          直觀來說,上式的目的是希望學到一個盡可能準確的Q函數(shù)。訓練階段,訓練集可以看做是一個個的元祖,而上式的是根據(jù)當前的Q函數(shù),輸入狀態(tài)以及所有待選動作,最后選出來的Q值最大的動作。

          上面的介紹中涉及到的強化學習中的主要元素及其在推薦系統(tǒng)中的對應部分:

          • 動作(action):推薦內(nèi)容,如抖音中的一條視頻,或淘寶中的一個商品頁(包含多個物品)
          • 獎勵(reward):用戶的即時反饋,如用戶是否點擊,或者瀏覽時間
          • 狀態(tài)(state):強化學習推薦系統(tǒng)的agent的狀態(tài)是對環(huán)境以及自身所處情況的刻畫,可以簡單理解為用戶歷史行為日志

          論文要點

          強化學習的推薦系統(tǒng)主要優(yōu)勢在于可以考慮長期收益,如用戶的長期參與度。但是在一些需要推薦多個物品的場景下,例如youtube的網(wǎng)站首頁,會一次放出幾十個視頻,此時模型需要考慮不同視頻的組合,而一個物品的排列組合就是一個動作,這時待選動作的數(shù)目就會十分巨大。而Youtube的這篇論文主要考慮如何對原始的value-based方法的Q函數(shù)進行分解,來更好的處理這種一個動作就是一個物品組合的推薦場景。在實驗階段,youtube考慮使用離線的模擬實驗(訓練用戶模擬器)和youtube的在線實驗,發(fā)現(xiàn)用戶參與度相對于傳統(tǒng)的短期推薦系統(tǒng)有明顯增益。

          問題分析

          在動作空間中,包含k個物品的推薦列表就有種可能,這個運算符在youtube這種k值一般在幾十(剛才去數(shù)了一下,首頁50+)的網(wǎng)站就很離譜,更不要提前面的了。

          動作空間這么大,就會帶來一些問題:

          • 很難進行充分的探索;另外,如果想要在大量的推薦列表之間進行泛化,就需要有這些推薦列表的稠密表示,但是很多列表并不會在現(xiàn)實中出現(xiàn),我們并不知道這些沒出現(xiàn)過的列表會得到怎樣的獎勵,也就是說,我們沒有關于這些列表的轉移元組。
          • 如何找到Q最大的物品組合,這是一個組合優(yōu)化問題。如果不另加結構性的假設或近似,這個問題會難以求解,無法滿足線上服務時延要求。

          解決方案

          為此,文中提出了兩個關鍵假設,基于這兩個假設,就可以把Q值分解為兩部分:item-wise的Q值部分,和關于所有item的整體Q值部分,從而降低求解最優(yōu)推薦列表的時間復雜度。兩個假設分別是:

          • Single choice(SC): 即假設用戶每次只選擇一個物品,或者不選擇。
          • Reward/transition dependence on selection (RTDS): 獎勵和狀態(tài)的轉移只依賴于用戶選擇的物品。

          直觀上兩個假設看起來都比較符合直覺,沒有對現(xiàn)實場景做太大的簡化。

          基于RTDS假設,獎勵的分布和狀態(tài)的轉移分布就可表示為:

          進一步就可以定義出item-wise的Q函數(shù):

          如果用item-wise的Q函數(shù)來表示,就得到了:

          推導過程用到了SC與RTDS假設,主要是從11式到12式的推導需要用這兩個假設:

          看了這個推導,給人的感覺就是作者在思考問題并寫這些11式的公式時發(fā)現(xiàn)時間復雜度太大,然后順其自然的想到了這兩條假設。

          最終的結果只依賴于,其中的只是一個物品而已,而非一個組合,用傳統(tǒng)的TD error就可以訓練出;最終結果還包括,也就是預測狀態(tài)下,給定列表用戶選擇各個物品的概率,這就是一個pctr預測問題了,有很多成熟的解決方案。

          在訓練時,為了得到最優(yōu)的策略,我們也要訓練最優(yōu)策略對應的Q函數(shù),而這只需要在訓練過程中,依據(jù)Q最大的就是最好的的準則,來貪心的選擇即可。

          最終的長期收益優(yōu)化目標:

          最終這樣一個優(yōu)化目標可以被看做一個分數(shù)線性規(guī)劃問題,并且可以在多項式時間內(nèi)解決:

          這里代表用戶對一個物品的未正則化的點擊概率。

          雖然這里物品的集合數(shù)目巨大,但是現(xiàn)實中這里的物品集合應該是粗排并且被一些產(chǎn)品策略過濾之后的結果,因此數(shù)目會比總物品數(shù)少很多。關于優(yōu)化問題的簡化過程,細節(jié)請參考原文。

          在線上服務時,為了避免每次請求都有接一個多項式時間復雜度的線性規(guī)劃問題,文章還提出了兩種近似的方法:

          • Top-K: 計算每個物品的期望獎勵,選擇倒序排序最大的k個作為最終的推薦列表。在選擇物品列表的第L個物品并需要計算物品獎勵時,不會考慮前L-1個物品。
          • Greedy: 考慮物品列表的第L個時,考慮其邊際收益,邊際收益會考慮前L-1個物品計算得到:

          實驗效果

          實驗包括兩部分,離線部分與在線部分:離線部分構建了一個用戶模擬器來模擬用戶行為,在線部分是在youtube網(wǎng)站上線來取得效果的。用戶模擬器是根據(jù)用戶的歷史行為數(shù)據(jù)通過簡單訓練的方式訓練方式得到的,此前也介紹過一篇類似的文章,這里不再過多介紹。

          離線實驗

          這里對比了隨機模型,近視模型(MYOP,把獎勵的折扣因子設置為0,這樣模型就不會考慮長期獎勵),SARSA以及Q-Learning在訓練階段就使用不同的決策方式,和使用不同的線上服務方式(第一個字母,T: top-K; G: greedy; O: Optimal; 第二個字母,T: traing; S: serving)的對比實驗:

          可以看到,greedy的線上服務方式相比于優(yōu)化的方式,性能損失不大;而top-k的方式損失很大。

          在線實驗

          對比的指標是用戶參與度,baseline是youtube當前的監(jiān)督模型,可以看到性能提升還是十分顯著的,也證明了強化學習在推薦系統(tǒng)上落地是可以帶來收益的:

          喜歡的話點個在看吧??
          瀏覽 95
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  久久伊人婷婷 | 人人鲁人人操 | 国产一级黄色录像 | 久操免费精品视频 | 一道本无码在线播放 |