<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          【論文解讀】KDD2020最佳論文: 關(guān)于個(gè)性化排序任務(wù)評(píng)價(jià)指標(biāo)的大討論

          共 2782字,需瀏覽 6分鐘

           ·

          2020-09-11 00:29


          前段時(shí)間還跟實(shí)驗(yàn)室同學(xué)專門討論了下關(guān)于個(gè)性化排序中的評(píng)價(jià)指標(biāo)問題,即我們?cè)趯?shí)驗(yàn)的過程中究竟使用哪一種實(shí)驗(yàn)設(shè)置才能較好的反映模型的泛化能力,比如采用全量測(cè)試數(shù)據(jù)進(jìn)行排序,但該方法需要的測(cè)試時(shí)間較長(zhǎng);比如使用采樣的測(cè)試樣本進(jìn)行排序評(píng)估,該方法雖然評(píng)估時(shí)間大大縮短但不能完全反映模型性能。如今Rendle大佬通過實(shí)驗(yàn)的方式告訴了我們答案,并且憑借該主題獲得了KDD2020的最佳論文,祝賀!

          眾所周知,推薦系統(tǒng)主要有兩大任務(wù):評(píng)分預(yù)測(cè)和個(gè)性化排序。其中,針對(duì)評(píng)分預(yù)測(cè)任務(wù)的評(píng)判指標(biāo)主要是均方誤差(MSE)、均方根誤差(RMSE)和平均絕對(duì)誤差(MAE)等回歸指標(biāo)。這些指標(biāo)的評(píng)價(jià)相對(duì)來說復(fù)雜度較低,因此對(duì)于全量測(cè)試數(shù)據(jù)進(jìn)行評(píng)估相對(duì)可行。對(duì)于個(gè)性化排序任務(wù)需要在給定上下文的情況下對(duì)大量的項(xiàng)目候選進(jìn)行排序,因此需要利用平均準(zhǔn)確率(MAP)、歸一化折損累計(jì)增益(NDCG)等排序指標(biāo)來評(píng)估模型的性能。如果大家想了解更多排序模型知識(shí)可以移步推薦系統(tǒng)中排序?qū)W習(xí)的三種設(shè)計(jì)思路。

          目前,主流的個(gè)性化排序任務(wù)(Item Recommendation)的文獻(xiàn)為了加速評(píng)價(jià)指標(biāo)的計(jì)算,經(jīng)常利用采樣的指標(biāo)(Sampled Metrics)進(jìn)行評(píng)價(jià),即針對(duì)待測(cè)試的正樣本和隨機(jī)出來的較小規(guī)模的負(fù)樣本進(jìn)行排序,比如在測(cè)試階段對(duì)一個(gè)正樣本和從大量候選集采樣出來的99個(gè)負(fù)樣本進(jìn)行排序,然后計(jì)算該樣本相對(duì)于負(fù)樣本的排序位置進(jìn)行性能評(píng)估。雖然這種實(shí)驗(yàn)設(shè)置可以一定程度上反映模型A的排序性能好于B,但根據(jù)論文的實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),這種結(jié)論并不總是成立的,往往采樣指標(biāo)的性能跟確切指標(biāo)的性能不一致。另外,實(shí)驗(yàn)結(jié)果表明抽樣規(guī)模越小,指標(biāo)之間的差異就越小,而且對(duì)于非常小的抽樣規(guī)模,所有指標(biāo)都會(huì)塌陷為AUC指標(biāo)。因此,論文提出了一種改進(jìn)的采樣評(píng)價(jià)指標(biāo)用來提高評(píng)價(jià)質(zhì)量。最后,該論文建議評(píng)價(jià)的時(shí)候盡量不要采樣,如果不聽話非要采樣那就用所提出的修正的采樣指標(biāo)來提高評(píng)價(jià)質(zhì)量。

          來,讓我們先來熟悉下常用的排序指標(biāo),即AUC,Precision,Recall,AP和NDCG。其中,為全部物品個(gè)數(shù),為預(yù)測(cè)的列表結(jié)果,為預(yù)測(cè)的樣本個(gè)數(shù),代表該物品所在的位置,為設(shè)置的預(yù)測(cè)截?cái)鄠€(gè)數(shù),為測(cè)試時(shí)采樣的負(fù)樣本個(gè)數(shù)。

          AUC衡量了相關(guān)項(xiàng)目排在非相關(guān)項(xiàng)目前邊的可能性。

          Precision衡量了在前k個(gè)預(yù)測(cè)物品中相關(guān)物品的比例。

          Recall代表預(yù)測(cè)召回的物品中排在前k位置物品的比例。

          Average Precision表示對(duì)于前邊Precision指標(biāo)的平均。

          NDCG為歸一化的折損累計(jì)收益,通過在分母引入位置收益來表示排在前邊并且收益大的項(xiàng)目獲得的收益較高。

          接下來介紹目前大部分文獻(xiàn)采用的簡(jiǎn)化的采樣過后的指標(biāo),以此來應(yīng)對(duì)大規(guī)模樣本的效率問題。大部分論文在評(píng)價(jià)的時(shí)候假設(shè)只有一個(gè)正樣本,即=1,然后基于這個(gè)正樣本采樣若干個(gè)負(fù)樣本,以此來進(jìn)行排序,看最終該正樣本排在了什么位置。因此上文的精確采樣可以表示為下圖所示的簡(jiǎn)化形式。

          接下來主要介紹下論文中的實(shí)驗(yàn)結(jié)果分析與結(jié)論。

          下圖1展示的是將正樣本隨著排序位置的變化所產(chǎn)生的評(píng)價(jià)指標(biāo)的變化。左圖是針對(duì)所有的候選集來說的,右圖是針對(duì)Top100來說的。從左圖可以看出AUC是與排序位置無關(guān)的指標(biāo),隨著排名逐漸靠后,排序指標(biāo)線性的遞減。也就是說把正樣本從排名100移到101位的變化跟把排名從第2位移到第1位一樣;平均準(zhǔn)確率AP的分?jǐn)?shù)衰減的最明顯,例如在排名第1位的價(jià)值是排名第2的兩倍;右圖展示了各種指標(biāo)在Top100的指標(biāo)變化,可見除了AUC以外,其他指標(biāo)都對(duì)排序位置比較敏感。
          對(duì)于排序評(píng)價(jià)指標(biāo)的選擇取決于是否位置敏感,即由于用戶的注意力有限以及網(wǎng)站或者App有限的展示資源,人們大多比較關(guān)心排在頭部的物品之間的相對(duì)位置,而忽略尾部的項(xiàng)目排序位置,因此對(duì)于測(cè)試階段我們需要強(qiáng)調(diào)頭部效應(yīng)。而在訓(xùn)練階段我們需要盡量打消這樣的基于位置的偏見(Position bias),盡可能的還原用戶點(diǎn)擊該物品是真的處于喜歡,而非僅僅因?yàn)榕旁诹祟^部顯眼的位置。我喜歡你,不僅僅是因?yàn)槟愠霈F(xiàn)在了我眼前,而更是因?yàn)槟愕膬?nèi)在。
          下表展示了3個(gè)推薦算法A,B,C預(yù)測(cè)結(jié)果不同而產(chǎn)生的關(guān)于AUC,AP,NDCG和Recall的評(píng)價(jià)結(jié)果。表1是針對(duì)5個(gè)實(shí)例的精確評(píng)價(jià),表2是采樣過后進(jìn)行的評(píng)價(jià)??梢娭挥蠥UC這種位置不敏感的指標(biāo)對(duì)于三個(gè)推薦算法的排名沒有變化,依然是算法A最高,C次之,B墊底。而對(duì)于其他指標(biāo)來說,利用采樣之后的評(píng)價(jià)指標(biāo)出現(xiàn)了與精確指標(biāo)不一致的結(jié)果。
          另外,論文還針對(duì)采樣個(gè)數(shù)關(guān)于評(píng)價(jià)指標(biāo)的變化進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果出現(xiàn)群魔亂舞的現(xiàn)象。發(fā)現(xiàn)隨著評(píng)價(jià)階段負(fù)采樣個(gè)數(shù)的增加,原來性能優(yōu)越的算法A出現(xiàn)性能惡化,最終被算法C打敗的情況。可見,只針對(duì)一個(gè)負(fù)采樣個(gè)數(shù)來作為最終模型的性能評(píng)價(jià)有失公平。這么一想,咱的破模型沒準(zhǔn)在某個(gè)負(fù)采樣個(gè)數(shù)的設(shè)置下可能打敗著名的N某F。
          另外,論文對(duì)于采樣指標(biāo)中不同的采樣個(gè)數(shù)對(duì)結(jié)果的影響與精確的指標(biāo)做了相關(guān)對(duì)比實(shí)驗(yàn)??梢姴煌牟蓸觽€(gè)數(shù)與精確的指標(biāo)之間差距較大,并且即使采樣個(gè)數(shù)足夠大,仍然與精確的評(píng)價(jià)指標(biāo)之間存在較大偏差。所以,只利用某一種負(fù)采樣個(gè)數(shù)進(jìn)行性能評(píng)估是具有偶然性的,但往往必然的結(jié)果是與真正的評(píng)價(jià)效果相差很遠(yuǎn)。
          最后,論文提出了對(duì)于采樣評(píng)價(jià)指標(biāo)的修正版本。左邊是修正的采樣指標(biāo)AP在采樣個(gè)數(shù)為的結(jié)果,右邊是在全量測(cè)試樣本上的評(píng)價(jià)結(jié)果,可見兩者效果是差不多相等的。

          最后,大佬給出了一些做實(shí)驗(yàn)的建議。

          抽樣指標(biāo)可能無法很好地指示該指標(biāo)下推薦算法的真實(shí)性能。
          對(duì)于未校正的指標(biāo),這主要是由于采樣引入的較大偏差造成的。
          使用校正方法,可以減少這種偏差,但要付出更高的方差代價(jià)。
          如果論文中確實(shí)需要使用抽樣指標(biāo),并且仍對(duì)指標(biāo)的真實(shí)性能感興趣,建議使用本文提出的校正方法。在這種情況下,請(qǐng)務(wù)必使用不同的樣本(例如,不同的隨機(jī)種子)重新進(jìn)行實(shí)驗(yàn)。
          盡管這種改進(jìn)的評(píng)價(jià)指標(biāo)優(yōu)于未校正的采樣指標(biāo),但由于偏差,它仍然傾向于得出錯(cuò)誤的結(jié)論。所以只有完全避免抽樣,才能消除這種偏差。

          更多關(guān)于論文細(xì)節(jié),請(qǐng)閱讀原文。




          往期精彩回顧





          獲取一折本站知識(shí)星球優(yōu)惠券,復(fù)制鏈接直接打開:

          https://t.zsxq.com/662nyZF

          本站qq群1003271085。

          加入微信群請(qǐng)掃碼進(jìn)群(如果是博士或者準(zhǔn)備讀博士請(qǐng)說明):

          瀏覽 36
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国产婬乱片A片AAA毛片下载 | 大鸡鸡在线观看 | 东北女人挨操内射 | 水蜜桃亚洲精品 | 操逼无码高清 |