<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          搜狐情感分析×推薦排序算法賽最強(qiáng)baseline

          共 1636字,需瀏覽 4分鐘

           ·

          2022-04-18 07:36

          賽題名稱: 搜狐校園"情感分析×推薦排序"算法大賽

          賽題鏈接:?

          https://www.biendata.xyz/competition/sohu_2022/

          比賽任務(wù):

          task1: 面向?qū)嶓w對象的文本描述情感極性及強(qiáng)度分析。

          task2: 利用用戶文章點(diǎn)擊序列及用戶相關(guān)特征, 結(jié)合task1做出的情感分析結(jié)果, 預(yù)測用戶是否會對文章進(jìn)行點(diǎn)擊。

          評價(jià)指標(biāo):

          task1:?macro-F1

          task2:?gAUC

          數(shù)據(jù)說明:

          task1:?

          每條樣本包含一個(gè)文本編號、一條文本內(nèi)容、文本中需要分析的實(shí)體對象,以及每個(gè)對象的情感極性(標(biāo)簽,測試集需要預(yù)測)。

          task2:

          每條樣本包含pvId,用戶id,點(diǎn)擊序列,用戶特征,待預(yù)測文章id和當(dāng)前時(shí)間戳,以及用戶是否點(diǎn)擊(標(biāo)簽列,測試集需要預(yù)測)。

          樣本中的文章會以附件文件給出具體內(nèi)容,選手需要將task1做出的情感極性預(yù)測結(jié)果,運(yùn)用到task2的點(diǎn)擊預(yù)測中來。

          賽題解析:

          task1:

          這里提供一個(gè)解題思路, 將每一條文本和對應(yīng)的n個(gè)實(shí)體對象分別編碼作為輸入,傳遞給BERT、DeBERTa等開源預(yù)訓(xùn)練模型進(jìn)行特征提取,最后使用自定義分類器進(jìn)行分類.

          實(shí)踐經(jīng)驗(yàn):

          1、劃分訓(xùn)練集和驗(yàn)證集時(shí),要考慮到同一條文本不能出現(xiàn)在不同的fold里,以及不同fold里5種類別的分布比例保持一致;

          2、使用預(yù)訓(xùn)練模型提取的特征形狀是 batch大小 × 文本編碼長度 × 隱含層維度, 可以在文本編碼長度的維度取平均將輸出壓縮到 batch大小 × 隱含層維度, 再傳遞給一層 nn.Linear進(jìn)行進(jìn)一步分類,得到形如 batch大小 × 類別數(shù)量的輸出,代表的意義是每個(gè)輸入在每個(gè)可能的類別上的得分,得分越高可能性越大;

          3、在預(yù)訓(xùn)練特征和分類器之間加入multi-sample dropout可以加速模型收斂;

          4、在Tesla V100 32G的環(huán)境下,使用deberta-v3-base模型作為特征提取器,取最大長度為512,訓(xùn)練一個(gè)epoch大約需要1小時(shí),5個(gè)epoch可以收斂,并且單模在推理階段速度為60條/s, 在滿足比賽規(guī)則(單條小于500ms)的條件下,可以融合的base單模數(shù)量在25個(gè)左右。

          5、后續(xù)優(yōu)化: 多種預(yù)訓(xùn)練模型微調(diào)后融合(huggingface開源的DeBERTa-v3-large在GLUE上效果最佳)、分層學(xué)習(xí)率、梯度裁剪、動(dòng)態(tài)校驗(yàn)區(qū)間、自定義分類器、使用Dice Loss針對比例不均衡的類別設(shè)置動(dòng)態(tài)損失權(quán)重、在算力足夠的情況下也可以使用FGM或者AWP進(jìn)行對抗訓(xùn)練等。

          task2:

          這個(gè)一個(gè)二分類任務(wù);

          特征方面: 數(shù)據(jù)中類別型變量比較多, 用NN模型可能效果較好, 也可以嘗試使用target encoding技術(shù), 值得深入挖掘的是點(diǎn)擊序列相關(guān)的特征;

          待選模型包括: lightgbm, NN

          baseline代碼

          我們的開源項(xiàng)目AutoX倉庫中提供了本賽題的baseline代碼, task1中可以達(dá)到0.659的效果, baseline地址:?


          https://github.com/4paradigm/AutoX/blob/master/competition_baseline/biendata_sohu_2022/task1_baseline.ipynb


          訓(xùn)練好的模型的權(quán)重文件以及train log鏈接:


          https://pan.baidu.com/s/1f6JLTKzhcT9x9PzUKbcc0w?

          提取碼: nw3n

          開源項(xiàng)目地址

          https://github.com/4paradigm/AutoX


          點(diǎn)擊閱讀原文參加比賽。

          往期精彩回顧





          瀏覽 84
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  69亚洲乱人伦 | 玖玖视频免费在线观看 | 国产精品无码久久久久久 | 日韩成人免费大片 | 中国一区二区在线观看 |