搜狐情感分析×推薦排序算法賽最強(qiáng)baseline
賽題名稱: 搜狐校園"情感分析×推薦排序"算法大賽
賽題鏈接:?
https://www.biendata.xyz/competition/sohu_2022/
比賽任務(wù):
task1: 面向?qū)嶓w對象的文本描述情感極性及強(qiáng)度分析。
task2: 利用用戶文章點(diǎn)擊序列及用戶相關(guān)特征, 結(jié)合task1做出的情感分析結(jié)果, 預(yù)測用戶是否會對文章進(jìn)行點(diǎn)擊。
評價(jià)指標(biāo):
task1:?macro-F1
task2:?gAUC
數(shù)據(jù)說明:
task1:?
每條樣本包含一個(gè)文本編號、一條文本內(nèi)容、文本中需要分析的實(shí)體對象,以及每個(gè)對象的情感極性(標(biāo)簽,測試集需要預(yù)測)。

task2:
每條樣本包含pvId,用戶id,點(diǎn)擊序列,用戶特征,待預(yù)測文章id和當(dāng)前時(shí)間戳,以及用戶是否點(diǎn)擊(標(biāo)簽列,測試集需要預(yù)測)。
樣本中的文章會以附件文件給出具體內(nèi)容,選手需要將task1做出的情感極性預(yù)測結(jié)果,運(yùn)用到task2的點(diǎn)擊預(yù)測中來。
賽題解析:
task1:
這里提供一個(gè)解題思路, 將每一條文本和對應(yīng)的n個(gè)實(shí)體對象分別編碼作為輸入,傳遞給BERT、DeBERTa等開源預(yù)訓(xùn)練模型進(jìn)行特征提取,最后使用自定義分類器進(jìn)行分類.
實(shí)踐經(jīng)驗(yàn):
1、劃分訓(xùn)練集和驗(yàn)證集時(shí),要考慮到同一條文本不能出現(xiàn)在不同的fold里,以及不同fold里5種類別的分布比例保持一致;
2、使用預(yù)訓(xùn)練模型提取的特征形狀是 batch大小 × 文本編碼長度 × 隱含層維度, 可以在文本編碼長度的維度取平均將輸出壓縮到 batch大小 × 隱含層維度, 再傳遞給一層 nn.Linear進(jìn)行進(jìn)一步分類,得到形如 batch大小 × 類別數(shù)量的輸出,代表的意義是每個(gè)輸入在每個(gè)可能的類別上的得分,得分越高可能性越大;
3、在預(yù)訓(xùn)練特征和分類器之間加入multi-sample dropout可以加速模型收斂;
4、在Tesla V100 32G的環(huán)境下,使用deberta-v3-base模型作為特征提取器,取最大長度為512,訓(xùn)練一個(gè)epoch大約需要1小時(shí),5個(gè)epoch可以收斂,并且單模在推理階段速度為60條/s, 在滿足比賽規(guī)則(單條小于500ms)的條件下,可以融合的base單模數(shù)量在25個(gè)左右。
5、后續(xù)優(yōu)化: 多種預(yù)訓(xùn)練模型微調(diào)后融合(huggingface開源的DeBERTa-v3-large在GLUE上效果最佳)、分層學(xué)習(xí)率、梯度裁剪、動(dòng)態(tài)校驗(yàn)區(qū)間、自定義分類器、使用Dice Loss針對比例不均衡的類別設(shè)置動(dòng)態(tài)損失權(quán)重、在算力足夠的情況下也可以使用FGM或者AWP進(jìn)行對抗訓(xùn)練等。
task2:
這個(gè)一個(gè)二分類任務(wù);
特征方面: 數(shù)據(jù)中類別型變量比較多, 用NN模型可能效果較好, 也可以嘗試使用target encoding技術(shù), 值得深入挖掘的是點(diǎn)擊序列相關(guān)的特征;
待選模型包括: lightgbm, NN
baseline代碼
我們的開源項(xiàng)目AutoX倉庫中提供了本賽題的baseline代碼, task1中可以達(dá)到0.659的效果, baseline地址:?
https://github.com/4paradigm/AutoX/blob/master/competition_baseline/biendata_sohu_2022/task1_baseline.ipynb
訓(xùn)練好的模型的權(quán)重文件以及train log鏈接:
https://pan.baidu.com/s/1f6JLTKzhcT9x9PzUKbcc0w?
提取碼: nw3n
開源項(xiàng)目地址
https://github.com/4paradigm/AutoX
點(diǎn)擊閱讀原文參加比賽。
往期精彩回顧
