日一本一乱一纶一视一频一一区一二区 ,欧美大相交视频,精品人妻一区二区三区视频在线,成人电影一区,蘑菇视频红色logo,黄色一级大片免费看,成人在线偷拍视频,熟女天堂

賽題名稱: 搜狐校園"情感分析×推薦排序"算法大賽

賽題鏈接:?

https://www.biendata.xyz/competition/sohu_2022/

比賽任務(wù):

task1: 面向?qū)嶓w對象的文本描述情感極性及強(qiáng)度分析。

task2: 利用用戶文章點(diǎn)擊序列及用戶相關(guān)特征, 結(jié)合task1做出的情感分析結(jié)果, 預(yù)測用戶是否會對文章進(jìn)行點(diǎn)擊。

評價(jià)指標(biāo):

task1:?macro-F1

task2:?gAUC

數(shù)據(jù)說明:

task1:?

每條樣本包含一個(gè)文本編號、一條文本內(nèi)容、文本中需要分析的實(shí)體對象，以及每個(gè)對象的情感極性(標(biāo)簽,測試集需要預(yù)測)。

task2:

每條樣本包含pvId，用戶id，點(diǎn)擊序列，用戶特征，待預(yù)測文章id和當(dāng)前時(shí)間戳，以及用戶是否點(diǎn)擊(標(biāo)簽列,測試集需要預(yù)測)。

樣本中的文章會以附件文件給出具體內(nèi)容，選手需要將task1做出的情感極性預(yù)測結(jié)果，運(yùn)用到task2的點(diǎn)擊預(yù)測中來。

賽題解析:

task1:

這里提供一個(gè)解題思路, 將每一條文本和對應(yīng)的n個(gè)實(shí)體對象分別編碼作為輸入，傳遞給BERT、DeBERTa等開源預(yù)訓(xùn)練模型進(jìn)行特征提取，最后使用自定義分類器進(jìn)行分類.

實(shí)踐經(jīng)驗(yàn):

1、劃分訓(xùn)練集和驗(yàn)證集時(shí)，要考慮到同一條文本不能出現(xiàn)在不同的fold里，以及不同fold里5種類別的分布比例保持一致；

2、使用預(yù)訓(xùn)練模型提取的特征形狀是 batch大小 × 文本編碼長度 × 隱含層維度，可以在文本編碼長度的維度取平均將輸出壓縮到 batch大小 × 隱含層維度，再傳遞給一層 nn.Linear進(jìn)行進(jìn)一步分類，得到形如 batch大小 × 類別數(shù)量的輸出，代表的意義是每個(gè)輸入在每個(gè)可能的類別上的得分，得分越高可能性越大；

3、在預(yù)訓(xùn)練特征和分類器之間加入multi-sample dropout可以加速模型收斂；

4、在Tesla V100 32G的環(huán)境下，使用deberta-v3-base模型作為特征提取器，取最大長度為512，訓(xùn)練一個(gè)epoch大約需要1小時(shí)，5個(gè)epoch可以收斂，并且單模在推理階段速度為60條/s，在滿足比賽規(guī)則（單條小于500ms）的條件下，可以融合的base單模數(shù)量在25個(gè)左右。

5、后續(xù)優(yōu)化: 多種預(yù)訓(xùn)練模型微調(diào)后融合（huggingface開源的DeBERTa-v3-large在GLUE上效果最佳）、分層學(xué)習(xí)率、梯度裁剪、動(dòng)態(tài)校驗(yàn)區(qū)間、自定義分類器、使用Dice Loss針對比例不均衡的類別設(shè)置動(dòng)態(tài)損失權(quán)重、在算力足夠的情況下也可以使用FGM或者AWP進(jìn)行對抗訓(xùn)練等。

task2:

這個(gè)一個(gè)二分類任務(wù);

特征方面: 數(shù)據(jù)中類別型變量比較多, 用NN模型可能效果較好, 也可以嘗試使用target encoding技術(shù), 值得深入挖掘的是點(diǎn)擊序列相關(guān)的特征;

待選模型包括: lightgbm, NN

baseline代碼

我們的開源項(xiàng)目AutoX倉庫中提供了本賽題的baseline代碼, task1中可以達(dá)到0.659的效果, baseline地址:?

https://github.com/4paradigm/AutoX/blob/master/competition_baseline/biendata_sohu_2022/task1_baseline.ipynb

訓(xùn)練好的模型的權(quán)重文件以及train log鏈接:

https://pan.baidu.com/s/1f6JLTKzhcT9x9PzUKbcc0w?

提取碼: nw3n

開源項(xiàng)目地址

https://github.com/4paradigm/AutoX

點(diǎn)擊閱讀原文參加比賽。


往期精彩回顧




適合初學(xué)者入門人工智能的路線及資料下載
(圖文+視頻)機(jī)器學(xué)習(xí)入門系列下載
中國大學(xué)慕課《機(jī)器學(xué)習(xí)》（黃海廣主講）
機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印
《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯
AI基礎(chǔ)下載
機(jī)器學(xué)習(xí)交流qq群955171419，加入微信群請掃碼：

搜狐情感分析×推薦排序算法賽最強(qiáng)baseline