用 PaddleNLP,快速打造一款像萬(wàn)方數(shù)據(jù)一樣的「論文檢索」神器!
業(yè)務(wù)背景
技術(shù)選型和項(xiàng)目實(shí)踐
技術(shù)方案整體架構(gòu)圖
延伸 - 檢驗(yàn)場(chǎng)景整體方案
領(lǐng)域預(yù)訓(xùn)練是在通用預(yù)訓(xùn)練模型基礎(chǔ)上,在領(lǐng)域數(shù)據(jù)上繼續(xù)預(yù)訓(xùn)練,讓預(yù)訓(xùn)練模型學(xué)習(xí)更多的領(lǐng)域知識(shí)。
語(yǔ)義匹配模塊針對(duì)存在高質(zhì)量監(jiān)督數(shù)據(jù)的場(chǎng)景,給出了檢索系統(tǒng)中排序模型方案。此外,針對(duì)高質(zhì)量標(biāo)注數(shù)據(jù)獲取成本高,數(shù)據(jù)量少的問(wèn)題,語(yǔ)義匹配模塊還內(nèi)置了 R-Drop 數(shù)據(jù)增強(qiáng)策略,進(jìn)一步提升小數(shù)據(jù)量場(chǎng)景下排序模型效果,從而幫助檢索系統(tǒng)達(dá)到更優(yōu)的效果。
語(yǔ)義索引模塊針對(duì)無(wú)監(jiān)督和有監(jiān)督數(shù)據(jù)場(chǎng)景,分別給出了無(wú)監(jiān)督語(yǔ)義索引 (SimCSE) 和監(jiān)督語(yǔ)義索引的方案,即使沒(méi)有監(jiān)督數(shù)據(jù),也能利用無(wú)監(jiān)督語(yǔ)義索引方案提升檢索系統(tǒng)的召回效果。

直播預(yù)告
評(píng)論
圖片
表情

