【關(guān)于 語(yǔ)義相似度匹配任務(wù)中的 BERT】 那些你不知道的事
作者:楊夕
項(xiàng)目地址:https://github.com/km1994/nlp_paper_study
個(gè)人介紹:大佬們好,我叫楊夕,該項(xiàng)目主要是本人在研讀頂會(huì)論文和復(fù)現(xiàn)經(jīng)典論文過(guò)程中,所見、所思、所想、所聞,可能存在一些理解錯(cuò)誤,希望大佬們多多指正。
目錄
【關(guān)于 語(yǔ)義相似度匹配任務(wù)中的 BERT】 那些你不知道的事
目錄
一、Sentence Pair Classification Task:使用 [CLS]
二、cosine similairity
三、長(zhǎng)短文本的區(qū)別
四、sentence/word embedding
五、siamese network 方式
參考
一、Sentence Pair Classification Task:使用 [CLS]


二、cosine similairity

三、長(zhǎng)短文本的區(qū)別
短文本(新聞標(biāo)題)語(yǔ)義相似度任務(wù):用先進(jìn)的word embedding(英文fasttext/glove,中文tencent embedding)mean pooling后的效果就已經(jīng)不錯(cuò);
長(zhǎng)文本(文章):用simhash這種純?cè)~頻統(tǒng)計(jì)的完全沒語(yǔ)言模型的簡(jiǎn)單方法也可以;
四、sentence/word embedding
bert pretrain模型直接拿來(lái)用作 sentence embedding效果甚至不如word embedding,cls的emebdding效果最差(也就是pooled output)。把所有普通token embedding做pooling勉強(qiáng)能用(這個(gè)也是開源項(xiàng)目bert-as-service的默認(rèn)做法),但也不會(huì)比word embedding更好。
五、siamese network 方式
思路:除了直接使用bert的句對(duì)匹配之外,還可以只用bert來(lái)對(duì)每個(gè)句子求embedding,再通過(guò)向Siamese Network這樣的經(jīng)典模式去求相似度;
用siamese的方式訓(xùn)練bert,上層通過(guò)cosine做判別,能夠讓bert學(xué)習(xí)到一種適用于cosine作為最終相似度判別的sentence embedding,效果優(yōu)于word embedding,但因?yàn)槿鄙賡entence pair之間的特征交互,比原始bert sentence pair fine tune還是要差些。
參考
用BERT做語(yǔ)義相似度匹配任務(wù):計(jì)算相似度的方

