如何在脫敏數(shù)據(jù)中使用BERT等預(yù)訓(xùn)練模型
前幾天有朋友問(wèn)了一下【小布助手短文本語(yǔ)義匹配競(jìng)賽】的問(wèn)題,主要是兩個(gè);
如何在脫敏數(shù)據(jù)中使用BERT;
基于此語(yǔ)料如何使用NSP任務(wù);
比賽我沒(méi)咋做,因?yàn)槲腋杏X即使認(rèn)真做也打不過(guò)前排大佬[囧],太菜了;不過(guò)我可以分享一下我自己的經(jīng)驗(yàn);
對(duì)于脫敏語(yǔ)料使用BERT,一般可以分為兩種:
第一種就是直接從零開始基于語(yǔ)料訓(xùn)練一個(gè)新的BERT出來(lái)使用;
第二種就是按照詞頻,把脫敏數(shù)字對(duì)照到中文或者其他語(yǔ)言【假如我們使用中文】,使用中文BERT做初始化,然后基于新的中文語(yǔ)料訓(xùn)練BERT;
大家可以先看一下當(dāng)時(shí)我的回復(fù):


然后我發(fā)現(xiàn)很多朋友對(duì)于預(yù)訓(xùn)練模型其實(shí)理解的還是不深刻,很疑惑為什么在脫敏數(shù)據(jù)中也可以訓(xùn)練BERT等預(yù)訓(xùn)練模型;
其實(shí)這一點(diǎn)很容易理解,就像我截圖中說(shuō)到的:
最開始BERT是用英文語(yǔ)料訓(xùn)練出來(lái)的,然后有朋友基于中文語(yǔ)料開源了中文的BERT;
那么我的脫敏數(shù)字就是類似于中文的一種另外的語(yǔ)言,你可以看成是【X】語(yǔ)言,我們當(dāng)然可以基于【X】語(yǔ)言的語(yǔ)料去訓(xùn)練一個(gè)新的BERT或者其他的預(yù)訓(xùn)練模型了;
有的朋友談到了NSP任務(wù)如何去使用的問(wèn)題;
很明顯,在當(dāng)前這個(gè)任務(wù)中是一個(gè)文本匹配的形式;
語(yǔ)料不是我們自己有主動(dòng)的去獲取的能力,所以構(gòu)造一個(gè)NSP任務(wù)的格式比較困難;
但是NSP任務(wù)僅僅是一種任務(wù)形式,我們完全可以基于訓(xùn)練語(yǔ)料構(gòu)造一個(gè)是否匹配的任務(wù),可以稱之為類NSP任務(wù);
基于此,測(cè)試數(shù)據(jù)是使用不了的,因?yàn)闇y(cè)試數(shù)據(jù)沒(méi)有l(wèi)abel;
不過(guò),我自己認(rèn)為可以測(cè)試數(shù)據(jù)使用MLM任務(wù),訓(xùn)練數(shù)據(jù)使用MLM+類NSP任務(wù);
更加具體大家可以看我當(dāng)時(shí)的回復(fù):


