如何自動(dòng)化標(biāo)注海量數(shù)據(jù)
簡介
斯坦福大學(xué)通過編程來標(biāo)注海量的數(shù)據(jù),創(chuàng)建了snorkel系統(tǒng)。我們可以使用例如假設(shè)、類比、規(guī)則、知識(shí)庫等方法來編寫標(biāo)注數(shù)據(jù)的程序。不過,以這樣弱監(jiān)督得到的數(shù)據(jù)并不準(zhǔn)確,比如可能存在多個(gè)彼此沖突或重疊的標(biāo)注信號(hào)。
弱監(jiān)督
領(lǐng)域啟發(fā)式搜索: 常見模式、經(jīng)驗(yàn)法則 ;
遠(yuǎn)程監(jiān)督:利用已有的標(biāo)注數(shù)據(jù);
眾包標(biāo)注:非專家人標(biāo)注;
標(biāo)注函數(shù)
常見標(biāo)注函數(shù)
硬編碼的推導(dǎo):通常使用正則表達(dá)式
語義結(jié)構(gòu):例如,使用spacy得到的依存關(guān)系結(jié)構(gòu)
遠(yuǎn)程監(jiān)督:例如使用外部的知識(shí)庫
有噪聲人工標(biāo)注:例如眾包標(biāo)注
外部模型:其他可以給出有用標(biāo)注信號(hào)的模型
將領(lǐng)域?qū)<医o出的各種各樣監(jiān)督信號(hào)編寫成標(biāo)注函數(shù),標(biāo)注函數(shù)中編碼了領(lǐng)域相關(guān)的推理規(guī)則,可以使用正則表達(dá)式。經(jīng)驗(yàn)規(guī)則等常見的模式進(jìn)行標(biāo)注。不過,這樣生成的數(shù)據(jù)包含噪聲,并且可能彼此沖突。
當(dāng)編寫好標(biāo)注函數(shù)后,Snorkel將利用這些不同的標(biāo)注函數(shù)之間的沖突 訓(xùn)練一個(gè)標(biāo)注模型(Label Model)來估算不同標(biāo)注函數(shù)的標(biāo)注準(zhǔn)確度。通過觀察標(biāo)注函數(shù) 之間的彼此一致性,標(biāo)注模型能夠?qū)W習(xí)到每個(gè)監(jiān)督源的準(zhǔn)確度。例如,如果一個(gè)標(biāo)注函數(shù)的標(biāo)注結(jié)果總是得到其他標(biāo)注函數(shù)的認(rèn)可,那這個(gè)標(biāo)注函數(shù)將有一個(gè)高準(zhǔn)確率,而如果一個(gè)標(biāo)注函數(shù)總是與其他標(biāo)注函數(shù)的結(jié)果不一致,那么這個(gè)標(biāo)注函數(shù)將得到一個(gè)較低的準(zhǔn)確率。通過整合所有的標(biāo)注函數(shù)的投票結(jié)果(以其估算準(zhǔn)確度作為權(quán)重),我們 就可以為每個(gè)數(shù)據(jù)樣本分配一個(gè)包含噪聲的標(biāo)注(0~1之間),而不是一個(gè) 硬標(biāo)注(要么0,要么1)。
接下來,當(dāng)標(biāo)注一個(gè)新的數(shù)據(jù)點(diǎn)時(shí),每一個(gè)標(biāo)注函數(shù)都會(huì)對(duì)分類進(jìn)行投票:正、負(fù)或棄權(quán)?;谶@些投票以及標(biāo)注函數(shù)的估算精度,標(biāo)注模型能夠程序化到為上百萬的數(shù)據(jù)點(diǎn)給出 概率性標(biāo)注。最終的目標(biāo)是訓(xùn)練出一個(gè)可以超越標(biāo)注函數(shù)的泛化能力的分類器。
優(yōu)點(diǎn)
可以大規(guī)模標(biāo)注,每個(gè)標(biāo)注函數(shù)都可以用于成百上千個(gè)數(shù)據(jù)樣本的標(biāo)注。
可以利用海量的未標(biāo)注數(shù)據(jù),來構(gòu)建大量雖然不完美但是足夠好的大型訓(xùn)練數(shù)據(jù)集
這些標(biāo)注可以用于訓(xùn)練一個(gè)具有大特征集的強(qiáng)大的判別分類器。即使我們只使用 100個(gè)標(biāo)注函數(shù),每個(gè)數(shù)據(jù)樣本依然可以有上千個(gè)特征。
總結(jié)
整體看來,有點(diǎn)類似于機(jī)器學(xué)習(xí)中的弱監(jiān)督器堆疊產(chǎn)生強(qiáng)監(jiān)督器的思想。在這里的弱監(jiān)督器指的是單一特征標(biāo)注函數(shù),強(qiáng)監(jiān)督器指的是經(jīng)過這些標(biāo)注函數(shù)訓(xùn)練得到的分類器。
公眾號(hào)粉絲禮包:后臺(tái)關(guān)鍵詞:
python大禮包
整理不易,還請(qǐng)點(diǎn)擊在看與分享,謝謝。
我就知道你“在看”

