<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          如何自動(dòng)化標(biāo)注海量數(shù)據(jù)

          共 1126字,需瀏覽 3分鐘

           ·

          2022-03-09 07:10

          簡介

          斯坦福大學(xué)通過編程來標(biāo)注海量的數(shù)據(jù),創(chuàng)建了snorkel系統(tǒng)。我們可以使用例如假設(shè)、類比、規(guī)則、知識(shí)庫等方法來編寫標(biāo)注數(shù)據(jù)的程序。不過,以這樣弱監(jiān)督得到的數(shù)據(jù)并不準(zhǔn)確,比如可能存在多個(gè)彼此沖突或重疊的標(biāo)注信號(hào)。

          弱監(jiān)督

          1. 領(lǐng)域啟發(fā)式搜索: 常見模式、經(jīng)驗(yàn)法則 ;

          2. 遠(yuǎn)程監(jiān)督:利用已有的標(biāo)注數(shù)據(jù);

          3. 眾包標(biāo)注:非專家人標(biāo)注;

          標(biāo)注函數(shù)

          常見標(biāo)注函數(shù)

          1. 硬編碼的推導(dǎo):通常使用正則表達(dá)式

          2. 語義結(jié)構(gòu):例如,使用spacy得到的依存關(guān)系結(jié)構(gòu)

          3. 遠(yuǎn)程監(jiān)督:例如使用外部的知識(shí)庫

          4. 有噪聲人工標(biāo)注:例如眾包標(biāo)注

          5. 外部模型:其他可以給出有用標(biāo)注信號(hào)的模型

          將領(lǐng)域?qū)<医o出的各種各樣監(jiān)督信號(hào)編寫成標(biāo)注函數(shù),標(biāo)注函數(shù)中編碼了領(lǐng)域相關(guān)的推理規(guī)則,可以使用正則表達(dá)式。經(jīng)驗(yàn)規(guī)則等常見的模式進(jìn)行標(biāo)注。不過,這樣生成的數(shù)據(jù)包含噪聲,并且可能彼此沖突。

          當(dāng)編寫好標(biāo)注函數(shù)后,Snorkel將利用這些不同的標(biāo)注函數(shù)之間的沖突 訓(xùn)練一個(gè)標(biāo)注模型(Label Model)來估算不同標(biāo)注函數(shù)的標(biāo)注準(zhǔn)確度。通過觀察標(biāo)注函數(shù) 之間的彼此一致性,標(biāo)注模型能夠?qū)W習(xí)到每個(gè)監(jiān)督源的準(zhǔn)確度。例如,如果一個(gè)標(biāo)注函數(shù)的標(biāo)注結(jié)果總是得到其他標(biāo)注函數(shù)的認(rèn)可,那這個(gè)標(biāo)注函數(shù)將有一個(gè)高準(zhǔn)確率,而如果一個(gè)標(biāo)注函數(shù)總是與其他標(biāo)注函數(shù)的結(jié)果不一致,那么這個(gè)標(biāo)注函數(shù)將得到一個(gè)較低的準(zhǔn)確率。通過整合所有的標(biāo)注函數(shù)的投票結(jié)果(以其估算準(zhǔn)確度作為權(quán)重),我們 就可以為每個(gè)數(shù)據(jù)樣本分配一個(gè)包含噪聲的標(biāo)注(0~1之間),而不是一個(gè) 硬標(biāo)注(要么0,要么1)。

          接下來,當(dāng)標(biāo)注一個(gè)新的數(shù)據(jù)點(diǎn)時(shí),每一個(gè)標(biāo)注函數(shù)都會(huì)對(duì)分類進(jìn)行投票:正、負(fù)或棄權(quán)?;谶@些投票以及標(biāo)注函數(shù)的估算精度,標(biāo)注模型能夠程序化到為上百萬的數(shù)據(jù)點(diǎn)給出 概率性標(biāo)注。最終的目標(biāo)是訓(xùn)練出一個(gè)可以超越標(biāo)注函數(shù)的泛化能力的分類器。

          優(yōu)點(diǎn)

          1. 可以大規(guī)模標(biāo)注,每個(gè)標(biāo)注函數(shù)都可以用于成百上千個(gè)數(shù)據(jù)樣本的標(biāo)注。

          2. 可以利用海量的未標(biāo)注數(shù)據(jù),來構(gòu)建大量雖然不完美但是足夠好的大型訓(xùn)練數(shù)據(jù)集

          3. 這些標(biāo)注可以用于訓(xùn)練一個(gè)具有大特征集的強(qiáng)大的判別分類器。即使我們只使用 100個(gè)標(biāo)注函數(shù),每個(gè)數(shù)據(jù)樣本依然可以有上千個(gè)特征。

          總結(jié)

          整體看來,有點(diǎn)類似于機(jī)器學(xué)習(xí)中的弱監(jiān)督器堆疊產(chǎn)生強(qiáng)監(jiān)督器的思想。在這里的弱監(jiān)督器指的是單一特征標(biāo)注函數(shù),強(qiáng)監(jiān)督器指的是經(jīng)過這些標(biāo)注函數(shù)訓(xùn)練得到的分類器


          公眾號(hào)粉絲禮包:后臺(tái)關(guān)鍵詞:

          python大禮包

          整理不易,還請(qǐng)點(diǎn)擊在看與分享,謝謝。

          我就知道你“在看”

          瀏覽 89
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  91麻豆福利 | 国产一级免费在线 | 亚洲天堂福利视频 | 肏小屄视频 | 午夜逼片 |