主動(dòng)學(xué)習(xí)(Active Learning) 概述、策略和不確定性度量

來源:DeepHub IMBA 本文約2400字,建議閱讀9分鐘
主動(dòng)學(xué)習(xí)是解決標(biāo)注數(shù)據(jù)問題的一個(gè)方向,并且是一個(gè)非常好的方向。
主動(dòng)學(xué)習(xí)是一種學(xué)習(xí)算法可以交互式查詢用戶(teacher 或 oracle),用真實(shí)標(biāo)簽標(biāo)注新數(shù)據(jù)點(diǎn)的策略。主動(dòng)學(xué)習(xí)的過程也被稱為優(yōu)化實(shí)驗(yàn)設(shè)計(jì)。 主動(dòng)學(xué)習(xí)的動(dòng)機(jī)在于認(rèn)識(shí)到并非所有標(biāo)有標(biāo)簽的樣本都同等重要。 主動(dòng)學(xué)習(xí)通過為專家的標(biāo)記工作進(jìn)行優(yōu)先級(jí)排序可以大大減少訓(xùn)練模型所需的標(biāo)記數(shù)據(jù)量。降低成本,同時(shí)提高準(zhǔn)確性。 主動(dòng)學(xué)習(xí)是一種策略/算法,是對現(xiàn)有模型的增強(qiáng)。而不是新模型架構(gòu)。 主動(dòng)學(xué)習(xí)容易理解,不容易執(zhí)行。
主動(dòng)學(xué)習(xí)背后的關(guān)鍵思想是,如果允許機(jī)器學(xué)習(xí)算法選擇它學(xué)習(xí)的數(shù)據(jù),這樣就可以用更少的訓(xùn)練標(biāo)簽實(shí)現(xiàn)更高的準(zhǔn)確性?!狝ctive Learning Literature Survey, Burr Settles
主動(dòng)學(xué)習(xí)簡介
主動(dòng)學(xué)習(xí)的策略
首先需要做的是需要手動(dòng)標(biāo)記該數(shù)據(jù)的一個(gè)非常小的子樣本。 一旦有少量的標(biāo)記數(shù)據(jù),就需要對其進(jìn)行訓(xùn)練。該模型當(dāng)然不會(huì)很棒,但是將幫助我們了解參數(shù)空間的哪些領(lǐng)域需要首標(biāo)記。 訓(xùn)練模型后,該模型用于預(yù)測每個(gè)剩余的未標(biāo)記數(shù)據(jù)點(diǎn)的類別。 根據(jù)模型的預(yù)測,在每個(gè)未標(biāo)記的數(shù)據(jù)點(diǎn)上選擇分?jǐn)?shù)(在下一節(jié)中,將介紹一些最常用的分?jǐn)?shù)) 一旦選擇了對標(biāo)簽進(jìn)行優(yōu)先排序的最佳方法,這個(gè)過程就可以進(jìn)行迭代重復(fù):在基于優(yōu)先級(jí)分?jǐn)?shù)進(jìn)行標(biāo)記的新標(biāo)簽數(shù)據(jù)集上訓(xùn)練新模型。一旦在數(shù)據(jù)子集上訓(xùn)練完新模型,未標(biāo)記的數(shù)據(jù)點(diǎn)就可以在模型中運(yùn)行并更新優(yōu)先級(jí)分值,繼續(xù)標(biāo)記。



不確定性度量
{"Prediction": {"Label": "Cat","Prob": {"Cat": 0.9352784428596497,"Horse": 0.05409964170306921,"Dog": 0.038225741147994995,}}}





總結(jié)
編輯:黃繼彥
評(píng)論
圖片
表情
