<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          主動(dòng)學(xué)習(xí)(Active Learning) 概述、策略和不確定性度量

          共 2902字,需瀏覽 6分鐘

           ·

          2022-07-12 04:07


          來源:DeepHub IMBA

          本文約2400字,建議閱讀9分鐘

          主動(dòng)學(xué)習(xí)是解決標(biāo)注數(shù)據(jù)問題的一個(gè)方向,并且是一個(gè)非常好的方向。


          主動(dòng)學(xué)習(xí)是指對需要標(biāo)記的數(shù)據(jù)進(jìn)行優(yōu)先排序的過程,這樣可以確定哪些數(shù)據(jù)對訓(xùn)練監(jiān)督模型產(chǎn)生最大的影響。

          • 主動(dòng)學(xué)習(xí)是一種學(xué)習(xí)算法可以交互式查詢用戶(teacher 或 oracle),用真實(shí)標(biāo)簽標(biāo)注新數(shù)據(jù)點(diǎn)的策略。主動(dòng)學(xué)習(xí)的過程也被稱為優(yōu)化實(shí)驗(yàn)設(shè)計(jì)。
          • 主動(dòng)學(xué)習(xí)的動(dòng)機(jī)在于認(rèn)識(shí)到并非所有標(biāo)有標(biāo)簽的樣本都同等重要。
          • 主動(dòng)學(xué)習(xí)通過為專家的標(biāo)記工作進(jìn)行優(yōu)先級(jí)排序可以大大減少訓(xùn)練模型所需的標(biāo)記數(shù)據(jù)量。降低成本,同時(shí)提高準(zhǔn)確性。
          • 主動(dòng)學(xué)習(xí)是一種策略/算法,是對現(xiàn)有模型的增強(qiáng)。而不是新模型架構(gòu)。
          • 主動(dòng)學(xué)習(xí)容易理解,不容易執(zhí)行。

          主動(dòng)學(xué)習(xí)背后的關(guān)鍵思想是,如果允許機(jī)器學(xué)習(xí)算法選擇它學(xué)習(xí)的數(shù)據(jù),這樣就可以用更少的訓(xùn)練標(biāo)簽實(shí)現(xiàn)更高的準(zhǔn)確性?!狝ctive Learning Literature Survey, Burr Settles


          主動(dòng)學(xué)習(xí)簡介


          主動(dòng)學(xué)習(xí)不是一次為所有的數(shù)據(jù)收集所有的標(biāo)簽,而是對模型理解最困難的數(shù)據(jù)進(jìn)行優(yōu)先級(jí)排序,并僅對那些數(shù)據(jù)要求標(biāo)注標(biāo)簽。然后模型對少量已標(biāo)記的數(shù)據(jù)進(jìn)行訓(xùn)練,訓(xùn)練完成后再次要求對最不確定數(shù)據(jù)進(jìn)行更多的標(biāo)記。

          通過對不確定的樣本進(jìn)行優(yōu)先排序,模型可以讓專家(人工)集中精力提供最有用的信息。這有助于模型更快地學(xué)習(xí),并讓專家跳過對模型沒有太大幫助的數(shù)據(jù)。這樣在某些情況下,可以大大減少需要從專家那里收集的標(biāo)簽數(shù)量,并且仍然可以得到一個(gè)很好的模型。這樣可以為機(jī)器學(xué)習(xí)項(xiàng)目節(jié)省時(shí)間和金錢!

          主動(dòng)學(xué)習(xí)的策略


          有很多論文介紹了多種如何確定數(shù)據(jù)點(diǎn)以及如何在方法上進(jìn)行迭代的方法。本文中將介紹最常見和最直接的方法,因?yàn)檫@是最簡單也最容易理解的。

          在未標(biāo)記的數(shù)據(jù)集上使用主動(dòng)學(xué)習(xí)的步驟是:

          • 首先需要做的是需要手動(dòng)標(biāo)記該數(shù)據(jù)的一個(gè)非常小的子樣本。
          • 一旦有少量的標(biāo)記數(shù)據(jù),就需要對其進(jìn)行訓(xùn)練。該模型當(dāng)然不會(huì)很棒,但是將幫助我們了解參數(shù)空間的哪些領(lǐng)域需要首標(biāo)記。
          • 訓(xùn)練模型后,該模型用于預(yù)測每個(gè)剩余的未標(biāo)記數(shù)據(jù)點(diǎn)的類別。
          • 根據(jù)模型的預(yù)測,在每個(gè)未標(biāo)記的數(shù)據(jù)點(diǎn)上選擇分?jǐn)?shù)(在下一節(jié)中,將介紹一些最常用的分?jǐn)?shù))
          • 一旦選擇了對標(biāo)簽進(jìn)行優(yōu)先排序的最佳方法,這個(gè)過程就可以進(jìn)行迭代重復(fù):在基于優(yōu)先級(jí)分?jǐn)?shù)進(jìn)行標(biāo)記的新標(biāo)簽數(shù)據(jù)集上訓(xùn)練新模型。一旦在數(shù)據(jù)子集上訓(xùn)練完新模型,未標(biāo)記的數(shù)據(jù)點(diǎn)就可以在模型中運(yùn)行并更新優(yōu)先級(jí)分值,繼續(xù)標(biāo)記。

          通過這種方式,隨著模型變得越來越好,我們可以不斷優(yōu)化標(biāo)簽策略。


          基于數(shù)據(jù)流的主動(dòng)學(xué)習(xí)方法

          在基于流的主動(dòng)學(xué)習(xí)中,所有訓(xùn)練樣本的集合以流的形式呈現(xiàn)給算法。每個(gè)樣本都被單獨(dú)發(fā)送給算法。算法必須立即決定是否標(biāo)記這個(gè)示例。從這個(gè)池中選擇的訓(xùn)練樣本由oracle(人工的行業(yè)專家)標(biāo)記,在顯示下一個(gè)樣本之前,該標(biāo)記立即由算法接收。


          基于數(shù)據(jù)池的主動(dòng)學(xué)習(xí)方法

          在基于池的抽樣中,訓(xùn)練樣本從一個(gè)大的未標(biāo)記數(shù)據(jù)池中選擇。從這個(gè)池中選擇的訓(xùn)練樣本由oracle標(biāo)記。


          基于查詢的主動(dòng)學(xué)習(xí)方法

          這種基于委員會(huì)查詢的方法使用多個(gè)模型而不是一個(gè)模型。

          委員會(huì)查詢(Query by Committee),它維護(hù)一個(gè)模型集合(集合被稱為委員會(huì)),通過查詢(投票)選擇最“有爭議”的數(shù)據(jù)點(diǎn)作為下一個(gè)需要標(biāo)記的數(shù)據(jù)點(diǎn)。通過這種委員會(huì)可的模式以克服一個(gè)單一模型所能表達(dá)的限制性假設(shè)(并且在任務(wù)開始時(shí)我們也不知道應(yīng)該使用什么假設(shè))。

          不確定性度量


          識(shí)別接下來需要標(biāo)記的最有價(jià)值的樣本的過程被稱為“抽樣策略”或“查詢策略”。在該過程中的評(píng)分函數(shù)稱為“acquisition function”。該分?jǐn)?shù)的含義是:得分越高的數(shù)據(jù)點(diǎn)被標(biāo)記后,對模型訓(xùn)練后的產(chǎn)生價(jià)值就越高(沒模型效果好)。有很多種不同的采樣策略,例如不確定性抽樣,多樣性采樣,預(yù)期模型更改…,在本文中,我們將僅關(guān)注最常用策略的不確定性度量。

          不確定性抽樣是一組技術(shù),可以用于識(shí)別當(dāng)前機(jī)器學(xué)習(xí)模型中的決策邊界附近的未標(biāo)記樣本。這里信息最豐富的例子是分類器最不確定的例子。模型最不確定性的樣本可能是在分類邊界附近的數(shù)據(jù)。而我們模型學(xué)習(xí)的算法將通過觀察這些分類最困難的樣本來獲得有關(guān)類邊界的更多的信息。

          讓我們以一個(gè)具體的例子,假設(shè)正在嘗試建立一個(gè)多類分類,以區(qū)分3類貓,狗,馬。該模型可能會(huì)給我們以下預(yù)測:

          {  "Prediction": {      "Label": "Cat",      "Prob": {          "Cat": 0.9352784428596497,          "Horse": 0.05409964170306921,          "Dog": 0.038225741147994995,      }  }}

          這個(gè)輸出很可能來自softmax,它使用指數(shù)將對數(shù)轉(zhuǎn)換為0-1范圍的分?jǐn)?shù)。


          最小置信度:(Least confidence)

          最小置信度=1(100%置信度)和每個(gè)項(xiàng)目的最自信的標(biāo)簽之間的差異。


          雖然可以單獨(dú)按置信度的順序進(jìn)行排名,但將不確定性得分轉(zhuǎn)換為0-1范圍,其中1是最不確定的分?jǐn)?shù)可能很有用。因?yàn)樵谶@種情況下,我們必須將分?jǐn)?shù)標(biāo)準(zhǔn)化。我們從1中減去該值,將結(jié)果乘以N/(1-N),n為標(biāo)簽數(shù)。這時(shí)因?yàn)樽畹椭眯哦扔肋h(yuǎn)不會(huì)小于標(biāo)簽數(shù)量(所有標(biāo)簽都具有相同的預(yù)測置信度的時(shí)候)。

          讓我們將其應(yīng)用到上面的示例中,不確定性分?jǐn)?shù)將是:(1-0.9352) *(3/2)= 0.0972。

          最小置信度是最簡單,最常用的方法,它提供預(yù)測順序的排名,這樣可以以最低的置信度對其預(yù)測標(biāo)簽進(jìn)行采樣。

          置信度抽樣間距(margin of confidence sampling)

          不確定性抽樣的最直觀形式是兩個(gè)置信度做高的預(yù)測之間的差值。也就是說,對于該模型預(yù)測的標(biāo)簽對比第二高的標(biāo)簽的差異有多大?這被定義為:


          同樣我們可以將其轉(zhuǎn)換為0-1范圍,必須再次使用1減去該值,但是最大可能的分?jǐn)?shù)已經(jīng)為1了,所以不需要再進(jìn)行其他操作。

          讓我們將置信度抽樣間距應(yīng)用于上面的示例數(shù)據(jù)?!柏垺焙汀榜R”是前兩個(gè)。使用我們的示例,這種不確定性得分將為1.0  - (0.9352–0.0540)= 0.1188。

          抽樣比率 (Ratio sampling)

          置信度比是置信度邊緣的變化,是兩個(gè)分?jǐn)?shù)之間的差異比率而不是間距的差異的絕對值。


          熵抽樣(Entropy Sampling)

          應(yīng)用于概率分布的熵包括將每個(gè)概率乘以其自身的對數(shù),然后求和取負(fù)數(shù):


          讓我們在示例數(shù)據(jù)上計(jì)算熵:


          得到 0  -  sum(–0.0705,–0.0903,–0.2273)= 0.3881
          除以標(biāo)簽數(shù)的log得到0.3881/ log2(3)= 0.6151

          總結(jié)


          機(jī)器學(xué)習(xí)社區(qū)的大部分重點(diǎn)是創(chuàng)建更好的算法來從數(shù)據(jù)中學(xué)習(xí)。獲得有用的標(biāo)注數(shù)據(jù)在訓(xùn)練時(shí)是非常重要的,但是標(biāo)注數(shù)據(jù)可能很非常的費(fèi)事費(fèi)力,并且如果標(biāo)注的質(zhì)量不佳也會(huì)對訓(xùn)練產(chǎn)生很大的影響。主動(dòng)學(xué)習(xí)是解決這個(gè)問題的一個(gè)方向,并且是一個(gè)非常好的方向。

          作者:Zakarya ROUZKI

          編輯:黃繼彥





          瀏覽 22
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  扒开屁日本网视频 | 成人AV三级| 无码一级片 | 久久精品三级 | 国产精品久久久久中文 |