>明日直播!田值:實(shí)例分割創(chuàng)新式突破BoxInst,僅用Box標(biāo)注,實(shí)現(xiàn)..." />
<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          LeCun點(diǎn)贊華人女科學(xué)家——使用能量模型替代Softmax函數(shù)!

          共 3464字,需瀏覽 7分鐘

           ·

          2020-12-17 18:11

          ↑ 點(diǎn)擊藍(lán)字?關(guān)注極市平臺(tái)

          作者丨賽文
          來源丨AI科技評(píng)論
          編輯丨極市平臺(tái)

          極市導(dǎo)讀

          ?

          本文證明了可以將任何預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)的softmax置信度替換為能量函數(shù)!?>>明日直播!田值:實(shí)例分割創(chuàng)新式突破BoxInst,僅用Box標(biāo)注,實(shí)現(xiàn)COCO 33.2AP!

          Softmax置信度得分應(yīng)該是大家再熟悉不過的加在神經(jīng)網(wǎng)絡(luò)最后面的一個(gè)操作。

          然鵝,Softmax置信度得分一直都是合適和可靠的嗎?
          目前已有很多機(jī)器學(xué)習(xí)模型部署在高風(fēng)險(xiǎn)領(lǐng)域中,例如特殊疾病的診斷,敏感信息的生物識(shí)別等,當(dāng)模型部署上線后,往往無法控制輸入的數(shù)據(jù),這些高風(fēng)險(xiǎn)模型很容易受到訓(xùn)練分布外異常數(shù)據(jù)的攻擊,所以需要在模型推理之前對(duì)數(shù)據(jù)進(jìn)行異常檢測(cè)(out-of-distribution, OOD)。
          之前的OOD方法往往都根據(jù)softmax函數(shù)的輸出來辨別異常樣本,然而神經(jīng)網(wǎng)絡(luò)會(huì)對(duì)分布外的數(shù)據(jù)輸出一個(gè)較高的隨機(jī)值,這是由于softmax的后驗(yàn)分布會(huì)有一個(gè)標(biāo)簽過擬合的輸出空間,這使得softmax置信度得分對(duì)OOD檢測(cè)而言是不可靠的。
          有什么方法能改善這種不可靠呢?
          AI科技評(píng)論今天就來介紹一篇被NeurIPS 2020收錄的論文:《Energy-based Out-of-distribution Detection》來改善。
          論文鏈接:https://arxiv.org/abs/2010.03759
          代碼鏈接:https://github.com/wetliu/energy_ood
          本文引入了能量模型來對(duì)數(shù)據(jù)進(jìn)行建模,并使用能量分?jǐn)?shù)(energy score)來分辨輸入數(shù)據(jù)是否為異常樣本,作者對(duì)能量分?jǐn)?shù)和傳統(tǒng)的softmax置信分?jǐn)?shù)進(jìn)行了對(duì)比,并從理論上分析,由于softmax函數(shù)偏置量的存在,導(dǎo)致其與輸入樣本的概率密度不一致,所以并不適合來檢測(cè)異常樣本。
          本文還證明了能量分?jǐn)?shù)與數(shù)據(jù)的概率密度對(duì)齊,可以獲得較好的異常檢測(cè)性能,就連能量模型的提出者“養(yǎng)樂村”同志(LeCun)也在推特上轉(zhuǎn)推點(diǎn)贊了這篇論文。

          1 論文一作

          Sharon Yixuan Li,威斯康星大學(xué)麥迪遜分校計(jì)算機(jī)科學(xué)系助理教授,本科就讀于上海交通大學(xué),博士畢業(yè)于康奈爾大學(xué),博士后一年在斯坦福大學(xué)計(jì)算機(jī)系度過,曾兩次在Google AI實(shí)習(xí),并在Facebook AI擔(dān)任過研究科學(xué)家。

          發(fā)表過多篇頂會(huì)一作,在ICLR 2021擔(dān)任領(lǐng)域主席,并將成為ICML 2021領(lǐng)域主席。
          研究的目:使算法和實(shí)踐能夠朝著可靠的開放世界學(xué)習(xí)方向發(fā)展,而這種學(xué)習(xí)方法可以在不斷變化和不可預(yù)測(cè)的數(shù)據(jù)流存在的情況下安全、自適應(yīng)地運(yùn)行。
          目前關(guān)注的研究主題包括:
          • 深度學(xué)習(xí)中的不確定性估計(jì)和分布外檢測(cè);

          • 魯棒數(shù)據(jù)不規(guī)則性和分布外泛化;

          • 在醫(yī)療和計(jì)算機(jī)視覺中具有不確定性的深度學(xué)習(xí)。

          個(gè)人主頁:http://pages.cs.wisc.edu/~sharonli/

          2 什么是能量模型(EBM)

          基于能量的模型(EBM)[1]最早由LeCun在2006年提出,該模型的本質(zhì)是構(gòu)建一個(gè)函數(shù)E(x),對(duì)樣本空間中的所有樣本點(diǎn)映射到一個(gè)非概率的標(biāo)量值(energy),一些樣本能量值的組合可以反映出概率密度的情況,基于Gibbs分布,我們可以將一組輸入的能量值轉(zhuǎn)換為概率密度的形式:
          ?? ? ?
          其中分母是分割函數(shù)用來邊緣化y,T為溫度參數(shù),輸入樣本的能量可以表示為分割函數(shù)取對(duì)數(shù)的負(fù)值:
          對(duì)于一個(gè)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)分類器f(x),使用softmax函數(shù)可以得到當(dāng)前樣本在全部K個(gè)類別上的概率:
          ? ?
          其中?對(duì)應(yīng)于第y類標(biāo)簽的logit值,聯(lián)立上式,可以將輸入的能量值表示為負(fù)的,這樣就在原始神經(jīng)網(wǎng)絡(luò)分類器和能量模型之間建立起了聯(lián)系,我們可以用softmax函數(shù)的分母來表示當(dāng)前輸入樣本的能量,并且進(jìn)行后續(xù)的異常檢測(cè)操作。

          3 能量模型指導(dǎo)下的OOD

          能量異常分?jǐn)?shù)

          異常檢測(cè)可以簡(jiǎn)單的看作是一個(gè)二分類問題,對(duì)于輸入的樣本模型需要給出一個(gè)分?jǐn)?shù)值來衡量當(dāng)前樣本偏離正常分布的程度,直觀的方法是使用密度估計(jì),這里使用能量函數(shù)來構(gòu)建模型的密度函數(shù):
          由于歸整因子(分母)在輸入空間很難可靠的估計(jì),但是其不會(huì)對(duì)輸入數(shù)據(jù)產(chǎn)生影響,所以可以直接對(duì)上式左右取對(duì)數(shù):
          上式表明實(shí)際上與對(duì)數(shù)似然函數(shù)線性對(duì)齊,這有助于提高異常檢測(cè)的性能,具有較高能量(似然函數(shù)值較?。┑臄?shù)據(jù)會(huì)被判別為異常樣本。
          為了與常規(guī)定義相匹配,即正常樣本得分應(yīng)更高,本文直接使用負(fù)能量函數(shù)? ? ? ? ??構(gòu)成異常檢測(cè)器?:
          其中為能量閾值,從正常樣本數(shù)據(jù)分布統(tǒng)計(jì)得到。

          能量分?jǐn)?shù) VS Softmax分?jǐn)?shù)

          為了證明能量函數(shù)可以直接對(duì)任意預(yù)訓(xùn)練網(wǎng)絡(luò)的softmax置信度進(jìn)行替換,需要首先推導(dǎo)出能量分?jǐn)?shù)與softmax置信分?jǐn)?shù)之間的數(shù)學(xué)聯(lián)系:
          當(dāng)T=1時(shí),上式表明softmax置信度的對(duì)數(shù)其實(shí)屬于能量分?jǐn)?shù)的一個(gè)特例,對(duì)于softmax函數(shù)而言,隨著模型的優(yōu)化,當(dāng)輸入一個(gè)正常樣本時(shí),?傾向于得到一個(gè)較高的置信分?jǐn)?shù),這種傾向?qū)?dǎo)致評(píng)分函數(shù)不再與概率密度成正比。
          而能量函數(shù)不受這類偏移影響,將始終與概率密度對(duì)齊,進(jìn)而提高了模型對(duì)異常樣本的檢測(cè)能力。

          能量邊界學(xué)習(xí)

          在模型訓(xùn)練階段,本文提出了一種能量限度目標(biāo)函數(shù)來微調(diào)網(wǎng)絡(luò),網(wǎng)絡(luò)優(yōu)化的過程就是在對(duì)能量表面進(jìn)行整流,促使分布內(nèi)數(shù)據(jù)的能量分?jǐn)?shù)較低,而分布外的異常數(shù)據(jù)能量分?jǐn)?shù)較高,具體來說,基于能量的分類器的目標(biāo)函數(shù)如下:
          除了一個(gè)標(biāo)準(zhǔn)的交叉熵?fù)p失函數(shù)之外,還引入了兩個(gè)hinge loss作為正則項(xiàng)來拉遠(yuǎn)正常數(shù)據(jù)和異常數(shù)據(jù)之間的分布距離。

          4?實(shí)驗(yàn)結(jié)果

          本文使用SVHN、CIFAR-10和CIFAR-100作為正常樣本數(shù)據(jù)集,并且在六個(gè)異常樣本數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),網(wǎng)絡(luò)結(jié)構(gòu)使用WideResNet。

          Softmax對(duì)比實(shí)驗(yàn)

          下面的直方圖分別展示了softmax分?jǐn)?shù)與能量分?jǐn)?shù)在相同數(shù)據(jù)上的異常對(duì)比結(jié)果,樣本數(shù)據(jù)來自SVHN數(shù)據(jù)集,在softmax直方圖中,正常樣本與異常樣本的得分基本一致(1.0 vs 0.99),而在能量分?jǐn)?shù)直方圖中,正常樣本與異常樣本的得分差異非常明顯(11.19 vs 7.11)。
          作者還在其他異常數(shù)據(jù)集上對(duì)softmax和能量分?jǐn)?shù)進(jìn)行了對(duì)比,實(shí)驗(yàn)結(jié)果如下:

          模型微調(diào)實(shí)驗(yàn)

          本文使用能量限度目標(biāo)函數(shù)來對(duì)預(yù)訓(xùn)練網(wǎng)絡(luò)進(jìn)行微調(diào),不會(huì)給網(wǎng)絡(luò)帶來附加參數(shù),同時(shí)保持了網(wǎng)絡(luò)本身的分類精度,在CIFAR-10數(shù)據(jù)集上進(jìn)行能量微調(diào)后,網(wǎng)絡(luò)在異常測(cè)試集上的FPR95值降低到3.32,同時(shí)在分布內(nèi)數(shù)據(jù)上的分類誤差為4.87%,總體來說,這種基于能量的微調(diào)方法不僅可以提高網(wǎng)絡(luò)的異常檢測(cè)能力,也不會(huì)對(duì)網(wǎng)絡(luò)本身的分類性能造成影響。

          5?總結(jié)

          本文主要提出了一種基于能量的異常檢測(cè)框架,本文證明了可以將任何預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)的softmax置信度替換為能量函數(shù)。
          相比于其他使用預(yù)訓(xùn)練模型的異常檢測(cè)方法,得益于能量量度無參數(shù)的特點(diǎn),本文方法無需對(duì)模型其他參數(shù)進(jìn)行調(diào)整,便于部署,與softmax置信度得分不同,能量分?jǐn)?shù)被證明與數(shù)據(jù)的概率密度對(duì)齊,因此,可以顯著提高異常檢測(cè)性能。
          作者稱未來會(huì)在圖像分類任務(wù)之外進(jìn)一步探索基于能量的異常檢測(cè)方法。

          參考

          LeCun Y, Chopra S, Hadsell R, et al. A tutorial on energy-based learning[J]. Predicting structured data, 2006, 1(0).?

          推薦閱讀



            添加極市小助手微信(ID : cvmart2),備注:姓名-學(xué)校/公司-研究方向-城市(如:小極-北大-目標(biāo)檢測(cè)-深圳),即可申請(qǐng)加入極市目標(biāo)檢測(cè)/圖像分割/工業(yè)檢測(cè)/人臉/醫(yī)學(xué)影像/3D/SLAM/自動(dòng)駕駛/超分辨率/姿態(tài)估計(jì)/ReID/GAN/圖像增強(qiáng)/OCR/視頻理解等技術(shù)交流群:月大咖直播分享、真實(shí)項(xiàng)目需求對(duì)接、求職內(nèi)推、算法競(jìng)賽、干貨資訊匯總、與?10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動(dòng)交流~

            △長(zhǎng)按添加極市小助手

            △長(zhǎng)按關(guān)注極市平臺(tái),獲取最新CV干貨

            覺得有用麻煩給個(gè)在看啦~??
            瀏覽 106
            點(diǎn)贊
            評(píng)論
            收藏
            分享

            手機(jī)掃一掃分享

            分享
            舉報(bào)
            評(píng)論
            圖片
            表情
            推薦
            點(diǎn)贊
            評(píng)論
            收藏
            分享

            手機(jī)掃一掃分享

            分享
            舉報(bào)
            <kbd id="afajh"><form id="afajh"></form></kbd>
            <strong id="afajh"><dl id="afajh"></dl></strong>
              <del id="afajh"><form id="afajh"></form></del>
                  1. <th id="afajh"><progress id="afajh"></progress></th>
                    <b id="afajh"><abbr id="afajh"></abbr></b>
                    <th id="afajh"><progress id="afajh"></progress></th>
                    中文人妻无码一区二区三区久久 | 麻豆乱伦无码 | 啊啊啊男女拍拍视频 | 午夜成人无码 | 国产女主播一区二区三区 |