<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          無需多個(gè)模型也能實(shí)現(xiàn)知識(shí)整合?港中文MMLab提出「烘焙」算法,全面提升ImageNet性能

          共 3202字,需瀏覽 7分鐘

           ·

          2021-05-19 17:52

          視學(xué)算法專欄
          轉(zhuǎn)載自:機(jī)器之心
          作者:葛藝瀟
          來自港中文 MMLab 的研究者提出一種烘焙(BAKE)算法,為知識(shí)蒸餾中的知識(shí)整合提供了一個(gè)全新的思路,打破了固有的多模型整合的樣式,創(chuàng)新地提出并嘗試了樣本間的知識(shí)整合。

          知識(shí)蒸餾算法方向的研究發(fā)現(xiàn):整合多個(gè)模型可以生成更準(zhǔn)確的訓(xùn)練監(jiān)督,但需要以額外的模型參數(shù)和明顯增加的計(jì)算成本為代價(jià)。為此,港中文 MMLab 提出了一種新的「烘焙」算法,有效整合同批次內(nèi)不同樣本間的知識(shí)以優(yōu)化軟標(biāo)簽,僅需一個(gè)網(wǎng)絡(luò)即可實(shí)現(xiàn)知識(shí)整合。該「烘焙」方法在任意網(wǎng)絡(luò)架構(gòu)的訓(xùn)練中即插即用,以最少的時(shí)間成本實(shí)現(xiàn)有效的大幅性能提升,研究者在 ImageNet 等多個(gè)常見的圖像分類基準(zhǔn)上進(jìn)行了算法驗(yàn)證。


          • 論文鏈接:https://arxiv.org/pdf/2104.13298.pdf

          • 項(xiàng)目主頁:https://geyixiao.com/projects/bake

          • 代碼鏈接:https://github.com/yxgeee/BAKE


          圖像分類是計(jì)算機(jī)視覺最基本的任務(wù)之一,為眾多下游視覺任務(wù)提供了有效的預(yù)訓(xùn)練模型。深度學(xué)習(xí)領(lǐng)域有大量的算法致力于提升圖像分類的性能,尤其是在最流行的 ImageNet 基準(zhǔn)上。近期一些研究指出,不夠完善的人為標(biāo)注成為了阻礙監(jiān)督訓(xùn)練的分類模型性能進(jìn)一步提升的關(guān)鍵問題。具體來說,人為標(biāo)注的單標(biāo)簽(一圖一類)無法準(zhǔn)確描述圖像中的豐富內(nèi)容。

          為此,許多研究者提出利用知識(shí)蒸餾(Knowledge Distillation)算法自動(dòng)生成 “軟性” 多標(biāo)簽作為有效的訓(xùn)練監(jiān)督,彌補(bǔ)單標(biāo)簽系統(tǒng)帶來的缺陷。一些研究發(fā)現(xiàn),整合多個(gè)教師(圖 1(a))或?qū)W生模型(圖 1(b))的預(yù)測可以生成更魯棒的訓(xùn)練監(jiān)督,進(jìn)一步提升模型的性能,這類算法被稱為整合蒸餾(Ensemble Distillation)算法 [1,2,3]。雖然這類算法實(shí)現(xiàn)了 SOTA 性能,但它們依賴于額外的網(wǎng)絡(luò)模型和參數(shù),無疑大大增加了訓(xùn)練時(shí)計(jì)算和顯存的成本。

          圖 1

          除了知識(shí)蒸餾系列算法,還有一類算法被稱為標(biāo)簽精煉(Label Refinery)算法 [4]。他們往往利用一個(gè)預(yù)訓(xùn)練標(biāo)注器為 ImageNet 進(jìn)行重新標(biāo)注,該標(biāo)注器一般為在更大規(guī)模的數(shù)據(jù)集上訓(xùn)練的較深的網(wǎng)絡(luò)模型,這不僅需要增加額外的模型,還依賴于額外的超大規(guī)模數(shù)據(jù)集和更多的訓(xùn)練資源,在實(shí)際應(yīng)用中不夠靈活。

          港中文 MMLab 的研究者提出了一種新型「烘焙(BAKE)」訓(xùn)練機(jī)制,如圖 1(c)所示),該方法整合批次內(nèi)不同樣本間的知識(shí)在線優(yōu)化蒸餾目標(biāo),即將同一批次中樣本知識(shí)進(jìn)行加權(quán)傳播和匯總,而無需多個(gè)網(wǎng)絡(luò)。BAKE 首次實(shí)現(xiàn)了自蒸餾框架下的知識(shí)整合,以最少的訓(xùn)練時(shí)間開銷和零額外網(wǎng)絡(luò)參數(shù)為代價(jià),持續(xù)有效地提高了各種網(wǎng)絡(luò)架構(gòu)和數(shù)據(jù)集的分類性能。例如,使用 BAKE 訓(xùn)練的 ResNet-50 在 ImageNet 上的 top-1 分類準(zhǔn)確率顯著提升了 1.2%,而相比基線模型訓(xùn)練所增加的計(jì)算開銷僅為 3.7%。

          該論文提出的 BAKE 算法與已有的自蒸餾、整合蒸餾、標(biāo)簽精煉算法的主要區(qū)別如下表所示:


          方法

          傳統(tǒng)整合蒸餾算法 [1,2,3] 往往整合的是多個(gè)網(wǎng)絡(luò)模型對(duì)于單個(gè)樣本的預(yù)測,與之不同的是,BAKE 整合單網(wǎng)絡(luò)模型對(duì)于批次內(nèi)多樣本的預(yù)測。直觀來看,視覺上相似的樣本應(yīng)當(dāng)具有近似的預(yù)測?;谠摷僭O(shè),BAKE 依據(jù)同批次內(nèi)其他樣本對(duì)錨樣本的相似度,進(jìn)行知識(shí)的加權(quán)傳播和匯總,以形成準(zhǔn)確的軟標(biāo)簽,作為蒸餾訓(xùn)練的監(jiān)督,如下圖所示。


          樣本間的知識(shí)傳播基于不同樣本與錨樣本之間的相似性,所以首先需要計(jì)算一個(gè)親和度矩陣 A,也就是計(jì)算圖像編碼器(encoder)輸出的特征 {f} 之間的距離。親和度矩陣需要去除對(duì)角線,也就是同一樣本的相似度,并在每行進(jìn)行 softmax 歸一化,使得每一行的和為 1,即。基于親和度矩陣 A,可以對(duì)除錨樣本之外的其他樣本的預(yù)測進(jìn)行加權(quán)傳播,。并與錨樣本本身的預(yù)測概率進(jìn)行加權(quán)和,從而獲得軟標(biāo)簽作為蒸餾目標(biāo)至此,對(duì)批次內(nèi)樣本間知識(shí)進(jìn)行了一次傳播,并獲得了一次傳播后的軟標(biāo)簽。

          往往基于親和度矩陣對(duì)樣本預(yù)測做多次傳播可以獲得更魯棒準(zhǔn)確的軟標(biāo)簽,。研究者利用近似預(yù)測對(duì)傳播無限次后的軟標(biāo)簽進(jìn)行了估計(jì),。

          基于上述知識(shí)整合后的軟標(biāo)簽 Q,可以使用 KL 散度損失函數(shù)進(jìn)行蒸餾訓(xùn)練。

          訓(xùn)練的偽代碼如下,具體實(shí)現(xiàn)請(qǐng)參閱 GitHub repo。


          實(shí)驗(yàn)

          BAKE 以最小的計(jì)算開銷改進(jìn)了多種網(wǎng)絡(luò)架構(gòu)的訓(xùn)練,并且無需額外的網(wǎng)絡(luò)輔助。下表給出了在 ImageNet 上的 top-1 分類準(zhǔn)確率, 「Vanilla」表示使用常規(guī)交叉熵?fù)p失的基準(zhǔn)訓(xùn)練。 


          BAKE 不光有效提升了基準(zhǔn)模型的訓(xùn)練,也超越了所有單網(wǎng)絡(luò)下最先進(jìn)的訓(xùn)練機(jī)制,如下表所示。


          研究者還對(duì) BAKE 生成的軟標(biāo)簽進(jìn)行了可視化,如下圖所示。其中,每列的四個(gè)樣本來自于同一批次,請(qǐng)注意為了簡潔這里只對(duì) top-3 的類別進(jìn)行了展示。


          研究者還檢驗(yàn)了利用 BAKE 訓(xùn)練的分類模型在下游任務(wù)中的表現(xiàn),發(fā)現(xiàn)在目標(biāo)檢測和實(shí)例分割中均可獲得穩(wěn)定的性能提升:


          更多性能分析、魯棒性測試、消融研究結(jié)果請(qǐng)參閱原論文。

          [1] Zhiqiang Shen, Zhankui He, and Xiangyang Xue. Meal: Multi-model ensemble via adversarial learning. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 33, pages 4886–4893, 2019.
          [2] Yonglong Tian, Dilip Krishnan, and Phillip Isola. Contrastive representation distillation. In International Conference on Learning Representations, 2020.
          [3] Qiushan Guo, Xinjiang Wang, Yichao Wu, Zhipeng Yu, Ding Liang, Xiaolin Hu, and Ping Luo. Online knowledge distillation via collaborative learning. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 11020–11029, 2020.
          [4] Sangdoo Yun, Seong Joon Oh, Byeongho Heo, Dongyoon Han, Junsuk Choe, and Sanghyuk Chun. Re-labeling imagenet: from single to multi-labels, from global to localized labels. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021.

          ? THE END 

          轉(zhuǎn)載請(qǐng)聯(lián)系原公眾號(hào)獲得授權(quán)

          投稿或?qū)で髨?bào)道:[email protected]


          點(diǎn)個(gè)在看 paper不斷!

          瀏覽 49
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  欧美人与性口牲恔配上海 | 蜜桃传媒91 | 日本三级黄色 | 青青草免费在线公开视频 | 欧美性受XXXXX黑人性爽 强欧美小嫩苞第一次免费视频 |