<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          IJCAI21 對比自蒸餾實現(xiàn)超分模型的加速

          共 1922字,需瀏覽 4分鐘

           ·

          2022-02-13 14:10



          【GiantPandaCV導(dǎo)語】

          Towards Compact Single Image Super-Resolution via Contrastive Self-distillation 利用對比自蒸餾實現(xiàn)超分加速 (IJCAI 2021)原創(chuàng)論文解讀,首發(fā)于GiantPandaCV公眾號,禁止其他任何形式的轉(zhuǎn)載!




          背景 Background

          卷積神經(jīng)網(wǎng)絡(luò)在超分任務(wù)上取得了很好的成果,但是依然存在著參數(shù)繁重、顯存占用大、計算量大的問題,為了解決這些問題,作者提出利用對比自蒸餾實現(xiàn)超分模型的壓縮和加速。

          主要貢獻

          • 作者提出的對比自蒸餾(CSD)框架可以作為一種通用的方法來同時壓縮和加速超分網(wǎng)絡(luò),在落地應(yīng)用中的運行時間也十分友好。
          • 自蒸餾被引用進超分領(lǐng)域來實現(xiàn)模型的加速和壓縮,同時作者提出利用對比學(xué)習(xí)進行有效的知識遷移,從而 進一步的提高學(xué)生網(wǎng)絡(luò)的模型性能。
          • 在Urban100數(shù)據(jù)集上,加速后的EDSR+可以實現(xiàn)4倍的壓縮比例和1.77倍的速度提高,帶來的性能損失僅為0.13 dB PSNR。

          方法 ?Method

          1644070968019.png

          CSSR-Net

          作者提出的CSD框架主要包含兩個部分:CSSR-Net和Contrastive loss。先簡單介紹一下 channel-splitting super-resolution network (CSSR-Net), CSSR-Net其實可以是任何超分網(wǎng)絡(luò)的子網(wǎng)絡(luò),與原網(wǎng)絡(luò)的區(qū)別僅在于channel數(shù)量上,在CSD框架中作為學(xué)生網(wǎng)絡(luò),來作為加速優(yōu)化的目標產(chǎn)物模型。

          如圖中所示,在CSD框架中,CSSR-Net被耦合進教師網(wǎng)絡(luò),共享教師網(wǎng)絡(luò)的部分參數(shù)(即共同參數(shù)部分)。

          在訓(xùn)練過程中聯(lián)合優(yōu)化的目標函數(shù)為:

          作者發(fā)現(xiàn),如果只有單獨的知識蒸餾(即不加對比損失來進一步提高模型性能),訓(xùn)練后得到的模型效果其實更差,詳見表1。

          作者推測其原因為:隱式的知識蒸餾不夠強,無法通過兩項獨立的損失項來提供足夠insightful的信息。因此作者引進對比學(xué)習(xí)來顯示的在學(xué)生和教師之間建立一種聯(lián)系,為優(yōu)化目標提供了一個封閉的上下限,從而同時提高學(xué)生網(wǎng)絡(luò)和教師網(wǎng)絡(luò)的性能。上限被構(gòu)建來將CSSR-Net的輸出向教師拉近,下限來限制CSSR-Net的輸出遠離負樣本。

          Contrastive Learning

          論文中的對比學(xué)習(xí)損失其實非常簡單,基本和論文作者團隊在AECR-Net(“Contrastive learning for single image dehazing”)中的contrastive loss一致:

          其中,是VGG預(yù)訓(xùn)練網(wǎng)絡(luò)的第層,M是總隱藏層的數(shù)量,損失,我們希望上式的分母越大越好,分子越小越好。這種損失引入了相反的力,將CSSR-Net的輸出向其教師的輸出特征拉近,向負樣本的特征拉遠。

          感知損失與CL相比,其只有一個優(yōu)化的上限來限制學(xué)生網(wǎng)絡(luò)的輸出,與感知損失不同,Contrastive learning使用了多種負樣本來作為一個優(yōu)化的下限目標減小解空間,并且進一步提高CSSR—Net和教師網(wǎng)絡(luò)的性能。

          實驗

          1644071046025.png
          1644071013344.png
          1644071021983.png
          • 如原文圖6所示,引入對比學(xué)習(xí)損失計算的負樣本越多,模型性能越好,這很好解釋,更多的負樣本進一步約束了下限,每個batch的loss來自于更好的數(shù)據(jù)采樣。

          • 表2中值得注意的一點:沒有負樣本約束的 CSD(GT Pos),相比與baseline來說,性能更差,作者推測 這是由于HR圖像只是提供了更強的上限,我們的模型容量是有限的,也就是說模型其實是欠擬合的,這種更強的上限反而難以完全釋放模型的性能。(We speculate that HR images provide a stronger upper bound which is more difficult for the limited capacity S to fully exlpoit. )

          筆者觀點

          這篇論文還是很有趣的,通過自蒸餾來實現(xiàn)超分模型的加速和壓縮,出發(fā)點很好,但是性能上的提高感覺不是非常顯著,對比學(xué)習(xí)損失其實和作者團隊cvpr21的對比學(xué)習(xí)去霧基本一致。這篇論文讓我想到cvpr20中一篇利用memory unit實現(xiàn)自蒸餾去雨的論文,也很有趣。




          瀏覽 148
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国产高清黄色电影 | 午夜美女福利视频 | 97色色欧美| 午夜福利10000 | 国产精品久久久久久无人区 |