<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          TransGAN:純粹而又強大

          共 2156字,需瀏覽 5分鐘

           ·

          2021-05-10 08:53

          作者:知乎—wangj

          地址:https://www.zhihu.com/people/qi-yue-wu-yi-51-6

          近段時間來,Transformers不僅在NLP領域中大放異彩,而且在CV領域也不斷有研究人員將其使用到各個任務上,比如分類,檢測,分割,TransGAN論文作者就將Transformers結構作為GAN網(wǎng)絡的主結構,完全拋棄CNN結構,通過使用數(shù)據(jù)增強和多任務訓練,使得模型的最高性能幾乎能匹敵目前最好的GAN模型。

          01

          模型結構
          模型的結構并沒有太大的創(chuàng)新,如下圖所示,但是為了減少Generator的內存占用,使用了一些技巧,也就是圖中左半部分的UpScaling模塊,這個模塊使用了上采樣算法pixelshuffle,通過減少通道數(shù),也就是圖中的C,使得圖片的H,W擴大,如圖中的(8x8xC)變成(16x16xC/4).
          以上都是generator部分,而對于discriminator部分,直接將圖片切分成8x8大小的小圖片,然后將圖片拉平,則輸入就變成了(batch_size,HxW,C),然后在首位加上[CLS],在加上positional embedding,通過多個transformers encoder后,只需要將cls對應的輸出作判斷。


          02

          模型訓練技巧
          通過將TransGAN和AutoGAN的生成器和判別器分別組合,得到了4組實驗,結果如下圖所示,其中IS值越大越好,F(xiàn)ID值越小越好,發(fā)現(xiàn)Transformers作為生成器的效果并不差,而作為判別器的結果就不太行了,所以論文中認為Transformers作為判別器時不能得到充分的訓練。
          Transformers模型的優(yōu)勢一般只有在數(shù)據(jù)量充分大的時候才能取得很好的結果,于是作者使用了第一個訓練技巧:數(shù)據(jù)增強,通過DiffAug獲得大量的數(shù)據(jù),繼續(xù)訓練得到了更好的結果,如下圖所示,模型的效果大大提升了,比起目前最好的模型來說當然還有一定的差距,但是相比于未使用數(shù)據(jù)增強之前,提升的效果相當明顯。
          盡管提升效果明顯,但是相比于最好的模型還是有不小的差距,在NLP中,多任務預訓練使得模型效果更強,而且在GAN模型中,使用自監(jiān)督的訓練任務,比如角度預測,能使模型的訓練更穩(wěn)定,于是第二個技巧就是多任務共同訓練,作者提出了一個自監(jiān)督的任務來訓練生成器,將真實圖片通過下采樣得到一個低分辨率的圖片,然后將低分辨率的圖片作為生成器的輸入,將最后的輸出和真實圖片作比較,如下圖所示,LR表示低分辨率的圖片,SR表示模型最后輸出的高分辨率的圖片,使用的損失函數(shù)為MSE(均方誤差),另外這部分損失還需要乘上一個相關系數(shù)λ,論文中將其設定為50
          從下圖的結果來看,這將模型的性能提升了一點,但是相比于數(shù)據(jù)增強,提升的效果并不是很大。
          上圖中還有一個local init,這是另一個技巧,論文中稱為Locality-Aware Initialization for Self-Attention,從名稱中可以看出這是針對self-attention模塊的操作,self-attention的本質就是每個“word”對其他所有“word”的相關性,論文中在一開始并沒有讓“word”和其他所有“word”進行計算得到相關性,而是只和周圍的幾個“word”進行交互,mask代碼如下圖所示,就是對于當前所在的“word”來說,只和左右兩個方向的w個“word”進行相關性計算。
          N代表的是HxW

          03

          模型效果
          論文中給出了4種大小的模型,如如下圖所示,depth指的是生成器部分三個部分的Transformers encoder的數(shù)量,其中效果最好的就是最大的模型,這也符合常理,在數(shù)據(jù)充分的情況下,模型越大能學到的東西就越多。
          當然這只是模型自己的效果,還沒和其他模型做對比,論文給出了在兩個數(shù)據(jù)上和其他模型的結果對比,下圖一是在CIFAR-10數(shù)據(jù)上的結果,下圖二是在STL-10數(shù)據(jù)上的結果。

          04

          結論
          從論文中的結果來看,純粹采用Transformers作為GAN模型的主體效果在一定程度上還是不錯的,當然這不是說基于Transformers的模型一定比基于CNN的模型有前途,只是作為一種選擇。

          本文目的在于學術交流,并不代表本公眾號贊同其觀點或對其內容真實性負責,版權歸原作者所有,如有侵權請告知刪除。


          猜您喜歡:


          等你著陸!【GAN生成對抗網(wǎng)絡】知識星球!

          超100篇!CVPR 2020最全GAN論文梳理匯總!

          附下載 | 《Python進階》中文版

          附下載 | 經(jīng)典《Think Python》中文版

          附下載 | 《Pytorch模型訓練實用教程》

          附下載 | 最新2020李沐《動手學深度學習》

          附下載 | 《可解釋的機器學習》中文版

          附下載 |《TensorFlow 2.0 深度學習算法實戰(zhàn)》

          附下載 | 超100篇!CVPR 2020最全GAN論文梳理匯總!

          附下載 |《計算機視覺中的數(shù)學方法》分享


          瀏覽 76
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  亚洲乱码一二三四区国产 | 成人做爰黄 片视频真人 | 国产性生活免费视频 | 看毛片视频 | 国语对白|