<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          Transformer新架構(gòu):DPT!替代卷積網(wǎng)絡(luò)做密集預(yù)測

          共 3783字,需瀏覽 8分鐘

           ·

          2021-11-05 17:15

          點擊下方AI算法與圖像處理”,一起進(jìn)步!

          重磅干貨,第一時間送達(dá)

          機(jī)器之心編輯部

          在這項研究中,研究者提出了 DPT 架構(gòu)。這種 ViT 架構(gòu)代替了卷積網(wǎng)絡(luò)作為密集預(yù)測任務(wù)的主干網(wǎng)絡(luò),獲得了更好的細(xì)粒度和更全局一致的預(yù)測。


          圖像語義分割的目標(biāo)是將圖像的每個像素所屬類別進(jìn)行標(biāo)注。因為是預(yù)測圖像中的每個像素,這個任務(wù)通常被稱為密集預(yù)測。

          當(dāng)前,密集預(yù)測的架構(gòu)幾乎都是基于卷積網(wǎng)絡(luò)的,且通常遵循一種模式:將網(wǎng)絡(luò)分為一個編碼器和一個解碼器,編碼器通常基于圖像分類網(wǎng)絡(luò),也稱為主干,它是在一個大型語料庫 (如 ImageNet) 上進(jìn)行預(yù)訓(xùn)練的;解碼器聚合來自編碼器的特征,并將其轉(zhuǎn)換為最終的密集預(yù)測。以往的密集預(yù)測架構(gòu)研究通常關(guān)注解碼器及其聚合策略,但實際上主干架構(gòu)的選擇對整個模型來說非常關(guān)鍵,因為在編碼器中丟失的信息不可能在解碼器中恢復(fù)。

          在英特爾的一項研究中,研究者提出了 DPT 架構(gòu)(dense prediction transformer)。DPT 是一種用于密集預(yù)測的新架構(gòu),它仍然基于編碼器 - 解碼器的設(shè)計,但其中利用 transformer 作為編碼器的基礎(chǔ)計算構(gòu)建塊。


          具體而言,研究者使用此前的視覺 transformer(ViT)作為主干架構(gòu),將由 ViT 提供的詞袋表征重組為各種分辨率下的類圖像特征表征,并使用卷積解碼器逐步將這些特征表征組合到最終的密集預(yù)測中。

          Transformer 主干網(wǎng)絡(luò)以一個不變的和相對高的分辨率來處理表征,并在每個階段都有一個全局接感受野。與全卷積網(wǎng)絡(luò)相比,這些特性允許 DPT 提供更好的細(xì)粒度和更全局一致的預(yù)測。

          實驗表明,這種架構(gòu)對于密集預(yù)測任務(wù)有很大的改進(jìn),特別是在有大量訓(xùn)練數(shù)據(jù)可用的情況下。對于單目深度估計,研究者觀察到相比于當(dāng)前 SOTA 全卷積網(wǎng)絡(luò),新架構(gòu)取得了高達(dá) 28% 的提升。當(dāng)應(yīng)用于語義分割時,DPT 在 ADE20K 上實現(xiàn)了新的 SOTA(49.02% mIoU)。此外,研究者也展示了該架構(gòu)在較小的數(shù)據(jù)集上的微調(diào)結(jié)果,比如在 NYUv2、 KITTI 和 Pascal Context 均實現(xiàn)了新的 SOTA。


          • 論文地址:https://arxiv.org/abs/2103.13413

          • 代碼地址:https://github.com/intel-isl/dpt


          值得一提的是,感興趣的研究者現(xiàn)在可以到 Huggingface 平臺體驗 Demo:


          Demo 地址:https://huggingface.co/spaces/akhaliq/DPT-Large

          架構(gòu)

          我們來具體看下這種密集 ViT 的新型架構(gòu),它沿用了已在密集預(yù)測方面取得成功的編碼器 - 解碼器結(jié)構(gòu)。其中以視覺 transformer 作為主干,由編碼器產(chǎn)生的表征能夠被有效地轉(zhuǎn)換為密集預(yù)測,完整架構(gòu)如下圖 1(左)所示。


          Transformer 編碼器

          在高層級上,視覺變換器 (ViT) 對圖像的詞袋(bag-of-words)表征進(jìn)行操作。單獨嵌入到特征空間中的圖像 patch 或從圖像中提取的深度特征,扮演「word」的角色。該研究的其余部分將嵌入「word」作為 token。Transformer 使用多頭自注意力(MHSA)的序列塊對 token 集進(jìn)行轉(zhuǎn)換,其中每個 token 相互關(guān)聯(lián)以轉(zhuǎn)換表征。

          對于應(yīng)用程序來說,最重要的是 transformer 在所有計算中都要保持 token 的數(shù)量。由于 token 與圖像 patch 一一對應(yīng),這意味著 ViT 編碼器在所有 transformer 階段都能保持初始嵌入的空間分辨率。此外,MHSA 本質(zhì)上是一種全局操作,因為每個 token 都可以參與并影響其他所有 token。因此,transformer 在初始嵌入后的每個階段都能有一個全局感受野,這與卷積網(wǎng)絡(luò)形成鮮明對比。

          卷積解碼器

          該架構(gòu)的解碼器將 token 集組合成多種分辨率的類圖像特征表征。這些特征表征被逐漸融合到最終的密集預(yù)測中。該研究提出了一個簡單的三階段重組(Reassemble)操作,以從 transformer 編碼器任意層的輸出 token 中恢復(fù)類圖像表征:


          其中, s 代表恢復(fù)得到的表征相比于輸入圖像的輸出尺寸比率,代表輸出特征維度。

          變換圖像尺寸

          與全卷積網(wǎng)絡(luò)類似,DPT 可以變換圖像的尺寸。只要圖像尺寸能夠被 p 整除,就可以應(yīng)用嵌入過程產(chǎn)生不同數(shù)量的圖像 token N_p。作為一種 set-to-set 架構(gòu),transformer 編碼器可以輕松處理不同數(shù)量的 token。然而,位置嵌入依賴于圖像的尺寸,因為它對輸入圖像中 patch 的位置進(jìn)行編碼。該研究遵循 Alexey Dosovitskiy 等人在論文《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》中提出的方法,并將位置嵌入線性插入到適當(dāng)?shù)某叽纭V档米⒁獾氖沁@可以對每個圖像即時完成。在嵌入過程和 transformer 階段之后,只要輸入圖像與卷積解碼器的步幅(32 個像素)對齊,重組和融合模塊都可以輕松處理不同數(shù)量的 token。

          實驗

          在實驗環(huán)節(jié),研究者將 DPT 應(yīng)用于兩個密集的預(yù)測任務(wù): 單目深度估計和語義分割。首先使用默認(rèn)配置展示了主要部分的結(jié)果,并在最后展示了不同 DPT 配置的消融實驗結(jié)果。

          表 1 展示了 Zero-shot 跨數(shù)據(jù)集遷移學(xué)習(xí)的結(jié)果,這些數(shù)據(jù)集均未參與訓(xùn)練過程。


          圖 2 展示了幾種方法的視覺效果對比。


          此外,研究者在 KITTI 和 NYUv2 數(shù)據(jù)集上微調(diào)了 DPT-Hybrid,以進(jìn)一步比較 DPT 與現(xiàn)有工作的性能。如表 2 和表 3 所示,DPT 架構(gòu)在所有指標(biāo)上均持平或有所提高。這表明 DPT 也可以有效地應(yīng)用于較小的數(shù)據(jù)集。


          語義分割

          隨后,研究者選擇了語義分割作為第二項任務(wù),因為它是離散標(biāo)記任務(wù)的代表,也是密集預(yù)測架構(gòu)的重要任務(wù)。研究者采用了與上述實驗相同的主干網(wǎng)絡(luò)和解碼器結(jié)構(gòu),使用一個 output head,以半分辨率進(jìn)行預(yù)測以及對 logits 進(jìn)行上采樣,使用雙線性插值補(bǔ)全分辨率。編碼器再次由 ImageNet 預(yù)訓(xùn)練的權(quán)重初始化,解碼器則隨機(jī)初始化。

          研究者在 ADE20K 語義分割數(shù)據(jù)集上對 DPT 進(jìn)行了 240 個 epoch 的訓(xùn)練。表 4 展示了驗證集上的結(jié)果,DPT-Hybrid 的性能優(yōu)于所有現(xiàn)有的全卷積架構(gòu)。


          該研究還在 Pascal Context 數(shù)據(jù)集上對 DPT-Hybrid 進(jìn)行了 50 個 epoch 的微調(diào),其他超參數(shù)保持不變。表 5 展示了驗證集的結(jié)果:DPT 即使在較小的數(shù)據(jù)集上也能提供優(yōu)秀的性能。


          消融實驗

          由于 Transformer 主干網(wǎng)絡(luò)保持一個穩(wěn)定的特征分辨率,因此不清楚主干網(wǎng)絡(luò)特征中有哪些值得利用的部分。研究者進(jìn)行了消融實驗來探究這一點。

          表 6(頂部)中對幾種可能的選擇進(jìn)行了評估。其中發(fā)現(xiàn),從包含低層特征的圖層和包含高層特征的深層圖層中挖掘特征是有益的。研究者采用最佳的設(shè)置進(jìn)行進(jìn)一步的實驗。

          研究者用表 6(底部)中的 Hybrid 結(jié)構(gòu)進(jìn)行了類似的實驗,其中 R0 和 R1 指的是使用 ResNet50 嵌入網(wǎng)絡(luò)的第一和第二階段下采樣的特征。


          表 7 展示了重組塊(Reassemble block)的第一階段在處理 readout token 時的各種設(shè)置及其相應(yīng)性能:


          如表 8 所示,ViT-Large 的性能優(yōu)于所有其它主干網(wǎng)絡(luò),但大小也幾乎是 ViT-Base 和 ViT-Hybrid 的 3 倍。在參數(shù)量相近的情況下,ViT-Hybrid 的性能優(yōu)于 ViT-Base,而且與大型主干網(wǎng)絡(luò)的性能相當(dāng)。


          雖然完全卷積結(jié)構(gòu)在其最深層有大的有效感受野,但接近輸入的層卻是局部的,感受野較小。如下圖 4 所示,可以觀察到,隨著推理分辨率的提高,DPT 變體的性能確實會更緩慢地降低。


          在推理速度方面,表 9 展示了不同網(wǎng)絡(luò)結(jié)構(gòu)的推理時間:


          更多細(xì)節(jié)詳見論文原文。

          努力分享優(yōu)質(zhì)的計算機(jī)視覺相關(guān)內(nèi)容,歡迎關(guān)注:

          交流群


          歡迎加入公眾號讀者群一起和同行交流,目前有美顏、三維視覺計算攝影、檢測、分割、識別、醫(yī)學(xué)影像、GAN算法競賽等微信群


          個人微信(如果沒有備注不拉群!
          請注明:地區(qū)+學(xué)校/企業(yè)+研究方向+昵稱



          下載1:何愷明頂會分享


          AI算法與圖像處理」公眾號后臺回復(fù):何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經(jīng)典工作的總結(jié)分析


          下載2:終身受益的編程指南:Google編程風(fēng)格指南


          AI算法與圖像處理」公眾號后臺回復(fù):c++,即可下載。歷經(jīng)十年考驗,最權(quán)威的編程規(guī)范!



          下載3 CVPR2021

          AI算法與圖像處公眾號后臺回復(fù):CVPR即可下載1467篇CVPR?2020論文 和 CVPR 2021 最新論文


          瀏覽 79
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  日韩艹逼网站 | 操小骚逼视频 | 国产一级a毛一级a毛片视频黑人 | 黄色精品 | 黄色国产一级片 |