<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          用ViT替代卷積網(wǎng)絡(luò)做密集預(yù)測(cè),英特爾實(shí)驗(yàn)室提出DPT架構(gòu),在線Demo可用

          共 3490字,需瀏覽 7分鐘

           ·

          2021-10-10 10:52



          點(diǎn)擊凹凸域馬上關(guān)注

          更多內(nèi)容、請(qǐng)置頂或星標(biāo)

          轉(zhuǎn)自:機(jī)器之心


          在這項(xiàng)研究中,研究者提出了 DPT 架構(gòu)。這種 ViT 架構(gòu)代替了卷積網(wǎng)絡(luò)作為密集預(yù)測(cè)任務(wù)的主干網(wǎng)絡(luò),獲得了更好的細(xì)粒度和更全局一致的預(yù)測(cè)。


          圖像語(yǔ)義分割的目標(biāo)是將圖像的每個(gè)像素所屬類(lèi)別進(jìn)行標(biāo)注。因?yàn)槭穷A(yù)測(cè)圖像中的每個(gè)像素,這個(gè)任務(wù)通常被稱(chēng)為密集預(yù)測(cè)。

          當(dāng)前,密集預(yù)測(cè)的架構(gòu)幾乎都是基于卷積網(wǎng)絡(luò)的,且通常遵循一種模式:將網(wǎng)絡(luò)分為一個(gè)編碼器和一個(gè)解碼器,編碼器通?;趫D像分類(lèi)網(wǎng)絡(luò),也稱(chēng)為主干,它是在一個(gè)大型語(yǔ)料庫(kù) (如 ImageNet) 上進(jìn)行預(yù)訓(xùn)練的;解碼器聚合來(lái)自編碼器的特征,并將其轉(zhuǎn)換為最終的密集預(yù)測(cè)。以往的密集預(yù)測(cè)架構(gòu)研究通常關(guān)注解碼器及其聚合策略,但實(shí)際上主干架構(gòu)的選擇對(duì)整個(gè)模型來(lái)說(shuō)非常關(guān)鍵,因?yàn)樵诰幋a器中丟失的信息不可能在解碼器中恢復(fù)。

          在英特爾的一項(xiàng)研究中,研究者提出了 DPT 架構(gòu)(dense prediction transformer)。DPT 是一種用于密集預(yù)測(cè)的新架構(gòu),它仍然基于編碼器 - 解碼器的設(shè)計(jì),但其中利用 transformer 作為編碼器的基礎(chǔ)計(jì)算構(gòu)建塊。


          具體而言,研究者使用此前的視覺(jué) transformer(ViT)作為主干架構(gòu),將由 ViT 提供的詞袋表征重組為各種分辨率下的類(lèi)圖像特征表征,并使用卷積解碼器逐步將這些特征表征組合到最終的密集預(yù)測(cè)中。

          Transformer 主干網(wǎng)絡(luò)以一個(gè)不變的和相對(duì)高的分辨率來(lái)處理表征,并在每個(gè)階段都有一個(gè)全局接感受野。與全卷積網(wǎng)絡(luò)相比,這些特性允許 DPT 提供更好的細(xì)粒度和更全局一致的預(yù)測(cè)。

          實(shí)驗(yàn)表明,這種架構(gòu)對(duì)于密集預(yù)測(cè)任務(wù)有很大的改進(jìn),特別是在有大量訓(xùn)練數(shù)據(jù)可用的情況下。對(duì)于單目深度估計(jì),研究者觀察到相比于當(dāng)前 SOTA 全卷積網(wǎng)絡(luò),新架構(gòu)取得了高達(dá) 28% 的提升。當(dāng)應(yīng)用于語(yǔ)義分割時(shí),DPT 在 ADE20K 上實(shí)現(xiàn)了新的 SOTA(49.02% mIoU)。此外,研究者也展示了該架構(gòu)在較小的數(shù)據(jù)集上的微調(diào)結(jié)果,比如在 NYUv2、 KITTI 和 Pascal Context 均實(shí)現(xiàn)了新的 SOTA。


          • 論文地址:https://arxiv.org/abs/2103.13413

          • 代碼地址:https://github.com/intel-isl/dpt


          值得一提的是,感興趣的研究者現(xiàn)在可以到 Huggingface 平臺(tái)體驗(yàn) Demo:


          Demo 地址:https://huggingface.co/spaces/akhaliq/DPT-Large

          架構(gòu)

          我們來(lái)具體看下這種密集 ViT 的新型架構(gòu),它沿用了已在密集預(yù)測(cè)方面取得成功的編碼器 - 解碼器結(jié)構(gòu)。其中以視覺(jué) transformer 作為主干,由編碼器產(chǎn)生的表征能夠被有效地轉(zhuǎn)換為密集預(yù)測(cè),完整架構(gòu)如下圖 1(左)所示。


          Transformer 編碼器

          在高層級(jí)上,視覺(jué)變換器 (ViT) 對(duì)圖像的詞袋(bag-of-words)表征進(jìn)行操作。單獨(dú)嵌入到特征空間中的圖像 patch 或從圖像中提取的深度特征,扮演「word」的角色。該研究的其余部分將嵌入「word」作為 token。Transformer 使用多頭自注意力(MHSA)的序列塊對(duì) token 集進(jìn)行轉(zhuǎn)換,其中每個(gè) token 相互關(guān)聯(lián)以轉(zhuǎn)換表征。

          對(duì)于應(yīng)用程序來(lái)說(shuō),最重要的是 transformer 在所有計(jì)算中都要保持 token 的數(shù)量。由于 token 與圖像 patch 一一對(duì)應(yīng),這意味著 ViT 編碼器在所有 transformer 階段都能保持初始嵌入的空間分辨率。此外,MHSA 本質(zhì)上是一種全局操作,因?yàn)槊總€(gè) token 都可以參與并影響其他所有 token。因此,transformer 在初始嵌入后的每個(gè)階段都能有一個(gè)全局感受野,這與卷積網(wǎng)絡(luò)形成鮮明對(duì)比。

          卷積解碼器

          該架構(gòu)的解碼器將 token 集組合成多種分辨率的類(lèi)圖像特征表征。這些特征表征被逐漸融合到最終的密集預(yù)測(cè)中。該研究提出了一個(gè)簡(jiǎn)單的三階段重組(Reassemble)操作,以從 transformer 編碼器任意層的輸出 token 中恢復(fù)類(lèi)圖像表征:


          其中, s 代表恢復(fù)得到的表征相比于輸入圖像的輸出尺寸比率,代表輸出特征維度。

          變換圖像尺寸

          與全卷積網(wǎng)絡(luò)類(lèi)似,DPT 可以變換圖像的尺寸。只要圖像尺寸能夠被 p 整除,就可以應(yīng)用嵌入過(guò)程產(chǎn)生不同數(shù)量的圖像 token N_p。作為一種 set-to-set 架構(gòu),transformer 編碼器可以輕松處理不同數(shù)量的 token。然而,位置嵌入依賴于圖像的尺寸,因?yàn)樗鼘?duì)輸入圖像中 patch 的位置進(jìn)行編碼。該研究遵循 Alexey Dosovitskiy 等人在論文《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》中提出的方法,并將位置嵌入線性插入到適當(dāng)?shù)某叽?。值得注意的是這可以對(duì)每個(gè)圖像即時(shí)完成。在嵌入過(guò)程和 transformer 階段之后,只要輸入圖像與卷積解碼器的步幅(32 個(gè)像素)對(duì)齊,重組和融合模塊都可以輕松處理不同數(shù)量的 token。

          實(shí)驗(yàn)

          在實(shí)驗(yàn)環(huán)節(jié),研究者將 DPT 應(yīng)用于兩個(gè)密集的預(yù)測(cè)任務(wù): 單目深度估計(jì)和語(yǔ)義分割。首先使用默認(rèn)配置展示了主要部分的結(jié)果,并在最后展示了不同 DPT 配置的消融實(shí)驗(yàn)結(jié)果。

          表 1 展示了 Zero-shot 跨數(shù)據(jù)集遷移學(xué)習(xí)的結(jié)果,這些數(shù)據(jù)集均未參與訓(xùn)練過(guò)程。


          圖 2 展示了幾種方法的視覺(jué)效果對(duì)比。


          此外,研究者在 KITTI 和 NYUv2 數(shù)據(jù)集上微調(diào)了 DPT-Hybrid,以進(jìn)一步比較 DPT 與現(xiàn)有工作的性能。如表 2 和表 3 所示,DPT 架構(gòu)在所有指標(biāo)上均持平或有所提高。這表明 DPT 也可以有效地應(yīng)用于較小的數(shù)據(jù)集。


          語(yǔ)義分割

          隨后,研究者選擇了語(yǔ)義分割作為第二項(xiàng)任務(wù),因?yàn)樗请x散標(biāo)記任務(wù)的代表,也是密集預(yù)測(cè)架構(gòu)的重要任務(wù)。研究者采用了與上述實(shí)驗(yàn)相同的主干網(wǎng)絡(luò)和解碼器結(jié)構(gòu),使用一個(gè) output head,以半分辨率進(jìn)行預(yù)測(cè)以及對(duì) logits 進(jìn)行上采樣,使用雙線性插值補(bǔ)全分辨率。編碼器再次由 ImageNet 預(yù)訓(xùn)練的權(quán)重初始化,解碼器則隨機(jī)初始化。

          研究者在 ADE20K 語(yǔ)義分割數(shù)據(jù)集上對(duì) DPT 進(jìn)行了 240 個(gè) epoch 的訓(xùn)練。表 4 展示了驗(yàn)證集上的結(jié)果,DPT-Hybrid 的性能優(yōu)于所有現(xiàn)有的全卷積架構(gòu)。


          該研究還在 Pascal Context 數(shù)據(jù)集上對(duì) DPT-Hybrid 進(jìn)行了 50 個(gè) epoch 的微調(diào),其他超參數(shù)保持不變。表 5 展示了驗(yàn)證集的結(jié)果:DPT 即使在較小的數(shù)據(jù)集上也能提供優(yōu)秀的性能。


          消融實(shí)驗(yàn)

          由于 Transformer 主干網(wǎng)絡(luò)保持一個(gè)穩(wěn)定的特征分辨率,因此不清楚主干網(wǎng)絡(luò)特征中有哪些值得利用的部分。研究者進(jìn)行了消融實(shí)驗(yàn)來(lái)探究這一點(diǎn)。

          表 6(頂部)中對(duì)幾種可能的選擇進(jìn)行了評(píng)估。其中發(fā)現(xiàn),從包含低層特征的圖層和包含高層特征的深層圖層中挖掘特征是有益的。研究者采用最佳的設(shè)置進(jìn)行進(jìn)一步的實(shí)驗(yàn)。

          研究者用表 6(底部)中的 Hybrid 結(jié)構(gòu)進(jìn)行了類(lèi)似的實(shí)驗(yàn),其中 R0 和 R1 指的是使用 ResNet50 嵌入網(wǎng)絡(luò)的第一和第二階段下采樣的特征。


          表 7 展示了重組塊(Reassemble block)的第一階段在處理 readout token 時(shí)的各種設(shè)置及其相應(yīng)性能:


          如表 8 所示,ViT-Large 的性能優(yōu)于所有其它主干網(wǎng)絡(luò),但大小也幾乎是 ViT-Base 和 ViT-Hybrid 的 3 倍。在參數(shù)量相近的情況下,ViT-Hybrid 的性能優(yōu)于 ViT-Base,而且與大型主干網(wǎng)絡(luò)的性能相當(dāng)。


          雖然完全卷積結(jié)構(gòu)在其最深層有大的有效感受野,但接近輸入的層卻是局部的,感受野較小。如下圖 4 所示,可以觀察到,隨著推理分辨率的提高,DPT 變體的性能確實(shí)會(huì)更緩慢地降低。


          在推理速度方面,表 9 展示了不同網(wǎng)絡(luò)結(jié)構(gòu)的推理時(shí)間:


          更多細(xì)節(jié)詳見(jiàn)論文原文。

          —?END?—

          想要了解更多資訊


          點(diǎn)這里??關(guān)注我,記得標(biāo)星呀~

          想要了解更多資訊,請(qǐng)掃描上方二維碼,關(guān)注計(jì)算機(jī)人工智能方向研究

          瀏覽 33
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  看大相交网站官方正版入口 | 日日操天天 | 欧美性天天影院 | 超碰免费天天操天天干 | 俺去俺来也在线www色情网 |