英偉達(dá)也對 Mamba下手了 ,視覺 Transformer 與 Mamba 的完美融合 !
共 21238字,需瀏覽 43分鐘
·
2024-07-15 22:00
極市導(dǎo)讀
在ImageNet-1K數(shù)據(jù)集上的圖像分類中,MambaVision模型變體在Top-1準(zhǔn)確率和圖像吞吐量方面達(dá)到了新的最先進(jìn)(SOTA)性能。在MS COCO和ADE20K數(shù)據(jù)集上的下游任務(wù),如目標(biāo)檢測、實例分割和語義分割中,MambaVision超越了同等大小的架構(gòu),并展示了更優(yōu)的性能。 >>加入極市CV技術(shù)交流群,走在計算機(jī)視覺的最前沿
作者提出了一種新穎的混合Mamba-Transformer架構(gòu),稱為MambaVision,這是專門為視覺應(yīng)用量身定制的。作者的核心貢獻(xiàn)包括重新設(shè)計Mamba公式,以增強(qiáng)其高效建模視覺特征的能力。此外,作者還對將視覺Transformer(ViT)與Mamba集成的可行性進(jìn)行了全面的消融研究。作者的結(jié)果表明,在Mamba架構(gòu)的最后幾層配備幾個自注意力塊,大大提高了捕獲長距離空間依賴關(guān)系的建模能力。基于作者的發(fā)現(xiàn),作者引入了一系列具有分層架構(gòu)的MambaVision模型,以滿足各種設(shè)計標(biāo)準(zhǔn)。在ImageNet-1K數(shù)據(jù)集上的圖像分類中,MambaVision模型變體在Top-1準(zhǔn)確率和圖像吞吐量方面達(dá)到了新的最先進(jìn)(SOTA)性能。在MS COCO和ADE20K數(shù)據(jù)集上的下游任務(wù),如目標(biāo)檢測、實例分割和語義分割中,MambaVision超越了同等大小的架構(gòu),并展示了更優(yōu)的性能。
代碼:https://github.com/NVIabs/MambaVision。
1 Introduction
在近年來,Transformers [1] 已成為包括計算機(jī)視覺、自然語言處理、語音處理和機(jī)器人技術(shù)在內(nèi)的不同領(lǐng)域的實際架構(gòu)。此外,Transformer架構(gòu)的多功能性,主要歸功于其注意力機(jī)制,以及它的靈活性,使其非常適合多模態(tài)學(xué)習(xí)任務(wù),在這些任務(wù)中集成和處理來自不同模態(tài)的信息至關(guān)重要。盡管這些好處,但注意力機(jī)制相對于序列長度的二次復(fù)雜度使得Transformers在訓(xùn)練和部署上的計算成本很高。最近,Mamba [2] 提出了一種新的狀態(tài)空間模型(SSM),該模型具有線性時間復(fù)雜度,并在不同的語言建模任務(wù)中超越或匹配Transformers [2]。Mamba的核心貢獻(xiàn)是一種新穎的選擇機(jī)制,該機(jī)制使得在考慮硬件感知的情況下,能夠有效地處理依賴于輸入的長序列。
圖1:ImageNet-1K數(shù)據(jù)集上的Top-1準(zhǔn)確性與圖像吞吐量。 所有測量均在A100 GPU上進(jìn)行,批量大小為128。MambaVision達(dá)到了新的SOTA帕累托前沿。
最近,還提出了幾個基于Mamba的 Backbone 網(wǎng)[3; 4],以利用其在視覺任務(wù)中的SSM公式的優(yōu)勢,例如圖像分類和語義分割。然而,Mamba的自回歸公式雖然在需要順序數(shù)據(jù)處理的任務(wù)中有效,但在從完整感受野中受益的計算機(jī)視覺任務(wù)中面臨限制:(1)與序列數(shù)據(jù)不同,圖像像素不具有相同的順序依賴性。相反,空間關(guān)系通常是局部的,需要以更并行和綜合的方式考慮。因此,這導(dǎo)致處理空間數(shù)據(jù)時的效率低下(2)像Mamba這樣的自回歸模型逐步處理數(shù)據(jù),限制了其在一次前向傳遞中捕獲和利用全局上下文的能力。相比之下,視覺任務(wù)通常需要理解全局上下文以對局部區(qū)域做出準(zhǔn)確預(yù)測。
Vision Mamba (Vim) [3] 等人提出了修改措施,例如雙向SSM來解決全局上下文和空間理解的不足。盡管雙向SSM有潛力捕獲更全面的上下文,但由于需要在做出預(yù)測之前處理整個序列,它們引入了顯著的延遲。此外,復(fù)雜度的增加可能導(dǎo)致訓(xùn)練困難、過擬合的風(fēng)險,并且不一定能帶來更高的準(zhǔn)確度。由于這些缺陷,帶有Vision Transformer (ViT) 和卷積神經(jīng)網(wǎng)絡(luò) (CNN) 架構(gòu)的 Backbone 網(wǎng)在不同的視覺任務(wù)上仍然優(yōu)于最佳的基于Mamba的視覺模型。
在這項工作中,作者系統(tǒng)地重新設(shè)計Mamba塊,使其更適合視覺任務(wù)。作者提出了一種混合架構(gòu),包括作者提出的公式(即MambaVision混合器和MLP)以及Transformer塊。具體來說,作者研究不同的集成模式,例如以等參數(shù)方式將Transformer塊添加到早期、中期和最終層以及每隔層。作者的分析顯示,在最后階段利用幾個自注意力塊可以顯著增強(qiáng)捕獲全局上下文和長距離空間依賴的能力。如第5節(jié)所示,使用混合架構(gòu)也比純Mamba或基于ViT的模型在圖像吞吐量方面有更好的表現(xiàn)。
作者引入了MambaVision模型,該模型由多分辨率架構(gòu)組成,并利用基于CNN的殘差塊快速提取較大分辨率特征。如圖1所示,MambaVision在ImageNet-1K Top-1準(zhǔn)確性和圖像吞吐量方面達(dá)到了新的SOTA帕累托前沿,超過了Mamba、CNN和基于ViT的模型,有時幅度還很大。在如下游任務(wù)目標(biāo)檢測和實例分割以及語義分割中,帶有MambaVision Backbone 網(wǎng)的模型在MS COCO和ADE20數(shù)據(jù)集上分別優(yōu)于同等大小的對應(yīng)模型。因此,這驗證了MambaVision作為有效 Backbone 網(wǎng)的有效性和多功能性。
據(jù)作者所知,MambaVision是首次研究和開發(fā)同時包含Mamba和Transformers的混合架構(gòu)以用于計算機(jī)視覺應(yīng)用。
作者在這項工作中的主要貢獻(xiàn)總結(jié)如下:
-
作者引入了一個重新設(shè)計的面向視覺的Mamba塊,提高了原始Mamba架構(gòu)的準(zhǔn)確性和圖像吞吐量。 -
作者系統(tǒng)地調(diào)查了Mamba和Transformer塊的集成模式,并證明在最后階段整合自注意力塊顯著提高了模型捕獲全局上下文和長距離空間依賴的能力。 -
作者介紹了MambaVision,這是一個新穎的混合Mamba Transformer模型。分層的MambaVision在ImageNet-1K數(shù)據(jù)集上實現(xiàn)了Top-1和圖像吞吐量折衷的新SOTA帕累托前沿。
2 Related work
ViT(視覺 Transformer ): 視覺 Transformer (ViT)[5]作為一種替代CNN的有前景的選擇出現(xiàn),利用自注意力層提供更大的感受野。然而,最初ViT缺乏CNN的一些固有優(yōu)勢,例如歸納偏置和平移不變性,并且需要大規(guī)模的訓(xùn)練數(shù)據(jù)集才能達(dá)到有競爭力的性能。為了解決這些限制,數(shù)據(jù)高效圖像 Transformer (DeiT)[6]引入了一種基于蒸餾的訓(xùn)練策略,顯著提高了分類精度,即使是在較小的數(shù)據(jù)集上。在此基礎(chǔ)上,LeViT[7]模型提出了一種混合方法,融入了重新設(shè)計的MLP和自注意力模塊,這些模塊針對快速推理進(jìn)行了優(yōu)化,提高了效率和性能。此外,跨協(xié)方差圖像 Transformer (XCiT)[8]引入了一種轉(zhuǎn)置自注意力機(jī)制,有效地建模了特征通道之間的交互,提高了模型捕捉數(shù)據(jù)中復(fù)雜模式的能力。金字塔視覺 Transformer (PVT)[9]采用了一種分層結(jié)構(gòu),在每個階段的開始處使用塊嵌入和空間尺寸減小,從而提高了計算效率。同樣,Swin Transformer [10]提出了一種分層架構(gòu),其中自注意力在局部窗口內(nèi)計算,這些窗口會移動以實現(xiàn)區(qū)域間的交互,平衡局部和全局上下文。Twins Transformer [11]具有空間可分離的自注意力,顯著提高了效率。此外,焦點 Transformer (Focal Transformer)[12]利用焦點自注意力捕捉長距離空間交互的細(xì)粒度細(xì)節(jié)。
Mamba: 自從Mamba被引入以來,已經(jīng)提出了許多努力來利用其在視覺應(yīng)用中的能力。具體來說,Vim[3]提出使用雙向SSM公式,與相同的Mamba公式相同,在這種公式中,標(biāo)記在前后兩個方向上處理,以捕捉更多的全局上下文并提高空間理解。然而,雙向編碼增加了計算負(fù)載,可能會減慢訓(xùn)練和推理時間。此外,有效結(jié)合來自多個方向的信息形成一個連貫的全局理解是具有挑戰(zhàn)性的,因為在過程中可能會丟失一些全局上下文。與Vim相比,作者提出的MambaVision使用單一的前向傳播和重新設(shè)計的Mamba塊,可以捕捉到短距離和長距離的信息,并且在ImageNet Top-1準(zhǔn)確性和吞吐量方面顯著優(yōu)于Vim。
EfficientV Mamba[4]提出了一種基于擴(kuò)張的選擇性掃描和跳過采樣方法,以高效提取全局空間依賴關(guān)系。EfficientVLambda還使用了由SSM和基于CNN的塊組成的分層架構(gòu),其中SSM用于更大的輸入分辨率以更好地捕捉全局上下文,而CNN用于較低的分辨率。與EfficientV-Mamba相比,MambaVision在較高分辨率下使用CNN進(jìn)行更快特征提取,同時在較低分辨率下使用SSM和自注意力捕捉短距離和長距離空間依賴關(guān)系的細(xì)粒度細(xì)節(jié)。作者提出的MambaVision在Top-1準(zhǔn)確性和圖像吞吐量方面也顯著優(yōu)于EfficientVMamba。
此外,V Mamba[13]引入了一種基于Mamba的通用視覺 Backbone 網(wǎng)絡(luò),并配備了交叉掃描模塊(CSM),該模塊實現(xiàn)了一維選擇性掃描,并具有擴(kuò)大的全局感受野。具體來說,CSM模塊采用四向選擇性掃描方法(即左上和右下向相反方向)以整合來自所有周圍標(biāo)記的信息并捕捉更多的全局上下文。此外,V Mamba在架構(gòu)上進(jìn)行了更改,如使用深度卷積和分層多分辨率結(jié)構(gòu)。盡管CSM模塊的設(shè)計更適合視覺任務(wù),但其感受野仍然受到跨掃描路徑的限制。與V Mamba相比,作者提出的MambaVision混合器的設(shè)計更簡單,可以捕捉短距離和長距離依賴關(guān)系。MambaVision還使用基于CNN的層進(jìn)行快速特征提取,而不是在所有階段使用相同的塊結(jié)構(gòu)。此外,MambaVision模型在具有顯著更高圖像吞吐量的同時,性能也優(yōu)于V Mamba對應(yīng)模型。
3 Methodology
Macro Architecture
在本節(jié)中, 作者介紹了MambaVision, 這是作者提出的新架構(gòu), 在ImageNet-1K數(shù)據(jù)集上具有 SOTA性能。如圖2所示, MambaVision具有分層架構(gòu), 由4個不同階段組成。前兩個階段由基于CNN的層組成, 用于在更高的輸入分辨率下快速特征提取, 而第3和4階段包括作者提出的 MambaVision和Transformer塊。具體來說, 給定一個大小為 的圖像, 輸入首先被轉(zhuǎn)換成大小為 的重疊圖像塊, 并通過干細(xì)胞(由兩個連續(xù)的步長為 2 的 CNN 層組成)投射到 維嵌入空間中。階段之間的下采樣器由一個批標(biāo)準(zhǔn)化步長為 2 的 CNN 層組成, 它將圖像分辨率減少一半。此外, 第 1 和第 2 階段的CNN塊遵循以下通用殘差塊公式
注意:表格內(nèi)容在翻譯中已調(diào)整為適應(yīng)中文語境的順序。公式和引用編號保持不變。
Micro Architecture
在本節(jié)中,作者首先回顧了Mamba和SSMs的基礎(chǔ)知識。然后作者分階段展示了第3和第4階段的微架構(gòu)設(shè)計,并詳細(xì)討論了MambaVision的公式化表述。
3.2.1 Mamba Preliminaries
Mamba是結(jié)構(gòu)化狀態(tài)空間序列模型(S4)的擴(kuò)展, 能夠通過可學(xué)習(xí)的隱藏狀態(tài) 將 1D連續(xù)輸入 轉(zhuǎn)換為 , 其參數(shù)為 和 , 根據(jù)以下公式:
離散化上述公式中的連續(xù)參數(shù) 和 C被進(jìn)一步轉(zhuǎn)換為離散參數(shù)以提高計算效率[16]。具體而言, 假設(shè)一個時間尺度 , 可以應(yīng)用零階保持規(guī)則來獲得離散參數(shù) 和 , 根據(jù)以下公式:
然后方程式2可以用離散參數(shù)表示為:
此外,對于大小為 的輸入序列,可以應(yīng)用全局卷積核頁來計算方程式4的輸出,如下所示:
圖3:MambaVision塊的架構(gòu)。除了用它們的常規(guī)對應(yīng)物替換因果卷積層外,作者還創(chuàng)建了一個沒有SSM的對稱路徑作為標(biāo)記混合器,以增強(qiáng)全局上下文的建模。
圖2:分層MambaVision模型的架構(gòu)。前兩個階段使用殘差卷積塊進(jìn)行快速特征提取。第3和第4階段同時使用MambaVision和Transformer塊。具體來說, 給定 層, 作者使用 MambaVision和MLP塊, 后面跟著額外的 Transformer和MLP塊。最終層中的Transformer塊允許恢復(fù)丟失的全局上下文并捕捉長距離空間依賴。
算法1 類似PyTorch的偽代碼用于MambaVision混合器
選擇性Mamba通過引入選擇機(jī)制進(jìn)一步擴(kuò)展了S4公式,該機(jī)制允許進(jìn)行輸入相關(guān)的序列處理。這使得模型的參數(shù),和可以根據(jù)輸入動態(tài)調(diào)整,并過濾掉不相關(guān)的信息。進(jìn)一步的離散化細(xì)節(jié)在[2]中提供。
3.2.2 Layer Architecture
假設(shè)輸入 , 其中序列長度為 , 嵌入維度為 , 第 3 和第 4 階段的第 層輸出可以按如下方式計算:
其中 Norm 和 Mixer 分別表示層歸一化和標(biāo)記混合塊的選擇。不失一般性, Norm 使用層歸一化。給定 層, 前 層采用 MambaVision 混合塊, 而剩余的 層采用自注意力。下面作者將描述每個混合塊的具體細(xì)節(jié)。
MambaVision 混合塊如圖3所示,作者重新設(shè)計了原始的 Mamba 混合塊,使其更適合視覺任務(wù)。首先,作者建議用常規(guī)卷積替換因果卷積,因為它限制了單向的影響,這對于視覺任務(wù)是不必要且受限的。此外,作者增加了一個沒有 SSM 的對稱分支,該分支包含一個額外的卷積和 SiLU 激活,以補(bǔ)償由于 SSMs 的序列限制而造成的任何內(nèi)容丟失。然后作者將兩個分支的輸出連接起來并通過一個最終的線性層進(jìn)行投射。這種組合確保了最終的特征表示融合了序列和空間信息, 利用了兩個分支的優(yōu)勢。作者注意到, 每個分支的輸出被投射到一個大小為 (即原始嵌入維度的一半) 的嵌入空間, 以保持與原始塊設(shè)計相似的參數(shù)數(shù)量。給定輸入 , MambaVision 混合塊的輸出 計算如下:
其中 Linear 表示一個具有 和 作為輸入和輸出嵌入維度的線性層, Scan 是如 [2] 中所示的選擇性掃描操作, 是激活函數(shù), 使用的是 Sigmoid Linear Unit (SiLU) [17]。此外, Conv 和 Concat 分別表示1D卷積和連接操作。在算法1中, 作者提供了一個類似 PyTorch 的偽代碼用于 MambaVision 混合塊。總的來說, 作者提出的修改導(dǎo)致特征表示更豐富, 泛化能力更強(qiáng), 并在計算機(jī)視覺任務(wù)上提高了性能。作者也實驗驗證了每個設(shè)計選擇的有效性, 這部分內(nèi)容在 Sec.
自注意力作者使用一種通用的多頭自注意力機(jī)制,按照以下方式計算:
分別表示 Query 、鍵和值, 是注意力頭的數(shù)量。不失一般性, 可以以窗口方式計算注意力公式,類似于之前的工作 。
4 Experiments
圖像分類實驗是在ImageNet-1K數(shù)據(jù)集[19]上進(jìn)行的。作者遵循了先前工作的標(biāo)準(zhǔn)訓(xùn)練方法[10; 12; 29],以便對不同模型的性能進(jìn)行比較分析。具體來說,所有模型都經(jīng)過300個周期的訓(xùn)練,使用余弦衰減調(diào)度器,并分別使用額外的20個周期進(jìn)行預(yù)熱和冷卻階段。此外,作者使用了LAMB優(yōu)化器[30],全局批量大小為4096,初始學(xué)習(xí)率為0.005,權(quán)重衰減為0.05。作者注意到,使用LAMB優(yōu)化器相比于傳統(tǒng)的AdamW[31]可以獲得更好的結(jié)果,特別是由于它對較高學(xué)習(xí)率的魯棒性。作者在分類任務(wù)中使用了32個A100 GPU。
為了評估下游任務(wù)的性能,作者將預(yù)訓(xùn)練的模型作為目標(biāo)檢測和實例分割以及語義分割任務(wù)的 Backbone 網(wǎng)絡(luò),并分別使用了MS COCO數(shù)據(jù)集[32]和ADE20K數(shù)據(jù)集[33]。具體來說,對于目標(biāo)檢測和實例分割,作者使用了Mask-RCNN[34] Head ,并設(shè)置了如 LR計劃、初始學(xué)習(xí)率為0.0001、批量大小為16、權(quán)重衰減為0.05等超參數(shù)。對于語義分割,作者使用了UperNet網(wǎng)絡(luò)[35] Head 和Adam-W[31]優(yōu)化器,初始學(xué)習(xí)率為6e-5,全局批量大小為16。作者在所有下游任務(wù)中使用了8個A100 GPU。
5 Results
Image classification
在表1中,作者展示了ImageNet-1K分類的結(jié)果。具體來說,作者與不同類型的模型家族進(jìn)行了比較,如基于卷積的、基于Transformer的、卷積-Transformer混合的以及基于Mamba的模型,并展示了作者的模型在ImageNet Top-1準(zhǔn)確率和圖像吞吐量方面超過了此前的成果。例如,與流行的模型如ConvNeXt和Swin Transformers相比,MambaVision-B(84.2%)分別超過了ConvNeXt-B(83.8%)和Swin-B(83.5%),同時在圖像吞吐量上也有顯著優(yōu)勢。與基于Mamba的模型相比,作者也觀察到了類似的趨勢。具體來說,MambaVision-B(84.2%)盡管圖像吞吐量明顯更高,但性能還是超過了V Mamba-B(83.9%)。作者還想指出,雖然作者主要的設(shè)計目標(biāo)是準(zhǔn)確性與吞吐量的權(quán)衡,但MambaVision模型變體與同等大小的模型相比,F(xiàn)LOPs要低得多。例如,MambaVision-B的GFLOPs比MaxViT-B少了。
Object Detection and Segmentation
作者在表2中展示了在MS COCO數(shù)據(jù)集[32]上的目標(biāo)檢測和實例分割結(jié)果。特別地,作者訓(xùn)練了不同檢測尺寸的模型,以進(jìn)一步驗證MambaVision在不同場景下的有效性。作者還注意到,作者的目標(biāo)并非要在這些任務(wù)上達(dá)到最先進(jìn)水平,而是要比較作者的主干網(wǎng)絡(luò)與同尺寸的流行視覺主干網(wǎng)絡(luò)的表現(xiàn),并驗證其有效性。使用簡單的Mask-RCNN檢測Head,作者預(yù)訓(xùn)練的MambaVision-T主干網(wǎng)絡(luò)在box AP和mask AP方面分別達(dá)到了46.4和41.8,超過了ConvNeXt-T [20]和Swin-T [10]模型。使用級聯(lián)Mask-RCNN網(wǎng)絡(luò),MambaVision-T、MambaVision-S和MambaVision-B均超過了競爭模型。具體來說,在box AP和mask AP方面,MambaVision模型分別比ConvNeXt-T高出+0.2和0.2,比ConvNeXt-B高出+0.1和0.1。同樣,在box AP和mask AP方面,MambaVision分別比Swin-T高出+0.6和0.6,比Swin-S高出+0.1和0.2,比Swin-B高出+0.9和0.7。
作者在表3中展示了在ADE20K數(shù)據(jù)集[33]上的語義分割基準(zhǔn)。在這些實驗中,作者使用了UPerNet [35],以便與其他模型進(jìn)行比較。作者觀察到,MambaVision模型在各個變體中均超過了同樣尺寸的競爭模型。例如,在mIoU方面,MambaVision-T、MambaVision-S和MambaVision-B分別比Swin-T、Swin-S和Swin-B高出+0.6、+0.6和+1.0。盡管作者沒有針對下游任務(wù)的超參數(shù)調(diào)整進(jìn)行大量優(yōu)化,但這些結(jié)果證明了MambaVision作為一個不同視覺任務(wù)的有前景的主干網(wǎng)絡(luò)是可行的,尤其是在高分辨率設(shè)置下。
Ablation
在本節(jié)中, 作者對MambaVision標(biāo)記混合器進(jìn)行了全面的消融研究, 以系統(tǒng)化設(shè)計。作者的目標(biāo)是修改現(xiàn)有的Mamba模塊以用于計算機(jī)視覺任務(wù), 并評估其在分類、目標(biāo)檢測、實例分割和語義分割等不同任務(wù)上的性能。所有實驗都遵循類似于MambaVision-T模型架構(gòu)布局的模型。如表4所示, 作者首先使用SSM分支 (即conv1) 和對稱分支(即conv2)中的因果卷積層的原始Mamba公式。正如預(yù)期的那樣, 這種公式取得了次優(yōu)的性能, Top-1準(zhǔn)確率為 ( , box AP和mask AP分別為 和 為 )。然后, 作者將SSM分支中的因果卷積(即conv1)替換為常規(guī)卷積層, 并觀察到由于這種改變, 所有指標(biāo)都有所改進(jìn)。此外, 作者增加了conv2層, 但使用了Mamba的相同門控機(jī)制,而不是拼接。這一改變提高了性能, 使得Top-1準(zhǔn)確率達(dá)到 , box AP和mask AP分別為 45.3 和 為 。最后, 通過拼接顯著提高了所有指標(biāo)的性能, 分別提高了 和 +0.9 , 這些指標(biāo)分別是ImageNet Top-1、MS COCO的box AP和mask AP以及ADE2OK數(shù)據(jù)集的mloU。因此, 這驗證了作者的假設(shè), 即拼接兩個分支(即SSM和非 SSM)的輸出可以學(xué)習(xí)更豐富的特征表示并增強(qiáng)全局上下文理解。
混合模式在本節(jié)中, 作者全面研究了自關(guān)注和MambaVision標(biāo)記混合器的不同混合整合模式的影響。對于所有實驗, 架構(gòu)遵循MambaVision-T布局, 并保持模型等參數(shù)以公平比較。這些模式在第3和第4階段使用混合功能。作者首先使用隨機(jī)模式, 取得了次優(yōu)的Top-1準(zhǔn)確率 。這證實了作者之前的直覺, 即簡單地使用自關(guān)注而沒有特定的模式可能并不有效。
然后, 作者在每個階段的前 層使用自關(guān)注塊, 其中 表示階段層的總數(shù), 并觀察到Top-1 準(zhǔn)確率提高了 。
然而, 使用自關(guān)注/MambaVision混合器塊的混合層模式略微降低了準(zhǔn)確率, 為 ( )。相反, 通過使用MambaVision/自關(guān)注混合層的反轉(zhuǎn)順序提高了性能, 達(dá)到了Top-1 準(zhǔn)確率 )。然后, 作者只在每個階段的最后 層使用自關(guān)注塊, 并立即觀察到準(zhǔn)確率提高了 。這驗證了作者的假設(shè), 即在每個階段的最后幾層使用自關(guān)注塊是一種有效的設(shè)汁。然而, 其表示學(xué)習(xí)能力需要相對于MambaVision層進(jìn)行調(diào)整。將自關(guān)注塊的數(shù)量增加到每個階段的最后 層, 取得了最佳的 性能。
6 Conclusion
在本文中,作者引入了MambaVision,這是首個專門為視覺應(yīng)用設(shè)計的Mamba-Transformer混合骨架。
作者提出了重新設(shè)計Mamba公式的方法,以增強(qiáng)全局上下文表示的學(xué)習(xí)能力,并進(jìn)行了混合設(shè)計集成模式的綜合研究。
MambaVision在Top-1準(zhǔn)確性和圖像吞吐量方面達(dá)到了新的SOTA帕累托前沿,大幅超越了基于Transformer和Mamba的模型。
作者希望這些研究成果能夠成為新型混合視覺模型的基礎(chǔ)。
參考
[1].MambaVision: A Hybrid Mamba-Transformer Vision Backbone.
公眾號后臺回復(fù)“數(shù)據(jù)集”獲取100+深度學(xué)習(xí)各方向資源整理
極市干貨
點擊閱讀原文進(jìn)入CV社區(qū)
收獲更多技術(shù)干貨
