ICCV2021 論文速遞 「2021.9.18」
點擊下方“AI算法與圖像處理”,一起進(jìn)步!
重磅干貨,第一時間送達(dá)
ICCV 2021 論文匯總(已細(xì)分方向)
https://github.com/DWCTOD/ICCV2021-Papers-with-Code-Demo
今天分享 https://arxiv.org/ 更新的4篇ICCV 2021 的論文,主要內(nèi)容包括
1、一種用于三維目標(biāo)檢測的端到端 Transformer 模型
2、Eformer:基于邊緣增強(qiáng)的醫(yī)學(xué)圖像去噪 Transformer
3、用于車輛重識別的異構(gòu)關(guān)系補(bǔ)碼
4、DisUnknown:提取未知因素進(jìn)行解耦合學(xué)習(xí)
目標(biāo)檢測
An End-to-End Transformer Model for 3D Object Detection
一種用于三維目標(biāo)檢測的端到端 Transformer 模型
論文:https://arxiv.org/abs/2109.08141
代碼:None
我們提出了3DETR,一種基于端到端transformer的三維點云目標(biāo)檢測模型。與使用大量3D特定感應(yīng)偏壓的現(xiàn)有檢測方法相比,3DETR只需對普通 Transformer 塊進(jìn)行最小修改。具體而言,我們發(fā)現(xiàn),具有非參數(shù)查詢和傅里葉位置嵌入的標(biāo)準(zhǔn)轉(zhuǎn)換器與使用具有手動調(diào)整超參數(shù)的三維特定運算符庫的專用體系結(jié)構(gòu)具有競爭力。盡管如此,3DETR在概念上簡單且易于實現(xiàn),通過結(jié)合3D領(lǐng)域知識實現(xiàn)了進(jìn)一步的改進(jìn)。通過大量的實驗,我們發(fā)現(xiàn)3DETR在具有挑戰(zhàn)性的ScanNetV2數(shù)據(jù)集上的性能比完善且高度優(yōu)化的VoteNet基線高9.5%。此外,我們還表明3DETR適用于檢測不到的3D任務(wù),可以作為未來研究的基礎(chǔ)。

Vision Transformer
Eformer: Edge Enhancement based Transformer for Medical Image Denoising
Eformer:基于邊緣增強(qiáng)的醫(yī)學(xué)圖像去噪 Transformer
論文:https://arxiv.org/abs/2109.08044
代碼:None
在這項工作中,我們提出了一種基于Eformer-Edge enhancement-based transformer的新架構(gòu),該架構(gòu)使用transformer塊構(gòu)建用于醫(yī)學(xué)圖像去噪的編解碼網(wǎng)絡(luò)。transformer 模塊中使用了基于非重疊窗口的自我注意,減少了計算需求。這項工作進(jìn)一步結(jié)合了可學(xué)習(xí)的Sobel-Feldman算子來增強(qiáng)圖像中的邊緣,并提出了一種在我們的體系結(jié)構(gòu)的中間層中連接它們的有效方法。通過對比確定性學(xué)習(xí)和殘差學(xué)習(xí)對醫(yī)學(xué)圖像去噪進(jìn)行了實驗分析。為了證明我們方法的有效性,我們的模型在AAPM Mayo Clinic低劑量CT大挑戰(zhàn)數(shù)據(jù)集上進(jìn)行了評估,并實現(xiàn)了最先進(jìn)的性能,即峰值信噪比43.487,RMSE 0.0067,SSIM 0.9861。我們相信,我們的工作將鼓勵更多的研究基于變壓器的架構(gòu),用于使用殘差學(xué)習(xí)的醫(yī)學(xué)圖像去噪。
Vehicle Re-identification
Heterogeneous Relational Complement for Vehicle Re-identification
用于車輛重識別的異構(gòu)關(guān)系補(bǔ)碼
論文:https://arxiv.org/abs/2109.07894
代碼:None
車輛重識別中的關(guān)鍵問題是在從交叉攝像機(jī)查看該對象時找到相同的車輛標(biāo)識,這對學(xué)習(xí)視點不變表示提出了更高的要求。在本文中,我們建議從兩個方面來解決這個問題:構(gòu)造健壯的特征表示和提出相機(jī)敏感評估。我們首先提出了一種新的異構(gòu)關(guān)系補(bǔ)碼網(wǎng)絡(luò)(HRCN),該網(wǎng)絡(luò)將特定于區(qū)域的特征和跨級別的特征作為原始高級輸出的補(bǔ)碼??紤]到分布差異和語義錯位,我們提出了基于圖的關(guān)系模塊,將這些異構(gòu)特征嵌入到一個統(tǒng)一的高維空間中。另一方面,考慮到現(xiàn)有措施(即CMC和AP)中跨攝像頭評估的不足,我們提出了一種跨攝像頭綜合措施(CGM),通過引入位置敏感性和跨攝像頭綜合懲罰來改進(jìn)評估。我們用我們提出的CGM進(jìn)一步構(gòu)建了現(xiàn)有模型的新基準(zhǔn),實驗結(jié)果表明,我們提出的HRCN模型在VeRi-776、VehicleID和VeRi-Wild中達(dá)到了最新水平。
其他
DisUnknown: Distilling Unknown Factors for Disentanglement Learning
DisUnknown:提取未知因素進(jìn)行解耦合學(xué)習(xí)
論文:https://arxiv.org/abs/2109.08141
代碼:https://github.com/stormraiser/disunknown
將數(shù)據(jù)分解為可解釋和獨立的因素對于可控生成任務(wù)至關(guān)重要。有了標(biāo)記數(shù)據(jù)的可用性,監(jiān)督有助于按預(yù)期對特定因素進(jìn)行分離。然而,為實現(xiàn)完全監(jiān)督的解耦合,對每一個因素進(jìn)行標(biāo)記通常是昂貴的,甚至是不可能的。在本文中,我們采用一種通用設(shè)置,其中所有難以標(biāo)記或識別的因素都封裝為單個未知因素。在此背景下,我們提出了一個靈活的弱監(jiān)督多因子解耦合框架disonknown,該框架提取未知因子,以實現(xiàn)標(biāo)記因子和未知因子的多條件生成。具體而言,采用兩階段訓(xùn)練方法,首先使用有效且穩(wěn)健的訓(xùn)練方法對未知因素進(jìn)行解糾纏,然后使用未知蒸餾對所有標(biāo)記因素進(jìn)行適當(dāng)解耦合,從而訓(xùn)練最終發(fā)生器。為了證明我們的方法的泛化能力和可擴(kuò)展性,我們對多個基準(zhǔn)數(shù)據(jù)集進(jìn)行了定性和定量評估,并將其應(yīng)用于復(fù)雜數(shù)據(jù)集上的各種實際應(yīng)用。
交流群
歡迎加入公眾號讀者群一起和同行交流,目前有美顏、三維視覺、計算攝影、檢測、分割、識別、醫(yī)學(xué)影像、GAN、算法競賽等微信群
個人微信(如果沒有備注不拉群!) 請注明:地區(qū)+學(xué)校/企業(yè)+研究方向+昵稱
下載1:何愷明頂會分享
在「AI算法與圖像處理」公眾號后臺回復(fù):何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經(jīng)典工作的總結(jié)分析
下載2:終身受益的編程指南:Google編程風(fēng)格指南
在「AI算法與圖像處理」公眾號后臺回復(fù):c++,即可下載。歷經(jīng)十年考驗,最權(quán)威的編程規(guī)范!
下載3 CVPR2021 在「AI算法與圖像處理」公眾號后臺回復(fù):CVPR,即可下載1467篇CVPR 2020論文 和 CVPR 2021 最新論文

