<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          基于Transformer對透明物體進行分割

          共 3479字,需瀏覽 7分鐘

           ·

          2021-01-29 13:10

          點擊上方小白學視覺”,選擇加"星標"或“置頂

          重磅干貨,第一時間送達


          小白導讀

          論文是學術研究的精華和未來發(fā)展的明燈。小白決心每天為大家?guī)斫浀浠蛘咦钚抡撐牡慕庾x和分享,旨在幫助各位讀者快速了解論文內容。個人能力有限,理解難免出現(xiàn)偏差,建議對文章內容感興趣的讀者,一定要下載原文,了解具體內容。


          摘要


          本研究提出了一個新的細粒度透明對象分割數(shù)據(jù)集,稱為Trans10Kv2,擴展了Trans10K-v1,第一個大規(guī)模透明對象分割數(shù)據(jù)集。不像Trans10K-v1只有兩個有限的類別,作者的新數(shù)據(jù)集有幾個吸引人的好處。(1)它有11個細粒度的透明對象類別,通常發(fā)生在人類的家庭環(huán)境中,使它更適合于現(xiàn)實世界的應用。(2) Trans10K-v2對現(xiàn)有的高級分割方法帶來了比以前版本更多的挑戰(zhàn)。此外,提出了一種新的基于變壓器的分割管道Trans2Seg。首先,Trans2Seg的變壓器編碼器相對于CNN的局部接受場提供了全局接受場,這顯示了相對于純CNN架構的優(yōu)異優(yōu)勢。其次,作者將語義分割制定為一個字典查找問題,設計了一組可學習的原型作為Trans2Seg s變壓器解碼器的查詢,每個原型學習整個數(shù)據(jù)集中一個類別的統(tǒng)計信息。作者對20多種最新的語義分割方法進行了評測,結果表明Trans2Seg算法的性能明顯優(yōu)于所有基于cnn的方法,表明了本文提出的算法在解決透明對象分割問題上的潛在能力。


          開源代碼:https://github.com/xieenze/Trans2Seg


          本文貢獻


          • 作者提出了最大的玻璃分割數(shù)據(jù)集(Trans10K-v2),包含11種不同場景和高分辨率的細粒度玻璃圖像類別。所有的圖片都用精細的遮罩和面向功能的分類精心標注。

          • 提出了一種基于變壓器的透明物體分割網絡,該網絡采用變壓器編解碼結構。該方法提供了一個全局的接受域,在掩模預測中具有更強的動態(tài)性,具有很好的優(yōu)越性。

          • 作者在Trans10K-v2上評估了20多種語義分割方法,作者的Trans2Seg顯著優(yōu)于這些方法。此外,作者還表明,這一任務在很大程度上尚未解決。因此需要更多的研究。


          框架結構


          作者的CNN-Transformer混合架構。首先,將輸入圖像輸入到CNN,提取特征F。其次,對于變壓器編碼器,將特征和位置嵌入平滑后饋給Transformer進行自我注意,并從變壓器編碼器輸出特征(Fe)。第三,針對Transforme解碼器,作者專門定義了一組可學習類原型嵌入(Ecls)作為查詢,F(xiàn)e作為鍵,并利用Ecls和Fe計算注意圖。每個類的原型嵌入對應一個最終預測的類別。作者還添加了一個小的conv頭來融合來自CNN骨干的注意力地圖和Res2特征。變壓器解碼器和小錐頭詳見圖4。最后,通過對注意圖進行像素級argmax,得到預測結果。例如,在這個圖中,兩個類別(瓶子和眼鏡)的分割掩模對應著兩個相同顏色的類原型。


          Transformer解碼器詳細圖。輸入:可學習的類別原型作為查詢,從Transformer編碼器的特性作為鍵和值。輸入被饋送到變壓器解碼器,它由幾個解碼器層組成。最后一個解碼器層的注意圖和CNN骨干網的Res2特征相結合,并饋給一個小的conv頭,得到最終的預測結果。為了更好的理解,作者還提供了小錐頭的偽代碼。輸入:可學習的類別原型作為查詢,從變壓器編碼器的特性作為鍵和值。輸入被饋送到Transformer解碼器,它由幾個解碼器層組成。最后一個解碼器層的注意圖和CNN骨干網的Res2特征相結合,并饋給一個小的conv頭,得到最終的預測結果。


          實驗結果


          Trans2Seg與其他基于CNN的語義分割方法的視覺比較。輸入:可學習的類別原型作為查詢,從變壓器編碼器的特性作為鍵和值。輸入被饋送到Transformer解碼器,它由幾個解碼器層組成。最后一個解碼器層的注意圖和CNN骨干網的Res2特征相結合,并饋給一個小的conv頭,得到最終的預測結果。為了更好的理解,作者還提供了小錐頭的偽代碼。Trans2Seg的整體感受場和注意機制,特別是在dash區(qū)域,明顯優(yōu)于其他組。放大以獲得最佳視野。更多可視化結果請參考補充材料。


          結論


          在本文中,作者提出了一個新的細粒度透明對象分割數(shù)據(jù)集,包含11個常見類別,稱為Trans10K-v2,其中數(shù)據(jù)是基于之前的Trans10K。輸入:可學習的類別原型作為查詢,從Transformer編碼器的特性作為鍵和值。輸入被饋送到Transformer解碼器,它由幾個解碼器層組成。最后一個解碼器層的注意圖和CNN骨干網的Res2特征相結合,并饋給一個小的conv頭,得到最終的預測結果。為了更好的理解,作者還提供了小錐頭的偽代碼。作者也討論了提出的數(shù)據(jù)集的挑戰(zhàn)性和實用性。此外,作者提出了一種基于變壓器的管道,稱為Trans2Seg,以解決這一具有挑戰(zhàn)性的任務。在Trans2Seg中,Transformer編碼器提供了全局接收域,這是透明對象分割的必要條件。在transformer解碼器中,作者將分割建模為使用一組可學習查詢的字典查找,其中每個查詢代表一個類別。最后,作者評估了超過20種主流的語義分割方法,并表明作者的Trans2Seg明顯優(yōu)于這些基于CNN的分割方法。


          在未來,作者有興趣探索作者的Transformer編碼器-解碼器設計的一般分割任務,如城市景觀和PASCAL VOC。作者也會投入更多的精力來解決透明對象的分割任務。


          論文鏈接:https://arxiv.org/pdf/2101.08461.pdf


          每日堅持論文分享不易,如果喜歡我們的內容,希望可以推薦或者轉發(fā)給周圍的同學。


          - END -


          下載1:OpenCV-Contrib擴展模塊中文版教程
          在「小白學視覺」公眾號后臺回復:擴展模塊中文教程即可下載全網第一份OpenCV擴展模塊教程中文版,涵蓋擴展模塊安裝、SFM算法、立體視覺、目標跟蹤、生物視覺、超分辨率處理等二十多章內容。

          下載2:Python視覺實戰(zhàn)項目31講
          小白學視覺公眾號后臺回復:Python視覺實戰(zhàn)項目31講即可下載包括圖像分割、口罩檢測、車道線檢測、車輛計數(shù)、添加眼線、車牌識別、字符識別、情緒檢測、文本內容提取、面部識別等31個視覺實戰(zhàn)項目,助力快速學校計算機視覺。

          下載3:OpenCV實戰(zhàn)項目20講
          小白學視覺公眾號后臺回復:OpenCV實戰(zhàn)項目20講即可下載含有20個基于OpenCV實現(xiàn)20個實戰(zhàn)項目,實現(xiàn)OpenCV學習進階。

          下載4:leetcode算法開源書
          小白學視覺公眾號后臺回復:leetcode即可下載。每題都 runtime beats 100% 的開源好書,你值得擁有!






          交流群


          歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器自動駕駛、計算攝影、檢測、分割、識別、醫(yī)學影像、GAN算法競賽等微信群(以后會逐漸細分),請掃描下面微信號加群,備注:”昵稱+學校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進入相關微信群。請勿在群內發(fā)送廣告,否則會請出群,謝謝理解~


          瀏覽 80
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  亚洲啪啪网 | 国产春色 | 日韩电车痴汉伦理片黄色视频播放 | 国产日批视频 | 亚洲AV成人无码一区二区三区 |