<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          使用多尺度注意力進行語義分割

          共 4100字,需瀏覽 9分鐘

           ·

          2020-12-27 19:02

          點擊上方小白學視覺”,選擇加"星標"或“置頂

          重磅干貨,第一時間送達

          本文轉(zhuǎn)自AI公園

          作者:Andrew Tao and Karan Sapra

          編譯:ronghuaiyang

          導讀

          來自NVIDIA的SOTA語義分割文章,代碼開源。


          關注公眾號后后臺回復“多尺度語義分割”,下載打包好的論文和代碼。

          有一項重要的技術,通常用于自動駕駛、醫(yī)學成像,甚至縮放虛擬背景:“語義分割。這是將圖像中的像素標記為屬于N類中的一個(N是任意數(shù)量的類)的過程,這些類可以是像汽車、道路、人或樹這樣的東西。就醫(yī)學圖像而言,類別對應于不同的器官或解剖結(jié)構(gòu)。

          NVIDIA Research正在研究語義分割,因為它是一項廣泛適用的技術。我們還相信,改進語義分割的技術也可能有助于改進許多其他密集預測任務,如光流預測(預測物體的運動),圖像超分辨率,等等。

          我們開發(fā)出一種新方法的語義分割方法,在兩個共同的基準:Cityscapes和Mapillary Vistas上達到了SOTA的結(jié)果。。IOU是交并比,是描述語義分割預測精度的度量。

          在Cityscapes中,這種方法在測試集上達到了85.4 IOU,考慮到這些分數(shù)之間的接近程度,這相對于其他方法來說是一個相當大的進步。

          在Mapillary上,使用單個模型在驗證集上達到了61.1 IOU,相比于其他的使用了模型集成最優(yōu)結(jié)果是58.7。

          預測結(jié)果

          研究過程

          為了開發(fā)這種新方法,我們考慮了圖像的哪些特定區(qū)域需要改進。圖2顯示了當前語義分割模型的兩種最大的失敗模式:細節(jié)錯誤和類混淆。

          圖2,舉例說明語義分割的由于尺度原因出現(xiàn)的常見錯誤模式。在第一行中,在縮小了0.5x的圖像中,細細的郵箱被分割得不一致,但是在擴大了2.0x的圖像中,預測得更好。在第二行中,較大的道路/隔離帶區(qū)域在較低的分辨率(0.5x)下分割效果較好

          在這個例子中,存在兩個問題:細節(jié)和類混淆。

          • 第一張圖片中郵箱的細節(jié)在2倍尺度的預測中得到了最好的分辨,但在0.5倍尺度下的分辨很差。
          • 與中值分割相比,在0.5x尺度下對道路的粗預測要比在2x尺度下更好,在2x尺度下存在類混淆。

          我們的解決方案在這兩個問題上的性能都能好得多,類混淆幾乎沒有發(fā)生,對細節(jié)的預測也更加平滑和一致。

          在確定了這些錯誤模式之后,團隊試驗了許多不同的策略,包括不同的網(wǎng)絡主干(例如,WiderResnet-38、EfficientNet-B4、xcepase -71),以及不同的分割解碼器(例如,DeeperLab)。我們決定采用HRNet作為網(wǎng)絡主干,RMI作為主要的損失函數(shù)。

          HRNet已經(jīng)被證明非常適合計算機視覺任務,因為它保持了比以前的網(wǎng)絡WiderResnet38高2倍分辨率的表示。RMI損失提供了一種無需訴諸于條件隨機場之類的東西就能獲得結(jié)構(gòu)性損失的方法。HRNet和RMI損失都有助于解決細節(jié)和類混淆。

          為了進一步解決主要的錯誤模式,我們創(chuàng)新了兩種方法:多尺度注意力和自動標記。

          多尺度注意力

          在計算機視覺模型中,通常采用多尺度推理的方法來獲得最佳的結(jié)果。多尺度圖像在網(wǎng)絡中運行,并將結(jié)果使用平均池化組合起來。

          使用平均池化作為一個組合策略,將所有尺度視為同等重要。然而,精細的細節(jié)通常在較高的尺度上被最好地預測,大的物體在較低的尺度上被更好地預測,在較低的尺度上,網(wǎng)絡的感受野能夠更好地理解場景。

          學習如何在像素級結(jié)合多尺度預測可以幫助解決這個問題。之前就有關于這一策略的研究,Chen等人的Attention to Scale是最接近的。在這個方法中,同時學習所有尺度的注意力。我們將其稱為顯式方法,如下圖所示。

          圖3,Chen等人的顯式方法是學習一套固定尺度的密集注意力mask,將它們結(jié)合起來形成最終的語義預測。

          受Chen方法的啟發(fā),我們提出了一個多尺度的注意力模型,該模型也學會了預測一個密集的mask,從而將多尺度的預測結(jié)合在一起。但是在這個方法中,我們學習了一個相對的注意力mask,用于在一個尺度和下一個更高的尺度之間進行注意力,如圖4所示。我們將其稱為層次方法。

          圖4,我們的分層多尺度注意力方法。上圖:在訓練過程中,我們的模型學會了預測兩個相鄰尺度對之間的注意力。下圖:推理以鏈式/分層的方式完成,以便將多個預測尺度組合在一起。低尺度注意力決定了下一個更高尺度的貢獻。

          這種方法的主要好處如下:

          • 理論訓練成本比Chen方法降低了約4x。
          • 訓練只在成對的尺度上進行,推理是靈活的,可以在任意數(shù)量的尺度上進行。

          表3,層次多尺度注意力方法與Mapillary驗證集上其他方法的比較。網(wǎng)絡結(jié)構(gòu)為DeepLab V3+和ResNet-50主干。評估尺度:用于多尺度評估的尺度。FLOPS:網(wǎng)絡用于訓練的相對flops。這種方法獲得了最好的驗證集分數(shù),但是與顯式方法相比,計算量只是中等。

          圖5顯示了我們的方法的一些例子,以及已學習的注意力mask。對于左邊圖片中郵箱的細節(jié),我們很少關注0.5x的預測,但是對2.0x尺度的預測非常關注。相反,對于右側(cè)圖像中非常大的道路/隔離帶區(qū)域,注意力機制學會最大程度地利用較低的尺度(0.5x),以及更少地利用錯誤的2.0x預測。

          圖5,兩種不同場景的語義和注意力預測。左邊的場景說明了一個精細的細節(jié)問題,而右邊的場景說明了一個大的區(qū)域分割問題。白色表示較高的值(接近1.0)。給定像素在所有尺度上的注意力值總和為1.0。左:道路邊的細郵箱在2倍的尺度下得到最好的分辨率,注意力成功地關注了這個尺度而不是其他尺度,這可以從2倍注意力圖像中郵箱的白色中得到證明。右圖:大的道路/隔離帶區(qū)域在0.5x尺度下的預測效果最好,并且該區(qū)域的注意力確實成功地集中在0.5x尺度上。

          自動標記

          改進城市景觀語義分割結(jié)果的一種常用方法是利用大量的粗標記數(shù)據(jù)。這個數(shù)據(jù)大約是基線精標注數(shù)據(jù)的7倍。過去Cityscapes上的SOTA方法會使用粗標注標簽,或者使用粗標注的數(shù)據(jù)對網(wǎng)絡進行預訓練,或者將其與細標注數(shù)據(jù)混合使用。

          然而,粗標注的標簽是一個挑戰(zhàn),因為它們是有噪聲的和不精確的。ground truth粗標簽如圖6所示為“原始粗標簽”。

          圖6,自動生成粗圖像標簽的例子。自動生成的粗標簽(右)提供了比原始的ground truth粗標簽(中)更精細的標簽細節(jié)。這種更精細的標簽改善了標簽的分布,因為現(xiàn)在小的和大的物品都有了表示,而不是只在主要的大的物品上才有。

          受最近工作的啟發(fā),我們將自動標注作為一種方法,以產(chǎn)生更豐富的標簽,以填補ground truth粗標簽的標簽空白。我們生成的自動標簽顯示了比基線粗標簽更好的細節(jié),如圖6所示。我們認為,通過填補長尾類的數(shù)據(jù)分布空白,這有助于泛化。

          使用自動標記的樸素方法,例如使用來自教師網(wǎng)絡的多類概率來指導學生,將在磁盤空間上花費非常大的代價。為20,000張橫跨19個類的、分辨率都為1920×1080的粗圖像生成標簽大約需要2tb的存儲空間。這么大的代價最大的影響將是降低訓練成績。

          我們使用硬閾值方法而不是軟閾值方法來將生成的標簽占用空間從2TB大大減少到600mb。在這個方法中,教師預測概率 > 0.5是有效的,較低概率的預測被視為“忽略”類。表4顯示了將粗數(shù)據(jù)添加到細數(shù)據(jù)和使用融合后的數(shù)據(jù)集訓練新學生的好處。

          表4,這里顯示的基線方法使用HRNet-OCR作為主干和我們的多尺度注意方法。我們比較了兩種模式:用ground truth 細標簽 + ground truth粗標簽訓練到ground truth 細標簽 + auto-粗標簽(我們的方法)。使用自動粗化標簽的方法在基線上提高了0.9的IOU。

          圖7,自動生成粗圖像標簽的例子

          最后的細節(jié)

          該模型使用PyTorch框架在4個DGX節(jié)點上對fp16張量核進行自動混合精度訓練。

          論文:https://arxiv.org/abs/2005.10821

          代碼:https://github.com/nvidia/semanic-segmentation


          END

          英文原文:https://developer.nvidia.com/blog/using-multi-scale-attention-for-semantic-segmentation/


          下載1:OpenCV-Contrib擴展模塊中文版教程
          在「小白學視覺」公眾號后臺回復:擴展模塊中文教程即可下載全網(wǎng)第一份OpenCV擴展模塊教程中文版,涵蓋擴展模塊安裝、SFM算法、立體視覺、目標跟蹤、生物視覺、超分辨率處理等二十多章內(nèi)容。

          下載2:Python視覺實戰(zhàn)項目31講
          小白學視覺公眾號后臺回復:Python視覺實戰(zhàn)項目31講即可下載包括圖像分割、口罩檢測、車道線檢測、車輛計數(shù)、添加眼線、車牌識別、字符識別、情緒檢測、文本內(nèi)容提取、面部識別等31個視覺實戰(zhàn)項目,助力快速學校計算機視覺。

          下載3:OpenCV實戰(zhàn)項目20講
          小白學視覺公眾號后臺回復:OpenCV實戰(zhàn)項目20講即可下載含有20個基于OpenCV實現(xiàn)20個實戰(zhàn)項目,實現(xiàn)OpenCV學習進階。

          下載4:leetcode算法開源書
          小白學視覺公眾號后臺回復:leetcode即可下載。每題都 runtime beats 100% 的開源好書,你值得擁有!




          交流群


          歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器自動駕駛、計算攝影、檢測、分割、識別、醫(yī)學影像、GAN算法競賽等微信群(以后會逐漸細分),請掃描下面微信號加群,備注:”昵稱+學校/公司+研究方向“,例如:”張三?+?上海交大?+?視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進入相關微信群。請勿在群內(nèi)發(fā)送廣告,否則會請出群,謝謝理解~


          瀏覽 41
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国产午夜福利精品爽爽爽 | 青青草综合视频 | 国产高清成人无码视频网址 | 日本男男群交GAy | 亚洲性爱毛片 |