<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          Sparse RCNN再升級 | ResNet50在不需要NMS和二分匹配的情況下達(dá)到48.1AP

          共 3846字,需瀏覽 8分鐘

           ·

          2022-05-26 04:35

          最近的端到端多目標(biāo)檢測器通過去除手工制作的過程來簡化推理流程,例如使用非最大抑制 (NMS) 去除重復(fù)的邊界框。然而,在訓(xùn)練中,它們需要二分匹配來計(jì)算檢測器輸出的損失。與端到端方法的方向性相反,二分匹配使得端到端檢測器的訓(xùn)練變得復(fù)雜。

          在本文中旨在提出一種無需二分匹配即可訓(xùn)練端到端多目標(biāo)檢測器的方法。為此,將端到端多目標(biāo)檢測視為使用混合模型的密度估計(jì)。提出了新的檢測器,稱為稀疏混合密度目標(biāo)檢測器(Sparse MDOD),使用混合模型估計(jì)邊界框的分布。

          Sparse MDOD通過最小化負(fù)對數(shù)似然和最大分量最大化損失來訓(xùn)練檢測器,該損失可以避免重復(fù)預(yù)測。在訓(xùn)練過程中,不需要額外的過程(如二分匹配)直接從網(wǎng)絡(luò)輸出計(jì)算損失。此外,Sparse MDOD在MS-COCO上也優(yōu)于現(xiàn)有目標(biāo)檢測器。

          1背景簡介

          大多數(shù)基于深度神經(jīng)網(wǎng)絡(luò)的傳統(tǒng)多目標(biāo)檢測方法通過密集預(yù)測方案中的網(wǎng)絡(luò)輸出來獲取各種候選邊界框。然后,他們需要使用非最大抑制(NMS)獲得表示對象的最終邊界框,并刪除候選對象中的重復(fù)項(xiàng)(圖1左側(cè))。因此,這些檢測器的性能高度依賴于使用NMS的后處理步驟。

          圖1

          同時(shí),一些工作側(cè)重于減少多目標(biāo)檢測的手工設(shè)計(jì)組件。在這一研究方向中,Sparse RCNN、DETR等提出了端到端的多目標(biāo)檢測方法,可以直接預(yù)測一組邊界框,而不依賴于NMS。這些端到端方法通過在推理時(shí)消除重復(fù)邊界框(NMS)的刪除步驟來縮減推理管道。

          最近的端到端檢測方法通過在網(wǎng)絡(luò)輸出(候選邊界框)和GT之間通過二分匹配搜索唯一匹配來解決訓(xùn)練階段的重復(fù)邊界框問題(圖1的中心),有效地移除了推理管道中重復(fù)邊界框移除的步驟。在端到端方法中,檢測性能不再依賴于使用NMS進(jìn)行的后處理。

          然而,與他們縮小推理管道的意圖相反,他們在訓(xùn)練管道上沒有做出足夠的工作,并且仍然嚴(yán)重依賴二分匹配,這也是另一個可能阻礙整體訓(xùn)練的手工設(shè)計(jì)的組件。

          圖1說明了傳統(tǒng)的基于NMS(左)和基于二分匹配的端到端(中心)檢測器的訓(xùn)練和推理管道。在后一種情況下,檢測器輸出的N個GT邊界框和K個候選邊界框之間可能存在最多個可能的二分匹配。大多數(shù)以前的端到端方法都使用匈牙利方法來找到最佳的二分匹配。與GT匹配的檢測器輸出被分類為前景對象,并被訓(xùn)練為具有高置信度分?jǐn)?shù)。

          盡管端到端方法已經(jīng)成功地消除了重復(fù)的邊界框,但它們在訓(xùn)練期間仍然使用二分匹配,這使得學(xué)習(xí)變得復(fù)雜。除其他外,它對二分匹配的要求與端到端檢測器的核心理念不符,即減少手工制作的組件并簡化整個管道。

          本文的目標(biāo)是通過去除二分匹配步驟(圖1右側(cè))來簡化端到端多目標(biāo)檢測的訓(xùn)練流程。為此,提出了一種新穎的端到端多目標(biāo)檢測網(wǎng)絡(luò),稱為稀疏混合密度目標(biāo)檢測器(Sparse MDOD)。

          Sparse MDOD受混合密度目標(biāo)檢測器(MDOD)的啟發(fā),使用混合模型將邊界框信息預(yù)測為統(tǒng)計(jì)分布的一種形式。混合模型由柯西分布分類分布組成。這里,柯西分布分類分布分別表示框坐標(biāo)和類別概率。采用Sparse R-CNN作為Sparse MDOD的基線架構(gòu)。此外,提出了最大分量最大化(MCM)損失,即基于混合模型的密度估計(jì)的正則化項(xiàng),將Sparse MDOD訓(xùn)練為無需二分匹配的端到端多目標(biāo)檢測器。

          本文的工作通過幾個方面對以前的端到端方法進(jìn)行了改進(jìn)。在訓(xùn)練階段Sparse MDOD通過只計(jì)算目標(biāo)函數(shù)而不依賴二分匹配來訓(xùn)練。這與端到端檢測方法的理念是一致的,即避免復(fù)雜的管道。Sparse MDOD可以以更簡單的方式替代以前基于二分匹配的端到端多對象檢測方法。此外,在代表性的多目標(biāo)檢測數(shù)據(jù)集MS-COCO上評估了Sparse MDOD,它優(yōu)于基線Sparse R-CNN以及其他多目標(biāo)檢測器。Sparse MDOD在不使用二分匹配的情況下實(shí)現(xiàn)了SOTA檢測性能。

          2Sparse Mixture Density Object Detector

          2.1 Mixture model

          對于圖像X上的多個GT ,每個GT 包含對象位置的坐標(biāo)(左、上、右、下)和一個one-hot類信息。本文提出的Sparse MDOD有條件地使用混合模型估計(jì)了圖像X的g的分布。

          遵循了MDOD中使用的混合模型的設(shè)計(jì),混合模型由2種類型的概率分布組成:柯西(連續(xù))分布分類(離散)分布

          柯西分布是一個連續(xù)的概率分布,其形狀類似的高斯分布。然而,它的尾部比高斯分布更重,并且由于浮點(diǎn)精度,它不太可能產(chǎn)生下流問題。這里使用4維柯西來表示物體的位置坐標(biāo)的分布。

          此外,分類分布被用來估計(jì)對象的類表示的類概率。

          混合模型的概率密度函數(shù)定義如下:

          這里,k是K個混合組分的指標(biāo),相應(yīng)的混合系數(shù)用表示。F和P分別表示柯西分布的概率密度函數(shù)和分類分布的概率質(zhì)量函數(shù)。

          是柯西分布的參數(shù)。是分類分布的類概率。這里,C是目標(biāo)的可能類別數(shù),不包括背景類別。

          為了避免使混合模型過于復(fù)雜,假設(shè)中的每個元素都獨(dú)立于其他元素。因此,對柯西的概率密度函數(shù)進(jìn)行分解如下:

          在這里,d是邊界框坐標(biāo)d的集合中的一個元素。

          2.2 Sparse MDOD架構(gòu)

          對于Sparse MDOD,采用了Sparse R-CNN的整體架構(gòu)及其網(wǎng)絡(luò)特性,例如可學(xué)習(xí)的建議框、動態(tài)頭部和多階段結(jié)構(gòu)。

          圖2

          圖2顯示了使用3階段結(jié)構(gòu)時(shí)的Sparse MDOD網(wǎng)絡(luò)。首先,Backbone網(wǎng)絡(luò)從輸入圖像 X 輸出特征圖。在第1階段,通過RoI align預(yù)定義的可學(xué)習(xí)建議框和特征圖可以得到RoI特征

          然后,Sparse MDOD head預(yù)測,混合模型的參數(shù)和前景概率。這里,混合分量K的數(shù)量等于提議框的數(shù)量。在第s階段(s≥2),重復(fù)從RoI alignSparse MDOD head的過程。是前一階段的預(yù)測位置參數(shù),用作當(dāng)前階段的建議框。在Sparse R-CNN之后使用6階段結(jié)構(gòu)。Sparse MDOD head的細(xì)節(jié)如圖3所示。

          圖3

          Dynamic head輸出。位置參數(shù)表示一個混合組件的坐標(biāo),它是通過在中添加產(chǎn)生的。正尺度參數(shù)是通過應(yīng)用Softmax得到的,Softmax可以將轉(zhuǎn)換為一個正值。沿類維度應(yīng)用softmax函數(shù)計(jì)算目標(biāo)類概率。

          請注意,它是否是一個對象的概率不是通過來計(jì)算的,而是使用提出的另一種學(xué)習(xí)前景概率的方法來計(jì)算的。在混合模型中,混合組件的概率表示為混合系數(shù)。換句話說,可能屬于前景區(qū)域的混合成分具有較高的值。在這方面,假設(shè)π可以看作是比例前景概率,這樣等于1。根據(jù)這個假設(shè),建議用前景概率o來表示混合系數(shù)。如圖3所示,Softmax激活從輸出。然后,通過將歸一化為來計(jì)算。

          2.3 推理

          在推理中,最后階段的用作預(yù)測邊界框的坐標(biāo)。Sparse MDOD的類概率的輸出,只是沒有背景概率的對象類的概率。因此,不直接使用p作為預(yù)測的置信度分?jǐn)?shù)。相反,通過混合系數(shù) π學(xué)習(xí)到的前景概率o與p一起使用。

          輸出預(yù)測的置信度分?jǐn)?shù)計(jì)算如下:

          與其他端到端多目標(biāo)檢測器的方式相同,Sparse MDOD也可以在沒有任何后處理(如NMS)過程的情況下獲得最終預(yù)測。

          2.4 訓(xùn)練

          Sparse MDOD被訓(xùn)練以通過混合模型最大化輸入圖像X的g似然性。損失函數(shù)被簡單地定義為概率密度函數(shù)的負(fù)對數(shù)似然(NLL)如下:

          Sparse MDOD通過最小化NLL損失()來學(xué)習(xí)邊界框的坐標(biāo)和目標(biāo)類的概率為μ和p。前景概率o并不直接用于計(jì)算NLL損失,而是通過表示混合成分概率的π進(jìn)行訓(xùn)練(見圖3)。

          在這里,需要考慮NLL損失并不限制單一GT的多個混合分量之間的分布冗余。這個問題可能導(dǎo)致預(yù)測的邊界框的重復(fù),以及一個物體的概率分散到幾個混合成分。因此,引入了最大分量最大化(MCM)損失,這是混合模型的密度估計(jì)的正則化項(xiàng):

          圖 4

          圖4顯示了MCM損失()的一維示例。最小化MCM損失會減小之間的似然差異。通過這一點(diǎn),混合模型被訓(xùn)練為最大化只有一個混合分量對于一個GT的概率,同時(shí)降低其他相鄰分量的概率。因此總損失函數(shù)定義如下:

          其中 β 用于調(diào)整NLL和MCM損失之間的平衡。為Sparse MDOD的所有階段計(jì)算總損失(L),然后將它們相加并反向傳播。計(jì)算總損失不需要任何額外的過程,例如二分匹配。

          3實(shí)驗(yàn)

          有無NMS的結(jié)果

          可以看到,使用本文的方法,有沒有NMS影響微乎其微。

          與Sparse RCNN對比

          SOTA結(jié)果

          可視化結(jié)果

          4參考

          [1].Sparse MDOD:Training End-to-End Multi-Object Detector without Bipartite Matching

          5推薦閱讀

          分割冠軍 | 超越Swin v2、PvT v2等模型,ViT-Adaptiver實(shí)現(xiàn)ADE20K冠軍60.5mIoU

          DAFormer | 使用Transformer進(jìn)行語義分割無監(jiān)督域自適應(yīng)的開篇之作

          ResNet50 文藝復(fù)興 | ViT 原作者讓 ResNet50 精度達(dá)到82.8%,完美起飛?。?!

          長按掃描下方二維碼添加小助手并加入交流群,群里博士大佬云集,每日討論話題有目標(biāo)檢測、語義分割、超分辨率、模型部署、數(shù)學(xué)基礎(chǔ)知識、算法面試題分享的等等內(nèi)容,當(dāng)然也少不了搬磚人的扯犢子

          長按掃描下方二維碼添加小助手。

          可以一起討論遇到的問題

          聲明:轉(zhuǎn)載請說明出處

          掃描下方二維碼關(guān)注【集智書童】公眾號,獲取更多實(shí)踐項(xiàng)目源碼和論文解讀,非常期待你我的相遇,讓我們以夢為馬,砥礪前行!

          瀏覽 104
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  一级a片在线 | 中文字幕五码 | 日本高清视色www | 欧美1234区黄片 | 久久成人亲子一区二区三区四区 |