新的目標檢測損失函數SIoU:速度完美超越YoloV5、YoloX
極市導讀
?迄今為止提出和使用的方法都沒有考慮到所需真實框與預測框之間不匹配的方向。這種不足導致收斂速度較慢且效率較低。本文中,提出了一種新的損失函數SIoU,其中考慮到所需回歸之間的向量角度,重新定義了懲罰指標。

論文鏈接:https://arxiv.org/abs/2205.12740
目標檢測是計算機視覺任務的核心問題之一,其有效性在很大程度上取決于損失函數的定義。傳統(tǒng)的目標檢測損失函數依賴于邊界框回歸指標的聚合,例如預測框和真實框(即
GIoU、CIoU、ICIoU等)的距離、重疊區(qū)域和縱橫比。
然而,迄今為止提出和使用的方法都沒有考慮到所需真實框與預測框之間不匹配的方向。這種不足導致收斂速度較慢且效率較低,因為預測框可能在訓練過程中“四處游蕩”并最終產生更差的模型。
在本文中,提出了一種新的損失函數
SIoU,其中考慮到所需回歸之間的向量角度,重新定義了懲罰指標。應用于傳統(tǒng)的神經網絡和數據集,表明SIoU提高了訓練的速度和推理的準確性。
在許多模擬和測試中揭示了所提出的損失函數的有效性。特別是,將
SIoU應用于 COCO-train/COCO-val 與其他損失函數相比,提高了 +2.4% ([email protected]:0.95) 和 +3.6%([email protected])。
1 簡介
我們都知道目標檢測中損失函數(LF)的定義起著重要作用。后者作為一種懲罰措施,需要在訓練期間最小化,并且理想情況下可以將勾勒出目標的預測框與相應的真實框匹配。為目標檢測問題定義 LF 有不同的方法,這些方法考慮到框的以下“不匹配”指標的某種組合:框中心之間的距離、重疊區(qū)域和縱橫比。
最近 Rezatofighi 等人聲稱Generalized IoU (GIoU) LF優(yōu)于其他標準 LF 的最先進的目標檢測方法。雖然這些方法對訓練過程和最終結果都產生了積極影響,但作者認為仍有很大改進的空間。因此,與用于計算圖像中真實框和模型預測框不匹配的懲罰的傳統(tǒng)指標并行——即距離、形狀和 IoU,本文作者建議還要考慮匹配的方向。這種添加極大地幫助了訓練收斂過程和效果,因為它可以讓預測框很快地移動到最近的軸,并且隨后的方法只需要一個坐標 X 或 Y 的回歸。簡而言之,添加Angle懲罰成本有效地減少了損失的總自由度。
2 SIoU Loss
SIoU損失函數由4個Cost函數組成:
Angle cost Distance cost Shape cost IoU cost
2.1 Angle cost
添加這種角度感知 LF 組件背后的想法是最大限度地減少與距離相關的“奇妙”中的變量數量?;旧希P蛯L試首先將預測帶到 X 或 Y 軸(以最接近者為準),然后沿著相關軸繼續(xù)接近。

如果 ?? ≤Π/4,收斂過程將首先最小化?? , 否則最小化β:
為了首先實現這一點,以以下方式引入和定義了LF組件:
其中,
Angle cost的曲線如圖2所示。

2.2 Distance cost
考慮到上面定義的Angle cost,重新定義了Distance cost:
其中,
可以看出,當??→0時,Distance cost的貢獻大大降低。相反,??越接近Π/4,Distance cost貢獻越大。隨著角度的增大,問題變得越來越難。因此,γ被賦予時間優(yōu)先的距離值,隨著角度的增加。
2.3 Shape cost
Shape cost的定義為:
其中,
?? 的值定義了每個數據集的Shape cost及其值是唯一的。?? 的值是這個等式中非常重要的一項,它控制著對Shape cost的關注程度。如果 ?? 的值設置為 1,它將立即優(yōu)化一個Shape,從而損害Shape的自由移動。為了計算 ?? 的值,作者將遺傳算法用于每個數據集,實驗上 ?? 的值接近 4,文中作者為此參數定義的范圍是 2 到 6。
2.4 IoU Cost
IoU cost的定義為:其中,
其中,

2.5 SIoU Loss
最后,回歸損失函數為:
總損失函數為:
其中 是Focal Loss, 分別是框和分類損失權重。為了計算 , 使用了遺傳算法。
3 實驗結果
圖 10 總結了不同模型與 [email protected]:0.95 的推理時間。顯然,Scylla-Net 的 mAP 值較高,而模型推理時間遠低于比較模型的推理時間。

COCO-val 上 SIoU 的 mAP 為 52.7% [email protected]:0.95(包括預處理、推理和后處理為 7.6ms)和 70% [email protected],同時 CIoU 為分別只有 50.3% 和 66.4%。

更大的模型可以達到 57.1% [email protected]:0.95(12ms 包括預處理、推理和后處理)和 74.3% [email protected],而其他架構如 Efficient-Det-d7x、YOLO-V4 和 YOLO-V5 可以達到[email protected]:0.95分別為 54.4% (153ms)、47.1% (26.3ms) 和 50.4%(使用 fp16 進行 6.1ms)。請注意,YOLO-V5x6-TTA 在 COCO-val 上可以達到約 55%,但推理時間非常慢(FP16 時約為72ms)。

