目標(biāo)檢測回歸損失函數(shù)總結(jié)

極市導(dǎo)讀
?本文總結(jié)了6個目標(biāo)檢測回歸損失函數(shù)的優(yōu)缺點(diǎn)以及對其公式的分析,?>>加入極市CV技術(shù)交流群,走在計(jì)算機(jī)視覺的最前沿
演進(jìn)路線:Smooth L1->IoU->GIoU->DIoU->CIoU->EIOU Loss
Smooth L1 Loss
【動機(jī)】 Smooth L1 Loss完美的避開了L1和L2 Loss的缺點(diǎn)
L1 Loss的問題:損失函數(shù)對x的導(dǎo)數(shù)為常數(shù),在訓(xùn)練后期,x很小時,如果learning rate 不變,損失函數(shù)會在穩(wěn)定值附近波動,很難收斂到更高的精度。 L2 Loss的問題:損失函數(shù)對x的導(dǎo)數(shù)在x值很大時,其導(dǎo)數(shù)也非常大,在訓(xùn)練初期不穩(wěn)定。
【分析】
SmoothL1對x的導(dǎo)數(shù)為:
實(shí)際使用時:
其中表示真實(shí)框坐標(biāo),表示預(yù)測的框坐標(biāo),即分別求4個點(diǎn)的loss,然后相加作為Bounding Box Regression Loss。

三種loss的曲線圖如圖所示,可以看到Smooth L1相比L1的曲線更加的Smooth
【不足】 Smooth L1 Loss在計(jì)算目標(biāo)檢測的 bbox loss時,都是獨(dú)立的求出4個點(diǎn)的 loss,然后相加得到最終的 bbox loss。這種做法的默認(rèn)4個點(diǎn)是相互獨(dú)立的,與實(shí)際不符。舉個例子,當(dāng)(x, y)為右下角時,w h其實(shí)只能取0。
IoU Loss(2016)
論文地址:https://arxiv.org/pdf/1608.01471.pdf
【動機(jī)】 針對smooth L1沒有考慮box四個坐標(biāo)之間相關(guān)性的缺點(diǎn),
【分析】 通過4個坐標(biāo)點(diǎn)獨(dú)立回歸Building boxes的缺點(diǎn):
檢測評價的方式是使用IoU,而實(shí)際回歸坐標(biāo)框的時候是使用4個坐標(biāo)點(diǎn),如下圖所示,是不等價的;L1或者L2 Loss相同的框,其IoU 不是唯一的; 通過4個點(diǎn)回歸坐標(biāo)框的方式是假設(shè)4個坐標(biāo)點(diǎn)是相互獨(dú)立的,沒有考慮其相關(guān)性,實(shí)際4個坐標(biāo)點(diǎn)具有一定的相關(guān)性; 基于L1和L2的距離的loss對于尺度不具有不變性;

圖(a)中的三組框具有相同的L2 Loss,但其IoU差異很大;圖(b)中的三組框具有相同的L1 Loss,但I(xiàn)oU 同樣差異很大,說明L1,L2這些Loss用于回歸任務(wù)時,不能等價于最后用于評測檢測的IoU.

Ious Loss公式
IoU Loss定義如下:
實(shí)際使用中簡化為:
【不足】
當(dāng)預(yù)測框和目標(biāo)框不相交,即 IoU(bbox1, bbox2)=0 時,不能反映兩個框距離的遠(yuǎn)近,此時損失函數(shù)不可導(dǎo),IoU Loss 無法優(yōu)化兩個框不相交的情況。 假設(shè)預(yù)測框和目標(biāo)框的大小都確定,只要兩個框的相交值是確定的,其 IoU 值是相同時,IoU 值不能反映兩個框是如何相交的。

GIOU Loss(2019)
論文地址:https://arxiv.org/abs/1902.09630
代碼地址:https://github.com/generalized-iou/g-darknet
【動機(jī)】 解決IoU Loss沒有考慮兩個框是如何相交
【分析】
GIoU定義如下:
實(shí)際使用時:
GIoU 取值范圍為 [-1, 1],在兩框重合時取最大值1,在兩框無限遠(yuǎn)的時候取最小值-1; 與 IoU 只關(guān)注重疊區(qū)域不同,GIoU不僅關(guān)注重疊區(qū)域,還關(guān)注其他的非重合區(qū)域,能更好的反映兩者的重合度。
【實(shí)驗(yàn)】 GIoU Loss,在單階段檢測器YOLO v1漲了2個點(diǎn),兩階段檢測器漲點(diǎn)相對較少(原因分析:RPN的box比較多,兩個框未相交的數(shù)量相對較少)
【不足】 當(dāng)真實(shí)框完全包裹預(yù)測框的時候,IoU 和 GIoU 的值都一樣,此時 GIoU 退化為 IoU, 無法區(qū)分其相對位置關(guān)系。
DIoU Loss(2019)
論文地址:https://arxiv.org/pdf/1911.08287.pdf
代碼鏈接:https://github.com/Zzh-tju/DIoU
【動機(jī)】 解決GIoU Loss缺點(diǎn)當(dāng)真實(shí)框完全包裹預(yù)測框的時候,IoU 和 GIoU 的值都一樣,引入距離
【分析】
基于IoU和GIoU存在的問題,作者提出了兩個問題:
第一:直接最小化預(yù)測框與目標(biāo)框之間的歸一化距離是否可行,以達(dá)到更快的收斂速度。 第二:如何使回歸在與目標(biāo)框有重疊甚至包含時更準(zhǔn)確、更快。
好的目標(biāo)框回歸損失應(yīng)該考慮三個重要的幾何因素:重疊面積,中心點(diǎn)距離,長寬比。
針對問題一,作者提出了DIoU Loss,相對于GIoU Loss收斂速度更快,該Loss考慮了重疊面積和中心點(diǎn)距離,但沒有考慮到長寬比; 針對問題二,作者提出了CIoU Loss,其收斂的精度更高,以上三個因素都考慮到了。
DIoU Loss 的定義如下:
其中表示預(yù)測框和真實(shí)框中心點(diǎn)歐氏距離,c表示預(yù)測框和真實(shí)框最小外界矩形的對角線距離,如下圖所示:

綠色框?yàn)檎鎸?shí)框,黑色框?yàn)轭A(yù)測框,灰色框?yàn)閮烧叩淖钚⊥饨缇匦慰颍琩表示真實(shí)框和預(yù)測框的中心點(diǎn)距離,c表示最小外界矩形框的距離。
當(dāng)2個框完全重合時,
當(dāng)2個框不相交時:
【不足】 邊框回歸的三個重要幾何因素:重疊面積、中心點(diǎn)距離和長寬比,DIoU 沒有包含長寬比因素。
CIoU Loss(2019)
論文地址:https://arxiv.org/pdf/1911.08287.pdf
代碼地址:https://github.com/Zzh-tju/DIoU-darknet
【動機(jī)】 解決DIoU loss沒有包含長寬比因素的不足
【分析】
CIoU的懲罰項(xiàng)是在DIoU的懲罰項(xiàng)基礎(chǔ)上加了一個影響因子。
CIoU Loss定義為:
其中 ,
用于做trade-off的參數(shù)
【實(shí)驗(yàn)】

上表中左邊是用5種不同Boudning Box Regression Loss Function的對比,右邊是以IoU和GIoU來計(jì)算的2種Evaluation的結(jié)果;GIoU相對IoU會有2.49點(diǎn)提升,DIoU相對IoU會有3.29點(diǎn)提升,CIoU會有大概5.67點(diǎn)提升,CIoU結(jié)合DIoU-NMS使用效果最好,大概會有5.91點(diǎn)提升。
【不足】 在CIoU的定義中,衡量長寬比過于復(fù)雜,從兩個方面減緩了收斂速度
長寬比不能取代單獨(dú)的長寬,比如 都會導(dǎo)致v=0; 從v的導(dǎo)數(shù)可以得到 ,這說明 和 在優(yōu)化中意義相反。
EIoU Loss(2021)
論文地址:https://arxiv.org/pdf/2101.08158.pdf
【動機(jī)】 解決CIoU的定義中不足
【亮點(diǎn)】 引入了解決樣本不平衡問題的Focal Loss思想
【分析】
將CIoU的 取代為
EIoU Loss的定義為:
Focal-EIoU Loss的定義為:
focal loss可以理解為對損失加權(quán),常見的分類focal loss為:
最后得到:
【實(shí)驗(yàn)】 論文首先嘗試直接將EIoU帶入,但是效果不好,僅供思路參考,
總結(jié):
好的目標(biāo)框回歸損失應(yīng)該考慮三個重要的幾何因素:重疊面積,中心點(diǎn)距離,長寬比, 對邊框間的物理描述愈發(fā)準(zhǔn)確。 注意,使用時各種Loss算法的各個模塊之間的配合,例如IoU Loss與NMS算法的組合。 如果覺得有用,就請分享到朋友圈吧!
公眾號后臺回復(fù)“CVPR21檢測”獲取CVPR2021目標(biāo)檢測論文下載~

#?CV技術(shù)社群邀請函?#

備注:姓名-學(xué)校/公司-研究方向-城市(如:小極-北大-目標(biāo)檢測-深圳)
即可申請加入極市目標(biāo)檢測/圖像分割/工業(yè)檢測/人臉/醫(yī)學(xué)影像/3D/SLAM/自動駕駛/超分辨率/姿態(tài)估計(jì)/ReID/GAN/圖像增強(qiáng)/OCR/視頻理解等技術(shù)交流群
每月大咖直播分享、真實(shí)項(xiàng)目需求對接、求職內(nèi)推、算法競賽、干貨資訊匯總、與?10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動交流~

