<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          無痛漲點!大白話講解 Generalized Focal Loss

          共 5110字,需瀏覽 11分鐘

           ·

          2020-11-28 16:27

          點擊上方AI算法與圖像處理”,選擇加"星標"或“置頂”

          重磅干貨,第一時間送達

          作者丨李翔
          來源丨h(huán)ttps://zhuanlan.zhihu.com/p/147691786
          編輯丨AIstudy

          導(dǎo)讀

           

          效果:良心技術(shù),別問,問就是無cost漲點

          一句話總結(jié):基于任意one-stage 檢測器上,調(diào)整框本身與框質(zhì)量估計的表示,同時用泛化版本的GFocal Loss訓(xùn)練該改進的表示,無cost漲點(一般1個點出頭)AP

          論文:https://arxiv.org/pdf/2006.04388.pdf
          代碼:https://github.com/implus/GFocal
          MMDetection官方收錄地址:https://github.com/open-mmlab/mmdetection/blob/master/configs/gfl/README.md


          這個工作核心是圍繞“表示”的改進來的,也就是大家所熟知的“representation”這個詞。這里的表示具體是指檢測器最終的輸出,也就是head末端的物理對象,目前比較強力的one-stage anchor-free的檢測器(以FCOS,ATSS為代表)基本會包含3個表示:

          1. 分類表示

          2. 檢測框表示

          3. 檢測框的質(zhì)量估計(在FCOS/ATSS中,目前采用centerness,當然也有一些其他類似的工作會采用IoU,這些score基本都在0~1之間)

          三個表示一般情況下如圖所示:


          那么要改進表示一定意味著現(xiàn)有的表示或多或少有那么一些問題。事實上,我們具體觀察到了下面兩個主要的問題:

          問題一:classification score 和 IoU/centerness score 訓(xùn)練測試不一致。

          這個不一致主要體現(xiàn)在兩個方面:

          1) 用法不一致。訓(xùn)練的時候,分類和質(zhì)量估計各自訓(xùn)記幾個兒的,但測試的時候卻又是乘在一起作為NMS score排序的依據(jù),這個操作顯然沒有end-to-end,必然存在一定的gap。

          2) 對象不一致。借助Focal Loss的力量,分類分支能夠使得少量的正樣本和大量的負樣本一起成功訓(xùn)練,但是質(zhì)量估計通常就只針對正樣本訓(xùn)練。那么,對于one-stage的檢測器而言,在做NMS score排序的時候,所有的樣本都會將分類score和質(zhì)量預(yù)測score相乘用于排序,那么必然會存在一部分分數(shù)較低的“負樣本”的質(zhì)量預(yù)測是沒有在訓(xùn)練過程中有監(jiān)督信號的,有就是說對于大量可能的負樣本,他們的質(zhì)量預(yù)測是一個未定義行為。這就很有可能引發(fā)這么一個情況:一個分類score相對低的真正的負樣本,由于預(yù)測了一個不可信的極高的質(zhì)量score,而導(dǎo)致它可能排到一個真正的正樣本(分類score不夠高且質(zhì)量score相對低)的前面。問題一如圖所示:

          不一致啊不一致, End-to-end 表示很難受


          問題二:bbox regression 采用的表示不夠靈活,沒有辦法建模復(fù)雜場景下的uncertainty。

          問題二比較好理解,在復(fù)雜場景中,邊界框的表示具有很強的不確定性,而現(xiàn)有的框回歸本質(zhì)都是建模了非常單一的狄拉克分布,非常不flexible。我們希望用一種general的分布去建模邊界框的表示。問題二如圖所示(比如被水模糊掉的滑板,以及嚴重遮擋的大象):

          模糊及界定不清晰的邊界

          那么有了這些問題,我們自然可以提出一些方案來一定程度上解決他們:

          1) 對于第一個問題,為了保證training和test一致,同時還能夠兼顧分類score和質(zhì)量預(yù)測score都能夠訓(xùn)練到所有的正負樣本,那么一個方案呼之欲出:就是將兩者的表示進行聯(lián)合。這個合并也非常有意思,從物理上來講,我們依然還是保留分類的向量,但是對應(yīng)類別位置的置信度的物理含義不再是分類的score,而是改為質(zhì)量預(yù)測的score。這樣就做到了兩者的聯(lián)合表示,同時,暫時不考慮優(yōu)化的問題,我們就有可能完美地解決掉第一個問題。

          2) 對于第二個問題,我們選擇直接回歸一個任意分布來建模框的表示。當然,在連續(xù)域上回歸是不可能的,所以可以用離散化的方式,通過softmax來實現(xiàn)即可。這里面涉及到如何從狄拉克分布的積分形式推導(dǎo)到一般分布的積分形式來表示框,詳情可以參考原論文。

          Ok,方案都出來了還算比較靠譜,但是問題又來了:怎么優(yōu)化他們呢?

          這個時候就要派上Generalized Focal Loss出馬了。我們知道之前Focal Loss是為one-stage的檢測器的分類分支服務(wù)的,它支持0或者1這樣的離散類別label。然而,對于我們的分類-質(zhì)量聯(lián)合表示,label卻變成了0~1之間的連續(xù)值。我們既要保證Focal Loss此前的平衡正負、難易樣本的特性,又需要讓其支持連續(xù)數(shù)值的監(jiān)督,自然而然就引出了我們對Focal Loss在連續(xù)label上的拓展形式之一,我們稱為Quality Focal Loss (QFL),具體地,它將原來的Focal Loss從:

          魔改為:

          其中y為0~1的質(zhì)量標簽,\sigma為預(yù)測。注意QFL的全局最小解即是\sigma = y。這樣交叉熵部分變?yōu)橥暾慕徊骒?,同時調(diào)節(jié)因子變?yōu)榫嚯x絕對值的冪次函數(shù)。和Focal Loss類似,我們實驗中發(fā)現(xiàn)一般取\beta = 2為最優(yōu)。

          對于任意分布來建模框的表示,它可以用積分形式嵌入到任意已有的和框回歸相關(guān)的損失函數(shù)上,例如最近比較流行的GIoU Loss。這個實際上也就夠了,不過漲點不是很明顯,我們又仔細分析了一下,發(fā)現(xiàn)如果分布過于任意,網(wǎng)絡(luò)學(xué)習的效率可能會不高,原因是一個積分目標可能對應(yīng)了無窮多種分布模式。如下圖所示:

          各種各樣的表示
          考慮到真實的分布通常不會距離標注的位置太遠,所以我們又額外加了個loss,希望網(wǎng)絡(luò)能夠快速地聚焦到標注位置附近的數(shù)值,使得他們概率盡可能大?;诖?,我們?nèi)×藗€名字叫Distribution Focal Loss (DFL):

          其形式上與QFL的右半部分很類似,含義是以類似交叉熵的形式去優(yōu)化與標簽y最接近的一左一右兩個位置的概率,從而讓網(wǎng)絡(luò)快速地聚焦到目標位置的鄰近區(qū)域的分布中去。

          最后,QFL和DFL其實可以統(tǒng)一地表示為GFL,我們將其稱之為Generalized Focal Loss,同時也是為了方便指代,其具體形式如下:

          我們在附錄中也給出了:Focal Loss,包括本文提出的QFL和DFL都可以看做為GFL中的變量取到特定值的特例。


          最后是實驗。Ablation Study就不展開了,重點的結(jié)論即是:

          1. 這兩個方法,即QFL和DFL的作用是正交的,他們的增益互不影響,所以結(jié)合使用更香(我們統(tǒng)一稱之為GFL)。我們在基于Resnet50的backbone的ATSS(CVPR20)的baseline上1x訓(xùn)練無multi-scale直接基本無cost地提升了一個點,在COCO validation上從39.2 提到了40.2 AP。實際上QFL還省掉了原來ATSS的centerness那個分支,不過DFL因為引入分布表示需要多回歸一些變量,所以一來一去inference的時間基本上也沒什么變化。

          2. 在2x + multi-scale的訓(xùn)練模式下,在COCO test-dev上,Resnet50 backbone用GFL一把干到了43.1 AP,這是一個非??捎^的性能。同時,基于ResNeXt-101-32x4d-DCN backbone,能夠有48.2的AP且在2080Ti單GPU上有10FPS的測速,還是相當不錯的speed-accuracy trade-off了。

          放一些重點的實驗插圖:

          最后,附錄里面其實有不少彩蛋。

          第一個彩蛋是關(guān)于IoU和centerness的討論。在對比實驗中,我們發(fā)現(xiàn)IoU作為框預(yù)測質(zhì)量的度量會始終比centerness更優(yōu)。于是我們又具體深入分析了一些原因,發(fā)現(xiàn)的確從原理上來講,IoU可能作為質(zhì)量的估計更加合適。具體原因如下:

          1) IoU本身就是最終metric的衡量標準,所以用來做質(zhì)量估計和排序是非常自然的。

          2) centerness有一些不可避免的缺陷,比如對于stride=8的FPN的特征層(也就是P3),會存在一些小物體他們的centerness label極度小甚至接近于0,如下圖所示:

          而IoU就會相對好很多。我們也統(tǒng)計了一下兩者作為label的分布情況,如圖:



          這意味著IoU的label相對都較大,而centerness的label相對都較小,同時還有非常非常小的??梢韵胍?,如果有一些正樣本的centerness的label本身就很小,那么他們最后在做NMS排序的時候,乘上一個很小的數(shù)(假設(shè)網(wǎng)絡(luò)學(xué)到位了),那么就很容易排到很后面,那自然性能就不容易上去了。所以,綜合各種實驗以及上述的分析,個人認為centerness可能只是一個中間產(chǎn)物(當然,其在FCOS中提出時的創(chuàng)新性還是比較valuable的),最終歷史的發(fā)展軌跡還是要收斂到IoU來。

          第二個彩蛋是分布式表示的一些有趣的觀察。我們發(fā)現(xiàn)有一些分布式表示學(xué)到了多個峰。比如傘這個物體,它的傘柄被椅子嚴重遮擋。如果我們不看傘柄,那么可以按照白色框(gt)來定位傘,但如果我們算上傘柄,我們又可以用綠色框(預(yù)測)來定位傘。在分布上,它也的確呈現(xiàn)一個雙峰的模式(bottom),它的兩個峰的概率會集中在底部的綠線和白線的兩個位置。這個觀察還是相當有趣的。這可能帶來一個妙用,就是我們可以通過分布shape的情況去找哪些圖片可能有界定很模糊的邊界,從而再進行一些標注的refine或一致性的檢查等等。頗有一種Learn From Data,再反哺Data的感覺。


          最后談?wù)剻z測這塊的兩個可能的大趨勢。太明顯了,一個是kaiming引領(lǐng)的unsupervised learning,妥妥擼起袖子干一個檢測友好的unsupervised pretrain model especially for object detection;還有一個是FAIR最近火爆的DETR,其實去掉NMS這個事情今年也一直在弄,搞的思路一直不太對,也沒搞出啥名堂,還是DETR花500個epoch引領(lǐng)了一下這個潮流,指了個門道,當然方向有了,具體走成啥樣,還是八仙過海,各顯神通啦~



          下載1:leetcode 開源


          AI算法與圖像處理」公眾號后臺回復(fù):leetcode,即可下載。每題都 runtime beats 100% 的開源好書,你值得擁有!



          下載2 CVPR2020

          AI算法與圖像處公眾號后臺回復(fù):CVPR2020即可下載1467篇CVPR 2020論文
              
          個人微信(如果沒有備注不拉群!
          請注明:地區(qū)+學(xué)校/企業(yè)+研究方向+昵稱


          覺得不錯就點亮在看吧


          瀏覽 84
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国产日韩欧美一级电影 | 香蕉伊人电影网站 | 99久久人妻无码精品系列 | 无码精品一区二区三区在线 | 99久久久无码国产精品性波多 |