<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          PolyLoss | 統(tǒng)一CE Loss與Focal Loss,PolyLoss用1行代碼+1個(gè)超參完成超車?。?!

          共 2922字,需瀏覽 6分鐘

           ·

          2022-04-30 05:34

          Cross-entropy lossFocal loss是在訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)進(jìn)行分類問題時(shí)最常見的選擇。然而,一般來說,一個(gè)好的損失函數(shù)可以采取更靈活的形式,并且應(yīng)該為不同的任務(wù)和數(shù)據(jù)集量身定制。

          通過泰勒展開來逼近函數(shù),作者提出了一個(gè)簡單的框架,稱為PolyLoss,將損失函數(shù)看作和設(shè)計(jì)為多項(xiàng)式函數(shù)的線性組合。PolyLoss可以讓Polynomial bases(多項(xiàng)式基)的重要性很容易地根據(jù)目標(biāo)任務(wù)和數(shù)據(jù)集進(jìn)行調(diào)整,同時(shí)也可以將上述Cross-entropy lossFocal loss作為PolyLoss的特殊情況。

          大量的實(shí)驗(yàn)結(jié)果表明,在PolyLoss內(nèi)的最優(yōu)選擇確實(shí)依賴于任務(wù)和數(shù)據(jù)集。只需引入一個(gè)額外的超參數(shù)和添加一行代碼,PolyLoss在二維圖像分類、實(shí)例分割、目標(biāo)檢測和三維目標(biāo)檢測任務(wù)上都明顯優(yōu)于Cross-entropy lossFocal loss。

          1簡介

          原則上,損失函數(shù)可以是將預(yù)測和標(biāo)簽映射到任何(可微)函數(shù)。但是,由于損失函數(shù)具有龐大的設(shè)計(jì)空間,導(dǎo)致設(shè)計(jì)一個(gè)良好的損失函數(shù)通常是具有挑戰(zhàn)性的,而在不同的工作任務(wù)和數(shù)據(jù)集上設(shè)計(jì)一個(gè)通用的損失函數(shù)更是具挑戰(zhàn)性。

          例如,L1/L2 Loss通常用于回歸的任務(wù),但很少用于分類任務(wù);對(duì)于不平衡的目標(biāo)檢測數(shù)據(jù)集,Focal loss通常用于緩解Cross-entropy loss的過擬合問題,但它并不能始終應(yīng)用到其他任務(wù)。近年來,許多研究也通過元學(xué)習(xí)、集成或合成不同的損失來探索新的損失函數(shù)。

          在本文中,作者提出了PolyLoss:一個(gè)新的框架來理解和設(shè)計(jì)損失函數(shù)。

          作者認(rèn)為可以將常用的分類損失函數(shù),如Cross-entropy lossFocal loss,分解為一系列加權(quán)多項(xiàng)式基。

          它們可以被分解為的形式,其中為多項(xiàng)式系數(shù),為目標(biāo)類標(biāo)簽的預(yù)測概率。每個(gè)多項(xiàng)式基由相應(yīng)的多項(xiàng)式系數(shù)進(jìn)行加權(quán),這使PolyLoss能夠很容易地調(diào)整不同的多項(xiàng)式基。

          • 當(dāng)時(shí),PolyLoss等價(jià)于常用的Cross-entropy loss,但這個(gè)系數(shù)分配可能不是最優(yōu)的。

          研究表明,為了獲得更好的結(jié)果,在不同的任務(wù)和數(shù)據(jù)集需要調(diào)整多項(xiàng)式系數(shù)。由于不可能調(diào)整無窮多個(gè)的,于是作者便探索具有小自由度的各種策略。作者實(shí)驗(yàn)觀察到,只需調(diào)整單多項(xiàng)式系數(shù),這里表為示,足以實(shí)現(xiàn)比Cross-entropy lossFocal loss的更好的性能。

          2主要貢獻(xiàn)

          圖1
          1. Insights on common losses:提出了一個(gè)統(tǒng)一的損失函數(shù)框架,名為PolyLoss,以重新思考和重新設(shè)計(jì)損失函數(shù)。這個(gè)框架有助于將Cross-entropy lossFocal loss解釋為多損失族的2種特殊情況(通過水平移動(dòng)多項(xiàng)式系數(shù)),這是以前沒有被認(rèn)識(shí)到的。這方面的發(fā)現(xiàn)促使研究垂直調(diào)整多項(xiàng)式系數(shù)的新?lián)p失函數(shù),如圖1所示。

          2. New loss formulation:評(píng)估了垂直移動(dòng)多項(xiàng)式的不同方法,以簡化超參數(shù)搜索空間。提出了一個(gè)簡單而有效的Poly-1損失,它只引入了一個(gè)超參數(shù)和一行代碼。

          3. New findings:作者發(fā)現(xiàn)Focal loss雖然對(duì)許多檢測任務(wù)有效,但對(duì)于不平衡的ImageNet-21K并不是很優(yōu)秀。作者還發(fā)現(xiàn)多項(xiàng)式在訓(xùn)練過程中對(duì)梯度有很大的貢獻(xiàn),其系數(shù)與預(yù)測置信度相關(guān)。

          4. Extensive experiments:在不同的任務(wù)、模型和數(shù)據(jù)集上評(píng)估了PolyLoss。結(jié)果顯示PolyLoss持續(xù)提高了所有方面的性能。

          3PolyLoss

          PolyLoss為理解和改進(jìn)常用的Cross-entropy loss、Focal loss提供了一個(gè)框架,如圖1所示。它的靈感來自于Cross-entropy lossFocal loss的基于泰勒展開式:

          式中為模型對(duì)目標(biāo)類的預(yù)測概率。

          3.1 Cross-entropy loss as PolyLoss

          使用梯度下降法來優(yōu)化交叉熵?fù)p失需要對(duì)Pt進(jìn)行梯度。在PolyLoss框架中,一個(gè)有趣的觀察是系數(shù)正好抵消多項(xiàng)式基的第次冪。因此,Cross-entropy loss的梯度就是多項(xiàng)式的和:

          梯度展開中的多項(xiàng)式項(xiàng)捕獲了對(duì)的不同靈敏度。第一個(gè)梯度項(xiàng)是1,它提供了一個(gè)恒定的梯度,而與的值無關(guān)。相反,當(dāng)時(shí),接近1時(shí),第項(xiàng)被強(qiáng)烈抑制。

          3.2 Focal loss as PolyLoss

          PolyLoss框架中,Focal loss通過調(diào)制因子γ簡單地將移動(dòng)。這相當(dāng)于水平移動(dòng)所有的多項(xiàng)式系數(shù)的γ。為了從梯度的角度理解Focal loss,取關(guān)于Focal loss梯度:

          對(duì)于正的γ,Focal loss的梯度降低了Cross-entropy loss中恒定的梯度項(xiàng)1。正如前段所討論的,這個(gè)恒定梯度項(xiàng)導(dǎo)致模型強(qiáng)調(diào)多數(shù)類,因?yàn)樗奶荻戎皇敲總€(gè)類的示例總數(shù)。

          通過將所有多項(xiàng)式項(xiàng)的冪移動(dòng)γ,第1項(xiàng)就變成,被γ抑制,以避免過擬合到(即接近1)多數(shù)類。

          3.3 與回歸和一般形式的聯(lián)系

          PolyLoss框架中表示損失函數(shù)提供了與回歸的直觀聯(lián)系。對(duì)于分類任務(wù),是GT標(biāo)簽的有效概率,多項(xiàng)式基可以表示為;

          因此,Cross-entropy lossFocal loss都可以解釋為預(yù)測到標(biāo)簽的距離的j次冪的加權(quán)集合。

          因此,交叉熵?fù)p失和焦點(diǎn)損失都可以解釋為預(yù)測和標(biāo)記到第j次冪之間的距離的加權(quán)集合。

          然而,在這些損失中有一個(gè)基本的問題:回歸項(xiàng)前的系數(shù)是最優(yōu)的嗎?

          一般來說,PolyLoss是[0,1]上的單調(diào)遞減函數(shù),可以表示為,并提供了一個(gè)靈活的框架來調(diào)整每個(gè)系數(shù)。PolyLoss可以推廣到非整數(shù)j,但為簡單起見,本文只關(guān)注整數(shù)冪()。

          4理解多項(xiàng)式系數(shù)的影響

          在前面的談?wù)撝薪⒘?code style="font-size: 14px;padding: 2px 4px;border-radius: 4px;margin-right: 2px;margin-left: 2px;color: rgb(30, 107, 184);background-color: rgba(27, 31, 35, 0.05);font-family: "Operator Mono", Consolas, Monaco, Menlo, monospace;word-break: break-all;">PolyLoss框架,并展示了Cross-entropy lossFocal loss簡單地對(duì)應(yīng)于不同的多項(xiàng)式系數(shù),其中Focal loss就可以表達(dá)為水平移動(dòng)了多項(xiàng)式系數(shù)的Cross-entropy loss

          這里要深入研究了垂直調(diào)整多項(xiàng)式系數(shù)對(duì)于訓(xùn)練可能的影響。具體來說,作者探索了3種分配多項(xiàng)式系數(shù)的不同策略:

          • 去掉高階項(xiàng)
          • 調(diào)整多個(gè)靠前多項(xiàng)式系數(shù)
          • 調(diào)整第1個(gè)多項(xiàng)式系數(shù)

          作者發(fā)現(xiàn),調(diào)整第1個(gè)多項(xiàng)式系數(shù)(Poly-1)便可以最大的增益,而且僅僅需要很小的代碼更改和超參數(shù)調(diào)整。

          4.1 :回顧高階多項(xiàng)式項(xiàng)的刪除

          已有研究表明,降低高階多項(xiàng)式和調(diào)整前置多項(xiàng)式可以提高模型的魯棒性和性能。作者采用相同的損失公式,并在ImageNet-1K上比較它們與基線Cross-entropy loss的性能。

          如圖2a所示,需要求和超過600個(gè)多項(xiàng)式項(xiàng)才能匹配Cross-entropy loss的精度。值得注意的是,去除高階多項(xiàng)式不能簡單地解釋為調(diào)整學(xué)習(xí)率。為了驗(yàn)證這一點(diǎn),圖2b比較了在不同的截止條件下不同學(xué)習(xí)率下的性能:無論從初始值0.1增加或減少學(xué)習(xí)率,準(zhǔn)確率都會(huì)變差。

          為了理解為什么高階項(xiàng)很重要,作者對(duì)Cross-entropy loss中去除前N個(gè)多項(xiàng)式項(xiàng)后的結(jié)果進(jìn)行了求和:

          定理1:對(duì)于任何小的ζ>0,δ>0,如果N>,那么對(duì)于任何p∈[δ,1],都有|R_N(p)|<ζ和|R'_N(p)|<ζ。

          因此,從損失和損失導(dǎo)數(shù)[δ,1]的角度來看,需要取一個(gè)大的N來確保盡可能地接近。對(duì)于固定ζ,當(dāng)δ接近0時(shí),N迅速增大。作者的實(shí)驗(yàn)結(jié)果與定理一致。

          高階(j>N+1)多項(xiàng)式在訓(xùn)練的早期階段發(fā)揮重要作用,此時(shí)通常接近于零。例如,當(dāng)時(shí),根據(jù)公式,第500項(xiàng)的梯度系數(shù)為,這是相當(dāng)大的。與前面的工作不同,本文作者的實(shí)驗(yàn)結(jié)果表明,不能輕易地減少高階多項(xiàng)式。

          PolyLoss框架中,丟棄高階多項(xiàng)式等價(jià)于將所有高階(j>N+1)多項(xiàng)式系數(shù)垂直推到0。

          4.2 :擾動(dòng)重要的多項(xiàng)式系數(shù)

          在本文中提出了在PolyLoss框架中設(shè)計(jì)一個(gè)新的損失函數(shù)的替代方法,其中調(diào)整了每個(gè)多項(xiàng)式的系數(shù)。一般來說,有無窮多個(gè)多項(xiàng)式系數(shù)需要調(diào)節(jié)。因此,對(duì)最一般損失進(jìn)行優(yōu)化是不可行的:

          第4.1小節(jié)已經(jīng)表明,在訓(xùn)練中需要數(shù)百個(gè)多項(xiàng)式來很好地完成諸如ImageNet-1K分類等任務(wù)。如果天真地將方程中的無限和截?cái)嗟角皫装夙?xiàng),那么對(duì)這么多多項(xiàng)式的調(diào)優(yōu)系數(shù)仍然會(huì)帶來一個(gè)非常大的搜索空間。此外,綜合調(diào)整許多系數(shù)也不會(huì)優(yōu)于Cross-entropy loss

          為了解決這一問題,作者提出擾動(dòng)交叉熵?fù)p失中的重要的多項(xiàng)式系數(shù)(前N項(xiàng)),同時(shí)保持其余部分不變。將所提出的損失公式表示為,其中N表示將被調(diào)整的重要系數(shù)(前N項(xiàng))的數(shù)量。

          這里,用來替代第個(gè)Cross-entropy loss項(xiàng)的系數(shù),其中是擾動(dòng)項(xiàng)。這使得可以精確地定位第1個(gè)N個(gè)多項(xiàng)式,而不需要擔(dān)心無限多個(gè)高階(j>N+1)系數(shù)。

          表3顯示了的性能優(yōu)于Cross-entropy loss的。

          作者還探索了在N=1~3的中對(duì)j的N維網(wǎng)格搜索和貪婪網(wǎng)格搜索,發(fā)現(xiàn)簡單地調(diào)整第1個(gè)多項(xiàng)式的系數(shù)(N=1)便可以獲得更好的分類精度。

          4.3 :簡單而有效

          如前一節(jié)所示,作者發(fā)現(xiàn)調(diào)整第1個(gè)多項(xiàng)式項(xiàng)會(huì)帶來最顯著的增益。在本節(jié)中,進(jìn)一步簡化了Poly-N公式,并重點(diǎn)計(jì)算了Poly-1,其中只修改了Cross-entropy loss中的第1個(gè)多項(xiàng)式系數(shù)。

          作者還研究了不同第1項(xiàng)縮放對(duì)精度的影響,并觀察到增加第1個(gè)多項(xiàng)式系數(shù)可以提高ResNet-50的精度,如圖3a所示。

          這一結(jié)果表明,Cross-entropy loss在多項(xiàng)式系數(shù)值上是次優(yōu)的,增加第1個(gè)多項(xiàng)式系數(shù)可以得到一致的改善。

          圖3b顯示了在訓(xùn)練的大部分時(shí)間內(nèi),多項(xiàng)式貢獻(xiàn)了Cross-entropy梯度的一半以上,這突出了第1個(gè)多項(xiàng)式項(xiàng)與無限多項(xiàng)的其他項(xiàng)相比的重要性。

          因此,在本文的其余部分中,都采用了的形式,并主要關(guān)注于調(diào)整重要前幾項(xiàng)多項(xiàng)式系數(shù)。從方程中可以明顯看出,它只通過一行代碼來修改了原始的損失實(shí)現(xiàn)(在Cross-entropy loss的基礎(chǔ)上添加一個(gè)項(xiàng))。

          注意,所有訓(xùn)練超參數(shù)都針對(duì)Cross-entropy loss進(jìn)行了優(yōu)化。即便如此,對(duì)Poly-1公式中的第1個(gè)多項(xiàng)式系數(shù)進(jìn)行簡單的網(wǎng)格搜索可以顯著提高分類精度。作者還發(fā)現(xiàn)對(duì)LPoly-1的其他超參數(shù)進(jìn)行優(yōu)化還可以獲得更高的精度。

          4.4 PolyLoss的Tensorflow實(shí)現(xiàn)

          1、PolyLoss-CE

          def?poly1_cross_entropy(logits,?labels,?epsilon=1.0):
          ????#?pt,?CE,?and?Poly1?have?shape?[batch].
          ????pt?=?tf.reduce_sum(labels?*?tf.nn.softmax(logits),?axis=-1)
          ????CE?=?tf.nn.softmax_cross_entropy_with_logits(labels,?logits)
          ????Poly1?=?CE?+?epsilon?*?(1?-?pt)
          ????return?Poly1

          2、PolyLoss-Focal Loss

          def?poly1_focal_loss(logits,?labels,?epsilon=1.0,?gamma=2.0):
          ????#?p,?pt,?FL,?and?Poly1?have?shape?[batch,?num?of?classes].
          ????p?=?tf.math.sigmoid(logits)
          ????pt?=?labels?*?p?+?(1?-?labels)?*?(1?-?p)
          ????FL?=?focal_loss(pt,?gamma)
          ????Poly1?=?FL?+?epsilon?*?tf.math.pow(1?-?pt,?gamma?+?1)
          ????return?Poly1

          5實(shí)驗(yàn)

          5.1 圖像分類

          5.2 目標(biāo)檢測

          5.3 3D目標(biāo)檢測

          6參考文獻(xiàn)

          [1].POLYLOSS: A POLYNOMIAL EXPANSION PERSPECTIVE OF CLASSIFICATION LOSS FUNCTIONS

          7推薦閱讀

          NAS-ViT | 超低FLOPs與Params實(shí)現(xiàn)50FPS的CPU推理,精度卻超越ResNet50?。?!

          超越 Swin、ConvNeXt | Facebook提出Neighborhood Attention Transformer

          CVPR2022 Oral | CosFace、ArcFace的大統(tǒng)一升級(jí),AdaFace解決低質(zhì)量圖像人臉識(shí)

          長按掃描下方二維碼添加小助手并加入交流群,群里博士大佬云集,每日討論話題有目標(biāo)檢測、語義分割、超分辨率、模型部署、數(shù)學(xué)基礎(chǔ)知識(shí)、算法面試題分享的等等內(nèi)容,當(dāng)然也少不了搬磚人的扯犢子

          長按掃描下方二維碼添加小助手。

          可以一起討論遇到的問題

          聲明:轉(zhuǎn)載請(qǐng)說明出處

          掃描下方二維碼關(guān)注【集智書童】公眾號(hào),獲取更多實(shí)踐項(xiàng)目源碼和論文解讀,非常期待你我的相遇,讓我們以夢(mèng)為馬,砥礪前行!

          瀏覽 166
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国精产品一区一区三区有限是什么 | 回本Aa一级黄色视屏 | 六月婷婷五月丁香 | 操逼逼AV | 在线观看亚州视频 |