<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          超級(jí)干貨 | 用萬(wàn)字文章總結(jié)25種正則化方法(值得收藏)

          共 10914字,需瀏覽 22分鐘

           ·

          2022-02-19 22:01

          一些圖像處理任務(wù),如圖像分類和目標(biāo)檢測(cè),已經(jīng)通過(guò)使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)性能得到了顯著的改進(jìn)。像ResNet和EfficientNet一樣,許多架構(gòu)在創(chuàng)建時(shí)已經(jīng)在至少一個(gè)數(shù)據(jù)集上取得了出色的結(jié)果。訓(xùn)練中的一個(gè)關(guān)鍵因素是網(wǎng)絡(luò)的正則化,它可以防止模型在訓(xùn)練的過(guò)程中出現(xiàn)過(guò)擬合的現(xiàn)象。

          這項(xiàng)工作分析了過(guò)去幾年發(fā)展起來(lái)的幾種正則化方法,顯示了不同CNN模型的顯著改進(jìn)。這些工作分為3個(gè)主要領(lǐng)域:

          • 第一:是“數(shù)據(jù)正則化”,其中所有的方法都專注于對(duì)于輸入數(shù)據(jù)的更改
          • 第二:是“結(jié)構(gòu)正則化”,主要是修改神經(jīng)網(wǎng)絡(luò)或核函數(shù)生成特征映射的過(guò)程
          • 最后:是“標(biāo)簽正則化”,主要是對(duì)給定輸入的標(biāo)簽進(jìn)行轉(zhuǎn)換和修正

          1簡(jiǎn)介

          1.1 背景說(shuō)明

          卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)在一些與計(jì)算機(jī)視覺(jué)相關(guān)的任務(wù)上取得了相當(dāng)不錯(cuò)的結(jié)果,如圖像分類和目標(biāo)檢測(cè)。這種成功可以用卷積神經(jīng)元的工作原理來(lái)解釋:它根據(jù)圖像的空間屬性來(lái)突出給定的特征。淺層網(wǎng)絡(luò)注意是歸納一些形狀或者紋理特征;然而,更深層次的網(wǎng)絡(luò)可以檢測(cè)出更復(fù)雜更抽象的特征,比如整個(gè)物體或人臉。如今,從生物識(shí)別到疾病檢測(cè),很難找到其他沒(méi)有CNN的計(jì)算機(jī)視覺(jué)技術(shù)。

          關(guān)于CNN的一個(gè)關(guān)鍵問(wèn)題是如何對(duì)卷積核進(jìn)行堆疊?以在給定的任務(wù)上實(shí)現(xiàn)最佳的結(jié)果。在幾個(gè)不同的任務(wù)上使用相同的基本架構(gòu)是很普遍的,只需要改變輸出。例如,EfficientNet是一種用于圖像分類的神經(jīng)網(wǎng)絡(luò),它也被用于EfficientDet體系結(jié)構(gòu)來(lái)處理目標(biāo)檢測(cè)任務(wù)。

          該體系結(jié)構(gòu)可能是計(jì)算機(jī)視覺(jué)模型的核心部分;然而,在開(kāi)始訓(xùn)練之前還有其他相關(guān)的要點(diǎn)。例如,優(yōu)化技術(shù)可能會(huì)影響最終的性能。即使是kernel的初始化方法都有可能會(huì)影響模型最終的性能。

          本研究集中討論在這些可能影響最終性能因素的一個(gè)方面:正則化。

          根據(jù)所使用的正則化策略,一些架構(gòu)可以在最終結(jié)果上獲得相關(guān)的增益。使用良好的正則化方法的一個(gè)重要方面是,它不會(huì)影響最終模型的性能。這意味著,獨(dú)立于使用或不使用一個(gè)正則化方法,模型的推理計(jì)算成本是相同的。然而,在某些情況下,它可以影響訓(xùn)練階段的性能,使用少量的計(jì)算開(kāi)銷或訓(xùn)練周期。無(wú)論如何,產(chǎn)出的結(jié)果通常是可以補(bǔ)償這一成本的。

          1.2 為什么正則化方法有效?

          CNN通常用于計(jì)算機(jī)視覺(jué)任務(wù),如圖像分類和目標(biāo)檢測(cè),以創(chuàng)建像人類視覺(jué)一樣強(qiáng)大的視覺(jué)模型。如果考慮到可用的信息數(shù)量,很明顯,訓(xùn)練任務(wù)需要更多數(shù)據(jù)可變性。考慮到一個(gè)健康的大腦和眼睛正常的人,不考慮睡覺(jué)的時(shí)間,平均每天保留大約16個(gè)小時(shí)的新信息。

          即使考慮到像ImageNet這樣的巨大數(shù)據(jù)集,與人類大腦通過(guò)眼睛接收到的數(shù)據(jù)數(shù)量相比,可用的圖像數(shù)量也是最小的。這種新數(shù)據(jù)的不可用性可能會(huì)導(dǎo)致一種稱為過(guò)擬合的情況,即模型學(xué)習(xí)如何很好地表示訓(xùn)練數(shù)據(jù),但它不能有效地處理新信息,即測(cè)試數(shù)據(jù)。這種情況通常發(fā)生在模型在可用的訓(xùn)練信息中進(jìn)行了詳盡的訓(xùn)練時(shí),而它不能很好地?cái)U(kuò)展到其他新信息中。

          作為一個(gè)人工神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)的訓(xùn)練步驟可以描述為一個(gè)優(yōu)化問(wèn)題,目標(biāo)是訓(xùn)練得到一個(gè)合適的權(quán)值;假定給一個(gè)輸入和損失函數(shù),可以轉(zhuǎn)換期望的信息輸出最低可能的誤差。實(shí)現(xiàn)這一目標(biāo)的一種方法是最小化以下功能:

          其中為Frobenius norm,為輸入數(shù)據(jù),分別表示權(quán)重矩陣和目標(biāo)標(biāo)簽。Frobenius norm增加了X和之間的相似性。

          這種解釋有一個(gè)主要優(yōu)點(diǎn):這個(gè)公式可以通過(guò)矩陣分解進(jìn)行優(yōu)化,產(chǎn)生X的結(jié)構(gòu)化分解。然而,只有當(dāng)W或固定在優(yōu)化兩個(gè)矩陣時(shí),將原始方程轉(zhuǎn)換為非凸公式時(shí),才能實(shí)現(xiàn)全局最小值。如果矩陣分解為矩陣近似,可以解決這個(gè)問(wèn)題:

          其中,目標(biāo)是估計(jì)矩陣A,最終得到一個(gè)凸優(yōu)化,這意味著它有一個(gè)全局最小值,通過(guò)梯度下降算法可以找到。當(dāng)使用正則化時(shí),這個(gè)方程變?yōu)椋?/p>

          其中,描述了基于A的正則化函數(shù),而是設(shè)置正則化函數(shù)對(duì)目標(biāo)函數(shù)的影響程度的標(biāo)量因子。

          正則化方法的一個(gè)關(guān)鍵方面,獨(dú)立于訓(xùn)練階段的工作,是為了防止模型過(guò)擬合。它通過(guò)增加CNN不同階段的數(shù)據(jù)的可變性來(lái)操作。當(dāng)處理圖像時(shí),最直接的方法是隨機(jī)改變圖像,比如旋轉(zhuǎn)和翻轉(zhuǎn)。

          雖然這種類型的正則化工作得很好,但應(yīng)該考慮到一些問(wèn)題。例如,一些轉(zhuǎn)換可能會(huì)將圖像扭曲成分類中的另一個(gè)現(xiàn)有類。更直接的例子是MNIST數(shù)據(jù)集上的基線圖像分類:如果旋轉(zhuǎn)太多,輸入“6”可能會(huì)轉(zhuǎn)換為“9”,導(dǎo)致模型學(xué)習(xí)錯(cuò)誤的信息。

          1.3 正則化和標(biāo)準(zhǔn)化

          機(jī)器學(xué)習(xí)中的一個(gè)普遍問(wèn)題是調(diào)整給定模型的參數(shù),使其對(duì)訓(xùn)練數(shù)據(jù)和新的數(shù)據(jù)能夠有更好的魯棒性。旨在減少不屬于訓(xùn)練集的數(shù)據(jù)上的誤差的算法的集合被稱為正則化技術(shù)。

          標(biāo)準(zhǔn)化和正則化技術(shù)的一個(gè)主要區(qū)別是,正則化在訓(xùn)練期后不再使用,而標(biāo)準(zhǔn)化保留在模型之中。例如,Cutout和MaxDropout在推理期間沒(méi)有被執(zhí)行,但是Batch Normalization在推理時(shí)需要執(zhí)行。

          1.4 正則化主要用在哪里?

          盡管大多數(shù)作品都應(yīng)用于輸入,但也有很多研究致力于內(nèi)部結(jié)構(gòu)和標(biāo)簽層。圖1描述了本次調(diào)查中科學(xué)工作的比例。

          圖1

          大約44%的工作依賴于對(duì)輸入的正則,其中最著名的是數(shù)據(jù)增強(qiáng)策略。CNN輸入中參數(shù)和結(jié)構(gòu)的容易改變可以解釋如此多的工作量。圖像處理和計(jì)算機(jī)視覺(jué)驅(qū)動(dòng)的應(yīng)用程序在處理深度學(xué)習(xí)時(shí)仍然發(fā)揮著重要的作用。

          第二種最常見(jiàn)的正則化方法是那些對(duì)模型的內(nèi)部結(jié)構(gòu)進(jìn)行正則的方法。Dropout為這一研究領(lǐng)域的進(jìn)展做出了很大的貢獻(xiàn)。一些作品主要是基于Dropout進(jìn)行的改進(jìn),當(dāng)然其中也有一些是全新的方法。

          1.5 正則化方法的缺點(diǎn)

          第一個(gè)是標(biāo)簽不隨輸入或在神經(jīng)網(wǎng)絡(luò)的中層直觀地改變。在這2個(gè)級(jí)別中執(zhí)行變化是更自然的,因?yàn)樵谝曈X(jué)上更容易理解在訓(xùn)練和推理過(guò)程中發(fā)生了什么。然而,要解釋執(zhí)行標(biāo)簽更改時(shí)會(huì)發(fā)生什么就比較困難了。盡管最初的研究認(rèn)為它防止了過(guò)擬合問(wèn)題,但它未能解釋為什么會(huì)避免這種情況。

          另一種解釋是對(duì)大多數(shù)方法缺乏數(shù)學(xué)解釋。幸運(yùn)的是,一些技術(shù),如Dropout和Mixup,對(duì)它們的內(nèi)部機(jī)制提供了有趣的見(jiàn)解。

          最后,最好要記住,開(kāi)發(fā)機(jī)器學(xué)習(xí)領(lǐng)域最關(guān)鍵的步驟之一是創(chuàng)建標(biāo)簽可靠的數(shù)據(jù)集。雖然本文關(guān)注的是正則化策略,但值得記住,最終,與標(biāo)簽的組合方式上的突破可能會(huì)促進(jìn)更強(qiáng)大的系統(tǒng)。因此,強(qiáng)調(diào)更多與標(biāo)簽正則化相關(guān)的工作值得研究。

          2正則化方法大集結(jié)

          3.1 Cutout

          Cutout是一種直接而強(qiáng)大的數(shù)據(jù)增強(qiáng)的技術(shù)。在訓(xùn)練過(guò)程中,它在輸入神經(jīng)網(wǎng)絡(luò)之前隨機(jī)去除圖像的區(qū)域。Cutout作者詳盡地分析了CIFAR-10和CIFAR-100數(shù)據(jù)集中被移除區(qū)域的理想大小。

          圖3 Cutout

          理想的大小根據(jù)每個(gè)類的實(shí)例的數(shù)量和給定數(shù)據(jù)集的類的數(shù)量而變化。例如,在CIFAR-10數(shù)據(jù)集上的最佳結(jié)果是通過(guò)刪除一個(gè)大小為16×16的patch來(lái)完成的,而對(duì)于CIFAR-100,關(guān)于最佳結(jié)果的區(qū)域大小是8×8。對(duì)于SVHN數(shù)據(jù)集,通過(guò)使用網(wǎng)格搜索找到了最佳的crop大小為20×20。對(duì)于STL-10數(shù)據(jù)集,最佳結(jié)果的crop大小為32×32。

          3.2 RandomErasing

          RandomErasing是在Cutout技術(shù)的基礎(chǔ)上進(jìn)一步的發(fā)展。Cutout是對(duì)圖像的隨機(jī)裁剪,而RandomErasing關(guān)注的是在空白空間中去除并隨機(jī)添加信息,例如噪聲。與Cutout不同,RadomErasing并不是每次都刪除圖像的一部分。在這項(xiàng)工作中,作者在3種不同的分類數(shù)據(jù)集(CIFAR-10,CIFAR-100和Fashion-MNIST)上評(píng)估了該方法,用于目標(biāo)檢測(cè)的VOC2007數(shù)據(jù)集,以及用于ReID的三種不同的CNN架構(gòu)(IDE, TriNet和SVDNet)。

          圖4 RandomErasing

          對(duì)于分類任務(wù),4種不同的架構(gòu)被用于評(píng)估目的:ResNet、ResNet with pre-activation、Wide Residual Networks和ResNeXt。在所有情況下,RandomErasing方法完成了相關(guān)的誤差減少(至少0.3%)。

          對(duì)于目標(biāo)檢測(cè)任務(wù),當(dāng)只使用該數(shù)據(jù)集中的可用數(shù)據(jù)訓(xùn)練模型時(shí),平均精度(mAP)提高了0.5,當(dāng)訓(xùn)練數(shù)據(jù)與VOC2012訓(xùn)練數(shù)據(jù)集結(jié)合時(shí),平均精度(mAP)提高了0.4。圖4顯示了隨機(jī)擦除是如何工作的。

          3.3 AutoAugment

          AutoAugment試圖找出給定數(shù)據(jù)集上的哪些transformations可以提高模型的準(zhǔn)確性。它使用5個(gè)不同的transformations為給定策略創(chuàng)建一個(gè)搜索空間,這些transformations由2個(gè)附加參數(shù)控制:給定更改概率(Cutout,SamplePairing,Shear X/Y,Translate X/Y,Rotate,AutoContrast,Invert,Equalize,Solarize,Posterize,Contrast,Color,Brightness以及Sharpness)和變化幅度。

          圖5 AutoAugment

          然后將這些策略輸入一個(gè)“child”模型,該模型是一個(gè)用部分訓(xùn)練數(shù)據(jù)集訓(xùn)練的CNN。這個(gè)CNN的準(zhǔn)確性被告知一個(gè)“控制器”模型,它是一個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)。這個(gè)RNN輸出一個(gè)給定策略在未來(lái)被使用的概率。在控制器訓(xùn)練過(guò)程的最后,使用5個(gè)最佳策略(每個(gè)策略有5個(gè)子策略)來(lái)訓(xùn)練最終的模型,用于評(píng)估數(shù)據(jù)集。使用這些生成的策略和子策略使得AutoAugment在CIFAR-10、CIFAR-100、SVHN和ImageNet數(shù)據(jù)集上達(dá)到了最先進(jìn)的結(jié)果。

          這種方法的一個(gè)巨大優(yōu)勢(shì)是這些策略在不同數(shù)據(jù)集之間的可遷移性:在最初的工作中,為ImageNet找到的策略被用來(lái)訓(xùn)練其他5個(gè)不同的數(shù)據(jù)集,即使沒(méi)有在這些數(shù)據(jù)集上訓(xùn)練AutoAugment,也能顯著改善結(jié)果。這種方法的一個(gè)缺點(diǎn)是用來(lái)訓(xùn)練控制器模型的時(shí)間:例如,對(duì)于ImageNet數(shù)據(jù)集,它需要大約15000個(gè)小時(shí)的處理,這在一些情況下可能是不切實(shí)際的。Fast AutoAugment的目標(biāo)就是通過(guò)一種新的算法來(lái)克服這一瓶頸,在產(chǎn)生相似結(jié)果的同時(shí),顯著減少搜索過(guò)程所需的時(shí)間。

          3.4 PBA

          Population Based Augmentation(PBA)不僅展示了一種新的增強(qiáng)算法,而且展示了調(diào)度策略而不是固定策略,改進(jìn)了以往研究的結(jié)果。

          圖6 PBA

          在每3步中,它改變了一半的策略,即1/4的權(quán)重變化,另外1/4的超參數(shù)變化。雖然自動(dòng)增強(qiáng)意味著在CIFAR-10數(shù)據(jù)集上的訓(xùn)練開(kāi)銷為5000個(gè)小時(shí),但PBA只增加了5個(gè)小時(shí)。

          3.5 RandAugment

          如前所述,尋找最佳數(shù)據(jù)增強(qiáng)的方法的一個(gè)巨大瓶頸涉及到它們的計(jì)算負(fù)擔(dān),因?yàn)樗赡鼙茸约旱纳窠?jīng)網(wǎng)絡(luò)訓(xùn)練需要更長(zhǎng)的時(shí)間。另一個(gè)問(wèn)題與在搜索過(guò)程中發(fā)現(xiàn)的策略有關(guān),這可能會(huì)導(dǎo)致次優(yōu)策略,即它確實(shí)改善了局部的結(jié)果;然而,它并不會(huì)帶來(lái)最好的全局結(jié)果,因?yàn)樗褂昧艘粋€(gè)較淺的神經(jīng)網(wǎng)絡(luò),并假設(shè)這個(gè)規(guī)則可以應(yīng)用于任何其他的,更深的架構(gòu)。

          圖7 RandAugment
          14個(gè)最常見(jiàn)的策略

          RandAugment使用了在之前的工作中發(fā)現(xiàn)的14個(gè)最常見(jiàn)的策略,并在訓(xùn)練期間對(duì)每個(gè)策略的大小進(jìn)行搜索,從而消除了初步探索步驟的需要,并根據(jù)當(dāng)前的訓(xùn)練CNN定制數(shù)據(jù)放大。結(jié)果表明,該方法不僅比以往的方法更快,而且顯著改善了結(jié)果。

          3.6 Mixup

          訓(xùn)練CNN的一種可能性是,Mixup來(lái)自訓(xùn)練數(shù)據(jù)集中的2幅圖像,并迫使模型可靠地確定這種Mixup圖像屬于哪一類。然而,如何為這種Mixup生成編碼標(biāo)簽并不普遍。提供這個(gè)新的輸入/輸出訓(xùn)練對(duì)可以讓模型從損壞的輸入中學(xué)習(xí)更多的特征。最初的工作表明,使用這種方法的模型不僅可以改善圖像分類任務(wù)的結(jié)果,而且可以改善語(yǔ)音識(shí)別、生成對(duì)抗網(wǎng)絡(luò)的穩(wěn)定、表格數(shù)據(jù)集等問(wèn)題的結(jié)果。圖5演示了Mixup的工作原理。

          圖5 Mixup

          3.7 CutMix

          另一種混合輸入和標(biāo)簽以改善結(jié)果的策略是CutMix。與Mixup不同,CutMix會(huì)替換給定輸入中的整個(gè)區(qū)域,并通過(guò)給予與每個(gè)類使用的區(qū)域相同的權(quán)重來(lái)更改標(biāo)簽。例如,如果一只貓的圖像被30%的圖像替換為一個(gè)飛機(jī)的圖像,則該標(biāo)簽被設(shè)置為70%的貓和30%的飛機(jī)。這一策略的結(jié)果有了顯著的改善。通過(guò)使用繪制Grad-CAM可以觀察到生成的Heatmap更好地突出了更準(zhǔn)確地定義感興趣目標(biāo)的區(qū)域。

          圖6 CutMix

          3.8 CutBlur

          一些針對(duì)圖像處理的深度學(xué)習(xí)任務(wù),如圖像分類或目標(biāo)檢測(cè),可以通過(guò)使用數(shù)據(jù)增強(qiáng)來(lái)提升模型性能。一些工作,如AutoAugment、Cutout和RandomErasing可以通過(guò)對(duì)訓(xùn)練圖像應(yīng)用一些transformations來(lái)顯著改善結(jié)果。然而,對(duì)于超分辨率(SR)任務(wù),文獻(xiàn)中缺乏提出正則化技術(shù)來(lái)明確地處理這個(gè)問(wèn)題的工作。

          圖7 CutBlur

          盡管可以使用上述技術(shù)并可能改善結(jié)果,但它們并不是通過(guò)手工設(shè)計(jì)來(lái)處理SR問(wèn)題的。到目前為止,唯一發(fā)現(xiàn)的方法是CutBlur,它的工作原理是用來(lái)自類似區(qū)域的低分辨率(LR)版本替換高分辨率圖像(HR)上的給定區(qū)域。作者表明,CutBlur有助于模型在SR問(wèn)題上更好的推廣,但同樣的技術(shù)可以用于重建被高斯噪聲退化的圖像。

          3.9 BatchAugment

          訓(xùn)練cnn的一個(gè)重要超參數(shù)與mini-batch size有關(guān),mini-batch size用于計(jì)算反向傳播中使用的梯度。該超參數(shù)通常采用GPU的上限,這對(duì)于提高訓(xùn)練收斂速度至關(guān)重要。BatchAugment工作巧妙地利用了這個(gè)限制。它不只是使用來(lái)自數(shù)據(jù)集的不同實(shí)例來(lái)滿足整個(gè)內(nèi)存,而是使用默認(rèn)的數(shù)據(jù)擴(kuò)展設(shè)置來(lái)考慮內(nèi)存限制的一半,然后復(fù)制具有不同數(shù)據(jù)擴(kuò)展可能性的所有實(shí)例。這聽(tīng)起來(lái)像是一個(gè)簡(jiǎn)單的技巧;然而,結(jié)果表明,使用這種方法的神經(jīng)網(wǎng)絡(luò)在最終結(jié)果上有顯著的改善。另一點(diǎn)是,通過(guò)復(fù)制增強(qiáng)圖像,分析表明需要更少的時(shí)間點(diǎn)來(lái)實(shí)現(xiàn)收斂。

          3.10 FixRes

          圖像分辨率可能會(huì)影響訓(xùn)練周期效率和最終的分類精度。例如,對(duì)EfficientNet的研究通過(guò)將輸入大小作為影響最終結(jié)果的參數(shù)之一,從而強(qiáng)調(diào)了這一想法。然而,如果一個(gè)模型被訓(xùn)練,例如,分辨率為224×224,測(cè)試集的推理應(yīng)該使用一樣的圖像分辨率。

          圖8 FixRes

          FixRes提出的工作強(qiáng)調(diào)了測(cè)試集的分辨率應(yīng)該高于用于訓(xùn)練的分辨率。這種變化不僅產(chǎn)生了一個(gè)更可靠的神經(jīng)網(wǎng)絡(luò),而且比傳統(tǒng)方法訓(xùn)練得更快,因?yàn)樗枰俚挠?jì)算量,因?yàn)橛糜谶@種目的的圖像比用于推理的圖像要小。該方法表明,在使用遷移學(xué)習(xí)時(shí),它可以改善在其他數(shù)據(jù)集上的結(jié)果。

          3.11 Bag-of-Tricks

          這里分析的工作的一個(gè)關(guān)鍵點(diǎn)是,它們經(jīng)常沒(méi)有將任何其他正則化方法與它們當(dāng)前的研究結(jié)合起來(lái)。因此,很難知道兩個(gè)正則化器是如何相互影響的。Bag-of-Tricks研究通過(guò)結(jié)合幾種已知的正則化方法,如Mixup、Label Smoothing和Knowledge Destilation。消融研究表明,如果應(yīng)用一定的方法,最終結(jié)果可以顯著改善。例如,使用這種方法組合的MobileNet在ImageNet數(shù)據(jù)集中提高了近1.5%的結(jié)果,這是一個(gè)顯著的收益。然而,該研究缺乏對(duì)層間正則化方法的深入評(píng)價(jià),如Dropout。

          3結(jié)構(gòu)正規(guī)化

          正則化方法可以以不同的方式工作。在本文中,將結(jié)構(gòu)正則化定義為在訓(xùn)練過(guò)程中改變權(quán)值而不改變輸入kernel值的方法。本節(jié)分為兩個(gè)主要部分:第一部分介紹了Dropout如何工作和它的一些變體的更深入的描述,如SpatialDropout和DropBlock。在第二部分中,描述了其他旨在執(zhí)行其他張量操作的方法,如Shake-shake Regularization。

          4.1 Dropout and variants

          Dropout被認(rèn)為是一種簡(jiǎn)單但功能強(qiáng)大的正則化器,旨在去除一些神經(jīng)元,從而迫使整個(gè)系統(tǒng)學(xué)習(xí)更多的特征。最初的工作表明,它不僅可以應(yīng)用于cnn,還可以應(yīng)用于多層感知器(MLPs)和受限玻爾茲曼機(jī)(rbm)。

          圖9 Dropout

          在訓(xùn)練階段的每一步,通過(guò)伯努利分布來(lái)估計(jì)每個(gè)神經(jīng)元的dropping out概率,從而在訓(xùn)練過(guò)程中增加了一些隨機(jī)性。最初的研究表明,被dropping out的神經(jīng)網(wǎng)絡(luò)可以比標(biāo)準(zhǔn)的神經(jīng)網(wǎng)絡(luò)更好地進(jìn)行推廣。

          4.2 MaxDropout

          Dropout隨機(jī)去除訓(xùn)練階段的神經(jīng)元,Maxdropout則根據(jù)神經(jīng)元的激活情況去激活神經(jīng)元。它首先將張量s值歸一化,然后將每一個(gè)大于給定閾值p的輸出設(shè)置為0,因此這個(gè)值越高,它就越有可能被禁用。

          圖10 MaxDropOut

          最初的工作表明,它可以改進(jìn)在CIFAR-10和CIFAR-100數(shù)據(jù)集上的ResNet18結(jié)果,而且它在WideResNet-28-10模型上的性能也優(yōu)于Dropout。

          4.3 DropBlock

          DropBlock表明,去除給定張量(即特征圖)的整個(gè)區(qū)域可以幫助模型更好地泛化。通過(guò)使用ResNet-50和AmoebaNet-B模型對(duì)圖像進(jìn)行分類任務(wù),使用retinanet模型對(duì)物體進(jìn)行檢測(cè),使用ResNet-101模型對(duì)圖像進(jìn)行分割,結(jié)果表明該模型比Dropout等內(nèi)部正則化算法對(duì)結(jié)果有更好的改善。

          圖11 DropBlock

          DropBlock應(yīng)用在CNN的每個(gè)feature map上,從一個(gè)小的比例開(kāi)始訓(xùn)練,然后慢慢的增加它的值。它的實(shí)驗(yàn)顯示了ImageNet數(shù)據(jù)集上的相關(guān)結(jié)果,當(dāng)使用ResNet-50時(shí),Baseline精度提高了近2%,打敗了其他正則化方法,如Cutout和AutoAugment,使用AmoebaNetB時(shí),基線精度提高了約0.3%。在目標(biāo)檢測(cè)任務(wù)中,retavanet模型在AP度量上改進(jìn)了1.5%以上。

          4.4 TargetDrop

          注意機(jī)制可以被整合到一個(gè)給定的正則化器中,這樣它就可以在適當(dāng)?shù)膮^(qū)域發(fā)揮作用。例如,TargetDrop將這種機(jī)制與DropBlock結(jié)合在一起。在訓(xùn)練過(guò)程中,它允許整個(gè)系統(tǒng)去除給定通道上的大多數(shù)有區(qū)別的區(qū)域。結(jié)果表明,這種方法不僅比DropBlock獲得了更好的結(jié)果,而且,通過(guò)使用grade-cam,在決定給定輸入屬于哪個(gè)類的區(qū)域中顯示了更多的一致性。

          圖12 Dropout,DropBlock,TargetDrop

          4.5 AutoDrop

          雖然有效,但Dropout缺乏選擇掉哪個(gè)神經(jīng)元的空間信息。DropBlock的策略是將整個(gè)隨機(jī)區(qū)域放在隱藏層上,而不是單一的神經(jīng)元,從而迫使CNN學(xué)習(xí)更好的空間信息。然而,Drop方法是手動(dòng)設(shè)計(jì)和固定的,如果這些模式可以在訓(xùn)練中學(xué)習(xí),這可能會(huì)得到改進(jìn)。

          圖13 AutoDrop

          AutoDrop迫使CNN根據(jù)訓(xùn)練信息學(xué)習(xí)最佳設(shè)計(jì),使用控制器逐層學(xué)習(xí)最佳滴模式。CIFAR-10和ImageNet的結(jié)果表明,這些模式改善了結(jié)果,并可以在數(shù)據(jù)集之間傳輸。

          4.6 LocalDrop

          Rademacher復(fù)雜性被用來(lái)重新定義Dropout和DropBlock。通過(guò)對(duì)該問(wèn)題進(jìn)行廣泛的數(shù)學(xué)分析,提出了一種新的兩階段正則化算法。該方法雖然耗時(shí),但針對(duì)圖像分類的不同CNN架構(gòu)取得了相應(yīng)的改進(jìn)。

          CIFAR-10的結(jié)果表明,LocalDrop方法至少可以改善結(jié)果0.15%,比最佳結(jié)果提高了近0.6%。CIFAR-100的結(jié)果改善了0.4%;然而,在這種特定的情況下,在反向傳播時(shí)刪除權(quán)重的變化最終會(huì)得到略微更好的結(jié)果,提高了0.5%。除了改進(jìn)之外,該方法只適用于3分支ResNet,很難直接比較其他方法。

          4.7 Shake-Shake

          在這些體系結(jié)構(gòu)上強(qiáng)制正則化的一種方法是在訓(xùn)練期間為殘差連接的每個(gè)分支賦予不同的權(quán)重。最初的ResNets的工作原理是在每個(gè)分支上添加權(quán)重,沒(méi)有任何區(qū)別。在訓(xùn)練過(guò)程中,Shake-shake作用于3個(gè)分支的ResNets,在前傳時(shí)改變每個(gè)分支的乘因子,在后傳時(shí)乘以不同的值,從而改變每個(gè)分支對(duì)最終結(jié)果的影響。對(duì)于推理,它將每個(gè)分支乘以0.5倍。

          4.8 ShakeDrop

          解決Shake-shake問(wèn)題的一個(gè)改進(jìn)是ShakeDrop。它不僅適用于ResNeXt架構(gòu),也適用于ResNet、Wide ResNet和PyramidNet。為了實(shí)現(xiàn)這樣的結(jié)果,ShakeDrop改變了由Shake-shake提出的配置。這些分支上的Shake組合顯示,ShakeDrop有更好的性能,不會(huì)被困在局部極小值上。結(jié)果表明,該方法可以比前面提到的每一種體系結(jié)構(gòu)獲得的原始結(jié)果更好。

          4.9 Manifold Mixup

          神經(jīng)網(wǎng)絡(luò)通常被概括為一個(gè)函數(shù),給定輸入數(shù)據(jù)和一組可學(xué)習(xí)參數(shù),輸出相應(yīng)的目標(biāo)值。Manifold Mixup的作用類似于Mixup,然而,它在CNN的任何內(nèi)部層中運(yùn)行,而不僅僅是在輸入層。深度神經(jīng)網(wǎng)絡(luò)可以被認(rèn)為是一組較小的神經(jīng)網(wǎng)絡(luò),每一個(gè)都輸出一些期望的特征;因此,如果所有的子網(wǎng)都運(yùn)行良好,則可以認(rèn)為最終的結(jié)果是良好的。

          Yang等提出了一種新的損失函數(shù)設(shè)計(jì)策略:首先通過(guò)前饋過(guò)程計(jì)算傳統(tǒng)的小批量損失。然后,它從原始網(wǎng)絡(luò)生成子網(wǎng)絡(luò),然后通過(guò)使用不同的圖像變換提供相同的小批處理,為每個(gè)模型計(jì)算一個(gè)損失。最后,將傳統(tǒng)損失與各個(gè)子網(wǎng)絡(luò)的損失相加,計(jì)算出最終損失。該技術(shù)在不同的數(shù)據(jù)集和CNN架構(gòu)中顯示了巨大的潛力改進(jìn)。

          4.10 其他方法

          在過(guò)去的幾年里,殘差連接的使用,首先在眾所周知的神經(jīng)架構(gòu)ResNet中引入,并對(duì)其進(jìn)行了進(jìn)一步的改進(jìn),在幾個(gè)任務(wù)上取得了相關(guān)的成果。后來(lái)的研究表明,這種成功是由于創(chuàng)建了一種名為“identity mapping”的結(jié)構(gòu),它是對(duì)原始輸入的重建。殘差連接迫使模型學(xué)習(xí)如何構(gòu)造這些結(jié)構(gòu)。

          4標(biāo)簽正則化

          有方法使用Label Smoothing作為其正則化策略的一部分。例如,Mixup根據(jù)2個(gè)不同圖像之間的插值來(lái)平均標(biāo)簽的值。同樣的規(guī)則也適用于Manifold Mixup技術(shù);然而,數(shù)據(jù)插值是在層之間計(jì)算的,并使用相同的微積分來(lái)重置標(biāo)簽值。

          另一個(gè)使用標(biāo)簽轉(zhuǎn)換的正則化器是Cutblur。在本例中,使用了反式格式,在訓(xùn)練期間,可以將標(biāo)簽與輸入倒置,使輸入作為標(biāo)簽,模型將按照預(yù)期收斂。這一預(yù)期結(jié)果的原因是由于低分辨率和高分辨率圖像的切割尺寸,這是沒(méi)有預(yù)先定義的。這意味著輸入可以是高分辨率圖像中的低分辨率圖像,標(biāo)簽可以是高分辨率圖像中的低分辨率圖像。因此,將標(biāo)簽和輸入倒排仍然是有意義的。

          其他方法也可以通過(guò)使用Manifold Mixup來(lái)改進(jìn)它們的結(jié)果。例如,Cutout從輸入中刪除部分,所以根據(jù)crop size“remove”部分標(biāo)簽也是有意義的。假設(shè)crop size是圖像的25%,因此活動(dòng)類可以從1下降到0.75。同樣的策略也適用于RandomErasing。在訓(xùn)練過(guò)程中丟棄神經(jīng)元的方法,如Dropout,可以在訓(xùn)練過(guò)程中將熱標(biāo)簽的值降低到相同的范圍。

          5.1 Label Smoothing

          在一般的分類任務(wù)中,使用熱編碼標(biāo)簽是普遍存在的。從2015年開(kāi)始,Label Smoothing提出了一種在標(biāo)簽編碼過(guò)程中的正則化技術(shù),通過(guò)修改hone-hot表示的每個(gè)位置上的值。

          Label Smoothing的工作原理是防止了2個(gè)主要問(wèn)題。

          • 首先,過(guò)擬合問(wèn)題
          • 其次,對(duì)于不確定結(jié)果的過(guò)度自信問(wèn)題

          根據(jù)作者論述,通過(guò)使用編碼標(biāo)簽上的平滑因子,應(yīng)用在向量上的Softmax函數(shù)產(chǎn)生更接近平滑編碼向量的值,限制了反向傳播算法中使用的值,并根據(jù)類產(chǎn)生更真實(shí)的值。

          5.2 TSLA

          使用標(biāo)簽平滑的一個(gè)困難是找出?的什么值(即平滑因子)是理想的,無(wú)論是對(duì)于一般的還是對(duì)于特定的數(shù)據(jù)集。最初的工作表明,?=0.1是極好的條件;然而,兩階段標(biāo)簽平滑(TSLA)表明,一般來(lái)說(shuō),梯度下降結(jié)合Label Smoothing技術(shù)只能提高結(jié)果,直到一定的訓(xùn)練點(diǎn),之后最好將活動(dòng)類的所有值設(shè)置為0和1。例如,當(dāng)在CIFAR-100數(shù)據(jù)集中對(duì)ResNet18進(jìn)行200個(gè)Epoch的訓(xùn)練時(shí),結(jié)果表明,當(dāng)使用Label Smoothing時(shí)僅僅到160個(gè)Epoch便可以獲得最好的性能。

          5.3 SLS

          通常,很難為L(zhǎng)abel Smoothing因子定義適當(dāng)?shù)闹?。結(jié)構(gòu)標(biāo)簽平滑(SLS)提出通過(guò)估計(jì)貝葉斯估計(jì)誤差來(lái)計(jì)算這樣的值,根據(jù)作者,這有助于定義每個(gè)實(shí)例的標(biāo)簽邊界。實(shí)驗(yàn)表明,該方法在不同場(chǎng)合都可以克服傳統(tǒng)的標(biāo)簽平滑方法。

          雖然這項(xiàng)工作在MobileNetV2上得到了充分的評(píng)估,但它沒(méi)有考慮到其他的神經(jīng)網(wǎng)絡(luò)架構(gòu)。盡管一些流行的數(shù)據(jù)集被用于比較目的,例如,CIFAR和SVHN,但這項(xiàng)工作僅限于MobileNet-V2。

          5.4 JoCor

          本文提出了一種避免噪聲標(biāo)簽對(duì)神經(jīng)網(wǎng)絡(luò)的影響的新方法。JoCoR在同一數(shù)據(jù)集上訓(xùn)練2個(gè)相似的神經(jīng)網(wǎng)絡(luò),并試圖關(guān)聯(lián)2個(gè)不同的標(biāo)簽。該方法通過(guò)將2個(gè)網(wǎng)絡(luò)的交叉熵?fù)p失加上它們之間的對(duì)比損失來(lái)計(jì)算損失,然后只使用批處理上最可忽略的損失來(lái)更新架構(gòu)的參數(shù)。

          作者認(rèn)為,通過(guò)使用最小的值來(lái)更新參數(shù),這2種網(wǎng)絡(luò)都與預(yù)測(cè)結(jié)果一致,而且標(biāo)簽的噪聲往往更小。雖然該方法是針對(duì)弱監(jiān)督問(wèn)題開(kāi)發(fā)的,但它可以很容易地適應(yīng)傳統(tǒng)的監(jiān)督問(wèn)題,如數(shù)據(jù)分類,以改善結(jié)果。這種方法的缺點(diǎn)是使用2個(gè)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,這需要更多的處理和內(nèi)存。

          5參考

          [1].Avoiding Overfitting: A Survey on Regularization Methods for Convolutional Neural Networks

          6推薦閱讀

          往期推薦

          小目標(biāo)Trick | Detectron2、MMDetection、YOLOv5都通用的小目標(biāo)檢測(cè)解決方案

          ShiftViT用Swin Transformer的精度跑贏ResNet的速度,論述ViT的成功不在注意力!

          阿里提出QuadTree Transformer | 最輕、最強(qiáng)的Vision Transformer Backbone

          MoA-Transformer | Swin-Transformer應(yīng)該如何更好地引入全局信息?

          RepVGG溯源 | RepVGG作者前期作品,ACNet零算力白嫖性能(附Pytorch代碼詳解)


          長(zhǎng)按掃描下方二維碼添加小助手并加入交流群,群里博士大佬云集,每日討論話題有目標(biāo)檢測(cè)、語(yǔ)義分割、超分辨率、模型部署、數(shù)學(xué)基礎(chǔ)知識(shí)、算法面試題分享的等等內(nèi)容,當(dāng)然也少不了搬磚人的扯犢子

          長(zhǎng)按掃描下方二維碼添加小助手。

          可以一起討論遇到的問(wèn)題

          聲明:轉(zhuǎn)載請(qǐng)說(shuō)明出處

          掃描下方二維碼關(guān)注【集智書(shū)童】公眾號(hào),獲取更多實(shí)踐項(xiàng)目源碼和論文解讀,非常期待你我的相遇,讓我們以夢(mèng)為馬,砥礪前行!


          瀏覽 52
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  99久久婷婷国产精品综合 | 中文字幕乱妇无码 | 九九精品网 | 20011年高清a免费看一级毛片 | 欧美日本高清视频 |