<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          谷歌提出model soup,將ImageNet準(zhǔn)確度刷新到新高度:90.94%!

          共 2874字,需瀏覽 6分鐘

           ·

          2022-03-15 20:40

          點(diǎn)藍(lán)色字關(guān)注“機(jī)器學(xué)習(xí)算法工程師

          設(shè)為星標(biāo),干貨直達(dá)!


          近日,谷歌等研究機(jī)構(gòu)在論文Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time提出了一種提升模型準(zhǔn)確度的簡(jiǎn)單方法model soups用不同的超參數(shù)來(lái)對(duì)預(yù)訓(xùn)練模型進(jìn)行finetune得到多個(gè)模型權(quán)重然后求平均。他們將model soups方法應(yīng)用JFT-3B預(yù)訓(xùn)練的ViTG/14模型,在ImageNet1K數(shù)據(jù)集上達(dá)到了SOTA:90.94% top-1 acc,超過(guò)之前的CoAtNet-7(90.88%)。


          目前無(wú)論是圖像還是文本任務(wù),大家往往會(huì)采用pretrain+finetune的范式來(lái)遷移到其它任務(wù)上,比如我們一般會(huì)采用ImageNet1K數(shù)據(jù)集上預(yù)訓(xùn)練的ResNet在其它圖像分類任務(wù)上進(jìn)行微調(diào),具體的做法是:選擇不同的超參數(shù)來(lái)finetune模型,然后選擇在驗(yàn)證集上效果最好的模型。而論文提出的model soups方法是對(duì)這些不同超參數(shù)finetune后的模型的權(quán)重進(jìn)行平均來(lái)獲取最后的模型。假定為某個(gè)預(yù)訓(xùn)練模型在不同的超參數(shù)finetune后得到的模型權(quán)重集合,下面為不同方法的對(duì)比:其中Best on val. set即前面說(shuō)到的常規(guī)做法,直接選擇驗(yàn)證集上準(zhǔn)確度最高的模型;還有一種可以采用的方法就是模型集成,但是這個(gè)會(huì)增加推理時(shí)間。對(duì)于model soup這里列舉了3種方法,其中最簡(jiǎn)單的是uniform soup,即直接對(duì)全部的模型權(quán)重求平均,第2種方法是greedy soup,首先按照驗(yàn)證集上準(zhǔn)確度降序排列,然后逐個(gè)增加模型來(lái)進(jìn)行權(quán)重平均,只有當(dāng)?shù)玫降钠骄P托Ч刑嵘龝r(shí)才考慮將當(dāng)前的模型加入進(jìn)來(lái),這是一種簡(jiǎn)單的貪心策略,根據(jù)論文的實(shí)驗(yàn)結(jié)果,greedy soup往往要比uniform soup效果要好,也是論文最后采用的策略。最后一種方法learned soup是要通過(guò)學(xué)習(xí)來(lái)得到不同模型的混合權(quán)重系數(shù)。對(duì)于權(quán)重平均其實(shí)也不是什么新奇事物,比如常用的SWA(Stochastic Weight Averaging)方法:通過(guò)對(duì)某個(gè)模型訓(xùn)練過(guò)程的不同step或者epochs下產(chǎn)生的權(quán)重進(jìn)行平均來(lái)提升模型泛化性。model soup與它的區(qū)別是它是用不同超參數(shù)獨(dú)立訓(xùn)練的模型權(quán)重(用同一個(gè)預(yù)訓(xùn)練參數(shù)初始化)進(jìn)行平均,這其實(shí)不太常見(jiàn),這種思路來(lái)自對(duì)誤差 landscape的可視化分析。對(duì)于一個(gè)預(yù)訓(xùn)練權(quán)重,通過(guò)不同的超參數(shù)(不同的隨機(jī)seed和lr)進(jìn)行finetune得到兩個(gè)新的模型:,然后畫(huà)出它們的訓(xùn)練損失和測(cè)試誤差的2D landscape(可視化方法見(jiàn)論文Visualizing the Loss Landscape of Neural Nets),如下所示:可以看到無(wú)論是域內(nèi)還是域外測(cè)試誤差,其2D landscape的輪廓都呈盆狀,這意味著都不是最優(yōu)的,而是在兩者之間,這提示我們是否可以通過(guò)對(duì)兩個(gè)模型的權(quán)重插值來(lái)獲得更好的模型,而且從圖上可以看到似乎兩個(gè)模型(這兩個(gè)矢量線)的夾角越接近90度,通過(guò)插值可能得到模型效果越好。為了驗(yàn)證這個(gè)猜想,作者訓(xùn)練了一系列的模型,它們采用不同的超參數(shù)進(jìn)行finetune,如隨機(jī)種子,學(xué)習(xí)速率和數(shù)據(jù)增強(qiáng),對(duì)于每?jī)蓚€(gè)模型,計(jì)算用權(quán)重平均得到模型準(zhǔn)確度和兩個(gè)模型平均準(zhǔn)確度的差值:。具體的實(shí)驗(yàn)結(jié)果如下圖所示,可以看到用權(quán)重平均得到的模型準(zhǔn)確度要超過(guò)兩個(gè)模型準(zhǔn)確度平均值,而且兩個(gè)模型越正交(角度越接近90度),帶來(lái)的提升越大。

          那么既然對(duì)兩個(gè)模型權(quán)重求平均有效,那是不是可以對(duì)多個(gè)權(quán)重求平均,這就是model soups了。論文基于CLIP ViT-B/32和ALIGN EfficientNet-L2兩個(gè)模型分別進(jìn)行實(shí)驗(yàn),其中CLIP模型采用不同的學(xué)習(xí)速率,weight decay,訓(xùn)練時(shí)長(zhǎng),label smoothing和數(shù)據(jù)增強(qiáng)共產(chǎn)生72個(gè)finetune后的模型;而ALIGN模型采用不同的學(xué)習(xí)速率,數(shù)據(jù)增強(qiáng)和mixup產(chǎn)生12個(gè)模型。對(duì)于greedy soup,通過(guò)貪心算法只選擇5個(gè)模型。下圖為model soup和原始預(yù)訓(xùn)練以及單個(gè)最好模型的對(duì)比圖,可以看到greedy soup可以比單個(gè)最好模型提升0.7和0.5。論文還研究了不同模型數(shù)量下greedy soup和其它方法的結(jié)果對(duì)比,可以看到在域內(nèi)測(cè)試上效果雖然不如模型集成,但是要超過(guò)單個(gè)模型和uniform soup,而在域外測(cè)試上greedy soup效果最好。這其實(shí)也說(shuō)明greedy soup相比單個(gè)最好模型達(dá)到相同的效果所需要訓(xùn)練的模型量要少。如果將greedy soup應(yīng)用在JFT-3B預(yù)訓(xùn)練的ViT-G/14模型上,可以將ImageNet1K上的top1-acc由原來(lái)的90.47提升至90.94。model soup不僅在圖像分類任務(wù)上有效,同樣可以應(yīng)用在文本分類上,基于BERT和T5模型進(jìn)行實(shí)驗(yàn),均可以帶來(lái)一定的性能提升:除此之外,論文還理論分析了model soups和model ensembles之間的關(guān)聯(lián),感興趣的可以看論文中具體分析。

          雖然model soups看起來(lái)很有效,但是論文也指出來(lái)它的局限性,首先論文的實(shí)驗(yàn)?zāi)P投际腔诖笠?guī)模數(shù)據(jù)集上的預(yù)訓(xùn)練模型,論文實(shí)驗(yàn)了ImageNet-22k數(shù)據(jù)集上預(yù)訓(xùn)練模型,發(fā)現(xiàn)雖然有提升,但是沒(méi)有CLIP和ALIGN那么明顯。而且模型集成可以提升模型校準(zhǔn),但是model soups沒(méi)有這種效果。雖然model soups這種方法看起來(lái)非常簡(jiǎn)單,但卻比較實(shí)用,因?yàn)樗幌衲P图赡菢宇~外增加計(jì)算量。對(duì)于model soups另外一個(gè)點(diǎn)是,雖然我們需要采用不同超參數(shù)來(lái)產(chǎn)生盡量差異化的模型來(lái)進(jìn)行平均,但是如果兩個(gè)模型偏離很大,即論文中所說(shuō)的error barrier(采用較高的學(xué)習(xí)速率),那么可能就起不到較好的效果,這也就是為什么greedy soup效果會(huì)更好的原因,畢竟它可以剔除這種情況。



          推薦閱讀

          深入理解生成模型VAE

          DropBlock的原理和實(shí)現(xiàn)

          SOTA模型Swin Transformer是如何煉成的!

          有碼有顏!你要的生成模型VQ-VAE來(lái)了!

          集成YYDS!讓你的模型更快更準(zhǔn)!

          輔助模塊加速收斂,精度大幅提升!移動(dòng)端實(shí)時(shí)的NanoDet-Plus來(lái)了!

          SimMIM:一種更簡(jiǎn)單的MIM方法

          SSD的torchvision版本實(shí)現(xiàn)詳解


          機(jī)器學(xué)習(xí)算法工程師


          ? ??? ? ? ? ? ? ? ? ? ? ????????? ??一個(gè)用心的公眾號(hào)


          瀏覽 65
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  大香蕉之尹人在线 | 青娱乐青青草论坛在线 | 亚洲 无码 在线 播放 | 大黑鸡巴视频 | 青青成人网 |