<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          驚!網(wǎng)絡(luò)設(shè)計(jì)空間到底是個(gè)啥?

          共 3514字,需瀏覽 8分鐘

           ·

          2021-10-26 05:00

          點(diǎn)藍(lán)色字關(guān)注“機(jī)器學(xué)習(xí)算法工程師

          設(shè)為星標(biāo),干貨直達(dá)!


          網(wǎng)絡(luò)設(shè)計(jì)空間(Network Design Spaces)是Facebook AI在On Network Design Spaces for Visual Recognition提出的概念,一個(gè)網(wǎng)絡(luò)設(shè)計(jì)空間定義了一個(gè)符合特定設(shè)計(jì)結(jié)構(gòu)且參數(shù)化的模型群,這篇論文提出通過(guò)統(tǒng)計(jì)學(xué)方法來(lái)對(duì)網(wǎng)絡(luò)設(shè)計(jì)空間進(jìn)行評(píng)估,而不單單是評(píng)估某個(gè)具體的模型。Designing Network Design Spaces是這項(xiàng)工作的延續(xù),這篇論文進(jìn)一步提出要對(duì)網(wǎng)絡(luò)設(shè)計(jì)空間進(jìn)行設(shè)計(jì),在通過(guò)統(tǒng)計(jì)學(xué)方法進(jìn)行設(shè)計(jì)優(yōu)化后得到了RegNet模型。這兩項(xiàng)工作為模型設(shè)計(jì)帶來(lái)了一個(gè)全新的視角:通過(guò)統(tǒng)計(jì)學(xué)方法來(lái)進(jìn)行模型評(píng)估和優(yōu)化。本篇先介紹第一個(gè)工作。

          網(wǎng)絡(luò)設(shè)計(jì)空間

          在早期的工作中,評(píng)估圖像分類模型性能往往采用點(diǎn)估計(jì)(point estimates):一個(gè)模型在benchmark數(shù)據(jù)集誤差最小就是最好的,這里往往不考慮模型復(fù)雜度,如VGG優(yōu)于AlexNet。最近的工作往往會(huì)比較不同復(fù)雜度(eg. flops)下模型性能,如ResNet50,ResNet101等,這種評(píng)估可以稱為曲線估計(jì)(curve estimates),一個(gè)模型如果在曲線上的每個(gè)點(diǎn)都比較更好那就是更優(yōu)的。On Network Design Spaces for Visual Recognition這篇論文提出了分布估計(jì)(distribution estimates):從網(wǎng)絡(luò)設(shè)計(jì)空間中隨機(jī)sample一定錯(cuò)誤率的分布,并通過(guò)統(tǒng)計(jì)學(xué)方法來(lái)分析,從而實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)設(shè)計(jì)空間的評(píng)估。

          為了理解網(wǎng)絡(luò)設(shè)計(jì)空間,這里先明確一個(gè)概念:模型族(model family)。一個(gè)模型族是指具有相關(guān)網(wǎng)絡(luò)結(jié)構(gòu)的模型集合,這個(gè)集合一般無(wú)限大,一個(gè)模型族的模型或者共享一些高級(jí)結(jié)構(gòu),或者遵循相同的設(shè)計(jì)原則。比如ResNets就是一個(gè)模型族,它包含的模型均含有殘差連接,而ResNet50只是其中一個(gè)具體的模型結(jié)構(gòu)。模型族只是籠統(tǒng)的定義,并沒(méi)有具體化,而網(wǎng)絡(luò)設(shè)計(jì)空間是可以從模型族實(shí)例化的一套具體的網(wǎng)絡(luò)結(jié)構(gòu)集合。一個(gè)網(wǎng)絡(luò)設(shè)計(jì)空間要包含兩個(gè)組件:一是一套模型超參數(shù),一旦這些超參數(shù)確定就能實(shí)例化某個(gè)具體的網(wǎng)絡(luò);二是一套各個(gè)模型超參數(shù)的可允許值。設(shè)計(jì)空間可以看成是限定了的模型族,比如ResNets模型族的一個(gè)設(shè)計(jì)空間需要包含一個(gè)網(wǎng)絡(luò)深度(depth)的超參數(shù)以及它的限定范圍。論文中共選擇了4個(gè)模型設(shè)計(jì)空間如下所示,模型包括stem,3個(gè)stages和head,對(duì)于ResNet,block包含2個(gè)3x3卷積和殘差連接,而Vanilla不帶殘差連接,這里的ResNetXt的block采用分組的bottleneck結(jié)構(gòu),A和B只是超參數(shù)不同。


          雖然一個(gè)網(wǎng)絡(luò)設(shè)計(jì)空間可能包含指數(shù)級(jí)候選模型,但是我們可以從中隨機(jī)抽樣固定量的模型來(lái)評(píng)估以得到近似的分布,并采用經(jīng)典統(tǒng)計(jì)學(xué)工具來(lái)進(jìn)行分析。論文里采用經(jīng)驗(yàn)分布函數(shù)(empirical distribution functions, EDFs)來(lái)比較分布,給定個(gè)抽樣的模型,模型的分類誤差記為,那么誤差EDF就可以計(jì)算出來(lái):

          這里的就是誤差小于的模型占比。對(duì)于EDF曲線,很明顯曲線下的面積越大,說(shuō)明誤差小的模型占比越多,這樣可以簡(jiǎn)單看出分布的好壞。所以EDF就可以作為網(wǎng)絡(luò)設(shè)計(jì)空間的分布估計(jì)。論文實(shí)驗(yàn)采用CIFAR-10數(shù)據(jù)集,為了得到比較可靠的估計(jì),共從每個(gè)設(shè)計(jì)空間隨機(jī)采樣25k個(gè)模型,總共就是100k個(gè)模型,這里限定抽樣的模型的flops或者參數(shù)量小于ResNet-56。

          當(dāng)開(kāi)發(fā)新模型,大家往往都是從一個(gè)設(shè)計(jì)空間中人工或者自動(dòng)化(如NAS)找出一個(gè)誤差最小的模型,這其實(shí)就是點(diǎn)估計(jì)。但是用點(diǎn)估計(jì)來(lái)評(píng)估設(shè)計(jì)空間可能是不當(dāng)?shù)?,這里論文通過(guò)一個(gè)簡(jiǎn)單的實(shí)驗(yàn)來(lái)證明:從相同的設(shè)計(jì)空間里抽樣不同量的模型。具體的,模型集B是從ResNet設(shè)計(jì)空間隨機(jī)抽樣100個(gè)模型,而模型集M是抽樣1000個(gè)模型。對(duì)于點(diǎn)估計(jì)就是用模型集的誤差最小模型來(lái)比較,下圖展示了重復(fù)實(shí)驗(yàn)5000次的模型集B和M誤差最小的差值,可以看到90%的情況下,M都比B小。這也不難理解,畢竟M包含更多的模型,更容易找到更優(yōu)的模型。這只是說(shuō)明如果進(jìn)行了算力不一致的點(diǎn)估計(jì)會(huì)對(duì)設(shè)計(jì)空間產(chǎn)生誤導(dǎo)(當(dāng)用了更多的算力去證明某個(gè)模型設(shè)計(jì)更優(yōu)在論文中非常常見(jiàn),但是這看來(lái)并不可靠)。但是如果采用EDF去分析,我們會(huì)發(fā)現(xiàn)B和M的分布基本一致,這說(shuō)明分布評(píng)估對(duì)模型量不敏感,用來(lái)對(duì)網(wǎng)絡(luò)設(shè)計(jì)空間評(píng)估更可靠。

          但是在做分布評(píng)估時(shí)要注意控制一些與模型性能相關(guān)的因素,如模型復(fù)雜度。對(duì)于ResNetXt-A和ResNetXt-B兩者只是模型超參數(shù)不同,但是它們的EDF卻有不小的差異,如果只看EDF的話,那么ResNetXt-B要優(yōu)于ResNetXt-A。這說(shuō)明來(lái)自同一個(gè)模型族的不同設(shè)計(jì)空間會(huì)存在差異。但是這里的分析忽略了一個(gè)重要因素對(duì)模型性能的影響,那就是模型復(fù)雜度,很顯然,模型越大性能往往越優(yōu)。ResNetXt-A和ResNetXt-B的超參數(shù)設(shè)置的差異可能會(huì)帶來(lái)模型復(fù)雜度的影響。從ResNetXt-A和ResNetXt-B的復(fù)雜度分布來(lái)看,ResNetXt-A比ResNetXt-B包含更多復(fù)雜度大的模型,這說(shuō)明兩者的EDF差異肯定有復(fù)雜度差異帶來(lái)的影響。論文里做的一個(gè)方案是做一個(gè)歸一化的操作來(lái)消除復(fù)雜度分布不同帶來(lái)的影響,具體的是假定模型復(fù)雜度分布是均勻的,根據(jù)這樣的假設(shè)來(lái)確定每個(gè)模型的權(quán)重系數(shù)。下圖也展示了對(duì)params和flops進(jìn)行歸一化的EDF分布,可以看到ResNetXt-A和ResNetXt-B兩者的差異就非常小了,但依然能看到ResNetXt-B稍微優(yōu)于ResNetXt-B,這可能是模型結(jié)構(gòu)設(shè)置上的一些不同造成的,比如ResNetXt-B包含分組數(shù)更多的更寬模型。

          分布評(píng)估設(shè)計(jì)空間相比點(diǎn)估計(jì)可以觀察到更多的東西,比如分布的形狀,如圖所示,從ResNet的EDF我們可以看到超過(guò)80%的模型誤差小于8%,而 Vanilla這一比例只有15%,這說(shuō)明帶有殘差連接的結(jié)構(gòu)的絕對(duì)性優(yōu)勢(shì)。另外前面說(shuō)過(guò)曲線下面積也可以作為一個(gè)評(píng)價(jià)指標(biāo)。此外,我們也可以比較隨機(jī)搜索的效率,即找到一個(gè)好模型的容易度,從下圖可以看到相同的實(shí)驗(yàn)量,ResNet比Vanilla找的模型更優(yōu)。最后一個(gè)重要的問(wèn)題,為了得到可靠的分布估計(jì),所需要的最小抽樣量是多少。論文也通過(guò)實(shí)驗(yàn)證明,100樣本就能得到比較合理的分布,而1000個(gè)樣本和10000個(gè)樣本得到的分布幾乎沒(méi)有差異了。這說(shuō)明100~1000個(gè)樣本是一個(gè)比較合理的抽樣范圍。不過(guò),這個(gè)參數(shù)應(yīng)該在不同場(chǎng)景下(數(shù)據(jù)集,設(shè)計(jì)空間等)會(huì)有差異。此外,論文也對(duì)NAS的設(shè)計(jì)空間做了分析,采用EDF可以對(duì)不同的NAS空間做一個(gè)更可靠的評(píng)估。

          那么如何用分布評(píng)估來(lái)去設(shè)計(jì)并優(yōu)化網(wǎng)絡(luò)設(shè)計(jì)空間呢,下期再講!

          參考

          1. On Network Design Spaces for Visual Recognition
          2. Designing Network Design Spaces
          3. facebookresearch/pycls
          4. pytorch/vision



          推薦閱讀

          CPVT:一個(gè)卷積就可以隱式編碼位置信息

          SOTA模型Swin Transformer是如何煉成的!

          谷歌AI用30億數(shù)據(jù)訓(xùn)練了一個(gè)20億參數(shù)Vision Transformer模型,在ImageNet上達(dá)到新的SOTA!

          BatchNorm的避坑指南(上)

          BatchNorm的避坑指南(下)

          目標(biāo)跟蹤入門篇-相關(guān)濾波

          SOTA模型Swin Transformer是如何煉成的!

          MoCo V3:我并不是你想的那樣!

          Transformer在語(yǔ)義分割上的應(yīng)用

          "未來(lái)"的經(jīng)典之作ViT:transformer is all you need!

          PVT:可用于密集任務(wù)backbone的金字塔視覺(jué)transformer!

          漲點(diǎn)神器FixRes:兩次超越ImageNet數(shù)據(jù)集上的SOTA

          Transformer為何能闖入CV界秒殺CNN?

          不妨試試MoCo,來(lái)替換ImageNet上pretrain模型!


          機(jī)器學(xué)習(xí)算法工程師


          ? ??? ? ? ? ? ? ? ? ? ? ????????? ??一個(gè)用心的公眾號(hào)

          瀏覽 100
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  中国成人精品 | 欧美美女操逼 | 99青草国产精品视频无码一区 | 爱爱无码| 日韩大尺度视频 |