<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          不用親手搭建型了!華人博士提出few-shot NAS,效率提升10倍

          共 3412字,需瀏覽 7分鐘

           ·

          2021-08-04 22:05



            新智元報(bào)道  

          來(lái)源:ICML 2021

          編輯:LRS

          【新智元導(dǎo)讀】你能找到最優(yōu)的深度學(xué)習(xí)模型嗎?還是說(shuō)你會(huì)「堆積木」?最近,伍斯特理工學(xué)院華人博士在ICML 2021上發(fā)表了一篇文章,提出一個(gè)新模型few-shot NAS,效率提升10倍,準(zhǔn)確率提升20%!看來(lái)「調(diào)參俠」們又要緊張了!


          神經(jīng)網(wǎng)絡(luò)模型經(jīng)常被研究人員戲稱為「堆積木」,通過(guò)將各個(gè)基礎(chǔ)模型堆成更大的模型,更多的數(shù)據(jù)來(lái)取得更好的效果。



          為了減輕人工構(gòu)建模型的工作量,用AI技術(shù)來(lái)搜索最優(yōu)“堆積木”方法就很有必要了。神經(jīng)架構(gòu)搜索 (NAS) 就是這樣一種技術(shù),在深度學(xué)習(xí)領(lǐng)域逐漸受到關(guān)注,隨著研究的發(fā)展,NAS能夠幫助研究人員快速搭建合適的深度學(xué)習(xí)模型。


          Vanilla NAS 使用搜索算法來(lái)遍歷探索搜索空間,并通過(guò)從頭開(kāi)始訓(xùn)練新的架構(gòu)來(lái)評(píng)估它們的性能。暴力搜索和深度學(xué)習(xí)的通病就是需要更多的時(shí)間,例如完整搜索可能需要數(shù)千小時(shí)的 GPU 時(shí)間,導(dǎo)致在許多研究應(yīng)用中計(jì)算成本非常高,無(wú)法實(shí)際應(yīng)用。


          另一種方法構(gòu)建流程 one-shot NAS,使用一個(gè)預(yù)訓(xùn)練的超網(wǎng)絡(luò)(supernet, supernetwork),從而大大降低計(jì)算成本。這個(gè)網(wǎng)絡(luò)能夠在搜索空間中估計(jì)神經(jīng)結(jié)構(gòu)的準(zhǔn)確性,而不需要從頭開(kāi)始訓(xùn)練。然而,由于操作之間的協(xié)同適應(yīng),性能估計(jì)可能非常不準(zhǔn)確,如果是不準(zhǔn)確的預(yù)測(cè)會(huì)影響它的搜索過(guò)程,并導(dǎo)致很難找到合適的模型架構(gòu)。


          伍斯特理工學(xué)院和Facebook AI Research最近推出了一個(gè)全新的模型few-shot NAS,這個(gè)方法平衡了Vanilla NAS 和 one-shot NAS的時(shí)間消耗的計(jì)算損失,研究結(jié)果表明,從卷積神經(jīng)網(wǎng)絡(luò)到生成對(duì)抗性網(wǎng)絡(luò),它都能夠有效地設(shè)計(jì)sota模型。


          與one-shot NAS 相比,few-shot NAS 提高了體系結(jié)構(gòu)評(píng)估的準(zhǔn)確性,評(píng)估成本增加不大。大量的實(shí)驗(yàn)表明,少鏡頭 NAS 能夠顯著地改進(jìn)各種單鏡頭方法,包括 NasBench-201和 NasBench1-shot-1中的4種基于梯度的方法和6種基于搜索的方法


          文章已被ICML 2021錄取為long oral。



          這篇論文的第一作者是趙一陽(yáng),伍斯特理工學(xué)院(WPI)的一名博士生,導(dǎo)師是郭甜教授。他的本科是西安電子科技大學(xué)的電子與信息工程專業(yè),并在美國(guó)東北大學(xué)獲得計(jì)算機(jī)工程的碩士學(xué)位。主要研究興趣是在日常生活和人工智能(AI)領(lǐng)域之間構(gòu)建應(yīng)用,通過(guò)使用自動(dòng)機(jī)器學(xué)習(xí)(Auto-ML)使 AI (深度學(xué)習(xí))模型的構(gòu)建更容易,同時(shí)也對(duì)機(jī)器學(xué)習(xí)和高性能計(jì)算的應(yīng)用感興趣。



          few-shot NAS 通過(guò)將搜索空間劃分為不同的獨(dú)立區(qū)域,然后使用多個(gè)子超網(wǎng)(sub-supernets)覆蓋這些區(qū)域,從而提高了模型性能。


          為了合理地劃分搜索空間,研究人員選擇利用原始超網(wǎng)的結(jié)構(gòu),分別挑選每個(gè)邊緣連接來(lái)選擇一種方法來(lái)劃分搜索空間,這種方法與超網(wǎng)的構(gòu)造方式相一致。


          在設(shè)計(jì) few-shot NAS時(shí),研究人員主要面向這三個(gè)問(wèn)題提出解決方案:


          1、如何將one-shot 模型表示的搜索空間劃分為子超網(wǎng),以及在給定搜索時(shí)間預(yù)算的情況下如何選擇子超網(wǎng)的數(shù)目?



          如下表所示,增加劃分復(fù)合邊(split compound edge)的數(shù)量會(huì)導(dǎo)致更高的秩相關(guān)性。給定相同數(shù)量的復(fù)合邊進(jìn)行劃分,選擇哪條復(fù)合邊進(jìn)行分割對(duì)低標(biāo)準(zhǔn)偏差所表示的秩相關(guān)性的影響可以忽略不計(jì)。因此,研究人員隨機(jī)選擇要分割的復(fù)合邊,并關(guān)注要分割多少?gòu)?fù)合邊。


          在這項(xiàng)工作中,預(yù)先定義了一個(gè)訓(xùn)練時(shí)間預(yù)算T。如果超網(wǎng)和所有當(dāng)前訓(xùn)練的子超網(wǎng)的訓(xùn)練總時(shí)間超過(guò)T,將停止劃分以避免訓(xùn)練更多的子超網(wǎng)。一般來(lái)說(shuō),T是一次超網(wǎng)訓(xùn)練時(shí)間的兩倍。



          2、如何減少多個(gè)子超網(wǎng)的訓(xùn)練時(shí)間?


          子超網(wǎng)的數(shù)目隨著劃分復(fù)合邊的數(shù)目呈指數(shù)增長(zhǎng)。直接訓(xùn)練所有產(chǎn)生的子超網(wǎng)在計(jì)算上很困難,而且也失去了one-shot NAS的優(yōu)勢(shì)。所以研究人員結(jié)合遷移學(xué)習(xí)技術(shù)來(lái)加速子超網(wǎng)的訓(xùn)練過(guò)程。



          3、few-shot NAS如何與現(xiàn)有NAS算法集成?


          基于梯度的算法需要運(yùn)行在一個(gè)連續(xù)的搜索空間,可以從有向無(wú)環(huán)圖(DAG)轉(zhuǎn)換?;谔荻鹊乃惴▽AS視為一個(gè)聯(lián)合優(yōu)化問(wèn)題,通過(guò)訓(xùn)練同時(shí)優(yōu)化權(quán)重和架構(gòu)分布參數(shù),也就是說(shuō),基于梯度的算法是為one-shot NAS設(shè)計(jì)和使用的。


          為了將基于梯度的算法用于few-shot NAS,首先訓(xùn)練超網(wǎng)直到收斂。然后按照第一個(gè)解決的問(wèn)題那樣將超網(wǎng)拆劃分為幾個(gè)子超網(wǎng),并使用從父超網(wǎng)傳輸?shù)臋?quán)重和架構(gòu)分布參數(shù)初始化這些子超網(wǎng)。


          接下來(lái)訓(xùn)練這些子超網(wǎng)收斂并選擇子超網(wǎng)?′ 所有子超網(wǎng)的驗(yàn)證損失最低。最后選擇了最好的架構(gòu)分布參數(shù)。


          對(duì)于基于搜索的算法,需要一個(gè)候選結(jié)構(gòu)的值函數(shù)來(lái)指導(dǎo)搜索。值函數(shù)可以是不可微的,通常由單次或單次函數(shù)提供。對(duì)于vanilla NAS,不必嚴(yán)格地訓(xùn)練這些模型架構(gòu)來(lái)收斂,可以使用提前停止的方法來(lái)獲得中間結(jié)果。基于搜索的算法從幾個(gè)初始的模型架構(gòu)開(kāi)始,基于前一個(gè)采樣的體系結(jié)構(gòu)和搜索算法在搜索空間中對(duì)下一個(gè)體系結(jié)構(gòu)進(jìn)行采樣,直到找到一個(gè)性能滿意的體系結(jié)構(gòu)。


          為了研究使用多個(gè)超級(jí)網(wǎng)絡(luò)是否能夠同時(shí)利用 one-shot NAS 和Vanilla NAS 的優(yōu)勢(shì),他們?cè)O(shè)計(jì)了一個(gè)包含近1296個(gè)網(wǎng)絡(luò)的搜索空間。


          首先,他們對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,根據(jù) CIFAR10數(shù)據(jù)集上的實(shí)際準(zhǔn)確度對(duì)網(wǎng)絡(luò)進(jìn)行排名。然后利用6個(gè)、36個(gè)和216個(gè)子超網(wǎng)預(yù)測(cè)了1296個(gè)網(wǎng)絡(luò)。最后,他們將預(yù)測(cè)的排名與實(shí)際排名進(jìn)行了比較。結(jié)果證明,即使只增加幾個(gè)子超網(wǎng),排名也有顯著提高。



          并且他們?cè)谡鎸?shí)世界的任務(wù)上測(cè)試了他們的想法,發(fā)現(xiàn)與one-shot NAS 相比,few-shot NAS 提高了模型架構(gòu)評(píng)估的準(zhǔn)確性。



          在 ImageNet 上,few-shot NAS 發(fā)現(xiàn)模型在600 MFLOPS 上達(dá)到近80.5% 的 top-1準(zhǔn)確率,在238 MFLOPS 下達(dá)到77.5% 的 top-1準(zhǔn)確率。


          在 AutoGAN 中,few-shot NAS 的性能比以前的結(jié)果高出將近20% ,而在 CIFAR10中,它在不使用任何額外數(shù)據(jù)或傳輸學(xué)習(xí)的情況下達(dá)到了98.72% 的 top-1準(zhǔn)確率。



          實(shí)驗(yàn)表明,few-shot NAS 可以顯著地改進(jìn)各種one-shot 方法,例如 NasBench-201和 NasBench1-shot-1中的四種基于梯度的方法和六種基于搜索的方法。


          并且 few-shot NAS 相比one-shot NAS 能夠極其有效地改善排名預(yù)測(cè)。此外,它還可以廣泛適用于所有現(xiàn)有的 NAS 方法。當(dāng)團(tuán)隊(duì)將這些場(chǎng)景作為具體的例子來(lái)展示時(shí),他們開(kāi)發(fā)的技術(shù)可以有廣泛的應(yīng)用,例如,當(dāng)候選架構(gòu)需要快速評(píng)估以尋找更好的架構(gòu)時(shí)。


          few-shot NAS 有助于設(shè)計(jì)準(zhǔn)確和快速的模型。應(yīng)用這種few-shot的方法可以提高使用超網(wǎng)絡(luò)(如 AttentiveNAS 和 AlphaNet)的各種神經(jīng)結(jié)構(gòu)搜索算法的搜索效率。Facebook的研究團(tuán)隊(duì)希望他們的方法可以用在更廣泛的場(chǎng)景中。


          論文的通訊作者是導(dǎo)師郭甜,她是伍斯特理工學(xué)院計(jì)算機(jī)科學(xué)系的一名助理教授,也是 Cake Lab 的一名成員!她對(duì)設(shè)計(jì)系統(tǒng)機(jī)制和策略感興趣,以處理新出現(xiàn)的應(yīng)用程序在成本、性能和效率方面的平衡。具體來(lái)說(shuō),我參與過(guò)與云/邊緣資源管理、大數(shù)據(jù)框架、深度學(xué)習(xí)推理、分布式訓(xùn)練、神經(jīng)架構(gòu)搜索和 AR/VR 相關(guān)的項(xiàng)目。最近的工作主要集中在改進(jìn)深度學(xué)習(xí)的系統(tǒng)支持和深度學(xué)習(xí)在 AR/VR 中的實(shí)際應(yīng)用。



          第三作者是田淵棟,是Facebook AI Research (FAIR)的研究科學(xué)家和經(jīng)理,主要研究興趣是深度強(qiáng)化學(xué)習(xí)、表征學(xué)習(xí)和優(yōu)化。他是 ELF OpenGo 項(xiàng)目的首席科學(xué)家和工程師。




          參考資料:

          https://www.reddit.com/r/MachineLearning/comments/op1ux8/r_facebook_ai_introduces_fewshot_nas_neural/






          瀏覽 35
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  蝌蚪窝成人网 | 91久久久无码国产一区二区三区 | 亚洲国产伦理 | 国产操骚逼| 国产激情无码视频网站在线 |