<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          王炸!無(wú)需額外數(shù)據(jù),Transformers超越CNN問(wèn)鼎ImageNet

          共 2427字,需瀏覽 5分鐘

           ·

          2021-07-08 20:51

          點(diǎn)擊上方視學(xué)算法”,選擇加"星標(biāo)"或“置頂

          重磅干貨,第一時(shí)間送達(dá)

          僅作學(xué)術(shù)分享,不代表本公眾號(hào)立場(chǎng),侵權(quán)聯(lián)系刪除
          轉(zhuǎn)載于:reddit,新智元

          今年年初,原依圖科技的CTO顏水成博士離職后,加入了東南亞電商平臺(tái)Shopee。


          Shopee是東南亞及中國(guó)臺(tái)灣的電商平臺(tái) ,該公司于2009年由李小冬(Forrest Li,中國(guó)大陸天津人)創(chuàng)立,發(fā)跡中國(guó)目前已擴(kuò)展到馬來(lái)西亞、泰國(guó)、印度尼西亞、越南、菲律賓和中國(guó)臺(tái)灣,為全世界華人地區(qū)用戶的在線購(gòu)物和銷售商品提供服務(wù)。


          當(dāng)時(shí)Shopee的母公司冬海集團(tuán)公布財(cái)報(bào),公告除了披露了公司2020的財(cái)務(wù)情況,也特別確認(rèn)了顏水成的加入。


          其中還顯示,顏水成博士擔(dān)任集團(tuán)首席科學(xué)家,其中還特別提到,顏博士將建設(shè)和領(lǐng)導(dǎo)Sea人工智能實(shí)驗(yàn)室。



          如今Sea AI Lab的研究成果來(lái)了!


          一出手就是王炸,把以往需要吞噬海量數(shù)據(jù)才能超越CNN模型的Visual Transformers抬到了新高度!


          不需要額外數(shù)據(jù),Transformers超越CNN問(wèn)鼎ImageNet!



          多年來(lái),視覺(jué)識(shí)別一直是卷積神經(jīng)網(wǎng)絡(luò)(CNNs)的天下。


          但隨著基于自注意的視覺(jué)Transformers(pre-ViTs)的問(wèn)世,模型在 ImageNet 分類任務(wù)中已經(jīng)取得了很大的發(fā)展,但如果在沒(méi)有提供額外數(shù)據(jù)的情況下,其性能仍然不如最新的 SOTA CNN 模型。


          基于這個(gè)想法,他們的目標(biāo)是彌補(bǔ)CNN和ViT之間由數(shù)據(jù)產(chǎn)生的性能差距,并證明基于注意力的模型確實(shí)能夠勝過(guò)CNN。



          研究人員發(fā)現(xiàn),限制 ViTs 在 ImageNet 分類中的性能的主要因素是它們?cè)趯⒕?xì)級(jí)別的特征編碼到詞表示中的效率低。


          為了解決這個(gè)問(wèn)題,文中介紹了一種新穎的前景(outlook)注意力,并提出了一種簡(jiǎn)單而通用的體系結(jié)構(gòu)——視覺(jué)前瞻器( Vision Outlooker, VOLO)。


          與自我注意不同,outlook 的注意力集中在粗糙的全局去頻率建模上,能夠有效地將更精細(xì)的特征和上下文編碼成標(biāo)記,這些標(biāo)記對(duì)于識(shí)別性能非常重要,但是自我注意卻很大程度上忽略了它們。


          實(shí)驗(yàn)表明,VOLO 在沒(méi)有使用任何額外訓(xùn)練數(shù)據(jù)的情況下,達(dá)到了87.1% 的top1精度 ImageNet-1K 分類,是第一個(gè)在這個(gè)競(jìng)爭(zhēng)性基準(zhǔn)上超過(guò)87% 精度的模型。


          此外,預(yù)訓(xùn)練的volo 可以很好地轉(zhuǎn)移到下游任務(wù)中,例如語(yǔ)義分割。在ADE20k 驗(yàn)證集上獲得了84.3% 的 mIoU 分?jǐn)?shù),在 ADE20K 價(jià)值集上獲得了54.3% 的分?jǐn)?shù)。


          論文中的代碼已經(jīng)上傳到GitHub上。


          文中的模型可以看作是兩個(gè)分開(kāi)的階段。


          第一階段由一堆outlooker組成,這些outlooker生成精細(xì)級(jí)別的token表示。這個(gè)第二階段部署一系列Transformer block聚合全局信息。


          在每個(gè)階段的開(kāi)始,利用貼片嵌入模塊對(duì)輸入進(jìn)行映射用設(shè)計(jì)好的shape來(lái)表示。



          Outlooker由一個(gè)outlook注意層組成,空間信息編碼與多層感知器(MLP)用于通道間信息交互。



          LN指的是Layer Normalization。


          對(duì)比Transformer和CNN,前景注意力通過(guò)對(duì)空間信息進(jìn)行編碼,通過(guò)測(cè)量符號(hào)表示對(duì)之間的相似性,參數(shù)學(xué)習(xí)比卷積更有效。


          其次,注意力采用滑動(dòng)窗口機(jī)制在精細(xì)級(jí)別對(duì)token表示進(jìn)行局部編碼,并在視覺(jué)任務(wù)上某種程度上保留了關(guān)鍵的位置信息。


          第三,產(chǎn)生注意權(quán)重的方法簡(jiǎn)單有效。不像自我注意力這依賴于query-key矩陣乘法,outlook的權(quán)重可以直接產(chǎn)生一個(gè)簡(jiǎn)單的整形操作,節(jié)省計(jì)算。


          論文的第一作者袁粒(Li Yuan)來(lái)自新加坡國(guó)立大學(xué)。


          據(jù)悉,顏水成曾在2008年就加入新加坡國(guó)立大學(xué),現(xiàn)在也已是新加坡國(guó)立大學(xué)終身教職;在2011年,顏水成還被新加坡國(guó)家科學(xué)院授予新加坡青年科學(xué)家獎(jiǎng)。



          顏水成博士是人工智能領(lǐng)域的頂尖專家,尤其專注于計(jì)算機(jī)視覺(jué)、機(jī)器學(xué)習(xí)和多媒體分析。他是ACM院士和新加坡工程院院士。


          Sea AI Labs打算吸引人工智能領(lǐng)域的頂尖人才并與之合作,目標(biāo)是探索和發(fā)展與我們現(xiàn)有業(yè)務(wù)相關(guān)的長(zhǎng)期見(jiàn)解和技術(shù),以及其他新的機(jī)會(huì)。顏博士和Sea AI Labs將加強(qiáng)我們?cè)趧?chuàng)新和研究方面的能力,以符合我們對(duì)推動(dòng)技術(shù)發(fā)展的承諾,推動(dòng)整個(gè)地區(qū)數(shù)字經(jīng)濟(jì)的發(fā)展。


          大佬的工作卻遭到Reddit網(wǎng)友的質(zhì)疑:



          為什么每個(gè)人都在比較模型參數(shù)?這些顯然不能描述模型的復(fù)雜性、計(jì)算需求和內(nèi)存消耗。例如表5,主要收益來(lái)自更高的輸入分辨率,減少補(bǔ)丁大小和增加更多的頭。相比之下,本文的創(chuàng)新之處影響不大。所以對(duì)我來(lái)說(shuō),這篇論文的結(jié)果并不令人驚訝,那就是計(jì)算和內(nèi)存的增加提高了性能。


          值得一提的是,GitHub上傳的代碼還特意提到表5中存在一個(gè)錯(cuò)誤。



          從LV-ViT-S[32]基線到我們的VOLO-D1。所有的實(shí)驗(yàn)都期望更高的輸入分辨率,并且在3天內(nèi)使用帶有8 V100的單個(gè)GPU服務(wù)器節(jié)點(diǎn)2天8 A100 GPU完成訓(xùn)練。顯然,文中提出的VOLO架構(gòu)只有2700萬(wàn)個(gè)可學(xué)習(xí)參數(shù),性能就可以從83.3提高到85.2(+1.9)。“T”和“O”指分別是Transformer和Outlooker。



          也有網(wǎng)友認(rèn)為這不就是CNN的蒸餾嗎?



          還有網(wǎng)友說(shuō)arxiv上的論文摘要中有太多的拼寫(xiě)錯(cuò)誤,讓他感覺(jué)對(duì)論文的內(nèi)容很沒(méi)有信心。網(wǎng)友回復(fù)說(shuō),這就是預(yù)印的意思!




          參考資料:

          https://www.reddit.com/r/MachineLearning/comments/o7gcl0/r_volo_vision_outlooker_for_visual_recognition/


          點(diǎn)個(gè)在看 paper不斷!

          瀏覽 76
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  亚州在线视频 | 69视频在线免费观看 | 欧美日韩高清无码 | 激情五月天成人 | 亚洲a|