<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          谷歌提出「卷積+注意力」新模型,超越ResNet最強(qiáng)變體!

          共 2418字,需瀏覽 5分鐘

           ·

          2021-06-28 10:45

          點(diǎn)擊上方視學(xué)算法”,選擇加"星標(biāo)"或“置頂

          重磅干貨,第一時(shí)間送達(dá)


          豐色 發(fā)自 凹非寺
          量子位 報(bào)道 | 公眾號 QbitAI

          Transformer跨界計(jì)算機(jī)視覺雖然已取得了一些不錯(cuò)的成績,但大部分情況下,它還是落后于最先進(jìn)的卷積網(wǎng)絡(luò)。

          現(xiàn)在,谷歌提出了一個(gè)叫做CoAtNets的模型,看名字你也發(fā)現(xiàn)了,這是一個(gè)Convolution + Attention的組合模型。

          該模型實(shí)現(xiàn)了ImageNet數(shù)據(jù)集86.0%的top-1精度,而在使用JFT數(shù)據(jù)集的情況下實(shí)現(xiàn)了89.77%的精度,性能優(yōu)于現(xiàn)有的所有卷積網(wǎng)絡(luò)和Transformer!

          卷積結(jié)合自注意,更強(qiáng)的泛化能力和更高的模型容量

          他們是如何決定將卷積網(wǎng)絡(luò)和Transformer結(jié)合起來造一個(gè)新模型呢?

          首先,研究人員發(fā)現(xiàn),卷積網(wǎng)絡(luò)和Transformer在機(jī)器學(xué)習(xí)的兩個(gè)基本方面——泛化和模型容量上各具優(yōu)勢。

          由于卷積層有較強(qiáng)的歸納偏置(inductive bias),所以卷積網(wǎng)絡(luò)模型具有更好的泛化能力和更快的收斂速度,而擁有注意機(jī)制的Transformer則有更高的模型容量,可以從大數(shù)據(jù)集中受益。

          那將卷積層和注意層相結(jié)合起來,不就可以同時(shí)獲得更好的泛化能力和更大的模型容量嗎!

          那好,關(guān)鍵問題來了:如何有效地將它們結(jié)合起來,并在準(zhǔn)確性和效率之間實(shí)現(xiàn)更好的平衡?

          研究人員又發(fā)現(xiàn),常見的深度卷積(depthwise convolution)只需簡單的相對注意就可以合并進(jìn)注意力層!

          因此,他們將CoAtNets的實(shí)現(xiàn)分為兩步:

          1、將卷積和自注意結(jié)合在一個(gè)基本計(jì)算塊中;

          2、將不同類型的計(jì)算塊垂直堆疊在一起(垂直布局設(shè)計(jì)),形成完整的網(wǎng)絡(luò)。

          具體實(shí)現(xiàn)

          首先,由于Transformer和MBConv中的FFN模塊都采用了“反向瓶頸”的設(shè)計(jì),加上深度卷積和自我注意都可以用預(yù)定義的感受野中的加權(quán)和來表示,CoAtNets主要采用MBConv卷積塊。

          具體來說,卷積依賴于一個(gè)固定核從局部感受野收集信息:

          相比之下,自注意允許感受野成為整個(gè)空間位置,并基于對(xi,xj)之間的重歸一化成對相似性來計(jì)算權(quán)重:

          將它們以最佳形式結(jié)合之前,研究人員比較了一下兩者各自的理想特性。

          一個(gè)結(jié)合深度卷積和自注意的理想模型需要具備以上3個(gè)特性,而研究人員的實(shí)現(xiàn)方法很簡單:在Softmax歸一化前或后,將全局靜態(tài)卷積核自適應(yīng)注意矩陣求和。

          將卷積和注意力結(jié)合起來之后,就可以開始堆疊整個(gè)網(wǎng)絡(luò)。

          全局上下文在空間大小(spatial size)方面具有二次復(fù)雜性,如果直接將上述公式中的相對注意應(yīng)用到原始圖像輸入,會(huì)因?yàn)槠胀ǔ叽鐖D像中過多的像素,導(dǎo)致計(jì)算速度過慢。

          因此,要構(gòu)建一個(gè)在實(shí)際操作中可行的模型,研究人員選擇在feature map達(dá)到可管理水平后,進(jìn)行一些下采樣以減小空間大小,再使用全局相對注意。

          其中下采樣可以像ViT那樣用具有積極步幅(stride,例如16x16) convolution stem或像ConvNets里具有漸進(jìn)池的多級網(wǎng)絡(luò)來實(shí)現(xiàn)。

          研究人員按照上面兩種方法堆疊出5個(gè)變體:C-C-C-C、C-C-C-T、C-C-T-T和C-T-T-T以及ViT???,其中C和T分別表示卷積和Transformer。

          為了作出選擇,他們進(jìn)行了對照實(shí)驗(yàn),選出了泛化能力和模型容量最好的兩個(gè):C-C-T-T和C-T-T-T,優(yōu)中選優(yōu),最終選擇了遷移性能更好的C-C-T-T。

          至此,完整的CoAtNets模型就實(shí)現(xiàn)了。

          NO.1的top-1精度

          其實(shí),將卷積和自注意相結(jié)合用于計(jì)算機(jī)視覺的想法并不新鮮,但此前的一些方法通常會(huì)帶來額外的計(jì)算成本等問題。

          而他們的相對注意實(shí)例化是深度卷積和基于內(nèi)容的注意力的自然結(jié)合,加上優(yōu)中選優(yōu)的垂直布局設(shè)計(jì),新模型CoAtNets造成的額外成本最小。

          下面就來看具體的實(shí)驗(yàn)數(shù)據(jù):

          僅使用ImageNet-1K數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明:CoAtNet不僅優(yōu)于ViT變體,還能匹敵最佳的僅卷積結(jié)構(gòu)(EfficientNet-V2和nfnet)。

          從上表和下圖還可以看出:使用ImageNet-21K進(jìn)行預(yù)訓(xùn)練,CoAtNet的優(yōu)勢變得更加明顯,大大優(yōu)于以前的所有模型。

          且最好的CoAtNet變體實(shí)現(xiàn)了88.56%的top-1精度,而與之匹敵的ViT-H/14則需要在23倍大的JFT數(shù)據(jù)集上預(yù)先訓(xùn)練2.3倍規(guī)模的ViT才能達(dá)到88.55%的成績。

          這標(biāo)志著CoAtNet模型數(shù)據(jù)效率和計(jì)算效率的顯著提高。

           ImageNet-21K ?ImageNet-1K 的參數(shù)精度

          最后,研究人員用JFT進(jìn)一步評估了大規(guī)模數(shù)據(jù)集下的CoAtNet,發(fā)現(xiàn)它達(dá)到89.77%精度,超過ResNet最強(qiáng)變體NFNet-F4+排名第一,同時(shí)在TPU訓(xùn)練時(shí)間和參數(shù)計(jì)數(shù)方面提高了2倍效率。

          作者介紹

          論文的四位作者全部來自谷歌大腦。

          Dai Zihang,本科清華大學(xué)工商管理專業(yè),碩士卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)專業(yè),博士卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)和哲學(xué)雙學(xué)位。

          劉寒驍,同為清華本科,卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)博士,谷歌大腦高級研究科學(xué)家,曾在DeepMind研究神經(jīng)架構(gòu)搜索。

          Quoc Le,這位大佬應(yīng)該很多人都知道,斯坦福大學(xué)計(jì)算機(jī)科學(xué)博士畢業(yè),吳恩達(dá)的學(xué)生,谷歌大腦的創(chuàng)始成員和 AutoML 的締造者之一。

          Tan Mingxing ,北京大學(xué)博士畢業(yè)、康奈爾大學(xué)博士后。

          論文地址:https://arxiv.org/abs/2106.04803

          本文系網(wǎng)易新聞?網(wǎng)易號特色內(nèi)容激勵(lì)計(jì)劃簽約賬號【量子位】原創(chuàng)內(nèi)容,未經(jīng)賬號授權(quán),禁止隨意轉(zhuǎn)載。


          點(diǎn)個(gè)在看 paper不斷!

          瀏覽 53
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  成人AV在线导航 | 欧美久久久久久久 | 超碰人人操人人看人人干 | 亚洲高清免费观看视频 | 18禁福利网站 |