<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          霸榜多個(gè)CV任務(wù),開源僅兩天,微軟分層ViT模型收獲近2k star

          共 1663字,需瀏覽 4分鐘

           ·

          2021-04-18 12:18

          視學(xué)算法報(bào)道
          轉(zhuǎn)載自:機(jī)器之心
          編輯:維度
          屠榜各大 CV 任務(wù)的微軟 Swin Transformer,近日開源了代碼和預(yù)訓(xùn)練模型。
          自 2017 年 6 月谷歌提出 Transformer 以來,它便逐漸成為了自然語言處理領(lǐng)域的主流模型。最近一段時(shí)間,Transformer 更是開啟了自己的跨界之旅,開始在計(jì)算機(jī)視覺領(lǐng)域大展身手,涌現(xiàn)出了多個(gè)基于 Transformer 的新模型,如谷歌用于圖像分類的 ViT 以及復(fù)旦、牛津、騰訊等機(jī)構(gòu)的 SETR 等。由此,「Transformer 是萬能的嗎?」也一度成為機(jī)器學(xué)習(xí)社區(qū)的熱門話題。

          不久前,微軟亞研的研究者提出了一種通過移動(dòng)窗口(shifted windows)計(jì)算的分層視覺 Transformer,他們稱之為 Swin Transformer。相比之前的 ViT 模型,Swin Transformer 做出了以下兩點(diǎn)改進(jìn):其一,引入 CNN 中常用的層次化構(gòu)建方式構(gòu)建分層 Transformer;其二,引入局部性(locality)思想,對(duì)無重合的窗口區(qū)域內(nèi)進(jìn)行自注意力計(jì)算。

          論文鏈接:https://arxiv.org/pdf/2103.14030.pdf

          首先來看 Swin Transformer 的整體工作流,下圖 3a 為 Swin Transformer 的整體架構(gòu),圖 3b 為兩個(gè)連續(xù)的 Swin Transformer 塊。


          該研究的亮點(diǎn)在于利用移動(dòng)窗口對(duì)分層 Transformer 的表征進(jìn)行計(jì)算。通過將自注意力計(jì)算限制在不重疊的局部串口,同時(shí)允許跨窗口連接。這種分層結(jié)構(gòu)可以靈活地在不同尺度上建模,并具有圖像大小的線性計(jì)算復(fù)雜度。下圖 2 為在 Swin Transformer 架構(gòu)中利用移動(dòng)窗口計(jì)算自注意力的工作流:


          模型本身具有的特性使其在一系列視覺任務(wù)上都實(shí)現(xiàn)了頗具競爭力的性能表現(xiàn)。其中,在 ImageNet-1K 數(shù)據(jù)集上實(shí)現(xiàn)了 86.4% 的圖像分類準(zhǔn)確率、在 COCO test-dev 數(shù)據(jù)集上實(shí)現(xiàn)了 58.7% 的目標(biāo)檢測 box AP 和 51.1% 的 mask AP。目前,在 COCO minival 和 COCO test-dev 兩個(gè)數(shù)據(jù)集上,Swin-L(Swin Transformer 的變體)在目標(biāo)檢測和實(shí)例分割任務(wù)中均實(shí)現(xiàn)了 SOTA。

          此外,在 ADE20K val 和 ADE20K 數(shù)據(jù)集上,Swin-L 也在語義分割任務(wù)中實(shí)現(xiàn)了 SOTA。

          開源代碼和預(yù)訓(xùn)練模型

          Swin Transformer 論文公開沒多久之后,微軟官方于近日在 GitHub 上開源了代碼和預(yù)訓(xùn)練模型,涵蓋圖像分類、目標(biāo)檢測以及語義分割任務(wù)。上線僅僅兩天,該項(xiàng)目已收獲 1900 星。


          項(xiàng)目地址:https://github.com/microsoft/Swin-Transformer

          首先圖像分類任務(wù),Swin-T、Swin-S、Swin-B 和 Swin-L 變體模型在 ImageNet-1K 和 ImageNet-22K 數(shù)據(jù)集上的準(zhǔn)確率結(jié)果如下:


          其次目標(biāo)檢測任務(wù):Swin-T、Swin-S、Swin-B 和 Swin-L 變體模型在 COCO 目標(biāo)檢測(2017 val)數(shù)據(jù)集上的結(jié)果如下:


          最后語義分割任務(wù):Swin-T、Swin-S、Swin-B 和 Swin-L 變體模型在 ADE20K 語義分割(val)數(shù)據(jù)集上的結(jié)果如下。目前,Swin-L 取得了 53.50% 的 SOTA 驗(yàn)證 mIoU 分?jǐn)?shù)。


          ? THE END 

          轉(zhuǎn)載請(qǐng)聯(lián)系 機(jī)器之心 公眾號(hào)獲得授權(quán)

          投稿或?qū)で髨?bào)道:[email protected]


          點(diǎn)個(gè)在看 paper不斷!

          瀏覽 40
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  成人午夜A片免费看 | WWW,色老板,C0m | 久久精品久久久久久久 | 蜜桃视频操B网 | 欧美九九九在线观看 |