<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          Transformer有可能替代CNN嗎?未來有哪些研究方向?聽聽大家都怎么說

          共 3693字,需瀏覽 8分鐘

           ·

          2021-05-27 06:50


          來源:邁微AI研習(xí)社


          Transformer 有可能替代 CNN 嗎?現(xiàn)在下結(jié)論還為時過早。


          Transformer 的跨界之旅,從 2020 延續(xù)到了 2021。

          2020 年 5 月,F(xiàn)acebook AI 推出了 Detection Transformer(DETR),用于目標(biāo)檢測和全景分割。這是第一個將 Transformer 成功整合為檢測 pipeline 中心構(gòu)建塊的目標(biāo)檢測框架, 在大型目標(biāo)上的檢測性能要優(yōu)于 Faster R-CNN。

          DETR-R101 處理的全景分割結(jié)果。

          2020 年 10 月,谷歌提出了 Vision Transformer(ViT),能直接利用 Transformer 對圖像進(jìn)行分類,而不需要卷積網(wǎng)絡(luò)。該模型可以獲得與當(dāng)前最優(yōu)卷積網(wǎng)絡(luò)相媲美的結(jié)果,但其訓(xùn)練所需的計算資源大大減少。谷歌在論文中寫道:這項(xiàng)研究表明,對 CNN 的依賴不是必需的。當(dāng)直接應(yīng)用于圖像塊序列時,transformer 也能很好地執(zhí)行圖像分類任務(wù)。

          2020 年 12 月,復(fù)旦大學(xué)、牛津大學(xué)、騰訊等機(jī)構(gòu)的研究者提出了 SEgmentation TRansformer(SETR),將語義分割視為序列到序列的預(yù)測任務(wù),該模型在 ADE20K 上排名第一,性能優(yōu)于 OCNet、GCNet 等網(wǎng)絡(luò)。

          元旦剛過,OpenAI 又連放大招 ,用 DALL·E 和 CLIP 打破了自然語言與視覺的次元壁。兩個模型都利用 Transformer 達(dá)到了很好的效果,前者可以基于本文直接生成圖像,后者則能完成圖像與文本類別的匹配。

          DALL·E 示例。給出一句話「牛油果形狀的椅子」,就可以獲得綠油油、形態(tài)各異的牛油果椅子圖像。

          這些研究覆蓋了圖像分類、目標(biāo)檢測、語義分割等 CV 主流方向。因此有人提問:未來,Transformer 有可能替代 CNN 嗎?

          這一問題在知乎、Reddit 等平臺上都有人討論。從討論的結(jié)果來看,大部分人認(rèn)為 Transformer 和 CNN 各有優(yōu)劣,二者可能并非取代和被取代的關(guān)系,而是互相融合,取長補(bǔ)短。從研究現(xiàn)狀來看,Transformer 在 CV 領(lǐng)域的應(yīng)用還需要解決計算效率低等問題。

          Transformer 取代 CNN?下結(jié)論還為時過早

          在知乎討論區(qū),用戶 @小小將指出,「目前我們看到很大一部分工作還是把 transformer 和現(xiàn)有的 CNN 工作結(jié)合在一起」。以 DETR 為例,該模型使用 CNN 從圖像中提取局部信息,同時利用 Transformer 編碼器 - 解碼器架構(gòu)對圖像進(jìn)行整體推理并生成預(yù)測。

          聲稱「對 CNN 的依賴并非必需」的 ViT 模型可能也不例外。@小小將表示,「ViT 其實(shí)也是有 Hybrid Architecture(將 ResNet 提出的特征圖送入 ViT)」。@mileistone 也認(rèn)為,「(ViT)文章里提出的方法中會將圖片分成多個無 overlap 的 patch,每個 patch 通過 linear projection 映射為 patch embedding,這個過程其實(shí)就是卷積,跟文章里聲稱的不依賴 CNN 自相矛盾?!?/span>


          由于 CNN 和 Transformer 各有優(yōu)勢和不足,這種融合的做法出現(xiàn)在很多 Transformer 的跨界論文中。

          在解釋 CNN 和 Transformer 各自的優(yōu)缺點(diǎn)時,用戶 @齊國君提到,「CNN 網(wǎng)絡(luò)在提取底層特征和視覺結(jié)構(gòu)方面有比較大的優(yōu)勢。這些底層特征構(gòu)成了在 patch level 上的關(guān)鍵點(diǎn)、線和一些基本的圖像結(jié)構(gòu)。這些底層特征具有明顯的幾何特性,往往關(guān)注諸如平移、旋轉(zhuǎn)等變換下的一致性或者說是共變性。CNN 網(wǎng)絡(luò)在處理這類共變性時是很自然的選擇。但當(dāng)我們檢測得到這些基本視覺要素后,高層的視覺語義信息往往更關(guān)注這些要素之間如何關(guān)聯(lián)在一起進(jìn)而構(gòu)成一個物體,以及物體與物體之間的空間位置關(guān)系如何構(gòu)成一個場景,這些是我們更加關(guān)心的。目前來看,transformer 在處理這些要素之間的關(guān)系上更自然也更有效?!?/span>

          從現(xiàn)有的研究來看,二者的結(jié)合也確實(shí)實(shí)現(xiàn)了更好的結(jié)果,比如近期的《Rethinking Transformer-based Set Prediction for Object Detection》「還是把現(xiàn)有的 CNN 檢測模型和 transformer 思想結(jié)合在一起實(shí)現(xiàn)了比 DETR 更好的效果(訓(xùn)練收斂速度也更快)」(引自 @小小將)。反過來說,如果全部將 CV 任務(wù)中的 CNN 換成 Transformer,我們會遇到很多問題,比如計算量、內(nèi)存占用量大到無法接受。


          未來研究思路

          Transformer 的跨界之旅還在繼續(xù),那么未來有哪些可能的研究思路呢?

          去年 12 月,來自華為諾亞方舟實(shí)驗(yàn)室、北京大學(xué)、悉尼大學(xué)的研究者整理了一份綜述,詳細(xì)歸納了多個視覺方向的 Transformer 模型。


          論文鏈接:https://arxiv.org/pdf/2012.12556.pdf

          此外,他們還在論文中初步思考并給出了三個未來的研究方向:
          • 現(xiàn)有的 Visual Transformer 都還是將 NLP 中 Transformer 的結(jié)構(gòu)套到視覺任務(wù)做了一些初步探索,未來針對 CV 的特性設(shè)計更適配視覺特性的 Transformer 將會帶來更好的性能提升。

          • 現(xiàn)有的 Visual Transformer 一般是一個模型做單個任務(wù),近來有一些模型可以單模型做多任務(wù),比如 IPT,未來是否可以有一個世界模型,處理所有任務(wù)?

          • 現(xiàn)有的 Visual Transformer 參數(shù)量和計算量多大,比如 ViT 需要 18B FLOPs 在 ImageNet 達(dá)到 78% 左右 Top1,但是 CNN 模型如 GhostNet 只需 600M FLOPs 可以達(dá)到 79% 以上 Top1,所以高效 Transformer for CV 亟需開發(fā)以媲美 CNN。(引自 @kai.han)

          類似的綜述研究還有來自穆罕默德 · 本 · 扎耶德人工智能大學(xué)等機(jī)構(gòu)的《Transformers in Vision: A Survey》。



          論文鏈接:https://arxiv.org/pdf/2101.01169.pdf

          有志于 Transformer 跨界研究的同學(xué)可以在讀完綜述后尋找自己感興趣的研究方向。

          參考鏈接:https://www.zhihu.com/question/437495132\




          增強(qiáng)推薦

          (計算機(jī)視覺:實(shí)戰(zhàn)才有效果)

          • 我最近剛發(fā)布的一項(xiàng)GitHub開源《計算機(jī)視覺實(shí)戰(zhàn)演練:算法與應(yīng)用》動手學(xué)計算機(jī)視覺項(xiàng)目,repo中不僅有全書的電子文檔,更為特別的是每章節(jié)都給出了算法簡明講解和對應(yīng)代碼實(shí)現(xiàn)。

          • 考慮到讀者各自運(yùn)行環(huán)境的差異,在本書中給出的代碼有兩種運(yùn)行方式,本地 set up 和在線colab Google notebook運(yùn)行。

          • - 通過requirements.txt將所需版本軟件安裝,可在code/文件夾下運(yùn)行各章節(jié)代碼;

          • - 通過colab免費(fèi)的在線gpu資源,也提供了對應(yīng)章節(jié)的notebook運(yùn)行代碼,“傻瓜式”運(yùn)行,查看代碼執(zhí)行過程和最終結(jié)果。

          • 個人認(rèn)為計算機(jī)視覺或者算法工程師,本質(zhì)上還是一名軟件工程師,所以工程實(shí)戰(zhàn)性能力在實(shí)際項(xiàng)目中顯得尤為重要。與此同時,對于剛?cè)腴T或者初學(xué)者來講,自己親自動手實(shí)踐,編寫、調(diào)試代碼,最終看到理想的結(jié)果顯示出來,這是一種很好的激勵和增強(qiáng)學(xué)習(xí)動力的方式,這也是我在編寫這份資料時的初心。

          • 與現(xiàn)有市場上同類書籍的差別,更在于,全書分為基礎(chǔ)理論篇、項(xiàng)目實(shí)戰(zhàn)篇、進(jìn)階篇撰寫,各自章節(jié)既相互獨(dú)立,又保持上下文銜接。

          • 這樣的做法,可以幫助讀者更好的選取適合自己的學(xué)習(xí)方式。

          •    - 對于初學(xué)者來說,可以按照本書的編寫順序逐章閱讀并動手實(shí)踐;

          •    - 對于有一定基礎(chǔ)的讀者來講,本書更好的食用方式是當(dāng)作一本實(shí)踐手冊,根據(jù)自己所需相關(guān)內(nèi)容,選擇對應(yīng)章節(jié)進(jìn)行學(xué)習(xí)。

          • 隨著近年來算法屆,更為突出的是計算機(jī)視覺領(lǐng)域在學(xué)界和工業(yè)界的熱潮,不斷涌現(xiàn)出一些性能更好的模型和算法。在本書中,作者也盡自己所能,對新出現(xiàn)的并且在工程上或?qū)W術(shù)界得到良好反饋的模型進(jìn)行講解,盡可能給出其模型的最簡代碼實(shí)現(xiàn),例如:跨界模型transformer、差分自編碼器vac、生成對抗模型、注意力機(jī)制等方法。




          更多細(xì)節(jié)可參考GitHub全書,https://github.com/Charmve/computer-vision-in-action


          覺得有用麻煩給個在看啦~  
          瀏覽 53
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国产成人无码精品久久久久 | 欧美轻轻操 | 国产午夜在线观看 | 综合一和综合二图片小说 | 日韩AV在线 东京热 |