<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          CV新時代已經來臨

          共 2152字,需瀏覽 5分鐘

           ·

          2021-12-01 06:59

          ↑ 點擊藍字?關注極市平臺

          作者丨微明博雅@知乎(已授權)
          來源丨h(huán)ttps://zhuanlan.zhihu.com/p/435089862
          編輯丨極市平臺

          極市導讀

          ?

          導讀?>>加入極市CV技術交流群,走在計算機視覺的最前沿

          自ViT問世以來,CV開始進入膨脹期,也迎來了新一輪的紅利,開始了類似于NLP中Transformer的發(fā)展趨勢。從CNN開始徹底走向ViT,從supervised到self-supervised,再到大數據預訓練,ViT的變種不斷增加,帶來的性能也在持續(xù)提升。

          Transformer和ViT的引用數量

          但問題也隨之而來,ViT是最優(yōu)的結構嗎?真的需要這么多數據嗎?在ViT的原始論文中已經揭露了許多問題,比如大模型對優(yōu)化的選擇非常敏感,同時需要更多的數據。對于優(yōu)化問題,已經有人提出用卷積流代替patch流,在早期更有效地編碼局部特征,這種方式不僅解決了優(yōu)化問題同時提升了性能。對于數據量,DeiT和SwinT已經給出了一種數據有效性的ViT模型,但其中或多或少都引入了卷積的inductive bias,這不得不使我們重新考慮ViT結構:卷積流、分層設計甚至局部注意力。

          另外,越來越多CV任務已經開始轉向Transformer架構,像目標檢測中的DETR、語義分割中Segformer等;或者僅僅使用ViT作為backbone,比如SwinT已經證明了其在下游任務的有效性和通用性,已經可以完全替代CNN作為新一代的backbone。對于多模態(tài)任務,是否也需要朝著ViT發(fā)展,或者使用ViT作為backbone?事實上,對于captioning已經有這方面的工作,像CPTR直接用ViT替換Encoder,初步看效果不錯,但探索的仍然不夠充分。

          最后談談預訓練,在ViT原始論文中使用了大規(guī)模JFT數據集,supervised預訓練為圖片分類帶來了極大的提升,同時也證明了ViT是data-hungry的模型。然而,預訓練的本質是視覺表征學習,這亦可以通過self-supervised的方式進行預訓練學習,主要可以根據pretext task的類型分為兩種方法:對比式預訓練和生成式預訓練:對比式預訓練代表主要有SimCLR和MoCo等,它們都是衡量相似度以提煉視覺特征;而生成式預訓練多數是效仿Bert或GPT,以Mask的機制重建或生成原始圖像,典型的代表有iGPT和BEiT等,其實早在ViT論文中也做過類似的預訓練,但沒有很work。直到最近何凱明大神的MAE出現,打開了Mask生成式預訓練的大門,通過一個簡單模型在小數據量下達到超越監(jiān)督式的效果。

          另一方面,多模態(tài)預訓練最近也在不斷興起,視覺語言預訓練(VLP)旨在將視覺和語言特征對齊,學習更好的聯合嵌入表示。VLP主要可以分為雙流和單流:雙流模型通常有兩個Encoder將視覺和語言分開編碼,在晚期進行交互,如LXMERT;單流模型通常將視覺和語言送入同一個Encoder,在早期進行交互,如微軟的Oscar,不過這些都類似于Bert的Mask預訓練方法。另外,還有基于Encoder-Decoder的生成式預訓練方法,像Google最新提出的SimVLM,其模型簡單且更為通用,在6個多模態(tài)任務下都達到了驚人的sota。這些VLP模型的最主要特點就是大規(guī)模數據集,區(qū)別在于不同的pretext tasks,而且這些模型相對簡單,但帶來的效果卻十分顯著,這也許表明了:在大數據量的背景下簡單架構足以學習到高質量的多模態(tài)表示。這不得不讓我們思考多模態(tài)任務未來的發(fā)展方向,是否需要朝著預訓練方向前進,或者使用一些預訓練好的組件。

          計算機視覺領域蓬勃發(fā)展,作為一名初學者,恰逢其時,踏入這個嶄新的時代,這是多么幸運!

          如果覺得有用,就請分享到朋友圈吧!

          △點擊卡片關注極市平臺,獲取最新CV干貨

          公眾號后臺回復“transformer”獲取最新Transformer綜述論文下載~


          極市干貨
          課程/比賽:珠港澳人工智能算法大賽保姆級零基礎人工智能教程
          算法trick目標檢測比賽中的tricks集錦從39個kaggle競賽中總結出來的圖像分割的Tips和Tricks
          技術綜述:一文弄懂各種loss function工業(yè)圖像異常檢測最新研究總結(2019-2020)


          #?CV技術社群邀請函?#

          △長按添加極市小助手
          添加極市小助手微信(ID : cvmart4)

          備注:姓名-學校/公司-研究方向-城市(如:小極-北大-目標檢測-深圳)


          即可申請加入極市目標檢測/圖像分割/工業(yè)檢測/人臉/醫(yī)學影像/3D/SLAM/自動駕駛/超分辨率/姿態(tài)估計/ReID/GAN/圖像增強/OCR/視頻理解等技術交流群


          每月大咖直播分享、真實項目需求對接、求職內推、算法競賽、干貨資訊匯總、與?10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動交流~



          覺得有用麻煩給個在看啦~??
          瀏覽 53
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  精品久久久久久18禁免费网站 | 伊人久久激情 | 天天骚天天骚 | 日本伊人大香蕉 | 欧美日逼网 |