<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          超1.2萬人參加CVPR 2024,谷歌研究院獲得最佳論文

          共 8505字,需瀏覽 18分鐘

           ·

          2024-06-20 12:30

          大數(shù)據(jù)文摘授權轉載自AI科技評論
          作者:賴文昕、馬蕊蕾
          編輯:陳彩嫻

          北京時間今天凌晨,美國西雅圖正在召開的計算機視覺盛會 CVPR 2024 正式公布了最佳論文等獎項。

          今年共有 2 篇論文獲得了這份全球最重要的計算機視覺領域的大獎,團隊成員分別來自谷歌研究院、加州大學圣地亞哥分校、南加州大學、劍橋大學及布蘭迪斯大學。

          本周(6.17-6.21),第四十一屆國際計算機視覺與模式識別會議(CVPR)在美國西雅圖拉開帷幕。根據(jù)CVPR官方的最新公告,CVPR 2024已經(jīng)成為該會議歷史上規(guī)模最大、參與人數(shù)最多的一屆,截止6月19日,現(xiàn)場參會人數(shù)已超過一萬兩千人。

          作為計算機視覺乃至人工智能領域最具學術影響力的三大頂會之一,第一屆 CVPR 會議要追溯到1983年美國華盛頓,自此每一年都會吸引全球的計算機研究者和行業(yè)領袖匯聚一堂,共同探討計算機視覺領域最新的科學進展和產(chǎn)業(yè)成果。

          作為領先的計算機視覺盛會,會議每年都會錄用當前視覺領域的最新研究。

          早在2月27日,CVPR 官網(wǎng)就公布了今年的論文接收結果:CVPR 2024 共有 35691 位注冊作者,11532 篇提交論文,其中 2719 篇被接收,錄用率為 23.6%。

          與之相比,CVPR 2023 共有 9155 篇論文被提交,2359 篇論文被接收,錄用率為 25.8%。今年的論文數(shù)量提高了20.6%,創(chuàng)下新高,而錄用率降低了 2.2%。另外,hightlights 和 Oral 兩種類型的論文展示分別有 324 篇(占2.81%)和 90 篇(占0.78%)論文獲選,由此可見,本屆會議的熱度、競爭難度與入選獲獎的含金量都有所上升。


          CVPR 2024 頒獎環(huán)節(jié)


          入圍 CVPR 2024 決賽圈的最佳論文有24篇,相比去年多了12篇。

          AI 科技評論梳理了候選論文的基本情況:

          從地理位置上來看,位列前三的國家依次為美國、中國和德國;從研究領域來看,主要聚焦在視覺與圖形、單視圖 3D 重建以及圖像與視頻合成等;從產(chǎn)業(yè)界來看,有三家機構入選,分別是 NAVER Cloud AI、Google Research 以及 NVIDIA;從學術界來看,高校依舊是研究的主要推動力,其中,國內入選的高校有北京大學、上海交通大學、中山大學和深圳大學。

          最佳論文

          本屆 CVPR 總共評選出 2 篇最佳論文。

          第一篇最佳論文屬于谷歌研究院團隊的《Generative Image Dynamics 》。

          論文鏈接:

          https://arxiv.org/pdf/2309.07906

          代碼地址:
          http://generative-dynamics.github.io/

          作者:Zhengqi Li, Richard Tucker, Noah Snavely, Aleksander Holynski

          論文介紹:本文通過從真實視頻中提取自然振蕩動態(tài)的運動軌跡來學習圖像空間中的場景運動先驗。該方法利用傅里葉域對長期運動進行建模,通過單圖像預測頻譜體積,進而生成整個視頻的運動紋理,可應用于將靜態(tài)圖像轉化為循環(huán)視頻,或通過圖像空間模態(tài)基實現(xiàn)用戶與真實圖像中對象的交互,模擬其動態(tài)。

          第二篇最佳論文頒給了由加州大學圣地亞哥分校、谷歌研究院、南加州大學、劍橋大學及布蘭迪斯大學 5 所機構共同發(fā)表的《Rich Human Feedback for Text-to-Image Generation 》。

          論文鏈接:
          https://arxiv.org/pdf/2312.10240
          代碼地址:
          https://github.com/google-research/google-research/tree/master/richhf_18k

          作者:Youwei Liang, Junfeng He, Gang Li, Peizhao Li, Arseniy Klimovskiy, Nicholas Carolan, Jiao Sun, Jordi Pont-Tuset, Sarah Young, Feng Yang, Junjie Ke, Krishnamurthy Dj Dvijotham, Katherine M. Collins, Yiwen Luo, Yang Li, Kai J. Kohlhoff, Deepak Ramachandran, Vidhya Navalpakkam

          論文介紹:許多生成的圖像仍然存在諸如不真實性、與文本描述不一致以及審美質量低等問題。本文通過選擇高質量的訓練數(shù)據(jù)進行微調來改進生成模型,或者通過創(chuàng)建帶有預測熱圖的掩模來修復問題區(qū)域。值得注意的是,這些改進可以推廣到用于收集人類反饋數(shù)據(jù)的圖像之外的模型(Muse)。

          最佳學生論文

          今年的最佳學生論文同樣有 2 篇工作獲選。

          第一篇頒發(fā)給了來自德國圖賓根大學、圖賓根 AI 中心、上??萍即髮W及布拉格捷克技術大學共同發(fā)表的《Mip-Splatting: Alias-free 3D Gaussian Splatting》。值得注意的是,該篇論文的三位華人作者都是上海科技大學在讀或畢業(yè)的碩士、博士生。

          論文鏈接:
          https://arxiv.org/pdf/2311.16493
          代碼地址:
          https://github.com/autonomousvision/mip-splatting

          作者:Zehao Yu , Anpei Chen, Binbin Huang , Torsten Sattler , Andreas Geiger

          論文介紹:3D高斯點染技術在新視角合成方面取得了高保真度和效率的成果,但在改變采樣率時會出現(xiàn)偽影。問題根源在于缺少3D頻率約束和2D膨脹濾波器的使用。為解決此問題,本文引入了基于最大采樣頻率的 3D 平滑濾波器,限制了高斯基元的大小,消除了放大時的高頻偽影。同時,用 2D Mip 濾波器替代 2D 膨脹,模擬 2D 盒濾波器,減輕了混疊和膨脹問題。評估結果顯示,在單尺度訓練和多尺度測試下,該方法有效。

          第二篇最佳學生論文頒發(fā)給了來自美國俄亥俄州立大學、微軟研究院、加州大學歐文分校、倫斯勒理工學院共同發(fā)布的《BioCLlP: A Vision Foundation Model for the Tree of Life》。

          論文鏈接:
          https://arxiv.org/abs/2311.18803
          代碼地址:

          https://imageomics.github.io/bioclip/


          作者:Samuel Stevens, Jiaman (Lisa) Wu, Matthew J Thompson, Elizabeth G Campolongo, Chan Hee (Luke) Song, David Edward Carlyn, Li Dong, Wasila M Dahdul, Charles Stewart, Tanya Berger-Wolf, Wei-Lun (Harry) Chao, Yu Su

          論文介紹:自然界圖像的豐富性為生物信息學提供了寶貴數(shù)據(jù)源。盡管針對特定任務的計算方法和工具不斷涌現(xiàn),但它們通常不易適應新問題或擴展到不同背景和數(shù)據(jù)集。為應對這一挑戰(zhàn),本文創(chuàng)建了 TreeOfLife-10M 數(shù)據(jù)集,這是迄今為止最大和最多樣化的生物圖像數(shù)據(jù)集。BioCLIP 模型基于生命樹構建,利用 TreeOfLife-10M 的多樣化生物圖像和結構化知識,展現(xiàn)出在細粒度生物分類任務中的卓越性能,顯著超越現(xiàn)有基線方法,其內在評估揭示了 BioCLIP 的強泛化能力。

          其他獎項

          本屆黃煦濤紀念獎由 Andrea Vedaldi 獲得。


          Andrea Vedaldi 是牛津大學計算機視覺和機器學習教授,也是 VGG(視覺幾何)組的成員。他的研究重點在于開發(fā)計算機視覺和機器學習方法,以自動理解圖像和視頻內容。此外,他還在 2012 年至 2023 年期間擔任 Facebook AI Research(FAIR)的研究科學家,并在2023年成為 Meta AI 的研究科學家。

          圖像視頻生成占領C位


          從近期喬治亞理工學院計算機學院(College of Computing, Georgia Institute of Technology)對 CVPR 2024 錄用數(shù)據(jù)的統(tǒng)計分析來看,論文主要涵蓋36個主題領域,排名前十的主題分別是:圖像和視頻合成與生成,三維視覺,人體行為識別,視覺、語言與語言推理,底層視覺,識別(分類、檢測、檢索),遷移學習與多模態(tài)學習。其中,除了自動駕駛與三維視覺這兩位熱點??屯猓衲昱旁谑孜坏年P鍵詞是圖像和視頻合成與生成(Image and video synthesis and generation),總計有 329 篇論文,成為了今年 CVPR 最火的研究主題。


          熱門主題從去年的擴散模型(Diffusion models)轉變?yōu)榻衲甑膱D像和視頻合成與生成,也同 Sora 在春節(jié)打響的開門炮遙相呼應。

          在被 CVPR 接收的圖像和視頻合成與生成相關論文中,有不少過去幾個月令人驚艷的新科研成果或產(chǎn)品,比如谷歌 DeepMind 和研究院發(fā)布的 Instruct-Imagen。
          Instruct-Imagen 是一個能夠處理異構圖像生成任務并在未見過的任務上泛化的模型。有趣的是,谷歌團隊引入了多模態(tài)指令生成圖像的任務表示,以精確地表達一系列生成意圖,并使用自然語言將不同的模態(tài)(例如文本、邊緣、風格、主題等)融合起來,使得豐富的生成意圖可以在統(tǒng)一的格式中標準化。


          華東理工大學提出的 DisenDiff 注意校準機制也被選為 Oral 文章,他們的工作旨在解決現(xiàn)有的文本到圖像(T2I)模型在個性化定制時無法保持視覺一致性和概念交叉影響的問題。

          該方法通過引入與類別綁定的學習型修飾符來捕捉多個概念的屬性,并在交叉注意力操作激活后分離和加強類別,以確保概念的全面性和獨立性。此外,通過抑制不同類別的注意力激活來減少概念間的相互影響。

          實驗結果表明,DisenDiff 在定性和定量評估中均優(yōu)于現(xiàn)有技術,并能與 LoRA 和修復管道兼容,提供更豐富的交互體驗。


          擴散模型在當下可以說主導了圖像生成這個領域,也對于大數(shù)據(jù)集展現(xiàn)出了強大的縮放性,由 NVIDIA 和 Aalto University 的研究人員撰寫的《Analyzing and Improving the Training Dynamics of Diffusion Models》,關注點在于改進擴散模型的訓練動態(tài)。

          該篇研究者在不改變 high-level 架構的前提下,識別和糾正了流行的 ADM 擴散模型中的幾個訓練方面不均勻的原因。把 ImageNet 512×512 圖像生成任務的 FID 由原來的 2.41 降低到了 1.81,這是一個衡量生成圖像質量的重要指標,將生成質量和模型復雜度變得可視化。


          研究者還提出了一種在訓練完成后設置EMA參數(shù)的方法,允許在不增加多次訓練成本的情況下精確調整EMA長度,并揭示了其與網(wǎng)絡架構、訓練時間和引導的驚人交互作用。

          這些突破性的研究,預示著人工智能在圖像生成領域,正在以前所未有的速度重塑藝術創(chuàng)作和視覺上內容生產(chǎn)的邊界。

          值得一提的是,今年恰好是生成對抗網(wǎng)絡(GANs)誕生的十周年。2014年,Ian Goodfellow 等人提出了深度學習領域的此項里程碑技術,不僅開辟了生成式模型的新領域,而且對無監(jiān)督學習產(chǎn)生了深遠影響。

          視覺基礎模型點燃現(xiàn)場


          基于 Transformer,以及受到語言大模型的啟發(fā),計算機視覺領域在 2023 年以來對視覺基礎模型(VFM)的研究熱情高漲。


          視覺基礎模型 (VFM),一般在特定的領域,像圖像分類、目標檢測和圖像生成等眾多下游任務中表現(xiàn)突出。例如,多模態(tài) CLIP 模型擅長零樣本視覺語言理解,自監(jiān)督學習模型DINOv2 擅長語義分割,自監(jiān)督學習方法SAM 擅長開放詞匯實例分割。

          CVPR 2024 共有 123 個 workshop 與 24 場 tutorial,在這個年度盛會的現(xiàn)場,AI 科技評論觀察到:盡管視覺基礎模型的相關工作在被接收論文數(shù)量中的占比不大,但超過 10 場研討會以視覺基礎模型為主題,開展了學習和應用視覺基礎模型最前沿方法的討論。

          比如 6 月 17 日舉行的第二屆基礎模型研討會上,與會者分享了視覺基礎模型和大語言模型的理論洞察、高效架構設計、以及卷積和圖混合網(wǎng)絡設計的研究,并探討了在圖像和視頻生成、不同監(jiān)督學習設置、多模態(tài)模型等,還討論了如何將基礎模型的前沿研究成果應用于醫(yī)療、地球科學、遙感、生物、農(nóng)業(yè)和氣候科學等多個領域,以彌合研究與實際應用之間的差距。


          在「視覺基礎模型最新進展」的分享會中,嘉賓們討論了用于多模態(tài)理解和生成的視覺基礎模型,基準測試和評估視覺基礎模型,以及基于視覺基礎模型的智能體和其他高級系統(tǒng)。

          分享嘉賓:Tiktok-Chunyuan Li


          自 2020 年引入視覺 Transformers(ViT)以來,計算機視覺界見證了基于 Transformer 的計算機視覺模型的爆炸性增長,其應用范圍從圖像分類到密集預測(如目標檢測、分割)、視頻、自監(jiān)督學習、3D和多模態(tài)學習。

          因此,CVPR 2024 中的第三屆視覺 Transformer 研討會將會議重點放在了為視覺任務設計 Transformer 模型的機遇和其開放性挑戰(zhàn)之中。

          機器遺忘(Machine Unlearning,也稱遺忘學習)對基礎模型的重要性同樣不言而喻,專注于從預訓練模型中剔除那些不再需要的數(shù)據(jù),如個人隱私信息或違反法規(guī)的數(shù)據(jù),并確保模型繼續(xù)發(fā)揮其應有的功能而不受影響,因此 CVPR 2024 中也有研討會集中討論視覺基礎模型中機器遺忘的運用。

          而 3D 基礎模型的發(fā)展正成為自然語言處理和 2D 視覺之后的又一場技術革命,預示著在 3D 內容創(chuàng)作、AR/VR、機器人技術和自動駕駛等領域的廣泛應用前景。CVPR 2024 的研討會還邀請了 3D 視覺領域的專家,共同探討 3D 基礎模型的構建,包括數(shù)據(jù)集的選擇、模型應針對的3D任務、架構共識以及潛在應用。

          此外,基礎模型還被視為構建更通用自主系統(tǒng)的新路徑,因其能夠從大量數(shù)據(jù)中學習并泛化到新任務。CVPR 2024 中有研討會關注自主系統(tǒng),探究基礎模型對自主代理的潛力,與會者們認為未來在于可解釋的、端到端的模型,這些模型能夠理解世界并泛化到未訪問的環(huán)境中。

          CVPR 2024 的現(xiàn)場中還有研討會探討了對抗性機器學習的最新進展和挑戰(zhàn),重點關注基礎模型的魯棒性,該 workshop 還組織了一場針對基礎模型的對抗性攻擊挑戰(zhàn)。

          有的研討會則聚焦于醫(yī)學成像領域基礎模型的集成和應用,討論涵蓋了各種醫(yī)學數(shù)據(jù)的最新技術,如超聲心動圖、眼底、病理學和放射學,以及在臨床環(huán)境中使用基礎模型的實際挑戰(zhàn)。

          寫在最后


          兩天前,Runway 時隔一年推出 Gen-3 Alpha,宣布視頻生成賽道王者歸來。在 CVPR 2024 的現(xiàn)場,AI 科技評論也聽到了關于 GPT-5 或于 3 個月后發(fā)布的消息,業(yè)內對其推理能力與多模態(tài)能力更是報以期待。


          那么,計算機視覺還有哪些熱點會是未來趨勢?圖像、視頻生成與視覺基礎模型的下一步發(fā)展在哪里?3D 視覺、自動駕駛等往屆「花旦」又有何新動態(tài)?機器人與具身智能有無新亮點?

          讓我們一起期待,CVPR 2024 的精彩仍在繼續(xù)。


          租售GPU算力
          租:4090/A800/H800/H100
          售:現(xiàn)貨H100/H800

          特別適合企業(yè)級應用
          掃碼了解詳情?


          點「在看」的人都變好看了哦!
          瀏覽 87
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  中文无码一区二区三区四区五区六区七区 | 大香蕉大香蕉视频网, | 青青草男人的天堂 | 97大香蕉网 | 婷婷在线观看免费播放 |