1.2萬人朝圣CVPR,華人學(xué)者奪最佳論文!Sora舵手火爆演講成大型追星現(xiàn)場(chǎng)
共 7689字,需瀏覽 16分鐘
·
2024-06-20 10:28
新智元報(bào)道
新智元報(bào)道
【新智元導(dǎo)讀】一年一度CVPR最佳論文放榜了!剛剛結(jié)束開幕演講上,公布了2篇最佳論文、2篇最佳學(xué)生論文、榮譽(yù)提名等獎(jiǎng)項(xiàng)。值得一提的是,今年北大上交摘得最佳論文提名桂冠,上科大奪得最佳學(xué)生論文。
2024年CVPR會(huì)議將在美國(guó)西雅圖拉開帷幕,根據(jù)官方的公告,本屆會(huì)議已經(jīng)成為CVPR歷史上規(guī)模最大、參與人數(shù)最多的一屆,截止6月19日,現(xiàn)場(chǎng)參會(huì)人數(shù)已超過1.2萬人。
此外,近年來的論文接收數(shù)量也水漲船高,共有11532篇提交論文,錄用率為23.58%,比去年的9155篇論文多出了2000多篇。
由于開年Sora模型帶起的視頻生成的熱潮,今年CVPR接收論文數(shù)量最多的領(lǐng)域就是「圖像視頻的合成與生成」,緊隨其后的兩個(gè)領(lǐng)域分別是「多視角和傳感器的3D」以及「人體:面部、軀體、姿勢(shì)、手勢(shì)和移動(dòng)」。
從會(huì)議現(xiàn)場(chǎng)的照片中,也能肉眼感受到CVPR的熱烈程度。
揭秘Sora訓(xùn)練技巧
Sora研究團(tuán)隊(duì)的負(fù)責(zé)人Tim Brooks也在研討會(huì)上發(fā)表了演講,揭秘了Sora模型的一些訓(xùn)練技巧以及視頻生成模型未來的新功能。
演講中,Brooks表示自己看好Transformer架構(gòu)的可擴(kuò)展性,如果算力足夠,我們有望借此實(shí)現(xiàn)世界模擬器。
此外他也分享了一些訓(xùn)練模型的心得,比如不要為了某個(gè)特定任務(wù)去調(diào)整模型架構(gòu),而是先考慮讓數(shù)據(jù)適應(yīng)任務(wù)。
比如,Sora在訓(xùn)練時(shí)的技巧就多與數(shù)據(jù)有關(guān),包括使用不同比例的圖像和視頻,以及搭配字幕訓(xùn)練。
有推特網(wǎng)友表示,Brooks的演講堪比追星現(xiàn)場(chǎng),都差點(diǎn)擠不進(jìn)去。
當(dāng)然,最重磅的還是CVPR在今天凌晨的大會(huì)開幕演講上。正式官宣了2024年最佳論文、最佳學(xué)生論文等大獎(jiǎng)的得主。
該獎(jiǎng)項(xiàng)每年都會(huì)表彰在計(jì)算機(jī)視覺、人工智能(AI)、機(jī)器學(xué)習(xí)(ML)、增強(qiáng)現(xiàn)實(shí)、虛擬現(xiàn)實(shí)和混合現(xiàn)實(shí)(AR/VR/MR)、深度學(xué)習(xí)等領(lǐng)域的頂尖研究。
今年,CVPR從超過11,500篇論文提交中,選出了以下10篇最佳論文——是2023年的兩倍之多。
最佳論文
機(jī)構(gòu):谷歌研究院
論文地址:https://openaccess.thecvf.com/content/CVPR2024/papers/Li_Generative_Image_Dynamics_CVPR_2024_paper.pdf
在這項(xiàng)工作中,作者提出了一種從單張靜態(tài)圖片中建模自然振蕩動(dòng)態(tài)效果的新方法。該方法能夠從單張圖片生成照片般真實(shí)的動(dòng)畫,并顯著優(yōu)于現(xiàn)有的基準(zhǔn)方法。此外,他們還展示了在多個(gè)后續(xù)應(yīng)用中的潛力,例如創(chuàng)建無縫循環(huán)或交互式圖像動(dòng)態(tài)效果。
論文地址:https://openaccess.thecvf.com/content/CVPR2024/papers/Liang_Rich_Human_Feedback_for_Text-to-Image_Generation_CVPR_2024_paper.pdf
在這項(xiàng)工作中,作者提出了第一個(gè)詳盡的用于圖像生成的人類反饋數(shù)據(jù)集。具體來說,他們?cè)O(shè)計(jì)并訓(xùn)練了一個(gè)多模態(tài)Transformer來預(yù)測(cè)這些詳盡的人類反饋,并展示了一些改進(jìn)圖像生成的實(shí)例。
這篇論文的共同一作分別是華南農(nóng)業(yè)大學(xué)校友Youwei Liang、清華校友Junfeng He、武大及港中文校友Gang Li。
榮譽(yù)提名
題目:EventPS: Real-Time Photometric Stereo Using an Event Camera
機(jī)構(gòu):北京大學(xué),上海交通大學(xué),東京大學(xué),國(guó)立情報(bào)學(xué)研究所
論文地址:https://openaccess.thecvf.com/content/CVPR2024/papers/Yu_EventPS_Real-Time_Photometric_Stereo_Using_an_Event_Camera_CVPR_2024_paper.pdf
題目:pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction
機(jī)構(gòu):麻省理工學(xué)院,西門菲莎大學(xué),多倫多大學(xué)
論文地址:https://openaccess.thecvf.com/content/CVPR2024/papers/Charatan_pixelSplat_3D_Gaussian_Splats_from_Image_Pairs_for_Scalable_Generalizable_CVPR_2024_paper.pdf
最佳學(xué)生論文
題目:Mip-Splatting: Alias-free 3D Gaussian Splatting
機(jī)構(gòu):圖賓根大學(xué),圖賓根AI中心,上??萍即髮W(xué),捷克理工大學(xué)
論文地址:https://openaccess.thecvf.com/content/CVPR2024/papers/Yu_Mip-Splatting_Alias-free_3D_Gaussian_Splatting_CVPR_2024_paper.pdf
在這項(xiàng)工作中,作者提出了一種通過3D平滑濾波器和2D Mip濾波器改進(jìn)3D高斯?jié)姙R(3DGS)的全新方法Mip-Splatting,用于在任何尺度上進(jìn)行無鋸齒渲染。該方法在分布外測(cè)試場(chǎng)景中顯著優(yōu)于當(dāng)前最先進(jìn)的方法,當(dāng)測(cè)試采樣率與訓(xùn)練采樣率不同的時(shí)候,能夠更好地適應(yīng)分布外的相機(jī)姿態(tài)和縮放因子。
值得一提的是,論文的三位一作Zehao Yu、Anpei Chen(陳安沛)、Binbin Huang,都是上??萍即髮W(xué)在讀或畢業(yè)生。
題目:BioCLIP: A Vision Foundation Model for the Tree of Life
機(jī)構(gòu):俄亥俄州立大學(xué),微軟研究院,加利福尼亞大學(xué)爾灣分校,倫斯勒理工學(xué)院
論文地址:https://openaccess.thecvf.com/content/CVPR2024/papers/Stevens_BioCLIP_A_Vision_Foundation_Model_for_the_Tree_of_Life_CVPR_2024_paper.pdf
在這項(xiàng)工作中,作者提出了TREEOFLIFE-10M和BIOCLIP,分別是一個(gè)大規(guī)模多樣化的生物圖像數(shù)據(jù)集和一個(gè)用于生命之樹的基礎(chǔ)模型。研究表明,BIOCLIP是一個(gè)強(qiáng)大的細(xì)粒度生物分類器,在零樣本和少樣本設(shè)置中有著出色的表現(xiàn)。
榮譽(yù)提名
題目:SpiderMatch: 3D Shape Matching with Global Optimality and Geometric Consistency
機(jī)構(gòu):波恩大學(xué)
論文地址:https://openaccess.thecvf.com/content/CVPR2024/papers/Roetzer_SpiderMatch_3D_Shape_Matching_with_Global_Optimality_and_Geometric_Consistency_CVPR_2024_paper.pdf
題目:Image Processing GNN: Breaking Rigidity in Super-Resolution
機(jī)構(gòu):北京大學(xué),華為諾亞方舟實(shí)驗(yàn)室
論文地址:https://openaccess.thecvf.com/content/CVPR2024/papers/Tian_Image_Processing_GNN_Breaking_Rigidity_in_Super-Resolution_CVPR_2024_paper.pdf
題目:Objects as Volumes: A Stochastic Geometry View of Opaque Solids
機(jī)構(gòu):卡內(nèi)基梅隆大學(xué)
論文地址:https://openaccess.thecvf.com/content/CVPR2024/papers/Miller_Objects_as_Volumes_A_Stochastic_Geometry_View_of_Opaque_Solids_CVPR_2024_paper.pdf
機(jī)構(gòu):俄勒岡州立大學(xué)
論文地址:https://openaccess.thecvf.com/content/CVPR2024/papers/Jiang_Comparing_the_Decision-Making_Mechanisms_by_Transformers_and_CNNs_via_Explanation_CVPR_2024_paper.pdf
此外,CVPR的主辦方電氣和電子工程師學(xué)會(huì)計(jì)算機(jī)協(xié)會(huì)(IEEE Computer Society, CS),也正式宣布了模式分析和機(jī)器智能技術(shù)社區(qū)(TCPAMI)的獎(jiǎng)項(xiàng)。
Longuet-Higgins獎(jiǎng)
2024年獲獎(jiǎng)?wù)撸篟ich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation(2014)
作者:Ross Girshick, Jeff Donahue, Trevor Darrell, Jitendra Malik
論文地址:https://www.cv-foundation.org/openaccess/content_cvpr_2014/papers/Girshick_Rich_Feature_Hierarchies_2014_CVPR_paper.pdf
年輕研究員獎(jiǎng)
Thomas Huang紀(jì)念獎(jiǎng)
