欧美巨大手机在线,精品欧美无人区乱码毛片,色老板成人在线,国产女人18毛片水真多成人如厕,天天橾,成人国产在线,日p视频在线观看,国产www在线观看

新智元報(bào)道

編輯：好困喬楊

【新智元導(dǎo)讀】一年一度CVPR最佳論文放榜了！剛剛結(jié)束開幕演講上，公布了2篇最佳論文、2篇最佳學(xué)生論文、榮譽(yù)提名等獎(jiǎng)項(xiàng)。值得一提的是，今年北大上交摘得最佳論文提名桂冠，上科大奪得最佳學(xué)生論文。

2024年CVPR會(huì)議將在美國(guó)西雅圖拉開帷幕，根據(jù)官方的公告，本屆會(huì)議已經(jīng)成為CVPR歷史上規(guī)模最大、參與人數(shù)最多的一屆，截止6月19日，現(xiàn)場(chǎng)參會(huì)人數(shù)已超過1.2萬人。

此外，近年來的論文接收數(shù)量也水漲船高，共有11532篇提交論文，錄用率為23.58%，比去年的9155篇論文多出了2000多篇。

由于開年Sora模型帶起的視頻生成的熱潮，今年CVPR接收論文數(shù)量最多的領(lǐng)域就是「圖像視頻的合成與生成」，緊隨其后的兩個(gè)領(lǐng)域分別是「多視角和傳感器的3D」以及「人體：面部、軀體、姿勢(shì)、手勢(shì)和移動(dòng)」。

從會(huì)議現(xiàn)場(chǎng)的照片中，也能肉眼感受到CVPR的熱烈程度。

揭秘Sora訓(xùn)練技巧

Sora研究團(tuán)隊(duì)的負(fù)責(zé)人Tim Brooks也在研討會(huì)上發(fā)表了演講，揭秘了Sora模型的一些訓(xùn)練技巧以及視頻生成模型未來的新功能。

演講中，Brooks表示自己看好Transformer架構(gòu)的可擴(kuò)展性，如果算力足夠，我們有望借此實(shí)現(xiàn)世界模擬器。

此外他也分享了一些訓(xùn)練模型的心得，比如不要為了某個(gè)特定任務(wù)去調(diào)整模型架構(gòu)，而是先考慮讓數(shù)據(jù)適應(yīng)任務(wù)。

比如，Sora在訓(xùn)練時(shí)的技巧就多與數(shù)據(jù)有關(guān)，包括使用不同比例的圖像和視頻，以及搭配字幕訓(xùn)練。

有推特網(wǎng)友表示，Brooks的演講堪比追星現(xiàn)場(chǎng)，都差點(diǎn)擠不進(jìn)去。

當(dāng)然，最重磅的還是CVPR在今天凌晨的大會(huì)開幕演講上。正式官宣了2024年最佳論文、最佳學(xué)生論文等大獎(jiǎng)的得主。

該獎(jiǎng)項(xiàng)每年都會(huì)表彰在計(jì)算機(jī)視覺、人工智能（AI）、機(jī)器學(xué)習(xí)（ML）、增強(qiáng)現(xiàn)實(shí)、虛擬現(xiàn)實(shí)和混合現(xiàn)實(shí)（AR/VR/MR）、深度學(xué)習(xí)等領(lǐng)域的頂尖研究。

今年，CVPR從超過11,500篇論文提交中，選出了以下10篇最佳論文——是2023年的兩倍之多。

最佳論文

題目：Generative Image Dynamics

作者：Zhengqi Li, Richard Tucker, Noah Snavely, Aleksander Holynsk

機(jī)構(gòu)：谷歌研究院

論文地址：https://openaccess.thecvf.com/content/CVPR2024/papers/Li_Generative_Image_Dynamics_CVPR_2024_paper.pdf

在這項(xiàng)工作中，作者提出了一種從單張靜態(tài)圖片中建模自然振蕩動(dòng)態(tài)效果的新方法。該方法能夠從單張圖片生成照片般真實(shí)的動(dòng)畫，并顯著優(yōu)于現(xiàn)有的基準(zhǔn)方法。此外，他們還展示了在多個(gè)后續(xù)應(yīng)用中的潛力，例如創(chuàng)建無縫循環(huán)或交互式圖像動(dòng)態(tài)效果。

題目：Rich Human Feedback for Text-to-Image Generation

作者：Youwei Liang, Junfeng He, Gang Li, Peizhao Li, Arseniy Klimovskiy, Nicholas Carolan, Jiao Sun, Jordi Pont-Tuset, Sarah Young, Feng Yang, Junjie Ke, Krishnamurthy Dj Dvijotham, Katherine M. Collins, Yiwen Luo, Yang Li, Kai J. Kohlhoff, Deepak Ramachandran, Vidhya Navalpakkam

機(jī)構(gòu)：，加利福尼亞大學(xué)圣地亞哥分校，谷歌研究院，南加利福尼亞大學(xué)，劍橋大學(xué)，布蘭迪斯大學(xué)

論文地址：https://openaccess.thecvf.com/content/CVPR2024/papers/Liang_Rich_Human_Feedback_for_Text-to-Image_Generation_CVPR_2024_paper.pdf

在這項(xiàng)工作中，作者提出了第一個(gè)詳盡的用于圖像生成的人類反饋數(shù)據(jù)集。具體來說，他們?cè)O(shè)計(jì)并訓(xùn)練了一個(gè)多模態(tài)Transformer來預(yù)測(cè)這些詳盡的人類反饋，并展示了一些改進(jìn)圖像生成的實(shí)例。

這篇論文的共同一作分別是華南農(nóng)業(yè)大學(xué)校友Youwei Liang、清華校友Junfeng He、武大及港中文校友Gang Li。

榮譽(yù)提名

題目：EventPS: Real-Time Photometric Stereo Using an Event Camera

作者：Bohan Yu, Jieji Ren, Jin Han, Feishi Wang, Jinxiu Liang, Boxin Shi

機(jī)構(gòu)：北京大學(xué)，上海交通大學(xué)，東京大學(xué)，國(guó)立情報(bào)學(xué)研究所

論文地址：https://openaccess.thecvf.com/content/CVPR2024/papers/Yu_EventPS_Real-Time_Photometric_Stereo_Using_an_Event_Camera_CVPR_2024_paper.pdf

題目：pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction

作者：David Charatan, Sizhe Lester Li, Andrea Tagliasacchi, Vincent Sitzmann

機(jī)構(gòu)：麻省理工學(xué)院，西門菲莎大學(xué)，多倫多大學(xué)

論文地址：https://openaccess.thecvf.com/content/CVPR2024/papers/Charatan_pixelSplat_3D_Gaussian_Splats_from_Image_Pairs_for_Scalable_Generalizable_CVPR_2024_paper.pdf

最佳學(xué)生論文

題目：Mip-Splatting: Alias-free 3D Gaussian Splatting

作者：Zehao Yu, Anpei Chen, Binbin Huang, Torsten Sattler, Andreas Geiger

機(jī)構(gòu)：圖賓根大學(xué)，圖賓根AI中心，上?？萍即髮W(xué)，捷克理工大學(xué)

論文地址：https://openaccess.thecvf.com/content/CVPR2024/papers/Yu_Mip-Splatting_Alias-free_3D_Gaussian_Splatting_CVPR_2024_paper.pdf

在這項(xiàng)工作中，作者提出了一種通過3D平滑濾波器和2D Mip濾波器改進(jìn)3D高斯?jié)姙R（3DGS）的全新方法Mip-Splatting，用于在任何尺度上進(jìn)行無鋸齒渲染。該方法在分布外測(cè)試場(chǎng)景中顯著優(yōu)于當(dāng)前最先進(jìn)的方法，當(dāng)測(cè)試采樣率與訓(xùn)練采樣率不同的時(shí)候，能夠更好地適應(yīng)分布外的相機(jī)姿態(tài)和縮放因子。

值得一提的是，論文的三位一作Zehao Yu、Anpei Chen（陳安沛）、Binbin Huang，都是上?？萍即髮W(xué)在讀或畢業(yè)生。

題目：BioCLIP: A Vision Foundation Model for the Tree of Life

作者：Samuel Stevens, Jiaman Wu, Matthew J. Thompson, Elizabeth G. Campolongo, Chan Hee Song, David Edward Carlyn, Li Dong, Wasila M. Dahdul, Charles Stewart, Tanya Berger-Wolf, Wei-Lun Chao, and Yu Su

機(jī)構(gòu)：俄亥俄州立大學(xué)，微軟研究院，加利福尼亞大學(xué)爾灣分校，倫斯勒理工學(xué)院

論文地址：https://openaccess.thecvf.com/content/CVPR2024/papers/Stevens_BioCLIP_A_Vision_Foundation_Model_for_the_Tree_of_Life_CVPR_2024_paper.pdf

在這項(xiàng)工作中，作者提出了TREEOFLIFE-10M和BIOCLIP，分別是一個(gè)大規(guī)模多樣化的生物圖像數(shù)據(jù)集和一個(gè)用于生命之樹的基礎(chǔ)模型。研究表明，BIOCLIP是一個(gè)強(qiáng)大的細(xì)粒度生物分類器，在零樣本和少樣本設(shè)置中有著出色的表現(xiàn)。

榮譽(yù)提名

題目：SpiderMatch: 3D Shape Matching with Global Optimality and Geometric Consistency

作者：Paul Roetzer, Florian Bernard

機(jī)構(gòu)：波恩大學(xué)

論文地址：https://openaccess.thecvf.com/content/CVPR2024/papers/Roetzer_SpiderMatch_3D_Shape_Matching_with_Global_Optimality_and_Geometric_Consistency_CVPR_2024_paper.pdf

題目：Image Processing GNN: Breaking Rigidity in Super-Resolution

作者：Yuchuan Tian, Hanting Chen, Chao Xu, Yunhe Wang

機(jī)構(gòu)：北京大學(xué)，華為諾亞方舟實(shí)驗(yàn)室

論文地址：https://openaccess.thecvf.com/content/CVPR2024/papers/Tian_Image_Processing_GNN_Breaking_Rigidity_in_Super-Resolution_CVPR_2024_paper.pdf

題目：Objects as Volumes: A Stochastic Geometry View of Opaque Solids

作者：Bailey Miller, Hanyu Chen, Alice Lai, Ioannis Gkioulekas

機(jī)構(gòu)：卡內(nèi)基梅隆大學(xué)

論文地址：https://openaccess.thecvf.com/content/CVPR2024/papers/Miller_Objects_as_Volumes_A_Stochastic_Geometry_View_of_Opaque_Solids_CVPR_2024_paper.pdf

題目：Comparing the Decision-Making Mechanisms by Transformers and CNNs via Explanation Methods

作者：Mingqi Jiang, Saeed Khorram, Li Fuxin

機(jī)構(gòu)：俄勒岡州立大學(xué)

論文地址：https://openaccess.thecvf.com/content/CVPR2024/papers/Jiang_Comparing_the_Decision-Making_Mechanisms_by_Transformers_and_CNNs_via_Explanation_CVPR_2024_paper.pdf

此外，CVPR的主辦方電氣和電子工程師學(xué)會(huì)計(jì)算機(jī)協(xié)會(huì)（IEEE Computer Society, CS），也正式宣布了模式分析和機(jī)器智能技術(shù)社區(qū)（TCPAMI）的獎(jiǎng)項(xiàng)。

Longuet-Higgins獎(jiǎng)

該獎(jiǎng)項(xiàng)授予那些經(jīng)得起時(shí)間檢驗(yàn)的論文，2024年的Longuet-Higgins獎(jiǎng)表彰了2014年在CVPR上發(fā)表的最具影響力的論文。

2024年獲獎(jiǎng)?wù)撸篟ich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation（2014）

作者：Ross Girshick, Jeff Donahue, Trevor Darrell, Jitendra Malik

機(jī)構(gòu)：加利福尼亞大學(xué)伯克利分校，ICSI

論文地址：https://www.cv-foundation.org/openaccess/content_cvpr_2014/papers/Girshick_Rich_Feature_Hierarchies_2014_CVPR_paper.pdf

在這項(xiàng)工作中，作者通過（1）標(biāo)記圖像中不合理或與文本不匹配的區(qū)域，以及（2）注釋文本提示中被誤表示或缺失的詞語，來豐富反饋信號(hào)。

具體來說，他們?cè)?.8萬張生成圖像（RichHF-18K）上收集了豐富的人類反饋，并訓(xùn)練了一個(gè)多模態(tài)Transformer來自動(dòng)預(yù)測(cè)這些反饋。

實(shí)驗(yàn)結(jié)果展示了預(yù)測(cè)的豐富人類反饋可以用于改進(jìn)圖像生成，例如，通過選擇高質(zhì)量的訓(xùn)練數(shù)據(jù)來微調(diào)生成模型，或者通過創(chuàng)建帶有預(yù)測(cè)熱圖的掩碼來修補(bǔ)問題區(qū)域。

值得注意的是，這些改進(jìn)不僅適用于生成反饋數(shù)據(jù)的模型（如Stable Diffusion變體），還可以推廣到其他模型上（如Muse）。

年輕研究員獎(jiǎng)

該獎(jiǎng)項(xiàng)表彰在獲得博士學(xué)位七年內(nèi)對(duì)計(jì)算機(jī)視覺領(lǐng)域作出杰出研究貢獻(xiàn)的一到兩名研究人員。

2024年獲獎(jiǎng)?wù)撸篈ngjoo Kanazawa, Carl Vondrick

Angjoo Kanazawa是加利福尼亞大學(xué)伯克利分校電氣工程與計(jì)算機(jī)科學(xué)系的助理教授，領(lǐng)導(dǎo)BAIR下的Kanazawa AI Research（KAIR）實(shí)驗(yàn)室，并在Wonder Dynamics的顧問委員會(huì)任職。

此前，她在馬里蘭大學(xué)帕克分校完成了計(jì)算機(jī)科學(xué)博士學(xué)位，導(dǎo)師是David Jacobs。之后，來到UC伯克利的BAIR做博士后研究，導(dǎo)師是Jitendra Malik、Alexei A. Efros和Trevor Darrell。此外，還曾在Google Research擔(dān)任研究科學(xué)家。

眾所周知，我們生活在一個(gè)動(dòng)態(tài)的3D世界中，人和動(dòng)物不斷與環(huán)境互動(dòng)。那么，我們?cè)撊绾螛?gòu)建一個(gè)系統(tǒng)，從日常的照片和視頻中捕捉、感知并理解這個(gè)4D世界？又該如何從圖像和視頻的觀測(cè)中學(xué)習(xí)4D世界的先驗(yàn)知識(shí)呢？

Angjoo Kanazawa的研究方向涵蓋了計(jì)算機(jī)視覺、計(jì)算機(jī)圖形學(xué)和機(jī)器學(xué)習(xí)，并致力于回答上面這些問題。

Carl Vondrick是哥倫比亞大學(xué)計(jì)算機(jī)科學(xué)系的教授，研究方向主要集中在計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)及其應(yīng)用。

此前，他于2011年在加利福尼亞大學(xué)爾灣分校獲得學(xué)士學(xué)位，導(dǎo)師是Deva Ramanan。之后，于2017年在MIT獲得博士學(xué)位，導(dǎo)師是Antonio Torralba。此外，還曾在谷歌的機(jī)器感知團(tuán)隊(duì)擔(dān)任研究科學(xué)家，并在Cruise擔(dān)任訪問研究員。

具體來說，他的研究通過訓(xùn)練機(jī)器觀察和與環(huán)境互動(dòng)，旨在創(chuàng)建穩(wěn)健且多功能的感知模型。實(shí)驗(yàn)室經(jīng)常研究如何利用大量未標(biāo)記數(shù)據(jù)進(jìn)行任務(wù)和模態(tài)遷移。其他研究方向包括場(chǎng)景動(dòng)態(tài)、聲音和語言、可解釋模型以及機(jī)器人感知等。

Thomas Huang紀(jì)念獎(jiǎng)

該獎(jiǎng)項(xiàng)于2020年設(shè)立，以紀(jì)念Thomas S. Huang，他是其時(shí)代計(jì)算機(jī)視覺、模式識(shí)別和人機(jī)交互領(lǐng)域的杰出人物。該獎(jiǎng)項(xiàng)旨在表彰和致敬在計(jì)算機(jī)視覺社區(qū)中長(zhǎng)期服務(wù)、研究和指導(dǎo)的杰出個(gè)人。

2024年獲獎(jiǎng)?wù)撸篈ndrea Vedaldi