ICLR 2021最佳論文放榜!清華宋飏等3位一作華人學(xué)生獲最佳論文獎(jiǎng)!

新智元報(bào)道
新智元報(bào)道
來(lái)源:iclr
編輯:LRS、yaxin
【新智元導(dǎo)讀】ICLR2021 今天在官網(wǎng)公布了最佳論文獎(jiǎng)!一作華人學(xué)生3篇論文獲得了最佳論文獎(jiǎng),2篇來(lái)自Deepmind,還有谷歌、斯坦福大學(xué)等機(jī)構(gòu)的研究人員都取得了佳績(jī)。
剛剛,ICLR2021 公布了最佳論文獎(jiǎng)!

今年,共有8篇最佳論文勝出,其中3篇是華人學(xué)生一作,2篇是來(lái)自Deepmind,還有谷歌、斯坦福大學(xué)等機(jī)構(gòu)的研究人員都取得了佳績(jī)。
ICLR 是深度學(xué)習(xí)領(lǐng)域的頂級(jí)會(huì)議,今年的 ICLR 2021大會(huì)從5月4日到5月8日在奧地利維也納舉行。
本屆ICLR共收到了2997篇論文投稿,相比去年的2594篇論文投稿,增加了15.5%。
其中860篇論文被接收,接受率為28.7%,這些論文有53篇Oral,114篇Spotlight以及693 Poster。
8篇論文獲最佳論文!華人一作占3席
最佳論文1:超復(fù)數(shù)乘法的參數(shù)量只需要1/n
標(biāo)題:Beyond Fully-Connected Layers with Quaternions: Parameterization of Hypercomplex Multiplications with 1/n Parameters
《比全連接更強(qiáng):超復(fù)數(shù)乘法的參數(shù)量只需要1/n》
作者:Aston Zhang, Yi Tay, Shuai Zhang, Alvin Chan, Anh Tuan Luu, Siu Cheung Hui, Jie Fu
作者機(jī)構(gòu):谷歌研究院,蘇黎世聯(lián)邦理工大學(xué),南洋理工大學(xué),Mila
論文地址:https://openreview.net/pdf?id=rcQdycl0zyk
表示學(xué)習(xí)在超復(fù)數(shù)空間的表示學(xué)習(xí)的有效性已經(jīng)得到了驗(yàn)證?;谒脑獢?shù)(quaternions)的全連接層(四元數(shù)就是四維空間的超復(fù)數(shù))的漢密爾頓乘積已經(jīng)取代了傳統(tǒng)的實(shí)數(shù)矩陣乘法,并且在性能不變的情況下,可學(xué)習(xí)的參數(shù)量降低為原來(lái)的1/4,在多種應(yīng)用場(chǎng)景得到了驗(yàn)證。

但是一個(gè)限制就是只有幾個(gè)固定的維度可以使用,如四維、八維或十六維,為了使用超復(fù)數(shù)乘法,智能犧牲模型的靈活性。
基于這個(gè)目的,這篇文章提出了一種參數(shù)化超復(fù)數(shù)乘法,使模型能夠與數(shù)據(jù)無(wú)關(guān)地學(xué)習(xí)乘法規(guī)則。這個(gè)模型不僅包括漢密爾頓乘積,通過(guò)設(shè)置任意1/n的可學(xué)習(xí)參數(shù),也使模型更靈活。
使用LSTM和Transformer模型對(duì)自然語(yǔ)言推理、機(jī)器翻譯、文本風(fēng)格遷移的實(shí)驗(yàn)上,證明了所提出方法的架構(gòu)靈活性和有效性。

本文的第一作者是Aston Zhang,是亞馬遜Web Services的高級(jí)科學(xué)家,伊利諾伊大學(xué)香檳分校獲得計(jì)算機(jī)科學(xué)博士學(xué)位。
出版《動(dòng)手學(xué)深度學(xué)習(xí)》,面向中文讀者的「能運(yùn)行、可討論」的深度學(xué)習(xí)教科書(shū),被全球 40 個(gè)國(guó)家 175 所大學(xué)用于教學(xué),由四位主要作者和GitHub貢獻(xiàn)者共同編著。

最佳論文2 :重新思考可微分NAS方法中的架構(gòu)選擇
標(biāo)題:Rethinking Architecture Selection in Differentiable NAS
作者:Ruochen Wang, Minhao Cheng, Xiangning Chen, Xiaocheng Tang, and Cho-Jui Hsieh
作者機(jī)構(gòu):加州伯克利大學(xué)
論文地址:https://openreview.net/forum?id=PKubaeJkw3
自谷歌2016年提出了基于強(qiáng)化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索(NAS)一來(lái),一些關(guān)于NAS方法泉涌而出,其中最有影響力的工作就是DARTS。
NAS以其搜索效率高、搜索過(guò)程簡(jiǎn)單等優(yōu)點(diǎn)成為當(dāng)前最流行的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索方法之一。
它借鑒了早期谷歌提出的weight sharing的搜索思想,將搜索架構(gòu)建模為矩陣α使用可微分的策略對(duì)矩陣α與網(wǎng)絡(luò)參數(shù)進(jìn)行交替優(yōu)化,在分類(lèi)和其他任務(wù)上都取得了很好的效果。
來(lái)自加州大學(xué)洛杉磯分校的研究人員發(fā)現(xiàn)DARTS有一些顯而易見(jiàn)的缺點(diǎn),他們重新審視了DARTS方法中的Architecture Selection,發(fā)現(xiàn)很多論文中都在重點(diǎn)討論搜索中超圖網(wǎng)絡(luò)的優(yōu)化問(wèn)題,很少有學(xué)者去關(guān)注架構(gòu)問(wèn)題。
論文中作者重新評(píng)估了幾個(gè)可微分的 NAS 方法與所提出的架構(gòu)選擇,發(fā)現(xiàn)架構(gòu)參數(shù)α中的權(quán)重參數(shù)在很多情況下并不能衡量對(duì)應(yīng)候選操作對(duì)于supernet的重要性。
在預(yù)訓(xùn)練DARTS supernet中隨機(jī)選擇了三條邊,作者分別計(jì)算了其中不同候選操作對(duì)應(yīng)的α值與離散化精度。

作者按照對(duì)搜索網(wǎng)絡(luò)的貢獻(xiàn)度來(lái)進(jìn)行候選操作的選擇,并進(jìn)一步提出了一種alternative perturbation-based的架構(gòu)選擇方法,這一方法在DARTS、SDARTS、SDAS等一些NAS模型上取得了性能的提升。
論文一作Ruochen Wang來(lái)自洛杉磯加州大學(xué)(UCLA),他目前是UCLA亨利·薩穆埃利工程與應(yīng)用科學(xué)學(xué)院研究生研究助理。
Ruochen Wang在2015年獲得密歇根大學(xué)計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)學(xué)士學(xué)位,2020年獲得密歇根大學(xué)和洛杉磯加州大學(xué)的計(jì)算機(jī)科學(xué)碩士學(xué)位。

最佳論文3:基于隨機(jī)微分方程的分?jǐn)?shù)生成式建模
標(biāo)題:Score-Based Generative Modeling through Stochastic Differential Equations
作者:Yang Song, Jascha Sohl-Dickstein, Diederik P Kingma, Abhishek Kumar, Stefano Ermon, and Ben Poole
作者機(jī)構(gòu):斯坦福大學(xué),谷歌
論文地址:https://openreview.net/pdf?id=PxTIG12RRHS
從數(shù)據(jù)中生成噪聲是很簡(jiǎn)單的,從噪聲中找到數(shù)據(jù)則需要生成式的模型。這篇文章提出隨機(jī)查分方程(SDE),通過(guò)逐漸注入噪聲,把一個(gè)復(fù)雜的數(shù)據(jù)分布轉(zhuǎn)換到一個(gè)已知的先驗(yàn)分布。另外一個(gè)對(duì)稱(chēng)的逆時(shí)SDE通過(guò)把噪聲逐漸去處,把先驗(yàn)分布轉(zhuǎn)換回?cái)?shù)據(jù)分布。
至關(guān)重要的是,逆時(shí)SDE僅依賴(lài)于擾動(dòng)數(shù)據(jù)分布的時(shí)間相關(guān)梯度場(chǎng)(場(chǎng)也叫做分?jǐn)?shù))。

由于利用了基于分?jǐn)?shù)的生成式模型的優(yōu)勢(shì),這篇論文提出的模型能夠準(zhǔn)確地使用神經(jīng)網(wǎng)絡(luò)來(lái)估計(jì)分?jǐn)?shù),并且使用幾個(gè)SDE求解器來(lái)生成樣例。
論文中提出的框架封裝了之前基于分?jǐn)?shù)的生成式模型,擴(kuò)散概率模型,兼容新的采樣過(guò)程,并且具有不同的建模能力。
除此之外,一個(gè)預(yù)測(cè)校正器框架被用來(lái)糾正離散化的逆時(shí)SDE在演化過(guò)程中的誤差。
一個(gè)等價(jià)的神經(jīng)ODE能夠從與SDE相同的分布中采樣數(shù)據(jù),額外計(jì)算精確的概率,提升采樣效率。

本文提供了一個(gè)新的途徑使用基于分?jǐn)?shù)的模型解決時(shí)序反向問(wèn)題,在基于類(lèi)別的生成、圖像修復(fù)、著色實(shí)驗(yàn)中得到了驗(yàn)證。
由于多種架構(gòu)上的改進(jìn),本文在CIFA-10數(shù)據(jù)集上的非條件圖像生成實(shí)驗(yàn)上達(dá)到SOTA,評(píng)分9.89,F(xiàn)ID 2.20,2.99bits/dim的概率,在1024*1024圖像生成上,首次闡述了如何基于分?jǐn)?shù)生成模型高保真地生成圖像。

論文一作宋飏本科畢業(yè)于清華大學(xué)物理系,現(xiàn)為斯坦福大學(xué)計(jì)算機(jī)系博士生,他的導(dǎo)師是斯坦福大學(xué)計(jì)算機(jī)科學(xué)學(xué)院Stefano Ermon教授。
目前致力于研究具有靈活的模型結(jié)構(gòu),穩(wěn)定的訓(xùn)練方式,優(yōu)異的樣本質(zhì)量,以及能夠自由控制的新型生成式模型。
他表示自己對(duì)生成模型的各種應(yīng)用很感興趣,比如解決逆問(wèn)題,以及減少機(jī)器學(xué)習(xí)系統(tǒng)的安全漏洞。

還有5篇論文獲得最佳論文獎(jiǎng),它們分別是:
論文4
標(biāo)題:Complex Query Answering with Neural Link Predictors
作者:Erik Arakelyan, Daniel Daza, Pasquale Minervini, and Michael Cochez
作者機(jī)構(gòu):UCL 人工智能中心、阿姆斯特丹大學(xué)、Discovery Lab
論文地址:https://openreview.net/forum?id=Mos9F9kDwkz
論文5
標(biāo)題:EigenGame: PCA as a Nash Equilibrium
作者:ZIan Gemp, Brian McWilliams, Claire Vernade, and Thore Graepel
作者機(jī)構(gòu):Deepmind
論文地址:https://openreview.net/forum?id=NzTU59SYbNq
論文6
標(biāo)題:Learning Mesh-Based Simulation with Graph Networks
作者:Tobias Pfaff, Meire Fortunato, Alvaro Sanchez-Gonzalez, and Peter Battaglia
作者機(jī)構(gòu):Deepmind
論文地址:https://openreview.net/forum?id=roNqYL0_XP
論文7
標(biāo)題:Neural Synthesis of Binaural Speech From Mono Audio
作者:Alexander Richard, Dejan Markovic, Israel D. Gebru, Steven Krenn, Gladstone Alexander Butler, Fernando Torre, and Yaser Sheikh
作者機(jī)構(gòu):Facebook Reality Labs
論文地址:https://openreview.net/forum?id=uAX8q61EVRu
論文8
標(biāo)題:Optimal Rates for Averaged Stochastic Gradient Descent under Neural Tangent Kernel Regime
作者:Atsushi Nitanda, and Taiji Suzuki
作者機(jī)構(gòu):東京大學(xué),國(guó)立研究開(kāi)發(fā)法人理化學(xué)研究所(Riken),科學(xué)技術(shù)振興機(jī)構(gòu)
論文地址:https://openreview.net/pdf?id=PULSD5qI2N1
參考資料:
https://iclr-conf.medium.com/announcing-iclr-2021-outstanding-paper-awards-9ae0514734ab
https://zhuanlan.zhihu.com/p/344538995
https://twitter.com/davencheung/status/1377584920453857286?s=21

