點擊上方“視學(xué)算法”,選擇加"星標(biāo)"或“置頂”
重磅干貨,第一時間送達
LeCun最近在推特上表示,他的一篇文章已被NeurIPS 2021拒絕,但他依然非常自豪:「問題不在于NeurIPS,而在于新興領(lǐng)域頂會的篩選做法」。盡管LeCun表達了他對雙盲評審的認(rèn)可,關(guān)于雙盲評審是否是一件好事的討論仍在繼續(xù)。
要說最近什么話題熱度高,那肯定少不了圖靈獎得主Yann Andre LeCun的文章被NeurIPS 2021拒稿了。在論文上傳到arXiv之后,LeCun便去Twitter和Facebook做了宣傳,在拒稿之后更是Twitter、Facebook、LinkedIn齊發(fā)。LeCun表示,因為是「雙盲」的原因,所以審稿人并不知道論文的作者。當(dāng)然了,網(wǎng)友們對這個說法似乎并不買賬。這篇題為:「VICReg: Variance-Invariance-Covariance Regularization for Self-Supervised Learning」的論文,自5月以來已收到12次引用。https://arxiv.org/pdf/2105.04906.pdfNeurIPS給出的拒稿理由是「VICReg」與發(fā)表在ICML2021上的「Barlow Twins」差異不大。https://arxiv.org/pdf/2103.03230.pdf然而LeCun認(rèn)為,相比而言,VICReg引入了方差正則化,使其可以適用于更廣泛的架構(gòu)。不過,VICReg「精心設(shè)計」的3項損失函數(shù)中,除了「方差項」是創(chuàng)新以外,「不變項」是經(jīng)典約束項,「協(xié)方差項」則借鑒了自己之前的論文Barlow Twins。眾所周知,Yann LeCun是紐約大學(xué)Courant數(shù)學(xué)科學(xué)研究所的教授,也是Facebook的副總裁、首席人工智能科學(xué)家,美國國家科學(xué)和工程院以及國家工程院的成員。作為公認(rèn)的卷積網(wǎng)絡(luò)(CNN)之父,LeCun在人工智能、機器學(xué)習(xí)、深度學(xué)習(xí)、計算機視覺、智能數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)壓縮和機器人等方面具有著豐富的學(xué)術(shù)和工業(yè)經(jīng)驗。此外,LeCun也是DjVu圖像壓縮技術(shù)和Lush編程語言的共同創(chuàng)造者。自然,這樣一位人物的論文被拒確實有些出乎意料,也讓學(xué)術(shù)界和人工智能領(lǐng)域的不少人感到震驚。對于LeCun被拒稿,有網(wǎng)友表示不解:「考慮到Y(jié)ann LeCun在AI界的成就,NeurIPS 2021的審稿人有可能拒絕LeCun教授寫的論文嗎?」LeCun則表示:「這些年我有許多論文都被NeurIPS拒了。NeurIPS的評審是以雙盲的方式進行的,這意味著評審員不知道作者的身份。這是件好事,一篇論文不應(yīng)該僅僅因為其中一位作者的名氣而被接受。此外,對于寫論文的學(xué)生來說,接受審稿人的意見是非常有益的。不過,在被拒絕的文章中,有一些是我認(rèn)為非常好、非常吸引人的,例如這一篇。」雖然NeurIPS采用「雙盲審」的機制,但是網(wǎng)友犀利地指出,LeCun發(fā)的這條推文得到了很多人的點贊和轉(zhuǎn)發(fā)。在此聲稱這是一個適當(dāng)?shù)碾p盲審過程實在有點牽強。雙盲同行評審,即作者和審稿人雙方都保持匿名,只有編輯才知道各方的身份。但如果通過媒體大肆宣揚你的工作,那就讓盲審失去了本來的意義!為啥呢?如果你作為評審人接觸到了一個擁有大量追隨者和資源,并同時進行社交媒體推廣的作者的作品,你會不由自主被影響「那么多人覺得這是一個好工作,這應(yīng)該不會太差吧」,這樣一來,對追隨者較少或不參加此類社交推廣活動的作者自然是不公平。今年的 CVPR 2021的PAMI TC會議上提出了一條動議,主要內(nèi)容是:在審查期間,禁止在社交媒體上宣傳論文。被排除在這一禁令之外的是 arXiv 自動發(fā)布的新預(yù)印本。LeCun立刻就提出了反對:「限制交流會阻礙學(xué)術(shù)進步,而且違背道德規(guī)范。CVPR的這項新政策瘋了!」那么這次LeCun的論文被拒稿,到底是不是評審人成功地遵守了「雙盲」的原則呢?最近正好有一篇由谷歌和劍橋大學(xué)的研究人員撰寫的關(guān)于NeurIPS 2014同行評審結(jié)果的研究。https://arxiv.org/pdf/2109.09774.pdf論文重新審視了2014年的NeurIPS,結(jié)果表明評審員質(zhì)量分?jǐn)?shù)的變化有50%是主觀因素造成的。作者發(fā)現(xiàn)在過去的七年中,對于被接受的論文來說,質(zhì)量分?jǐn)?shù)和論文的影響力之間沒有任何關(guān)聯(lián);而對于被拒絕的論文來說,二者之間則存在關(guān)聯(lián)。簡而言之,從NeurIPS 2014的結(jié)果來看,會議的評審過程有利于「差論文」的識別,但不利于發(fā)現(xiàn)「好論文」。LeCun對此表示,「問題不在于NeurIPS,而是在高速成長的領(lǐng)域中,有高選擇標(biāo)準(zhǔn)的會議的審查習(xí)慣所帶來的的一個普遍問題」。于是,問題似乎又回到了原點。一邊是在社交媒體大肆宣傳自己的論文,一邊是難以判斷優(yōu)質(zhì)論文的主觀評審。LeCun的推特下有人評論道:即使這篇論文被拒,但這篇論文也因為「Yann LeCun論文被拒」這一消息得到了比大多數(shù)NeurlPS論文都要多的關(guān)注機會。LeCun認(rèn)為「這篇文章是值得閱讀的,因為它已經(jīng)得到了比大多數(shù)NeurlPS論文都多的引用次數(shù)」。針對引用次數(shù)是否能代表論文質(zhì)量這一問題,Reddit的網(wǎng)友也展開了激烈的討論,有博主認(rèn)為「一篇文章已經(jīng)被引用了12次,然而在得到官方發(fā)表的時候還是十分艱難,這說明傳統(tǒng)的會議和發(fā)表流程周期實在太長了,這個非常值得關(guān)注的問題」。「質(zhì)量不高的論文引用數(shù)比高質(zhì)量論文多這種事也經(jīng)常發(fā)生,倒不是說LeCun這篇不行,只是12次引用這種東西其實并不能說明太多問題。」「在一個新論文層出不窮的領(lǐng)域,你覺得作者在引用他人文章前會把這篇文章好好看再細細品嗎?當(dāng)然不會。」「LeCun可能產(chǎn)出垃圾文章但是收獲一堆引用,如果一個無名小卒的論文得到了很多引用,卻沒有發(fā)表機會,這就完全是另一碼事了。」原博主認(rèn)同「引用數(shù)和論文質(zhì)量不掛鉤」,他想強調(diào)的是「實際研究進展是比論文發(fā)表要快的,所以出版和審查系統(tǒng)需要改進,不能總是讓論文在發(fā)表前被引用這種事發(fā)生」。下方的回答也指出了「引用未審閱的工作是真正的問題」,但仍然堅持「盡管審閱發(fā)表的流程是挺慢的,但是審閱的過程是無可替代的」。VICReg是一種非常簡單有效的聯(lián)合嵌入體系結(jié)構(gòu)(Joint-Embedding Architectures,JEA)自監(jiān)督訓(xùn)練圖像表征學(xué)習(xí)方法,它將問題分解為三個不同的原則:用不變項學(xué)習(xí)對不同視圖的不變性,用方差正則項避免表征的崩潰,用協(xié)方差正則項將信息分散到表征的不同維度。聯(lián)合嵌入體系結(jié)構(gòu)(JEA)由2個可訓(xùn)練模型Gx(x)和Gx'(x')組成,用成對的「兼容」輸入(x,x')訓(xùn)練。例如:x和x'是同一個圖像的變形版本。該工作解決的主要問題是模型訓(xùn)練時的崩潰,VICReg是為聯(lián)合嵌入體系結(jié)構(gòu)(JEA)精心設(shè)計的損失函數(shù),由3項組成:- 方差項:采用鉸鏈損失,以維持Gx(x)和Gx'(x')的每個組成部分的標(biāo)準(zhǔn)偏差維持在一個邊界以上,這是該論文的創(chuàng)新之處。
- 不變項:即||Gx(x)-Gx'(x')||^2,這是經(jīng)典的約束項。
- 協(xié)方差項:即Gx(x)和Gx'(x')的協(xié)方差矩陣的偏離項的平方和,此項借鑒了Barlow Twins中的思想。
在幾個下游任務(wù)中,VICReg獲得了與最新技術(shù)水平相當(dāng)?shù)慕Y(jié)果,擴展了非對照性自監(jiān)督學(xué)習(xí)的前沿。每個處理批次的協(xié)方差矩陣的計算決定了VICReg的計算和內(nèi)存成本,而協(xié)方差矩陣的計算在投影向量的維度上是二次方的。實驗表明,提高投影的維度可以顯著提高性能,這表明需要有不依賴協(xié)方差矩陣的全部計算的替代性冗余減少方法。VICReg使用線性分類器頭在ImageNet上,在低數(shù)據(jù)狀態(tài)下的半監(jiān)督ImageNet上,還有在下游任務(wù)的遷移學(xué)習(xí)上,都取得了有競爭力的結(jié)果。當(dāng)與SimSiam等方法一起使用時,方差鉸鏈項可以防止崩潰,還可以減少對批處理范數(shù)或預(yù)測器的需求。?在下游任務(wù)上的遷移學(xué)習(xí)結(jié)果?在不同架構(gòu)中加入方差和協(xié)方差正則化的效果- 采用簡單的方差鉸鏈損失,很好地控制模型訓(xùn)練時的崩潰(見PyTorch偽代碼)
- 不需要批標(biāo)準(zhǔn)化或通道標(biāo)準(zhǔn)化 (盡管這有點幫助)
- 兩個分支之間無需共享權(quán)重(盡管在實驗中權(quán)重是共享的)
- 不需要平均移動權(quán)重、梯度停止、預(yù)測器、負(fù)樣本挖掘,存儲體,最近鄰和種種量化/蒸餾手段
analyticsindiamag.com/yann-lecun-paper-rejected/arxiv.org/pdf/2105.04906.pdfarxiv.org/pdf/2109.09774.pdffacebook.com/story.php?story_fbid=10157921242067143&id=722677142linkedin.com/posts/yann-lecun-0b999_yann-lecun-activity-6850419687931592704-tWKo/reddit.com/r/computerscience/comments/q0j4vh/yann_lecuns_paper_gets_rejected_from_neurips_2021/hf8nvvv/twitter.com/ylecun/status/1392493077999325191twitter.com/ylecun/status/1409393630310248452twitter.com/ylecun/status/1443133393986748421zhuanlan.zhihu.com/p/385382149