近日,機(jī)器學(xué)習(xí)資源網(wǎng)站 PapersWithCode 上線了一項(xiàng)新功能,對(duì)于其舉辦的論文復(fù)現(xiàn)挑戰(zhàn)賽 RC2020 中提交的一些論文,它們將提供詳細(xì)的復(fù)現(xiàn)報(bào)告。這是 ML 社區(qū)重視「研究論文可復(fù)現(xiàn)性」的新信號(hào)。
現(xiàn)在,越來越多的機(jī)器學(xué)習(xí)(ML)研究者選擇在論文發(fā)表時(shí)同步公開自己的代碼,像 arXiv 這樣的論文預(yù)印本平臺(tái)也選擇與機(jī)器學(xué)習(xí)資源網(wǎng)站 Papers with Code 合作,支持研究者在 arXiv 頁面上添加代碼鏈接。ICML、ICLR、NeurIPS 等一些頂會(huì)也要求投稿人在提交論文的時(shí)候附上代碼,以供審稿人測(cè)試,確保其研究結(jié)果的可復(fù)現(xiàn)性。但這一切仍然不代表論文復(fù)現(xiàn)變得容易了。前段時(shí)間,Reddit 用戶「ContributionSecure14」在花費(fèi)長時(shí)間復(fù)現(xiàn)一篇論文失敗后,產(chǎn)生了專門列出無法復(fù)現(xiàn)論文清單的想法。他創(chuàng)建了一個(gè)名為「Papers Without Code」的 ML 研究反饋平臺(tái),專門掛出那些大家都無法復(fù)現(xiàn)的論文研究。如果提交內(nèi)容有效,則 Papers Without Code 方面將與該論文原作者聯(lián)系,并要求其澄清或公布實(shí)現(xiàn)細(xì)節(jié)。論文成功復(fù)現(xiàn)后,可以在 PapersWithCode 或 GitHub 上發(fā)布,供其他研究人員參考。如果作者未及時(shí)答復(fù),該論文將被添加到「不可復(fù)現(xiàn)的機(jī)器學(xué)習(xí)論文列表」中,公開處刑。 目前,該網(wǎng)站上掛出了 19 篇論文,詳細(xì)列出了標(biāo)題、鏈接、提交原因以及解決與否,可以看到有 8 篇論文顯示「已被解決」。
但應(yīng)看到,該網(wǎng)站創(chuàng)建數(shù)月以來,也僅僅提交了 19 篇論文,對(duì)于提升機(jī)器學(xué)習(xí)社區(qū)可復(fù)現(xiàn)方面遠(yuǎn)遠(yuǎn)不夠。近日,ML 領(lǐng)域著名的論文和代碼資源網(wǎng)站 PapersWithCode 終于向「有代碼也復(fù)現(xiàn)不了」這一老大難問題下手了,宣布其上線了新功能:論文可以鏈接到復(fù)現(xiàn)報(bào)告了!這是 ML 社區(qū)重視研究論文可復(fù)現(xiàn)性的新信號(hào)。
PapersWithCode:論文終于有復(fù)現(xiàn)報(bào)告了
PapersWithCode 以 ICML 2020 論文《Training Binary Neural Networks using the Bayesian Learning Rule》為例展示「論文復(fù)現(xiàn)報(bào)告」這項(xiàng)新功能。可以看到,PapersWithCode 在論文下方提供了復(fù)現(xiàn)報(bào)告,包括提交日期和報(bào)告摘要。
大家或者注意到了這份復(fù)現(xiàn)報(bào)告的提交者為「RC 2020」,這是 PapersWithCode 組織的一項(xiàng) ML 頂會(huì)論文復(fù)現(xiàn)挑戰(zhàn)賽。這項(xiàng)賽事的目的是鼓勵(lì)可靠且可復(fù)現(xiàn)研究成果的發(fā)表和分享,ML 社區(qū)的成員可以選擇頂會(huì)接收的論文來嘗試復(fù)現(xiàn)。
所有的復(fù)現(xiàn)報(bào)告都將通過 OpenReview 進(jìn)行同行評(píng)審,并顯示在 PapersWithCode 網(wǎng)站原始論文的下方。在每年的復(fù)現(xiàn)挑戰(zhàn)賽中,一批在「洞見性、正確性、邏輯清晰」等方面表現(xiàn)優(yōu)秀的論文會(huì)發(fā)表在 ReScience C 期刊上。
與其他傳統(tǒng)科學(xué)期刊截然不同,ReScience C 可以說是一個(gè) GitHub 項(xiàng)目,提供了關(guān)于計(jì)算研究的每個(gè)新實(shí)現(xiàn)以及評(píng)審、解釋和測(cè)試。PapersWithCode 的示例論文《Training Binary Neural Networks using the Bayesian Learning Rule》就發(fā)表在了該期刊上。目前,OpenReview 列出了所有在 RC 2020 挑戰(zhàn)賽中被 ReScience C 接收的論文列表。
論文列表地址:https://openreview.net/group?id=ML_Reproducibility_Challenge/2020用戶現(xiàn)在可以在 PapersWithCode 和 ReScience 上查看所有 RC2020 挑戰(zhàn)賽中的論文復(fù)現(xiàn)報(bào)告。
不過,目前提供復(fù)現(xiàn)報(bào)告的論文覆蓋面還很小。PapersWithCode 的共同創(chuàng)建者 Robert Stojnic 表示:「目前只有經(jīng)過 OpenReview 同行評(píng)審且被 ReScience 接收的論文才能提供復(fù)現(xiàn)報(bào)告。」
希望未來 PapersWithCode 可以提供其網(wǎng)站上所有提交論文的復(fù)現(xiàn)報(bào)告。從頂會(huì)到個(gè)人,復(fù)現(xiàn)努力一直進(jìn)行可復(fù)現(xiàn)性是科學(xué)領(lǐng)域長期關(guān)注的話題,更是機(jī)器學(xué)習(xí)社區(qū)的重點(diǎn)關(guān)注問題。為了解決論文可復(fù)現(xiàn)難題,從頂會(huì)到個(gè)人一直都在努力。NeurIPS 組委會(huì)從 2019 年起就鼓勵(lì)論文作者提交代碼(非強(qiáng)制),目前成效顯著。在 NeurIPS 2019 的最后提交階段,有 75% 的被接收論文附帶了代碼。隨后,NeuIPS 將代碼提交從「鼓勵(lì)」變成了「強(qiáng)烈建議」(仍不強(qiáng)制),還提供了提交代碼的準(zhǔn)則和模板。2020 年底,機(jī)器學(xué)習(xí)資源網(wǎng)站 Papers with Code 宣布與論文預(yù)印本平臺(tái) arXiv 進(jìn)行合作,論文作者在 arXiv 上上傳論文時(shí)可以同步上傳官方和社區(qū)代碼。
此外,AAAI Fellow、加拿大計(jì)算機(jī)科學(xué)家 Joelle Pineau 教授創(chuàng)建了「機(jī)器學(xué)習(xí)可復(fù)現(xiàn)性調(diào)查表」,這個(gè)清單為如何使其他研究人員清楚并重現(xiàn)機(jī)器學(xué)習(xí)論文的描述、代碼和數(shù)據(jù)提供了明確的指導(dǎo)原則。
網(wǎng)站地址:https://www.cs.mcgill.ca/~jpineau/ReproducibilityChecklist.pdf這些措施有助于解決論文可復(fù)現(xiàn)性問題,并進(jìn)一步促進(jìn)開放性科學(xué)研究的發(fā)展。參考鏈接:https://paperswithcode.com/rc2020往期精彩:
【原創(chuàng)首發(fā)】機(jī)器學(xué)習(xí)公式推導(dǎo)與代碼實(shí)現(xiàn)30講.pdf
【原創(chuàng)首發(fā)】深度學(xué)習(xí)語義分割理論與實(shí)戰(zhàn)指南.pdf
談中小企業(yè)算法崗面試
算法工程師研發(fā)技能表
真正想做算法的,不要害怕內(nèi)卷
算法工程師的日常,一定不能脫離產(chǎn)業(yè)實(shí)踐
技術(shù)學(xué)習(xí)不能眼高手低
技術(shù)人要學(xué)會(huì)自我營銷
做人不能過擬合
求個(gè)在看