<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          公開處刑:研究者自建Papers Without Code網(wǎng)站,張貼復(fù)現(xiàn)不了的論文

          共 2971字,需瀏覽 6分鐘

           ·

          2021-03-14 16:23

          論文復(fù)現(xiàn)


          轉(zhuǎn)自:機(jī)器之心

          在 Papers 「Without」 Code 網(wǎng)站上,復(fù)現(xiàn)不了的論文可是要被公開處刑的,作者也可能面臨「社會(huì)性死亡」。


          「無(wú)法復(fù)現(xiàn)的論文都是耍流氓?!?/span>

          二十幾天前,Reddit 用戶「ContributionSecure14」在機(jī)器學(xué)習(xí)社區(qū)瘋狂吐槽:「我花了一個(gè)星期嘗試復(fù)現(xiàn)一篇論文,結(jié)果失敗了。上網(wǎng)搜了一下才發(fā)現(xiàn),也有其他人說(shuō)這篇論文的結(jié)果無(wú)法復(fù)現(xiàn)?!?/span>

          「有沒有那種專門列出無(wú)法復(fù)現(xiàn)論文的清單?這樣可以讓研究者們節(jié)省大量時(shí)間和精力?!?/span>


          有人回復(fù)道:有一說(shuō)一,從實(shí)際出發(fā)的話,列出「可復(fù)現(xiàn)論文清單」會(huì)更容易一些……


          另一位 Reddit 用戶寫道:「所有論文中可能有 50%-75%是不可復(fù)現(xiàn)的,可悲啊,但這卻是事實(shí)?!?/span>

          現(xiàn)在,越來(lái)越多的機(jī)器學(xué)習(xí)研究者選擇在論文發(fā)表時(shí)同步公開自己的代碼,像 arXiv 這樣的論文預(yù)印本平臺(tái)也選擇與機(jī)器學(xué)習(xí)資源網(wǎng)站 Papers with Code 合作,支持研究者在 arXiv 頁(yè)面上添加代碼鏈接。還有一些頂會(huì)(ICML、ICLR、NeurIPS)要求投稿人在提交論文的時(shí)候附上代碼,以供審稿人測(cè)試,確保其研究結(jié)果的可復(fù)現(xiàn)性。

          但這一切仍然不代表論文復(fù)現(xiàn)變得容易了。

          一氣之下,ContributionSecure14 創(chuàng)建了一個(gè)名為「Papers Without Code」的機(jī)器學(xué)習(xí)研究反饋平臺(tái),專門掛出那些大家都無(wú)法復(fù)現(xiàn)的論文研究。

          網(wǎng)站地址:https://www.paperswithoutcode.com/

          Papers 「Without」 Code

          機(jī)器學(xué)習(xí)領(lǐng)域研究者大多熟悉 PapersWithCode,這個(gè)資源網(wǎng)站上托管著 4 萬(wàn)多個(gè)研究的實(shí)現(xiàn)代碼,但它沒有進(jìn)一步解決「有代碼也復(fù)現(xiàn)不了」的問(wèn)題。這個(gè)問(wèn)題或許可以在「Papers Without Code」上找到答案。

          簡(jiǎn)單來(lái)說(shuō),在 Papers Without Code 上,研究者可以提交無(wú)法復(fù)現(xiàn)的機(jī)器學(xué)習(xí)論文以及他們的工作細(xì)節(jié),例如他們花費(fèi)了多少時(shí)間來(lái)復(fù)現(xiàn)結(jié)果。

          如果提交內(nèi)容有效,則 Papers Without Code 方面將與該論文原作者聯(lián)系,并要求其澄清或公布實(shí)現(xiàn)細(xì)節(jié)。論文成功復(fù)現(xiàn)后,可以在 PapersWithCode 或 GitHub 上發(fā)布,供其他研究人員參考。如果作者未及時(shí)答復(fù),該論文將被添加到「不可復(fù)現(xiàn)的機(jī)器學(xué)習(xí)論文列表」中,公開處刑。  

          ContributionSecure14 表示:「Papers Without Code 的目標(biāo)與 PapersWithCode 及整個(gè) ML 社區(qū)是一致的?!鼓壳耙延袔灼撐纳习?。

          反饋者需要提交包括論文標(biāo)題、論文鏈接、提交原因等基本信息。地址:https://papers.paperswithoutcode.com/

          「這樣做的目的是為了節(jié)省研究人員的時(shí)間和精力,以免花費(fèi)成本去復(fù)現(xiàn)一篇無(wú)法復(fù)現(xiàn)的論文結(jié)果,而無(wú)法復(fù)現(xiàn)的原因可能是論文沒有足夠的細(xì)節(jié)或方法根本不 work?!?/section>


          如果某篇論文「光榮上榜」,論文作者會(huì)被第一時(shí)間告知,并有機(jī)會(huì)作出回應(yīng)。這一機(jī)制的建立也是希望能夠促進(jìn)機(jī)器學(xué)習(xí)社區(qū)之間的有效交流,并培養(yǎng)健康的研究生態(tài)。

          復(fù)現(xiàn)一篇論文,有多難?

          事實(shí)上,迄今為止行業(yè)內(nèi)仍有相當(dāng)數(shù)量的優(yōu)質(zhì)研究未能復(fù)現(xiàn)。從研究角度來(lái)說(shuō),這為后來(lái)研究者基于先驅(qū)工作嘗試新的探索帶來(lái)了一定阻礙。也有一部分研究無(wú)法復(fù)現(xiàn)是因?yàn)檠芯勘旧聿缓细?,而不是因?yàn)閺?fù)現(xiàn)者的技術(shù)太差。

          網(wǎng)站創(chuàng)建者 ContributionSecure14 表示:「如果其他人不能以該論文為基礎(chǔ)或 baseline,那么公開發(fā)表的有實(shí)證結(jié)果的論文毫無(wú)意義?!?nbsp; 

          但他同時(shí)也承認(rèn),有時(shí)候出于某些正當(dāng)理由,機(jī)器學(xué)習(xí)研究者不會(huì)公開代碼,比如一些作者可能是在內(nèi)部基礎(chǔ)架構(gòu)上訓(xùn)練他們的模型,或者使用大型內(nèi)部數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練。在這種情況下,受到企業(yè)政策的限制,研究人員無(wú)權(quán)隨論文發(fā)布代碼或數(shù)據(jù)。

          在某些情況下,即使作者將源代碼和數(shù)據(jù)都發(fā)布在論文中,其他機(jī)器學(xué)習(xí)研究人員仍然很難復(fù)現(xiàn)結(jié)果。

          造成這種情況的原因也有很多,比如論文作者可能會(huì)從多個(gè)實(shí)驗(yàn)中挑選出最好的結(jié)果,以達(dá)到 SOTA 水平;或者使用一些技巧,針對(duì)數(shù)據(jù)集來(lái)調(diào)整機(jī)器學(xué)習(xí)模型的參數(shù),以提升實(shí)驗(yàn)結(jié)果。在這兩種情形下,即使結(jié)果最終可復(fù)現(xiàn),但因?yàn)闄C(jī)器學(xué)習(xí)模型針對(duì)特定條件過(guò)擬合,所以在新的數(shù)據(jù)上效果往往并不好。

          可復(fù)現(xiàn)問(wèn)題并不局限于少數(shù)的小規(guī)模機(jī)器學(xué)習(xí)研究團(tuán)隊(duì),即使是那些揮金如土的大公司也常常無(wú)法驗(yàn)證其論文的結(jié)果。去年,圖靈獎(jiǎng)得主 Yann LeCun 就公開質(zhì)疑過(guò)谷歌大腦的論文無(wú)法復(fù)現(xiàn),很多 NLP 領(lǐng)域頂級(jí)研究人員無(wú)法復(fù)現(xiàn)谷歌大腦的語(yǔ)言模型 Transformer-XL 所得到的結(jié)果,一度引發(fā)社區(qū)熱議。

          如果你的研究是在其他論文的基礎(chǔ)之上,嘗試復(fù)現(xiàn)其他研究的機(jī)器學(xué)習(xí)代碼肯定是常規(guī)操作?!覆灰?jiǎn)單地根據(jù)論文主張就預(yù)設(shè)『見解』, 」ContributionSecure14 表示,「即使是那些大組的論文,抑或是被頂會(huì)接收的論文?!?/span>

          NeurIPS 組委會(huì)從 2019 年起就鼓勵(lì)論文作者提交代碼(非強(qiáng)制),目前成效顯著。在 NeurIPS 2019 的最后提交階段,有 75% 的被接收論文附帶了代碼。隨后,NeuIPS 將代碼提交從「鼓勵(lì)」變成了「強(qiáng)烈建議」(仍不強(qiáng)制),還提供了提交代碼的準(zhǔn)則和模板。這些措施都有利于復(fù)現(xiàn)工作

          但代碼公開問(wèn)題也不能「一刀切」,畢竟可復(fù)現(xiàn)性并不是評(píng)價(jià)論文的唯一標(biāo)準(zhǔn)。

          除了 Papers Without Code,你也可以參考 Pineau 教授的「機(jī)器學(xué)習(xí)可復(fù)現(xiàn)性調(diào)查表」(https://www.cs.mcgill.ca/~jpineau/ReproducibilityChecklist.pdf),這個(gè)清單為如何使其他研究人員清楚并重現(xiàn)機(jī)器學(xué)習(xí)論文的描述、代碼和數(shù)據(jù)提供了明確的指導(dǎo)原則。

          人們一直抱怨 AI 論文難復(fù)現(xiàn),但機(jī)器學(xué)習(xí)社區(qū)在促進(jìn)可復(fù)現(xiàn)方面可以發(fā)揮更加重要的作用?!负芏鄷r(shí)候論文作者都會(huì)在發(fā)表研究時(shí)面臨壓力,因此犧牲了學(xué)術(shù)深度和可復(fù)現(xiàn)性,并沒有太多制衡的方法來(lái)阻止這種行為,」ContributionSecure14 說(shuō)道。

          「唯一能夠改變這種趨勢(shì)的可能性在于,引導(dǎo)機(jī)器學(xué)習(xí)研究者們?cè)谶M(jìn)行研究時(shí)更加注重質(zhì)量而非數(shù)量?!?/span>

          參考鏈接:https://thenextweb.com/neural/2021/03/06/list-non-reproducible-research-machine-learning-papers-syndication/

          往期精彩:

          【原創(chuàng)首發(fā)】機(jī)器學(xué)習(xí)公式推導(dǎo)與代碼實(shí)現(xiàn)30講.pdf

          【原創(chuàng)首發(fā)】深度學(xué)習(xí)語(yǔ)義分割理論與實(shí)戰(zhàn)指南.pdf

           談中小企業(yè)算法崗面試

           算法工程師研發(fā)技能表

           真正想做算法的,不要害怕內(nèi)卷

           技術(shù)學(xué)習(xí)不能眼高手低

           技術(shù)人要學(xué)會(huì)自我營(yíng)銷

           做人不能過(guò)擬合

          點(diǎn)個(gè)在看

          瀏覽 53
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  欧美一级夜夜爽 | 黄片免费观看永久 | 日韩欧美手机在线 | 五月花婷婷 | 日韩一级无码黄色电影 |