<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          公開處刑:研究者自建Papers Without Code網(wǎng)站,張貼復(fù)現(xiàn)不了的論文

          共 3060字,需瀏覽 7分鐘

           ·

          2021-03-14 11:06

          點擊上方“程序員大白”,選擇“星標”公眾號

          重磅干貨,第一時間送達

          源丨機器之心
          編輯丨極市平臺

          極市導(dǎo)讀

           

          在 Papers 「Without」 Code 網(wǎng)站上,復(fù)現(xiàn)不了的論文可是要被公開處刑的,作者也可能面臨「社會性死亡」。 

          「無法復(fù)現(xiàn)的論文都是耍流氓。」

          二十幾天前,Reddit 用戶「ContributionSecure14」在機器學(xué)習(xí)社區(qū)瘋狂吐槽:「我花了一個星期嘗試復(fù)現(xiàn)一篇論文,結(jié)果失敗了。上網(wǎng)搜了一下才發(fā)現(xiàn),也有其他人說這篇論文的結(jié)果無法復(fù)現(xiàn)。」

          「有沒有那種專門列出無法復(fù)現(xiàn)論文的清單?這樣可以讓研究者們節(jié)省大量時間和精力。」


          有人回復(fù)道:有一說一,從實際出發(fā)的話,列出「可復(fù)現(xiàn)論文清單」會更容易一些……


          另一位 Reddit 用戶寫道:「所有論文中可能有 50%-75%是不可復(fù)現(xiàn)的,可悲啊,但這卻是事實。」

          現(xiàn)在,越來越多的機器學(xué)習(xí)研究者選擇在論文發(fā)表時同步公開自己的代碼,像 arXiv 這樣的論文預(yù)印本平臺也選擇與機器學(xué)習(xí)資源網(wǎng)站 Papers with Code 合作,支持研究者在 arXiv 頁面上添加代碼鏈接。還有一些頂會(ICML、ICLR、NeurIPS)要求投稿人在提交論文的時候附上代碼,以供審稿人測試,確保其研究結(jié)果的可復(fù)現(xiàn)性。

          但這一切仍然不代表論文復(fù)現(xiàn)變得容易了。

          一氣之下,ContributionSecure14 創(chuàng)建了一個名為「Papers Without Code」的機器學(xué)習(xí)研究反饋平臺,專門掛出那些大家都無法復(fù)現(xiàn)的論文研究。

          網(wǎng)站地址:https://www.paperswithoutcode.com/

          Papers 「Without」 Code


          機器學(xué)習(xí)領(lǐng)域研究者大多熟悉 PapersWithCode,這個資源網(wǎng)站上托管著 4 萬多個研究的實現(xiàn)代碼,但它沒有進一步解決「有代碼也復(fù)現(xiàn)不了」的問題。這個問題或許可以在「Papers Without Code」上找到答案。

          簡單來說,在 Papers Without Code 上,研究者可以提交無法復(fù)現(xiàn)的機器學(xué)習(xí)論文以及他們的工作細節(jié),例如他們花費了多少時間來復(fù)現(xiàn)結(jié)果。

          如果提交內(nèi)容有效,則 Papers Without Code 方面將與該論文原作者聯(lián)系,并要求其澄清或公布實現(xiàn)細節(jié)。論文成功復(fù)現(xiàn)后,可以在 PapersWithCode 或 GitHub 上發(fā)布,供其他研究人員參考。如果作者未及時答復(fù),該論文將被添加到「不可復(fù)現(xiàn)的機器學(xué)習(xí)論文列表」中,公開處刑。  

          ContributionSecure14 表示:「Papers Without Code 的目標與 PapersWithCode 及整個 ML 社區(qū)是一致的。」目前已有幾篇論文上榜。

          反饋者需要提交包括論文標題、論文鏈接、提交原因等基本信息。地址:https://papers.paperswithoutcode.com/

          「這樣做的目的是為了節(jié)省研究人員的時間和精力,以免花費成本去復(fù)現(xiàn)一篇無法復(fù)現(xiàn)的論文結(jié)果,而無法復(fù)現(xiàn)的原因可能是論文沒有足夠的細節(jié)或方法根本不 work。」


          如果某篇論文「光榮上榜」,論文作者會被第一時間告知,并有機會作出回應(yīng)。這一機制的建立也是希望能夠促進機器學(xué)習(xí)社區(qū)之間的有效交流,并培養(yǎng)健康的研究生態(tài)。

          復(fù)現(xiàn)一篇論文,有多難?


          事實上,迄今為止行業(yè)內(nèi)仍有相當數(shù)量的優(yōu)質(zhì)研究未能復(fù)現(xiàn)。從研究角度來說,這為后來研究者基于先驅(qū)工作嘗試新的探索帶來了一定阻礙。也有一部分研究無法復(fù)現(xiàn)是因為研究本身不合格,而不是因為復(fù)現(xiàn)者的技術(shù)太差。

          網(wǎng)站創(chuàng)建者 ContributionSecure14 表示:「如果其他人不能以該論文為基礎(chǔ)或 baseline,那么公開發(fā)表的有實證結(jié)果的論文毫無意義。」  

          但他同時也承認,有時候出于某些正當理由,機器學(xué)習(xí)研究者不會公開代碼,比如一些作者可能是在內(nèi)部基礎(chǔ)架構(gòu)上訓(xùn)練他們的模型,或者使用大型內(nèi)部數(shù)據(jù)集進行預(yù)訓(xùn)練。在這種情況下,受到企業(yè)政策的限制,研究人員無權(quán)隨論文發(fā)布代碼或數(shù)據(jù)。

          在某些情況下,即使作者將源代碼和數(shù)據(jù)都發(fā)布在論文中,其他機器學(xué)習(xí)研究人員仍然很難復(fù)現(xiàn)結(jié)果。

          造成這種情況的原因也有很多,比如論文作者可能會從多個實驗中挑選出最好的結(jié)果,以達到 SOTA 水平;或者使用一些技巧,針對數(shù)據(jù)集來調(diào)整機器學(xué)習(xí)模型的參數(shù),以提升實驗結(jié)果。在這兩種情形下,即使結(jié)果最終可復(fù)現(xiàn),但因為機器學(xué)習(xí)模型針對特定條件過擬合,所以在新的數(shù)據(jù)上效果往往并不好。

          可復(fù)現(xiàn)問題并不局限于少數(shù)的小規(guī)模機器學(xué)習(xí)研究團隊,即使是那些揮金如土的大公司也常常無法驗證其論文的結(jié)果。去年,圖靈獎得主 Yann LeCun 就公開質(zhì)疑過谷歌大腦的論文無法復(fù)現(xiàn),很多 NLP 領(lǐng)域頂級研究人員無法復(fù)現(xiàn)谷歌大腦的語言模型 Transformer-XL 所得到的結(jié)果,一度引發(fā)社區(qū)熱議。

          如果你的研究是在其他論文的基礎(chǔ)之上,嘗試復(fù)現(xiàn)其他研究的機器學(xué)習(xí)代碼肯定是常規(guī)操作。「不要簡單地根據(jù)論文主張就預(yù)設(shè)『見解』, 」ContributionSecure14 表示,「即使是那些大組的論文,抑或是被頂會接收的論文。」

          NeurIPS 組委會從 2019 年起就鼓勵論文作者提交代碼(非強制),目前成效顯著。在 NeurIPS 2019 的最后提交階段,有 75% 的被接收論文附帶了代碼。隨后,NeuIPS 將代碼提交從「鼓勵」變成了「強烈建議」(仍不強制),還提供了提交代碼的準則和模板。這些措施都有利于復(fù)現(xiàn)工作

          但代碼公開問題也不能「一刀切」,畢竟可復(fù)現(xiàn)性并不是評價論文的唯一標準。

          除了 Papers Without Code,你也可以參考 Pineau 教授的「機器學(xué)習(xí)可復(fù)現(xiàn)性調(diào)查表」(https://www.cs.mcgill.ca/~jpineau/ReproducibilityChecklist.pdf),這個清單為如何使其他研究人員清楚并重現(xiàn)機器學(xué)習(xí)論文的描述、代碼和數(shù)據(jù)提供了明確的指導(dǎo)原則。

          人們一直抱怨 AI 論文難復(fù)現(xiàn),但機器學(xué)習(xí)社區(qū)在促進可復(fù)現(xiàn)方面可以發(fā)揮更加重要的作用。「很多時候論文作者都會在發(fā)表研究時面臨壓力,因此犧牲了學(xué)術(shù)深度和可復(fù)現(xiàn)性,并沒有太多制衡的方法來阻止這種行為,」ContributionSecure14 說道。

          「唯一能夠改變這種趨勢的可能性在于,引導(dǎo)機器學(xué)習(xí)研究者們在進行研究時更加注重質(zhì)量而非數(shù)量。」

          參考鏈接:https://thenextweb.com/neural/2021/03/06/list-non-reproducible-research-machine-learning-papers-syndication/


          國產(chǎn)小眾瀏覽器因屏蔽視頻廣告,被索賠100萬(后續(xù))

          年輕人“不講武德”:因看黃片上癮,把網(wǎng)站和786名女主播起訴了

          中國聯(lián)通官網(wǎng)被發(fā)現(xiàn)含木馬腳本,可向用戶推廣色情APP

          張一鳴:每個逆襲的年輕人,都具備的底層能力


          關(guān)


          學(xué)西學(xué)學(xué)質(zhì)結(jié)關(guān)[]學(xué)習(xí)


          瀏覽 48
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  中文字幕日日夜夜 | 久久久久久91香蕉国产 | 国产精品777777 | 好逼天天看 | 大香蕉凹凸视频 |