昨日,一位來自歐洲某大學的CV和DL領(lǐng)域的博士生匿名在Reddit上發(fā)帖寫道,在他周圍來自不同實驗室和大學的一小群人中,有一些令人震驚的做法,這些做法與提交給頂級ML/CV會議的論文有關(guān)。?這位發(fā)帖的博士生注意到,周圍有一小群人(稱為Group X)為通過會議的同行評審(peer review)而且夸大其研究結(jié)果。?這張圖則很好的詮釋了夸大實驗結(jié)果的后果:? 這些來自 Gourp X 的人實際上并沒有做很多的研究,他們只是通過結(jié)合現(xiàn)有的幾篇論文提出一些看似直觀的想法,然后快速實現(xiàn)這些在實踐中可能不會起作用的算法(或者只實現(xiàn)其中的一小部分)。?但是,他們卻會花費大量的時間(長達3-4個月)「用心」地寫論文 :?Nice story, good english。?論文設定了一個故事情節(jié)(storyline),使得論證的數(shù)量遠遠超過了它應該達到的水平。為了支持這些論證,他們夸大了實驗的結(jié)果(包括一些被人為操縱的圖表、數(shù)據(jù)等) ,以使它看起來更吸引同行審查。?由于這些顯而易見的原因,Group X 不開源他們的代碼或數(shù)據(jù)。?對此,有網(wǎng)友回復:?「不公開代碼和數(shù)據(jù)集是另一個促成這種行為的重要原因。有一些會議需要提交代碼,但是很多作者用空的 GitHub repos 或者垃圾代碼實現(xiàn)來繞過這些程序,如果你不花幾個小時或者幾天的時間仔細研究代碼,你就無法運行」。??「不過,一個好的基準沒有那么難。只需將代碼打包成一個簡單的colab,并確保這個colab可以在幾分鐘內(nèi)由計算機系新生運行即可。如果你使用的是大型模型,這可能會很棘手。然而,如果實驗不能輕易復現(xiàn),那么發(fā)表它們又有什么意義呢?」?對于一些圖像領(lǐng)域的論文來說,如果有0行代碼演示它的功能,那作者就可以「花錢請人把論文實驗的照片PS一下,沒有人會知道」。?這些人是利用了這樣一個事實:計算機視覺是一個應用領(lǐng)域 ,實際上很容易提出模型、算法,而不需要做太多的理論/數(shù)學工作。Group X 會特別選擇那些評審人員對夸大的結(jié)果不那么懷疑的主題和領(lǐng)域來發(fā)表論文。??最令人擔憂的是,這些論文中的很大一部分已經(jīng)在頂級會議被接受,比如 :CVPR/ICCV/ECCV/BMVC等,有時也被作為 Orals。?帖子的作者表示自己還和 Group X 的一些人談論過這個問題,他了解到這些人對做研究一點也不感興趣,他們讀博士的唯一目的就是在一家薪水豐厚的公司找份工作。?在大公司的機器學習相關(guān)的簡歷職位列表中,像「頂會一作優(yōu)先」這樣的要求可能是導致這些錯誤做法的原因。?圖:某公司招聘要求?同樣在管理層面上,參與這些出版物的主管或私營機構(gòu)也間接支持這些做法。?最后,作者還表示并不是要以偏概全,這僅僅只是基于他接觸過的一小部分人而已,他也見過非常多對于研究充滿熱情的博士生和研究人員。?對此,你是如何看待這種現(xiàn)象的呢???參考鏈接:https://www.reddit.com/r/MachineLearning/comments/l0oce8/d_witnessed_malpractices_in_mlcv_research_papers/