整個事件,還是要從這篇在3月26日上傳至arXiv的「A Roadmap for Big Model」說起。??不得不說,如此大規(guī)模的「作者團」也就能在Nature、Science等頂刊中偶爾瞥見。?而近一半的共同一作,和四分一的共同通訊作者則實屬罕見。?隨后,作者又分別在3月30日和4月2日對版本進行了更新,這其中也涉及到了作者名單的變動。??這篇論文不僅談到了大模型技術(shù)本身,還有訓練大模型的前提條件。?研究分為四個部分:資源、模型、關(guān)鍵技術(shù)以及應(yīng)用。?并介紹了16個有關(guān)大模型,分別是:數(shù)據(jù)、知識、計算系統(tǒng)、平行訓練系統(tǒng)、語言模型、視覺模型、多模塊模型、理論&可解釋性、常識推理、可靠性&安全、治理、評估、機器翻譯、文本生成,以及對話和蛋白質(zhì)研究。?在論文的最后,研究人員從更加宏觀的角度總結(jié)了大模型未來的發(fā)展。?而這,只是一切的開始。?
被抄的谷歌研究員親自爆料抄襲
?2022年4月8日,來自谷歌大腦的研究員Nicholas Carlini在其個人博客上貼出文章「機器學習研究中的剽竊事例」(A Case of Plagiarism in Machine Learning Research)。?其中條分縷析、清楚克制地指明了「大模型路線圖」(A Roadmap for Big Model)的抄襲實跡:?「大模型路線圖」一文確實抄襲了他所在研究組2021年7月發(fā)表在預(yù)印本網(wǎng)站上的論文「復(fù)制訓練數(shù)據(jù)讓語言模型更優(yōu)」(Deduplicating Training Data Makes Language Models Better)。此外,「大模型」一文還涉嫌抄襲十余篇其他論文。?Nicholas Carlini含蓄地表示:「大模型」一文「復(fù)制粘貼」了一篇關(guān)于數(shù)據(jù)復(fù)制效果的論文,此舉實在諷刺到無法被忽視。?不過Nicholas Carlini也忠厚地體諒了有關(guān)涉事者:「從大局來看,這次復(fù)制粘貼并不是最惡劣的事。這又不是此論文直接抄襲了過往研究的方法與結(jié)論、然后自稱這是開創(chuàng)性新研究成果。?不過即便如此,領(lǐng)域總括性綜述的價值在于如何重新表述/定義研究領(lǐng)域。直接復(fù)制粘貼之前其他論文內(nèi)容的長篇總括性綜述,并不比簡短的引用列表的用處更大。」?4月13日,在事件被更多人了解并關(guān)注后,Nicholas Carlini在此文中補充了更新內(nèi)容:?本文受到了我預(yù)期外的太多關(guān)注。本文的每小時新增瀏覽量都多過我博客上周的一周全站瀏覽量。?所以在此懇求,不要讓此事發(fā)酵成一場獵巫迫害。我看到已有人稱應(yīng)該馬上把肇事論文相關(guān)人等全部開除、預(yù)印本網(wǎng)站應(yīng)對他們完全禁入等等。?我并不假裝了解肇事論文何以如此廣泛抄襲的幕后原因,因此我不多做論斷。?可能是一些初級作者并無惡意,以為有引用來源就可以復(fù)制粘貼。也可能是學生們受到來自導師的壓力,覺得要按時交稿就只好走捷徑。高級作者們可能只讀了遍文本,認為無大礙就小修小補后放行,不清楚文本的來源為何。?關(guān)鍵在于,此事幕后因由現(xiàn)在仍未公開。此論文有過百名作者,任何事都有可能發(fā)生。?我發(fā)布此貼文的愿望,是想給學界常見的積弊招來更多關(guān)注。學界有近1%的已發(fā)表和被接受的論文,其數(shù)據(jù)復(fù)制粘貼比率比「大模型」一文還要高。?我該在寫此貼的一開始就說清這個背景。所以再次請大家不用對肇事論文過苛。抄襲是學界常見之弊,我對此事更警醒,是因為被抄襲的是我的論文。希望大家可以將此作為提高學界整體質(zhì)量的嚴肅學習經(jīng)驗。?