國內(nèi)數(shù)十位AI大牛參與論文被指嚴(yán)重抄襲
大家好,我是陳銳。
感謝大家關(guān)注CRBrain腦世界公眾號。
今天分享內(nèi)容來源網(wǎng)絡(luò),僅供參考。
4 月 13 日消息,據(jù)澎湃新聞報道,北京智源人工智能研究院回復(fù)谷歌大腦的著名科學(xué)家 Nicholas Carlini 對一項中外合作大型學(xué)術(shù)論文涉嫌剽竊的指控稱:“我們已經(jīng)注意到對《A Roadmap for Big Model(關(guān)于“大模型”的路線圖)》一文的質(zhì)疑,正在對相關(guān)情況進行核實,智源研究院鼓勵學(xué)術(shù)創(chuàng)新和學(xué)術(shù)交流,對學(xué)術(shù)不端零容忍,有關(guān)進展將盡快通報。”
2022年3月26日,清華大學(xué)、東北大學(xué)、紐約大學(xué)、北京大學(xué)、哥倫比亞大學(xué)、哈爾濱工業(yè)大學(xué)、北京航空航天大學(xué)、上海交通大學(xué)、蒙特利爾大學(xué)等多單位合作,唐杰等100多為作者在預(yù)印版平臺arXiv 在線發(fā)表題為“A Roadmap for Big Model”的綜述文章,該綜述不僅涵蓋了 BM 技術(shù)本身,還涵蓋了 BM 培訓(xùn)和應(yīng)用 BM 的先決條件,將 BM 審查分為四個部分:資源、模型、關(guān)鍵技術(shù)和應(yīng)用。該綜述在這四個部分中介紹了 16 個具體的 BM 相關(guān)主題,它們是數(shù)據(jù)、知識、計算系統(tǒng)、并行訓(xùn)練系統(tǒng)、語言模型、視覺模型、多模態(tài)模型、理論與可解釋性、常識推理、可靠性與安全性、治理、評估、機器翻譯、文本生成、對話和蛋白質(zhì)研究。在每個主題中,清楚地總結(jié)了當(dāng)前的研究并提出了一些未來的研究方向。在本文的最后,以更一般的觀點總結(jié)了 BM 的進一步發(fā)展。
但是,近期該文章涉嫌抄襲Katherine Lee等人先前發(fā)表的文章,arXiv也在該文章做了文章重疊的警示。

此前 4 月 8 日,這篇數(shù)十位國內(nèi) AI 大牛參與論文被指嚴(yán)重抄襲,Nicholas Carlini 公開撰文,指控一篇于今年 3 月 26 日刊登在論文預(yù)印網(wǎng)站 Arxiv 的論文《關(guān)于“大模型”的路線圖》(A Roadmap for Big Model)一文涉嫌嚴(yán)重抄襲。





該文是前不久國內(nèi)外多家高校和企業(yè)共同完成的長達(dá) 200 頁的學(xué)術(shù)綜述論文,有多達(dá) 100 名作者,分別來自于清華大學(xué)、北京大學(xué)等國內(nèi)高校,哥倫比亞大學(xué)、蒙特利爾大學(xué)等國外高校,字節(jié)跳動、華為、京東、騰訊等企業(yè)以及中科院和北京智源等機構(gòu)。
Nicholas Carlini 在文章《機器學(xué)習(xí)研究中的一個抄襲案例》(“A Case of Plagarism in Machine Learning Research”)中則詳細(xì)列舉了該論文存在大段抄襲其他論文的嫌疑,證據(jù)是大規(guī)模的文本重疊,疑似被剽竊的論文也包括他自己的論文“Deduplicating Training Data Makes Language Models Better”。
此前 3 月 31 日,北京智源社區(qū)撰文以《如何煉大模型?200 頁 pdf100 + 位作者 19 家單位!北京智源清華唐杰等發(fā)布》介紹該篇論文:“隨著以深度學(xué)習(xí)為代表的 AI 技術(shù)的快速發(fā)展,智能模型的訓(xùn)練應(yīng)用模式逐漸由‘大煉模型’向‘煉大模型’轉(zhuǎn)變。大模型研究在近年來發(fā)展迅速,模型的參數(shù)量以驚人的速度擴展。北京智源人工智能研究院最近發(fā)布的《A Roadmap for Big Model》由悟道大模型研究項目負(fù)責(zé)人,智源學(xué)術(shù)副院長,清華大學(xué)計算機系教授唐杰牽頭,從大模型基礎(chǔ)資源、大模型構(gòu)建、大模型關(guān)鍵技術(shù)與大模型應(yīng)用探索 4 個層面出發(fā),對 15 個具體領(lǐng)域的 16 個相關(guān)主題進行全面介紹和探討。非常值得關(guān)注。”


本文轉(zhuǎn)載自以上公眾號和網(wǎng)址,僅供學(xué)習(xí)參考,不作其它用途,有任何疑問及侵權(quán),掃描以下公眾號二維碼添加交流:
