<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          百余大佬署名AI論文被爆抄襲!智源現(xiàn)已致歉

          共 6007字,需瀏覽 13分鐘

           ·

          2022-04-18 14:32

          ↑ 點擊藍(lán)字?關(guān)注極市平臺

          來源丨新智元
          編輯丨極市平臺

          極市導(dǎo)讀

          ?

          最近,一篇由智源研究院等組織百余名作者的綜述報告「大模型路線圖」被曝抄襲,震撼了整個AI界!>>加入極市CV技術(shù)交流群,走在計算機(jī)視覺的最前沿

          2022年4月初,一起AI界的學(xué)術(shù)不端事件可謂是「引爆」了整個學(xué)術(shù)圈。
          ?
          涉及到的100位作者,無一不是業(yè)內(nèi)大佬。
          ?
          知乎討論也從第一天最初的幾萬瀏覽量,飛漲到了現(xiàn)在的600多萬。


          對此,我們可以引用知乎用戶、倫敦瑪麗皇后大學(xué)學(xué)子「謝圜不是真名」的一句話來進(jìn)行總結(jié):
          ?
          「學(xué)術(shù)聲譽(yù)的建立是一輩子的事情,然而要推倒只需要一瞬間。」
          ?

          智源官方宣布道歉


          2022年4月13日晚,智源研究院作為這一綜述文章的組織者,在知乎的官方賬號上發(fā)表公開致歉信,稱「從互聯(lián)網(wǎng)上獲悉」此事,承認(rèn)涉事論文有抄襲的部分,并向?qū)W界與公眾表示歉意。
          ?
          ?

          公開致歉信中,智源研究院提到了論文的研究領(lǐng)域綜述性質(zhì),由百余名作者分多組「并單獨署名」撰寫多篇文章綜合而成。智源未能做到「理應(yīng)對…所有內(nèi)容嚴(yán)格審核」。

          ?

          在承認(rèn)過失的部分,智源研究院的致歉信承認(rèn)了爆料者Nicholas Carlini在其個人博客上曝出的部分指控抄襲部分確有其事,論文即將在預(yù)印本網(wǎng)站上更新的版本已刪除這些內(nèi)容,其他進(jìn)展等待正式調(diào)查報告并已開展追責(zé)處理。


          據(jù)悉,這是一篇報告而不是論文。也就相當(dāng)于是16篇文章的合集,其中的內(nèi)容是由各個作者獨立完成和署名的。
          ?
          ?
          致歉信中最后表示智源研究院將「根據(jù)正式調(diào)查結(jié)果對相關(guān)責(zé)任人作出問責(zé)處理」,不過尚未提及具體責(zé)任人。
          ?
          4月13日上午,智源研究院的官方推特賬號也發(fā)布了簡短的致歉聲明,內(nèi)容與致歉信類似。
          ?
          ?
          哈佛預(yù)備講師、創(chuàng)業(yè)公司Mosaic Machine Learning的總研究科學(xué)家Jonathan Frankle跟帖表示:我等著看后續(xù)。
          ?
          ?

          一篇綜述引發(fā)的「血案」


          整個事件,還是要從這篇在3月26日上傳至arXiv的「A Roadmap for Big Model」說起。
          ?
          ?
          不得不說,如此大規(guī)模的「作者團(tuán)」也就能在Nature、Science等頂刊中偶爾瞥見。
          ?
          而近一半的共同一作,和四分一的共同通訊作者則實屬罕見。
          ?
          隨后,作者又分別在3月30日和4月2日對版本進(jìn)行了更新,這其中也涉及到了作者名單的變動。
          ?
          ?
          這篇論文不僅談到了大模型技術(shù)本身,還有訓(xùn)練大模型的前提條件。
          ?
          研究分為四個部分:資源、模型、關(guān)鍵技術(shù)以及應(yīng)用。
          ?
          并介紹了16個有關(guān)大模型,分別是:數(shù)據(jù)、知識、計算系統(tǒng)、平行訓(xùn)練系統(tǒng)、語言模型、視覺模型、多模塊模型、理論&可解釋性、常識推理、可靠性&安全、治理、評估、機(jī)器翻譯、文本生成,以及對話和蛋白質(zhì)研究。
          ?
          在論文的最后,研究人員從更加宏觀的角度總結(jié)了大模型未來的發(fā)展。
          ?
          而這,只是一切的開始。
          ?

          被抄的谷歌研究員親自爆料抄襲

          ?
          2022年4月8日,來自谷歌大腦的研究員Nicholas Carlini在其個人博客上貼出文章「機(jī)器學(xué)習(xí)研究中的剽竊事例」(A Case of Plagiarism in Machine Learning Research)。
          ?
          其中條分縷析、清楚克制地指明了「大模型路線圖」(A Roadmap for Big Model)的抄襲實跡:
          ?
          「大模型路線圖」一文確實抄襲了他所在研究組2021年7月發(fā)表在預(yù)印本網(wǎng)站上的論文「復(fù)制訓(xùn)練數(shù)據(jù)讓語言模型更優(yōu)」(Deduplicating Training Data Makes Language Models Better)。此外,「大模型」一文還涉嫌抄襲十余篇其他論文。
          ?
          Nicholas Carlini含蓄地表示:「大模型」一文「復(fù)制粘貼」了一篇關(guān)于數(shù)據(jù)復(fù)制效果的論文,此舉實在諷刺到無法被忽視。
          ?
          不過Nicholas Carlini也忠厚地體諒了有關(guān)涉事者:「從大局來看,這次復(fù)制粘貼并不是最惡劣的事。這又不是此論文直接抄襲了過往研究的方法與結(jié)論、然后自稱這是開創(chuàng)性新研究成果。
          ?
          不過即便如此,領(lǐng)域總括性綜述的價值在于如何重新表述/定義研究領(lǐng)域。直接復(fù)制粘貼之前其他論文內(nèi)容的長篇總括性綜述,并不比簡短的引用列表的用處更大。」
          ?
          4月13日,在事件被更多人了解并關(guān)注后,Nicholas Carlini在此文中補(bǔ)充了更新內(nèi)容:
          ?
          本文受到了我預(yù)期外的太多關(guān)注。本文的每小時新增瀏覽量都多過我博客上周的一周全站瀏覽量。
          ?
          所以在此懇求,不要讓此事發(fā)酵成一場獵巫迫害。我看到已有人稱應(yīng)該馬上把肇事論文相關(guān)人等全部開除、預(yù)印本網(wǎng)站應(yīng)對他們完全禁入等等。
          ?
          我并不假裝了解肇事論文何以如此廣泛抄襲的幕后原因,因此我不多做論斷。
          ?
          可能是一些初級作者并無惡意,以為有引用來源就可以復(fù)制粘貼。也可能是學(xué)生們受到來自導(dǎo)師的壓力,覺得要按時交稿就只好走捷徑。高級作者們可能只讀了遍文本,認(rèn)為無大礙就小修小補(bǔ)后放行,不清楚文本的來源為何。
          ?
          關(guān)鍵在于,此事幕后因由現(xiàn)在仍未公開。此論文有過百名作者,任何事都有可能發(fā)生。
          ?
          我發(fā)布此貼文的愿望,是想給學(xué)界常見的積弊招來更多關(guān)注。學(xué)界有近1%的已發(fā)表和被接受的論文,其數(shù)據(jù)復(fù)制粘貼比率比「大模型」一文還要高。
          ?
          我該在寫此貼的一開始就說清這個背景。所以再次請大家不用對肇事論文過苛。抄襲是學(xué)界常見之弊,我對此事更警醒,是因為被抄襲的是我的論文。希望大家可以將此作為提高學(xué)界整體質(zhì)量的嚴(yán)肅學(xué)習(xí)經(jīng)驗。
          ?

          判定流程

          ?
          Nicholas Carlini在其博客文章中稱,在發(fā)現(xiàn)「大模型」一文有抄襲后,他與研究組同事將幾乎所有機(jī)器學(xué)習(xí)領(lǐng)域的頂會、頂刊論文的PDF文件下載、然后提取所有其中的文本、再錄入單個txt文檔中,獲得對比用的數(shù)據(jù)集。
          ?
          最后Nicholas Carlini與同事使用-自家被抄襲論文中的-數(shù)據(jù)集復(fù)制工具,將「大模型」一文與對比數(shù)據(jù)集一跑,發(fā)現(xiàn)了「大模型」一文的抄襲部分。
          ?
          博客文章中列舉了十處抄襲最昭彰的部分,其中五處的主干部分已被智源研究院的致歉信承認(rèn)。
          ?
          以下是Nicholas Carlini博文中列舉的、智源研究院承認(rèn)的抄襲處與原文對比的示例,左側(cè)標(biāo)綠部分為抄襲后的文本,右側(cè)為原文對照文本。
          ?
          ?
          ?
          ?
          ?
          ?
          為了避免假陽性,Nicholas Carlini列舉了自己認(rèn)定抄襲的標(biāo)準(zhǔn):
          ?
          1、在文本空格規(guī)范化后,至少有十個字詞以上的抄襲雷同處;
          2、在「大模型」一文中依順序出現(xiàn);
          3、在之前的其他論文中有出現(xiàn);
          4、但不在之前一篇以上的論文中出現(xiàn)。
          ?
          如此可以避免軟件工具將論文的版權(quán)聲明部分、此前論文對更前論文的引用、此前各篇論文的作者這些理應(yīng)出現(xiàn)雷同處的部分認(rèn)作抄襲。
          ?
          Nicholas Carlini稱,他們的軟件工具還跑出來不少「大模型」一文作者們自我抄襲的部分。不過相較于對他人論文的肆意赤裸抄襲,「我抄我自己」簡直不算什么大事了。
          ?
          Nicholas Carlini還表示,由于篩選工具的急就性質(zhì)、和對比數(shù)據(jù)集的不完備性(只包括已在學(xué)刊上發(fā)表的論文,不包括預(yù)印本網(wǎng)站論文),很可能還有更多的抄襲部分尚未被發(fā)現(xiàn)。無論如何,現(xiàn)有程度已經(jīng)很令人傷感了。
          ?
          「大模型」一文隨后也被arXiv官方做了標(biāo)注:與其他作者的文字「重合」。
          ?
          ?
          此外,也有國內(nèi)的網(wǎng)友對文章進(jìn)行了源頭對比,其中紫色的是無抄襲的,黃色的是涉嫌抄襲的。部分作者沒有出現(xiàn)在具體章節(jié)里但是在總作者名單里。
          ?
          ?
          除了對自己文章進(jìn)行了一波排查以外,Nicholas也與其他可能被抄襲的作者取得了聯(lián)系。
          ?
          其中一個收到郵件的網(wǎng)友表示,現(xiàn)在很多人對于抄襲的重視和了解程度是不夠的。
          ?
          copy-past是抄襲,copy-paste-edit是抄襲,截圖是抄襲,復(fù)制別人arxiv上的latex公式也是抄襲。
          ?
          ?
          這次的事件影響之大,對整個華人學(xué)者的聲譽(yù)都帶來了沉重的打擊。
          ?
          AI業(yè)界的研究者紛紛在社交網(wǎng)站上表示疑惑:即使有任務(wù)分工、或者掛名現(xiàn)象,百多號作者沒一個細(xì)讀過自己要掛名的東西么?
          ?
          ?
          ?

          學(xué)術(shù)不端擦邊球,亟須重視!

          ?
          科學(xué)道德與學(xué)術(shù)規(guī)范,這大概是國內(nèi)所有研究生都必須要上的課程。
          ?
          在北京大學(xué)等高校,還有一年一度的科學(xué)道德與學(xué)術(shù)規(guī)范基本知識測試,同時還對不符合科學(xué)道德與學(xué)術(shù)規(guī)范的行為進(jìn)行量化,制定了明確的、從處分到開除的,一系列懲罰措施。
          ?
          看起來我們的體系已經(jīng)足夠完善了,可事實上抄襲、剽竊等情況還是時有發(fā)生。
          ?

          給我翻譯翻譯,什么叫「抄襲」?

          ?
          那么,什么程度才算抄襲?抄襲和引用的區(qū)別又是什么?
          ?
          這些標(biāo)準(zhǔn)不能靠上下嘴唇一碰張口就來,而必須有明確的、可量化、可執(zhí)行的標(biāo)準(zhǔn)。
          ?
          著名的中文查重平臺PaperPass就在其官網(wǎng)上給出了有關(guān)抄襲的認(rèn)定標(biāo)準(zhǔn)。
          ?
          ?
          可以看到其中對于抄襲判定的量化規(guī)定:連續(xù)引用200字且未注明出處、直接翻譯或復(fù)制、重排超過15%的內(nèi)容等等。以及,照搬他人論文或著作中的實驗結(jié)果、分析、系統(tǒng)設(shè)計以及問題解決辦法而未注明出處、未說明借鑒來源等等。
          ?
          出于嚴(yán)謹(jǐn)起見,我們給出照搬的定義:照原樣不動地搬用(現(xiàn)成的方法、經(jīng)驗、教材等)。
          ?
          與此同時,在認(rèn)定為抄襲之后,對于抄襲程度的判定同樣有規(guī)可循。重復(fù)內(nèi)容占比的三條劃線分別為不到30%、30%~50%之間、50%以上,分別判定為輕度、中度、嚴(yán)重抄襲。
          ?
          此外,IEEE對抄襲也有相關(guān)的規(guī)定。有非常明確的分級標(biāo)準(zhǔn),共五級。
          ?
          其中第一級是最嚴(yán)重的,定義為:未注明引用的、全文一字不差的照搬;未注明引用的、對主要部分超過50%的、一字不差的照搬;以及一名作者的多篇論文內(nèi)都有一字不差的照搬、且總量超過50%。
          ?
          第二級:未注明引用的、一字不差的、對一篇文章20%到50%內(nèi)容的照搬。
          ?
          第三級:未注明引用的、一字不差的、對一篇文章中段落、句子的照搬,總量20%以下,且使用在抄襲論文中的主要部分。
          ?
          第四級:未注明引用的、對篇章段落不合適的轉(zhuǎn)述。
          ?
          第五級是評判標(biāo)準(zhǔn)中最輕的:注明引用的、但界限不明的、一字不差的、對一篇文章中主要部分的照搬。
          ?

          有國內(nèi)網(wǎng)友稱,本次智源抄襲事件是第五級,處置還算及時妥善。

          ?
          可見,在這套清晰的框架下,任何不端行為皆無處遁形。
          ?
          IEEE分級標(biāo)準(zhǔn):https://www.ieee.org/content/dam/ieee-org/ieee/web/org/pubs/Level_description.pdf
          ?

          掛名掛出一個「海」

          ?
          此外,對于這次的「大抄襲」事件,有相當(dāng)多的網(wǎng)友對論文的「署名」提出了質(zhì)疑。
          ?
          在此前的學(xué)術(shù)不端事件中,知乎答主「Summer Clover」就曾指出,現(xiàn)在的paper不僅從灌水變成了抄襲和洗稿,而且還時常出現(xiàn)「掛名成風(fēng)」的現(xiàn)象。
          ?
          ?
          實際上,掛名問題由來已久。通常來說,分為利己型和利他型。
          ?
          要么就是掛一些知名人士的名字上去,以增加文章發(fā)表在更高級期刊上的概率,而這些知名人士可能對論文撰寫并無任何貢獻(xiàn)。
          ?
          要么就是出于情感因素,掛上不相干的人的名字。
          ?
          你掛我名,我掛你名,互利互惠,互相貼金。
          ?
          而文章的水分,可能比太平洋里的還多。

          學(xué)術(shù)規(guī)范,就在地平線上

          ?
          不得不說,在學(xué)術(shù)行為規(guī)范這塊,中國還有挺長的路要走。
          ?
          小編在撰寫這篇文章大量查閱了近幾年的畢業(yè)論文抄襲的相關(guān)新聞事件。用一個詞來概括就是,「層出不窮」。
          ?
          比如,湖南大學(xué)2016屆軟件工程碩士畢業(yè)生陳某,他的碩士學(xué)位論文「面向新媒體的新聞縮寫關(guān)鍵技術(shù)研究」就被舉報抄襲。
          ?
          北京理工大學(xué)張華平博士發(fā)現(xiàn),陳某原封不動抄襲了他帶的研究生趙連偉的「面向新媒體的新聞縮寫關(guān)鍵技術(shù)研究」,標(biāo)題竟也一字未動。
          ?
          ?
          湖南大學(xué)立即開展相關(guān)核查工作,于2021年11月3日在微博發(fā)布說明,撤銷了陳某的碩士學(xué)位。
          ?
          ?
          同時,他的導(dǎo)師唐某某也被撤掉了研究生指導(dǎo)教師資格。
          ?
          在湖南大學(xué)的說明發(fā)出后,張博士也發(fā)了一條微博,給整件事收了尾。
          ?
          ?
          學(xué)生論文抄襲,往淺了說,導(dǎo)師根本沒有認(rèn)真核查、指導(dǎo),就給予了通過,未盡到責(zé)任。往深了說,可能涉及縱容抄襲的情況。無論導(dǎo)師未能及時發(fā)現(xiàn)抄襲情況的原因為何,確實是出現(xiàn)失職了。
          ?
          其實,肅清學(xué)術(shù)風(fēng)氣無外乎兩條路可走。一是加強(qiáng)科學(xué)道德與學(xué)術(shù)規(guī)范建設(shè),另一個就是嚴(yán)懲出現(xiàn)學(xué)術(shù)不端行為的個人。
          ?
          北京大學(xué)自2020年起,開通研究生科學(xué)道德與學(xué)術(shù)規(guī)范的網(wǎng)絡(luò)學(xué)習(xí)平臺。研究生入學(xué)后就要先自學(xué)相關(guān)建設(shè)宣講大綱和規(guī)范指南。自學(xué)完畢還要完成相關(guān)測試,合格率通過方可過關(guān)。
          ?
          這和考駕照的科目一類似。如同一個人在熟諳交規(guī)之前不可以駕車上路一樣,研究生不充分了解科學(xué)道德與學(xué)術(shù)規(guī)范的相關(guān)要求,也沒道理能被允許開始研究。
          ?
          ?
          當(dāng)然,這些測試更多起到預(yù)警目的。真正重要的不是通過測試,而是在進(jìn)行研究和論文撰寫時牢記這些要求,每時每刻踐行。
          ?
          如果出現(xiàn)學(xué)術(shù)不端的行為,相關(guān)懲罰措施同樣不能缺席。
          ?
          比如,清華大學(xué)在學(xué)生紀(jì)律處分管理規(guī)定實施細(xì)則就明確規(guī)定了一系列懲罰措施。
          ?
          ?
          可以看到,出現(xiàn)任何學(xué)術(shù)不端行為,都會受到嚴(yán)厲的處罰。就像競技體育打假賽、踢假球一樣,學(xué)術(shù)造假、抄襲、剽竊、盜用,都是無法洗白的事,碰也不能碰。
          ?
          借用知名電競教練阿布評價假賽選手的一句話,「碰了假賽就必死,無關(guān)輕重。」
          ?
          我想學(xué)術(shù)不端也是一樣,這關(guān)乎一個人的品性問題,以及整個大環(huán)境的清朗。
          ?
          從翟天臨事件就可以看出,學(xué)術(shù)不端是大忌。

          沒有借口、不該姑息、必須重罰。

          參考資料:

          https://www.zhihu.com/question/527620020/answer/2436752217

          https://zhuanlan.zhihu.com/p/498064778

          https://nicholas.carlini.com/writing/2022/a-case-of-plagarism-in-machine-learning.html



          公眾號后臺回復(fù)“CVPR 2022”獲取論文打包合集下載~

          △點擊卡片關(guān)注極市平臺,獲取最新CV干貨
          極市干貨
          數(shù)據(jù)集資源匯總:10個開源工業(yè)檢測數(shù)據(jù)集匯總21個深度學(xué)習(xí)開源數(shù)據(jù)集分類匯總
          算法trick目標(biāo)檢測比賽中的tricks集錦從39個kaggle競賽中總結(jié)出來的圖像分割的Tips和Tricks
          技術(shù)綜述:一文弄懂各種loss function工業(yè)圖像異常檢測最新研究總結(jié)(2019-2020)


          #?CV技術(shù)社群邀請函?#

          △長按添加極市小助手
          添加極市小助手微信(ID : cvmart4)

          備注:姓名-學(xué)校/公司-研究方向-城市(如:小極-北大-目標(biāo)檢測-深圳)


          即可申請加入極市目標(biāo)檢測/圖像分割/工業(yè)檢測/人臉/醫(yī)學(xué)影像/3D/SLAM/自動駕駛/超分辨率/姿態(tài)估計/ReID/GAN/圖像增強(qiáng)/OCR/視頻理解等技術(shù)交流群


          每月大咖直播分享、真實項目需求對接、求職內(nèi)推、算法競賽、干貨資訊匯總、與?10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動交流~


          覺得有用麻煩給個在看啦~??
          瀏覽 33
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  天天做天天日天天干 | 99在线精品免费视频 | 俺去啦在线观看 | 日嫩B视频 | 国内毛片毛片毛片毛片毛片毛片毛片毛片毛片毛片毛片毛片 |