GitHub遭炮轟:Copilot“抄襲”已經(jīng)失控,為訓(xùn)練AI侵權(quán)整個(gè)社區(qū)
共 2085字,需瀏覽 5分鐘
·
2022-02-09 09:04
博雯 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
「他們簡(jiǎn)直是不知羞恥。」
7月7日,一位網(wǎng)友在推特上公開炮轟GitHub:
這位用戶貼出了一封GitHub的郵件回復(fù)。
郵件中,GitHub官方確認(rèn)了他們會(huì)使用所有GitHub公開代碼來(lái)訓(xùn)練Copilot,并且不區(qū)分License類別。
而在之前,明明官方有過(guò)“Copilot是在GPL代碼的基礎(chǔ)上訓(xùn)練出來(lái)的”這種說(shuō)法,但之后GitHub的CEO又表示:
每天都有數(shù)百名GitHub的開發(fā)者在使用Copilot,如果預(yù)覽版進(jìn)展順利的話,我們將計(jì)劃在未來(lái)某個(gè)時(shí)候?qū)⑵鋽U(kuò)展為付費(fèi)產(chǎn)品。
完全就是一副視General Public License如無(wú)物的樣子。
這位博主諷刺到,遵守版權(quán)的只有窮人和無(wú)產(chǎn)者,富人和大公司想怎么做都可以。
這個(gè)消息一出,網(wǎng)友們直接炸了。
“我們不區(qū)分License”
不區(qū)分License類別,這意味著什么?
不管是使用了以下哪一份協(xié)議的代碼,GitHub都有可能拿來(lái)訓(xùn)練Copilot。
△圖源博客《如何選擇開源許可證?》
如果未來(lái)Copilot真的變成付費(fèi)商品,那么對(duì)于很多并不允許被修改后拿去商用的源代碼來(lái)說(shuō),這毫無(wú)疑問(wèn)是一種侵權(quán)行為。
更何況還包括了整個(gè)GitHub里的所有代碼!
在GitHub自己的服務(wù)協(xié)議(ToS)里,他們可都表示“這份協(xié)議并沒(méi)有給GitHub出售您內(nèi)容的權(quán)利”:
不過(guò)有人覺(jué)得事情沒(méi)那么嚴(yán)重:
他們沒(méi)有真正出售代碼,他們賣的是一種代碼組合的模式。
確實(shí),GitHub官方有說(shuō)過(guò)Copilot“通常不會(huì)精確復(fù)制代碼塊”。
但馬上就有人反駁:
可是大量的例子表明Copilot就是在逐字復(fù)制-粘貼代碼塊,實(shí)質(zhì)上不就是在出售別人的代碼嗎?
而且,要是Copilot自動(dòng)生成的代碼就是從別處一字不差的照搬來(lái)的呢?
又或者來(lái)自某個(gè)不允許被商用的源代碼,而用戶又拿著這些自動(dòng)生成的代碼去商用了呢?
不僅是GitHub自己違背版權(quán),這種不顧License的商用也有可能讓用戶在無(wú)意識(shí)間面臨被起訴的風(fēng)險(xiǎn)。
而GitHub Copilot的下載頁(yè)面中,并沒(méi)有與此相關(guān)的法律風(fēng)險(xiǎn)的提示。
最開始曝出這一事件的博主表示:
GitHub以及微軟認(rèn)為,個(gè)人和小型社區(qū)項(xiàng)目的版權(quán)是沒(méi)有價(jià)值的。這也就是為什么他們會(huì)和自由軟件們打成一片;他們從來(lái)都沒(méi)打算尊重過(guò)我們的權(quán)利。
而目前,GitHub還沒(méi)有對(duì)這件事作出回應(yīng)。
抄襲可恥,AI無(wú)罪?
Copilot上周二由GitHub和OpenAI聯(lián)合發(fā)布。
至此,發(fā)布不到兩周,Copilot就深陷“版權(quán)侵犯”的質(zhì)疑之中。
在發(fā)布之初時(shí),GitHub稱:
Copilot可以分析文檔中的字符串、注釋、函數(shù)名稱以及代碼本身,從而生成新的匹配代碼,包括之前調(diào)用的特定函數(shù)。
簡(jiǎn)單來(lái)說(shuō),這就是個(gè)“自動(dòng)代碼生成器”。
剛剛發(fā)布時(shí)有人把Copilot拉去刷Leetcode的題庫(kù),結(jié)果這位“AI程序員”每次都能通過(guò)Leetcode的測(cè)試,代碼生成速度還近乎實(shí)時(shí):
只要寫下一段注釋,Copilot就能補(bǔ)全剩下的代碼,并提出改進(jìn)的建議。
不僅能為真的程序員節(jié)省查找時(shí)間,還能提高編程效率,看起來(lái)好像真的很美好。
但GitHub的CEO的那句要把Copilot商用的未來(lái)期望馬上就引來(lái)了滿城風(fēng)雨。
馬上就有一位網(wǎng)友表示:
根據(jù)他們自己的說(shuō)法,Github Copilot是在GPL代碼的基礎(chǔ)上訓(xùn)練出來(lái)的,這不就是把開源代碼洗成商業(yè)產(chǎn)品嗎。
而這位程序員也提到,Copilot并沒(méi)有做到它說(shuō)的“不會(huì)精準(zhǔn)復(fù)制某個(gè)代碼塊”。
兩天后,另一位網(wǎng)友就驗(yàn)證了這一說(shuō)法。
在這段網(wǎng)友放出的視頻中,只打出Fast Inverse Square Root(平方根倒數(shù)速算法)四個(gè)字,Copilot就“完美復(fù)刻”《雷神之錘3》里的那段著名的算法:
甚至連那句WTF的經(jīng)典注釋都沒(méi)有放過(guò)。
隨后,矛盾進(jìn)一步深化。
7月3日,有開發(fā)者站出來(lái)抵制GitHub Copilot,表示自己再也不會(huì)使用GitHub來(lái)托管代碼:
這位抵制者認(rèn)為:
我不同意GitHub在未經(jīng)授權(quán)和未經(jīng)許可的情況下,使用受版權(quán)保護(hù)的源代碼作為其Copilot產(chǎn)品的訓(xùn)練數(shù)據(jù)。該產(chǎn)品將受版權(quán)保護(hù)的源代碼放入使用者的軟件中,而不告知他們?cè)创a的許可,這導(dǎo)致了對(duì)版權(quán)所有者作品的未經(jīng)授權(quán)和未經(jīng)許可的不當(dāng)使用。
而現(xiàn)在,官方確認(rèn)的“不顧開源許可證,以GitHub上所有開源代碼來(lái)訓(xùn)練”這一事實(shí),更是引爆了整個(gè)社區(qū)。
現(xiàn)在,已經(jīng)有科技公司明確表示:禁止員工使用GitHub Copilot。
參考鏈接:
[1]https://twitter.com/NoraDotCodes/status/1412741339771461635
[2]https://www.reddit.com/r/programming/comments/og8gxv/github_support_just_straight_up_confirmed_in_an/
[3]https://www.qbitai.com/2021/07/25969.html
—完—
@量子位 · 追蹤AI技術(shù)和產(chǎn)品新動(dòng)態(tài)
深有感觸的朋友,歡迎贊同、關(guān)注、分享三連?'?' ? ?
