B 站 CEO 的身份證被上傳到 GitHub 了?
來源丨量子位(ID:QbitAI)
明敏 發(fā)自 凹非寺

AI 自動補(bǔ)全代碼,結(jié)果補(bǔ)出來了一張別人的身份證?
GitHub Copilot 又出神操作了。
有人在推特上曬圖,表示自己在使用 GitHub Copilot 時,它竟然給補(bǔ)全出了一張身份證信息出來。

輸入 B 站 CEO 陳睿的信息后,下方竟然自動補(bǔ)出了身份證號。
這操作確實(shí)夠嚇人的。
網(wǎng)友就表示:恐成社工庫利器啊!

不過恐慌之際,眼尖的網(wǎng)友們很快發(fā)現(xiàn)了問題:
顯示的身份證號其實(shí)是假的,其中出生年份和校驗(yàn)位明顯都是錯的。
陳睿應(yīng)該是 1978 年生,而這里的證件號上顯示為 1988。
叔叔我啊,變年輕了

也就是說,這串所謂的身份證號,其實(shí)是 GitHub Copilot 自動生成的假數(shù)據(jù)。
這讓人們提起來的心稍微放下了一些。
但是原本是生成代碼的 GitHub Copilot,怎么會生成個人隱私信息呢?
吃了的,不經(jīng)意又吐出來
這和 GitHub Copilot 的工作原理有一定關(guān)系。
GitHub Copilot 由 Codex 模型支持,它可以看做是 GPT-3 的升級版,既能看懂代碼、也能看懂自然語言。
一方面,GitHub Copilot 為了能看懂注釋,需要接受像 GPT-3 一樣的語言訓(xùn)練。
語言模型在生成結(jié)果時,往往會隨機(jī)表現(xiàn)出某些訓(xùn)練數(shù)據(jù)的特征。
也就是模型 “記住了” 見過的數(shù)據(jù)信息,處理任務(wù)時,把它 “吃進(jìn)去” 的訓(xùn)練數(shù)據(jù)又 “吐了出來”。
而對于 GPT-3、BERT 這些超大型語言模型來說,訓(xùn)練數(shù)據(jù)集的來源往往包羅萬象,大部分是從網(wǎng)絡(luò)公共信息中抓取,其中免不了個人敏感信息,比如姓名、地址、身份證號等等。
有人就表示,b 站高層的個人信息可能早就被人惡意曝光了。

這一次很可能是 GitHub Copilot 在生成結(jié)果時,隨機(jī)表現(xiàn)出了一些訓(xùn)練數(shù)據(jù)的特征,這部分?jǐn)?shù)據(jù)剛好來自陳睿的隱私信息。
事實(shí)上,GitHub 的 CEO Nat Friedman 也回應(yīng)過類似的問題。
他表示 GitHub Copilot 給出的隱私信息都是假的,是通過訓(xùn)練數(shù)據(jù)合成而來。
而前不久曝出的 Copilot 抄襲大神代碼、原版注釋一事,直接讓 Nat 這番回應(yīng)啪啪打臉。
自動生成的代碼不僅和原版一樣,連 “what the fuck” 那句注釋也用上了。
△GitHub Copilot 復(fù)刻 Quake 代碼
另一方面,GitHub Copilot 是由數(shù)十億行公開代碼訓(xùn)練的。
有人認(rèn)為,這可能是訓(xùn)練集中的原始代碼就違反了相關(guān)隱私條款。
GitHub Copilot 受到錯誤代碼的影響,意外把陳睿的個人信息從數(shù)據(jù)集里套了出來。

雖然這次情況可能只是個意外,但是也暴露了 GitHub Copilot 在安全隱私上存在許多風(fēng)險(xiǎn)。
有網(wǎng)友就對 GitHub Copilot 的敏感信息處理,表示擔(dān)憂:
倒是說會對敏感信息處理,但是我覺得總會有漏的。

小米開源技術(shù)委員會主席、小米副總裁崔寶秋則表示,這提醒了用戶要注意自己的安全隱私保護(hù),個人數(shù)據(jù)要記得匿名化。

GitHub Copilot 爭議不斷
事實(shí)上,GitHub Copilot 從上線以來就爭議不斷:
直接照抄源代碼、沒有開源許可證;
由公共代碼庫訓(xùn)練,卻要以付費(fèi)商品上線;
……
除了安全隱私上的風(fēng)險(xiǎn),openAI 還發(fā)現(xiàn) GitHub Copilot 的模型 Codex 與 GPT-3 一樣,會生成帶有種族主義或其他倫理問題的結(jié)果。
最近,自由軟件基金會(Free Software Foundation,F(xiàn)SF)也發(fā)出了抗議,他們表示使用 GitHub Copilot 必須運(yùn)行 Visual Studio IDE 或 Visual Studio Code 這種付費(fèi)軟件,侵犯了用戶的權(quán)益。

為此,F(xiàn)SF 正在向大眾征集 GitHub Copilot 在版權(quán)、法律等問題的投稿。
對于這一抗議,GitHub 方面則表示愿意對任何問題持開放態(tài)度。
“這是一個全新的領(lǐng)域,我們渴望與開發(fā)者就這些話題進(jìn)行討論,并引領(lǐng)行業(yè)為訓(xùn)練人工智能模型制定適當(dāng)?shù)臉?biāo)準(zhǔn)?!?/p>
參考鏈接:
[1]https://twitter.com/DeltonDing/status/1423651446340259840
[2]https://venturebeat.com/2021/07/08/openai-warns-ai-behind-githubs-copilot-may-be-susceptible-to-bias/
[3]https://www.infoworld.com/article/3627319/github-copilot-is-unacceptable-and-unjust-says-free-software-foundation.html
-End-
最近有一些小伙伴,讓我?guī)兔φ乙恍?nbsp;面試題 資料,于是我翻遍了收藏的 5T 資料后,匯總整理出來,可以說是程序員面試必備!所有資料都整理到網(wǎng)盤了,歡迎下載!

面試題】即可獲取
