<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          AI 自動(dòng)補(bǔ)全神器,GitHub Copilot 結(jié)果補(bǔ)出來(lái)了一張身份證?

          共 2351字,需瀏覽 5分鐘

           ·

          2021-10-13 20:54

          不點(diǎn)藍(lán)字關(guān)注,我們哪來(lái)故事?




          正文如下

          來(lái)源:量子位,明敏 發(fā)自 凹非寺



          AI 自動(dòng)補(bǔ)全代碼,結(jié)果補(bǔ)出來(lái)了一張別人的身份證?

          GitHub Copilot 又出神操作了。

          有人在推特上曬圖,表示自己在使用 GitHub Copilot 時(shí),它竟然給補(bǔ)全出了一張身份證信息出來(lái)。

          輸入 B 站 CEO 陳睿的信息后,下方竟然自動(dòng)補(bǔ)出了身份證號(hào)

          這操作確實(shí)夠嚇人的。

          網(wǎng)友就表示:恐成社工庫(kù)利器啊!

          不過(guò)恐慌之際,眼尖的網(wǎng)友們很快發(fā)現(xiàn)了問(wèn)題:

          顯示的身份證號(hào)其實(shí)是假的,其中出生年份和校驗(yàn)位明顯都是錯(cuò)的。

          陳睿應(yīng)該是 1978 年生,而這里的證件號(hào)上顯示為 1988。

          叔叔我啊,變年輕了

          也就是說(shuō),這串所謂的身份證號(hào),其實(shí)是 GitHub Copilot 自動(dòng)生成的假數(shù)據(jù)。

          這讓人們提起來(lái)的心稍微放下了一些。

          但是原本是生成代碼的 GitHub Copilot,怎么會(huì)生成個(gè)人隱私信息呢?

          吃了的,不經(jīng)意又吐出來(lái)

          這和 GitHub Copilot 的工作原理有一定關(guān)系。

          GitHub Copilot 由 Codex 模型支持,它可以看做是 GPT-3 的升級(jí)版,既能看懂代碼、也能看懂自然語(yǔ)言。

          一方面,GitHub Copilot 為了能看懂注釋,需要接受像 GPT-3 一樣的語(yǔ)言訓(xùn)練。

          語(yǔ)言模型在生成結(jié)果時(shí),往往會(huì)隨機(jī)表現(xiàn)出某些訓(xùn)練數(shù)據(jù)的特征。

          也就是模型 “記住了” 見過(guò)的數(shù)據(jù)信息,處理任務(wù)時(shí),把它 “吃進(jìn)去” 的訓(xùn)練數(shù)據(jù)又 “吐了出來(lái)”。

          而對(duì)于 GPT-3、BERT 這些超大型語(yǔ)言模型來(lái)說(shuō),訓(xùn)練數(shù)據(jù)集的來(lái)源往往包羅萬(wàn)象,大部分是從網(wǎng)絡(luò)公共信息中抓取,其中免不了個(gè)人敏感信息,比如姓名、地址、身份證號(hào)等等。

          有人就表示,b 站高層的個(gè)人信息可能早就被人惡意曝光了。

          這一次很可能是 GitHub Copilot 在生成結(jié)果時(shí),隨機(jī)表現(xiàn)出了一些訓(xùn)練數(shù)據(jù)的特征,這部分?jǐn)?shù)據(jù)剛好來(lái)自陳睿的隱私信息。

          事實(shí)上,GitHub 的 CEO Nat Friedman 也回應(yīng)過(guò)類似的問(wèn)題。

          他表示 GitHub Copilot 給出的隱私信息都是假的,是通過(guò)訓(xùn)練數(shù)據(jù)合成而來(lái)。

          而前不久曝出的 Copilot 抄襲大神代碼、原版注釋一事,直接讓 Nat 這番回應(yīng)啪啪打臉。

          自動(dòng)生成的代碼不僅和原版一樣,連 “what the fuck” 那句注釋也用上了。

          GitHub Copilot 復(fù)刻 Quake 代碼

          另一方面,GitHub Copilot 是由數(shù)十億行公開代碼訓(xùn)練的。

          有人認(rèn)為,這可能是訓(xùn)練集中的原始代碼就違反了相關(guān)隱私條款。

          GitHub Copilot 受到錯(cuò)誤代碼的影響,意外把陳睿的個(gè)人信息從數(shù)據(jù)集里套了出來(lái)。

          雖然這次情況可能只是個(gè)意外,但是也暴露了 GitHub Copilot 在安全隱私上存在許多風(fēng)險(xiǎn)。

          有網(wǎng)友就對(duì) GitHub Copilot 的敏感信息處理,表示擔(dān)憂:

          倒是說(shuō)會(huì)對(duì)敏感信息處理,但是我覺(jué)得總會(huì)有漏的。

          小米開源技術(shù)委員會(huì)主席、小米副總裁崔寶秋則表示,這提醒了用戶要注意自己的安全隱私保護(hù),個(gè)人數(shù)據(jù)要記得匿名化。

          GitHub Copilot 爭(zhēng)議不斷

          事實(shí)上,GitHub Copilot 從上線以來(lái)就爭(zhēng)議不斷:

          直接照抄源代碼、沒(méi)有開源許可證;

          由公共代碼庫(kù)訓(xùn)練,卻要以付費(fèi)商品上線;

          ……

          除了安全隱私上的風(fēng)險(xiǎn),openAI 還發(fā)現(xiàn) GitHub Copilot 的模型 Codex 與 GPT-3 一樣,會(huì)生成帶有種族主義或其他倫理問(wèn)題的結(jié)果。

          最近,自由軟件基金會(huì)(Free Software Foundation,F(xiàn)SF)也發(fā)出了抗議,他們表示使用 GitHub Copilot 必須運(yùn)行 Visual Studio IDE 或 Visual Studio Code 這種付費(fèi)軟件,侵犯了用戶的權(quán)益。

          為此,F(xiàn)SF 正在向大眾征集 GitHub Copilot 在版權(quán)、法律等問(wèn)題的投稿。

          對(duì)于這一抗議,GitHub 方面則表示愿意對(duì)任何問(wèn)題持開放態(tài)度。

          “這是一個(gè)全新的領(lǐng)域,我們渴望與開發(fā)者就這些話題進(jìn)行討論,并引領(lǐng)行業(yè)為訓(xùn)練人工智能模型制定適當(dāng)?shù)臉?biāo)準(zhǔn)?!?/p>

          參考鏈接:
          [1]https://twitter.com/DeltonDing/status/1423651446340259840

          [2]https://venturebeat.com/2021/07/08/openai-warns-ai-behind-githubs-copilot-may-be-susceptible-to-bias/
          [3]https://www.infoworld.com/article/3627319/github-copilot-is-unacceptable-and-unjust-says-free-software-foundation.html

          往期推薦

          深度:工程師什么時(shí)機(jī)最合適選擇跳槽?

          面試問(wèn)題:Redis 分布式鎖的細(xì)節(jié)

          國(guó)慶,我 “失業(yè)” 了 !

          如果避免反射導(dǎo)致的性能問(wèn)題?

          MySQL從原理到調(diào)優(yōu),一篇講清楚了


          -END-

          ↑ 點(diǎn)擊上方關(guān)注我公號(hào)  


          我是 泥瓦匠,堅(jiān)持分享編程,算法,Java 等干貨教程


          一枚醫(yī)科大本科生,開源小作者,半吊子創(chuàng)業(yè)愛(ài)好者...

          半吊子的自己在試錯(cuò),不知道以后會(huì)干什么,但享受現(xiàn)在的試錯(cuò),試錯(cuò)給我驚訝的生活


          喜歡公號(hào)的互動(dòng)分享,感謝關(guān)注,路上遇見了你,同一小段時(shí)間之路,相伴 ~



          長(zhǎng)按識(shí)別,加我微信



          點(diǎn)個(gè)在看結(jié)對(duì)編程一把


          瀏覽 49
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  日韩高清免费AV一区二区三区 | 操逼欧美国产 | 藤浦惠一区二区三区免费观看 | 伊人大香蕉在线免费 | 欧美黄色成人视频 |