<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          OpenAI 推出網(wǎng)絡爬蟲 GPTBot,引發(fā)網(wǎng)站抵御潮:信息被爬走就很可能意味著永遠無法刪除

          共 3516字,需瀏覽 8分鐘

           ·

          2023-08-14 07:19

          大數(shù)據(jù)文摘受權轉載自AI前線
          編譯 | 核子可樂、Tina

          不爬取你的頁面數(shù)據(jù),哪來幾十億美元的運營收入?

          OpenAI 在沒有正式宣布的情況下,于本周發(fā)布了一項網(wǎng)站爬蟲規(guī)范。

          網(wǎng)絡爬蟲通常用于掃描網(wǎng)站內(nèi)容以訓練其大型語言模型 (LLM),OpenAI 在一篇新的博客文章中表示:“使用 GPTBot 用戶代理抓取的網(wǎng)頁可能會用于改進未來的模型”,特別是 GPT-4 和潛在的 GPT-5。


          在此之前,OpenAI 剛提交了“GPT-5”商標申請。三周之后,該公司推出了新的爬蟲以及使用規(guī)范。OpenAI 在博文中表示,內(nèi)容發(fā)布者和網(wǎng)站所有者可以據(jù)此拒絕為其提供素材。

          網(wǎng)站需要加強防御

          目前還不清楚 OpenAI 的爬蟲在網(wǎng)上潛伏了多久,盡管有些人懷疑 OpenAI 可能已經(jīng)有一個機器人在數(shù)月或數(shù)年時間里一直在秘密收集每個人的在線數(shù)據(jù)?,F(xiàn)在該公司宣布了一種阻止 GPTBot 的方法,最新發(fā)布的技術文檔描述了如何通過用戶代理令牌和字符串來識別 OpenAI 的網(wǎng)絡爬蟲 GPTBot。在發(fā)送至服務器進行網(wǎng)頁請求的 HTTP 標頭中,OpenAI 公司的軟件會明確使用這些令牌與字符串。

          因此,內(nèi)容發(fā)布者可以在自己 Web 服務器的 robots.txt 文件中添加新條目,告知爬蟲可以做什么、不能做什么。當然,這是假設 GPTBot 會老老實實遵守機器人排除協(xié)議,畢竟也有不少機器人會對規(guī)則熟視無睹。例如,以下 robts.txt 鍵 / 值對就會指示 GPTBot 遠離 root 目錄和網(wǎng)站上的其他全部內(nèi)容。

          User-agent: GPTBotDisallow: /


          對此,搜索引擎優(yōu)化顧問 Prasad Dhumal 本周在 Twitter 上寫道:“最后,在吸收了所有受版權保護的內(nèi)容來構建他們的專有產(chǎn)品之后,OpenAI 為你提供了一種方法來防止你的內(nèi)容被用來進一步改進他們的產(chǎn)品?!?br style="outline: 0px;">

          另外,值得注意的是,一旦被大模型爬蟲爬取,也意味著你的數(shù)據(jù)無法從公共數(shù)據(jù)集中刪除。例如比較有名的公共數(shù)據(jù)集 Common Crawl,常被用于訓練 OpenAI 的 ChatGPT、谷歌的 Bard 或 Meta 的 LLaMA ,專家表示,如果你的數(shù)據(jù)或內(nèi)容被爬取進去,那意味著它永久成為了該訓練集的一部分。但 CommonCrawl 等服務確實允許類似的 robots.txt ,但網(wǎng)站所有者需要在數(shù)據(jù)被收集之前實施這些更改。


          然而,OpenAI 堅稱開放網(wǎng)站數(shù)據(jù)收集入口,能夠幫助該公司提高 AI 模型的實際質(zhì)量,而且爬取的內(nèi)容也不會涉及敏感信息。這話似乎可信,畢竟 OpenAI 和微軟最近已經(jīng)因此而官司纏身。

          這家機器學習超級實驗室在文檔中指出,“使用 GPTBot 用戶代理爬取的網(wǎng)頁,可能會被用于改進未來模型,且付費專區(qū)、已知涉及個人身份信息(PII)或包含違反我們政策的文本來源均會被過濾刪除。”

          文檔還提到,“允許 GPTBot 訪問您的網(wǎng)站,可以幫助 AI 模型更加準確并提高其總體功能性與安全性?!?/span>

          這人人為我、我為人人的口號一講,似乎幫 OpenAI 節(jié)約時間和成本,使其模型能力更強、風險更低是件利他又利己的大好事。

          可即便 OpenAI 承諾了自己在利用公共互聯(lián)網(wǎng)數(shù)據(jù)訓練大語言模型,仍有不少組織在努力限制自家信息通過網(wǎng)絡被自動訪問。畢竟 AI 軟件廠商最喜歡借助網(wǎng)絡上的各種信息為己所為,并借此建立起價值百萬甚至數(shù)十億美元的商業(yè)體系。所以部分企業(yè)已經(jīng)采取行動,如果盈利一方不愿意拿出點分紅,那他們就干脆關閉訪問權限。

          例如,Reddit 最近就修改了 API 條款,想更好地通過用戶免費發(fā)布的內(nèi)容獲利。Twitter 日前也起訴了四家身份不明的實體,拒絕抓取其網(wǎng)站數(shù)據(jù)用于 AI 訓練的行為。

          一些網(wǎng)站已經(jīng)在加強對 GPTBot 的防御,比如外媒 The Verge 就已經(jīng)添加了 robots.txt 標志,以阻止 OpenAI 模型抓取內(nèi)容以添加到其大模型中。substack 博主 Casey Newton 也向他的讀者詢問是否應該阻止 OpenAI 收集他的內(nèi)容。科幻雜志 Clarkesworld 的編輯 Neil Clarke 在  Twitter 上宣布將屏蔽 GPTBot。


          建立合法路徑才是正途!

          OpenAI 沒有立即回應,此次為什么要發(fā)布關于 GPTBot 的詳細信息。但最近已經(jīng)有多次針對該公司的訴訟,指控其未經(jīng)客戶許可而擅自使用可公開訪問的數(shù)據(jù) / 違反網(wǎng)站規(guī)定的許可條款??磥磉@兩件事之間應該存在聯(lián)系。

          除了隱私訴訟之外,OpenAI、微軟和微軟子公司 GitHub 去年 11 月還因涉嫌利用受許可證保護的源代碼訓練 OpenAI 的 Codex 模型,并因在 GitHub Copilot 代碼輔助服務中照搬這些代碼而面臨起訴。另有多位作家在上個月提起類似訴訟,指控 OpenAI 在未經(jīng)許可的情況下利用他們的作品訓練 ChatGPT。

          谷歌、DeepMind 及其母公司 Alphabet 也未能幸免,同樣因類似理由淪為被告。

          考慮到爬取公共數(shù)據(jù)并借此訓練 AI 模型所帶來的法律不確定性,OpenAI 的競爭對手谷歌上個月提議重新設計爬蟲協(xié)議的運作方式,盡量消弭愈演愈烈的數(shù)據(jù)歸屬權糾紛。

          專為醫(yī)療保健行業(yè)提供 AI 助手的 Hyro 公司聯(lián)合創(chuàng)始人兼 CEO Israel Krush 在采訪中表示,目前網(wǎng)絡爬蟲的運作方式主要存在兩個核心問題。

          “首先就是默認發(fā)布者同意,對方如果不希望自己的網(wǎng)站成為爬取對象、信息被用于模型微調(diào),只能主動選擇拒絕。這個過程跟搜索引擎的運作方式存在很大區(qū)別,搜索引擎在爬取時只會引導用戶訪問內(nèi)容發(fā)布網(wǎng)站的內(nèi)容摘要?!?/span>

          “而在 OpenAI 和 AI 助手這邊,內(nèi)容本體成為產(chǎn)品的直接組成部分,這樣問題的性質(zhì)就完全不同了。發(fā)布者必須主動拒絕才能免受爬取也著實引起了巨大的不滿?!?/span>

          Krush 表示,將爬取到的內(nèi)容集成至他人產(chǎn)品中、甚至受到篡改,則可能引發(fā)另一個潛在問題?!暗诙€問題是,OpenAI 在聲明中稱將排除「以使用個人身份信息(PII)聞名的相關網(wǎng)站」,這樣的表述有點令人費解?!?/span>

          “以新聞出版商為例:他們的內(nèi)容中肯定會存在某些身份識別信息。另外,即使那些似乎跟個人身份信息關系不大的網(wǎng)站,也或多或少涉及相關內(nèi)容。而任何包含個人身份信息的內(nèi)容都需要經(jīng)過適當編輯。”

          Krush 認為,模型的合規(guī)性問題和負責任立場需要匹配更強有力的保障措施,并強調(diào)他自己的公司就只會在獲得明確許可時才爬取數(shù)據(jù),且保證一切個人信息都得到妥善處理。

          他總結道,“OpenAI 不該只關注那些被標記為包含個人身份信息的網(wǎng)站,而應當假設所有網(wǎng)站都可能涉及個人隱私,特別是各內(nèi)容發(fā)布平臺。他們應當采取積極主動的措施,確保爬取的信息不違反合規(guī)性要求。”

          參考鏈接:
          https://platform.openai.com/docs/gptbot
          https://twitter.com/prasaddhumal_/status/1688517769158160384?s=20
          https://twitter.com/stealcase/status/1688604248974475264
          https://www.theregister.com/2023/08/08/openai_scraping_software/?td=rt-9cp
          https://venturebeat.com/ai/capital-one-emphasizes-the-power-of-human-centered-design-at-vb-transform-2023/


          點「在看」的人都變好看了哦!

          瀏覽 7549
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  免费亚洲黄色 | 成人肏逼视频在线 | 中国免费av | 免费中文中文A片 | 伊人官网在线 |