日韩一级片中文字幕,日韩大鸡巴在线,中国一级片操逼的,三区在线视频,乱伦视频导航,久草视频网站,国产免费黄色小视频,黄色影院在线观看

大數(shù)據(jù)文摘受權轉載自AI前線

編譯 | 核子可樂、Tina

不爬取你的頁面數(shù)據(jù)，哪來幾十億美元的運營收入？

OpenAI 在沒有正式宣布的情況下，于本周發(fā)布了一項網(wǎng)站爬蟲規(guī)范。

網(wǎng)絡爬蟲通常用于掃描網(wǎng)站內(nèi)容以訓練其大型語言模型 (LLM)，OpenAI 在一篇新的博客文章中表示：“使用 GPTBot 用戶代理抓取的網(wǎng)頁可能會用于改進未來的模型”，特別是 GPT-4 和潛在的 GPT-5。

在此之前，OpenAI 剛提交了“GPT-5”商標申請。三周之后，該公司推出了新的爬蟲以及使用規(guī)范。OpenAI 在博文中表示，內(nèi)容發(fā)布者和網(wǎng)站所有者可以據(jù)此拒絕為其提供素材。

網(wǎng)站需要加強防御

目前還不清楚 OpenAI 的爬蟲在網(wǎng)上潛伏了多久，盡管有些人懷疑 OpenAI 可能已經(jīng)有一個機器人在數(shù)月或數(shù)年時間里一直在秘密收集每個人的在線數(shù)據(jù)?，F(xiàn)在該公司宣布了一種阻止 GPTBot 的方法，最新發(fā)布的技術文檔描述了如何通過用戶代理令牌和字符串來識別 OpenAI 的網(wǎng)絡爬蟲 GPTBot。在發(fā)送至服務器進行網(wǎng)頁請求的 HTTP 標頭中，OpenAI 公司的軟件會明確使用這些令牌與字符串。

因此，內(nèi)容發(fā)布者可以在自己 Web 服務器的 robots.txt 文件中添加新條目，告知爬蟲可以做什么、不能做什么。當然，這是假設 GPTBot 會老老實實遵守機器人排除協(xié)議，畢竟也有不少機器人會對規(guī)則熟視無睹。例如，以下 robts.txt 鍵 / 值對就會指示 GPTBot 遠離 root 目錄和網(wǎng)站上的其他全部內(nèi)容。

User-agent: GPTBotDisallow: /

對此，搜索引擎優(yōu)化顧問 Prasad Dhumal 本周在 Twitter 上寫道：“最后，在吸收了所有受版權保護的內(nèi)容來構建他們的專有產(chǎn)品之后，OpenAI 為你提供了一種方法來防止你的內(nèi)容被用來進一步改進他們的產(chǎn)品?！?br style="outline: 0px;">

另外，值得注意的是，一旦被大模型爬蟲爬取，也意味著你的數(shù)據(jù)無法從公共數(shù)據(jù)集中刪除。例如比較有名的公共數(shù)據(jù)集 Common Crawl，常被用于訓練 OpenAI 的 ChatGPT、谷歌的 Bard 或 Meta 的 LLaMA ，專家表示，如果你的數(shù)據(jù)或內(nèi)容被爬取進去，那意味著它永久成為了該訓練集的一部分。但 CommonCrawl 等服務確實允許類似的 robots.txt ，但網(wǎng)站所有者需要在數(shù)據(jù)被收集之前實施這些更改。

然而，OpenAI 堅稱開放網(wǎng)站數(shù)據(jù)收集入口，能夠幫助該公司提高 AI 模型的實際質(zhì)量，而且爬取的內(nèi)容也不會涉及敏感信息。這話似乎可信，畢竟 OpenAI 和微軟最近已經(jīng)因此而官司纏身。

這家機器學習超級實驗室在文檔中指出，“使用 GPTBot 用戶代理爬取的網(wǎng)頁，可能會被用于改進未來模型，且付費專區(qū)、已知涉及個人身份信息（PII）或包含違反我們政策的文本來源均會被過濾刪除。”

文檔還提到，“允許 GPTBot 訪問您的網(wǎng)站，可以幫助 AI 模型更加準確并提高其總體功能性與安全性?！?/span>

這人人為我、我為人人的口號一講，似乎幫 OpenAI 節(jié)約時間和成本，使其模型能力更強、風險更低是件利他又利己的大好事。

可即便 OpenAI 承諾了自己在利用公共互聯(lián)網(wǎng)數(shù)據(jù)訓練大語言模型，仍有不少組織在努力限制自家信息通過網(wǎng)絡被自動訪問。畢竟 AI 軟件廠商最喜歡借助網(wǎng)絡上的各種信息為己所為，并借此建立起價值百萬甚至數(shù)十億美元的商業(yè)體系。所以部分企業(yè)已經(jīng)采取行動，如果盈利一方不愿意拿出點分紅，那他們就干脆關閉訪問權限。

例如，Reddit 最近就修改了 API 條款，想更好地通過用戶免費發(fā)布的內(nèi)容獲利。Twitter 日前也起訴了四家身份不明的實體，拒絕抓取其網(wǎng)站數(shù)據(jù)用于 AI 訓練的行為。

一些網(wǎng)站已經(jīng)在加強對 GPTBot 的防御，比如外媒 The Verge 就已經(jīng)添加了 robots.txt 標志，以阻止 OpenAI 模型抓取內(nèi)容以添加到其大模型中。substack 博主 Casey Newton 也向他的讀者詢問是否應該阻止 OpenAI 收集他的內(nèi)容。科幻雜志 Clarkesworld 的編輯 Neil Clarke 在 Twitter 上宣布將屏蔽 GPTBot。

建立合法路徑才是正途！

OpenAI 沒有立即回應，此次為什么要發(fā)布關于 GPTBot 的詳細信息。但最近已經(jīng)有多次針對該公司的訴訟，指控其未經(jīng)客戶許可而擅自使用可公開訪問的數(shù)據(jù) / 違反網(wǎng)站規(guī)定的許可條款?？磥磉@兩件事之間應該存在聯(lián)系。

除了隱私訴訟之外，OpenAI、微軟和微軟子公司 GitHub 去年 11 月還因涉嫌利用受許可證保護的源代碼訓練 OpenAI 的 Codex 模型，并因在 GitHub Copilot 代碼輔助服務中照搬這些代碼而面臨起訴。另有多位作家在上個月提起類似訴訟，指控 OpenAI 在未經(jīng)許可的情況下利用他們的作品訓練 ChatGPT。

谷歌、DeepMind 及其母公司 Alphabet 也未能幸免，同樣因類似理由淪為被告。

考慮到爬取公共數(shù)據(jù)并借此訓練 AI 模型所帶來的法律不確定性，OpenAI 的競爭對手谷歌上個月提議重新設計爬蟲協(xié)議的運作方式，盡量消弭愈演愈烈的數(shù)據(jù)歸屬權糾紛。

專為醫(yī)療保健行業(yè)提供 AI 助手的 Hyro 公司聯(lián)合創(chuàng)始人兼 CEO Israel Krush 在采訪中表示，目前網(wǎng)絡爬蟲的運作方式主要存在兩個核心問題。

“首先就是默認發(fā)布者同意，對方如果不希望自己的網(wǎng)站成為爬取對象、信息被用于模型微調(diào)，只能主動選擇拒絕。這個過程跟搜索引擎的運作方式存在很大區(qū)別，搜索引擎在爬取時只會引導用戶訪問內(nèi)容發(fā)布網(wǎng)站的內(nèi)容摘要?！?/span>

“而在 OpenAI 和 AI 助手這邊，內(nèi)容本體成為產(chǎn)品的直接組成部分，這樣問題的性質(zhì)就完全不同了。發(fā)布者必須主動拒絕才能免受爬取也著實引起了巨大的不滿?！?/span>

Krush 表示，將爬取到的內(nèi)容集成至他人產(chǎn)品中、甚至受到篡改，則可能引發(fā)另一個潛在問題?！暗诙€問題是，OpenAI 在聲明中稱將排除「以使用個人身份信息（PII）聞名的相關網(wǎng)站」，這樣的表述有點令人費解?！?/span>

“以新聞出版商為例：他們的內(nèi)容中肯定會存在某些身份識別信息。另外，即使那些似乎跟個人身份信息關系不大的網(wǎng)站，也或多或少涉及相關內(nèi)容。而任何包含個人身份信息的內(nèi)容都需要經(jīng)過適當編輯。”

Krush 認為，模型的合規(guī)性問題和負責任立場需要匹配更強有力的保障措施，并強調(diào)他自己的公司就只會在獲得明確許可時才爬取數(shù)據(jù)，且保證一切個人信息都得到妥善處理。

他總結道，“OpenAI 不該只關注那些被標記為包含個人身份信息的網(wǎng)站，而應當假設所有網(wǎng)站都可能涉及個人隱私，特別是各內(nèi)容發(fā)布平臺。他們應當采取積極主動的措施，確保爬取的信息不違反合規(guī)性要求。”

參考鏈接：

https://platform.openai.com/docs/gptbot

https://twitter.com/prasaddhumal_/status/1688517769158160384?s=20

https://twitter.com/stealcase/status/1688604248974475264

https://www.theregister.com/2023/08/08/openai_scraping_software/?td=rt-9cp

https://venturebeat.com/ai/capital-one-emphasizes-the-power-of-human-centered-design-at-vb-transform-2023/

點「在看」的人都變好看了哦！

OpenAI 推出網(wǎng)絡爬蟲 GPTBot，引發(fā)網(wǎng)站抵御潮：信息被爬走就很可能意味著永遠無法刪除