五年官司終敗訴,萬億爬蟲大軍蠢蠢欲動
點擊關注公眾號,Java干貨及時送達
粉絲福利:小編會從今天留言的小伙伴中隨機抽贈送8.88元現(xiàn)金紅包。娛樂抽獎,大家隨緣積極參與啦,給生活一點小幸運~感謝大家的支持
互聯(lián)網(wǎng)爬蟲戰(zhàn)爭永無休止。
這算得上是爬蟲斗爭歷史上具有里程碑意義的一個裁決。本周一,美國法院裁定,數(shù)據(jù)分析公司 HiQ 控訴 LinkedIn 案維持原判,并且認定從公共網(wǎng)站收集個人資料完全合法。
LinkedIn 是微軟旗下的職業(yè)社交平臺,用戶可以在 LinkedIn 網(wǎng)站建立個人檔案,包括教育背景、工作經(jīng)歷、技能等信息。HiQ 則是一家數(shù)據(jù)分析公司,從 LinkedIn 爬取公開數(shù)據(jù),進行整理分析后將處理結果出售給相關企業(yè)。
LinkedIn 雖擁有數(shù)據(jù),然而數(shù)據(jù)本身是由用戶提供給 LinkedIn 的。在大數(shù)據(jù)時代,一些互聯(lián)網(wǎng)平臺積累了大量用戶數(shù)據(jù),并以此建立自身資源優(yōu)勢:在和其他互聯(lián)網(wǎng)企業(yè)與平臺的競爭中,用戶數(shù)據(jù)越多利用得越好,就越容易吸引更多用戶,從而處于更有利的地位。這種滾雪球式的效應使得互聯(lián)網(wǎng)企業(yè)往往將數(shù)據(jù)視為競爭中的核心資產(chǎn)。
在此案之前,任何訪問 LinkedIn 網(wǎng)站的人都可以得到這些數(shù)據(jù)。在數(shù)據(jù)分析公司 HiQ 長期對 LinkedIn 的網(wǎng)站數(shù)據(jù)進行爬取行為后,LinkedIn 向 HiQ 發(fā)送了禁止通知函,并在函中援引了《計算機欺詐與濫用法案》(Computer Fraud and Abuse Act, “CFAA”)。
2017 年,HiQ 先發(fā)制人,作為原告方,控訴 LinkedIn 通過法律、技術等多種方式阻止其復制 LinkedIn 用戶的公開個人資料,還向法院申請了臨時禁令。
雖然 HiQ 公司對 LinkedIn 網(wǎng)站實施了網(wǎng)絡爬蟲,但美法院法官認為,這種爬蟲行為并不違反法律,因為 LinkedIn 網(wǎng)站上的數(shù)據(jù)是公開數(shù)據(jù),對于公開數(shù)據(jù),即使違反對方設置的 robot 協(xié)議,也應當是被法律允許的。
這就像在白天推開一家未鎖門的商店進去看看,并不能將其認定為非法侵入。因此,法院最后不僅沒有認定 HiQ 公司的爬蟲行為違法,甚至反過來認定 LinkedIn 的反爬蟲技術違法。
負責審理此案的地方法官向 HiQ 授予了初步禁令,禁止 LinkedIn 在案件審理期間干擾 HiQ 的數(shù)據(jù)爬取工作。法官認為,《計算機欺詐與濫用法案》(將“未經(jīng)授權”或者以“超出所授予訪問權限”方式訪問受保護計算機,認定為犯罪行為)并不適用于 HiQ 從 LinkedIn 網(wǎng)站收集公開數(shù)據(jù)的行為。

面對不利局面,LinkedIn 選擇上訴。早在 2019 年,上訴法院就曾經(jīng)支持下級法院于 2017 年在 HiQ 訴 LinkedIn 案中做出的裁決,認定網(wǎng)絡爬取并不屬于“未經(jīng)授權訪問受保護計算機”行為,裁定也依舊維持原判。LinkedIn 再次選擇上訴。但兩年之后,第九巡回法院仍然站在 HiQ 一邊,并將此案發(fā)回加州北區(qū)法院。
LinkedIn 當然對此不服,隨后向美國最高法院提起上訴。2020 年 3 月,LinkedIn 要求最高法院審查第九巡回法院做出裁決。該公司辯護稱,其以技術手段阻止網(wǎng)絡爬取、同時發(fā)送終止通告函件的行為,應被視為符合正常授權機制的要求。實際上,作為微軟持有的社交媒體網(wǎng)站、LinkedIn 一直努力避免站內(nèi)結果被外界直接查看,但又不希望因過度封閉而自絕于搜索引擎。
LinkedIn 方面的律師在遞交給最高法院的申訴書中寫道,“根據(jù)第九巡回法院的裁定,除非用密碼機制將網(wǎng)站徹底封鎖起來,否則任何一家決定部分公開網(wǎng)站內(nèi)容的企業(yè)——包括 Ticketmaster、Amazon 等在線零售商,乃至 Twitter 等社交網(wǎng)絡平臺——都將暴露在批量部署的侵入性爬蟲程序的面前。”
“而一旦選擇密碼封鎖,則網(wǎng)站將無法被搜索引擎正常檢索,導致人們無法經(jīng)由互聯(lián)網(wǎng)上最主要的信息獲取渠道發(fā)現(xiàn)其中信息。”
2021 年 6 月 3 日,美國最高法院曾在另一起類似案件,即 Van Buren 訴美國政府案中,縮小過《欺詐與濫用法案》的管控范圍。Nathan Van Buren 是佐治亞州的一名警察,有權限為執(zhí)法目的搜索有關車牌的計算機記錄。他中了聯(lián)邦調(diào)查局的圈套,為私人目的搜索這些記錄(應聯(lián)邦調(diào)查局線人的要求,該線人提出為這些信息支付數(shù)千美元)。最終美法院對他判處了 18 個月的監(jiān)禁。人們一直批評該法案未對“未經(jīng)授權”和“超出授權范圍”做出清晰界定。
美國高等法院在 Van Buren 案中表示,單純違反服務條款并不符合《欺詐與濫用法案》中提出的“超出授權范圍”條件。然而,基于憑證的鎖閉機制是否足以作為確定“未經(jīng)授權”訪問的唯一方法,美國高等法院仍未能給出明確答案。
兩周之后,美國最高法院決定將 HiQ 訴 LinkedIn 案發(fā)回第九巡回法院,希望結合 Van Buren 案的判例重新審視《欺詐與濫用法案》的適用范疇。但從結果來看,上訴法院雖然參考了 Van Buren 判例,但最終仍做出了維持兩年前原判意見的裁定。
第九巡回法院在裁決中指出,“公共網(wǎng)站的一大基本特征,就是其中公開可見的部分不受訪問限制;換言之,這些部分將對任何擁有網(wǎng)絡瀏覽器的訪問者開放?!?/p>
“也就是說,如果將這些托管公開頁面的計算機視為房屋,那么公共網(wǎng)站設備在部署之初就沒有設置任何“前門”,自然不存在提高或降低訪問門檻一說。因此,Van Buren 案強化了我們的裁定,即“未經(jīng)授權”概念確實不適用于公共網(wǎng)站?!?/strong>
但院方裁決并未解決 HiQ 與 LinkedIn 之間的恩怨糾葛,只是單純禁止 LinkedIn 繼續(xù)干擾 HiQ 收集其公開網(wǎng)站數(shù)據(jù)、并表示不支持根據(jù)《欺詐與濫用法案》對 HiQ 的分析業(yè)務提出索賠。而案件背后真正核心的不公平競爭、隱私侵犯等問題仍未得到解決。
在郵件聲明中,LinkedIn 發(fā)言人表示該公司不會放棄訴訟,將繼續(xù)在法庭上尋求合理的結果。“我們對結果感到失望,但這只是一項初步裁決、案件還遠未結束。我們將繼續(xù)努力保護 LinkedIn 會員,特別是保護他們在網(wǎng)站上掌控個人信息的能力?!?/p>
數(shù)據(jù)抓取行為如今被廣泛應用到社會生活當中,不僅僅是在商業(yè)上的使用,還有學術研究上的應用等等。因此,本案的判決也受到極大的關注。此案的裁決得到了美國媒體的歡呼和贊譽,認為第九巡回法院的決定是檔案工作者、學者、研究人員和記者的“重大勝利”。
對于爭論不休的數(shù)據(jù)和隱私的歸屬問題,這個案件也在一定程度上進行了討論。從第九巡回上訴法院的觀點來看,其裁決支持了用戶才是數(shù)據(jù)的所有者,平臺只是依據(jù)用戶的授權才使用這些數(shù)據(jù),而不能完全擁有這些數(shù)據(jù)。
在 Reddit 上,網(wǎng)友們對 LinkedIn 發(fā)言人提起上訴的解釋發(fā)起了大量嘲諷:“這樣的解釋即使不是荒謬的,也是冒昧的,提供數(shù)據(jù)的用戶從來沒有得到平臺的反饋”,“保護客戶隱私的說法被夸大了”,“現(xiàn)在誰會相信這樣的解釋是有意義的?”.......

另一方面,數(shù)據(jù)抓取也是現(xiàn)代互聯(lián)網(wǎng)生態(tài)的重要組成部分,根據(jù) Akamai 的統(tǒng)計,全球互聯(lián)網(wǎng)流量中,近 40% 的流量由爬蟲所占據(jù)。在 2021 年第二季度,全球遭遇的爬蟲攻擊達到了 700 億次,同比增長 15%。美國法院這一裁定,也意味著從此百億爬蟲抓取在線零售商和社交網(wǎng)絡平臺的公開信息,是合乎美國法律的。
中美法律不同,需謹慎使用爬蟲技術
或許正是由于數(shù)據(jù)的重要地位,近年來中外關于數(shù)據(jù)的爭議問題層出不窮。在中國,爬蟲行為引發(fā)的不正當糾紛案件也不在少數(shù)。德恒律師事務所曾發(fā)布過一篇名為《爬進“不正當競爭”的蟲,代價不菲》的文章,在文章中講述道,他們以“爬蟲”等關鍵詞在北大法寶檢索并篩選出自 2016 年起的爬蟲類相關案件共 49 件,大部分為刑事案件,涉及侵犯著作權罪、非法經(jīng)營罪、侵犯公民個人信息、詐騙罪、敲詐勒索罪等,也包括部分民商法案件,主要涉及著作權和不正當競爭糾紛。
其中一個典型案例是大眾點評訴百度案。
2016 年,百度因大量使用爬蟲抓取大眾點評的點評信息,在百度地圖中進行展示,后被大眾點評訴至法院。法院審理認為,百度的行為違反了公認的商業(yè)道德和誠實信用原則,構成不正當競爭。
在大眾點評訴百度的二審判決中,法官明確指出:“在自由、開放的市場經(jīng)濟秩序中,經(jīng)營資源和商業(yè)機會具有稀缺性,經(jīng)營者的權益并非可以獲得像法定財產(chǎn)權那樣的保護強度,經(jīng)營者必須將損害作為一種競爭結果予以適當?shù)娜萑?。本案中,漢濤公司所主張的應受保護的利益并非絕對權利,其受到損害并不必然意味著應當?shù)玫椒删葷灰说母偁幮袨楸旧硎钦數(shù)?,則該行為并不具有可責性?!?/p>
雖然技術是中立的,但是技術應用存在著邊界。目前,平臺的數(shù)據(jù)權屬無法進行明確化的界權,所以界定法律責任的過程還是比較復雜的。也因此,隨著互聯(lián)網(wǎng)技術的發(fā)展,“爬蟲”二字在中文語境逐漸帶上了“貶義”色彩。
對編寫網(wǎng)絡爬蟲的程序員來說,如果爬到不該爬取的數(shù)據(jù),則存在違法的可能?!芭老x寫得好,牢飯吃得早”戲稱的存在,也說明了我們需要謹慎對待爬蟲技術。就像 LinkedIn 平臺,獲取公共數(shù)據(jù)一般有兩個選擇:使用爬蟲 /scraper (免費但有風險),使用 API(不是免費但安全),如果一定需要使用這些公開數(shù)據(jù),需要我們做出謹慎的抉擇。
參考鏈接:
https://www.theregister.com/2022/04/19/scraping_public_data_linkedin/
《數(shù)據(jù)抓取的邊界在哪里?》:http://rmfyb.chinacourt.org/paper/html/2020-03/19/content_166271.htm?div=-1
《爬進“不正當競爭”的蟲,代價不菲》:http://www.dehenglaw.com/CN/tansuocontent/0008/023370/7.aspx?MID=0902
? ? ?
往 期 推 薦
1、Windows新功能太“社死”!教你一鍵快速禁用 2、發(fā)現(xiàn)競爭對手代碼中的低級Bug后,我被公司解雇并送上了法庭 3、為什么說技術人一定要有產(chǎn)品思維 4、操作系統(tǒng)聯(lián)合創(chuàng)始人反目成仇,這個Linux發(fā)行版危在旦夕 5、Java8八年不倒、IntelliJ IDEA力壓Eclipse 點分享
點收藏
點點贊
點在看





