又一家數(shù)據(jù)公司被查,爬蟲(chóng)到底做錯(cuò)了什么?
“?閱讀本文大概需要 5 分鐘。”
9 月 6 日下午,多位業(yè)內(nèi)人士稱(chēng),杭州知名大數(shù)據(jù)服務(wù)公司杭州魔蝎數(shù)據(jù)科技有限公司,疑似被相關(guān)執(zhí)法人員控制,其中一位周姓核心高管人員被警方帶走。
以上是昨天技術(shù)圈傳播的一則新聞,又一家數(shù)據(jù)公司被調(diào)查,很多數(shù)據(jù)從業(yè)者、爬蟲(chóng)開(kāi)發(fā)者發(fā)出了“感嘆” —— 「爬蟲(chóng)用得好,XX進(jìn)得早;數(shù)據(jù)玩得溜,XX吃個(gè)夠」。
魔蝎科技作為一家數(shù)據(jù)服務(wù)公司,曾在 2017 年一篇『爬蟲(chóng)兇猛:爬支付寶、爬微信、竊取現(xiàn)金貸放貸數(shù)據(jù)』的文章中,被指出存在開(kāi)發(fā)使用惡意爬蟲(chóng)的行為。
當(dāng)然關(guān)于魔蝎科技為什么被查,這個(gè)等待執(zhí)法部門(mén)的調(diào)查結(jié)果即可,咱們不在這里無(wú)端猜測(cè)。
我今天要說(shuō)的是關(guān)于爬蟲(chóng)的合法性,我希望通過(guò)一些案例來(lái)探討:怎樣做一個(gè)不觸碰紅線的爬蟲(chóng)開(kāi)發(fā)者。
爬蟲(chóng)作為一種計(jì)算機(jī)技術(shù),具有技術(shù)中立性,爬蟲(chóng)技術(shù)在法律上從來(lái)沒(méi)有被禁止。爬蟲(chóng)的發(fā)展歷史可以追溯到 20 年前,搜索引擎、聚合導(dǎo)航、數(shù)據(jù)分析、人工智能等業(yè)務(wù),都需要基于爬蟲(chóng)技術(shù)。
但是爬蟲(chóng)作為獲取數(shù)據(jù)的技術(shù)手段之一,由于部分?jǐn)?shù)據(jù)存在敏感性,如果不能甄別哪些數(shù)據(jù)是可以爬取,哪些會(huì)觸及紅線,可能下一位上新聞的主角就是你。
如何界定爬蟲(chóng)的合法性,目前沒(méi)有明文規(guī)定,但我通過(guò)翻閱大量文章、事件、分享、司法案例,我總結(jié)出界定的三個(gè)關(guān)鍵點(diǎn):采集途徑、采集行為、使用目的。
數(shù)據(jù)的采集途徑
通過(guò)什么途徑爬取數(shù)據(jù),這個(gè)是最需要重視的一點(diǎn)。總體來(lái)說(shuō),未公開(kāi)、未經(jīng)許可、且?guī)в忻舾行畔?/strong>的數(shù)據(jù),不管是通過(guò)什么渠道獲得,都是一種不合法的行為。
所以在采集這類(lèi)比較敏感的數(shù)據(jù)時(shí),最好先查詢(xún)下相關(guān)法律法規(guī),特別是用戶(hù)個(gè)人信息、其他商業(yè)平臺(tái)的信息 等這類(lèi)信息,尋找一條合適的途徑。
個(gè)人數(shù)據(jù)
采集和分析個(gè)人信息數(shù)據(jù),應(yīng)該是當(dāng)下所有互聯(lián)網(wǎng)都會(huì)做的一件事,但是大部分個(gè)人數(shù)據(jù)都是非公開(kāi)的,想獲得必須通過(guò)合法途徑,可參見(jiàn)『網(wǎng)絡(luò)安全法』第四十一條:
網(wǎng)絡(luò)運(yùn)營(yíng)者收集、使用個(gè)人信息,應(yīng)當(dāng)遵循合法、正當(dāng)、必要的原則,公開(kāi)收集、使用規(guī)則,明示收集、使用信息的目的、方式和范圍,并經(jīng)被收集者同意...
也就是必須在提前告知收集的方式、范圍、目的,并經(jīng)過(guò)用戶(hù)授權(quán)或同意后,才能采集使用,也就是我們常見(jiàn)的各種網(wǎng)站與 App 的用戶(hù)協(xié)議中關(guān)于信息收集的部分。
相關(guān)反面案例:
8月20日,澎湃新聞從紹興市越城區(qū)公安分局獲悉,該局日前偵破一起特大流量劫持案,涉案的新三板掛牌公司北京瑞智華勝科技股份有限公司,涉嫌非法竊取用戶(hù)個(gè)人信息30億條,涉及百度、騰訊、阿里、京東等全國(guó)96家互聯(lián)網(wǎng)公司產(chǎn)品,目前警方已從該公司及其關(guān)聯(lián)公司抓獲6名犯罪嫌疑人。
......
北京瑞智華勝公司及其關(guān)聯(lián)公司在與正規(guī)運(yùn)營(yíng)商合作中,會(huì)加入一些非法軟件用于清洗流量、獲取用戶(hù)的 cookie。
節(jié)選自?澎湃新聞:『新三板掛牌公司涉竊取30億條個(gè)人信息,非法牟利超千萬(wàn)元』[1]
公開(kāi)數(shù)據(jù)
從合法公開(kāi)渠道,并且不明顯違背個(gè)人信息主體意愿,都沒(méi)有什么問(wèn)題。但如果通過(guò)破解、侵入等“黑客”手段來(lái)獲取數(shù)據(jù),那也有相關(guān)法律等著你:
刑法第二百八十五條第三款規(guī)定的“專(zhuān)門(mén)用于侵入、非法控制計(jì)算機(jī)信息系統(tǒng)的程序、工具”:
(一)具有避開(kāi)或者突破計(jì)算機(jī)信息系統(tǒng)安全保護(hù)措施,未經(jīng)授權(quán)或者超越授權(quán)獲取計(jì)算機(jī)信息系統(tǒng)數(shù)據(jù)的功能的;
......
違反 Robots 協(xié)議
雖然 Robots 協(xié)議沒(méi)有法規(guī)強(qiáng)制遵守,但 Robots 協(xié)議作為行業(yè)約定,在遵循之下會(huì)給你帶來(lái)合法支持。
因?yàn)?Robots 協(xié)議具有指導(dǎo)意義,如果注明 Disallow 就說(shuō)明是平臺(tái)明顯要保護(hù)的頁(yè)面數(shù)據(jù),想爬取之前應(yīng)該仔細(xì)考慮一下。
數(shù)據(jù)的采集行為
使用技術(shù)手段應(yīng)該懂得克制,一些容易對(duì)服務(wù)器和業(yè)務(wù)造成干擾甚至破壞的行為,應(yīng)當(dāng)充分衡量其承受能力,畢竟不是每家都是 BAT 級(jí)。
高并發(fā)壓力
做技術(shù)經(jīng)常專(zhuān)注于優(yōu)化,爬蟲(chóng)開(kāi)發(fā)也是如此,想盡各種辦法增加并發(fā)數(shù)、請(qǐng)求效率,但高并發(fā)帶來(lái)的近乎 DDOS 的請(qǐng)求,如果對(duì)對(duì)方服務(wù)器造成壓力,影響了對(duì)方正常業(yè)務(wù),那就應(yīng)該警惕了。
如果一旦導(dǎo)致嚴(yán)重后果,后果參見(jiàn):
《刑法》第二百八十六條還規(guī)定,違反國(guó)家規(guī)定,對(duì)計(jì)算機(jī)信息系統(tǒng)功能進(jìn)行刪除、修改、增加、干擾,造成計(jì)算機(jī)信息系統(tǒng)不能正常運(yùn)行,后果嚴(yán)重的,構(gòu)成犯罪
所以請(qǐng)爬取的時(shí)候,即使沒(méi)有反爬限制,也不要肆無(wú)忌憚地開(kāi)啟高并發(fā),掂量一下對(duì)方服務(wù)器的實(shí)力。
影響正常業(yè)務(wù)
除了高并發(fā)請(qǐng)求,還有一些影響業(yè)務(wù)的情況,常見(jiàn)的比如搶單,會(huì)影響正常用戶(hù)的體驗(yàn)。
數(shù)據(jù)的使用目的
數(shù)據(jù)使用目的同樣是一大關(guān)鍵,就算你通過(guò)合法途徑采集的數(shù)據(jù),如果對(duì)數(shù)據(jù)沒(méi)有正確的使用,同樣會(huì)存在不合法的行為。
超出約定的使用
一種情況是公開(kāi)收集的數(shù)據(jù),但沒(méi)有遵循之前告知的使用目的,比如用戶(hù)協(xié)議上說(shuō)只是分析用戶(hù)行為,幫助提高產(chǎn)品體驗(yàn),結(jié)果變成了出售用戶(hù)畫(huà)像數(shù)據(jù)。
還有一種情況,是有知識(shí)產(chǎn)權(quán)、著作權(quán)的作品,可能會(huì)允許你下載或引用,但明顯標(biāo)注了使用范圍,比如不能轉(zhuǎn)載、不能用于商業(yè)行為等,更不能去盜用,這些都是有法律明文保護(hù),所以要注意使用。
其他情況就不列舉了。
出售個(gè)人信息
關(guān)于出售個(gè)人信息,千萬(wàn)不要做,是法律特別指出禁止的,參見(jiàn):
根據(jù)《最高人民法院 最高人民檢察院關(guān)于辦理侵犯公民個(gè)人信息刑事案件適用法律若干問(wèn)題的解釋》第五條規(guī)定,對(duì)“情節(jié)嚴(yán)重”的解釋?zhuān)?br />(1)非法獲取、出售或者提供行蹤軌跡信息、通信內(nèi)容、征信信息、財(cái)產(chǎn)信息五十條以上的;
(2)非法獲取、出售或者提供住宿信息、通信記錄、健康生理信息、交易信息等其他可能影響人身、財(cái)產(chǎn)安全的公民個(gè)人信息五百條以上的;
(3)非法獲取、出售或者提供第三項(xiàng)、第四項(xiàng)規(guī)定以外的公民個(gè)人信息五千條以上的便構(gòu)成“侵犯公民個(gè)人信息罪”所要求的“情節(jié)嚴(yán)重”。
此外,未經(jīng)被收集者同意,即使是將合法收集的公民個(gè)人信息向他人提供的,也屬于刑法第二百五十三條之一規(guī)定的“提供公民個(gè)人信息”,可能構(gòu)成犯罪。
不正當(dāng)商業(yè)行為
如果將競(jìng)品公司的數(shù)據(jù),作為自己公司的商業(yè)目的,這就可能存在構(gòu)成不正當(dāng)商業(yè)競(jìng)爭(zhēng),或者是違反知識(shí)產(chǎn)權(quán)保護(hù)。
這種情況在目前涉及爬蟲(chóng)的商業(yè)訴訟案中比較常見(jiàn),兩年前比較知名的案件,“車(chē)來(lái)了” App 抓取其競(jìng)品 “酷米客” 的公交車(chē)數(shù)據(jù),并展示在自己的產(chǎn)品上:
雖然公交車(chē)作為公共交通工具,其實(shí)時(shí)運(yùn)行路線、運(yùn)行時(shí)間等信息僅系客觀事實(shí),但當(dāng)此類(lèi)信息經(jīng)過(guò)人工收集、分析、編輯、整合并配合GPS精確定位,作為公交信息查詢(xún)軟件的后臺(tái)數(shù)據(jù)后,此類(lèi)信息便具有了實(shí)用性并能夠?yàn)闄?quán)利人帶來(lái)現(xiàn)實(shí)或潛在、當(dāng)下或?qū)?lái)的經(jīng)濟(jì)利益,已經(jīng)具備無(wú)形財(cái)產(chǎn)的屬性。元光公司利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)大量獲取并且無(wú)償使用谷米公司“酷米客”軟件的實(shí)時(shí)公交信息數(shù)據(jù)的行為,實(shí)為一種“不勞而獲”、“食人而肥”的行為,構(gòu)成不正當(dāng)競(jìng)爭(zhēng)。
節(jié)選自『深圳市中級(jí)人民法院(2017)粵03民初822號(hào)民事判決書(shū)』
「爬蟲(chóng)法」即將出臺(tái)
好消息是,相關(guān)辦法已經(jīng)在路上了。
5 月 28 日零點(diǎn),國(guó)家互聯(lián)網(wǎng)信息辦公室發(fā)布了《數(shù)據(jù)安全管理辦法》征求意見(jiàn)稿。
我也查閱了這份意見(jiàn)稿,里面對(duì)數(shù)據(jù)的獲取、存儲(chǔ)、傳輸、使用等都做了一些規(guī)定,包括關(guān)于爬蟲(chóng)行為的若干規(guī)定(還在征求階段,因此后續(xù)可能會(huì)有變化)。
比如,第二章第十六條:
網(wǎng)絡(luò)運(yùn)營(yíng)者采取自動(dòng)化手段訪問(wèn)收集網(wǎng)站數(shù)據(jù),不得妨礙網(wǎng)站正常運(yùn)行;此類(lèi)行為嚴(yán)重影響網(wǎng)站運(yùn)行,如自動(dòng)化訪問(wèn)收集流量超過(guò)網(wǎng)站日均流量三分之一,網(wǎng)站要求停止自動(dòng)化訪問(wèn)收集時(shí),應(yīng)當(dāng)停止。
第三章第二十七條:
網(wǎng)絡(luò)運(yùn)營(yíng)者向他人提供個(gè)人信息前,應(yīng)當(dāng)評(píng)估可能帶來(lái)的安全風(fēng)險(xiǎn),并征得個(gè)人信息主體同意。下列情況除外:
(一)從合法公開(kāi)渠道收集且不明顯違背個(gè)人信息主體意愿;
(二)個(gè)人信息主體主動(dòng)公開(kāi);
(三)經(jīng)過(guò)匿名化處理;
(四)執(zhí)法機(jī)關(guān)依法履行職責(zé)所必需;
(五)維護(hù)國(guó)家安全、社會(huì)公共利益、個(gè)人信息主體生命安全所必需。
節(jié)選自『數(shù)據(jù)安全管理辦法(征求意見(jiàn)稿)』[2]
結(jié)語(yǔ)
在此聲明:以上所有內(nèi)容僅是個(gè)人分析,可能存在錯(cuò)誤之處,不能作為任何依據(jù),具體以相關(guān)法律法規(guī)為準(zhǔn)。
希望能給各位爬蟲(chóng)開(kāi)發(fā)者,也包括其他開(kāi)發(fā)者一些啟示:技術(shù)雖中立,使用有善惡,一定要合理合規(guī)、嚴(yán)格謹(jǐn)慎地使用技術(shù)。
本文屬于原創(chuàng),首發(fā)于微信公眾號(hào)「面向人生編程」,如需轉(zhuǎn)載請(qǐng)后臺(tái)留言。
References
[1]?新三板掛牌公司涉竊取30億條個(gè)人信息:?https://www.thepaper.cn/newsDetail_forward_2362227[2]?數(shù)據(jù)安全管理辦法(征求意見(jiàn)稿):?http://www.moj.gov.cn/news/content/2019-05/28/zlk_235861.html
