前言

作為冷數(shù)據(jù)啟動(dòng)和豐富數(shù)據(jù)的重要工具，爬蟲(chóng)在業(yè)務(wù)發(fā)展中承擔(dān)著重要的作用，我們業(yè)務(wù)在發(fā)展過(guò)程中積累了不少爬蟲(chóng)使用的經(jīng)驗(yàn)，在此分享給大家，希望能對(duì)之后的業(yè)務(wù)發(fā)展提供一些技術(shù)選型方向上的思路,以更好地促進(jìn)業(yè)務(wù)發(fā)展

我們將會(huì)從以下幾點(diǎn)來(lái)分享我們的經(jīng)驗(yàn)

爬蟲(chóng)的應(yīng)用場(chǎng)景
爬蟲(chóng)的技術(shù)選型
實(shí)戰(zhàn)詳解：復(fù)雜場(chǎng)景下的爬蟲(chóng)解決方案
爬蟲(chóng)管理平臺(tái)

爬蟲(chóng)的應(yīng)用場(chǎng)景

在生產(chǎn)上，爬蟲(chóng)主要應(yīng)用在以下幾種場(chǎng)景

搜索引擎，Google，百度這種搜索引擎公司每天啟動(dòng)著無(wú)數(shù)的爬蟲(chóng)去抓取網(wǎng)頁(yè)信息，才有了我們使用搜索引擎查詢資料的便捷，全面，高效（關(guān)于搜索引擎工作原理，在這篇文章作了詳細(xì)的講解，建議大家看看）
冷數(shù)據(jù)啟動(dòng)時(shí)豐富數(shù)據(jù)的主要工具，新業(yè)務(wù)開(kāi)始時(shí)，由于剛起步，所以沒(méi)有多少數(shù)據(jù)，此時(shí)就需要爬取其他平臺(tái)的數(shù)據(jù)來(lái)填充我們的業(yè)務(wù)數(shù)據(jù)，比如說(shuō)如果我們想做一個(gè)類(lèi)似大眾點(diǎn)評(píng)這樣的平臺(tái)，一開(kāi)始沒(méi)有商戶等信息，就需要去爬取大眾，美團(tuán)等商家的信息來(lái)填充數(shù)據(jù)
數(shù)據(jù)服務(wù)或聚合的公司，比如天眼查，企查查，西瓜數(shù)據(jù)等等
提供橫向數(shù)據(jù)比較，聚合服務(wù)，比如說(shuō)電商中經(jīng)常需要有一種比價(jià)系統(tǒng)，從各大電商平臺(tái)，如拼多多，淘寶，京東等抓取同一個(gè)商品的價(jià)格信息，以給用戶提供最實(shí)惠的商品價(jià)格，這樣就需要從各大電商平臺(tái)爬取信息。
黑產(chǎn)，灰產(chǎn)，風(fēng)控等，比如我們要向某些資金方申請(qǐng)授信，在資金方這邊首先要部署一道風(fēng)控，來(lái)看你的個(gè)人信息是否滿足授信條件，這些個(gè)人信息通常是某些公司利用爬蟲(chóng)技術(shù)在各個(gè)渠道爬取而來(lái)的，當(dāng)然了這類(lèi)場(chǎng)景還是要慎用，不然正應(yīng)了那句話「爬蟲(chóng)用的好，監(jiān)控進(jìn)得早」

爬蟲(chóng)的技術(shù)選型

接下來(lái)我們就由淺入深地為大家介紹爬蟲(chóng)常用的幾種技術(shù)方案

簡(jiǎn)單的爬蟲(chóng)

說(shuō)起爬蟲(chóng)，大家可能會(huì)覺(jué)得技術(shù)比較高深，會(huì)立刻聯(lián)想到使用像 Scrapy 這樣的爬蟲(chóng)框架，這類(lèi)框架確實(shí)很強(qiáng)大，那么是不是一寫(xiě)爬蟲(chóng)就要用框架呢?非也！要視情況而定,如果我們要爬取的接口返回的只是很簡(jiǎn)單,固定的結(jié)構(gòu)化數(shù)據(jù)(如JSON)，用 Scrapy 這類(lèi)框架的話有時(shí)無(wú)異于殺雞用牛刀,不太經(jīng)濟(jì)!

舉個(gè)簡(jiǎn)單的例子，業(yè)務(wù)中有這么一個(gè)需求:需要抓取育學(xué)園中準(zhǔn)媽媽從「孕4周以下」~「孕36個(gè)月以上」每個(gè)階段的數(shù)據(jù)

對(duì)于這種請(qǐng)求，bash 中的 curl 足堪大任!

首先我們用 charles 等抓包工具抓取此頁(yè)面接口數(shù)據(jù),如下

通過(guò)觀察，我們發(fā)現(xiàn)請(qǐng)求的數(shù)據(jù)中只有 month 的值（代表孕幾周）不一樣，所以我們可以按以下思路來(lái)爬取所有的數(shù)據(jù)：

1、找出所有「孕4周以下」~「孕36個(gè)月以上」對(duì)應(yīng)的 month 的值，構(gòu)建一個(gè) month 數(shù)組 2、構(gòu)建一個(gè)以 month 值為變量的 curl 請(qǐng)求，在 charles 中 curl 請(qǐng)求我們可以通過(guò)如下方式來(lái)獲取

3、依次遍歷步驟 ?1 中的 ?month,每遍歷一次，就用步驟 2 中的 curl 和 month 變量構(gòu)建一個(gè)請(qǐng)求并執(zhí)行,將每次的請(qǐng)求結(jié)果保存到一個(gè)文件中（對(duì)應(yīng)每個(gè)孕期的 month 數(shù)據(jù)），這樣之后就可以對(duì)此文件中的數(shù)據(jù)進(jìn)行解析分析。

示例代碼如下，為了方便演示，中間 curl 代碼作了不少簡(jiǎn)化，大家明白原理就好

#!/bin/bash

##?獲取所有孕周對(duì)應(yīng)的?month，這里為方便演示，只取了兩個(gè)值
month=(21?24)
##?遍歷所有?month，組裝成?curl?請(qǐng)求
for?month?in?${month[@]};
do
????curl?-H?'Host:?yxyapi2.drcuiyutao.com'?
????-H?'clientversion:?7.14.1'?
????????...
????-H?'birthday:?2018-08-07?00:00:00'??
????--data?"body=month%22%3A$month"??##?month作為變量構(gòu)建?curl?請(qǐng)求
????--compressed?'http://yxyapi2.drcuiyutao.com/yxy-api-gateway/api/json/tools/getBabyChange'?>?$var.log?##?將?curl?請(qǐng)求結(jié)果輸出到文件中以便后續(xù)分析
done

前期我們業(yè)務(wù)用 PHP 的居多，不少爬蟲(chóng)請(qǐng)求都是在 PHP 中處理的，在 PHP 中我們也可以通過(guò)調(diào)用 libcurl 來(lái)模擬 bash 中的 curl 請(qǐng)求,比如業(yè)務(wù)中有一個(gè)需要抓取每個(gè)城市的天氣狀況的需求,就可以用 PHP 調(diào)用 curl,一行代碼搞定！

看了兩個(gè)例子，是否覺(jué)得爬蟲(chóng)不過(guò)如此，沒(méi)錯(cuò)，業(yè)務(wù)中很多這種簡(jiǎn)單的爬蟲(chóng)實(shí)現(xiàn)可以應(yīng)付絕大多數(shù)場(chǎng)景的需求！

腦洞大開(kāi)的爬蟲(chóng)解決思路

按以上介紹的爬蟲(chóng)思路可以解決日常多數(shù)的爬蟲(chóng)需求,但有時(shí)候我們需要一些腦洞大開(kāi)的思路,簡(jiǎn)單列舉兩個(gè)

1、去年運(yùn)營(yíng)同學(xué)給了一個(gè)天貓精選的有關(guān)奶粉的 url 的鏈接

https://m.tmall.com/mblist/de_9n40_AVYPod5SU93irPS-Q.html,他們希望能提取此文章的信息,同時(shí)找到天貓精選中所有提到奶粉關(guān)鍵字的文章并提取其內(nèi)容, 這就需要用到一些搜索引擎的高級(jí)技巧了, 我們注意到,天貓精選的 url 是以以下形式構(gòu)成的

https://m.tmall.com/mblist/de_?+?每篇文章獨(dú)一無(wú)二的簽名

利用搜索引擎技巧我們可以輕松搞定運(yùn)營(yíng)的這個(gè)需求

對(duì)照?qǐng)D片，步驟如下:

首先我們用在百度框輸入高級(jí)查詢語(yǔ)句「奶粉 site:m.tmall.com inurl:mblist/de_」，點(diǎn)擊搜索，就會(huì)顯示出此頁(yè)中所有天貓精選中包含奶粉的文章 title
注意地址欄中瀏覽器已經(jīng)生成了搜索的完整 url,拿到這個(gè) url 后，我們就可以去請(qǐng)求此 url，此時(shí)會(huì)得到上圖中包含有 3， 4 這兩塊的 html 文件
拿到步驟 2 中獲取的 html 文件后，在區(qū)域 3 每一個(gè)標(biāo)題其實(shí)對(duì)應(yīng)著一個(gè) url（以 ..... ）的形式存在，根據(jù)正則表達(dá)式就可以獲取每個(gè)標(biāo)題對(duì)應(yīng)的 url，再請(qǐng)求這些 url 即可獲取對(duì)應(yīng)的文章信息。
同理，拿到步驟 2 中獲取的 html 文件后，我們可以獲取區(qū)域 4 每一頁(yè)對(duì)應(yīng)的 url，再依次請(qǐng)求這些 url，然后重復(fù)步驟 2，即可獲取每一頁(yè)天貓精選中包含有奶粉的文章

通過(guò)這種方式我們也巧妙地實(shí)現(xiàn)了運(yùn)營(yíng)的需求，這種爬蟲(chóng)獲取的數(shù)據(jù)是個(gè) html 文件，不是 JSON 這些結(jié)構(gòu)化數(shù)據(jù)，我們需要從 html 中提取出相應(yīng)的 url 信息（存在標(biāo)簽里）,可以用正則，也可以用 xpath 來(lái)提取。

比如 html 中有如下 div 元素

<div?id="test1">大家好！div>

可以用以下的 xpath 來(lái)提取

data?=?selector.xpath('//div[@id="test1"]/text()').extract()[0]

就可以把「大家好！」提取出來(lái)，需要注意的是在這種場(chǎng)景中，「依然不需要使用 Scrapy 這種復(fù)雜的框架」，在這種場(chǎng)景下，由于數(shù)據(jù)量不大，使用單線程即可滿足需求，在實(shí)際生產(chǎn)上我們用 php 實(shí)現(xiàn)即可滿足需求

2、某天運(yùn)營(yíng)同學(xué)又提了一個(gè)需求，想爬取美拍的視頻

通過(guò)抓包我們發(fā)現(xiàn)美拍每個(gè)視頻的 url 都很簡(jiǎn)單，輸入到瀏覽器查看也能正常看視頻，于是我們想當(dāng)然地認(rèn)為直接通過(guò)此 url 即可下載視頻,但實(shí)際我們發(fā)現(xiàn)此 url 是分片的(m3u8,為了優(yōu)化加載速度而設(shè)計(jì)的一種播放多媒體列表的檔案格式),下載的視頻不完整,后來(lái)我們發(fā)現(xiàn)打開(kāi)`http://www.flvcd.com/`網(wǎng)站

輸入美拍地址轉(zhuǎn)化一下就能拿到完整的視頻下載地址