前言

作為冷數(shù)據(jù)啟動和豐富數(shù)據(jù)的重要工具，爬蟲在業(yè)務(wù)發(fā)展中承擔著重要的作用，我們業(yè)務(wù)在發(fā)展過程中積累了不少爬蟲使用的經(jīng)驗，在此分享給大家，希望能對之后的業(yè)務(wù)發(fā)展提供一些技術(shù)選型方向上的思路,以更好地促進業(yè)務(wù)發(fā)展

我們將會從以下幾點來分享我們的經(jīng)驗

爬蟲的應(yīng)用場景
爬蟲的技術(shù)選型
實戰(zhàn)詳解：復雜場景下的爬蟲解決方案
爬蟲管理平臺

爬蟲的應(yīng)用場景

在生產(chǎn)上，爬蟲主要應(yīng)用在以下幾種場景

搜索引擎，Google，百度這種搜索引擎公司每天啟動著無數(shù)的爬蟲去抓取網(wǎng)頁信息，才有了我們使用搜索引擎查詢資料的便捷，全面，高效
冷數(shù)據(jù)啟動時豐富數(shù)據(jù)的主要工具，新業(yè)務(wù)開始時，由于剛起步，所以沒有多少數(shù)據(jù)，此時就需要爬取其他平臺的數(shù)據(jù)來填充我們的業(yè)務(wù)數(shù)據(jù)，比如說如果我們想做一個類似大眾點評這樣的平臺，一開始沒有商戶等信息，就需要去爬取大眾，美團等商家的信息來填充數(shù)據(jù)
數(shù)據(jù)服務(wù)或聚合的公司，比如天眼查，企查查，西瓜數(shù)據(jù)等等
提供橫向數(shù)據(jù)比較，聚合服務(wù)，比如說電商中經(jīng)常需要有一種比價系統(tǒng)，從各大電商平臺，如拼多多，淘寶，京東等抓取同一個商品的價格信息，以給用戶提供最實惠的商品價格，這樣就需要從各大電商平臺爬取信息。
黑產(chǎn)，灰產(chǎn)，風控等，比如我們要向某些資金方申請授信，在資金方這邊首先要部署一道風控，來看你的個人信息是否滿足授信條件，這些個人信息通常是某些公司利用爬蟲技術(shù)在各個渠道爬取而來的，當然了這類場景還是要慎用，不然正應(yīng)了那句話「爬蟲用的好，監(jiān)控進得早」

爬蟲的技術(shù)選型

接下來我們就由淺入深地為大家介紹爬蟲常用的幾種技術(shù)方案

簡單的爬蟲

說起爬蟲，大家可能會覺得技術(shù)比較高深，會立刻聯(lián)想到使用像 Scrapy 這樣的爬蟲框架，這類框架確實很強大，那么是不是一寫爬蟲就要用框架呢?非也！要視情況而定,如果我們要爬取的接口返回的只是很簡單,固定的結(jié)構(gòu)化數(shù)據(jù)(如JSON)，用 Scrapy 這類框架的話有時無異于殺雞用牛刀,不太經(jīng)濟!

舉個簡單的例子，業(yè)務(wù)中有這么一個需求:需要抓取育學園中準媽媽從「孕4周以下」~「孕36個月以上」每個階段的數(shù)據(jù)

對于這種請求，bash 中的 curl 足堪大任!

首先我們用 charles 等抓包工具抓取此頁面接口數(shù)據(jù),如下

通過觀察，我們發(fā)現(xiàn)請求的數(shù)據(jù)中只有 month 的值（代表孕幾周）不一樣，所以我們可以按以下思路來爬取所有的數(shù)據(jù)：

1、找出所有「孕4周以下」~「孕36個月以上」對應(yīng)的 month 的值，構(gòu)建一個 month 數(shù)組 2、構(gòu)建一個以 month 值為變量的 curl 請求，在 charles 中 curl 請求我們可以通過如下方式來獲取

3、依次遍歷步驟 ?1 中的 ?month,每遍歷一次，就用步驟 2 中的 curl 和 month 變量構(gòu)建一個請求并執(zhí)行,將每次的請求結(jié)果保存到一個文件中（對應(yīng)每個孕期的 month 數(shù)據(jù)），這樣之后就可以對此文件中的數(shù)據(jù)進行解析分析。

示例代碼如下，為了方便演示，中間 curl 代碼作了不少簡化，大家明白原理就好

#!/bin/bash

##?獲取所有孕周對應(yīng)的?month，這里為方便演示，只取了兩個值
month=(21?24)
##?遍歷所有?month，組裝成?curl?請求
for?month?in?${month[@]};
do
????curl?-H?'Host:?yxyapi2.drcuiyutao.com'?
????-H?'clientversion:?7.14.1'?
????????...
????-H?'birthday:?2018-08-07?00:00:00'??
????--data?"body=month%22%3A$month"??##?month作為變量構(gòu)建?curl?請求
????--compressed?'http://yxyapi2.drcuiyutao.com/yxy-api-gateway/api/json/tools/getBabyChange'?>?$var.log?##?將?curl?請求結(jié)果輸出到文件中以便后續(xù)分析
done

前期我們業(yè)務(wù)用 PHP 的居多，不少爬蟲請求都是在 PHP 中處理的，在 PHP 中我們也可以通過調(diào)用 libcurl 來模擬 bash 中的 curl 請求,比如業(yè)務(wù)中有一個需要抓取每個城市的天氣狀況的需求,就可以用 PHP 調(diào)用 curl,一行代碼搞定！

看了兩個例子，是否覺得爬蟲不過如此，沒錯，業(yè)務(wù)中很多這種簡單的爬蟲實現(xiàn)可以應(yīng)付絕大多數(shù)場景的需求！

腦洞大開的爬蟲解決思路

按以上介紹的爬蟲思路可以解決日常多數(shù)的爬蟲需求,但有時候我們需要一些腦洞大開的思路,簡單列舉兩個

1、去年運營同學給了一個天貓精選的有關(guān)奶粉的 url 的鏈接

https://m.tmall.com/mblist/de_9n40_AVYPod5SU93irPS-Q.html,他們希望能提取此文章的信息,同時找到天貓精選中所有提到奶粉關(guān)鍵字的文章并提取其內(nèi)容, 這就需要用到一些搜索引擎的高級技巧了, 我們注意到,天貓精選的 url 是以以下形式構(gòu)成的

https://m.tmall.com/mblist/de_?+?每篇文章獨一無二的簽名

利用搜索引擎技巧我們可以輕松搞定運營的這個需求

對照圖片，步驟如下:

首先我們用在百度框輸入高級查詢語句「奶粉 site:m.tmall.com inurl:mblist/de_」，點擊搜索，就會顯示出此頁中所有天貓精選中包含奶粉的文章 title
注意地址欄中瀏覽器已經(jīng)生成了搜索的完整 url,拿到這個 url 后，我們就可以去請求此 url，此時會得到上圖中包含有 3， 4 這兩塊的 html 文件
拿到步驟 2 中獲取的 html 文件后，在區(qū)域 3 每一個標題其實對應(yīng)著一個 url（以 ..... ）的形式存在，根據(jù)正則表達式就可以獲取每個標題對應(yīng)的 url，再請求這些 url 即可獲取對應(yīng)的文章信息。
同理，拿到步驟 2 中獲取的 html 文件后，我們可以獲取區(qū)域 4 每一頁對應(yīng)的 url，再依次請求這些 url，然后重復步驟 2，即可獲取每一頁天貓精選中包含有奶粉的文章

通過這種方式我們也巧妙地實現(xiàn)了運營的需求，這種爬蟲獲取的數(shù)據(jù)是個 html 文件，不是 JSON 這些結(jié)構(gòu)化數(shù)據(jù)，我們需要從 html 中提取出相應(yīng)的 url 信息（存在標簽里）,可以用正則，也可以用 xpath 來提取。

比如 html 中有如下 div 元素

<div?id="test1">大家好！div>

可以用以下的 xpath 來提取

data?=?selector.xpath('//div[@id="test1"]/text()').extract()[0]

就可以把「大家好！」提取出來，需要注意的是在這種場景中，「依然不需要使用 Scrapy 這種復雜的框架」，在這種場景下，由于數(shù)據(jù)量不大，使用單線程即可滿足需求，在實際生產(chǎn)上我們用 php 實現(xiàn)即可滿足需求

2、某天運營同學又提了一個需求，想爬取美拍的視頻

通過抓包我們發(fā)現(xiàn)美拍每個視頻的 url 都很簡單，輸入到瀏覽器查看也能正常看視頻，于是我們想當然地認為直接通過此 url 即可下載視頻,但實際我們發(fā)現(xiàn)此 url 是分片的(m3u8,為了優(yōu)化加載速度而設(shè)計的一種播放多媒體列表的檔案格式),下載的視頻不完整,后來我們發(fā)現(xiàn)打開`http://www.flvcd.com/`網(wǎng)站

輸入美拍地址轉(zhuǎn)化一下就能拿到完整的視頻下載地址