<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          手把手教你使用scrapy框架來(lái)爬取北京新發(fā)地價(jià)格行情(實(shí)戰(zhàn)篇)

          共 3190字,需瀏覽 7分鐘

           ·

          2021-10-03 02:38

          點(diǎn)擊上方“Python爬蟲與數(shù)據(jù)挖掘”,進(jìn)行關(guān)注

          回復(fù)“書籍”即可獲贈(zèng)Python從入門到進(jìn)階共10本電子書

          身著白衣,心有錦緞。

          ????大家好!我是霖hero。上個(gè)月的時(shí)候,我寫了一篇關(guān)于IP代理的文章,手把手教你使用XPath爬取免費(fèi)代理IP;前幾天,我又發(fā)布了第二篇文章,這篇文章主要是講Scrapy理論知識(shí)的,手把手教你使用scrapy框架來(lái)爬取北京新發(fā)地價(jià)格行情(理論篇),今天在這里分享我的第三篇文章,關(guān)于Scrapy實(shí)戰(zhàn)的應(yīng)用文章,希望大家可以喜歡。


          前言

          ????關(guān)于Scrapy理論的知識(shí),可以參考我的上一篇文章,這里不再贅述,直接上干貨。


          實(shí)戰(zhàn)演練

          爬取分析

          首先我們進(jìn)入北京新發(fā)地價(jià)格行情網(wǎng)頁(yè)并打開開發(fā)者工具,如下圖所示:

          經(jīng)過(guò)簡(jiǎn)單的查找,發(fā)現(xiàn)每個(gè)getPriceData.html存放著價(jià)格行情的數(shù)據(jù),由此可得,我們可以通過(guò)getPriceData.html來(lái)進(jìn)行數(shù)據(jù)的獲取。

          觀察Headers請(qǐng)求,如下圖所示:

          發(fā)現(xiàn)它是POST請(qǐng)求,請(qǐng)求URL鏈接是http://www.xinfadi.com.cn/getPriceData.html,current是翻頁(yè)的重要參數(shù),limit是每頁(yè)有多少行數(shù)據(jù),我們可以構(gòu)造消息體,代碼如下所示:

          data={'limit': '20','current':page}

          通過(guò)scrapy.Request()方法將消息體傳入到參數(shù)里面。

          或者我們可以根據(jù)測(cè)試和觀察規(guī)律,自己構(gòu)造URL鏈接,通過(guò)觀察分析,請(qǐng)求的URL鏈接可以為:

          http://www.xinfadi.com.cn/getPriceData.html?limit=20¤t=1http://www.xinfadi.com.cn/getPriceData.html?limit=20¤t=2http://www.xinfadi.com.cn/getPriceData.html?limit=20¤t=3

          創(chuàng)建Spider爬蟲

          分析北京新發(fā)地價(jià)格行情后,接下來(lái)我們首先創(chuàng)建一個(gè)Scrapy項(xiàng)目,使用如下命令:

          scrapy startproject Vegetables

          這樣我們就成功創(chuàng)建了一個(gè)Scrapy項(xiàng)目,項(xiàng)目文件如下所示:

          接下來(lái)創(chuàng)建spider爬蟲,使用如下命令:

          scrapy genspider vegetables www.xinfadi.com.cn

          創(chuàng)建后vegetables.py內(nèi)容如下所示:

          import scrapy
          class VegetablesSpider(scrapy.Spider): name = 'vegetables' allowed_domains = ['www.xinfadi.com.cn'] start_urls = ['https://www.xinfadi.com.cn'] def parse(self, response): pass

          提取數(shù)據(jù)

          在提取數(shù)據(jù)前,我們首先把要爬取的數(shù)據(jù)字段在items.py文件中定義好,代碼如下所示:

          import scrapy
          class VegetablesItem(scrapy.Item): # define the fields for your item here like: productName = scrapy.Field() lowPrice=scrapy.Field() highPrice=scrapy.Field()

          這里我們定義了三個(gè)字段分別是productName、lowPrice、highPrice

          定義好字段后,接下來(lái)將在創(chuàng)建的vegetables.py文件中進(jìn)行數(shù)據(jù)的提取,具體代碼如下

          import scrapyfrom Vegetables.items import VegetablesItem
          class VegetablesSpider(scrapy.Spider): name = 'vegetables' allowed_domains = ['www.xinfadi.com.cn'] def start_requests(self): for i in range(1, 3): url = f'http://www.xinfadi.com.cn/getPriceData.html?limit=20¤t={i}' yield scrapy.Request(url=url, callback=self.parse)
          def parse(self, response): html = response.json() fooddata = html.get('list') for i in fooddata: item=VegetablesItem() item['highPrice'] =i.get('highPrice'), item['lowPrice'] = i.get('lowPrice'), item['prodName'] = i.get('prodName'), yield item

          首先我們導(dǎo)入vegetablesitem,使用start_requests函數(shù)實(shí)現(xiàn)翻頁(yè),大家可以使用剛才我們所講的方法實(shí)現(xiàn)翻頁(yè),實(shí)現(xiàn)翻頁(yè)后,我們通過(guò)編寫parse()方法實(shí)現(xiàn)數(shù)據(jù)的獲取,首先我們把引擎響應(yīng)的數(shù)據(jù)以json()格式存放在html里面,調(diào)用get()方法來(lái)提取我們想要的數(shù)據(jù),最后通過(guò)yield生成器返回給引擎。

          最后我們?cè)趕ettings.py設(shè)置引擎的啟動(dòng),代碼如下所示:

          ITEM_PIPELINES = {  'Vegetables.pipelines.VegetablesPipeline': 300,}

          在這里我們就不保存數(shù)據(jù)在MongoDB數(shù)據(jù)庫(kù)里面了,我們直接啟動(dòng)Spider爬蟲并把數(shù)據(jù)以csv格式輸出,使用如下命令:

          scrapy crawl vegetables -o 11.c

          運(yùn)行結(jié)果如下:

          好了,Scrapy框架爬取北京新發(fā)地就講解到這里了,感謝觀看?。?!


          總結(jié)

          ????大家好,我是霖hero。這篇文章基于上篇理論文章,主要給大家分享了Scrapy爬蟲框架的實(shí)戰(zhàn)內(nèi)容,Scrapy是一個(gè)基于Twisted的異步處理框架,是純Python實(shí)現(xiàn)的爬蟲框架,是提取結(jié)構(gòu)性數(shù)據(jù)而編寫的應(yīng)用框架,其架構(gòu)清晰,模塊之間的耦合程度低,可擴(kuò)展性極強(qiáng)。

          ????最后需要本文完整代碼的小伙伴,可以在后臺(tái)回復(fù)關(guān)鍵字“菜狗”進(jìn)行獲取,覺(jué)得不錯(cuò),記得點(diǎn)贊、收藏、轉(zhuǎn)發(fā)三連支持噢!

          -------------------?End?-------------------

          往期精彩文章推薦:

          歡迎大家點(diǎn)贊,留言,轉(zhuǎn)發(fā),轉(zhuǎn)載,感謝大家的相伴與支持

          想加入Python學(xué)習(xí)群請(qǐng)?jiān)诤笈_(tái)回復(fù)【入群

          萬(wàn)水千山總是情,點(diǎn)個(gè)【在看】行不行

          /今日留言主題/

          隨便說(shuō)一兩句吧~~

          瀏覽 37
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  天天上天天干天天日 | 91久久久久无码精品国产麻豆 | 综合色色综合 | A级视频在线观看不卡一二三四区 | 黑人操逼在线 |