<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          有哪些適合練手的爬蟲小項目?

          共 1484字,需瀏覽 3分鐘

           ·

          2020-10-30 05:04

          點擊上方藍色字體,星標(biāo)公眾號

          我們正在發(fā)起一場公益活動:

          無私幫助大家解決難題,真正解決的那種!

          問答起飛

          如果你平時遇到任何困擾你已久的問題,可以加群,告訴我們,統(tǒng)一記錄到《QA》表中。

          我們解決不了的,會在公眾號內(nèi)發(fā)起求助,總之,盡最大努力幫助你解決問題,真正解決的那種!

          第四彈問題

          爬蟲有哪些練手的小項目嗎?各位大佬,最好質(zhì)量較好一點的啊。

          爬蟲案例

          這里先為大家推薦一個爬取豆瓣書籍的爬蟲吧,方便大家搜羅各種美書!

          包含評價人數(shù)、評分、被鏈接數(shù)、鏈入的圖書節(jié)點、鏈出的圖書節(jié)點等信息。

          另外給出爬蟲的全部代碼,實現(xiàn)的功能包括:

          實現(xiàn)功能:

          • 1 可以爬下豆瓣讀書標(biāo)簽下的所有圖書

          • 2 按評分排名依次存儲

          • 3 存儲到Excel中,可方便大家篩選搜羅,比如篩選評價人數(shù)>1000的高分書籍;可依據(jù)不同的主題存儲到Excel不同的Sheet

          • 4 采用User Agent偽裝為瀏覽器進行爬取,并加入隨機延時來更好的模仿瀏覽器行為,避免爬蟲被封

          使用的包:

          #-*-?coding:?UTF-8?-*-

          import?sys
          import?time
          import?urllib
          import?urllib2
          import?requests
          import?numpy?as?np
          from?bs4?import?BeautifulSoup
          from?openpyxl?import?Workbook

          reload(sys)
          sys.setdefaultencoding('utf8')

          中間代碼稍長,不貼到這里了,下面是測試代碼:

          if?__name__=='__main__':
          ????#book_tag_lists?=?['心理','判斷與決策','算法','數(shù)據(jù)結(jié)構(gòu)','經(jīng)濟','歷史']
          ????#book_tag_lists?=?['傳記','哲學(xué)','編程','創(chuàng)業(yè)','理財','社會學(xué)','佛教']
          ????#book_tag_lists?=?['思想','科技','科學(xué)','web','股票','愛情','兩性']
          ????#book_tag_lists?=?['計算機','機器學(xué)習(xí)','linux','android','數(shù)據(jù)庫','互聯(lián)網(wǎng)']
          ????#book_tag_lists?=?['數(shù)學(xué)']
          ????#book_tag_lists?=?['攝影','設(shè)計','音樂','旅行','教育','成長','情感','育兒','健康','養(yǎng)生']
          ????#book_tag_lists?=?['商業(yè)','理財','管理']??
          ????#book_tag_lists?=?['名著']
          ????#book_tag_lists?=?['科普','經(jīng)典','生活','心靈','文學(xué)']
          ????#book_tag_lists?=?['科幻','思維','金融']
          ????book_tag_lists?=?['個人管理','時間管理','投資','文化','宗教']
          ????book_lists=do_spider(book_tag_lists)
          ????print_book_lists_excel(book_lists,book_tag_lists)
          ????

          其他20多個小項目的部分截圖:

          這20幾個小項目已經(jīng)制作成pdf,感興趣的關(guān)注管理員的微信,資料比較珍貴,單獨發(fā):

          瀏覽 60
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  亚洲无码一区二区电影 | 青榴最新入口 | 成人在线观看黄色 | 黑人日亚洲美女 | 久久精品内射 |