有哪些適合練手的爬蟲小項目?
點擊上方藍色字體,星標(biāo)公眾號
我們正在發(fā)起一場公益活動:
無私幫助大家解決難題,真正解決的那種!
問答起飛
如果你平時遇到任何困擾你已久的問題,可以加群,告訴我們,統(tǒng)一記錄到《QA》表中。
我們解決不了的,會在公眾號內(nèi)發(fā)起求助,總之,盡最大努力幫助你解決問題,真正解決的那種!
第四彈問題
爬蟲有哪些練手的小項目嗎?各位大佬,最好質(zhì)量較好一點的啊。
爬蟲案例
這里先為大家推薦一個爬取豆瓣書籍的爬蟲吧,方便大家搜羅各種美書!
包含評價人數(shù)、評分、被鏈接數(shù)、鏈入的圖書節(jié)點、鏈出的圖書節(jié)點等信息。
另外給出爬蟲的全部代碼,實現(xiàn)的功能包括:
實現(xiàn)功能:
1 可以爬下豆瓣讀書標(biāo)簽下的所有圖書
2 按評分排名依次存儲
3 存儲到Excel中,可方便大家篩選搜羅,比如篩選評價人數(shù)>1000的高分書籍;可依據(jù)不同的主題存儲到Excel不同的Sheet
4 采用
User Agent偽裝為瀏覽器進行爬取,并加入隨機延時來更好的模仿瀏覽器行為,避免爬蟲被封
使用的包:
#-*-?coding:?UTF-8?-*-
import?sys
import?time
import?urllib
import?urllib2
import?requests
import?numpy?as?np
from?bs4?import?BeautifulSoup
from?openpyxl?import?Workbook
reload(sys)
sys.setdefaultencoding('utf8')
中間代碼稍長,不貼到這里了,下面是測試代碼:
if?__name__=='__main__':
????#book_tag_lists?=?['心理','判斷與決策','算法','數(shù)據(jù)結(jié)構(gòu)','經(jīng)濟','歷史']
????#book_tag_lists?=?['傳記','哲學(xué)','編程','創(chuàng)業(yè)','理財','社會學(xué)','佛教']
????#book_tag_lists?=?['思想','科技','科學(xué)','web','股票','愛情','兩性']
????#book_tag_lists?=?['計算機','機器學(xué)習(xí)','linux','android','數(shù)據(jù)庫','互聯(lián)網(wǎng)']
????#book_tag_lists?=?['數(shù)學(xué)']
????#book_tag_lists?=?['攝影','設(shè)計','音樂','旅行','教育','成長','情感','育兒','健康','養(yǎng)生']
????#book_tag_lists?=?['商業(yè)','理財','管理']??
????#book_tag_lists?=?['名著']
????#book_tag_lists?=?['科普','經(jīng)典','生活','心靈','文學(xué)']
????#book_tag_lists?=?['科幻','思維','金融']
????book_tag_lists?=?['個人管理','時間管理','投資','文化','宗教']
????book_lists=do_spider(book_tag_lists)
????print_book_lists_excel(book_lists,book_tag_lists)
????
其他20多個小項目的部分截圖:
這20幾個小項目已經(jīng)制作成pdf,感興趣的關(guān)注管理員的微信,資料比較珍貴,單獨發(fā):
評論
圖片
表情

