手把手教你使用Python網(wǎng)絡爬蟲下載一本小說(附源碼)
回復“書籍”即可獲贈Python從入門到進階共10本電子書
????大家好,我是Python進階者。
前言
? 前幾天【磐奚鳥】大佬在群里分享了一個抓取小說的代碼,感覺還是蠻不錯的,這里分享給大家學習。

一、小說下載
????如果你想下載該網(wǎng)站上的任意一本小說的話,直接點擊鏈接進去,如下圖所示。

????只要將URL中的這個數(shù)字拿到就可以了,比方說這里是951,那么這個數(shù)字代表的就是這本書的書號,在后面的代碼中可以用得到的。
二、具體實現(xiàn)
????這里直接丟大佬的代碼了,如下所示:
#?coding: utf-8'''筆趣網(wǎng)小說下載僅限用于研究代碼勿用于商業(yè)用途請于24小時內(nèi)刪除'''import requestsimport osfrom bs4 import BeautifulSoupimport timedef book_page_list(book_id):'''通過傳入的書號bookid,獲取此書的所有章節(jié)目錄:param book_id::return: 章節(jié)目錄及章節(jié)地址'''url = 'http://www.biquw.com/book/{}/'.format(book_id)headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36'}response = requests.get(url, headers)response.encoding = response.apparent_encodingresponse = BeautifulSoup(response.text, 'lxml')booklist = response.find('div', class_='book_list').find_all('a')return booklistdef book_page_text(bookid, booklist):'''通過書號、章節(jié)目錄,抓取每一章的內(nèi)容并存檔:param bookid:str:param booklist::return:None'''try:for book_page in booklist:page_name = book_page.text.replace('*', '')page_id = book_page['href']time.sleep(3)url = 'http://www.biquw.com/book/{}/{}'.format(bookid,page_id)headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36'}response_book = requests.get(url, headers)response_book.encoding = response_book.apparent_encodingresponse_book = BeautifulSoup(response_book.text, 'lxml')book_content = response_book.find('div', id="htmlContent")with open("./{}/{}.txt".format(bookid,page_name), 'a') as f:f.write(book_content.text.replace('\xa0', ''))print("當前下載章節(jié):{}".format(page_name))except Exception as e:print(e)print("章節(jié)內(nèi)容獲取失敗,請確保書號正確,及書本有正常內(nèi)容。")if __name__ == '__main__':bookid = input("請輸入書號(數(shù)字):")# 如果書號對應的目錄不存在,則新建目錄,用于存放章節(jié)內(nèi)容if not os.path.isdir('./{}'.format(bookid)):os.mkdir('./{}'.format(bookid))try:booklist = book_page_list(bookid)print("獲取目錄成功!")time.sleep(5)book_page_text(bookid, booklist)except Exception as e:print(e)????????print("獲取目錄失敗,請確保書號輸入正確!")
程序運行之后,在控制臺輸入書號,即可開始進行抓取了。

在本地也會自動新建一個書號命名的文件夾,在該文件夾下,會存放小說的章節(jié),如下圖所示。

三、常見問題
????在運行過程中小伙伴們應該會經(jīng)常遇到這個問題,如下圖所示。

????這個是因為訪問太快,網(wǎng)站給你反爬了??梢栽O置隨機的user-agent或者上代理等方法解決。

四、總結(jié)
??? 我是Python進階者。這篇文章主要給大家介紹了小說內(nèi)容的獲取方法,基于網(wǎng)絡爬蟲,通過requests爬蟲庫和bs4選擇器進行實現(xiàn),并且給大家例舉了常見問題的處理方法。
????小伙伴們,快快用實踐一下吧!如果在學習過程中,有遇到任何問題,歡迎加我好友,我拉你進Python學習交流群共同探討學習。
????本文僅僅做代碼學習交流分享,大家切勿爬蟲成疾,在爬蟲的時候,也盡可能的選擇晚上進行,設置多的睡眠,爬蟲適可而止,千萬別對對方服務器造成過壓,謹記!謹記!謹記!
-------------------?End?-------------------
往期精彩文章推薦:

歡迎大家點贊,留言,轉(zhuǎn)發(fā),轉(zhuǎn)載,感謝大家的相伴與支持
想加入Python學習群請在后臺回復【入群】
萬水千山總是情,點個【在看】行不行
/今日留言主題/
隨便說一兩句吧~~
評論
圖片
表情
