出版了兩本Python爬蟲相關(guān)的書
離上一次公眾號(hào)發(fā)布文章(2020年04月10日)已經(jīng)過去了三年,三年前規(guī)劃寫一本書,如今已經(jīng)正式在清華大學(xué)出版社出版。本來是計(jì)劃出版一本Python爬蟲從業(yè)者必備的基礎(chǔ)能力體系書籍,但是因?yàn)閮?nèi)容多了一些,后面拆分為兩本書,這兩本書分別是《Python爬蟲實(shí)戰(zhàn)基礎(chǔ)》和《Python爬蟲實(shí)戰(zhàn)進(jìn)階》,以我從零開始轉(zhuǎn)型Python開發(fā)的經(jīng)驗(yàn)來構(gòu)建的知識(shí)體系。

為什么要寫這樣一本書?首先不是為了賺錢,因?yàn)閺拈_始我就知道寫書是一件很苦逼但是不賺錢的事情,比起做網(wǎng)課來說并不具備性價(jià)比。寫這本書的目的,純粹是一腔熱血,以及年少無(wú)知的情懷,還有就是幻想著很多年后,我不在了,但是互聯(lián)網(wǎng)上還能搜到這本書,這本書上還有我的名字,我想是一件比較酷的事情。當(dāng)然我在這兩本書前言部分,也陳述了我之所以出版這兩本的想法:
我是非科班出身的程序員,轉(zhuǎn)行做 Python 網(wǎng)絡(luò)爬蟲開發(fā)和 Python 全棧開發(fā),從零基礎(chǔ)到掌握網(wǎng)絡(luò)爬蟲開發(fā)的全體系技術(shù),一路走過很多曲折的道路。寫本書的原因之一是幫助與我曾經(jīng)一樣不知道如何提升方向、在網(wǎng)絡(luò)爬蟲領(lǐng)域還比較迷茫的讀者。在技術(shù)道路上沒有速成的捷徑,如果說有,那就是晝夜兼程的學(xué)習(xí)和實(shí)踐,希望本書能對(duì)讀者達(dá)到一種拋磚引玉的效果。我曾就職于 Synnex ,這是一家優(yōu)秀的世界五百?gòu)?qiáng)公司。在職時(shí),我從事流程自動(dòng)化方面的工作,遇到了平易近人的 Leader 及一群友好和富有愛心的同事,他們?cè)诩夹g(shù)提升和視野開闊方面給予了我很大的幫助,在這里感謝他們。同時(shí),我在個(gè)人博客中不斷地總結(jié),這個(gè)習(xí)慣也為我寫本書奠定了文字基礎(chǔ)。因?yàn)楦杏X不成體系,為了更系統(tǒng)地學(xué)習(xí)和總結(jié),我萌生了寫這本書的想法,這也是寫本書的另一個(gè)原因。在離開 Synnex 、向更高技術(shù)臺(tái)階奮進(jìn)的同時(shí),我也開啟了本書的編寫。
寫完這本書之后有什么感想?一方面還是比較佩服自己,也佩服那些出書的大佬,自己走過來才知道其中的艱難。另一方面是感覺在Python爬蟲領(lǐng)域自己的路道阻且長(zhǎng),技術(shù)上遠(yuǎn)達(dá)不到大佬的水平,還需要深入學(xué)習(xí)。當(dāng)然,最后還是希望這兩本書能夠幫助到有需要的人。
寫書的過程?這本書是2020年伊始的時(shí)候開始立項(xiàng),那個(gè)時(shí)候正是新冠疫情最為迅猛的階段,我義無(wú)反顧的從老東家裸辭,開始了新的旅程。辭職之后的一段時(shí)間,開始專注寫書,一個(gè)月后入職了我現(xiàn)在的公司,就利用平時(shí)下班時(shí)間和周末及節(jié)假日時(shí)間編寫,整個(gè)過程持續(xù)了兩年左右,然后到了2022年左右交稿,就開始了斷斷續(xù)續(xù)的審稿和改稿階段,直到今年五月份正式開始出版印刷。寫書的過程,也會(huì)涉及到自己陌生的領(lǐng)域,這種時(shí)候就過google然后自己寫代碼驗(yàn)證,整個(gè)過程收獲是很多的,不過現(xiàn)在基本忘完了。如果那個(gè)時(shí)候有chatGPT,應(yīng)該會(huì)輕松很多,也會(huì)順利很多。
其他想說的話。時(shí)光荏苒,已經(jīng)過去了三年多了,就像是一場(chǎng)穿越,2020到2023年,其中從開始關(guān)注本公眾號(hào)的粉絲,也有不同的際遇,但是經(jīng)過了三年成長(zhǎng),相信大家都達(dá)到了自己想要的高度,在這里也祝愿各位公眾號(hào)粉絲成為技術(shù)大佬,心想事成。
好了廢話不說了,下面是這兩本書的目錄和下單鏈接,現(xiàn)在購(gòu)買都是定價(jià)的七八折的樣子。
《Python爬蟲實(shí)戰(zhàn)進(jìn)階》本書指出 Python 網(wǎng)絡(luò)爬蟲開發(fā)從業(yè)者的提升方向。在分布式爬蟲方面,通過對(duì) Scrapy 框架源碼進(jìn)行剖析,全面掌握 Scrapy 的設(shè)計(jì)理念;在異步編程方面,從異步編程原理到異步請(qǐng)求再到數(shù)據(jù)庫(kù)、文件讀寫的異步操作,對(duì)全體系做了全面介紹;在異步編程的思想上,再詳細(xì)介紹異步的自動(dòng)化瀏覽器庫(kù) pyppeteer ;在反爬蟲方面,對(duì)指紋技術(shù)、滑動(dòng)驗(yàn)證、字體和 CSS 樣式反爬蟲技術(shù)、動(dòng)態(tài)渲染、圖片驗(yàn)證碼處理等方面對(duì)其原理進(jìn)行剖析,對(duì)處理方案做深入介紹,圖片驗(yàn)證碼處理還涉及機(jī)器學(xué)習(xí)的內(nèi)容;在分布式爬蟲的設(shè)計(jì)上,通過不同的消息中間件設(shè)計(jì)滿足具體業(yè)務(wù)場(chǎng)景的分布式框架,如基于 RabbitMQ 的分布式設(shè)計(jì)、基于 Kafka 的分布式設(shè)計(jì)和基于 Celery 的分布式設(shè)計(jì);在編碼和加密方面,講解了編碼原理和常用的集中加密算法,如 DES 、 AES 、 MD5 和 SHA ;在 JavaScript 安全分析方面,對(duì)目前前端常用的反爬蟲措施進(jìn)行深入分析,同時(shí)對(duì)目前流程的混淆與還原進(jìn)行全面的介紹;在搜索引擎技術(shù)方面,對(duì)搜索引擎原理、搜索引擎的實(shí)現(xiàn)過程做介紹,并通過 Elasticsearch 實(shí)現(xiàn)一個(gè)垂直領(lǐng)域的搜索服務(wù)。
目錄






購(gòu)買
《Python爬蟲實(shí)戰(zhàn)基礎(chǔ)》

