zhihu-spiderSpring Boot 項(xiàng)目框架
項(xiàng)目背景
從一開始是想編寫一個(gè)單純的知乎爬蟲,并實(shí)現(xiàn)其持久化,并由此展開周期性爬取知乎問題及答案以及其用戶資料信息,完善前后端分離歸檔分類,信息檢索等項(xiàng)目模塊。但是在實(shí)現(xiàn)過程中,我逐漸發(fā)現(xiàn)自己對(duì)信息爬取的技能知識(shí)掌握嚴(yán)重不足,萌發(fā)了搭建知乎信息中轉(zhuǎn)持久化的數(shù)據(jù)流平臺(tái),并提供HTML+JSON和RabbitMQ等消息接口,從而使有興趣的伙伴開發(fā)并使用其熟悉的語言環(huán)境,實(shí)現(xiàn)信息爬取,從而持久化到此項(xiàng)目中來,完成最開始的開發(fā)目標(biāo)。
項(xiàng)目的基礎(chǔ)理論
1. 面向數(shù)據(jù)流的項(xiàng)目開發(fā)。將我需要什么數(shù)據(jù),轉(zhuǎn)換為我能提供什么功能讓你幫我提供什么樣的數(shù)據(jù)。實(shí)現(xiàn)從信息獲取,信息持久,信息展示,信息檢索的整體的數(shù)據(jù)流功能程序開發(fā)。
2. 面向接口的項(xiàng)目開發(fā)。采用HTML+JSON和RabbitMQ的消息接口,從而讓異構(gòu)系統(tǒng)可輕松調(diào)用,爬蟲的客戶端、服務(wù)器端、信息展示的前端可實(shí)現(xiàn)完美解耦,職責(zé)清晰,并行開發(fā)。
評(píng)論
圖片
表情
