Node-cnblogs-spider基于 Node 實(shí)現(xiàn)的爬蟲(chóng)
spider_cnblogs
spider_cnblogs 是專(zhuān)門(mén)爬取博客園的文章并自動(dòng)將文章轉(zhuǎn)成 .md 存儲(chǔ)至本地的爬蟲(chóng)。
安裝
npm install node-cnblogs-spider --save
使用
var ncs = require('node-cnblogs-spider')
ncs([
http://xxxx,
http://xxxx
])
示例
依賴(lài)
to-markdown 將html轉(zhuǎn)md
cheerio 類(lèi)似于Sizzle的nodejs的實(shí)現(xiàn)
bluebird 是對(duì)es6種Promise方法的封裝與ose展庫(kù)
文檔
- [譯] NodeJS 錯(cuò)誤處理最佳實(shí)踐
- Nodejs異步異常處理domain
- 使用Promise盡量脫離回調(diào)地獄,使得代碼可讀性更高
- html轉(zhuǎn)md格式的包還是有缺陷的,不然完美展現(xiàn)出
.md - 生成本地文件使用的是stream實(shí)現(xiàn),效率更高。但是要注意文件的命名規(guī)范。
License
MIT
評(píng)論
圖片
表情
