新聞平臺(tái)聚合之騰訊新聞爬蟲發(fā)布
點(diǎn)擊上方 月小水長(zhǎng) 并 設(shè)為星標(biāo),第一時(shí)間接收干貨推送
idea of startproject
對(duì)于 web 開發(fā)者而言,目前各大新聞門戶網(wǎng)站,新浪新聞,百度新聞,騰訊新聞,澎湃新聞,頭條新聞并沒有提供穩(wěn)定可用的 feed api。
對(duì)于 nlper,缺乏足夠的新聞?wù)Z料數(shù)據(jù)集來供訓(xùn)練。
對(duì)于新聞傳播/社會(huì)學(xué)/心理學(xué)等從業(yè)者,缺乏獲取新聞數(shù)據(jù)的簡(jiǎn)單易用途徑來供分析。
如果上面三點(diǎn)是某見識(shí)所限,其實(shí)并不存在的話,第 4 點(diǎn),則是某的私心,某以為互聯(lián)網(wǎng)的記憶太短了,熱搜一浪蓋過一浪,所以試圖定格互聯(lián)網(wǎng)新聞的某些瞬間,最后會(huì)以網(wǎng)站的形式發(fā)布出來。
project 的 github 地址
https://github.com/Python3Spiders/AllNewsSpider
繼承自 澎湃新聞網(wǎng)站全站新聞爬蟲及各大新聞平臺(tái)聚合爬蟲發(fā)布,本篇是新聞系列的第二篇,以騰訊新聞為目標(biāo)網(wǎng)站

騰訊新聞爬蟲
全自動(dòng)爬取騰訊新聞全站新聞內(nèi)容,包括 娛樂、軍事、科技、財(cái)經(jīng) 四大 category。
可以自定義輸入爬取的最大頁碼,默認(rèn)是 20 頁
字段信息齊全,如下表格
| 字段名 | 字段含義 |
|---|---|
| recode_time | 該條新聞被抓取的時(shí)間 |
| news_title | 新聞標(biāo)題 |
| news_summary | 新聞概括 |
| news_url | 新聞鏈接 |
| news_author | 新聞作者 |
| news_keywords | 新聞關(guān)鍵詞,以 ;分隔 |
| news_time | 新聞發(fā)布的時(shí)間 |
| news_content | 新聞具體內(nèi)容 |
| news_view_count | 新聞瀏覽量 |
| news_comment_count | 新聞評(píng)論數(shù) |
將倉庫 tencent文件夾下的 tencent_news_spider.pyd 文件下載到本地,新建項(xiàng)目,把 pyd 文件放進(jìn)去
項(xiàng)目根目錄下新建 runner.py,寫入以下代碼即可運(yùn)行并抓取
import tencent_news_spider
tencent_news_spider.main()
開始運(yùn)行時(shí)會(huì)提示輸入爬取到哪一頁,默認(rèn)是 20 頁,爬取過程中是下面這樣的。

騰訊新聞.xlsx文件,里面保持了四個(gè) category 的所有網(wǎng)站上可瀏覽的文本新聞,一個(gè) category 對(duì)應(yīng)一個(gè) sheet_name。預(yù)告
1、新浪新聞爬蟲
2、nytimes 紐約時(shí)報(bào)爬蟲
3、thetimes 泰晤士報(bào)爬蟲
閱讀原文即可直達(dá)該爬蟲的 Github 地址。
