新聞聚源集成 BBC News
idea of startproject
對于 web 開發(fā)者而言,目前各大新聞門戶網(wǎng)站,新浪新聞,百度新聞,騰訊新聞,澎湃新聞,頭條新聞并沒有提供穩(wěn)定可用的 feed api。
對于 nlper,缺乏足夠的新聞語料數(shù)據(jù)集來供訓練。
對于新聞傳播/社會學/心理學等從業(yè)者,缺乏獲取新聞數(shù)據(jù)的簡單易用途徑來供分析。
如果上面三點是某見識所限,其實并不存在的話,第 4 點,則是某的私心,某以為互聯(lián)網(wǎng)的記憶太短了,熱搜一浪蓋過一浪,所以試圖定格互聯(lián)網(wǎng)新聞的某些瞬間,最后會以網(wǎng)站的形式發(fā)布出來。
https://github.com/Python3Spiders/AllNewsSpider

restart
https://github.com/Python3Spiders/AllNewsSpider/tree/master/bbc| 字段 | 說明 |
|---|---|
| title | 新聞標題 |
| link | 新聞鏈接 |
| summary | 新聞概述 |
| head_img | 頭圖 |
| publish_time | 發(fā)布時間 |
| tags | 標簽 |
| content | 正文 |
single keyword
from bbc_news_spider import BBCNewsKeywordSearchsearch_worker = BBCNewsKeywordSearch()search_worker.setKeyword("mykeyword")search_worker.crawl()
batch keyword
from bbc_news_spider import BBCNewsKeywordSearchsearch_worker = BBCNewsKeywordSearch()keywords = ['mykeword1', 'mykeyword2', 'mykeyword3']search_worker.setKeywordListandRun(keywords)
todo
評論
圖片
表情
