精品无码久久久久久,一级黄色免费,人人插操,青青草视频大香蕉,国产内射免费在线观看,99在线这里只有精品,色欲av网站,日韩国产无码1区2区3区4区

idea of startproject

對于 web 開發(fā)者而言，目前各大新聞門戶網(wǎng)站，新浪新聞，百度新聞，騰訊新聞，澎湃新聞，頭條新聞并沒有提供穩(wěn)定可用的 feed api。
對于 nlper，缺乏足夠的新聞語料數(shù)據(jù)集來供訓練。
對于新聞傳播/社會學/心理學等從業(yè)者，缺乏獲取新聞數(shù)據(jù)的簡單易用途徑來供分析。
如果上面三點是某見識所限，其實并不存在的話，第 4 點，則是某的私心，某以為互聯(lián)網(wǎng)的記憶太短了，熱搜一浪蓋過一浪，所以試圖定格互聯(lián)網(wǎng)新聞的某些瞬間，最后會以網(wǎng)站的形式發(fā)布出來。

https://github.com/Python3Spiders/AllNewsSpider

項目的 github 地址如上，于 2021 年跨年時發(fā)布了這個項目，一年間陸續(xù)發(fā)布了新浪，百度，騰訊，澎湃，泰晤士報，紐約時報等主流新聞媒體。

期間也上線過聚源新聞網(wǎng)站，集成了上述 feed 數(shù)據(jù)，可惜服務器過期導致網(wǎng)站下線。

restart

2022 年新的一年，又將這個項目拾掇起來了，并且順帶發(fā)布了新加入的 BBC News。

pyd 文件在：

https://github.com/Python3Spiders/AllNewsSpider/tree/master/bbc

點擊文末閱讀原文直達。

這個 bbc_news_spider 能按照指定的關鍵詞(s)抓取 BBC 新聞網(wǎng)站上的數(shù)據(jù)，輸出字段格式如下。

字段	說明
title	新聞標題
link	新聞鏈接
summary	新聞概述
head_img	頭圖
publish_time	發(fā)布時間
tags	標簽
content	正文

single keyword


from bbc_news_spider import BBCNewsKeywordSearchsearch_worker = BBCNewsKeywordSearch()search_worker.setKeyword("mykeyword")search_worker.crawl()

batch keyword


from bbc_news_spider import BBCNewsKeywordSearchsearch_worker = BBCNewsKeywordSearch()keywords = ['mykeword1', 'mykeyword2', 'mykeyword3']search_worker.setKeywordListandRun(keywords)

todo

第一，bbc_bews_spider 只是打印到控制臺，驗證可行性，沒有輸出到 csv 文件，原來的幾個爬蟲可能由于某些原因失效了，可能需要重來。

第二，新聞網(wǎng)站重新上線。

第三，忙死，感慨時間太短，想做什么事情卻也什么都做不了…

第四，以上三條不具有并列和先后關系…

新聞聚源集成 BBC News

idea of startproject

restart

single keyword

batch keyword

todo