麻豆传媒精品视频,午夜大黄,蜜芽无码,成人在线观看无码,成人福利视频,午夜三级福利无码,日日躁天天躁AAAAXxXX痛,caoporen

新聞平臺聚合之紐約時(shí)報(bào)爬蟲發(fā)布

共 986字，需瀏覽 2分鐘

2021-03-18 23:21

idea of startproject

對于 web 開發(fā)者而言，目前各大新聞門戶網(wǎng)站，新浪新聞，百度新聞，騰訊新聞，澎湃新聞，頭條新聞并沒有提供穩(wěn)定可用的 feed api。
對于 nlper，缺乏足夠的新聞?wù)Z料數(shù)據(jù)集來供訓(xùn)練。
對于新聞傳播/社會學(xué)/心理學(xué)等從業(yè)者，缺乏獲取新聞數(shù)據(jù)的簡單易用途徑來供分析。
如果上面三點(diǎn)是某見識所限，其實(shí)并不存在的話，第 4 點(diǎn)，則是某的私心，某以為互聯(lián)網(wǎng)的記憶太短了，熱搜一浪蓋過一浪，所以試圖定格互聯(lián)網(wǎng)新聞的某些瞬間，最后會以網(wǎng)站的形式發(fā)布出來。

project 的 Github：https://github.com/Python3Spiders/AllNewsSpider

本篇是新聞系列的第四篇，以美國著名的報(bào)紙：紐約時(shí)報(bào)網(wǎng)站為目標(biāo)站點(diǎn)。

這次的新聞爬蟲和以往有很大不同，不再以分類形式抓取新聞，而是以關(guān)鍵詞搜索抓取新聞，具體可以往下讀。

該爬蟲實(shí)現(xiàn)的主要功能羅列如下：

再說說如何使用（默認(rèn)讀者均有 python3.6+ 環(huán)境）

項(xiàng)目根目錄下新建 runner.py，寫入以下代碼即可運(yùn)行并抓取

from nytimes_news_spider import main

if __name__ == '__main__':
    main(keyword="huawei", beginDate="20210101", endDate="20210318")

爬取結(jié)束了，會在當(dāng)前目錄下生成一個(gè) {keyword}(nytimes).csv文件，如下圖

閱讀原文即可直達(dá)該爬蟲的 Github 地址。

點(diǎn)贊

舉報(bào)