<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          新聞聚源集成 BBC News

          共 1274字,需瀏覽 3分鐘

           ·

          2022-01-24 07:22

          idea of startproject

          1. 對于 web 開發(fā)者而言,目前各大新聞門戶網(wǎng)站,新浪新聞,百度新聞,騰訊新聞,澎湃新聞,頭條新聞并沒有提供穩(wěn)定可用的 feed api。

          2. 對于 nlper,缺乏足夠的新聞語料數(shù)據(jù)集來供訓練。

          3. 對于新聞傳播/社會學/心理學等從業(yè)者,缺乏獲取新聞數(shù)據(jù)的簡單易用途徑來供分析。

          4. 如果上面三點是某見識所限,其實并不存在的話,第 4 點,則是某的私心,某以為互聯(lián)網(wǎng)的記憶太短了,熱搜一浪蓋過一浪,所以試圖定格互聯(lián)網(wǎng)新聞的某些瞬間,最后會以網(wǎng)站的形式發(fā)布出來。

          https://github.com/Python3Spiders/AllNewsSpider

          項目的 github 地址如上,于 2021 年跨年時發(fā)布了這個項目,一年間陸續(xù)發(fā)布了新浪,百度,騰訊,澎湃,泰晤士報,紐約時報等主流新聞媒體。
          期間也上線過聚源新聞網(wǎng)站,集成了上述 feed 數(shù)據(jù),可惜服務器過期導致網(wǎng)站下線。

          restart

          2022 年新的一年,又將這個項目拾掇起來了,并且順帶發(fā)布了新加入的 BBC News。
          pyd 文件在:
          https://github.com/Python3Spiders/AllNewsSpider/tree/master/bbc
          點擊文末閱讀原文直達。
          這個 bbc_news_spider 能按照指定的關鍵詞(s)抓取 BBC 新聞網(wǎng)站上的數(shù)據(jù),輸出字段格式如下。
          字段說明
          title新聞標題
          link新聞鏈接
          summary新聞概述
          head_img頭圖
          publish_time發(fā)布時間
          tags標簽
          content正文

          single keyword

          from bbc_news_spider import BBCNewsKeywordSearchsearch_worker = BBCNewsKeywordSearch()search_worker.setKeyword("mykeyword")search_worker.crawl()

          batch keyword

          from bbc_news_spider import BBCNewsKeywordSearchsearch_worker = BBCNewsKeywordSearch()keywords = ['mykeword1', 'mykeyword2', 'mykeyword3']search_worker.setKeywordListandRun(keywords)

          todo

          第一,bbc_bews_spider 只是打印到控制臺,驗證可行性,沒有輸出到 csv 文件,原來的幾個爬蟲可能由于某些原因失效了,可能需要重來。
          第二,新聞網(wǎng)站重新上線。
          第三,忙死,感慨時間太短,想做什么事情卻也什么都做不了…
          第四,以上三條不具有并列和先后關系…
          瀏覽 64
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  欧美日韩国产一区二区三区 | 久久99嫩草99久久精品 | 亚洲人在线视频 | 三级黄色操逼 | 北条麻妃操操日日 |