99免费在线视频,综合色色米奇网,激情综合网五月丁香,亚洲乱伦视频,日韩毛片儿,9r6视频在线观看,婷婷我也去,亚洲成人第一页

這是月小水長(zhǎng) 的第 65 篇原創(chuàng)干貨

idea of startproject

對(duì)于 web 開(kāi)發(fā)者而言，目前各大新聞門戶網(wǎng)站，新浪新聞，百度新聞，騰訊新聞，澎湃新聞，頭條新聞并沒(méi)有提供穩(wěn)定可用的 feed api。
對(duì)于 nlper，缺乏足夠的新聞?wù)Z料數(shù)據(jù)集來(lái)供訓(xùn)練。
對(duì)于新聞傳播/社會(huì)學(xué)/心理學(xué)等從業(yè)者，缺乏獲取新聞數(shù)據(jù)的簡(jiǎn)單易用途徑來(lái)供分析。
如果上面三點(diǎn)是某見(jiàn)識(shí)所限，其實(shí)并不存在的話，第 4 點(diǎn)，則是某的私心，某以為互聯(lián)網(wǎng)的記憶太短了，熱搜一浪蓋過(guò)一浪，所以試圖定格互聯(lián)網(wǎng)新聞的某些瞬間，最后會(huì)以網(wǎng)站的形式發(fā)布出來(lái)。

project 的 Github：https://github.com/Python3Spiders/AllNewsSpider

該爬蟲(chóng)實(shí)現(xiàn)的主要功能羅列如下：

再說(shuō)說(shuō)如何使用（默認(rèn)讀者均有 python3.6+ 環(huán)境）

將倉(cāng)庫(kù) sina 文件夾下的 sina_news_spider.pyd 文件下載到本地，新建項(xiàng)目，把 pyd 文件放進(jìn)去
項(xiàng)目根目錄下新建 runner.py，寫入以下代碼即可運(yùn)行并抓取
```
import sina_news_spider
sina_news_spider.main()
```

開(kāi)始運(yùn)行時(shí)會(huì)提示輸入爬取到哪一頁(yè)，默認(rèn)是 20 頁(yè)

爬取結(jié)束了，會(huì)在當(dāng)前目錄下生成一個(gè) 新浪新聞.xlsx文件，里面保持了四個(gè) category 的所有網(wǎng)站上可瀏覽的文本新聞，一個(gè) category 對(duì)應(yīng)一個(gè) sheet_name。

1、nytimes 紐約時(shí)報(bào)爬蟲(chóng)

2、thetimes 泰晤士報(bào)爬蟲(chóng)

閱讀原文即可直達(dá)該爬蟲(chóng)的 Github 地址。