啦啦啦www日本高清免费观看,欧美一区二区三区四区五区视频,91成人电影在线观看,女人天堂手机网,成人性爱视频免费看,欧美操B网,大屌在线,夜夜操夜夜撸

這是月小水長(zhǎng) 的第 64 篇原創(chuàng)干貨

idea of startproject

對(duì)于 web 開發(fā)者而言，目前各大新聞門戶網(wǎng)站，新浪新聞，百度新聞，騰訊新聞，澎湃新聞，頭條新聞并沒有提供穩(wěn)定可用的 feed api。
對(duì)于 nlper，缺乏足夠的新聞?wù)Z料數(shù)據(jù)集來供訓(xùn)練。
對(duì)于新聞傳播/社會(huì)學(xué)/心理學(xué)等從業(yè)者，缺乏獲取新聞數(shù)據(jù)的簡(jiǎn)單易用途徑來供分析。
如果上面三點(diǎn)是某見識(shí)所限，其實(shí)并不存在的話，第 4 點(diǎn)，則是某的私心，某以為互聯(lián)網(wǎng)的記憶太短了，熱搜一浪蓋過一浪，所以試圖定格互聯(lián)網(wǎng)新聞的某些瞬間，最后會(huì)以網(wǎng)站的形式發(fā)布出來。

project 的 github 地址

https://github.com/Python3Spiders/AllNewsSpider

該爬蟲實(shí)現(xiàn)的主要功能羅列如下：

再說說如何使用（默認(rèn)讀者均有 python3.6+ 環(huán)境）

將倉庫 tencent文件夾下的 tencent_news_spider.pyd 文件下載到本地，新建項(xiàng)目，把 pyd 文件放進(jìn)去
項(xiàng)目根目錄下新建 runner.py，寫入以下代碼即可運(yùn)行并抓取
```
import tencent_news_spider
tencent_news_spider.main()
```

開始運(yùn)行時(shí)會(huì)提示輸入爬取到哪一頁，默認(rèn)是 20 頁，爬取過程中是下面這樣的。

爬取結(jié)束了，會(huì)在當(dāng)前目錄下生成一個(gè) 騰訊新聞.xlsx文件，里面保持了四個(gè) category 的所有網(wǎng)站上可瀏覽的文本新聞，一個(gè) category 對(duì)應(yīng)一個(gè) sheet_name。

1、新浪新聞爬蟲

2、nytimes 紐約時(shí)報(bào)爬蟲

3、thetimes 泰晤士報(bào)爬蟲

閱讀原文即可直達(dá)該爬蟲的 Github 地址。