<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          百度云分享爬蟲

          聯(lián)合創(chuàng)作 · 2023-09-29 13:34

          百度云分享爬蟲項目

          github上有好幾個這樣的開源項目,但是都只提供了爬蟲部分,這個項目在爬蟲的基礎上還增加了保存數(shù)據(jù),建立elasticsearch索引的模塊,可以用在實際生產(chǎn)環(huán)境中,不過web模塊還是需要自己開發(fā)

          安裝

          安裝node.js和pm2,node用來運行爬蟲程序和索引程序,pm2用來管理node任務

          安裝mysql和mongodb,mysql用來保存爬蟲數(shù)據(jù),mongodb用來保存最終的百度云分享數(shù)據(jù),這些數(shù)據(jù)是json格式的,用mongodb保存更方便。

          git clone https://github.com/callmelanmao/yunshare
          cnpm i

          推薦使用cnpm命令安裝npm依賴,最簡單的安裝方式

          $ npm install -g cnpm --registry=https://registry.npm.taobao.org

          更多安裝cnpm的命令可以去npm.taobao.org上面找。

          初始化

          爬蟲數(shù)據(jù)(主要是url列表)都是保存在mysql數(shù)據(jù)庫的,yunshare使用sequelizejs做orm映射,源文件在src/models/index.js,默認的mysql用戶名和密碼都是root,數(shù)據(jù)看是yun,你需要手動創(chuàng)建yun數(shù)據(jù)庫

          create database yun default charset utf8

          密碼根據(jù)自己需要進行修改,完成mysql配置之后就可以運行下面的命令

          gulp babel
          node dist/init.js

          注意必須先運行gulp babel把es6代碼編譯成es5,然后運行初始化腳本導入初始數(shù)據(jù),數(shù)據(jù)文件在data/hot.json,里面,是從頁面 http://yun.baidu.com/pcloud/friend/gethotuserlist?type=1&from=feed&start=0&limit=24&bdstoken=ac95ef31d3979f6ee707ef75cee9f5c5&clienttype=0&web=1 保存下來的。

          啟動項目

          yunshare使用pm2進行nodejs進程管理,運行pm2 start process.json啟動所有的后臺任務,檢查任務是否正常運行可以用命令pm2 list,正常運行的應該有4個任務。

          啟動elasticsearch索引

          elasticsearch索引程序也已經(jīng)寫好了,mapping文件在data/mapping.json,請確保你已經(jīng)安裝elasticsearch 5.0的版本之后才運行索引程序,命令pm2 start dist/elastic.js。

          默認的elasticsearch地址是http://localhost:9200,如果你需要修改這個地址,可以在src/ElasticWorker.js里面修改,修改任何js源碼之后記得運行gulp babel,在重啟pm2任務,不然修改是不會生效的。

          在完成elasticsearch配置之后,你也可以在process.json里面添加一項elastic任務,這樣就不需要單獨啟動索引程序了。

          DEMO

          網(wǎng)盤搜索

          瀏覽 23
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          編輯 分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          編輯 分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  多人日穴无码 | 12一15女人a毛片 | 国产无码做爱视频 | 免费观看成人毛片A片直播千姿 | 欧美成人性爱网址 |