【程序源代碼】微信爬蟲

正文?|?內容
01
—
【介紹】
一個爬蟲代碼。主要用于對公眾號進行獲取數(shù)據(jù)使用的。使用的python進行開發(fā)的。內容比較簡單。可以簡單試用下。
02
—
【技術框架】
1、python環(huán)境, 檢查python的版本,是否為2.7.x,如果不是,安裝2.7.6。
2、安裝依賴包, clone代碼 安裝Mysql-python依賴
yum install python-devel mysql-devel gcc
安裝lxml依賴
yum install libxslt-devel libxml2-devel安裝瀏覽器環(huán)境 selenium依賴.(如果是mac環(huán)境,僅需安裝firefox, 但確保版本是 firefox 36.0,使用最新的版本會報錯)
yum install xorg-x11-server-Xvfb
yum upgrade glib2 # 確保glib2版本大于2.42.2,否則firefox啟動會報錯
yum install firefox # centos下安裝最新的firefox版本
clone代碼,安裝依賴python庫
$ git clone https://github.com/bowenpay/wechat-spider.git
$ cd wechat-spider
$ pip install -r requirements.txt3、創(chuàng)建mysql數(shù)據(jù)庫
創(chuàng)建數(shù)據(jù)庫wechatspider,默認采用utf8編碼。(如果系統(tǒng)支持,可以采用utf8mb4,以兼容emoji字符)
mysql> CREATE DATABASE `wechatspider` CHARACTER SET utf8;4、安裝和運行Redis
$ wget http://download.redis.io/releases/redis-2.8.3.tar.gz
$ tar xzvf redis-2.8.3.tar.gz
$ cd redis-2.8.3
$ make
$ make install
$ redis-server5、更新配置文件local_settings
在 wechatspider 目錄下,添加?local_settings.py?文件,配置如下:
6、初始化表
$ python manage.py migrate7、啟動網(wǎng)站
python manage.py runserver 0.0.0.0:8001訪問 http://localhost:8001/。
創(chuàng)建超級管理員賬號,訪問后臺,并配置要爬取的公眾號和關鍵字
python manage.py createsuperuser
8)啟動爬蟲
$ python bin/scheduler.py
$ python bin/downloader.py
$ python bin/extractor.py
$ python bin/processor.py03
—
【源碼獲取方式】
https://github.com/bowenpay/wechat-spider.git
聯(lián)
方
式
公眾號ID:??itcode
微信ID:??itcoder
免
聲
明
—————————————
?????
?????
?????
?????
?????
?
?????
?????
?????
?????
?????
———————

————————
【你的每一份打賞就是對我最真誠的鼓勵】
評論
圖片
表情
