国产精品九九九九。。。,国产欧美鸡巴,青青草视频两男一女在线看 ,琪琪色原影音先锋,人人色人人摸,69av豆花视频,波多野结衣在线精品,蜜桃传媒一区二区亚洲AV动漫

記錄一下如何用python爬取app數(shù)據(jù)，本文以爬取抖音視頻app為例。

編程工具：pycharm

app抓包工具：mitmproxy

app自動化工具：appium

運行環(huán)境：windows10

思路：

假設已經(jīng)配置好我們所需要的工具

1、使用mitmproxy對手機app抓包獲取我們想要的內(nèi)容

2、利用appium自動化測試工具，驅動app模擬人的動作（滑動、點擊等）

3、將1和2相結合達到自動化爬蟲的效果

# mitmproxy/mitmdump抓包

確保已經(jīng)安裝好了mitmproxy，并且手機和PC處于同一個局域網(wǎng)下，同時也配置好了mitmproxy的CA證書，網(wǎng)上有很多相關的配置教程，這里我就略過了。

因為mitmproxy不支持windows系統(tǒng)，所以這里用的是它的組件之一mitmdump，它是mitmproxy的命令行接口，可以利用它對接我們的Python腳本，用Python實現(xiàn)監(jiān)聽后的處理。

在配置好mitmproxy之后,在控制臺上輸入mitmdump并在手機上打開抖音app，mitmdump會呈現(xiàn)手機上的所有請求，如下圖

? ? ?

可以在抖音app一直往下滑，看mitmdump所展示的請求，會發(fā)現(xiàn)前綴分別為

http://v1-dy.ixigua.com/；http://v3-dy.ixigua.com/；http://v9-dy.ixigua.com/

這3個類型前綴的url正是我們的目標抖音視頻url。

那接下來就要編寫python腳本將視頻下載下來，需要使用 mitmdump -s scripts.py（此處為python文件名）來執(zhí)行腳本。

import requests# 文件路徑path = 'D:/video/'num = 1788

def response(flow):    global num    # 經(jīng)測試發(fā)現(xiàn)視頻url前綴主要是3個    target_urls = ['http://v1-dy.ixigua.com/', 'http://v9-dy.ixigua.com/',                   'http://v3-dy.ixigua.com/']    for url in target_urls:        # 過濾掉不需要的url        if flow.request.url.startswith(url):            # 設置視頻名            filename = path + str(num) + '.mp4'            # 使用request獲取視頻url的內(nèi)容            # stream=True作用是推遲下載響應體直到訪問Response.content屬性            res = requests.get(flow.request.url, stream=True)            # 將視頻寫入文件夾            with open(filename, 'ab') as f:                f.write(res.content)                f.flush()                print(filename + '下載完成')            num += 1

代碼寫得比較粗糙，不過基本的邏輯還是比較清晰的，這樣我們就可以把抖音的視頻下載下來，不過這個方法有個缺陷，就是獲取視頻需要人來不斷地滑動抖音的下一個視頻，這時候我們可以用一個強大的appium自動化測試工具來解決。

# Appium對手機進行模擬操作

確保已經(jīng)配置好appium所依賴的環(huán)境Android和SDK，網(wǎng)上也有許多教程，這里我就不說了。

appium的用法很簡單，首先我們先打開appium，啟動界面如下

點擊Start Server按鈕即可啟動appium服務

將Android手機通過數(shù)據(jù)線與PC相連，同時打開USE調(diào)試功能，可以輸入adb命令（具體可以去網(wǎng)上查找）測試連接情況，若出現(xiàn)以下結果，則說明連接成功

model是設備名，后面配置需要用到。之后點擊下圖箭頭所指的按鈕就會出現(xiàn)一個配置頁面

在右下角的JSON Representation配置啟動app的Desired Capabilities參數(shù)，分別是paltformName、deviceName、appPackage、appActivity。

platformName:平臺名稱，一般是Android或iOS.

deviceName:設備名稱，手機的具體類型

appPackage:App程序包名

appActivity:入口Activity名，通常以.開頭

platformName和deviceName比較容易獲得，而appPackage和appActivity這兩個可以通過以下方法獲取到。

在控制臺上輸入? ?adb logcat>D:\log.log? 命令，并且在手機打開抖音app，然后在D盤中打開log.log文件，查找Displayed關鍵字

由上圖可以知道Displayed后面的 com.ss.android.ugc.aweme對應的是appPackage，.main.MainActivity對應的是appActivity，最后我們的配置結果如下：

{  "platformName": "Android",  "deviceName": "Mi_Note_3",  "appPackage": "com.ss.android.ugc.aweme",  "appActivity": ".main.MainActivity"}

再點擊Start Session即可啟動Android手機上的抖音app并進入到啟動頁面，同時PC上會彈出一個調(diào)試窗口，從這個窗口可以預覽當前手機頁面，還可以對手機模擬各種操作，在本文不是重點，所以略過。

在下面我們將使用python腳本來驅動app，直接在pycharm運行即可

from appium import webdriverfrom time import sleep

class Action():    def __init__(self):        # 初始化配置，設置Desired Capabilities參數(shù)        self.desired_caps = {            "platformName": "Android",            "deviceName": "Mi_Note_3",            "appPackage": "com.ss.android.ugc.aweme",            "appActivity": ".main.MainActivity"        }        # 指定Appium Server        self.server = 'http://localhost:4723/wd/hub'        # 新建一個Session        self.driver = webdriver.Remote(self.server, self.desired_caps)        # 設置滑動初始坐標和滑動距離        self.start_x = 500        self.start_y = 1500        self.distance = 1300
    def comments(self):        sleep(2)        # app開啟之后點擊一次屏幕，確保頁面的展示        self.driver.tap([(500, 1200)], 500)
    def scroll(self):        # 無限滑動        while True:            # 模擬滑動            self.driver.swipe(self.start_x, self.start_y, self.start_x,                               self.start_y-self.distance)            # 設置延時等待            sleep(2)
    def main(self):        self.comments()        self.scroll()

if __name__ == '__main__':
    action = Action()    action.main()

下面是爬蟲的過程。ps:偶爾會爬取到重復的視頻

原文鏈接：https://urlify.cn/ANzAre

文章轉載：Python編程學習圈

（版權歸原作者所有，侵刪）

Linux學習指南

有收獲，點個在看?

實戰(zhàn)：帶你用Python爬取抖音app視頻