国产精品久久777777换脸,黄色肉肉视频,免费观看的黄色视频,天天日天天操天天插,天堂网地址,大香蕉在线视频欧美,成人做爱免费看,免费一级色情视频

這篇文章主要介紹了一個(gè)入門級(jí)python爬蟲教程詳解,本文給大家介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值，需要的朋友可以參考下

前言

本文目的：根據(jù)本人的習(xí)慣與理解，用最簡潔的表述，介紹爬蟲的定義、組成部分、爬取流程，并講解示例代碼。

基礎(chǔ)

爬蟲的定義：定向抓取互聯(lián)網(wǎng)內(nèi)容（大部分為網(wǎng)頁）、并進(jìn)行自動(dòng)化數(shù)據(jù)處理的程序。主要用于對(duì)松散的海量信息進(jìn)行收集和結(jié)構(gòu)化處理，為數(shù)據(jù)分析和挖掘提供原材料。

今日t條就是一只巨大的“爬蟲”。

爬蟲由URL庫、采集器、解析器組成。

流程

如果待爬取的url庫不為空，采集器會(huì)自動(dòng)爬取相關(guān)內(nèi)容，并將結(jié)果給到解析器，解析器提取目標(biāo)內(nèi)容后進(jìn)行寫入文件或入庫等操作。

代碼

第一步：寫一個(gè)采集器

如下是一個(gè)比較簡單的采集器函數(shù)。需要用到requests庫。
首先，構(gòu)造一個(gè)http的header，里面有瀏覽器和操作系統(tǒng)等信息。如果沒有這個(gè)偽造的header，可能會(huì)被目標(biāo)網(wǎng)站的WAF等防護(hù)設(shè)備識(shí)別為機(jī)器代碼并干掉。

然后，用requests庫的get方法獲取url內(nèi)容。如果http響應(yīng)代碼是200 ok，說明頁面訪問正常，將該函數(shù)返回值設(shè)置為文本形式的html代碼內(nèi)容。

如果響應(yīng)代碼不是200 ok，說明頁面不能正常訪問，將函數(shù)返回值設(shè)置為特殊字符串或代碼。

import?requests
?
def?get_page(url):
headers?=?{'User-Agent':?'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36'}
response?=?requests.get(url,?headers=?headers)
if?response.status_code?==?200:
return?response.text
else:
return?'GET HTML ERROR !'

第二步：解析器

解析器的作用是對(duì)采集器返回的html代碼進(jìn)行過濾篩選，提取需要的內(nèi)容。
作為一個(gè)14年忠實(shí)用戶，當(dāng)然要用豆瓣舉個(gè)栗子 _

我們計(jì)劃爬取豆瓣排名TOP250電影的8個(gè)參數(shù)：排名、電影url鏈接、電影名稱、導(dǎo)演、上映年份、國家、影片類型、評(píng)分。整理成字典并寫入文本文件。

待爬取的頁面如下，每個(gè)頁面包括25部電影，共計(jì)10個(gè)頁面。

在這里，必須要表揚(yáng)豆瓣的前端工程師們，html標(biāo)簽排版非常工整具有層次，非常便于信息提取。

下面是“肖申克的救贖”所對(duì)應(yīng)的html代碼：（需要提取的8個(gè)參數(shù)用紅線標(biāo)注）

根據(jù)上面的html編寫解析器函數(shù)，提取8個(gè)字段。該函數(shù)返回值是一個(gè)可迭代的序列。
我個(gè)人喜歡用re（正則表達(dá)式）提取內(nèi)容。8個(gè)（.*?）分別對(duì)應(yīng)需要提取的字段。

import?re
?
def?parse_page(html):
pattern?=?re.compile('(.*?).*?.*?(.*?).*?
.*?(.*?) .*?
(.*?) / (.*?) / (.*?)
.*?(.*?)'?,?re.S)
items?=?re.findall(pattern?,?html)
for?item?in?items:
yield?{
'rank':?item[0],
'href':?item[1],
'name':?item[2],
'director':?item[3].strip()[4:],
'year':?item[4].strip(),
'country':?item[5].strip(),
'style':?item[6].strip(),
'score':?item[7].strip()
}

提取后的內(nèi)容如下：

整理成完整的代碼：（暫不考慮容錯(cuò)）

import?requests
import?re
import?json
?
def?get_page(url):
#采集器函數(shù)
headers?=?{'User-Agent':?'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36'}
response?=?requests.get(url,?headers=?headers)
if?response.status_code?==?200:
return?response.text
else:
return?'GET HTML ERROR ! '
?
?
def?parse_page(html):
#解析器函數(shù)
pattern?=?re.compile('(.*?).*?.*?(.*?).*?
.*?(.*?) .*?
(.*?) / (.*?) / (.*?)
.*?(.*?)'?,?re.S)
items?=?re.findall(pattern?,?html)
for?item?in?items:
yield?{
'rank':?item[0],
'href':?item[1],
'name':?item[2],
'director':?item[3].strip()[4:],
'year':?item[4].strip(),
'country':?item[5].strip(),
'style':?item[6].strip(),
'score':?item[7].strip()
}
?
?
def?write_to_file(content):
#寫入文件函數(shù)
with?open('result.txt'?,?'a'?,?encoding?=?'utf-8')?as?file:
file.write(json.dumps(content?,?ensure_ascii?=?False)?+?'\n')
?
?
if?__name__==?"__main__":
# 主程序
for?i?in?range(10):
url=?'https://movie.douban.com/top250?start='+?str(i*25)+?'&filter'
for?res?in?parse_page(get_page(url)):
write_to_file(res)

非常簡潔，非常符合python簡單、高效的特點(diǎn)。

說明：

需要掌握待爬取url的規(guī)律，才能利用for循環(huán)等操作自動(dòng)化處理。
前25部影片的url是https://movie.douban.com/top250?start=0&filter，第26-50部影片url是https://movie.douban.com/top250?start=25&filter。規(guī)律就在start參數(shù)，將start依次設(shè)置為0、25、50、75。。。225，就能獲取所有頁面的鏈接。parse_page函數(shù)的返回值是一個(gè)可迭代序列，可以理解為字典的集合。運(yùn)行完成后，會(huì)在程序同目錄生成result.txt文件。內(nèi)容如下：

到此這篇關(guān)于一個(gè)入門級(jí)python爬蟲教程詳解的文章就介紹到這了！

掃下方二維碼加老師微信

或是搜索老師微信號(hào)：XTUOL1988【切記備注：學(xué)習(xí)Python】

領(lǐng)取Python web開發(fā)，Python爬蟲，Python數(shù)據(jù)分析，人工智能等學(xué)習(xí)教程。帶你從零基礎(chǔ)系統(tǒng)性的學(xué)好Python！

也可以加老師建的Python技術(shù)學(xué)習(xí)教程qq裙：245345507，二者加一個(gè)就可以！

歡迎大家點(diǎn)贊，留言，轉(zhuǎn)發(fā)，轉(zhuǎn)載，感謝大家的相伴與支持

萬水千山總是情，點(diǎn)個(gè)【在看】行不行

*聲明：本文于網(wǎng)絡(luò)整理，版權(quán)歸原作者所有，如來源信息有誤或侵犯權(quán)益，請(qǐng)聯(lián)系我們刪除或授權(quán)事宜