Python爬蟲(chóng)教程-爬取貓眼電影

如何學(xué)習(xí)Python爬蟲(chóng),爬蟲(chóng)的難點(diǎn)其實(shí)并不在于爬蟲(chóng)本身。而是各種各樣的反爬蟲(chóng)措施。下面以一個(gè)小案例分享一下,帶你們領(lǐng)略一下python的魅力。

爬取《悲傷逆流成河》貓眼信息
項(xiàng)目源碼分享:
import requestsfrom fake_useragent import UserAgentimport jsonimport pymongo#保存到數(shù)據(jù)庫(kù)clien=pymongo.MongoClient(host='填寫(xiě)數(shù)據(jù)庫(kù)IP')db=clien.The_cat_s_eye_essaycoll=db.eye_essay#創(chuàng)建一個(gè)隨機(jī)生成user-aengt的對(duì)象ua=UserAgent()#提取我們要的短評(píng)def parse_json(json):if json:items=json.get('cmts')i=0for item in items:data={'ID':item.get('nickName'),'短評(píng)':item.get('content'),'評(píng)分':item.get('score'),'用戶地點(diǎn)':item.get('cityName'),'評(píng)論時(shí)間':item.get('startTime'),'回復(fù)數(shù)':item.get('reply'),'性別':item.get('gender')}#coll.insert_one(data)print(data)def Crawl_JSON():ua = UserAgent()headers={'User-Agent':ua.random,'Host':'m.maoyan.com','Referer':'http://m.maoyan.com/movie/1217236/comments?_v_=yes'}#貓眼電影短評(píng)接口#因?yàn)樨堁鄣臄?shù)據(jù)是AJAX類型的 里面的offset是改變的 第一次是0 第二次15 第三次是30 以此類推 這個(gè)page 相當(dāng)于100/15然后循環(huán)#可以自信觀察貓眼AJAX數(shù)據(jù)請(qǐng)求參數(shù) 就會(huì)知道了page=100u=0for i in range(page):try:offset=ustartTime = '2018-10-11'comment_api = 'http://m.maoyan.com/mmdb/comments/movie/1217236.json?_v_=yes&offset={0}&startTime={1}%2021%3A09%3A31'.format(offset,startTime)#發(fā)送get請(qǐng)求response_coment=requests.get(url=comment_api,headers=headers)json_comment=response_coment.textjson_comments=json.loads(json_comment)parse_json(json_comments)u+=15except Exception as e:print('出現(xiàn)錯(cuò)誤:',e.args)parse_json(Crawl_JSON())

搜索下方加老師微信
老師微信號(hào):XTUOL1988【切記備注:學(xué)習(xí)Python】
領(lǐng)取Python web開(kāi)發(fā),Python爬蟲(chóng),Python數(shù)據(jù)分析,人工智能等精品學(xué)習(xí)課程。帶你從零基礎(chǔ)系統(tǒng)性的學(xué)好Python!
*聲明:本文于網(wǎng)絡(luò)整理,版權(quán)歸原作者所有,如來(lái)源信息有誤或侵犯權(quán)益,請(qǐng)聯(lián)系我們刪除或授權(quán)

評(píng)論
圖片
表情
