<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          用Python爬取了三大相親軟件評論區(qū),結(jié)果...

          共 2249字,需瀏覽 5分鐘

           ·

          2020-12-09 21:28


          小三:怎么了小二?一副愁眉苦臉的樣子。


          小二:唉!這不是快過年了嗎,家里又催相親了 ...


          小三:現(xiàn)在不是流行網(wǎng)戀嗎,你可以試試相親軟件呀。


          小二:這玩意靠譜嗎?


          小三:我也沒用過,你自己看看軟件評論區(qū)吧。

          小二:這 ... 不過也只能先到評論區(qū)看看了。


          本文以 360 手機助手為例,地址為:http://zhushou.#/,相親軟件選擇 3 個比較流行的,分別為:世紀佳緣、百合婚戀、有緣網(wǎng),我們使用 Python 爬取軟件評論區(qū),看看用戶評價情況。

          先來看一下這三款軟件的下載量和好中差評占比情況(下圖單位為萬次)。

          下面開始爬取評論區(qū),以世紀佳緣為例,首先,在搜索框輸入世紀佳緣進行搜索,如圖所示:

          接著,點擊搜索到的軟件進入其詳情頁,如圖所示:

          將頁面向下拉就可以看到評論區(qū)了,如圖所示:

          此時打開開發(fā)者工具并選擇Network項,點擊查看更多評論,然后可以看到getComments請求,如圖所示:

          通過這個請求我們就可以動態(tài)獲取評論區(qū)數(shù)據(jù)了,其中參數(shù)star為開始的評論索引,參數(shù)count為每次加載的評論個數(shù),可以通過參數(shù)callbackbaike指定不同應(yīng)用,爬取代碼實現(xiàn)如下:

          headers?=?{
          ????"Accept":?"*/*",
          ????"Accept-Encoding":?"gzip,?deflate,?sdch",
          ????"Accept-Language":?"zh-CN,zh;q=0.8",
          ????"Connection":?"keep-alive",
          ????"Host":?"comment.mobilem.#",
          ????"User-Agent":?"Mozilla/5.0?(Windows?NT?6.1;?WOW64)?AppleWebKit/537.36?(KHTML,?like?Gecko)?Chrome/57.0.2987.98?Safari/537.36?LBBROWSER"
          }
          def?comment_spider(param,?file_name):
          ????base_url?=?"http://comment.mobilem.#/comment/getComments?c=message&a=getmessage&&count=50"
          ????start?=?0
          ????for?i?in?range(1,?50):
          ????????print("第{}頁".format(i))
          ????????url?=?base_url?+?param?+?"&start="?+?str(start)
          ????????r?=?requests.get(url,?headers=headers)
          ????????data?=?re.findall("{\"errno\"(.*)\);}catch\(e\){}",?r.text)
          ????????#?轉(zhuǎn)為?Json?格式
          ????????jdata?=?json.loads("{\"errno\""?+?data[0])
          ????????for?message?in?jdata["data"]["messages"]:
          ????????????content?=?message["content"]
          ????????????print(content)
          ????????????with?open(file_name?+?".txt",?"a",?encoding="utf-8")?as?f:
          ????????????????f.write(content)
          ????????start?=?start?+?50
          ????????time.sleep(2)

          我們將爬取的評論數(shù)據(jù)存到了 txt 文件中。

          接著,我們將評論數(shù)據(jù)進行詞云展示,代碼實現(xiàn)如下:

          with?open("yy.txt",?"r",?encoding="utf-8")?as?f:
          ????content?=?f.read()
          ????stylecloud.gen_stylecloud(text=content,?max_words=600,
          ??????????????????????????????collocations=False,
          ??????????????????????????????font_path="SIMLI.TTF",
          ??????????????????????????????icon_name="fas?fa-heart",
          ??????????????????????????????size=800,
          ??????????????????????????????output_name="yy.png")
          ????Image(filename="yy.png")

          最后,通過詞云看一下用戶對上述軟件的評價情況。

          世紀佳緣:

          百合婚戀:

          有緣網(wǎng):

          小二:看了有緣網(wǎng)的評論,我感覺自己和相親軟件無緣 ...

          小三:...

          源碼在公號后臺回復(fù) 201207 獲取。

          PS:如果覺得分享內(nèi)容有一些幫助,歡迎大家隨手分享、點贊、在看。

          聲明:本文不構(gòu)成對上述相親軟件的任何使用建議。

          < END >

          瀏覽 80
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国产亲子乱婬一级A片 | 韩国一区二区在线视频 | 天堂在线视频8 | 综合网伊人| 自拍骚妻 |