<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          用Python采集了幾千條相親文案,終于發(fā)現(xiàn)了告別單身的秘密

          共 4125字,需瀏覽 9分鐘

           ·

          2021-11-28 12:24


          大家好,我是菜鳥哥!
          前不久,小編刷到這樣一條短視頻,“1.7億的90后僅有約1000萬對(duì)結(jié)婚,結(jié)婚率不到10%”,當(dāng)然我們也無法查實(shí)當(dāng)中數(shù)據(jù)的來源以及真實(shí)性,不過小編倒是總能聽說身邊的朋友在抱怨脫單難、找不到合適的對(duì)象。
          今天小編通過Python寫了一個(gè)簡單的腳本在抓取公開的相親文案,看看在相親的都是些什么樣的人?他們的擇偶標(biāo)準(zhǔn)又是什么樣子的?什么樣子的人更加容易脫單?

          代碼的編寫過程

          我們引入需要用到的庫,這里用到Python當(dāng)中的requests庫來發(fā)送和接受請(qǐng)求,通過正則表達(dá)式re這個(gè)庫來解析數(shù)據(jù)
          import requests
          from tenacity import *
          import re
          import time
          很多時(shí)候?qū)τ龅?strong>請(qǐng)求超時(shí)的情況,因此當(dāng)出現(xiàn)一次錯(cuò)的時(shí)候,我們會(huì)多嘗試幾次,因此這里使用retry裝飾器來多次嘗試
          @retry(stop=stop_after_attempt(5))
          def do_requests(url):
              response = requests.get(url, headers=headers, proxies=proxies, timeout=10)
              return response.text
          我們抓取的數(shù)據(jù)包括出生年份、身高/體重、學(xué)歷、收入、職業(yè)、自我介紹、擇偶標(biāo)準(zhǔn)、車房情況等等,都是通過正則表達(dá)式re庫來實(shí)現(xiàn)的,
          date_of_birth = re.compile("<br/>①出生年月/星座(.*?)<br/>", re.M | re.S)
          sex = re.compile("<br/>【基本資料】(.*?)<br/>")
          height = re.compile("<br/>②身高/體重(.*?)<br/>")
          education = re.compile("<br/>⑤學(xué)歷(.*?)<br/>")
          jobs_1 = re.compile("<br/>⑥職業(yè)(.*?)<br/>")
          income = re.compile("<br/>⑦月均收入(.*?)<br/>")
          married = re.compile("<br/>⑨有無婚史(.*?)<br/>")
          house_cars = re.compile("<br/>⑧車房情況(.*?)<br/>")
          self_intro = re.compile("<br/>? 自我介紹(.*?)<br/>")
          requirements = re.compile("<br/>【擇偶標(biāo)準(zhǔn)】<br/>(.*?)</a>")
          family_member = re.compile("<br/>⑩家庭成員(.*?)<br/>")
          下面我們通過pyecharts庫來繪制一下分析的結(jié)果,對(duì)了,要是讀者朋友不知道怎么使用pyecharts這個(gè)庫,可以閱讀一下小編寫的上幾篇文章,都是非常干貨的

          結(jié)果的可視化展示

          我們先來看一下性別比例,從分布來看,女生前來相親的比例更高,主要也是因?yàn)閿?shù)據(jù)源是來自北京、上海、杭州等大城市的相親介紹,大城市中似乎女生脫單更加困難一些,

          我們?cè)賮砜匆幌聠紊淼呐缘奶卣?,首先她們的年齡主要集中在94、93以及95年左右,正好都是處在適婚的年齡

          而她們的學(xué)歷,本科占到了絕大多數(shù),基本上都有本科的學(xué)歷,而大專的占比排在第二,碩士和博士處于少數(shù)

          另外小編也對(duì)單身女性的星座做了一個(gè)統(tǒng)計(jì),發(fā)現(xiàn)處女座、天秤座以及射手座、白羊座的女性單身率略高一些

          最后,我們來看一下她們的擇偶標(biāo)準(zhǔn)吧,小編將她們的擇偶標(biāo)準(zhǔn)單獨(dú)提取出來,然后繪制成了詞云圖
          review_list = []
          reviews = get_cut_words("".join(df_girls["requirements"].astype(str).tolist()))
          reviews_counter = Counter(reviews).most_common(200)
          print(reviews_counter)

          for review in reviews_counter:
              review_list.append((" " + review[0] + " ") * review[1])

          stylecloud.gen_stylecloud(text=" ".join(review_list), max_words=500, collocations=False,
                                    font_path="KAITI.ttf", icon_name="fab fa-apple", size=653,
                                    output_name="4.png")
          最后呈現(xiàn)出來的樣子如下圖所示

          可見相親市場上的女生,她們首先是希望男方是要有房有車的,其次要是男方之前存在婚史,女生會(huì)比較介意,然后要是有穩(wěn)定的工作、有能力有責(zé)任心,通常都會(huì)給女生留下比較好的印象,而至于外在條件上,大多數(shù)女生的回答則是身高在175-180左右,年齡在90-97年之間。

          寫在最后

          近年來,隨著人們思想觀念的改變,相親也逐漸得到年輕人的接受與認(rèn)可,特別是對(duì)于那些圈子比較窄,接觸不到異性的人而言。小編希望每個(gè)人都能夠在最后收獲愛情,擁有美好的生活。





          推薦閱讀:

          入門: 最全的零基礎(chǔ)學(xué)Python的問題  | 零基礎(chǔ)學(xué)了8個(gè)月的Python  | 實(shí)戰(zhàn)項(xiàng)目 |學(xué)Python就是這條捷徑


          干貨:爬取豆瓣短評(píng),電影《后來的我們》 | 38年NBA最佳球員分析 |   從萬眾期待到口碑撲街!唐探3令人失望  | 笑看新倚天屠龍記 | 燈謎答題王 |用Python做個(gè)海量小姐姐素描圖 |碟中諜這么火,我用機(jī)器學(xué)習(xí)做個(gè)迷你推薦系統(tǒng)電影


          趣味:彈球游戲  | 九宮格  | 漂亮的花 | 兩百行Python《天天酷跑》游戲!


          AI: 會(huì)做詩的機(jī)器人 | 給圖片上色 | 預(yù)測(cè)收入 | 碟中諜這么火,我用機(jī)器學(xué)習(xí)做個(gè)迷你推薦系統(tǒng)電影


          小工具: Pdf轉(zhuǎn)Word,輕松搞定表格和水印! | 一鍵把html網(wǎng)頁保存為pdf!|  再見PDF提取收費(fèi)! | 用90行代碼打造最強(qiáng)PDF轉(zhuǎn)換器,word、PPT、excel、markdown、html一鍵轉(zhuǎn)換 | 制作一款釘釘?shù)蛢r(jià)機(jī)票提示器! |60行代碼做了一個(gè)語音壁紙切換器天天看小姐姐!


          年度爆款文案


          點(diǎn)擊閱讀原文,加入我們的星球!

          瀏覽 31
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  大香蕉日韩| 国产AV日韩AⅤ亚洲AV中文 | 国产女人18毛片水18精品变态 | 麻豆免费视频在线观看 | 九九九九九九九九九精品 |