用Python爬取了全國(guó)近5000家旅游景點(diǎn),分析國(guó)慶去哪玩
點(diǎn)擊“Python編程與實(shí)戰(zhàn)”,選擇“置頂公眾號(hào)”
第一時(shí)間獲取 Python 技術(shù)干貨!
2020 國(guó)慶馬上就要到了
我想今年大家在家都憋壞了
今年國(guó)慶和中秋剛好又是同一天,加起來(lái)有 8 天假
這么長(zhǎng)的假期,當(dāng)然是出去 玩玩玩!


該去哪些地方呢?
我用 Python 爬取了全國(guó)近 5000 個(gè)旅游景點(diǎn),并結(jié)合?pyecharts 來(lái)做分析
技能包
爬蟲(chóng) Mysql sqlalchemy pyecharts
數(shù)據(jù)爬取
旅游景點(diǎn)的數(shù)據(jù)是從網(wǎng)上爬取的,該數(shù)據(jù)包含以下維度:景點(diǎn)名稱(chēng),所屬省市區(qū),景點(diǎn)簡(jiǎn)介,門(mén)票價(jià)格,評(píng)分,近期銷(xiāo)量,景點(diǎn)評(píng)級(jí)等。
爬蟲(chóng)比較簡(jiǎn)單,多分析下就可以,直接貼代碼了

基本上沒(méi)什么反爬,加點(diǎn)延時(shí)別爬太快就是了...
爬取下來(lái)之后直接入庫(kù),入庫(kù)部分代碼如下:

當(dāng)然,每個(gè)省份我只爬了前 10 頁(yè),因?yàn)楹竺娴幕径际切┎恢穆糜尉包c(diǎn)
爬完之后看了下數(shù)據(jù)庫(kù)有 4572 條數(shù)據(jù),我想應(yīng)該夠了吧...

有了數(shù)據(jù)之后,是不是就能搞事情了...,簡(jiǎn)單做幾個(gè)分析
數(shù)據(jù)分析
接下來(lái)我們使用 pyecharts 來(lái)對(duì)爬取的數(shù)據(jù)做一個(gè)簡(jiǎn)單的分析
1. 景點(diǎn)銷(xiāo)量排行榜
直接從數(shù)據(jù)庫(kù)查出數(shù)據(jù),丟進(jìn)去就行。

結(jié)果展示:

2. 景點(diǎn)評(píng)級(jí)排行榜
假期這么長(zhǎng),想玩的地方有很多!如何選擇一個(gè)景點(diǎn)多的地方并且評(píng)級(jí)高的
這樣就能在一個(gè)地方盡情的玩耍,而不用四處奔波
我們不妨來(lái)看看各省市能排的上號(hào)的景點(diǎn)有多少吧!
代碼如下:

將數(shù)據(jù)查詢(xún)出來(lái)后作一個(gè)簡(jiǎn)單的清洗,統(tǒng)計(jì)各省份 4A 級(jí)以上景點(diǎn)數(shù)量
一起來(lái)看看吧

再將這些數(shù)據(jù)放到地圖上看看..更加直觀

3.各省銷(xiāo)量排行榜
通過(guò)該數(shù)據(jù),可以看出哪些省市區(qū)的人會(huì)比較多...

這樣就能避免去人山人海的地方看人人人人.。。

綜合分析
最終考慮去哪兒,可能需要多維度的分析。
所有,我把價(jià)格,評(píng)分,銷(xiāo)量這三個(gè)維度放在一起
當(dāng)然,你也可以選擇你關(guān)心的維度來(lái)..最好自己動(dòng)手試試
這樣印象深刻!

來(lái)看看效果把:

重點(diǎn)關(guān)注下銷(xiāo)量高,評(píng)分高,價(jià)格合適的...
提前祝大家國(guó)慶有個(gè)美好的假期!

推薦閱讀
爬蟲(chóng) | JS逆向某驗(yàn)滑動(dòng)加密分析
THANKS
- End -
點(diǎn)個(gè)“在看”必升職加薪喔!
