長(zhǎng)假去哪兒玩了?Python分析全國(guó)近5000家旅游景點(diǎn)的受歡迎程度
今年這大半年下來(lái),大家想必都在家憋壞了。這次又恰逢國(guó)慶和中秋同一天,加起來(lái)有 8 天假,很多人都選擇了出去玩玩玩。


那么,哪些地方是最受人歡迎的呢?
我用 Python 爬取了全國(guó)近 5000 個(gè)旅游景點(diǎn),并結(jié)合?pyecharts 來(lái)做個(gè)分析看一看。
技能包
爬蟲(chóng) Mysql sqlalchemy pyecharts
數(shù)據(jù)爬取
旅游景點(diǎn)的數(shù)據(jù)是從網(wǎng)上爬取的,該數(shù)據(jù)包含以下維度:景點(diǎn)名稱,所屬省市區(qū),景點(diǎn)簡(jiǎn)介,門票價(jià)格,評(píng)分,近期銷量,景點(diǎn)評(píng)級(jí)等。
爬蟲(chóng)比較簡(jiǎn)單,多分析下就可以,直接貼代碼了:

基本上沒(méi)什么反爬,加點(diǎn)延時(shí)別爬太快就是了...
爬取下來(lái)之后直接入庫(kù),入庫(kù)部分代碼如下:

當(dāng)然,每個(gè)省份我只爬了前 10 頁(yè),因?yàn)楹竺娴幕径际切┎恢穆糜尉包c(diǎn)
爬完之后看了下數(shù)據(jù)庫(kù)有 4572 條數(shù)據(jù),我想應(yīng)該夠了吧...

有了數(shù)據(jù)之后,就能搞事情了。我們簡(jiǎn)單做幾個(gè)分析。
數(shù)據(jù)分析
接下來(lái)我們使用 pyecharts 來(lái)對(duì)爬取的數(shù)據(jù)做一個(gè)簡(jiǎn)單的分析
1. 景點(diǎn)銷量排行榜
直接從數(shù)據(jù)庫(kù)查出數(shù)據(jù),丟進(jìn)去就行。

結(jié)果展示:

2. 景點(diǎn)評(píng)級(jí)排行榜
假期這么長(zhǎng),想玩的地方有很多!如何選擇一個(gè)景點(diǎn)多的地方并且評(píng)級(jí)高的
這樣就能在一個(gè)地方盡情的玩耍,而不用四處奔波
我們不妨來(lái)看看各省市能排的上號(hào)的景點(diǎn)有多少吧!
代碼如下:

將數(shù)據(jù)查詢出來(lái)后作一個(gè)簡(jiǎn)單的清洗,統(tǒng)計(jì)各省份 4A 級(jí)以上景點(diǎn)數(shù)量
一起來(lái)看看吧

再將這些數(shù)據(jù)放到地圖上看看..更加直觀

3.各省銷量排行榜
通過(guò)該數(shù)據(jù),可以看出哪些省市區(qū)的人會(huì)比較多...

這樣就能避免去人山人海的地方看人人人人.。。

綜合分析
最終考慮去哪兒,可能需要多維度的分析。
所有,我把價(jià)格,評(píng)分,銷量這三個(gè)維度放在一起
當(dāng)然,你也可以選擇你關(guān)心的維度來(lái)..最好自己動(dòng)手試試
這樣印象深刻!

來(lái)看看效果:

重點(diǎn)關(guān)注下銷量高,評(píng)分高,價(jià)格合適的...
下次假期選擇出行地時(shí),不妨先用數(shù)據(jù)分析下
_往期文章推薦_
