上海市攜程酒店數(shù)據(jù)采集及可視化
歡迎關注公眾號「月小水長」,唯一筆者是 BuyiXiao,又名小布衣、肖不已。
BuyiXiao,何許人也?本衡州一鄉(xiāng)野村夫,身高八尺不足,年方二十有余;弱冠之年曾求學于潭州,為謀生計,背井離鄉(xiāng),遠赴京畿,我本南人,不習北土,兼有故友,威逼利誘,急于星火,遂下嶺南,打工未半,中道創(chuàng)業(yè),所為何業(yè)?賽博朋克,智能硬件;假工程師之名,行農(nóng)民工之實,滿腹經(jīng)綸,無用書生,善于自黑,貽笑大方。
筆者水平有限,可能暫時無法將非常干貨的教程講的不拖泥帶水又不嘩眾取寵,公眾號文章諸多遺漏或不妥之處,可以加月小水長微信「2391527690」備注「學校專業(yè)/研究方向/工作崗位」進行交流。
另外,文末點下「贊」和「在看」,這樣每次新文章推送,就會第一時間出現(xiàn)在你的訂閱號列表里。
酒店的數(shù)量、價格、評分和人流量是衡量一個城市消費水平的指標,也間接反映出城市的經(jīng)濟發(fā)展水平和居民的生活水平。
我抓取了整個上海的攜程酒店數(shù)據(jù),一共 6000 余個酒店,包含幾十個字段,主要的字段信息如下,并進行了簡要的分析。

第一步,先來看看這個 dataframe 的整體分析 df.describle():
discounted_price entity_score star lng lat
count 5712.000000 6013.000000 6203.000000 6203.000000 6203.000000
mean 460.375875 4.216498 2.035467 121.418132 31.220763
std 900.588455 0.664155 1.213317 0.163744 0.191488
min 19.000000 1.000000 0.000000 120.914303 30.707439
25% 152.000000 4.000000 2.000000 121.323827 31.128369
50% 253.000000 4.400000 2.000000 121.432059 31.218784
75% 429.000000 4.700000 3.000000 121.491432 31.292182
max 25017.000000 5.000000 5.000000 121.918401 31.827032
酒店價格最貴 25000 一晚,最低 19 塊一晚(可能是青旅),
不愧是魔都,讓月薪 1k 的不至于流落街頭,年入千萬的天天七星級,挺好的。
從價格的中位數(shù)來看,只平平無奇,但是從平均價格來看,上海的酒店價格至少是我老家,湖南一個省內著名省外無名三線城市價格的 2 倍。
剔除價格的極端值后,再看可視化看看上海酒店價格的主要分布區(qū)間。

可以這么說,至少絕大部分的酒店價格都在 750 以下。
再來看看上海分區(qū)的價格情況。

最貴的是黃埔區(qū)、徐匯區(qū)、楊浦區(qū),最便宜的是嘉定區(qū)、奉賢區(qū)。
然后看看各字段的相關性分析。

這張圖信息量說大也大,畢竟有 16 個圖。
說小也小,拆成一個個小圖,每一個圖都是一個變量關于其他變量的散點圖(主對角線上的除外)看 x、y 坐標,同時注意 label 是酒店星級。
其中經(jīng)緯度和其他變量相關性太小,可以忽略,所以只看左上角四個小圖構成的方塊即可。
這樣一來,可以很快得出一些無用的結論。
-
價格多分布在區(qū)間的下行,即大部分酒店價格較低,評分則多分布在區(qū)間上行,大部分酒店評分較高,這反映了上海市酒店服務業(yè)的整體水平較高。
-
圖例表示酒店星級,顏色越深,等級越高,在圖中的位置越靠右、越靠上,也就是價格越高、評分越高。
-
價格越低,消費者評分的方差就越大,1-5 分都有分布,價格越高,評分越高,幾乎都在 4 分以上。我覺得這有兩個原因,第一,價格高的酒店數(shù)量遠遠不如酒店低的數(shù)量,第二,花了 2w 塊住一晚酒店,那體驗能不好嗎?
最后,把酒店價格可視化地展示在上海地圖上。
柱子顏色深淺代表酒店人氣,柱子高度代表酒店價格。

最后一個無用的結論,即大部分高價酒店人氣低,大部分低價酒店人氣高。
歡迎關注小號「知書客棧」,以后主要灰分享閑言碎語、上游的數(shù)據(jù)采集、下游的數(shù)據(jù)分析,以及各種黑科技。
往期精選
復雜網(wǎng)絡建模 | 構建 M 層 N 節(jié)點的微博深度轉發(fā)網(wǎng)絡
自研小紅書評論區(qū)自動回復軟件,于繁雜的客服流水作業(yè)中抽身
小紅書帖子和評論自助提取工具
