精準預測武漢房價!浙大GIS實驗室提出osp-GNNWR模型:準確描述復雜空間過程和地理現(xiàn)象
共 6249字,需瀏覽 13分鐘
·
2024-06-18 13:30
大數(shù)據(jù)文摘授權(quán)轉(zhuǎn)載自HyperAI超神經(jīng)
作者:梅菜
編輯:李寶珠,三羊
住房是人類福祉和社會發(fā)展的重要組成部分,住房價格波動受到社會的廣泛關注。中國是一個地域跨度極廣的國家,即使是在同一個城市的同一管轄區(qū),不同區(qū)域的房屋由于社區(qū)環(huán)境、學區(qū)、配套商業(yè)等因素的不同,都會導致房價存在差異,因而房價問題研究關注的熱點之一是其空間分異及影響機制,也就是所謂的「空間異質(zhì)性」。
近年來,房價空間差異日益顯著,單一的距離度量方式在捕捉復雜地理環(huán)境中房價的「空間異質(zhì)性」時,顯得捉襟見肘。尤其在武漢市這樣的大城市中,自然地貌(如河流、湖泊)以及城市基礎建設(如橋梁、隧道、多層道路網(wǎng)絡)等因素對房價的影響錯綜復雜,傳統(tǒng)地理加權(quán)回歸模型 (GWR) 在衡量空間鄰近性時面臨挑戰(zhàn)。
在此背景下,來自浙江大學 GIS 實驗室的研究人員在地理信息科學領域知名期刊 International Journal of Geographical Information Science 上發(fā)表了題為「A neural network model to optimize the measure of spatial proximity in geographically weighted regression approach: a case study on house price in Wuhan」的研究論文。
本研究創(chuàng)新性地引入神經(jīng)網(wǎng)絡方法對觀測點間的多種空間鄰近性度量 (如歐式距離、旅行時間等) 進行非線性耦合,得到優(yōu)化的空間鄰近性度量 (OSP),從而提升模型對房價預測的準確性。
為解決抽象的「空間鄰近性」無法構(gòu)造損失函數(shù)、神經(jīng)網(wǎng)絡難以訓練的問題,本研究將 OSP 與地理神經(jīng)網(wǎng)絡加權(quán)回歸方法 (Geographically Neural Network Weighted Regression, GNNWR) 進一步結(jié)合,構(gòu)建了 osp-GNNWR 模型,通過解算因變量與自變量的空間非平穩(wěn)回歸關系實現(xiàn)神經(jīng)網(wǎng)絡的訓練。
研究亮點:
* 通過引入優(yōu)化的空間鄰近度指標,并將其融入神經(jīng)網(wǎng)絡架構(gòu),有效地改善了地理加權(quán)回歸在房價等地理過程的空間分布研究中的適用性
* 通過模擬數(shù)據(jù)集和武漢市房價實證案例的研究,論文提出的模型被證明具有更好的全局性能,能更準確地描述復雜的空間過程和地理現(xiàn)象
* 為研究如何因地制宜地定制空間鄰近度度量標準,進而提升各類地理空間回歸模型的表現(xiàn),開辟了新途徑
論文地址:
https://www.tandfonline.com/doi/full/10.1080/13658816.2024.2343771
開源項目「awesome-ai4s」匯集了百余篇 AI4S 論文解讀,還提供海量數(shù)據(jù)集與工具:
https://github.com/hyperai/awesome-ai4s
數(shù)據(jù)集:以武漢作為典型研究區(qū)域
模擬數(shù)據(jù)集
為了評估 osp-GNNWR 模型的擬合精度,研究人員生成了一個 64×64 的空間異質(zhì)性模擬數(shù)據(jù)集。模擬數(shù)據(jù)集的空間異質(zhì)性不僅體現(xiàn)在直線距離上,也表現(xiàn)出由非歐式距離定義的空間分布特征,能夠展示 OSP 的有效性。
實際數(shù)據(jù)集
湖北省省會武漢市位于中國中部,坐落在漢江匯入長江的交匯點上。武漢氣候濕潤,屬于亞熱帶氣候,降雨充沛,擁有眾多河流、湖泊和池塘,這些特點使得評估空間臨近性變得具有挑戰(zhàn)性。作為中國中部最大、人口最密集的城市,武漢同時還擁有繁榮的房地產(chǎn)市場,為構(gòu)建一種針對武漢特定房地產(chǎn)動態(tài)的綜合模型提供了充足的數(shù)據(jù)。
研究區(qū)域和數(shù)據(jù)集
為此,研究人員匯編了一份包含 968 個不同房地產(chǎn)樣本的數(shù)據(jù)集,這些數(shù)據(jù)來自于 2019 年在武漢范圍內(nèi)的二手住宅交易記錄,數(shù)據(jù)來源為安居客(https://wuhan.anjuke.com)。所有這些記錄都經(jīng)過了清洗,特殊的房產(chǎn)類型(如別墅)被排除在外,并且數(shù)據(jù)質(zhì)量得到了保證。
模型架構(gòu):引入優(yōu)化的空間鄰近度指標并將其融入神經(jīng)網(wǎng)絡
osp-GNNWR 模型的構(gòu)建分為兩步:
第一步:獲得優(yōu)化的空間鄰近性度量 (OSP)
為了在復雜的地理分析中獲得更準確的空間鄰近度測量,本研究整合了多種距離測量方法,包括歐式距離、曼哈頓距離和旅行時間等,以優(yōu)化空間鄰近度 (OSP)。通過這種方式,優(yōu)化的空間鄰近度測量可以更好地反映復雜空間關系中的各種影響因素,從而提高空間回歸模型的擬合度和解釋力。
第二步:將 OSP 與 GNNWR 進一步結(jié)合,研究人員提出了 osp-GNNWR 模型,如下圖所示:
osp-GNNWR 模型設計
具體而言,osp-GNNWR 模型的訓練和驗證程序如下:
osp-GNNWR 模型的訓練步驟
步驟 1:提取用于構(gòu)建回歸模型的因變量 (dependent variables) 和自變量 (independent variables);
步驟 2:將數(shù)據(jù)集按適當比例隨機劃分為訓練集 (Train set)、驗證集 (Validation set) 和測試集 (Test set);
步驟 3:在 osp-GNNWR 模型中計算樣本距離 (sample distances) 作為空間信息;
步驟 4:利用輸入變量 (input variables) 和空間信息,建立包含網(wǎng)絡結(jié)構(gòu)和超參數(shù)的 osp-GNNWR 模型;
步驟 5:從訓練集中獲取 mini-batch 數(shù)據(jù),使用梯度下降算法 (gradient descent algorithm) 進行訓練,并評估擬合優(yōu)度,如使用均方誤差 (MSE) 作為損失函數(shù);
步驟 6:評估當前周期 (epoch) 是否完成;如果未完成,返回步驟 5。
步驟 7:在驗證集上評估損失函數(shù),以確定是否存在過擬合;如果損失比先前的最優(yōu)結(jié)果有所改善,則保留新的優(yōu)越模型;否則,增加過擬合容忍度的計數(shù);
步驟 8:評估是否達到過擬合容忍度或周期數(shù)的最大值 (max epoch);達到限制時,訓練停止,使用測試集評估最新的優(yōu)越模型;否則,從步驟 5 開始繼續(xù)迭代。
通過上述步驟,研究人員可以有效訓練并驗證 osp-GNNWR 模型,以捕捉和解釋復雜空間關系中的異質(zhì)性,提高模型的準確性和可靠性。
研究結(jié)果:osp-GNNWR 模型具有更好的全局性能
首先來看基于模擬數(shù)據(jù)集進行分析的結(jié)果。在一組基于歐式距離和 Z-order 距離的模擬數(shù)據(jù)集上,研究人員采用了包括 OLS、GWR、GNNWR 和 osp-GNNWR 在內(nèi)的模型進行對比,結(jié)果如下表所示:
osp-GNNWR 和其他對比模型在模擬數(shù)據(jù)集上的實驗結(jié)果
無論是在訓練數(shù)據(jù)集還是測試數(shù)據(jù)集上,osp-GNNWR 模型都具有較高的 R2、較低的 RMSE 值和較低的 MSE 值,因此表現(xiàn)出更優(yōu)的性能。這些模擬實驗結(jié)果證明,osp-GNNWR 模型中使用的 SPNN 網(wǎng)絡在處理輸入距離時,具有出色的泛化能力和高度精確的擬合效果。因此,相比僅依賴歐氏距離的傳統(tǒng)方法,osp-GNNWR 模型在描繪現(xiàn)實世界地理過程中的空間異質(zhì)性方面具有潛在的優(yōu)勢。
其次是 osp-GNNWR 模型基于實際武漢市房價數(shù)據(jù)上的表現(xiàn)。下表顯示了 OLS、GWR、GNNWR 和 osp-GNNWR 模型的性能比較結(jié)果:
osp-GNNWR 與其他對比模型在武漢市房價數(shù)據(jù)集上的及實驗結(jié)果
同樣,無論是在訓練數(shù)據(jù)集還是測試數(shù)據(jù)集上,osp-GNNWR 模型都具有較高的 R2、較低的 RMSE 值和較低的 MSE 值,因此展現(xiàn)出更優(yōu)的性能。
值得注意的是,與 GNNWR(TD) 相比,osp-GNNWR 模型將測試數(shù)據(jù)集的 R2 從 0.737 提高到了 0.793,并且 RMSE 從 0.168 降低到了 0.149,MAE 從 0.125 降低到了 0.109。這些結(jié)果表明,集成 OSP 提高了 osp-GNNWR 模型的擬合和預測性能,使其成為研究的模型中最有效的方法。
* GNNWR(TD):使用旅行時間作為臨近性度量的GNNWR模型。
具體來看,在江夏區(qū)湯遜湖西岸、蔡甸區(qū)后宮湖沿岸以及漢江與長江交匯處等擁有復雜自然景觀和基礎設施的區(qū)域,洪山區(qū)和新洲區(qū)等高速公路網(wǎng)絡發(fā)達、實際空間鄰近性與物理距離差異較大的新興開發(fā)區(qū)等區(qū)域,osp-GNNWR 模型殘差顯著小于其他模型,表現(xiàn)出更高的預測準確度。
總的來說,本研究的發(fā)現(xiàn)突顯了 OSP 在增強 osp-GNNWR 模型表征空間異質(zhì)性能力方面的有效性,從而推動了房地產(chǎn)市場內(nèi)復雜空間關系的建模。
深度學習助力復雜的房價預測難題
探究住宅價格空間分異原因及影響機制,對維護房地產(chǎn)市場穩(wěn)定發(fā)展,以及提升城市規(guī)劃和居住滿意度有著重要意義。然而,房價預測是一個十分復雜的問題,涉及到眾多因素,如地理位置、交通便利性、學區(qū)、房齡、房屋類型等等。傳統(tǒng)的方法通?;诮y(tǒng)計學和機器學習,但是隨著數(shù)據(jù)規(guī)模的增加和復雜性的提高,這些方法難以應對。深度學習具有強大的特征學習和分類能力,可以更好地處理這類問題。
為了提高房價預測的準確度,業(yè)內(nèi)的研究主要從以下幾個方向展開:
其一是混合模型方法,即結(jié)合深度學習和傳統(tǒng)機器學習方法,發(fā)揮各自的優(yōu)勢。例如,可以將深度學習和支持向量機 (SVM) 或隨機森林 (Random Forest) 等傳統(tǒng)機器學習方法相結(jié)合,構(gòu)建一個混合模型來進行房價預測。
其二是考慮時間序列數(shù)據(jù),也就是在房價預測中,除了考慮房屋的靜態(tài)屬性外,還可以考慮時間序列數(shù)據(jù),如歷史房價、經(jīng)濟指標等,運用循環(huán)神經(jīng)網(wǎng)絡 (RNN) 等方法進行分析和預測。
例如,有研究人員在 Google patents 上介紹了一種基于注意力機制的卷積時序房價預測方法。研究人員首先對房價數(shù)據(jù)集進行預處理,并得到由房屋價格相關多維因素按時間構(gòu)成的序列。
考慮到影響房子價格有多維相關因素,對房屋價格趨勢的波動和影響,使基于注意力機制的用卷積時序神經(jīng)網(wǎng)絡來對房價進行預測,其中采用了一維卷積神經(jīng)網(wǎng)絡對多維相關因素的特征進行處理,得到進一步特征提取和降維后的多維特征向量,再將特征向量輸入到長短期記憶模型中學習特征之間的長期整體趨勢和短期局部依賴信息。
這一方法結(jié)合了房價時序預測在長期整體趨勢和短期局部的信息,降低了房價預測的方差,提高了多維時序數(shù)據(jù)房價預測方法的泛化能力。
其三是應用地理信息系統(tǒng) (GIS),將深度學習與地理信息系統(tǒng) (GIS) 相結(jié)合,分析地理位置等因素對房價的影響,提高模型的預測準確性——前文所述的 osp-GNNWR 模型就是典型代表之一。
有了 AI 的加持,房價預測模型將變得更可靠和精確?;诖?,房產(chǎn)企業(yè)能夠降低投資風險;政府則可以全面精準的掌控住房信息,從而有的放矢地進行管理,共同打造良好的房地產(chǎn)環(huán)境,幫助老百姓真正做到安居樂業(yè)。
1.https://www.tandfonline.com/doi/full/10.1080/13658816.2024.2343771
2.https://mp.weixin.qq.com/s/P4nk5sl2v60Q5DeVrOfWLw
3.https://cloud.baidu.com/article/1892933
4.https://patents.google.com/patent/CN112819256A/zh
