如何方便快捷地從雜亂地址中提取省市區(qū)?
“
閱讀本文大概需要 1 分鐘。
假設(shè)我們通過爬蟲獲取了上萬條不規(guī)范的地址信息:
杭州市濱江區(qū)網(wǎng)商路599號東城區(qū)和平里街道上海市徐匯區(qū) xx 小區(qū)...
現(xiàn)在老板想讓你把這些地址統(tǒng)一格式化為標(biāo)準(zhǔn)的省市區(qū)地址格式,并寫入到 Excel 中。你應(yīng)該如何操作?
有一個(gè)庫,叫做 cpca,可以非常方便地解決這個(gè)問題。我們來寫一段非常簡單的代碼,看看這個(gè)庫有多簡單:
import cpcaaddress_list = '''杭州市濱江區(qū)網(wǎng)商路599號東城區(qū)和平里街道上海市徐匯區(qū) xx 小區(qū)'''.split('\n')df = cpca.transform(address_list)print(df)

這個(gè)庫能自動根據(jù)你寫的部分地址,推測出這個(gè)地址所在的省市區(qū)。即使你把省市區(qū)省略了一部分,或者是使用簡稱,它也能識別出來,如下圖所示:

cpca.transform返回的是一個(gè) Pandas 的 DataFrame 對象,我們可以調(diào)用它的.to_csv()直接生成 csv 文件。如果我們再安裝一個(gè)第三方庫openpyxl,還可以直接生成 Excel 文件,如下圖所示:

大家可以訪問 GitHub - DQinYuan/chinese_province_city_area_mapper: 一個(gè)用于提取簡體中文字符串中省,市和區(qū)并能夠進(jìn)行映射,檢驗(yàn)和簡單繪圖的python模塊[1]查看更多用法,包括如何處理不同城市的同名區(qū),并且還可以繪制熱力圖。
參考資料
[1]GitHub - DQinYuan/chinese_province_city_area_mapper: 一個(gè)用于提取簡體中文字符串中省,市和區(qū)并能夠進(jìn)行映射,檢驗(yàn)和簡單繪圖的python模塊: https://github.com/DQinYuan/chinese_province_city_area_mapper
