91视频在线观看18,日韩成人AV电影在线观看,超碰中文在线字幕,午夜久久,欧美性网站,奇米四色777,蜜桃91精品秘入口,激情婷婷丁香五月

毋庸置疑，Pandas是使用最廣泛的 Python 庫之一，它提供了許多功能和方法來執(zhí)行有效的數(shù)據(jù)處理和數(shù)據(jù)分析。

我們平時的操作，大多圍繞著數(shù)字的處理，這是因為大家習慣將表格數(shù)據(jù)與數(shù)字聯(lián)系起來。然而我們無論是使用Excel還是Pandas，其實都離不開文本類型的數(shù)據(jù)。

今天，我們會通過一個例子，總結(jié)這些常用的Pandas處理文本數(shù)據(jù)的操作。

首先，先創(chuàng)建一個帶有模擬數(shù)據(jù)的DataFrame。

import?pandas?as?pd
df?=?pd.DataFrame({
???"姓":?["王","仲","寶",?"王",?"朱"],
???"名":?["玉環(huán)","覓晴","清俊",?"鴻博",?"小五"],
???"戶籍地址":?["黑龍江省·哈爾濱市",?"黑龍江省·哈爾濱市",?"黑龍江省·佳木斯市",?"廣西·柳州市",?"湖北省·武漢市"],
???"微信":?["Tomout",?"Sm857",?"Adamshffhhjfj",?"Tull88",?"ZPW505"],
???"郵箱":?["[email protected]",?"[email protected]",?"[email protected]",?"[email protected]",?"[email protected]"]
})
df

一共五列文本數(shù)據(jù)：姓、名、戶籍地址、微信id、郵箱地址。

講個冷知識：微信id是不區(qū)分大小寫的。

如果將微信id這列的文本數(shù)據(jù)，全部轉(zhuǎn)換為小寫，在Pandas中可以這樣操作。

df["微信"]?=?df["微信"].str.lower()
df

我們可以通過組合姓氏和名字，來創(chuàng)建姓名這列。

df["姓名"]?=?df["姓"]?+?df["名"]
df

但是在默認情況下，新列會被添加在末尾。

想要更多的自定義選擇，可以參考下面的代碼。既可以在特定位置插入創(chuàng)建新列，也可以使用 cat 方法組合字符串（此處還可設置分隔符sep，這里并未設置）。

df.insert(2,?
??????????"姓名",?
??????????df["姓"].str.cat(df["名"],?sep=""))
df

對字符串的一個常見操作是拆分，當文本數(shù)據(jù)包含多條信息時，它就派上用場啦。

例如，戶籍地址這列包括省份和城市，我們可以通過拆分此列來提取城市的信息。

df["城市"]?=?df["戶籍地址"].str.split("·",?expand=True)[1]
df

對字符串的另一個常見操作是篩選過濾，那么在Pandas中如何操作呢？

如果想篩選“王”字開頭的姓名，既可以直接篩選姓這一列，也可以使用startswith()來過濾。

startswith() 和endswith() 這兩個函數(shù)，是分別基于字符串的第一個或最后一個字母進行篩選。

df[df["姓名"].str.startswith("王")]

注意：startswith() 和endswith() 這兩個函數(shù)，還可以通過設置參數(shù)，既能檢測多個字符，又能設置字符串檢測的起始和結(jié)束位置。

如果想直接篩選包含特定字符的字符串，可以使用contains()這個方法。

例如，篩選戶籍地址列中包含“黑龍江”這個字符的所有行。

df[df["戶籍地址"].str.contains("黑龍江")]

replace()方法可用于替換字符串中的字符序列，通過該方法可以修改Pandas中的文本數(shù)據(jù)。

df["戶籍地址"]?=?df["戶籍地址"].str.replace("廣西",?"廣西壯族自治區(qū)")
df

最后，我們還可以使用字符串的索引。

例如，我們可以用“str[:5]”表達式選擇前8個字符，用“str[-8:]”選擇后8個字符。

df["郵箱"].str[:5]
df["郵箱"].str[-8:]

Pandas 文本數(shù)據(jù)處理！