基于Python的語料庫數(shù)據(jù)處理(二)
《Python玩轉(zhuǎn)語料庫數(shù)據(jù)》專欄·第2篇
文?| 段洵??
1029字 | 5?分鐘閱讀
【數(shù)據(jù)科學(xué)與人工智能】已開通Python語言社群,學(xué)用Python,玩弄數(shù)據(jù),求解問題,以創(chuàng)價(jià)值。喜樂入群者,請加微信號shushengya360,或掃描文末二維碼,添加為好友,同時(shí)附上Python-入群。有朋自遠(yuǎn)方來,不亦樂乎,并誠邀入群,以達(dá)相互學(xué)習(xí)和進(jìn)步之美好心愿。
一、字符串運(yùn)算
語料庫處理中,Python語言的字符串運(yùn)算主要是將詞語、句子連接起來,或者將詞語、句子重復(fù)若干次,如:string1+string2(兩個(gè)字符串相加),string*n(將該字符串重復(fù)n次),具體示例如下:


二、字符串與數(shù)值的轉(zhuǎn)換
在進(jìn)行語料庫數(shù)據(jù)處理時(shí),不要將字符串與數(shù)值混淆。我們可以使用str()函數(shù)將數(shù)字轉(zhuǎn)換成字符串,也可以用float()函數(shù)或int()函數(shù)將字符串轉(zhuǎn)換成數(shù)值。具體示例如下:


三、語料庫數(shù)據(jù)處理常用字符串函數(shù)
語料庫常數(shù)據(jù)處理常用的字符串函數(shù)有:
1.長度和大小相關(guān)函數(shù):len(string)——計(jì)算字符長度,string.lower()——字符串字母全部小寫,string.upper()——字符串字母全部大寫,string.capitalize()——字符串第一個(gè)單詞首字母大寫,string.title()——字符串每個(gè)單詞首字母大寫,string.swapcase()——字符串字母大小寫互換。具體示例如下:


2.刪除空格的函數(shù):string.strip()——刪除字符串前后的空格,string.lstrip()——刪除字符串前的空格,string.rstrip()——刪除字符串后的空格。具體示例如下:


3.對字符串進(jìn)行相關(guān)判斷的函數(shù):string.startswith(x)——判斷字符串是否以x開頭,string.endswith(x)——判斷字符串是否以x結(jié)尾,string.isalnum()——判斷字符串是否全是紫玉和數(shù)字,并至少有一個(gè)字符,string.isalpha(x)——判斷字符串是否全是字母,并至少有一個(gè)字符,string.isdigit(x)——判斷字符串是否全是數(shù)字,并至少有一個(gè)字符,string.islower(x)——判斷字符串的字母是否全是小寫,string.isupper(x)——判斷字符串的字母是否全是大寫,string.istitle(x)——判斷字符串的每個(gè)單詞首字母是否大寫,string.isspace(x)——判斷字符串是否全是空白字符,并至少有一個(gè)字符。具體示例如下:


四、結(jié)語
這是基于Python的語料庫數(shù)據(jù)處理專欄的第二期,以后也會定期更新。有在研究語料庫的朋友可以一起來學(xué)習(xí),使用Python進(jìn)行語料庫數(shù)據(jù)處理會更方便、更快捷。
推薦閱讀:基于Python的語料庫數(shù)據(jù)處理(一)
公眾號推薦
數(shù)據(jù)思踐
數(shù)據(jù)思踐公眾號記錄和分享數(shù)據(jù)人思考和踐行的內(nèi)容與故事。
Python語言群
誠邀您加入
請掃下方二維碼加我為好友,備注Python-入群。有朋自遠(yuǎn)方來,不亦樂乎,并誠邀入群,以達(dá)相互學(xué)習(xí)和進(jìn)步之美好心愿。。
