<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          怎么用Python畫出好看的詞云圖?

          共 2422字,需瀏覽 5分鐘

           ·

          2020-02-02 23:23


          641bfed86966b20ae242ca177e5ad348.webp


          ? ? ?作者:易執(zhí)


          ? ? ?來源:Python讀數(shù)


          相信很多人在第一眼看到下面這些圖時,都會被其牛逼的視覺效果所吸引,這篇文章就教大家怎么用Python畫出這種圖。

          8d25217efcdffbaaa2f84f682156c8e1.webp
          前期準備

          上面的這種圖叫做詞云圖,主要用途是將文本數(shù)據(jù)中出現(xiàn)頻率較高關(guān)鍵詞以可視化的形式展現(xiàn)出來,使人一眼就可以領(lǐng)略文本數(shù)據(jù)的主要表達意思。詞云圖中,詞的大小代表了其詞頻,越大的字代表其出現(xiàn)頻率更高。

          那生成一張詞云圖的主要步驟有哪些?過程中又需要用到哪些Python庫呢?

          1. 首先需要一份待分析的文本數(shù)據(jù),由于文本數(shù)據(jù)都是一段一段的,所以第一步要將這些句子或者段落劃分成詞,這個過程稱之為分詞,需要用到Python中的分詞庫jieba

          2. 分詞之后,就需要根據(jù)分詞結(jié)果生成詞云,這個過程需要用到wordcloud

          3. 最后需要將生成的詞云展現(xiàn)出來,用到大家比較熟悉的matplotlib

          理清了詞云圖繪制的主要脈絡(luò)之后,下面就用代碼操作起來。

          小試牛刀

          明天就過年了,所以我也特地去找了幾首新年歌,將它們的歌詞匯總起來作為本次展示用的文本數(shù)據(jù),大家可以看看新年歌中哪些詞的出現(xiàn)頻率比較高。我們先繪制一個比較簡單的詞云圖:

          # 導(dǎo)入相應(yīng)的庫import jiebafrom wordcloud import WordCloudimport matplotlib.pyplot as plt
          # 導(dǎo)入文本數(shù)據(jù)并進行簡單的文本處理# 去掉換行符和空格text = open("./data/新年歌.txt",encoding='utf8').read()text = text.replace('\n',"").replace("\u3000","")
          2ec9076580d14c4b7c737c1ef0eb5458.webp
          # 分詞,返回結(jié)果為詞的列表text_cut = jieba.lcut(text)# 將分好的詞用某個符號分割開連成字符串text_cut = ' '.join(text_cut)
          9e514f95094d438761b6f0debf9965f5.webp
          # 導(dǎo)入停詞# 用于去掉文本中類似于'啊'、'你','我'之類的詞stop_words = open("F:/NLP/chinese corpus/stopwords/stop_words_zh.txt",encoding="utf8").read().split("\n")
          # 使用WordCloud生成詞云word_cloud = WordCloud(font_path="simsun.ttc", # 設(shè)置詞云字體 background_color="white", # 詞云圖的背景顏色 stopwords=stop_words) # 去掉的停詞word_cloud.generate(text_cut)
          # 運用matplotlib展現(xiàn)結(jié)果plt.subplots(figsize=(12,8))plt.imshow(word_cloud)plt.axis("off")
          5f977cdb1fa9ac506d2373147f66d2dc.webp

          一張簡單的詞云圖就成功生成啦,但看起來好像并沒有特別好看,怎么生成帶特定形狀的詞云呢?

          登堂入室

          想生成帶特定形狀的詞云,首先得準備一張該形狀的圖片,且除了目標形狀外,其他地方都是空白的,如下面這張用于演示的圖。

          b464e09079638faac8114c86e5d57009.webp

          上圖中除了福字之外都是白色的,準備好之后就上代碼

          import jiebafrom wordcloud import WordCloudimport matplotlib.pyplot as pltfrom PIL import Image
          text = open("./data/新年歌.txt",encoding='utf8').read()text = text.replace('\n',"").replace("\u3000","")text_cut = jieba.lcut(text)text_cut = ' '.join(text_cut)
          stop_words = open("F:/NLP/chinese corpus/stopwords/stop_words_zh.txt",encoding="utf8").read().split("\n")
          # 主要區(qū)別background = Image.open("./data/background.png")graph = np.array(background)
          word_cloud = WordCloud(font_path="simsun.ttc", background_color="white", mask=graph, # 指定詞云的形狀 stopwords=stop_words)
          word_cloud.generate(text_cut)plt.subplots(figsize=(12,8))plt.imshow(word_cloud)plt.axis("off")

          代碼部分和普通的圖基本一致,區(qū)別在于要導(dǎo)入相應(yīng)形狀的圖片,并在wordcloud設(shè)置了mask參數(shù)。

          生成的詞云圖如下:

          3b7c77fdac7890da0bcc5f79e018d448.webp

          是不是還挺簡單的,借這張圖也祝福大家2020年都福氣滿滿!


          ◆?◆?◆ ?◆?



          長按二維碼關(guān)注我們



          數(shù)據(jù)森麟公眾號的交流群已經(jīng)建立,許多小伙伴已經(jīng)加入其中,感謝大家的支持。大家可以在群里交流關(guān)于數(shù)據(jù)分析&數(shù)據(jù)挖掘的相關(guān)內(nèi)容,還沒有加入的小伙伴可以掃描下方管理員二維碼,進群前一定要關(guān)注公眾號奧,關(guān)注后讓管理員幫忙拉進群,期待大家的加入。


          管理員二維碼:


          猜你喜歡

          ?笑死人不償命的知乎沙雕問題排行榜

          ?用Python扒出B站那些“驚為天人”的阿婆主!

          ?互聯(lián)網(wǎng)大佬學(xué)歷&背景大揭秘,看看是你的老鄉(xiāng)還是校友

          ?上萬條數(shù)據(jù)撕開微博熱搜的真相!

          ?你相信逛B站也能學(xué)編程嗎??

          瀏覽 81
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  七区无码 | 成年视频在线 | 国语对白久久 | 免费看的黄色视频 | 最新三级在线 |