<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          使用Python創(chuàng)建詞云

          共 2687字,需瀏覽 6分鐘

           ·

          2020-11-12 15:14

          介紹從開始從事數(shù)據(jù)可視化工作的那一天起,我就愛上它了,我總是喜歡從數(shù)據(jù)中獲得有用的見解。在此之前,我只了解基本圖表,例如條形圖,散點(diǎn)圖,直方圖等,這些基本圖表內(nèi)置在tableau中,而Power BI則用于數(shù)據(jù)可視化。通過每天完成此任務(wù),我遇到了許多新圖表,例如徑向儀表盤,華夫圖等。因此,出于好奇,最近我正在搜索數(shù)據(jù)可視化中使用的所有圖表類型,這些詞云引起了我的注意,我發(fā)現(xiàn)它非常有趣。之后,我嘗試使用Tableau和Power BI中的少量數(shù)據(jù)來制作詞云,在成功嘗試之后,我想通過使用條形圖,餅圖和其他圖表的代碼來嘗試使用它。

          詞云是什么?

          定義:詞云是一個(gè)簡單但功能強(qiáng)大的可視化表示對象,用于文本處理,它以更大,更粗的字母和不同的顏色顯示最常用的詞,單詞的大小越小,重要性就越小。d66507d1c7ac2ce7a2ac7b69f10e628f.webp

          詞云的用途

          1.社交媒體上的熱門標(biāo)簽(Instagram,Twitter):全世界的社交媒體都在尋找最新的趨勢,因此,我們可以獲取人們在其帖子中使用最多的標(biāo)簽來探索最新的趨勢。2.媒體中的熱門話題:分析新聞報(bào)道,我們可以在頭條新聞中找到關(guān)鍵字,并提取出前n個(gè)需求較高的主題,來獲得所需的結(jié)果,即前n個(gè)熱門媒體主題。3.電子商務(wù)中的搜索詞:在電子商務(wù)購物網(wǎng)站中,網(wǎng)站所有者可以制作被搜索次數(shù)最多的購物商品的詞云,這樣,他就可以了解在特定時(shí)期內(nèi)哪些商品需求量最大。

          讓我們開始使用Python來實(shí)現(xiàn)詞云

          首先,我們需要在jupyter notebook中安裝所有庫。在python中,我們將安裝一個(gè)內(nèi)置庫wordcloud。在Anaconda命令提示符下,輸入以下代碼:
          pip?install?wordcloud
          如果你的anaconda環(huán)境支持conda,請輸入:
          conda?install?wordcloud
          這可以直接在notebook中實(shí)現(xiàn),只需在代碼的開頭添加“!”即可。像這樣:
          !pip?install?wordcloud
          但現(xiàn)在我想生成擁有任何主題的維基百科文本的詞云,因此,我將需要一個(gè)Wikipedia庫來訪問Wikipedia API,可以通過在anaconda命令提示符下安裝Wikipedia來完成,如下所示:
          pip?install?wikipedia
          現(xiàn)在我們還需要其他一些庫,它們是numpy,matplotlib和pandas。截至目前,我們需要的庫就安裝好了
          import?wikipedia
          result=?wikipedia.page("MachineLearning")
          final_result?=?result.content
          print(final_result)
          機(jī)器學(xué)習(xí)維基百科頁面的輸出:cc5911b211044d5a621d39af79066d60.webp上圖是我們通過檢索Wikipedia的機(jī)器學(xué)習(xí)頁面獲得的輸出圖像,我們還可以看到它可以向下滾動(dòng),這表示將檢索整個(gè)頁面。在這里,我們還可以通過摘要方法得到頁面的摘要,如:
          result=?wikipedia.summary("MachineLearning",?sentences=5)
          print(result)
          這里我們有句子的參數(shù),因此我們可以用它來檢索特定的行數(shù)。0506929dd3c2c09cb74bbfb6c167a81b.webp輸出5個(gè)句子

          讓我們一起創(chuàng)建wordcloud

          from?wordcloud?import?WordCloud,?StopWords
          import?matplotlib.pyplot?as?plt?
          def?plot_cloud(wordcloud):
          ????plt.figure(figsize=(10,?10))
          ????plt.imshow(wordcloud)?
          ????plt.axis("off");
          wordcloud?=?WordCloud(width?=?500,?height?=?500,?background_color='pink',?random_state=10).generate(final_result)
          plot_cloud(wordcloud)
          停用詞是沒有任何含義的單詞,例如‘is’, ‘a(chǎn)re’, ‘a(chǎn)n’, ‘I’ 等。Wordcloud帶有內(nèi)置停用詞庫,該庫將自動(dòng)從文本中刪除停用詞。同時(shí)我們也可以通過stopwords.add()函數(shù)在python中添加停用詞的選擇。Wordcloud方法可以設(shè)置詞云的寬度和高度,我將它們都設(shè)置為500,背景色設(shè)置為粉紅色。如果不添加隨機(jī)狀態(tài),則每次運(yùn)行代碼時(shí),詞云都會(huì)看起來不同,我們可以將其設(shè)置為任何int值。從上面的代碼中,我們將獲得這樣的詞云:0411d007175b9e0b48cf210b535dbd10.webp通過查看上圖,我們可以看到機(jī)器學(xué)習(xí)是最常用的詞,還有一些其他經(jīng)常使用的詞是模型,任務(wù),訓(xùn)練和數(shù)據(jù),因此,我們可以得出結(jié)論,機(jī)器學(xué)習(xí)是訓(xùn)練數(shù)據(jù)模型的任務(wù)。我們還可以在這里通過背景顏色方法更改背景顏色,并通過colormap方法更改字體顏色,還可以在背景顏色中添加顏色的哈希碼,但是mapcolor帶有內(nèi)置的特定顏色。讓我們通過使用哈希碼將背景色更改為藍(lán)綠色,將字體顏色更改為藍(lán)色:
          from?wordcloud?import?WordCloud,?StopWords
          import?matplotlib.pyplot?as?plt
          def?plot_cloud(wordcloud):
          ????plt.figure(figsize=(10,?10))
          ????plt.imshow(wordcloud)
          ????plt.axis("off");
          wordcloud?=?WordCloud(width?=?500,?height?=?500,?background_color='#40E0D0',?colormap="ocean",??random_state=10).generate(final_result)
          plot_cloud(wordcloud)

          6c1e9cbc17b6f3a139c069e48ff79b0c.webp在這里,我指定了ocean,如果我添加了一些錯(cuò)誤的顏色圖,jupyter將拋出一個(gè)值錯(cuò)誤,并向我顯示顏色圖的可用選項(xiàng),如下所示:82c4bbedcee2f75bec48f3bb07008534.webp我們還可以使用PIL庫在任何圖像中實(shí)現(xiàn)詞云。

          尾注

          在本文中,我們討論了詞云,詞云的定義,應(yīng)用領(lǐng)域以及使用python實(shí)現(xiàn)詞云。參考鏈接:https://www.analyticsvidhya.com/blog/2020/10/word-cloud-or-tag-cloud-in-python/



          ☆ END ☆推薦閱讀:Python中讀取圖片的6種方式
          2020年11月國內(nèi)大數(shù)據(jù)競賽信息-獎(jiǎng)池5000萬
          Python字典詳解-超級完整版
          刷爆網(wǎng)絡(luò)的動(dòng)態(tài)條形圖,3行Python代碼就能搞定
          ↓內(nèi)推、交流加小編

          掃描二維碼關(guān)注本號↓


          瀏覽 40
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国产一区二区三区免费播放 | 成人视频免费观看18 | 大香蕉AV永久在线 | 成人视频网站久久久精品网站久久久 | 靠逼视频在线免费观看 |