<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          獨(dú)家 | 可視化101:選取合適類型的可視化圖表(下)

          共 4465字,需瀏覽 9分鐘

           ·

          2024-04-11 04:26

          a85d5cdc61b77a9576241b02254998ec.webp
              作者:Mariya Mansurova
                          

          翻譯:陳之炎

          校對:趙茹萱

          本文約2500字,建議閱讀16分鐘

          本文介紹了可視化案例。


          在上文中,我們從框架開始,通過討論數(shù)據(jù)可視化,為實(shí)際用例選取最為合適的圖表。具體而言,我們分析了時(shí)間序列與名稱比較的可視化示例,在下文中,我們將繼續(xù)分析其他案例的可視化示例。?????

                   

           

          偏差


          用例是什么?當(dāng)想要突出顯示數(shù)值和基線(例如,基準(zhǔn)測試或預(yù)測值)之間的差異時(shí),使用偏差。
          推薦圖表
          當(dāng)需要比較不同的度量時(shí),使用可視化來傳達(dá)這一想法的最佳方法是采用柱狀圖和基線的組合。
          在我先前的一篇關(guān)于酒店評(píng)論主題建模的研究文章中做了這樣的可視化,我比較了每個(gè)特定主題連鎖酒店客戶評(píng)論的份額和基線(全部評(píng)論的平均比率),并強(qiáng)調(diào)了與顏色明顯不同的部分。
          11a7607bf1f6762f4e65cbf3e3a2ef65.webp
          此外,當(dāng)有一個(gè)顯示偏離預(yù)測值的任務(wù)時(shí),可以使用折線圖比較預(yù)測值和事實(shí)數(shù)據(jù)的偏差,我喜歡用虛線表示預(yù)測值,以強(qiáng)調(diào)它不像真實(shí)值那么可信。   
          de56fb969c0713b8c775499ca3d3817f.webp作者生成可視化圖片
          這種折線圖的情況比前文討論的要復(fù)雜一些,需要使用Plotly 圖形對象來定制圖形,而非使用Plotly Express。
          3ae729abdb0ec7702f0bc35e1d3b383a.webp


          排序   


          用例是什么?該任務(wù)類似于名稱比較,在比較多個(gè)度量的同時(shí),想強(qiáng)調(diào)排名——數(shù)據(jù)段的順序。例如,它可以是年度平均GMV值最高的前3位,也可以是投資回報(bào)率最高的前3個(gè)營銷活動(dòng)。
          推薦圖表
          毫無疑問,可以使用類似于名稱比較的條狀圖,唯一需要記住的細(xì)微差別是依據(jù)感興趣的指標(biāo)對圖表上的數(shù)據(jù)段進(jìn)行排序。例如,可以根據(jù)年度商品總價(jià)值來可視化排位前3的地區(qū)。
          f35678c526af94e43852e8eebd137939.webp作者生成可視化圖片
          部分到整體 


          用例是什么?目標(biāo)是理解總和是由哪些細(xì)分項(xiàng)構(gòu)成的,可能希望同時(shí)執(zhí)行多個(gè)數(shù)據(jù)段,以比較它們的結(jié)構(gòu)。
          推薦圖表

          最直接的解決方案是使用條形圖來顯示不同類別的細(xì)分份額,為了使可視化更容易解釋,按降序排序數(shù)值。     e9e46479a50d9ea2de28813c4e4752fe.webp作者生成可視化圖片          

           

          上述方法同時(shí)適用于多個(gè)數(shù)據(jù)段,有時(shí),使用堆疊的條形圖比較結(jié)構(gòu)會(huì)更容易,例如,可以按年齡查看不同地區(qū)的客戶份額。
          1f7cd53b7e66b29625af509bbb67e56c.webp作者生成可視化圖片
          這種情況下通常會(huì)采用餅圖,但我不建議你這么做,從視覺感知研究中可知,比較角度或區(qū)域比僅僅比較長度更具挑戰(zhàn)性,所以,柱狀圖是最好的。
          此外,可能還會(huì)有其他任務(wù),需要觀察隨著時(shí)間的推移而出現(xiàn)的結(jié)構(gòu)變化。理想的選擇是用一個(gè)面積圖,它將顯示通過斜率進(jìn)行數(shù)據(jù)細(xì)分和趨勢劃分(這就是為什么它是比以月作為分類的條形圖更好的選擇)。   
          205332e0c14746f6a0209efb1258b1f0.webp 作者生成可視化圖片          

           

          可以使用Plotly中的px.area函數(shù)創(chuàng)建面積圖。
          90bb10c696cf24afa49c90aaf6ce8567.webp
          頻率分布  


          用例是什么?當(dāng)處理新數(shù)據(jù)時(shí),通常從這種可視化開始,目標(biāo)是了解數(shù)值是如何分布的:
          • 是正態(tài)分布的嗎?
          • 是單一模態(tài)的嗎?
          • 數(shù)據(jù)中有無異常值?

          推薦圖表
          頻率分布的首選是直方圖(垂直柱狀圖通常沒有類別之間的邊界),我通常更喜歡規(guī)一化的直方圖,因?yàn)樗鼈儽冉^對值更容易解釋。     如果要查看多個(gè)指標(biāo)的頻率分布,則可以同時(shí)繪制多個(gè)直方圖。在這種情況下,使用歸一化直方圖至關(guān)重要。否則,如果不同組別中對象的數(shù)量不同,則將無法進(jìn)行分布對比。
          例如,可以比較來自英國和瑞士客戶的年度GMV可視化分布情況。
          4d7838ae0b944c2664e5456bdaf96698.webp作者生成可視化圖片
          我使用了matplotlib實(shí)現(xiàn)這一可視化,因?yàn)橄矚g matplotlib的默認(rèn)設(shè)計(jì),我更偏愛 matplotlib 而非采用Plotly的直方圖。   
          b865f3e66ffe301b8412605041981561.webp
          如果想比較多個(gè)類別的分布,那么在同一圖上畫出多個(gè)直方圖將是富有挑戰(zhàn)性。所以,建議使用方框圖,它們顯示的信息較少(只有中位數(shù)、四分位數(shù)和異常值),雖然需要對觀眾做出解釋,然而,對于多類別分布來說,這可能是最好的選擇。 例如,來看看不同地區(qū)在現(xiàn)場所花費(fèi)時(shí)間的分布。
          9f62c4ea2e10885931da3df4b51b466f.webp     作者生成可視化圖片          

           

          如果不記得如何閱讀方框圖,這里有一個(gè)方案,可以提供一些提示。 5f51aaee1f2f1fbd1d96ec91767a1678.webp圖片來自維基百科(來源)|CCBY-SA2.5授權(quán)
          來瀏覽一下用方框圖進(jìn)行可視化的構(gòu)建模塊:
          • 可視化圖上的方框顯示了IQR(四分位數(shù)范圍)-25%和75%的百分位數(shù),
          • 方框中間的線指定了中位數(shù)(50%的百分位數(shù)),
          • 須等于1.5 * IQR,或等于數(shù)據(jù)集中的最小/最大值,
          • 如果你有任何一個(gè)比1.5*IQR(異常值)更極端的數(shù)字,將它們描述為圖上的點(diǎn)。 
            下面是在Plotly中生成一個(gè)方框圖的代碼,我使用圖形對象而不是用Plotly Express來消除可視化中的異常值,當(dāng)數(shù)據(jù)集中有極端異常值或太多異常值時(shí),它就會(huì)派上用場。
          00800d62c1590917a4bf974c2d772f3a.webp
          相關(guān)性  


          用例是什么?目標(biāo)是了解兩個(gè)數(shù)據(jù)集之間的關(guān)系,判斷一個(gè)數(shù)據(jù)值是否隨另一個(gè)數(shù)據(jù)值增加。   
          推薦圖表
          散點(diǎn)圖是顯示這些值之間的相關(guān)性的最佳解決方案,可能還需要添加一條趨勢線來突出顯示度量標(biāo)準(zhǔn)之間的關(guān)系。
          4def484d2e08a6562aff0742c693c255.webp 作者生成可視化圖片
          如果數(shù)據(jù)點(diǎn)眾多,那么可能會(huì)面臨散點(diǎn)圖的問題:不可能看到有全部數(shù)據(jù)點(diǎn)的結(jié)構(gòu),因?yàn)樗鼈兿嗷ブ丿B。在這種情況下,減少不透明度可能會(huì)有助于揭示數(shù)據(jù)之間的關(guān)系。
          例如,對比下面兩個(gè)圖,第二種方法更好理解數(shù)據(jù)的分布。   
          b9cbb7ee2665f204b24eec6bf6486bd7.webp作者生成可視化圖片
          使用Plotly圖形對象來畫這個(gè)圖形,因?yàn)樗嵌ㄖ频模獎(jiǎng)?chuàng)建這樣的圖,需要指定兩個(gè)軌跡——一個(gè)用于散點(diǎn)圖,另一個(gè)用于回歸線。
          4e5b188dd32c2cdd492d37171b5195ec.webp
          將回歸線作為第二個(gè)軌跡非常必要,不這樣做的話,它會(huì)被散點(diǎn)圖所覆蓋。     此外,還可以顯示兩個(gè)變量的頻率分布,這實(shí)現(xiàn)起來并不費(fèi)力,可以使用 seaborn庫中的聯(lián)合繪圖來實(shí)現(xiàn),代碼如下。
          af99b4fda727f6611daad09da62d47de.webp db0d85ba06d36f3cd3564c4849798889.webp作者生成可視化圖片
          至此,已經(jīng)涵蓋了數(shù)據(jù)可視化的全部用例。   
           這是我需要知道的全部可視化類型嗎? 


          必須承認(rèn),當(dāng)上述建議不夠用時(shí)怎么辦?有時(shí)會(huì)面對特殊任務(wù),需要用到一些其他圖表。
          下面是一些示例:
          • 針對客戶旅程地圖的Sankey圖或太陽爆發(fā)圖;
          • 需要顯示地理數(shù)據(jù)時(shí),請使用Choropleth數(shù)據(jù);
          • Word云提供一個(gè)高水平的文本視圖。

          如果想看到多條線的趨勢時(shí)使用Sparklines。
          為了獲得靈感,通常使用諸如Plotly 或seaborn等流行的可視化庫。
          此外,還可以詢問ChatGPT關(guān)于數(shù)據(jù)顯示的可能選項(xiàng),它會(huì)提供一個(gè)相當(dāng)合理的指南。    87c406eb60a36d41dafd89790a949054.webp由作者提供截圖
          總結(jié)   在整篇文章中,我們討論了數(shù)據(jù)可視化的基礎(chǔ)知識(shí):
          • 為什么需要可視化數(shù)據(jù)?
          • 在開始研究可視化工作之前,應(yīng)該問自己什么問題?
          • 基本的構(gòu)建模塊是什么,哪些最讓觀眾容易感知?
          • 數(shù)據(jù)可視化的常用用例是什么?可以使用哪些圖表類型來解決這些問題?

          希望本文所提供的框架將助您不被各種選項(xiàng)所困擾,為觀眾創(chuàng)造出更好的可視化圖表。   
          感謝拔冗閱讀本文,如果您有任何后續(xù)的問題或評(píng)論,請?jiān)谠u(píng)論區(qū)留下它們。

          原文標(biāo)題:

          Visualisation 101: Choosing the Best Visualisation Type    原文鏈接: https://towardsdatascience.com/visualisation-101-choosing-the-best-visualisation-type-3a10838b150d


          編輯:王菁 校對:林贛敏




          譯者簡介





          0b9dc55e27b90cd71ccf2b31b068be0e.webp

          陳之炎, 北京交通大學(xué)通信與控制工程專業(yè)畢業(yè),獲得工學(xué)碩士學(xué)位,歷任長城計(jì)算機(jī)軟件與系統(tǒng)公司工程師,大唐微電子公司工程師,現(xiàn)任北京吾譯超群科技有限公司技術(shù)支持。目前從事智能化翻譯教學(xué)系統(tǒng)的運(yùn)營和維護(hù),在人工智能深度學(xué)習(xí)和自然語言處理(NLP)方面積累有一定的經(jīng)驗(yàn)。業(yè)余時(shí)間喜愛翻譯創(chuàng)作,翻譯作品主要有:IEC-ISO 7816、伊拉克石油工程項(xiàng)目、新財(cái)稅主義宣言等等,其中中譯英作品“新財(cái)稅主義宣言”在GLOBAL TIMES正式發(fā)表。能夠利用業(yè)余時(shí)間加入到THU 數(shù)據(jù)派平臺(tái)的翻譯志愿者小組,希望能和大家一起交流分享,共同進(jìn)步

          翻譯組招募信息

          工作內(nèi)容: 需要一顆細(xì)致的心,將選取好的外文文章翻譯成流暢的中文。如果你是數(shù)據(jù)科學(xué)/統(tǒng)計(jì)學(xué)/計(jì)算機(jī)類的留學(xué)生,或在海外從事相關(guān)工作,或?qū)ψ约和庹Z水平有信心的朋友歡迎加入翻譯小組。

          你能得到: 定期的翻譯培訓(xùn)提高志愿者的翻譯水平,提高對于數(shù)據(jù)科學(xué)前沿的認(rèn)知,海外的朋友可以和國內(nèi)技術(shù)應(yīng)用發(fā)展保持聯(lián)系,THU數(shù)據(jù)派產(chǎn)學(xué)研的背景為志愿者帶來好的發(fā)展機(jī)遇。

          其他福利: 來自于名企的數(shù)據(jù)科學(xué)工作者,北大清華以及海外等名校學(xué)生他們都將成為你在翻譯小組的伙伴。


          點(diǎn)擊文末“ 閱讀原文 ”加入數(shù)據(jù)派團(tuán)隊(duì)~



          轉(zhuǎn)載須知

          如需轉(zhuǎn)載,請?jiān)陂_篇顯著位置注明作者和出處(轉(zhuǎn)自:數(shù)據(jù)派ID:DatapiTHU),并在文章結(jié)尾放置數(shù)據(jù)派醒目二維碼。有原創(chuàng)標(biāo)識(shí)文章,請發(fā)送【文章名稱-待授權(quán)公眾號(hào)名稱及ID】至聯(lián)系郵箱,申請白名單授權(quán)并按要求編輯。

          發(fā)布后請將鏈接反饋至聯(lián)系郵箱(見下方)。未經(jīng)許可的轉(zhuǎn)載以及改編者,我們將依法追究其法律責(zé)任。



          點(diǎn)擊 “閱讀原文” 擁抱組織



          瀏覽 33
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  亚洲国产毛片 | 天天干天天肏 | 日韩无码影音先锋 | 免费手机在线看A片 | 超碰在线伊人 |