【直播回顧】輕松入門數(shù)據(jù)可視化

直播回看地址
https://appqtulvsie4217.pc.xiaoe-tech.com/detail/l_5e5dd4cfd2ef3_4Ramdutd/4?fromH5=true#/



數(shù)據(jù)可視化的定義
數(shù)據(jù)可視化(DataVisualization)是關(guān)于數(shù)據(jù)之視覺表現(xiàn)形式的研究;其中,這種數(shù)據(jù)的視覺表現(xiàn)形式被定義為一種以某種概要形式抽提出來的信息,包括相應(yīng)信息單位的各種屬性和變量。
數(shù)據(jù)可視化主要旨在借助于圖形化手段,清晰有效地傳達(dá)與溝通信息。為了有效地傳達(dá)思想概念,美學(xué)形式與功能需要齊頭并進(jìn),通過直觀地傳達(dá)關(guān)鍵的方面與特征,從而實(shí)現(xiàn)對(duì)于相當(dāng)稀疏而又復(fù)雜的數(shù)據(jù)集的深入洞察。

南丁格爾玫瑰圖的故事
19世紀(jì)50年代,英國、法國、土耳其和俄國進(jìn)行了克里米亞戰(zhàn)爭(zhēng),英國的戰(zhàn)地戰(zhàn)士死亡率高達(dá)42%。弗羅倫斯·南丁格爾主動(dòng)申請(qǐng),自愿擔(dān)任戰(zhàn)地護(hù)士。她率領(lǐng)38名護(hù)士抵達(dá)前線,在戰(zhàn)地醫(yī)院服務(wù)。當(dāng)時(shí)的野戰(zhàn)醫(yī)院衛(wèi)生條件極差,各種資源極度匱乏,她竭盡全力排除各種困難,為傷員解決必須的生活用品和食品,對(duì)他們進(jìn)行認(rèn)真的護(hù)理。僅僅半年左右的時(shí)間傷病員的死亡率就下降到2.2%。每個(gè)夜晚,她都手執(zhí)風(fēng)燈巡視,傷病員們親切地稱她為“提燈女神”。戰(zhàn)爭(zhēng)結(jié)束后,南丁格爾回到英國,被人們推崇為民族英雄。
??????出于對(duì)資料統(tǒng)計(jì)的結(jié)果會(huì)不受人重視的憂慮,她發(fā)展出一種色彩繽紛的圖表形式,讓數(shù)據(jù)能夠更加讓人印象深刻。這種圖表形式有時(shí)也被稱作「南丁格爾的玫瑰」,是一種圓形的直方圖。南丁格爾自己常昵稱這類圖為雞冠花圖, 并且用以表達(dá)軍醫(yī)院季節(jié)性的死亡率,對(duì)象是那些不太能理解傳統(tǒng)統(tǒng)計(jì)報(bào)表的公務(wù)人員。她的方法打動(dòng)了當(dāng)時(shí)的高層,包括軍方人士和維多利亞女王本人,于是醫(yī)事改良的提案才得到支持。

數(shù)據(jù)可視化的目標(biāo)
可視化的終極目標(biāo)是洞悉蘊(yùn)含在數(shù)據(jù)中的現(xiàn)象和規(guī)律,這包括多重含義:發(fā)現(xiàn)、決策、解釋、分析、探索和學(xué)習(xí)。
??????可視化對(duì)數(shù)據(jù)分析至關(guān)重要。它是進(jìn)行數(shù)據(jù)分析的第一個(gè)戰(zhàn)場(chǎng),可以揭示出數(shù)據(jù)內(nèi)在的錯(cuò)綜復(fù)雜的關(guān)系,在這一點(diǎn)上可視化的優(yōu)勢(shì)是其它方法無可比擬?!拔覀儗ふ乙庀氩坏降陌l(fā)現(xiàn),我們挑戰(zhàn)料想之中的觀點(diǎn)。”
—威廉·克利夫蘭(WilliamS. Cleveland) 《VisualizingData》作者


常用的數(shù)據(jù)可視化軟件主要包括以下四種類型,其中Excel、Power BI和Tableau為商業(yè)用、無需編程的繪圖軟件;Origin、Sigmaplot和GraphPad為學(xué)術(shù)用、無需編程的繪圖軟件;R、Python和Matlab為需要編程的軟件;Echarts、plotly和D3.js為實(shí)現(xiàn)web網(wǎng)頁交互可視化的庫。更加詳細(xì)的內(nèi)容可以參考前文:

常用的數(shù)據(jù)可視化軟件主要包括以下四種類型,其中Excel、PowerBI和Tableau為商業(yè)用、無需編程的繪圖軟件;Origin、Sigmaplot和GraphPad為學(xué)術(shù)用、無需編程的繪圖軟件;R、Python和Matlab為需要編程的軟件;Echarts、plotly和D3.js為實(shí)現(xiàn)web網(wǎng)頁交互可視化的庫。

幾乎所有人都知道這款軟件。MicrosoftExcel是微軟公司的辦公軟件Microsoftoffice的組件之一,是由Microsoft為Windows和AppleMacintosh操作系統(tǒng)的電腦而編寫和運(yùn)行的一款試算表軟件。Excel是微軟辦公套裝軟件的一個(gè)重要的組成部分,它可以進(jìn)行各種數(shù)據(jù)的處理、統(tǒng)計(jì)分析和輔助決策操作,廣泛地應(yīng)用于管理、統(tǒng)計(jì)財(cái)經(jīng)、金融等眾多領(lǐng)域。Excel能實(shí)現(xiàn)大部分二維圖表的繪制與基礎(chǔ)的數(shù)據(jù)處理與分析,具體可以參考學(xué)習(xí)《Excel數(shù)據(jù)之美:科學(xué)圖表與商業(yè)圖表繪制》。本書的具體介紹請(qǐng)查閱前文:
《Excel 數(shù)據(jù)之美--科學(xué)圖表與商業(yè)圖表的繪制》上市啦


TableauSoftware致力于幫助人們查看并理解數(shù)據(jù)。Tableau幫助任何人快速分析、可視化并分享信息。超過42,000家客戶通過使用Tableau在辦公室或隨時(shí)隨地快速獲得結(jié)果。數(shù)以萬計(jì)的用戶使用TableauPublic 在博客與網(wǎng)站中分享數(shù)據(jù)。
官方網(wǎng)站:https://www.tableau.com/zh-cn/products/desktop


PowerBI是微軟官方推出的可視化數(shù)據(jù)探索和交互式報(bào)告工具,同時(shí)有PowerQuery、PowerQivot、PowerView、PowerMap四大組件,分別用于數(shù)據(jù)導(dǎo)入、數(shù)據(jù)模型管理、數(shù)據(jù)展現(xiàn)。我們可以方便的從多種數(shù)據(jù)源導(dǎo)入數(shù)據(jù),使用Dax創(chuàng)建計(jì)算字段,創(chuàng)建多種樣式的交互式圖表,并發(fā)布共享。如果你電腦上還沒有Excel2016,大家可以先下載一個(gè)PowerBI桌面版試玩,官網(wǎng)上就有免費(fèi)下載鏈接:https://powerbi.microsoft.com/en-us/desktop/


Python是一種面向?qū)ο蟮慕忉屝陀?jì)算機(jī)程序設(shè)計(jì)語言。Python具有豐富和強(qiáng)大的庫。它常被昵稱為膠水語言,能夠把用其他語言制作的各種模塊(尤其是C/C++)很輕松地聯(lián)結(jié)在一起。Python語言也有一系列的數(shù)據(jù)可視化包(packages),包括Pandas、Matplotlib、Seaborn、ggplot、Bokeh、Pygal等(可參考http://pbpython.com/visualization-tools-1.html)


相較于其他的所有軟件,R的優(yōu)勢(shì)之一在于它是專為數(shù)據(jù)分析而設(shè)計(jì)的。R是用于統(tǒng)計(jì)分析、繪圖的語言和操作環(huán)境。R是屬于GNU系統(tǒng)的一個(gè)自由、免費(fèi)、源代碼開放的軟件,它是一個(gè)用于統(tǒng)計(jì)計(jì)算和統(tǒng)計(jì)制圖的優(yōu)秀工具。R語言有一系列的數(shù)據(jù)可視化包(packages),包括ggplot2、lattice、leaflet、playwith、atticist、iplots、ggvis、ggmaps,以及很流行的ggplot2包(兩本關(guān)于ggplot2的經(jīng)典書籍:《ggplot2Elegant Graphics for Data Analysis》和《R.Graphics.Cookbook》),
ggplot2包的官網(wǎng):http://docs.ggplot2.org/current/;
ggplot2extensions拓展包的官網(wǎng):http://www.ggplot2-exts.org/index.html
另外,R還提供了部分地圖功能,地區(qū)數(shù)據(jù)分析(http://cran.r-project.org/web/views/Spatial.html)提供了有關(guān)地區(qū)分析的綜合性R工具包列表。地理統(tǒng)計(jì)制圖實(shí)用指南(http://spatial-analyst.net/book/download)提供了關(guān)于如何使用R及其他工具分析空間數(shù)據(jù)的可免費(fèi)下載的電子書。


數(shù)據(jù)可視化主要包括六大類:類別比較、數(shù)據(jù)關(guān)系、數(shù)據(jù)分布、局部整體、時(shí)間序列和地理空間,且不同類別間可能有共同重合的圖表類型。其中,數(shù)據(jù)關(guān)系型圖表包括變量間相關(guān)、變化、連接、層次等不同關(guān)系的圖表。但是該手冊(cè)并沒有包囊括所有的圖表類型,還可能存在許多新型的數(shù)據(jù)可視化方法。
雖然本圖表集可以指導(dǎo)讀者選擇圖表類型,但是你的想象力更幫助你確定更有效的數(shù)據(jù)可視化方法。具體可以參考文章:
國內(nèi)首款-數(shù)據(jù)可視化參考手冊(cè):專業(yè)繪圖必備
國外專家Nathan Yau總結(jié)了在數(shù)據(jù)可視化的過程中,一般要經(jīng)歷的四個(gè)過程,如下圖所示(我做了適當(dāng)?shù)男薷模?。不論是商業(yè)圖表還是科學(xué)圖表,要想得到完美的圖表,在這四個(gè)過程中都要反復(fù)進(jìn)行思索。
1.你擁有什么樣的數(shù)據(jù)?(Whatdata do you have?)
2. 你想表達(dá)什么樣的數(shù)據(jù)信息?(What do you want to knowabout your data?)
3. 你會(huì)什么樣的數(shù)據(jù)可視化方法?(What visualizationmethods should you use?)
4.你從圖表中能獲得什么樣的數(shù)據(jù)信息?(What do you see and doesit makes sense?)

類別比較型
類別比較型圖表的數(shù)據(jù)一般包含數(shù)值型和類別型兩種數(shù)據(jù)類型(見圖1-8-2),比如在柱形圖中,X軸為類別型數(shù)據(jù),Y軸為數(shù)值型數(shù)據(jù),采用位置+長度兩種視覺元素。類別型數(shù)據(jù)主要包括柱形圖、條形圖、雷達(dá)圖、坡度圖、詞云圖等,通常用來比較數(shù)據(jù)的規(guī)模。有可能是比較相對(duì)規(guī)模(顯示出哪一個(gè)比較大),有可能是比較絕對(duì)規(guī)模(需要顯示出精確的差異)。柱形圖是用來比較規(guī)模的標(biāo)準(zhǔn)圖表(注意:柱形圖軸線的起始值必須為0)。


數(shù)據(jù)關(guān)系型

數(shù)據(jù)分布型
數(shù)據(jù)分布型圖表主要顯示數(shù)據(jù)集中的數(shù)值及其出現(xiàn)的頻率或者分布規(guī)律,包括統(tǒng)計(jì)直方圖、核密度曲線圖、箱形圖、小提琴圖等。其中,統(tǒng)計(jì)直方圖最為簡(jiǎn)單與常見,又稱質(zhì)量分布圖,由一系列高度不等的縱向條紋或線段表示數(shù)據(jù)分布的情況。?一般用橫軸表示數(shù)據(jù)類型,縱軸表示分布情況。

時(shí)間序列型
時(shí)間序列型圖表強(qiáng)調(diào)數(shù)據(jù)隨時(shí)間的變化規(guī)律或者趨勢(shì),X軸一般為時(shí)序數(shù)據(jù),Y軸為數(shù)值型數(shù)據(jù),包括折線圖、面積圖、雷達(dá)圖、日歷圖、柱形圖等。其中,折線圖是用來顯示時(shí)間序列變化趨勢(shì)的標(biāo)準(zhǔn)方式,非常適用于顯示在相等時(shí)間間隔下數(shù)據(jù)的趨勢(shì)。

局部整體型
局部整體型圖表能顯示出局部組成成分與整體的占比信息,主要包括餅圖、圓環(huán)圖、旭日?qǐng)D、華夫餅圖、矩形樹狀圖等。餅圖是用來呈現(xiàn)部分和整體關(guān)系的常見方式,在餅圖中,每個(gè)扇區(qū)的弧長(以及圓心角和面積)大小為其所表示的數(shù)量的比例。但要注意的是,這類圖很難去精確比較不同組成的大小。

地理空間型
地理空間型圖表主要展示數(shù)據(jù)中的精確位置和地理分布規(guī)律,包括等值區(qū)間地圖、帶氣泡的地圖、帶散點(diǎn)的地圖等。地圖用地理坐標(biāo)系可以映射位置數(shù)據(jù)。位置數(shù)據(jù)的形式有許多種,包括經(jīng)度、緯度、郵編等,但通常都是用緯度和經(jīng)度來描述的。
《地圖管理?xiàng)l例》第十五條規(guī)定:“國家實(shí)行地圖審核制度。向社會(huì)公開的地圖,應(yīng)當(dāng)報(bào)送有審核權(quán)的測(cè)繪地理信息行政主管部門審核。但是,景區(qū)圖、街區(qū)圖、地鐵線路圖等內(nèi)容簡(jiǎn)單的地圖除外。”

R語言數(shù)據(jù)可視化方法

如需聯(lián)系EasyShu團(tuán)隊(duì)
請(qǐng)加微信:EasyCharts
微信公眾號(hào)【EasyShu】博文代碼集合地址
https://github.com/Easy-Shu/EasyShu-WeChat
數(shù)據(jù)可視化之美系列教程
《Python數(shù)據(jù)可視化之美》即將在本月出版,敬請(qǐng)期待。



Github
https://github.com/Easy-Shu/Beautiful-Visualization-with-R
百度云下載
https://pan.baidu.com/s/1ZBKQCXW9TDnpM_GKRolZ0w?
提取碼:jpou
