統(tǒng)計學(xué)小抄:常用術(shù)語和基本概念小結(jié)
大家好,我是陳銳。
今天分享內(nèi)容來源DeepHub IMBA,內(nèi)容僅供參考學(xué)習(xí)分享。
作者:Anjali Dharmik
統(tǒng)計學(xué)是涉及數(shù)據(jù)的收集,組織,分析,解釋和呈現(xiàn)的學(xué)科。

統(tǒng)計的類型
描述性統(tǒng)計
描述性統(tǒng)計是以數(shù)字和圖表的形式來理解、分析和總結(jié)數(shù)據(jù)。對不同類型的數(shù)據(jù)(數(shù)值的和分類的)使用不同的圖形和圖表來分析數(shù)據(jù),如條形圖、餅圖、散點圖、直方圖等。所有的解釋和可視化都是描述性統(tǒng)計的一部分。重要的是要記住,描述性統(tǒng)計可以在樣本和總體數(shù)據(jù)上執(zhí)行,但并不會使用總體數(shù)據(jù)。
推論統(tǒng)計
從總體數(shù)據(jù)中提取一些數(shù)據(jù)樣本,然后從這些數(shù)據(jù)樣本中,推斷一些東西(結(jié)論)。數(shù)據(jù)樣本被用作對該總圖作出結(jié)論的基礎(chǔ)。這可以通過各種技術(shù)來實現(xiàn),比如數(shù)據(jù)可視化和操作。
數(shù)據(jù)的類型
1、數(shù)字數(shù)字
數(shù)字數(shù)據(jù)就是指數(shù)字或數(shù)值型的數(shù)據(jù)。數(shù)值數(shù)據(jù)又分為離散和連續(xù)兩類數(shù)值變量。
I) 離散數(shù)值變量——離散變量的概念是指具有有限取值范圍的變量,例如教室中的排名、系中教授的數(shù)量等。
II) 連續(xù)數(shù)值變量——連續(xù)變量的值可以是無限的,可能是范圍內(nèi)的任意數(shù)值,例如員工的工資。
2、分類數(shù)據(jù)-
分類數(shù)據(jù)類型是數(shù)據(jù)的字符類型表示,例如名稱和顏色。一般來說,這些也有兩種類型。
I) 序數(shù)變量—序數(shù)分類變量,其值可以在一系列值中排序,例如學(xué)生的年級(a、B、C),或高、中、低。
II) 名義變量——這些變量沒有排名,只是包含名稱或一些類別,如顏色名稱、主題等。
集中趨勢量數(shù)的度量
集中趨勢的度量給出了數(shù)據(jù)中心的概念,即數(shù)據(jù)的中心是什么。其中有幾個術(shù)語,如平均值、中位數(shù)和眾數(shù)。
一個特定數(shù)值變量的平均值是其中所有數(shù)值的平均值。當數(shù)據(jù)包含異常值時,不建議找出平均值并將其用于任何類型的操作,因為單個異常值會嚴重影響平均值。
中值是對所有數(shù)字排序后的中心值。如果總數(shù)是偶數(shù),那么它就是中心2值的平均值。它不依賴或影響異常值,除非一半的數(shù)據(jù)是異常值(這樣的話就不是異常值了)。
眾數(shù)是觀察結(jié)果中出現(xiàn)最多的數(shù)值。Numpy沒有提供查找眾數(shù)的函數(shù),但是Scipy有。
在使用的時候,不要只使用他們?nèi)齻€的一個,可以試著全部使用這三種方法,這樣就可以理解數(shù)據(jù)的本質(zhì)。
數(shù)據(jù)分布度的度量
分布度度量描述了特定變量(數(shù)據(jù)項)的觀察值集的相似性或變化程度。分布度的度量包括范圍,四分位數(shù)和四分位數(shù)范圍,方差和標準差。
1、范圍
通過比較數(shù)據(jù)的最大和最小值(最大值)來定義范圍。
2、四分位數(shù)
四分位數(shù)是按數(shù)字列表分為四分之一的值。找到四分位數(shù)的步驟是。
按順序排列數(shù)字
將列表切成4個相等的部分
4分的切分點就是4分位數(shù)的值
可以通過描繪25、50、75和100的百分位數(shù)來找到4個四分位數(shù)。其中Q2也被稱為中位數(shù)。
它通過描述與平均值的絕對偏差來描述數(shù)據(jù)的變化,也稱為平均絕對偏差(MAD)。
3、四分位數(shù)范圍(IQR)
四分位間范圍(IQR)是前75個和后部25個百分位數(shù)之間分散體的量度。它經(jīng)常出現(xiàn)在異常值檢測和處理的情況下。
4、平均絕對偏差
它通過描述與平均值的絕對偏差來描述數(shù)據(jù)的變化,也稱為平均絕對偏差(MAD)。簡單地說,它告訴集合中每個點與平均絕對距離。
5、差方
方差衡量的是數(shù)據(jù)點離均值的距離。要計算方差,需要找出每個數(shù)據(jù)點與平均值的差值,然后平方,求和,然后取平均值??梢灾苯佑胣umpy計算方差。
方差的問題在于:由于是平方,它與原始數(shù)據(jù)不在同一個計量單位內(nèi)。因為它不是直觀的,所以大多數(shù)人更喜歡標準差。
6、標準差
方差的平方根是標準差,因為我們對原始單位平方,所以我們再次得到相同測量的標準差。使用Numpy,可以直接計算這個。
正態(tài)分布
正態(tài)分布是鐘形曲線形式的分布,機器學(xué)習(xí)中的大多數(shù)數(shù)據(jù)集遵循正態(tài)分布,如果不是正態(tài)分布,一般會嘗試將其轉(zhuǎn)換為正態(tài)分布,許多機器學(xué)習(xí)算法在此分布上會有很好的效果,因為在現(xiàn)實中, 世界情景也許多用例也遵循此分配。
如果任何數(shù)據(jù)遵循正態(tài)分布或高斯分布,那么它也遵循三個條件,稱為經(jīng)驗公式
P[mean - std_dev <= mean + std_dev] = 68%
P[mean - 2*std_dev <= mean + 2*std_dev] = 95%
P[mean - 3*std_dev <= mean + 3*std_dev] = 99.7%
在進行探索性數(shù)據(jù)分析的同時也可以將任何變量分布轉(zhuǎn)化為標準正態(tài)分布。
偏態(tài)
偏度是對分布對稱性的一種度量,可以用直方圖(KDE)來繪制,它在數(shù)據(jù)眾數(shù)方面有一個高峰。偏度一般分為左偏數(shù)據(jù)和右偏數(shù)據(jù)兩種。有些人也把它理解為三種類型,第三種是對稱分布,即正態(tài)分布。
一、數(shù)據(jù)右偏(正偏分布)
右偏態(tài)分布是指數(shù)據(jù)有一個向右的長尾(正軸)。右偏的一個經(jīng)典例子是財富分配,很少人擁有很高的財富大多數(shù)人處于中等范圍。
二、數(shù)據(jù)左偏(負偏分布)
左偏態(tài)分布是指數(shù)據(jù)有一個長尾朝向左側(cè)(負軸)。一個例子可以是學(xué)生的成績,將會有更少的學(xué)生得到更少的成績,最大的學(xué)生將會在及格類別。

中心極限定理
中心極限定理:分析任意總體的樣本數(shù)據(jù)做一些統(tǒng)計測量后,標準差的均值和樣本均值會近似相等。這只是中心極限定理。
概率密度函數(shù)(PDF)
如果你知道直方圖,然后你把數(shù)據(jù)進行分箱,就可以對數(shù)據(jù)進行可視化的分析。但是如果我們想對數(shù)值數(shù)據(jù)進行多類分析,那么很難使用直方圖進行操作。這是就需要使用概率密度函數(shù)。概率密度函數(shù)是僅使用KDE(內(nèi)核密度估計)在直方圖內(nèi)繪制的線。

在上面的圖中,編寫3個區(qū)分分類3個類的條件該怎么做?使用直方圖和PDF可以輕松的看到區(qū)別。

從上方直方圖中可以看出,如果值小于2,則是setosa。如果大于2且小于4.5,那么它是versicolor。從5到7都是virginica。但是4.5之后的重疊區(qū)域會對判斷進行干擾,在這里PDF可以為我們提供更多的理論支持。
累積分布函數(shù)(CDF)
CDF可以告訴我們有多少百分比的數(shù)據(jù)小于某個特定的數(shù)字。找到CDF的過程是,將在指定點之前的所有的直方圖相加。另一種方法是使用微積分,使用曲線下面積,找到想要CDF的點,畫出直線,然后求出內(nèi)部面積。可以對PDF進行積分得到CDF,對CDF求導(dǎo)得到PDF。
如何計算PDF和CDF
我們將計算setosa的PDF和CDF。我們將花瓣長度轉(zhuǎn)換為10個分箱,并提取每個箱的樣本數(shù)和邊緣值,這些邊緣表示容器的起點和終點。為了計算PDF,我們將每個頻率計數(shù)值除以總和,我們得到概率密度函數(shù),找到PDF,就可以繼續(xù)計算得到CDF。
ounts, bin_edges = np.histogram(iris_setosa[‘PL’], bins=10)
pdf = counts / sum(counts)
cdf = np.cumsum(pdf)
print(pdf)
print(cdf)
謝謝大家觀看,如有幫助,來個喜歡或者關(guān)注吧!
本文僅供學(xué)習(xí)參考,有任何疑問及建議,掃描以下公眾號二維碼添加交流:
更多學(xué)習(xí)內(nèi)容,僅在知識星球發(fā)布:
