統(tǒng)計(jì)學(xué)派 18 種經(jīng)典數(shù)據(jù)分析方法!
來(lái)源:Python數(shù)據(jù)科學(xué) 本文約11000字,建議閱讀15分鐘
本文為你列舉了統(tǒng)計(jì)學(xué)派中18種經(jīng)典的數(shù)據(jù)分析法。
Part1 描述統(tǒng)計(jì)
Part2 推論統(tǒng)計(jì)
Part3 正態(tài)性檢驗(yàn)
Part4 假設(shè)檢驗(yàn)
參數(shù)檢驗(yàn)
-
單樣本t檢驗(yàn):推斷該樣本來(lái)自的總體均數(shù)μ與已知的某一總體均數(shù)μ0 (常為理論值或標(biāo)準(zhǔn)值)有無(wú)差別; -
配對(duì)樣本t檢驗(yàn):當(dāng)總體均數(shù)未知時(shí),且兩個(gè)樣本可以配對(duì),同對(duì)中的兩者在可能會(huì)影響處理效果的各種條件方面扱為相似; -
兩獨(dú)立樣本t檢驗(yàn):無(wú)法找到在各方面極為相似的兩樣本作配對(duì)比較時(shí)使用。
非參數(shù)檢驗(yàn)
-
雖然是連續(xù)數(shù)據(jù),但總體分布形態(tài)未知或者非正態(tài); -
體分布雖然正態(tài),數(shù)據(jù)也是連續(xù)類型,但樣本容量極小,如10以下。
Part5 信度分析
方法
分類
Part6 列聯(lián)表分析
簡(jiǎn)介
需要注意
Part7 相關(guān)分析
研究現(xiàn)象之間是否存在某種依存關(guān)系,對(duì)具體有依存關(guān)系的現(xiàn)象探討相關(guān)方向及相關(guān)程度。
單相關(guān):兩個(gè)因素之間的相關(guān)關(guān)系叫單相關(guān),即研究時(shí)只涉及一個(gè)自變量和一個(gè)因變量;
復(fù)相關(guān):三個(gè)或三個(gè)以上因素的相關(guān)關(guān)系叫復(fù)相關(guān),即研究時(shí)涉及兩個(gè)或兩個(gè)以上的自變量和因變量相關(guān);
偏相關(guān):在某一現(xiàn)象與多種現(xiàn)象相關(guān)的場(chǎng)合,當(dāng)假定其他變量不變時(shí),其中兩個(gè)變量之間的相關(guān)關(guān)系稱為偏相關(guān)。
Part8 方差分析
分類
Part9 回歸分析
分類
-
殘差檢驗(yàn):觀測(cè)值與估計(jì)值的差值要艱從正態(tài)分布。 -
強(qiáng)影響點(diǎn)判斷:尋找方式一般分為標(biāo)準(zhǔn)誤差法、Mahalanobis距離法。 -
共線性診斷。 -
診斷方式:容忍度、方差擴(kuò)大因子法(又稱膨脹系數(shù)VIF)、特征根判定法、條件指針CI、方差比例。 -
處理方法:增加樣本容量或選取另外的回歸如主成分回歸、嶺回歸等。 -
變呈篩選方式:選擇最優(yōu)回歸方程的變里篩選法包括全橫型法(CP法)、逐步回歸法,向前引入法和向后剔除法。 -
橫型診斷方法。
Part10 聚類分析
定義
Part11 判別分析
與聚類分析區(qū)別
-
聚類分析可以對(duì)樣本逬行分類,也可以對(duì)指標(biāo)進(jìn)行分類;而判別分析只能對(duì)樣本。 -
聚類分析事先不知道事物的類別,也不知道分幾類;而判別分析必須事先知道事物的類別,也知道分幾類。 -
聚類分析不需要分類的歷史資料,而直接對(duì)樣本進(jìn)行分類;而判別分析需要分類歷史資料去建立判別函數(shù),然后才能對(duì)樣本進(jìn)行分類。
分類
-
Fisher判別分析法 以距離為判別準(zhǔn)則來(lái)分類,即樣本與哪個(gè)類的距離最短就分到哪一類,適用于兩類判別; 以概率為判別準(zhǔn)則來(lái)分類,即樣本屬于哪一類的概率最大就分到哪一類,適用于多類判別。 -
BAYES判別分析法 BAYES判別分析法比FISHER判別分析法更加完善和先進(jìn),它不僅能解決多類判別分析,而且分析時(shí)考慮了數(shù)據(jù)的分布狀態(tài),所以一般較多使用;
Part12 主成分分析
原理
缺點(diǎn)
-
在主成分分析中,我們首先應(yīng)保證所提取的前幾個(gè)主成分的累計(jì)貢獻(xiàn)率達(dá)到一個(gè)較高的水平(即變量降維后的信息量須保持在一個(gè)較高水平上),其次對(duì)這些被提取的主成分必須都能夠給出符合實(shí)際背景和意義的解釋(否則主成分將空有信息量而無(wú)實(shí)際含義)。 -
主成分的解釋其含義一般多少帶有點(diǎn)模糊性,不像原始變量的含義那么清楚、確切,這是變量降維過(guò)程中不得不付出的代價(jià)。因此,提取的主成分個(gè)數(shù)m通常應(yīng)明顯小于原始變量個(gè)數(shù)p(除非p本身較小),否則維數(shù)降低的“利”可能抵不過(guò)主成分含義不如原始變量清楚的“弊”。
Part13 因子分析
與主成分分析比較
-
相同:都能夠起到治理多個(gè)原始變量?jī)?nèi)在結(jié)構(gòu)關(guān)系的作用。 -
不同:主成分分析重在綜合原始變適的信息.而因子分析重在解釋原始變量間的關(guān)系,是比主成分分析更深入的一種多元統(tǒng)計(jì)方法。
用途
-
減少分析變量個(gè)數(shù)。 -
通過(guò)對(duì)變量間相關(guān)關(guān)系探測(cè),將原始變量進(jìn)行分類。
Part14 時(shí)間序列分析
主要方法
時(shí)間序列預(yù)測(cè)法的應(yīng)用
-
系統(tǒng)描述:根據(jù)對(duì)系統(tǒng)進(jìn)行觀測(cè)得到的時(shí)間序列數(shù)據(jù),用曲線擬合方法對(duì)系統(tǒng)進(jìn)行客觀的描述;
-
系統(tǒng)分析:當(dāng)觀測(cè)值取自兩個(gè)以上變量時(shí),可用一個(gè)時(shí)間序列中的變化去說(shuō)明另一個(gè)時(shí)間序列中的變化,從而深入了解給定時(shí)間序列產(chǎn)生的機(jī)理;
-
預(yù)測(cè)未來(lái):一般用ARMA模型擬合時(shí)間序列,預(yù)測(cè)該時(shí)間序列未來(lái)值;
-
決策和控制:根據(jù)時(shí)間序列模型可調(diào)整輸入變量使系統(tǒng)發(fā)展過(guò)程保持在目標(biāo)值上,即預(yù)測(cè)到過(guò)程要偏離目標(biāo)時(shí)便可進(jìn)行必要的控制。
特點(diǎn)
Part15 生存分析
包含內(nèi)容。
-
描述生存過(guò)程,即研究生存時(shí)間的分布規(guī)律。 -
比較生存過(guò)程,即研究?jī)山M或多組生存時(shí)間的分布規(guī)律,并進(jìn)行比較。 -
分析危險(xiǎn)因素,即研究危險(xiǎn)因素對(duì)生存過(guò)程的影響。 -
建立數(shù)學(xué)模型,即將生存時(shí)間與相關(guān)危險(xiǎn)因素的依存關(guān)系用一個(gè)數(shù)學(xué)式子表示出來(lái)。
方法
-
乘積極限法(PL法)。 -
壽命表法(LT法)。 -
半?yún)?shù)橫型回歸分析:在特定的假設(shè)之下,建立生存時(shí)間隨多個(gè)危險(xiǎn)因素變化的回歸方程,這種方法的代表是Cox比例風(fēng)險(xiǎn)回歸分析法。 -
參數(shù)模型回歸分析:已知生存時(shí)間服從特定的參數(shù)橫型時(shí),擬合相應(yīng)的參數(shù)模型,更準(zhǔn)確地分析確定變量之間的變化規(guī)律。
Part16 典型相關(guān)分析
Part17 R0C分析
用途
Part18 其他分析方法
決策樹(shù)分析與隨機(jī)森林
來(lái)源:
https://zhuanlan.zhihu.com/p/39214084utm_source=wechat_session&utm_medium=social&utm_oi=989900375968858112
