統(tǒng)計(jì)學(xué)中數(shù)據(jù)分析方法匯總!
來(lái)源:數(shù)據(jù)派THU,編輯:數(shù)據(jù)Seminar
本文約10500字,建議閱讀15+分鐘 統(tǒng)計(jì)學(xué)中常用的數(shù)據(jù)分析方法匯總。

Part1描述統(tǒng)計(jì)
Part2推論統(tǒng)計(jì)
Part3正態(tài)性檢驗(yàn)
Part4假設(shè)檢驗(yàn)
參數(shù)檢驗(yàn)
U檢驗(yàn) :使用條件:當(dāng)樣本含量n較大時(shí),樣本值符合正態(tài)分布 T檢驗(yàn):使用條件:當(dāng)樣本含量n較小時(shí),樣本值符合正態(tài)分布 單樣本t檢驗(yàn):推斷該樣本來(lái)自的總體均數(shù)μ與已知的某一總體均數(shù)μ0 (常為理論值或標(biāo)準(zhǔn)值)有無(wú)差別; 配對(duì)樣本t檢驗(yàn):當(dāng)總體均數(shù)未知時(shí),且兩個(gè)樣本可以配對(duì),同對(duì)中的兩者在可能會(huì)影響處理效果的各種條件方面扱為相似; 兩獨(dú)立樣本t檢驗(yàn):無(wú)法找到在各方面極為相似的兩樣本作配對(duì)比較時(shí)使用。
非參數(shù)檢驗(yàn)
雖然是連續(xù)數(shù)據(jù),但總體分布形態(tài)未知或者非正態(tài); 體分布雖然正態(tài),數(shù)據(jù)也是連續(xù)類型,但樣本容量極小,如10以下;
Part5信度分析
方法
重測(cè)信度法:這一方法是用同樣的問(wèn)卷對(duì)同一組被調(diào)查者間隔一定時(shí)間重復(fù)施測(cè),計(jì)算兩次施測(cè)結(jié)果的相關(guān)系數(shù)。顯然,重測(cè)信度屬于穩(wěn)定系數(shù)。重測(cè)信度法特別適用于事實(shí)式問(wèn)卷,如性別、出生年月等在兩次施測(cè)中不應(yīng)有任何差異,大多數(shù)被調(diào)查者的興趣、愛(ài)好、習(xí)慣等在短時(shí)間內(nèi)也不會(huì)有十分明顯的變化。如果沒(méi)有突發(fā)事件導(dǎo)致被調(diào)查者的態(tài)度、意見(jiàn)突變,這種方法也適用于態(tài)度、意見(jiàn)式問(wèn)卷。由于重測(cè)信度法需要對(duì)同一樣本試測(cè)兩次,被調(diào)查者容易受到各種事件、活動(dòng)和他人的影響,而且間隔時(shí)間長(zhǎng)短也有一定限制,因此在實(shí)施中有一定困難。 復(fù)本信度法:讓同一組被調(diào)查者一次填答兩份問(wèn)卷復(fù)本,計(jì)算兩個(gè)復(fù)本的相關(guān)系數(shù)。復(fù)本信度屬于等值系數(shù)。復(fù)本信度法要求兩個(gè)復(fù)本除表述方式不同外,在內(nèi)容、格式、難度和對(duì)應(yīng)題項(xiàng)的提問(wèn)方向等方面要完全一致,而在實(shí)際調(diào)查中,很難使調(diào)查問(wèn)卷達(dá)到這種要求,因此采用這種方法者較少。 折半信度法:折半信度法是將調(diào)查項(xiàng)目分為兩半,計(jì)算兩半得分的相關(guān)系數(shù),進(jìn)而估計(jì)整個(gè)量表的信度。折半信度屬于內(nèi)在一致性系數(shù),測(cè)量的是兩半題項(xiàng)得分間的一致性。這種方法一般不適用于事實(shí)式問(wèn)卷(如年齡與性別無(wú)法相比),常用于態(tài)度、意見(jiàn)式問(wèn)卷的信度分析。在問(wèn)卷調(diào)查中,態(tài)度測(cè)量最常見(jiàn)的形式是5級(jí)李克特(Likert)量表(李克特量表(Likert scale)是屬評(píng)分加總式量表最常用的一種,屬同一構(gòu)念的這些項(xiàng)目是用加總方式來(lái)計(jì)分,單獨(dú)或個(gè)別項(xiàng)目是無(wú)意義的。它是由美國(guó)社會(huì)心理學(xué)家李克特于1932年在原有的總加量表基礎(chǔ)上改進(jìn)而成的。該量表由一組陳述組成,每一陳述有"非常同意"、"同意"、"不一定"、"不同意"、"非常不同意"五種回答,分別記為5、4、3、2、1,每個(gè)被調(diào)查者的態(tài)度總分就是他對(duì)各道題的回答所得分?jǐn)?shù)的加總,這一總分可說(shuō)明他的態(tài)度強(qiáng)弱或他在這一量表上的不同狀態(tài)。)。進(jìn)行折半信度分析時(shí),如果量表中含有反意題項(xiàng),應(yīng)先將反意題項(xiàng)的得分作逆向處理,以保證各題項(xiàng)得分方向的一致性,然后將全部題項(xiàng)按奇偶或前后分為盡可能相等的兩半,計(jì)算二者的相關(guān)系數(shù)(rhh,即半個(gè)量表的信度系數(shù)),最后用斯皮爾曼-布朗(Spearman-Brown)公式:求出整個(gè)量表的信度系數(shù)(ru)。 α信度系數(shù)法:Cronbach α信度系數(shù)是目前最常用的信度系數(shù),其公式為: α=(k/(k-1))*(1-(∑Si^2)/ST^2) 其中,K為量表中題項(xiàng)的總數(shù), Si^2為第i題得分的題內(nèi)方差, ST^2為全部題項(xiàng)總得分的方差。從公式中可以看出,α系數(shù)評(píng)價(jià)的是量表中各題項(xiàng)得分間的一致性,屬于內(nèi)在一致性系數(shù)。這種方法適用于態(tài)度、意見(jiàn)式問(wèn)卷(量表)的信度分析。 總量表的信度系數(shù)最好在0.8以上,0.7-0.8之間可以接受;分量表的信度系數(shù)最好在0.7以上,0.6-0.7還可以接受。Cronbach 's alpha系數(shù)如果在0.6以下就要考慮重新編問(wèn)卷。 檢査測(cè)量的可信度,例如調(diào)查問(wèn)卷的真實(shí)性。
分類
外在信度:不同時(shí)間測(cè)量時(shí)量表的一致性程度,常用方法重測(cè)信度。 內(nèi)在信度;每個(gè)量表是否測(cè)量到單一的概念,同時(shí)組成兩表的內(nèi)在體項(xiàng)一致性如何,常用方法分半信度。
Part6列聯(lián)表分析
簡(jiǎn)介
需要注意
Part7相關(guān)分析
單相關(guān):兩個(gè)因素之間的相關(guān)關(guān)系叫單相關(guān),即研究時(shí)只涉及一個(gè)自變量和一個(gè)因變量; 復(fù)相關(guān):三個(gè)或三個(gè)以上因素的相關(guān)關(guān)系叫復(fù)相關(guān),即研究時(shí)涉及兩個(gè)或兩個(gè)以上的自變量和因變量相關(guān); 偏相關(guān):在某一現(xiàn)象與多種現(xiàn)象相關(guān)的場(chǎng)合,當(dāng)假定其他變量不變時(shí),其中兩個(gè)變量之間的相關(guān)關(guān)系稱為偏相關(guān)。
Part8方差分析
分類
單因素方差分析:一項(xiàng)試驗(yàn)只有一個(gè)影響因素,或者存在多個(gè)影響因素時(shí),只分析一個(gè)因素與響應(yīng)變量的關(guān)系 多因素有交互方差分析:一頊實(shí)驗(yàn)有多個(gè)影響因素,分析多個(gè)影響因素與響應(yīng)變量的關(guān)系,同時(shí)考慮多個(gè)影響因素之間的關(guān)系 多因素?zé)o交互方差分析:分析多個(gè)影響因素與響應(yīng)變量的關(guān)系,但是影響因素之間沒(méi)有影響關(guān)系或忽略影響關(guān)系 協(xié)方差分祈:傳統(tǒng)的方差分析存在明顯的弊端,無(wú)法控制分析中存在的某些隨機(jī)因素,使之影響了分祈結(jié)果的準(zhǔn)確度。協(xié)方差分析主要是在排除了協(xié)變量的影響后再對(duì)修正后的主效應(yīng)進(jìn)行方差分析,是將線性回歸與方差分析結(jié)合起來(lái)的一種分析方法。
Part9回歸分析
分類
一元線性回歸分析:只有一個(gè)自變量X與因變量Y有關(guān),X與Y都必須是連續(xù)型變量,因變量y或其殘差必須服從正態(tài)分布。 多元線性回歸分析 使用條件:分析多個(gè)自變量與因變量Y的關(guān)系,X與Y都必須是連續(xù)型變量,因變量y或其殘差必須服從正態(tài)分布 。 殘差檢驗(yàn):觀測(cè)值與估計(jì)值的差值要艱從正態(tài)分布
強(qiáng)影響點(diǎn)判斷:尋找方式一般分為標(biāo)準(zhǔn)誤差法、Mahalanobis距離法
共線性診斷
診斷方式:容忍度、方差擴(kuò)大因子法(又稱膨脹系數(shù)VIF)、特征根判定法、條件指針CI、方差比例
處理方法:增加樣本容量或選取另外的回歸如主成分回歸、嶺回歸等
變呈篩選方式:選擇最優(yōu)回歸方程的變里篩選法包括全橫型法(CP法)、逐步回歸法,向前引入法和向后剔除法
橫型診斷方法 Logistic回歸分析 線性回歸模型要求因變量是連續(xù)的正態(tài)分布變里,且自變量和因變量呈線性關(guān)系,而Logistic回歸模型對(duì)因變量的分布沒(méi)有要求,一般用于因變量是離散時(shí)的情況 分類:Logistic回歸模型有條件與非條件之分,條件Logistic回歸模型和非條件Logistic回歸模型的區(qū)別在于參數(shù)的估計(jì)是否用到了條件概率。 其他回歸方法 非線性回歸、有序回歸、Probit回歸、加權(quán)回歸等
Part10聚類分析
定義
性質(zhì)分類 Q型聚類分析:對(duì)樣本進(jìn)行分類處理,又稱樣本聚類分祈使用距離系數(shù)作為統(tǒng)計(jì)量衡量相似度,如歐式距離、極端距離、絕對(duì)距離等 R型聚類分析:對(duì)指標(biāo)進(jìn)行分類處理,又稱指標(biāo)聚類分析使用相似系數(shù)作為統(tǒng)計(jì)量衡量相似度,相關(guān)系數(shù)、列聯(lián)系數(shù)等 方法分類 系統(tǒng)聚類法:適用于小樣本的樣本聚類或指標(biāo)聚類,一般用系統(tǒng)聚類法來(lái)聚類指標(biāo),又稱分層聚類 逐步聚類法:適用于大樣本的樣本聚類 其他聚類法:兩步聚類、K均值聚類等
Part11判別分析
與聚類分析區(qū)別
聚類分析可以對(duì)樣本逬行分類,也可以對(duì)指標(biāo)進(jìn)行分類;而判別分析只能對(duì)樣本 聚類分析事先不知道事物的類別,也不知道分幾類;而判別分析必須事先知道事物的類別,也知道分幾類 聚類分析不需要分類的歷史資料,而直接對(duì)樣本進(jìn)行分類;而判別分析需要分類歷史資料去建立判別函數(shù),然后才能對(duì)樣本進(jìn)行分類
分類
Fisher判別分析法 以距離為判別準(zhǔn)則來(lái)分類,即樣本與哪個(gè)類的距離最短就分到哪一類,適用于兩類判別; 以概率為判別準(zhǔn)則來(lái)分類,即樣本屬于哪一類的概率最大就分到哪一類,適用于多類判別。 BAYES判別分析法 BAYES判別分析法比FISHER判別分析法更加完善和先進(jìn),它不僅能解決多類判別分析,而且分析時(shí)考慮了數(shù)據(jù)的分布狀態(tài),所以一般較多使用;
Part12主成分分析
原理
缺點(diǎn)
在主成分分析中,我們首先應(yīng)保證所提取的前幾個(gè)主成分的累計(jì)貢獻(xiàn)率達(dá)到一個(gè)較高的水平(即變量降維后的信息量須保持在一個(gè)較高水平上),其次對(duì)這些被提取的主成分必須都能夠給出符合實(shí)際背景和意義的解釋(否則主成分將空有信息量而無(wú)實(shí)際含義)。 主成分的解釋其含義一般多少帶有點(diǎn)模糊性,不像原始變量的含義那么清楚、確切,這是變量降維過(guò)程中不得不付出的代價(jià)。因此,提取的主成分個(gè)數(shù)m通常應(yīng)明顯小于原始變量個(gè)數(shù)p(除非p本身較小),否則維數(shù)降低的“利”可能抵不過(guò)主成分含義不如原始變量清楚的“弊”。
Part13因子分析
與主成分分析比較
相同:都能夠起到治理多個(gè)原始變量?jī)?nèi)在結(jié)構(gòu)關(guān)系的作用 不同:主成分分析重在綜合原始變適的信息.而因子分析重在解釋原始變量間的關(guān)系,是比主成分分析更深入的一種多元統(tǒng)計(jì)方法
用途
減少分析變量個(gè)數(shù) 通過(guò)對(duì)變量間相關(guān)關(guān)系探測(cè),將原始變量進(jìn)行分類
Part14時(shí)間序列分析
主要方法
時(shí)間序列預(yù)測(cè)法的應(yīng)用
系統(tǒng)描述:根據(jù)對(duì)系統(tǒng)進(jìn)行觀測(cè)得到的時(shí)間序列數(shù)據(jù),用曲線擬合方法對(duì)系統(tǒng)進(jìn)行客觀的描述; 系統(tǒng)分析:當(dāng)觀測(cè)值取自兩個(gè)以上變量時(shí),可用一個(gè)時(shí)間序列中的變化去說(shuō)明另一個(gè)時(shí)間序列中的變化,從而深入了解給定時(shí)間序列產(chǎn)生的機(jī)理; 預(yù)測(cè)未來(lái):一般用ARMA模型擬合時(shí)間序列,預(yù)測(cè)該時(shí)間序列未來(lái)值; 決策和控制:根據(jù)時(shí)間序列模型可調(diào)整輸入變量使系統(tǒng)發(fā)展過(guò)程保持在目標(biāo)值上,即預(yù)測(cè)到過(guò)程要偏離目標(biāo)時(shí)便可進(jìn)行必要的控制。
特點(diǎn)
時(shí)間序列分析預(yù)測(cè)法是根據(jù)市場(chǎng)過(guò)去的變化趨勢(shì)預(yù)測(cè)未來(lái)的發(fā)展,它的前提是假定事物的過(guò)去會(huì)同樣延續(xù)到未來(lái)。事物的現(xiàn)實(shí)是歷史發(fā)展的結(jié)果,而事物的未來(lái)又是現(xiàn)實(shí)的延伸,事物的過(guò)去和未來(lái)是有聯(lián)系的。市場(chǎng)預(yù)測(cè)的時(shí)間序列分析法,正是根據(jù)客觀事物發(fā)展的這種連續(xù)規(guī)律性,運(yùn)用過(guò)去的歷史數(shù)據(jù),通過(guò)統(tǒng)計(jì)分析,進(jìn)一步推測(cè)市場(chǎng)未來(lái)的發(fā)展趨勢(shì)。市場(chǎng)預(yù)測(cè)中,事物的過(guò)去會(huì)同樣延續(xù)到未來(lái),其意思是說(shuō),市場(chǎng)未來(lái)不會(huì)發(fā)生突然跳躍式變化,而是漸進(jìn)變化的。 時(shí)間序列分析預(yù)測(cè)法的哲學(xué)依據(jù),是唯物辯證法中的基本觀點(diǎn),即認(rèn)為一切事物都是發(fā)展變化的,事物的發(fā)展變化在時(shí)間上具有連續(xù)性,市場(chǎng)現(xiàn)象也是這樣。市場(chǎng)現(xiàn)象過(guò)去和現(xiàn)在的發(fā)展變化規(guī)律和發(fā)展水平,會(huì)影響到市場(chǎng)現(xiàn)象未來(lái)的發(fā)展變化規(guī)律和規(guī)模水平;市場(chǎng)現(xiàn)象未來(lái)的變化規(guī)律和水平,是市場(chǎng)現(xiàn)象過(guò)去和現(xiàn)在變化規(guī)律和發(fā)展水平的結(jié)果。 需要指出,由于事物的發(fā)展不僅有連續(xù)性的特點(diǎn),而且又是復(fù)雜多樣的。因此,在應(yīng)用時(shí)間序列分析法進(jìn)行市場(chǎng)預(yù)測(cè)時(shí)應(yīng)注意市場(chǎng)現(xiàn)象未來(lái)發(fā)展變化規(guī)律和發(fā)展水平,不一定與其歷史和現(xiàn)在的發(fā)展變化規(guī)律完全一致。隨著市場(chǎng)現(xiàn)象的發(fā)展,它還會(huì)出現(xiàn)一些新的特點(diǎn)。因此,在時(shí)間序列分析預(yù)測(cè)中,決不能機(jī)械地按市場(chǎng)現(xiàn)象過(guò)去和現(xiàn)在的規(guī)律向外延伸。必須要研究分析市場(chǎng)現(xiàn)象變化的新特點(diǎn),新表現(xiàn),并且將這些新特點(diǎn)和新表現(xiàn)充分考慮在預(yù)測(cè)值內(nèi)。這樣才能對(duì)市場(chǎng)現(xiàn)象做出既延續(xù)其歷史變化規(guī)律,又符合其現(xiàn)實(shí)表現(xiàn)的可靠的預(yù)測(cè)結(jié)果。 時(shí)間序列分析預(yù)測(cè)法突出了時(shí)間因素在預(yù)測(cè)中的作用,暫不考慮外界具體因素的影響。時(shí)間序列在時(shí)間序列分析預(yù)測(cè)法處于核心位置,沒(méi)有時(shí)間序列,就沒(méi)有這一方法的存在。雖然,預(yù)測(cè)對(duì)象的發(fā)展變化是受很多因素影響的。但是,運(yùn)用時(shí)間序列分析進(jìn)行量的預(yù)測(cè),實(shí)際上將所有的影響因素歸結(jié)到時(shí)間這一因素上,只承認(rèn)所有影響因素的綜合作用,并在未來(lái)對(duì)預(yù)測(cè)對(duì)象仍然起作用,并未去分析探討預(yù)測(cè)對(duì)象和影響因素之間的因果關(guān)系。因此,為了求得能反映市場(chǎng)未來(lái)發(fā)展變化的精確預(yù)測(cè)值,在運(yùn)用時(shí)間序列分析法進(jìn)行預(yù)測(cè)時(shí),必須將量的分析方法和質(zhì)的分析方法結(jié)合起來(lái),從質(zhì)的方面充分研究各種因素與市場(chǎng)的關(guān)系,在充分分析研究影響市場(chǎng)變化的各種因素的基礎(chǔ)上確定預(yù)測(cè)值。 需要指出的是,時(shí)間序列預(yù)測(cè)法因突出時(shí)間序列暫不考慮外界因素影響,因而存在著預(yù)測(cè)誤差的缺陷,當(dāng)遇到外界發(fā)生較大變化,往往會(huì)有較大偏差,時(shí)間序列預(yù)測(cè)法對(duì)于中短期預(yù)測(cè)的效果要比長(zhǎng)期預(yù)測(cè)的效果好。因?yàn)榭陀^事物,尤其是經(jīng)濟(jì)現(xiàn)象,在一個(gè)較長(zhǎng)時(shí)間內(nèi)發(fā)生外界因素變化的可能性加大,它們對(duì)市場(chǎng)經(jīng)濟(jì)現(xiàn)象必定要產(chǎn)生重大影響。如果出現(xiàn)這種情況,進(jìn)行預(yù)測(cè)時(shí),只考慮時(shí)間因素不考慮外界因素對(duì)預(yù)測(cè)對(duì)象的影響,其預(yù)測(cè)結(jié)果就會(huì)與實(shí)際狀況嚴(yán)重不符。
Part15生存分析
包含內(nèi)容
描述生存過(guò)程,即研究生存時(shí)間的分布規(guī)律 比較生存過(guò)程,即研究?jī)山M或多組生存時(shí)間的分布規(guī)律,并進(jìn)行比較 分析危險(xiǎn)因素,即研究危險(xiǎn)因素對(duì)生存過(guò)程的影響 建立數(shù)學(xué)模型,即將生存時(shí)間與相關(guān)危險(xiǎn)因素的依存關(guān)系用一個(gè)數(shù)學(xué)式子表示出來(lái)。
方法
統(tǒng)計(jì)描述:包括求生存時(shí)間的分位數(shù)、中數(shù)生存期、平均數(shù)、生存函數(shù)的估計(jì)、判斷生存時(shí)間的圖示法,不對(duì)所分析的數(shù)據(jù)作出任何統(tǒng)計(jì)推斷結(jié)論 非參數(shù)檢驗(yàn):檢驗(yàn)分組變量各水平所對(duì)應(yīng)的生存曲線是否一致,對(duì)生存時(shí)間的分布沒(méi)有要求,并且檢驗(yàn)危險(xiǎn)因素對(duì)生存時(shí)間的影響。 乘積極限法(PL法) 壽命表法(LT法) 半?yún)?shù)橫型回歸分析:在特定的假設(shè)之下,建立生存時(shí)間隨多個(gè)危險(xiǎn)因素變化的回歸方程,這種方法的代表是Cox比例風(fēng)險(xiǎn)回歸分析法 參數(shù)模型回歸分析:已知生存時(shí)間服從特定的參數(shù)橫型時(shí),擬合相應(yīng)的參數(shù)模型,更準(zhǔn)確地分析確定變量之間的變化規(guī)律
Part16典型相關(guān)分析
Part17R0C分析
用途
R0C曲線能很容易地査出任意界限值時(shí)的對(duì)疾病的識(shí)別能力; 選擇最佳的診斷界限值。R0C曲線越靠近左上角,試驗(yàn)的準(zhǔn)確性就越高; 兩種或兩種以上不同診斷試驗(yàn)對(duì)疾病識(shí)別能力的比較,一股用R0C曲線下面積反映診斷系統(tǒng)的準(zhǔn)確性。
Part18其他分析方法
決策樹(shù)分析與隨機(jī)森林
決策樹(shù)(Decision Tree):是在已知各種情況發(fā)生概率的基礎(chǔ)上,通過(guò)構(gòu)成決策樹(shù)來(lái)求取凈現(xiàn)值的期望值大于等于零的概率,評(píng)價(jià)項(xiàng)目風(fēng)險(xiǎn),判斷其可行性的決策分析方法,是直觀運(yùn)用概率分析的一種圖解法。由于這種決策分支畫成圖形很像一棵樹(shù)的枝干,故稱決策樹(shù)。在機(jī)器學(xué)習(xí)中,決策樹(shù)是一個(gè)預(yù)測(cè)模型,他代表的是對(duì)象屬性與對(duì)象值之間的一種映射關(guān)系。Entropy = 系統(tǒng)的凌亂程度,使用算法ID3, C4.5和C5.0生成樹(shù)算法使用熵。這一度量是基于信息學(xué)理論中熵的概念。 決策樹(shù)是一種樹(shù)形結(jié)構(gòu),其中每個(gè)內(nèi)部節(jié)點(diǎn)表示一個(gè)屬性上的測(cè)試,每個(gè)分支代表一個(gè)測(cè)試輸出,每個(gè)葉節(jié)點(diǎn)代表一種類別。 分類樹(shù)(決策樹(shù)):是一種十分常用的分類方法。他是一種監(jiān)督學(xué)習(xí),所謂監(jiān)督學(xué)習(xí)就是給定一堆樣本,每個(gè)樣本都有一組屬性和一個(gè)類別,這些類別是事先確定的,那么通過(guò)學(xué)習(xí)得到一個(gè)分類器,這個(gè)分類器能夠?qū)π鲁霈F(xiàn)的對(duì)象給出正確的分類。這樣的機(jī)器學(xué)習(xí)就被稱之為監(jiān)督學(xué)習(xí)。
本文來(lái)源以上鏈接,以上文章內(nèi)容僅供學(xué)習(xí)使用,不作其它用途,如有侵權(quán),請(qǐng)?zhí)砑游⑿盘?hào)聯(lián)系,作刪除處理!
有任何疑問(wèn)及建議,掃描以下公眾號(hào)二維碼添加交流:
評(píng)論
圖片
表情
