<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          『統(tǒng)計(jì)學(xué) 之 數(shù)據(jù)分析』常用方法盤點(diǎn)(三)

          共 2850字,需瀏覽 6分鐘

           ·

          2020-09-17 20:00


          阿平 | 作者

          知乎 |?來(lái)源




          1


          判別分析


          1. 定義


          根據(jù)已掌握的一批分類明確的樣品建立判別函數(shù),使產(chǎn)生錯(cuò)判的事例最少,進(jìn)而對(duì)給定的一個(gè)新樣品,判斷它來(lái)自哪個(gè)總體。


          2. 與聚類分析區(qū)別


          聚類分析的知識(shí)我們?cè)诘谝徊糠忠呀?jīng)提到了→『統(tǒng)計(jì)學(xué) x 數(shù)據(jù)分析』常用方法盤點(diǎn) Part.1


          • 聚類分析可以對(duì)樣本逬行分類,也可以對(duì)指標(biāo)進(jìn)行分類;而判別分析只能對(duì)樣本。

          • 聚類分析事先不知道事物的類別,也不知道分幾類;而判別分析必須事先知道事物的類別,也知道分幾類

          • 聚類分析不需要分類的歷史資料,而直接對(duì)樣本進(jìn)行分類;而判別分析需要分類歷史資料去建立判別函數(shù),然后才能對(duì)樣本進(jìn)行分類。


          3. 進(jìn)行分類


          ?Fisher判別分析法?


          • 以距離為判別準(zhǔn)則來(lái)分類,即樣本與哪個(gè)類的距離最短就分到哪一類,適用于兩類判別

          • 以概率為判別準(zhǔn)則來(lái)分類,即樣本屬于哪一類的概率最大就分到哪一類,適用于多類判別


          ?BAYES判別分析法?


          BAYES判別分析法比FISHER判別分析法更加完善和先進(jìn),它不僅能解決多類判別分析,而且分析時(shí)考慮了數(shù)據(jù)的分布狀態(tài),所以一般較多使用。


          2


          時(shí)間序列分析


          動(dòng)態(tài)數(shù)據(jù)處理的統(tǒng)計(jì)方法,研究隨機(jī)數(shù)據(jù)序列所遵從的統(tǒng)計(jì)規(guī)律,以用于解決實(shí)際問(wèn)題;時(shí)間序列通常由4種要素組成:趨勢(shì)、季節(jié)變動(dòng)、循環(huán)波動(dòng)和不規(guī)則波動(dòng)


          主要方法:移動(dòng)平均濾波與指數(shù)平滑法、ARIMA橫型、量ARIMA橫型、ARIMAX模型、向呈自回歸橫型、ARCH族模型


          時(shí)間序列是指同一變量按事件發(fā)生的先后順序排列起來(lái)的一組觀察值或記錄值。構(gòu)成時(shí)間序列的要素有兩個(gè):

          • 時(shí)間

          • 與時(shí)間相對(duì)應(yīng)的變量水平


          實(shí)際數(shù)據(jù)的時(shí)間序列能夠展示研究對(duì)象在一定時(shí)期內(nèi)的發(fā)展變化趨勢(shì)與規(guī)律,因而可以從時(shí)間序列中找出變量變化的特征、趨勢(shì)以及發(fā)展規(guī)律,從而對(duì)變量的未來(lái)變化進(jìn)行有效地預(yù)測(cè)。


          時(shí)間序列的變動(dòng)形態(tài)一般分為四種:長(zhǎng)期趨勢(shì)變動(dòng),季節(jié)變動(dòng),循環(huán)變動(dòng),不規(guī)則變動(dòng)


          1. 時(shí)間序列預(yù)測(cè)法的應(yīng)用


          系統(tǒng)描述:根據(jù)對(duì)系統(tǒng)進(jìn)行觀測(cè)得到的時(shí)間序列數(shù)據(jù),用曲線擬合方法對(duì)系統(tǒng)進(jìn)行客觀的描述


          系統(tǒng)分析:當(dāng)觀測(cè)值取自兩個(gè)以上變量時(shí),可用一個(gè)時(shí)間序列中的變化去說(shuō)明另一個(gè)時(shí)間序列中的變化,從而深入了解給定時(shí)間序列產(chǎn)生的機(jī)理


          預(yù)測(cè)未來(lái):一般用ARMA模型擬合時(shí)間序列,預(yù)測(cè)該時(shí)間序列未來(lái)值


          決策和控制:根據(jù)時(shí)間序列模型可調(diào)整輸入變量使系統(tǒng)發(fā)展過(guò)程保持在目標(biāo)值上,即預(yù)測(cè)到過(guò)程要偏離目標(biāo)時(shí)便可進(jìn)行必要的控制


          2. 特點(diǎn)


          • 假定事物的過(guò)去趨勢(shì)會(huì)延伸到未來(lái)

          • 預(yù)測(cè)所依據(jù)的數(shù)據(jù)具有不規(guī)則性

          • 撇開了市場(chǎng)發(fā)展之間的因果關(guān)系


          (1)時(shí)間序列分析預(yù)測(cè)法是根據(jù)市場(chǎng)過(guò)去的變化趨勢(shì)預(yù)測(cè)未來(lái)的發(fā)展,它的前提是假定事物的過(guò)去會(huì)同樣延續(xù)到未來(lái)。


          (2)時(shí)間序列分析預(yù)測(cè)法突出了時(shí)間因素在預(yù)測(cè)中的作用,暫不考慮外界具體因素的影響。


          3


          生存分析


          用來(lái)研究生存時(shí)間的分布規(guī)律以及生存時(shí)間和相關(guān)因索之間關(guān)系的一種統(tǒng)計(jì)分析方法


          1. 包含內(nèi)容


          • 描述生存過(guò)程,即研究生存時(shí)間的分布規(guī)律

          • 比較生存過(guò)程,即研究?jī)山M或多組生存時(shí)間的分布規(guī)律,并進(jìn)行比較

          • 分析危險(xiǎn)因素,即研究危險(xiǎn)因素對(duì)生存過(guò)程的影響

          • 建立數(shù)學(xué)模型,即將生存時(shí)間與相關(guān)危險(xiǎn)因素的依存關(guān)系用一個(gè)數(shù)學(xué)式子表示出來(lái)


          2. 方法


          ?統(tǒng)計(jì)描述?


          包括求生存時(shí)間的分位數(shù)、中數(shù)生存期、平均數(shù)、生存函數(shù)的估計(jì)、判斷生存時(shí)間的圖示法,不對(duì)所分析的數(shù)據(jù)作出任何統(tǒng)計(jì)推斷結(jié)論


          ?非參數(shù)檢驗(yàn)?


          檢驗(yàn)分組變量各水平所對(duì)應(yīng)的生存曲線是否一致,對(duì)生存時(shí)間的分布沒有要求,并且檢驗(yàn)危險(xiǎn)因素對(duì)生存時(shí)間的影響。


          • 乘積極限法(PL法)

          • 壽命表法(LT法)


          ?半?yún)?shù)橫型回歸分析?


          在特定的假設(shè)之下,建立生存時(shí)間隨多個(gè)危險(xiǎn)因素變化的回歸方程,這種方法的代表是Cox比例風(fēng)險(xiǎn)回歸分析法


          ?參數(shù)模型回歸分析?


          已知生存時(shí)間服從特定的參數(shù)橫型時(shí),擬合相應(yīng)的參數(shù)模型,更準(zhǔn)確地分析確定變量之間的變化規(guī)律


          4


          典型相關(guān)分析


          相關(guān)分析一般分析兩個(gè)變量之間的關(guān)系,而典型相關(guān)分析是分析兩組變量(如3個(gè)學(xué)術(shù)能力指標(biāo)與5個(gè)在校成績(jī)表現(xiàn)指標(biāo))之間相關(guān)性的一種統(tǒng)計(jì)分析方法。


          典型相關(guān)分析的基本思想和主成分分析的基本思想相似,(主成分分析知識(shí)→『統(tǒng)計(jì)學(xué)』最常用的數(shù)據(jù)分析方法都在這了!Part.2)它將一組變量與另一組變量之間單變量的多重線性相關(guān)性研究轉(zhuǎn)化為對(duì)少數(shù)幾對(duì)綜合變量之間的簡(jiǎn)單線性相關(guān)性的研究,并且這少數(shù)幾對(duì)變量所包含的線性相關(guān)性的信息幾乎覆蓋了原變量組所包含的全部相應(yīng)信息。


          5


          R0C分析


          R0C曲線是根據(jù)一系列不同的二分類方式(分界值或決定閾),以真陽(yáng)性率(靈敏度)為縱坐標(biāo),假陽(yáng)性率(1-特異度)為橫坐標(biāo)繪制的曲線。

          用途:

          • R0C曲線能很容易地査出任意界限值時(shí)的對(duì)疾病的識(shí)別能力

          • 選擇最佳的診斷界限值。R0C曲線越靠近左上角,試驗(yàn)的準(zhǔn)確性就越高

          • 兩種或兩種以上不同診斷試驗(yàn)對(duì)疾病識(shí)別能力的比較,一股用R0C曲線下面積反映診斷系統(tǒng)的準(zhǔn)確性


          6


          其他分析方法


          多重響應(yīng)分析、距離分析、項(xiàng)目分析對(duì)應(yīng)分析、決策樹分析神經(jīng)網(wǎng)絡(luò)、系統(tǒng)方程蒙特卡洛模擬等。


          決策樹分析與隨機(jī)森林:盡管有剪枝等等方法,一棵樹的生成肯定還是不如多棵樹,因此就有了隨機(jī)森林,解決決策樹泛化能力弱的缺點(diǎn)。(可以理解成三個(gè)臭皮匠頂過(guò)諸葛亮)


          決策樹(Decision Tree)是在已知各種情況發(fā)生概率的基礎(chǔ)上,通過(guò)構(gòu)成決策樹來(lái)求取凈現(xiàn)值的期望值大于等于零的概率,評(píng)價(jià)項(xiàng)目風(fēng)險(xiǎn),判斷其可行性的決策分析方法,是直觀運(yùn)用概率分析的一種圖解法。


          由于這種決策分支畫成圖形很像一棵樹的枝干,故稱決策樹。


          在機(jī)器學(xué)習(xí)中,決策樹是一個(gè)預(yù)測(cè)模型,他代表的是對(duì)象屬性與對(duì)象值之間的一種映射關(guān)系。Entropy = 系統(tǒng)的凌亂程度,使用算法ID3, C4.5和C5.0生成樹算法使用熵。這一度量是基于信息學(xué)理論中熵的概念。


          分類樹(決策樹)是一種十分常用的分類方法。他是一種監(jiān)管學(xué)習(xí),所謂監(jiān)管學(xué)習(xí)就是給定一堆樣本,每個(gè)樣本都有一組屬性和一個(gè)類別,這些類別是事先確定的,那么通過(guò)學(xué)習(xí)得到一個(gè)分類器,這個(gè)分類器能夠?qū)π鲁霈F(xiàn)的對(duì)象給出正確的分類。這樣的機(jī)器學(xué)習(xí)就被稱之為監(jiān)督學(xué)習(xí)。


          ?優(yōu)點(diǎn)?


          決策樹易于理解和實(shí)現(xiàn),人們?cè)谠趯W(xué)習(xí)過(guò)程中不需要使用者了解很多的背景知識(shí),這同時(shí)是它的能夠直接體現(xiàn)數(shù)據(jù)的特點(diǎn),只要通過(guò)解釋后都有能力去理解決策樹所表達(dá)的意義。


          對(duì)于決策樹,數(shù)據(jù)的準(zhǔn)備往往是簡(jiǎn)單或者是不必要的,而且能夠同時(shí)處理數(shù)據(jù)型和常規(guī)型屬性,相對(duì)短的時(shí)間內(nèi)能夠?qū)Υ笮蛿?shù)據(jù)源做出可行且效果良好的結(jié)果。易于通過(guò)靜態(tài)測(cè)試來(lái)對(duì)模型進(jìn)行評(píng)測(cè),可以測(cè)定模型可信度;如果給定一個(gè)觀察的模型,那么根據(jù)所產(chǎn)生的決策樹很容易推出相應(yīng)的邏輯表達(dá)式。


          ?缺點(diǎn)?


          • 對(duì)連續(xù)性的字段比較難預(yù)測(cè)

          • 對(duì)有時(shí)間順序的數(shù)據(jù),需要很多預(yù)處理的工作

          • 當(dāng)類別太多時(shí),錯(cuò)誤可能就會(huì)增加的比較快

          • 一般的算法分類的時(shí)候,只是根據(jù)一個(gè)字段來(lái)分析


          瀏覽 65
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  福利二区视频 | 日本五十路熟女 | 国产精品视频播放豆花网站 | 国产一级A片免费视频 | 东京热18 |