抽樣分布:經常聽到的卡方分布、t分布等的含義是啥?
“ 統(tǒng)計學相關知識,是數(shù)據科學重要的基礎之一。”
01
—
抽樣分布
首先,什么是抽樣分布呢?
在上篇文章中,我們介紹了統(tǒng)計量的概念(不含任何未知參數(shù)的樣本的函數(shù),就叫統(tǒng)計量),統(tǒng)計量的分布,就是抽樣分布。
抽樣分布中,最常用的分布其實是4種:z 分布(即正態(tài)分布)、卡方分布、t分布、F分布。每種分布對應假設檢驗中的一種檢驗方法,后續(xù)講假設檢驗的時候再詳細講解。因此這幾種分布的知識是后續(xù)重要的基礎。
關于正態(tài)分布大家都比較了解,因此重點闡述一下后面的三種分布。
02
—
卡方分布
先介紹一下卡方分布相關的內容。
(1)卡方分布的定義
定義:當
,則以下的統(tǒng)計量(即樣本取平方后求和):

服從自由度為n的
分布,即卡方分布。記為:
。這里的自由度,指的就是獨立變量的個數(shù),因此肯定是正整數(shù)。
(2)卡方分布的圖像及特點
卡方分布的圖像如下:

當自由度是2的時候,比較特殊,剛好是指數(shù)分布。
當自由度大于2的時候,卡方分布的曲線都是單峰曲線,在n-2處取得峰值。
曲線關于x=n-2是不對稱的,當n越大,峰向右移動;當n無限大時,可以用正態(tài)分布近似。
(3)卡方分布的相關定理
卡方分布的期望和方差有以下特點:

卡方分布具有可加性。當兩個(或者多個)隨機變量均服從卡方分布時,且相互獨立,那么加和之后的分布也服從卡方分布,自由度是兩個自由度之和,即:

關于卡方分布,就主要介紹這些。
03
—
t分布
接下來我們介紹一下t分布。
(1)t分布的定義
定義:當
, Y服從自由度是n的卡方分布,且X、Y相互獨立,則以下的統(tǒng)計量

服從自由度為n的t分布。因此,t分布是由標準正態(tài)分布和卡方分布構造的分布。
(2)圖像及特征
t分布的圖像如下:

t分布是具有對稱性的。
04
—
F分布
最后我們介紹一下F分布。
(1)F分布的定義
定義:當
,且U、V相互獨立,則以下的統(tǒng)計量

服從自由度為
的F分布。這里的兩個自由度是有先后順序關系的。因此,如果互換一下分子分母,很容易得出結論:

從上面很容易了解到,F(xiàn)分布是由兩個卡方分布構造的。
(2)F分布的圖像
F分布的圖像如下:

05
—
正態(tài)總體下的抽樣分布
幾個重要的分布講完了,最后我們再介紹一下在總體是正態(tài)分布的前提下,常用統(tǒng)計量的分布規(guī)律。再強調一下,下面的規(guī)律都是基于總體服從正態(tài)分布的前提,這里只需要總體是正態(tài)分布即可,不需要是標準正態(tài)分布。
以下的這幾個抽樣分布還是很重要的,后續(xù)做區(qū)間估計的時候會用到這幾個構造樞軸變量,用以進行總體參數(shù)估計。
(1)關于樣本均值的分布
樣本均值經過以下標準化后,服從標準正態(tài)分布。

即樣本均值的期望等于總體期望,樣本均值的方差是總體方差的n分之一。
若將分母中的總體標準差改為樣本標準差,則服從自由度為n-1的t分布:

這兩個不同處理之下的不同分布,還是需要注意一下。
(2)關于樣本方差的分布
樣本方差乘以系數(shù)后,服從自由度為n-1的卡方分布:

需要注意的是,這里的自由度是n-1,因為這里樣本方差是用每個樣本減去樣本均值。如果改為減去總體均值,其他內容不變,則服從自由度為n的卡方分布。因為樣本均值多了一個約束(均值公式),因此自由度少了一個。
(3)關于樣本均值和樣本方差的關系
樣本均值和樣本方差相互獨立。
(4)兩個正態(tài)總體時,兩樣本的關系
上面講到的幾個都是在單個正態(tài)總體的情況下。當有兩個正態(tài)總體時,兩個樣本的方差和兩個總體方差有以下分布:

即處理后的分布服從F分布。
另外,一種特殊情況下,當
時,

其中,

關于卡方分布、t分布、F分布相關的內容就先分享到這里,歡迎繼續(xù)關注~
