講講大數(shù)定理

前面我們講過中心極限定理,沒看過的同學(xué)可以去看看:講講中心極限定理。這一節(jié)來講講大數(shù)定理,大數(shù)定理和中心極限定理是比較接近的兩個概念,這兩個定理經(jīng)常一起出現(xiàn)。我們來具體看下大數(shù)定理的內(nèi)容:
大數(shù)定律是指:隨著樣本容量n不斷增加,樣本平均數(shù)將越來越接近于總體平均數(shù)(期望 μ),我們把總體的平均數(shù)稱為期望,關(guān)于均值與期望的差別,我們在前面的文章中寫過:均值與期望到底是不是一回事?
基于大數(shù)定理的存在,所以我們?nèi)粘7治鲞^程中一般都會使用樣本的均值來估計總體的均值。比如大家所熟知的實驗,其實就是拿總體中的部分樣本去做實驗,然后在部分樣本上得到的均值效果就可以等效代替是在全部樣本上得到的效果。
不過需要注意的是,我們上面說到的是隨著樣本數(shù)的增加,樣本均值會越來越接近總體樣本均值,接近不代表等于,所以樣本均值和總體還是會有一些偏差的,但在實際業(yè)務(wù)中我們一般又無法拿到總體的均值,所以只能用樣本均值,但是要知道還是有一些偏差的。
接下來,我們用數(shù)據(jù)模擬下:
我們先隨機生成10w個值,把這10w個值作為我們的總體,然后隨機從這10w里面抽取100、200、300 …… 99900、100000,針對每次抽取出來的樣本計算一個均值,最后會得到99900個均值,我們把這些均值按照樣本容量從小到大排序,最后繪制出均值趨勢圖如下:

上圖中的紅線是代表總體均值,可以看出,隨著樣本容量n不斷增加,樣本均值的波動幅度越來越小,越接近于總體均值。上面過程的Python實現(xiàn)代碼如下:
import numpy as np
import pandas as pd
all_value = np.random.randint(1,100000,100000)
sample_size = []
sample_maen = []
for i in range(100,100000,100):
sample_size.append(i)
sample_maen.append(np.random.choice(all_value,i).mean())
pd.DataFrame({"sample_size":sample_size,"sample_maen":sample_maen}).set_index("sample_size").plot()
plt.axhline(all_value.mean(),color = "red")
大家可以把代碼復(fù)制下來,自己運行一遍。





