終于有人把大數(shù)定律講明白了
導(dǎo)讀:在一些情況下,概率是由頻率推導(dǎo)而來的,要得到可信的概率,就要大量重復(fù)地試驗(yàn)。而且,重復(fù)試驗(yàn)的次數(shù)越多,結(jié)論就越讓人信服。那么,為何人們直覺上更愿意相信從大數(shù)據(jù)中得到的統(tǒng)計(jì)結(jié)果,而不是從小數(shù)據(jù)中得到的經(jīng)驗(yàn)?zāi)兀?/span>
作者:徐晟
來源:大數(shù)據(jù)DT(ID:hzdashuju)

01 大數(shù)定律的概念和意義
要解釋這一現(xiàn)象,統(tǒng)計(jì)學(xué)中有一個(gè)非常重要的理論——大數(shù)定律。該定律表明,樣本數(shù)量越多,結(jié)論就越接近真實(shí)的概率分布。也就是說,在重復(fù)的試驗(yàn)中,隨著試驗(yàn)次數(shù)不斷增加,事件發(fā)生的頻率會(huì)越來越趨于一個(gè)穩(wěn)定的數(shù)值,即它的概率。
大數(shù)定律最早是由數(shù)學(xué)家伯努利在他的《推測(cè)術(shù)》中提出的。該書由4個(gè)部分組成,前3部分主要是對(duì)古典概率的系統(tǒng)性闡述,第4部分是這本書的精華,主要探討了概率論在社會(huì)、道德和經(jīng)濟(jì)領(lǐng)域的應(yīng)用,其中就提到了大數(shù)定律以及它的證明過程。
只有基于大量的統(tǒng)計(jì)數(shù)據(jù),才能得到更為準(zhǔn)確的統(tǒng)計(jì)結(jié)果。這個(gè)結(jié)論雖然直覺上好理解,但以前沒有人證明過它。
伯努利的偉大之處就在于,他用數(shù)學(xué)嚴(yán)格證明和解釋了這個(gè)直覺經(jīng)驗(yàn):只要通過大量試驗(yàn),人們觀察得到的頻率和實(shí)際的概率之間的差距就會(huì)越來越小,而且只要重復(fù)次數(shù)足夠多,這個(gè)誤差就能夠小于任意小的正數(shù)。這也是概率論歷史上第一個(gè)極限定理。
由伯努利首先研究并推廣的大數(shù)定律,已經(jīng)成為整個(gè)統(tǒng)計(jì)學(xué)的基礎(chǔ)。隨后經(jīng)過幾百年的發(fā)展,大數(shù)定律的理論體系被不斷完善,切比雪夫、辛欽、泊松、馬爾可夫等一系列大數(shù)定理被提出和證明,它們都是基于大數(shù)定律的某種數(shù)學(xué)表達(dá)。
不過,人們?nèi)匀粚?duì)伯努利大數(shù)定律的哲學(xué)意義給出了很高的評(píng)價(jià)。伯努利自己在《推測(cè)術(shù)》的最后說道:如果我們能把一切事件永恒地觀察下去,那么我們終將發(fā)現(xiàn),世間的一切事物都受到因果律的支配,而我們注定會(huì)在種種極其雜亂的現(xiàn)象中認(rèn)識(shí)到某種必然。
大數(shù)定律告訴我們,隨機(jī)事件重復(fù)發(fā)生后,其可能性結(jié)果會(huì)趨于一種穩(wěn)定的狀態(tài)。它揭示了隨機(jī)事件發(fā)生頻率的長(zhǎng)期穩(wěn)定性,體現(xiàn)了偶然之中包含的一種必然。
大數(shù)定律已經(jīng)廣泛應(yīng)用到宏觀經(jīng)濟(jì)學(xué)、量子熱力學(xué)、空氣動(dòng)力學(xué)等各個(gè)領(lǐng)域。
生活中很多地方也能看到它的身影。比如你想換部手機(jī),于是在網(wǎng)上搜索手機(jī)的相關(guān)信息,突然發(fā)現(xiàn)一個(gè)人對(duì)某品牌型號(hào)的手機(jī)贊不絕口,這時(shí)你該怎么做?輕易地相信對(duì)方?或選擇再看看別人的評(píng)價(jià)?大數(shù)定律的建議是,如果評(píng)論人數(shù)很少,這些評(píng)論就不能很好地反映商品的真實(shí)價(jià)值。
那些在網(wǎng)站上排名靠前、評(píng)價(jià)極高的商品、視頻、資訊,可能只是因?yàn)橛猩贁?shù)人給出了極高的分?jǐn)?shù),或是商業(yè)廣告推薦。它們僅僅是個(gè)案。只有參考大部分人的評(píng)價(jià),才更接近真實(shí)情況,數(shù)據(jù)結(jié)論才更有價(jià)值。
02 蒙特卡洛方法
今天被人們經(jīng)常提及和用到的蒙特卡洛方法,其理論依據(jù)就是大數(shù)定律。
蒙特卡洛方法是由數(shù)學(xué)家馮·諾伊曼、烏拉姆等人最早發(fā)明的,也稱統(tǒng)計(jì)模擬方法。蒙特卡洛不是人名,而是摩納哥的一座城市,它是世界上著名的賭城。蒙特卡洛方法是一種基于概率的計(jì)算方法,它將求解問題和概率模型關(guān)聯(lián)起來,不斷從總體中抽取隨機(jī)樣本,通過模擬和計(jì)算得到近似解。此方法隨著計(jì)算機(jī)技術(shù)的發(fā)展被迅速普及。
蒙特卡洛方法的原理很樸實(shí),簡(jiǎn)單來說就是不斷抽樣,逐漸逼近。比如要計(jì)算圓周率π,可以先讓計(jì)算機(jī)模擬一個(gè)正方形和里面的一個(gè)圓,如圖1-2所示。

▲圖1-2 用蒙特卡洛方法計(jì)算圓周率示意圖
隨后讓計(jì)算機(jī)不斷模擬向正方形中隨機(jī)地“撒點(diǎn)”。統(tǒng)計(jì)落在圓內(nèi)的點(diǎn)的數(shù)量和所有正方形中點(diǎn)的數(shù)量的比值,并將它近似看成是圓形和正方形的面積的比值,即π/4。只要模擬數(shù)據(jù)點(diǎn)足夠多,就能近似計(jì)算出圓周率π。模擬的數(shù)據(jù)越多,計(jì)算結(jié)果就越逼近真正的π值。
蒙特卡洛方法別看原理簡(jiǎn)單,其實(shí)使用起來相當(dāng)靈活。它能用于很多需要“枚舉”的算法,比如下圍棋、走迷宮,或計(jì)算任何不規(guī)則幾何圖形的面積。


