統(tǒng)計(jì)學(xué)神書之后,國內(nèi)概率論教材的天花板來了!
共 6973字,需瀏覽 14分鐘
·
2024-07-10 11:27
2009年,圖靈出版了著名數(shù)學(xué)物理學(xué)家,圣路易斯華盛頓大學(xué)和斯坦福大學(xué)教授,統(tǒng)計(jì)力學(xué)和概率統(tǒng)計(jì)推斷方面權(quán)威埃德溫·湯普森·杰恩斯的最重要的代表作《概率論沉思錄》的英文版。
引來眾多數(shù)學(xué)專業(yè)人士的交口稱贊,至今保持著豆瓣9.4的高分。被稱為“一本至今尚無中譯本的神書”。而現(xiàn)在,這本著作的中文版,終于在本科畢業(yè)于清華大學(xué)物理系,并在北京大學(xué)獲得空間物理學(xué)碩士學(xué)位的廖海仁的努力翻譯下正式出版了!
概率論作為邏輯的延伸,是所有科學(xué)推斷的基礎(chǔ)。本書收集了概率統(tǒng)計(jì)的各種線索,將概率和統(tǒng)計(jì)推斷融合在一起,用新的觀點(diǎn)生動(dòng)地描述了概率論在物理學(xué)、數(shù)學(xué)、經(jīng)濟(jì)學(xué)、化學(xué)和生物學(xué)等領(lǐng)域中的廣泛應(yīng)用,尤其是闡述了貝葉斯理論的豐富應(yīng)用,彌補(bǔ)了傳統(tǒng)概率論和統(tǒng)計(jì)學(xué)的不足,并揭開了眾多悖論背后的玄機(jī)。
《概率論沉思錄》既是一本數(shù)學(xué)書,也是一本科學(xué)哲學(xué)書,還可以被看作一本邏輯學(xué)書,甚至一本生活智慧書,可以幫助我們更好地認(rèn)識(shí)這個(gè)世界并且更好地生活。本書專注于概念的詳盡解釋,提供大量生活實(shí)例和常識(shí)的解讀,也講述了概率統(tǒng)計(jì)的歷史脈絡(luò)和廣泛應(yīng)用。
歷史
本書是我的思想多年演化的產(chǎn)物.我對概率論的興趣最初來自閱讀哈羅德·杰弗里斯的著作(Harold Jeffreys,1939).我意識(shí)到他的觀點(diǎn)能讓我們以一種與眾不同的視角看待理論物理學(xué)的所有問題.隨后,考克斯(R. T. Cox,1946)、香農(nóng)(Shannon,1948)和波利亞(Pólya,1954)的著作陸續(xù)為我開啟了新思想的一扇扇大門.
我對這些探索的興趣持續(xù)了大約 40 年之久.在這個(gè)更加廣闊、永恒的理性思維世界中,理論物理學(xué)的當(dāng)前問題似乎只是短期內(nèi)的細(xì)枝末節(jié).
本書的寫作其實(shí)源于 1956 年在斯坦福大學(xué)舉辦的一系列講座的筆記.這些講座的目的是講解波利亞關(guān)于“數(shù)學(xué)與合情推理”的令人振奮的新著作.他將我們直觀的“常識(shí)”分解為一組基本的定性條件,并且表明:數(shù)學(xué)家一直在使用它們來引導(dǎo)發(fā)現(xiàn)的過程,而且這種引導(dǎo)必然發(fā)生在找到嚴(yán)格證明之前.
這些結(jié)果很像詹姆斯·伯努利的《猜度術(shù)》(James Bernoulli,1713)中古典概率論的內(nèi)容,在它的基礎(chǔ)上,拉普拉斯在 18 世紀(jì)晚期發(fā)展出了分析概率論.但是波利亞認(rèn)為這種相似性只是定性的.
波利亞對這種定性一致性做出了完整而詳盡的展示,說明合情推理與概率論之間一定存在更多聯(lián)系.幸運(yùn)的是,應(yīng)用考克斯的一致性定理足以證明這一點(diǎn).將波利亞的定性條件與考克斯的一致性定理結(jié)合起來就能證明:如果合情程度由實(shí)數(shù)表示,那么只能確定唯一一套用于推斷的定量規(guī)則.也就是說,與其矛盾的任何其他規(guī)則都必然會(huì)違反一條基本的合理性條件或者一致性原則.
但是,最終結(jié)果只是丹尼爾·伯努利和拉普拉斯已經(jīng)得出的概率論的標(biāo)準(zhǔn)規(guī)則.那又有什么值得大驚小怪的呢?這里重要的新特征是:這些規(guī)則現(xiàn)在被視為唯一有效的一般性邏輯原則,不涉及“偶然性”或“隨機(jī)變量”.
因此,它們的應(yīng)用范圍遠(yuǎn)遠(yuǎn)大于 20 世紀(jì)早期發(fā)展起來的傳統(tǒng)概率論.結(jié)果就是,“概率論”與“統(tǒng)計(jì)推斷”之間的假想?yún)^(qū)別消失了,該領(lǐng)域不僅實(shí)現(xiàn)了邏輯上的統(tǒng)一性和簡單性,而且在應(yīng)用中有更強(qiáng)的效力與靈活性.
因此,這些講座把重點(diǎn)放在推演波利亞觀點(diǎn)的定量規(guī)則上,以便將該規(guī)則用于科學(xué)推斷的一般性問題.幾乎所有的推斷問題都產(chǎn)生于不完全的信息,而非“隨機(jī)性”.第 5 章將介紹波利亞的生平及這項(xiàng)工作是如何開始的.
一旦涉及應(yīng)用,哈羅德·杰弗里斯的著作就又成為我關(guān)注的焦點(diǎn).他憑著直覺獲得了許多洞見,并且?guī)缀躅A(yù)見了我后來遇到的每一個(gè)問題.本書的獻(xiàn)詞只是我對他的感激之情的部分體現(xiàn).對他著作的更多評(píng)論及其對我的影響分散在多個(gè)章節(jié)中.
1957~1970 年,這些講座不斷在其他許多大學(xué)和研究實(shí)驗(yàn)室舉辦,內(nèi)容不斷增加.在這一過程中,人們逐漸明白,傳統(tǒng)的“統(tǒng)計(jì)推斷”的突出困難很容易被理解和克服.但是,取而代之的規(guī)則在概念上非常微妙,需要深入思考才能明白如何正確運(yùn)用.
人們過去認(rèn)為運(yùn)用拉普拉斯的概率論方法會(huì)導(dǎo)致某些不可克服的困難,從而拒絕這些方法.他們最終明白這些困難只是由誤用概率論方法造成的,通常是因?yàn)闆]有明確地定義問題或者沒有意識(shí)到看似微不足道的信息存在重要的影響.一旦意識(shí)到這一點(diǎn),原先的困難就很容易被克服.我們的“擴(kuò)展邏輯”方法與通常的“隨機(jī)變量”方法之間的各種關(guān)系以不同的形式出現(xiàn)在幾乎每一章中.
最終,我積累的材料多到無法被囊括在一系列簡短的講座中,本書的用途也演化到了教學(xué)之外.在克服原有困難之后,我們發(fā)現(xiàn)已經(jīng)有了處理新問題的強(qiáng)大工具.大約自 1970 年以來,材料一直在以同樣的速度增加,但是主要來自我及同事的研究活動(dòng).我們希望本書的最終版本能體現(xiàn)材料來源的多樣性,既可用作教科書,也可用作參考書.事實(shí)上,我的好幾批學(xué)生已經(jīng)把早期幾個(gè)版本的筆記傳授給了他們的學(xué)生.
綜上所述,我們在這里引用查爾斯·達(dá)爾文在《物種起源》緒論中所寫的話:“我希望讀者原諒我贅述這些個(gè)人的細(xì)枝末節(jié),我只是想借此說明,我未曾倉促立論而已.”
人們可能會(huì)認(rèn)為 30 年前的著作在今天已經(jīng)過時(shí)了.幸運(yùn)的是,杰弗里斯、波利亞和考克斯的著作是基礎(chǔ)性且永恒的,其中的真理并不隨著時(shí)間而改變,其重要性反而會(huì)隨著時(shí)間的推移而上升.他們對于推斷本質(zhì)的洞察在 30 年前只是令人好奇,而今在幾個(gè)科學(xué)領(lǐng)域中愈顯重要,并會(huì)在未來 100 年的所有領(lǐng)域中都至關(guān)重要.
基礎(chǔ)
憑借多年將概率論應(yīng)用于數(shù)以百計(jì)實(shí)際問題的經(jīng)驗(yàn),我們對概率論基礎(chǔ)的看法已經(jīng)變得非常復(fù)雜,不能簡單地使用“是此非彼”這樣的詞語來表述.比如,我們的概率系統(tǒng)在風(fēng)格、哲學(xué)和目標(biāo)上都與柯爾莫哥洛夫系統(tǒng)截然不同.我們認(rèn)為“通過分析不完全信息的邏輯來分配概率的原則”在概率論中占至少一半的比重,而這一原則在柯爾莫哥洛夫系統(tǒng)中根本不存在.
我們最終卻驚訝地發(fā)現(xiàn),我們幾乎在所有技術(shù)問題上都與柯爾莫哥洛夫一致,與其批評(píng)者不一致.正如附錄 A 所述,針對所有實(shí)際目標(biāo),柯爾莫哥洛夫系統(tǒng)的每個(gè)公理都可以從波利亞和考克斯的合理性和一致性條件中導(dǎo)出.簡而言之,我們認(rèn)為我們的概率系統(tǒng)與柯爾莫哥洛夫系統(tǒng)并不矛盾,只是在尋求更深厚的邏輯基礎(chǔ),使其朝著現(xiàn)代應(yīng)用所需要的方向擴(kuò)展.在這一努力過程中,許多問題已經(jīng)解決,那些尚未解決的問題將成為開拓新領(lǐng)域的契機(jī).
又比如,似乎每個(gè)人乍一看都認(rèn)為我們的系統(tǒng)與德菲內(nèi)蒂概率系統(tǒng)非常接近.事實(shí)上我也曾這樣認(rèn)為.但是最終我們同樣驚訝地發(fā)現(xiàn),兩者之間只存在些許松散的哲學(xué)一致性.在許多技術(shù)問題上,我們與德菲內(nèi)蒂持截然不同的觀點(diǎn).在我們看來,他對于無限集合的處理方式打開了一個(gè)潘多拉魔盒,其中充滿無用、不必要的悖論.非聚集性與有限可加性的示例將在第 15 章中討論.
無限集合的悖論如今已呈病態(tài)式擴(kuò)散,以致威脅到概率論的根基,需要立即通過“手術(shù)”剔除.我們的系統(tǒng)在“手術(shù)”后會(huì)自動(dòng)避免這種悖論.正確應(yīng)用我們的基本規(guī)則不會(huì)產(chǎn)生這種悖論,因?yàn)檫@些規(guī)則只適用于有限集合,以及產(chǎn)生于有明確定義和良好表現(xiàn)的有限集合極限的無限集合.這種悖論的產(chǎn)生是由于:(1) 不指定任何極限過程就直接定義無限集合的性質(zhì);(2) 對于無限集合提出依賴于如何取極限的問題.
例如,對于“一個(gè)整數(shù)是偶數(shù)的概率是多少”這個(gè)問題,答案可以是開區(qū)間 (0, 1) 中的任何一個(gè)實(shí)數(shù).這取決于使用什么極限過程來定義“所有整數(shù)的集合”(正如條件收斂的數(shù)列可以根據(jù)各項(xiàng)的排列順序收斂到任一數(shù)值).
在我們看來,至少在概率論中,無限集合根本不能說真實(shí)“存在”或者說擁有任何數(shù)學(xué)性質(zhì)——除非我們已經(jīng)指定了從有限集合生成它的極限過程.換句話說,我們在高斯、克羅內(nèi)克和龐加萊的旗幟下航行,而不是在康托爾、希爾伯特和布爾巴基的旗幟下.我們希望那些對此感到震驚的讀者能研讀數(shù)學(xué)家莫里斯·克萊因的著作(Morris Kline,1980),了解他對布爾巴基主義的控訴,然后耐心地閱讀本書,從而看到我們的方法的優(yōu)勢.這種例子散見于本書的每一章.
比較
許多年來,一直存在著“頻率派”與“貝葉斯”推斷方法之爭,而我一直是貝葉斯一方的公開支持者.截至 1981 年的情況記錄在早期的一本書(Jaynes,1983)中.在這類早期的著作中,雙方都有一種強(qiáng)烈的傾向,就是在哲學(xué)或意識(shí)形態(tài)層面進(jìn)行爭論.我們現(xiàn)在不再這樣做了,因?yàn)槲覀儞碛幸炎C明的定理以及大量示例,已經(jīng)不再需要訴諸這樣的論證.
貝葉斯方法的優(yōu)越性現(xiàn)已在上百個(gè)領(lǐng)域中得到充分驗(yàn)證.人們可以與哲學(xué)爭論,卻不能與計(jì)算機(jī)的輸出結(jié)果爭論.這種輸出結(jié)果對我們說:“無論你們的哲學(xué)如何,這是實(shí)際執(zhí)行的結(jié)果.”只要兩種方法的最終結(jié)果存在顯著差異,我們就會(huì)在書中詳細(xì)指出.
因此,我們將繼續(xù)為貝葉斯方法熱情辯護(hù),但需要提醒讀者注意的是,現(xiàn)在的論證手段是引用事實(shí),而不是宣稱哲學(xué)或意識(shí)形態(tài)方面的優(yōu)越性.
然而,無論是貝葉斯方法還是頻率派方法,都不是普遍適用的.因此,在這本一般性的著作中,我們采用一種更廣闊的視角.我們的主題很簡單:作為擴(kuò)展邏輯的概率論.這一新的認(rèn)知相當(dāng)于意識(shí)到概率論的數(shù)學(xué)規(guī)則不僅僅是計(jì)算“隨機(jī)變量”頻率的規(guī)則,它們也是進(jìn)行任何形式的推斷(即合情推理)的唯一一致性規(guī)則,必須得到廣泛的應(yīng)用.
確實(shí),所有貝葉斯計(jì)算方法都自動(dòng)歸屬于我們規(guī)則的特殊情況,所有頻率派計(jì)算方法也是如此.然而,我們的基本規(guī)則比這兩者中的任何一個(gè)都更廣泛.在許多應(yīng)用中,我們的計(jì)算方法不屬于兩種派別中任何一派的范疇.
我們目前看到的情況是:只使用抽樣分布的傳統(tǒng)的頻率派方法只對許多特別簡單、理想化的問題適用.它們代表了概率論中最少見的特殊情形,因?yàn)樗鼈冾A(yù)先假設(shè)了在實(shí)際問題中很難滿足的條件(獨(dú)立重復(fù)隨機(jī)試驗(yàn),但沒有相關(guān)的先驗(yàn)信息).這種方法難以滿足科學(xué)的實(shí)際需求.
此外,頻率派方法沒有提供消除冗余參數(shù)或考慮先驗(yàn)信息的技術(shù)手段,在沒有充分統(tǒng)計(jì)量或從屬統(tǒng)計(jì)量時(shí)甚至不能使用數(shù)據(jù)中的所有信息.由于缺乏必要的理論原則,人們被迫根據(jù)直覺而不是概率論選擇一個(gè)統(tǒng)計(jì)量,然后被迫發(fā)明了在概率論規(guī)則中并不存在的特定工具(如無偏估計(jì)、置信區(qū)間、尾區(qū)顯著性檢驗(yàn)等).每個(gè)特定工具都可以在它所為之發(fā)明的小范圍內(nèi)使用.但是,正如考克斯定理所確定的那樣,這種隨意的工具在應(yīng)用于極端情況時(shí)總會(huì)導(dǎo)致不一致甚至荒謬的結(jié)論.我們將看到許多這樣的示例.
頻率派方法的這些錯(cuò)誤都可以使用貝葉斯方法糾正,貝葉斯方法適于解決“完善”(well-developed)的推斷問題.正如哈羅德·杰弗里斯闡明的那樣,它們擁有一流的分析工具,能夠毫不費(fèi)力地處理令頻率派方法失效的技術(shù)難題.它們能自動(dòng)確定最佳估計(jì)量和算法,同時(shí)考慮先驗(yàn)信息,并允許合理使用冗余參數(shù),即使在極端的情況下也會(huì)繼續(xù)產(chǎn)生合情的結(jié)果而不會(huì)失效.因此,它們使我們能夠解決甚至無法使用頻率派術(shù)語討論的復(fù)雜問題.我們的主要目標(biāo)之一是說明所有這些功能如何包含在作為擴(kuò)展邏輯的概率論的簡單規(guī)則之中,而不需要——事實(shí)上也沒有空間——使用任何特定工具.
在使用貝葉斯方法之前,一個(gè)問題必須從“探索階段”演化到具有足夠的結(jié)構(gòu)來確定所有需要的工具(模型、樣本空間、假設(shè)空間、先驗(yàn)概率、抽樣分布).幾乎所有的科學(xué)問題都一定會(huì)經(jīng)歷一個(gè)有推斷需求的初始探索階段.這時(shí),頻率派的假設(shè)是無效的,而貝葉斯工具還不可用.實(shí)際上,某些問題永遠(yuǎn)不會(huì)從探索階段演化到下一步.這個(gè)階段的問題需要從不完全的信息中分配概率的更基礎(chǔ)方法.
為達(dá)到這一目標(biāo),最大熵原理提供了目前最清晰的理論依據(jù).最大熵方法在計(jì)算上高度發(fā)展,也帶有一個(gè)與貝葉斯方法一樣強(qiáng)大且通用的分析工具.為了使用最大熵原理,我們必須定義樣本空間,但不需要模型或抽樣分布.實(shí)際上,熵最大化會(huì)從數(shù)據(jù)中為我們生成一個(gè)模型.這個(gè)模型在許多不同的標(biāo)準(zhǔn)評(píng)估下都是最優(yōu)的.因此,在存在樣本空間而沒有模型的情況下使用最大熵原理,何樂而不為呢?
貝葉斯和最大熵方法在另一個(gè)方面也有不同.兩種方法都能根據(jù)已知信息獲得最優(yōu)的推斷,但是我們可以為貝葉斯方法選擇一個(gè)模型,以表達(dá)某些關(guān)于所觀察現(xiàn)象的先驗(yàn)知識(shí)或者可行的假設(shè).通常,這種假設(shè)超出了數(shù)據(jù)中可直接觀察的范圍,在這種意義上,我們可以說貝葉斯方法是(或者至少可能是)推測性的.如果額外的假設(shè)是正確的,那么我們期望貝葉斯方法的結(jié)果將改進(jìn)最大熵方法;如果額外假設(shè)是錯(cuò)誤的,貝葉斯推斷則可能會(huì)比最大熵方法更糟.
最大熵是一種非推測性過程,因?yàn)樗跇颖究臻g和可用數(shù)據(jù)的證據(jù)之外不做任何假設(shè).因此,它只預(yù)測可觀測的事實(shí)(未來或過去的觀測值的函數(shù))而不是可能只在我們的想象中存在的參數(shù)值.正是出于這一原因,當(dāng)我們對原始數(shù)據(jù)之外的知識(shí)所知甚少時(shí),最大熵是適當(dāng)?shù)模ㄗ畎踩模┕ぞ撸梢允刮覀儽苊獾?/span>出基于數(shù)據(jù)本身無法保證的結(jié)論.但是,當(dāng)信息非常模糊,甚至可能難以定義適當(dāng)?shù)臉颖究臻g時(shí),人們能否找到比最大熵更基礎(chǔ)的原理呢?這里還有很多運(yùn)用創(chuàng)造性思維的空間.
目前,在許多重要且非凡的應(yīng)用實(shí)例中,最大熵是我們需要的唯一工具.本書的第二部分將詳細(xì)探討這些內(nèi)容.通常,它們比第一部分的一般性應(yīng)用需要更多的領(lǐng)域內(nèi)專業(yè)知識(shí).例如,所有的統(tǒng)計(jì)力學(xué)應(yīng)用都是如此,當(dāng)前非常成功的最大熵譜分析和圖像重建算法也是如此.然而,我們認(rèn)為,當(dāng)知道合適的模型和假設(shè)空間從而能融入更多先驗(yàn)信息時(shí),后兩種應(yīng)用將演變?yōu)檫m合使用貝葉斯方法的情況.
最后,在能力與通用性方面,學(xué)會(huì)使用作為擴(kuò)展邏輯的概率論的科學(xué)家比僅掌握了一堆無關(guān)的特定工具的人具有更大的優(yōu)勢.隨著問題復(fù)雜性的增加,這種相對優(yōu)勢也會(huì)擴(kuò)大.因此,我們認(rèn)為,由于實(shí)際需要,未來所有定量科學(xué)的工作者都會(huì)以本書闡明的方式使用概率論.這一趨勢已經(jīng)在計(jì)量經(jīng)濟(jì)學(xué)、天文學(xué)、磁共振波譜學(xué)等領(lǐng)域中得到了證實(shí).要在一個(gè)新的領(lǐng)域中取得進(jìn)展,就需要對傳統(tǒng)和權(quán)威持一種健康的懷疑與批判態(tài)度,這種傳統(tǒng)和權(quán)威在整個(gè) 20 世紀(jì)都阻礙了我們的進(jìn)步.
推薦閱讀
《概率論沉思錄》
作者:埃德溫·湯普森·杰恩斯 譯者:廖海仁
著名數(shù)學(xué)物理學(xué)家,圣路易斯華盛頓大學(xué)和斯坦福大學(xué)教授,統(tǒng)計(jì)力學(xué)和概率統(tǒng)計(jì)推斷方面權(quán)謀埃德溫·湯普森·杰恩斯,40年思想著作;
無數(shù)讀者苦等15年的概率論神作,英文版豆瓣評(píng)分9.4高分;
概率論作為邏輯的延伸,是所有科學(xué)推斷的基礎(chǔ)。本書收集了概率統(tǒng)計(jì)的各種線索,將概率和統(tǒng)計(jì)推斷融合在一起,用新的觀點(diǎn)生動(dòng)地描述了概率論在物理學(xué)、數(shù)學(xué)、經(jīng)濟(jì)學(xué)、化學(xué)和生物學(xué)等領(lǐng)域中的廣泛應(yīng)用,尤其是闡述了貝葉斯理論的豐富應(yīng)用,彌補(bǔ)了傳統(tǒng)概率論和統(tǒng)計(jì)學(xué)的不足,并揭開了眾多悖論背后的玄機(jī)。
02
法國數(shù)學(xué)類科普書、大學(xué)數(shù)學(xué)參考及教材類圖書暢銷書目,在機(jī)器學(xué)習(xí)、人工智能、邏輯學(xué)和哲學(xué)等眾多領(lǐng)域中,探索貝葉斯定理蘊(yùn)藏的智慧與哲理。
貝葉斯定理一旦與算法相結(jié)合,就不再是一套枯燥的數(shù)學(xué)理論或認(rèn)識(shí)論,而變成了應(yīng)用廣泛的知識(shí)寶庫,催生了眾多現(xiàn)代數(shù)學(xué)定理,以及令人稱道的實(shí)踐成果。
03
《趣學(xué)貝葉斯統(tǒng)計(jì):橡皮鴨、樂高和星球大戰(zhàn)中的統(tǒng)計(jì)學(xué)》
本書用十余個(gè)趣味十足、腦洞大開的例子,將貝葉斯統(tǒng)計(jì)的原理和用途娓娓道來。你將從直覺出發(fā),自然而然地習(xí)得數(shù)學(xué)思維。讀完本書,你會(huì)發(fā)現(xiàn)自己開始從概率角度思考每一個(gè)問題,并能坦然面對不確定性,做出更好的決策。
我“參加了”阿里巴巴全球數(shù)學(xué)競賽決賽,分享一下經(jīng)驗(yàn)
搭建機(jī)器學(xué)習(xí)開發(fā)環(huán)境及Python基礎(chǔ),108頁P(yáng)DF
116頁P(yáng)DF小冊子:機(jī)器學(xué)習(xí)中的概率論、統(tǒng)計(jì)學(xué)、線性代數(shù)
