概率論的數(shù)學(xué)基礎(chǔ)
擊上方“小白學(xué)視覺”,選擇加"星標(biāo)"或“置頂”
重磅干貨,第一時(shí)間送達(dá)
本文轉(zhuǎn)自 | 磐創(chuàng)AI
抽象是為了隱藏不相關(guān)的東西,只關(guān)注重要的細(xì)節(jié)。雖然有時(shí)看起來很可怕,但它是管理復(fù)雜性的最佳工具。
如果你讓n個(gè)數(shù)學(xué)家來定義數(shù)學(xué)是什么,你可能會得到2n個(gè)不同的答案。我的定義是,它是一門將事物抽象出來,直到只剩下核心的科學(xué),為任何事物的推理提供了最終的框架。
你想過概率到底是多少嗎?你肯定用它來推理數(shù)據(jù),做統(tǒng)計(jì)分析,甚至通過統(tǒng)計(jì)學(xué)習(xí)為你建立推理算法。在這篇文章中,我們將深入探索概率論。
前置知識
為了貫徹下去,你不需要任何高等數(shù)學(xué),我會集中精力從基礎(chǔ)上解釋一切。但是,如果你知道以下幾點(diǎn),這是有益的:
-
集合和集合運(yùn)算,如并集、交集和差集。
-
極限和一些基本微積分。
事件與度量
概率可以被啟發(fā)式地認(rèn)為是一個(gè)函數(shù),用來測量事件發(fā)生的可能性。但從數(shù)學(xué)上講,目前還不清楚什么是事件和度量。在我們能恰當(dāng)?shù)赜懻摳怕手?,我們需要先打下?jiān)實(shí)的基礎(chǔ)。所以,讓我們從事件開始。
事件
“我用這個(gè)骰子擲奇數(shù)的概率是多少?”
當(dāng)我們談到概率時(shí),這個(gè)簡單的問題作為一個(gè)例子出現(xiàn)在我們的腦海中。在這個(gè)簡單的問題中,事件是擲出一個(gè)奇數(shù)。
為了進(jìn)行數(shù)學(xué)建模,我們使用集合。包含實(shí)驗(yàn)結(jié)果的基本集合“全集”是Ω={1,2,3,4,5,6},事件是Ω的子集。這里,擲出奇數(shù)對應(yīng)于子集A={1,3,5}。
所以,要定義概率,需要一個(gè)基礎(chǔ)集Ω和它的子集∑的集合,我們稱之為事件。然而,∑不能只是子集的任何集合。必須滿足三個(gè)條件。
-
Ω是一個(gè)事件。
-
如果X是一個(gè)事件,那么它的補(bǔ)Ω\X也是一個(gè)事件。也就是說,一個(gè)沒有發(fā)生的事件也是另一個(gè)事件。
-
事件的聯(lián)合也必須是事件。也就是說,事件和其他事件的聯(lián)合也是一個(gè)事件。
如果滿足這些條件,∑稱為σ-代數(shù)。用適當(dāng)?shù)臄?shù)學(xué)術(shù)語:
在我們的情況下,我們有
當(dāng)Ω是實(shí)數(shù)集時(shí),出現(xiàn)了一個(gè)更有趣的情況。稍后我們將看到,如果實(shí)數(shù)的所有子集都被視為事件,那么會發(fā)生非常奇怪的事情。
描述σ-代數(shù)
這些用σ-代數(shù)定義的事件空間很難描述。我們可以立即看到,為了在一個(gè)非平凡的基集Ω上有一個(gè)有意義的事件空間,我們應(yīng)該有無限多的事件。
例如,我們在一塊板上發(fā)射子彈,想計(jì)算擊中某個(gè)區(qū)域的概率。在這些情況下,指定一些子集并取包含這些子集的最小σ-代數(shù)就足夠了。
假設(shè)我們在射擊一塊矩形板。如果我們說我們的事件空間是包含板的所有矩形子集的最小σ-代數(shù),那么我們
-
對σ-代數(shù)有一個(gè)非常簡單的描述,
-
會有各種形狀,因?yàn)棣?代數(shù)在并集下是閉的。
很多集合可以描述為矩形的無限并集,如下所示。
我們稱板內(nèi)的矩形集合為生成集,而稱最小的σ-代數(shù)為生成σ-代數(shù)。
你可以將此生成過程視為獲取生成集的所有元素,并以所有可能的方式獲取聯(lián)合和補(bǔ)集。
既然我們有了一個(gè)處理事件的數(shù)學(xué)框架,我們就應(yīng)該把注意力轉(zhuǎn)向測量。
測量
雖然直觀地衡量某件事情是很清楚的,但這是一件很難正式化的事情。度量基本上是一個(gè)函數(shù),將一個(gè)集合映射到一個(gè)數(shù)字。舉一個(gè)簡單的例子,測量三維物體的體積似乎很簡單,但即使在這里,我們也有嚴(yán)重的問題。你能想出一個(gè)你無法測量面積的物體嗎?
也許你不能馬上,但絕對不是這樣??梢钥闯?,如果空間的每一個(gè)子集都有一個(gè)定義明確的體積,那么就可以取一個(gè)單位體積的球體,將其分割成若干塊,并將兩個(gè)單位體積的球體放在一起。
這就是所謂的Banach-Tarski悖論。由于你不能真正做到這一點(diǎn),因此你無法測量空間中每個(gè)子集的體積。
但在這種情況下,有什么措施呢?實(shí)際上,我們只有三個(gè)條件:
-
一個(gè)度量值應(yīng)該總是正的; -
空集的度量值應(yīng)該是零; -
如果你把不相交集的度量值加起來,你就得到了它們的并集的度量值。
為了正確地定義它們,我們需要子集的基集Ω和∑σ-代數(shù)。函數(shù)
是一種衡量,如果
屬性3。稱為σ-可加性。如果我們只有有限個(gè)集,我們將簡單地稱之為度量的可加性。
這個(gè)定義只是體積度量的抽象。這可能看起來很奇怪,但這三個(gè)屬性才是最重要的。其他一切都是從他們那里來的。例如,我們有
這是因?yàn)锳\B和B是不相交的,它們的并集是A。
另一個(gè)重要的性質(zhì)是度量的連續(xù)性。也就是
此屬性類似于實(shí)值函數(shù)連續(xù)性的定義,因此命名不是偶然的。
描述度量
正如我們在σ-代數(shù)中看到的,你只需要給出一個(gè)生成集,而不是一個(gè)完整的σ-代數(shù)。這對我們處理措施非常有用。雖然度量是在σ-代數(shù)上定義的,但是在生成子集上定義度量就足夠了,因?yàn)橛捎讦?可加性,它決定了σ-代數(shù)中每個(gè)元素的測度。
概率的定義
現(xiàn)在一切都被設(shè)定為數(shù)學(xué)上定義概率。
概率空間由元組定義
其中Ω是基集,∑是其子集的σ-代數(shù),P是這樣的度量
所以,概率與面積和體積等量密切相關(guān)。面積、體積和概率都是在各自的空間里測量的。然而,這是一個(gè)相當(dāng)抽象的概念,所以讓我們舉幾個(gè)例子。
拋硬幣
最簡單的概率空間由拋硬幣事件來描述。假設(shè)我們用0編碼正面,用1編碼反面
由于σ-代數(shù)和測度的性質(zhì),你只需要定義事件{0}(頭)和事件{1}(尾)的概率,這就完全決定了概率測度。
隨機(jī)數(shù)
一個(gè)更有趣的例子是隨機(jī)數(shù)生成。如果你熟悉Python,那么可能已經(jīng)使用了隨機(jī)的函數(shù),它給你一個(gè)介于0和1之間的隨機(jī)數(shù)。雖然這看起來很神秘,但是用概率空間來描述它是相當(dāng)簡單的。
再次注意,這足以給出生成集各元素的概率。例如,我們有
要查看更復(fù)雜的示例,什么是P({0.5})?我們?nèi)绾斡?jì)算選出0.5的概率?(或介于0和1之間的任何其他數(shù)字)為此,我們需要依賴度量的屬性。我們有
其中,這適用于所有ε>0。這里,我們使用了概率測度的可加性。因此,這就意味著
同樣,因?yàn)樗m用于所有的ε>0。這意味著概率小于任何正實(shí)數(shù),所以它必須為零。
對于任何0≤x≤1,都有一個(gè)類似的論點(diǎn)。看到選擇一個(gè)特定數(shù)字的概率為零,可能會令人驚訝。所以,在生成隨機(jī)數(shù)并觀察結(jié)果之后,要知道它發(fā)生的概率正好為0。然而,你面前還有一個(gè)結(jié)論。
?零概率事件是可能發(fā)生的。
?
分布和密度
我們已經(jīng)走了很長的路。然而,從實(shí)際的角度來看,使用測度和σ-代數(shù)并不十分方便。幸運(yùn)的是,這不是處理概率的唯一方法。
為了簡單起見,假設(shè)我們的基集是實(shí)數(shù)集。具體來說,我們有概率空間(Ω,∑,P),其中
P是這個(gè)空間上的任何概率測度。我們以前已經(jīng)看到,事件的概率(a,b)決定了事件空間中其他事件的概率。然而,我們可以進(jìn)一步壓縮這些信息。實(shí)際上,函數(shù)
包含所有我們必須知道的關(guān)于概率度量的信息。想想看:我們有
對于所有a和b,這稱為P的分布函數(shù)。對于所有概率測度,分布函數(shù)滿足以下性質(zhì):
(第四個(gè)稱為左連續(xù)性。不要強(qiáng)調(diào)如果你不熟悉連續(xù)性的定義,現(xiàn)在就不需要了。)
同樣,如果這太抽象,讓我們考慮一個(gè)例子。對于前面的隨機(jī)數(shù)生成示例,我們有
這稱為[0,1]上的均勻分布。
總而言之,如果你給我一個(gè)概率測度,我會給你一個(gè)描述概率測度的分布函數(shù)。
然而,這并不是關(guān)于分布函數(shù)的最佳選擇。從數(shù)學(xué)的角度來看,如果你給一個(gè)函數(shù)滿足上述1–4的性質(zhì),我也可以用它構(gòu)造一個(gè)概率測度。此外,如果兩個(gè)分布函數(shù)處處相等,則其相應(yīng)的概率測度也相同。
因此,從數(shù)學(xué)的角度來看,分布函數(shù)和概率測度在某些情況下是相同的。這對我們非常有用。
密度函數(shù)
如我們所見,分布函數(shù)從概率測度中獲取所有信息,并對其進(jìn)行壓縮。這是一個(gè)很好的工具,但有時(shí)不方便。例如,當(dāng)我們只有分布函數(shù)時(shí),計(jì)算期望值是困難的。(如果你不知道期望值,請不要擔(dān)心,我們現(xiàn)在不會使用它。)
在許多實(shí)際應(yīng)用中,我們用密度函數(shù)來描述概率測度。函數(shù)
是概率測度P的密度函數(shù),如果
適用于σ-代數(shù)∑中的所有E。也就是說,啟發(fā)式地,給定集合的概率由f(x)曲線下的面積決定。這個(gè)定義可能看起來很簡單,但是這里隱藏了很多細(xì)節(jié),我不想詳細(xì)討論。
你可能熟悉微積分中著名的牛頓-萊布尼茲定律。這里,也就是
這基本上意味著如果分布函數(shù)是可微的,它的導(dǎo)數(shù)就是密度函數(shù)。
有一定的概率分布,其中只有密度函數(shù)是已知的封閉形式。(具有閉合形式意味著它可以用有限個(gè)標(biāo)準(zhǔn)運(yùn)算和初等函數(shù)來表示)最著名的分布之一是這樣的:高斯分布。它的定義是
其中μ和σ是參數(shù)。
密度函數(shù)
分布函數(shù)
不管看起來多么令人驚訝,我們不能用封閉的形式來表示高斯分布函數(shù)。并不是數(shù)學(xué)家們還沒有搞清楚,而是證明了這是不可能的。(相信我,證明在數(shù)學(xué)上做不到的事情有時(shí)是極其困難的。)
結(jié)尾
到目前為止,我們所看到的只是冰山一角。(想想看,這可以在每一次關(guān)于數(shù)學(xué)的討論結(jié)束時(shí)說)這里,我們只以數(shù)學(xué)(半)精確的方式定義了什么是概率。
真正有趣的東西,比如機(jī)器學(xué)習(xí),仍然擺在我們面前。
原文鏈接:https://towardsdatascience.com/the-mathematical-foundations-of-probability-beb8d8426651
交流群
歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動駕駛、計(jì)算攝影、檢測、分割、識別、醫(yī)學(xué)影像、GAN、算法競賽等微信群(以后會逐漸細(xì)分),請掃描下面微信號加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進(jìn)入相關(guān)微信群。請勿在群內(nèi)發(fā)送廣告,否則會請出群,謝謝理解~

