<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          機器學習領(lǐng)域必知必會的12種概率分布(附Python代碼實現(xiàn))

          共 3277字,需瀏覽 7分鐘

           ·

          2021-07-04 20:52


          作者:graykode
          編輯:機器之心
          機器學習開發(fā)者需要了解的 12 種概率分布,這些你都了解嗎?
          機器學習有其獨特的數(shù)學基礎(chǔ),我們用微積分來處理變化無限小的函數(shù),并計算它們的變化;我們使用線性代數(shù)來處理計算過程;我們還用概率論與統(tǒng)計學建模不確定性。在這其中,概率論有其獨特的地位,模型的預測結(jié)果、學習過程、學習目標都可以通過概率的角度來理解。

          與此同時,從更細的角度來說,隨機變量的概率分布也是我們必須理解的內(nèi)容。在這篇文章中,項目作者介紹了所有你需要了解的統(tǒng)計分布,他還提供了每一種分布的實現(xiàn)代碼。

          項目地址:https://github.com/graykode/distribution-is-all-you-need


          下面讓我們先看看總體上概率分布都有什么吧:


          非常有意思的是,上圖每一種分布都是有聯(lián)系的。比如說伯努利分布,它重復幾次就是二項分布,如果再擴展到多類別,就成為了多項式分布。注意,其中共軛(conjugate)表示的是互為共軛的概率分布;Multi-Class 表示隨機變量多于 2 個;N Times 表示我們還會考慮先驗分布 P(X)。

          在貝葉斯概念理論中,如果后驗分布 p(θ | x) 與先驗分布 p(θ) 是相同的概率分布族,那么后驗分布可以稱為共軛分布,先驗分布可以稱為似然函數(shù)的共軛先驗。

          為了學習概率分布,項目作者建議我們查看 Bishop 的模式識別與機器學習。當然,你要是準備再過一遍《概率論與數(shù)理統(tǒng)計》,那也是極好的。

          概率分布與特性

          1. 均勻分布(連續(xù)型)

          均勻分布是指閉區(qū)間 [a, b] 內(nèi)的隨機變量,且每一個變量出現(xiàn)的概率是相同的。


          2. 伯努利分布(離散型)

          伯努利分布并不考慮先驗概率 P(X),它是單個二值隨機變量的分布。它由單個參數(shù)φ∈ [0, 1] 控制,φ 給出了隨機變量等于 1 的概率。我們使用二元交叉熵函數(shù)實現(xiàn)二元分類,它的形式與對伯努利分布取負對數(shù)是一致的。

          3. 二項分布(離散型)

          二項分布是由伯努利提出的概念,指的是重復 n 次獨立的伯努利試驗。在每次試驗中只有兩種可能的結(jié)果,而且兩種結(jié)果發(fā)生與否互相對立。

          4.Multi-Bernoulli 分布(離散型)

          Multi-Bernoulli 分布又稱為范疇分布(Categorical distribution),它的類別超過 2,交叉熵的形式與該分布的負對數(shù)形式是一致的。

          5. 多項式分布(離散型)

          范疇分布是多項式分布(Multinomial distribution)的一個特例,它與范疇分布的關(guān)系就像伯努利分布與二項分布之間的關(guān)系。

          6.Beta 分布(連續(xù)型)

          貝塔分布(Beta Distribution) 是一個作為伯努利分布和二項式分布的共軛先驗分布的密度函數(shù),它指一組定義在 (0,1) 區(qū)間的連續(xù)概率分布。均勻分布是 Beta 分布的一個特例,即在 alpha=1、 beta=1 的分布。

          7. 狄利克雷分布(連續(xù)型)

          狄利克雷分布(Dirichlet distribution)是一類在實數(shù)域以正單純形(standard simplex)為支撐集(support)的高維連續(xù)概率分布,是 Beta 分布在高維情形的推廣。在貝葉斯推斷中,狄利克雷分布作為多項式分布的共軛先驗得到應用,在機器學習中被用于構(gòu)建狄利克雷混合模型。

          8.Gamma 分布(連續(xù)型)

          Gamma 分布是統(tǒng)計學中的常見連續(xù)型分布,指數(shù)分布、卡方分布和 Erlang 分布都是它的特例。如果 Gamma(a,1) / Gamma(a,1) + Gamma(b,1),那么 Gamma 分布就等價于 Beta(a, b) 分布。

          9. 指數(shù)分布(連續(xù)型)

          指數(shù)分布可以用來表示獨立隨機事件發(fā)生的時間間隔,比如旅客進入機場的時間間隔、打進客服中心電話的時間間隔等等。當 alpha 等于 1 時,指數(shù)分布就是 Gamma 分布的特例。

          10. 高斯分布(連續(xù)型)

          高斯分布或正態(tài)分布是最為重要的分布之一,它廣泛應用于整個機器學習的模型中。例如,我們的權(quán)重用高斯分布初始化、我們的隱藏向量用高斯分布進行歸一化等等。

          當正態(tài)分布的均值為 0、方差為 1 的時候,它就是標準正態(tài)分布,這也是我們最常用的分布。

          11. 卡方分布(連續(xù)型)

          簡單而言,卡方分布(Chi-squared)可以理解為,k 個獨立的標準正態(tài)分布變量的平方和服從自由度為 k 的卡方分布。卡方分布是一種特殊的伽瑪分布,是統(tǒng)計推斷中應用最為廣泛的概率分布之一,例如假設(shè)檢驗和置信區(qū)間的計算。

          12. 學生 t-分布

          學生 t-分布(Student t-distribution)用于根據(jù)小樣本來估計呈正態(tài)分布且變異數(shù)未知的總體,其平均值是多少。t 分布也是對稱的倒鐘型分布,就如同正態(tài)分布一樣,但它的長尾占比更多,這意味著 t 分布更容易產(chǎn)生遠離均值的樣本。

          分布的代碼實現(xiàn)

          上面多種分布的 NumPy 構(gòu)建方式以及制圖方式都提供了對應的代碼,讀者可在原項目中查閱。如下所示展示了指數(shù)分布的構(gòu)建的制圖方式,我們可以直接定義概率密度函數(shù),再打印出來就好了。
          import numpy as np
          from matplotlib import pyplot as plt

          def exponential(x, lamb):
              y = lamb * np.exp(-lamb * x)
              return x, y, np.mean(y), np.std(y)

          for lamb in [0.511.5]:

              x = np.arange(0200.01, dtype=np.float)
              x, y, u, s = exponential(x, lamb=lamb)
              plt.plot(x, y, label=r'$mu=%.2f, sigma=%.2f,'
                                   r' lambda=%d$' % (u, s, lamb))
          plt.legend()
          plt.savefig('graph/exponential.png')
          plt.show()

          往期精彩:

           男人30歲,不該有暮氣

          【原創(chuàng)首發(fā)】機器學習公式推導與代碼實現(xiàn)30講.pdf

          【原創(chuàng)首發(fā)】深度學習語義分割理論與實戰(zhàn)指南.pdf

           談中小企業(yè)算法崗面試

           算法工程師研發(fā)技能表

           真正想做算法的,不要害怕內(nèi)卷

           算法工程師的日常,一定不能脫離產(chǎn)業(yè)實踐

           技術(shù)學習不能眼高手低

           技術(shù)人要學會自我營銷

           做人不能過擬合

          求個在看

          瀏覽 48
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  伊人操插无码操插 | 日韩丝袜足交视频网站 | 青青草啪啪 | 中文字幕无码乱伦 | 淫乱人妻av|