正態(tài)分布對數(shù)據(jù)分析很重要~
轉(zhuǎn)自:機器之心
什么是概率分布?
什么是正態(tài)分布?
為什么變量如此青睞正態(tài)分布
如何用 Python 查看查看特征的分布?
其它分布變一變也能近似正態(tài)分布
什么是概率分布?
如果我們想準(zhǔn)確地預(yù)測變量,那么首先我們要了解目標(biāo)變量的基本行為。 我們先要確定目標(biāo)變量可能輸出的結(jié)果,以及這個可能的輸出結(jié)果是離散值(孤立值)還是連續(xù)值(無限值)。簡單點解釋就是,如果我們要評估骰子的行為,那么第一步是要知道它可以取 1 到 6 之間的任一整數(shù)值(離散值)。 然后下一步是開始為事件(值)分配概率。因此,如果一個值不會出現(xiàn),則概率為 0%。
什么是正態(tài)概率分布?

平均值——樣本中所有點的平均值。
標(biāo)準(zhǔn)差——表示數(shù)據(jù)集與樣本均值的偏離程度。
為什么這么多變量近似正態(tài)分布?

平均值是曲線的中心。這是曲線的最高點,因為大多數(shù)點都在平均值附近; 曲線兩側(cè)點的數(shù)量是相等的。曲線中心的點數(shù)量最多; 曲線下的面積是變量能取的所有值的概率和; 因此曲線下面的總面積為 100%。

約有 68.2% 的點落在 ±1 個標(biāo)準(zhǔn)差的范圍內(nèi) 約有 95.5% 的點落在 ±2 個標(biāo)準(zhǔn)差的范圍內(nèi) 約有 99.7% 的點落在 ±3 個標(biāo)準(zhǔn)差的范圍內(nèi)。

如果你用計算好的概率密度函數(shù)繪制概率分布曲線,那么給定范圍的曲線下的面積就描述了目標(biāo)變量在該范圍內(nèi)的概率。 概率分布函數(shù)是根據(jù)多個參數(shù)(如變量的平均值或標(biāo)準(zhǔn)差)計算得到的。 我們可以用概率分布函數(shù)求出隨機變量在一個范圍內(nèi)取值的相對概率。舉個例子,我們可以記錄股票的日收益,把它們分到合適的桶中,然后找出未來收益概率在 20~40% 的股票。 標(biāo)準(zhǔn)差越大,樣本波動越大。
如何用 Python 找出特征分布?

AxB 服從正態(tài)分布; A+B 服從正態(tài)分布。
變量還是乖乖地變成正態(tài)分布吧
Z 分數(shù) 計算平均值 計算標(biāo)準(zhǔn)差

scipy.stats.boxcox(x,?lmbda=None,?alpha=None)

sklearn.preprocessing.PowerTransformer(method=’yeo-johnson’,?standardize=True,?copy=True)
推薦閱讀: 170+道釘釘前端掃盲知識點 高頻前端面試問題及答案整理 2021年最新Javascript相關(guān)面試題 2021年最新Web前端HTML面試題 最近面試BAT,整理一份面試資料《前端面試BAT通關(guān)手冊》,覆蓋了前端技術(shù)、CSS、JavaScript、框架、?數(shù)據(jù)庫、數(shù)據(jù)結(jié)構(gòu)等等。 獲取方式:關(guān)注公眾號并回復(fù)?前端?領(lǐng)取,更多內(nèi)容陸續(xù)奉上。 明天見(??ω??)??
評論
圖片
表情
