5個基本概念,從統(tǒng)計(jì)學(xué)到機(jī)器學(xué)習(xí)
來源:CSDN


當(dāng)箱形圖很短時,就意味著很多數(shù)據(jù)點(diǎn)是相似的,因?yàn)楹芏嘀凳窃谝粋€很小的范圍內(nèi)分布; 當(dāng)箱形圖較高時,就意味著大部分的數(shù)據(jù)點(diǎn)之間的差異很大,因?yàn)檫@些值分布的很廣; 如果中位數(shù)接近了底部,那么大部分的數(shù)據(jù)具有較低的值。如果中位數(shù)比較接近頂部,那么大多數(shù)的數(shù)據(jù)具有更高的值?;旧?,如果中位線不在框的中間,那么就表明了是偏斜數(shù)據(jù); 如果框上下兩邊的線很長表示數(shù)據(jù)具有很高的標(biāo)準(zhǔn)偏差和方差,意味著這些值被分散了,并且變化非常大。如果在框的一邊有長線,另一邊的不長,那么數(shù)據(jù)可能只在一個方向上變化很大



均勻分布是其中最基本的概率分布方式。它有一個只出現(xiàn)在一定范圍內(nèi)的值,而在該范圍之外的都是0。我們也可以把它考慮為是一個具有兩個分類的變量:0或另一個值。分類變量可能具有除0之外的多個值,但我們?nèi)匀豢梢詫⑵淇梢暬癁槎鄠€均勻分布的分段函數(shù)。
正態(tài)分布,通常也稱為高斯分布,具體是由它的平均值和標(biāo)準(zhǔn)偏差來定義的。平均值是在空間上來回變化位置進(jìn)行分布的,而標(biāo)準(zhǔn)偏差控制著它的分布擴(kuò)散范圍。與其它的分布方式的主要區(qū)別在于,在所有方向上標(biāo)準(zhǔn)偏差是相同的。因此,通過高斯分布,我們知道數(shù)據(jù)集的平均值以及數(shù)據(jù)的擴(kuò)散分布,即它在比較廣的范圍上擴(kuò)展,還是主要圍繞在少數(shù)幾個值附近集中分布。 泊松分布與正態(tài)分布相似,但存在偏斜率。象正態(tài)分布一樣,在偏斜度值較低的情況下,泊松分布在各個方向上具有相對均勻的擴(kuò)散。但是,當(dāng)偏斜度值非常大的時候,我們的數(shù)據(jù)在不同方向上的擴(kuò)散將會是不同的。在一個方向上,數(shù)據(jù)的擴(kuò)散程度非常高,而在另一個方向上,擴(kuò)散的程度則非常低。



Python大數(shù)據(jù)分析
data creates?value
掃碼關(guān)注我們
評論
圖片
表情
