<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          數(shù)據(jù)分析、數(shù)據(jù)挖掘基礎(chǔ):描述統(tǒng)計(jì)學(xué)基礎(chǔ)知識(shí)分享!

          共 2923字,需瀏覽 6分鐘

           ·

          2020-10-09 19:16


          Mr-chen?| 作者
          博客園?|?來(lái)源
          https://www.cnblogs.com/chentianwei/p/12488891.html



          描述統(tǒng)計(jì)學(xué)數(shù)據(jù)挖掘的基礎(chǔ)。



          1


          分位數(shù)


          分位數(shù)(英語(yǔ):Quantile),亦稱分位點(diǎn),是指用分割點(diǎn)(cut point)將一個(gè)隨機(jī)變量的概率分布范圍分為幾個(gè)具有相同概率的連續(xù)區(qū)間


          分割點(diǎn)的數(shù)量比劃分出的區(qū)間少1。


          例如:3個(gè)分割點(diǎn)能分出4個(gè)區(qū)間。


          常用的有中位數(shù)(二分位數(shù))、四分位數(shù)(quartile)、十分位數(shù)(decile)、百分位數(shù)等。


          q-quantile是指將有限值集分為q個(gè)接近相同尺寸的子集。


          分位數(shù)指的就是連續(xù)分布函數(shù)中的一個(gè)點(diǎn),這個(gè)點(diǎn)對(duì)應(yīng)概率p


          四分位數(shù)(英語(yǔ):Quartile)是統(tǒng)計(jì)學(xué)中分位數(shù)的一種,即把所有數(shù)值由小到大排列,然后按照總數(shù)量分成四等份,即每份中的數(shù)值的數(shù)量相同,處于三個(gè)分割點(diǎn)位置的數(shù)值就是四分位數(shù)。


          這3個(gè)數(shù)叫做:


          • 第一四分位數(shù):又稱較小四分位數(shù),等于該樣本中所有數(shù)值由小到大排列后第25%的數(shù)字。

          • 第二四分位數(shù):又稱中位數(shù),等于該樣本中所有數(shù)值由小到大排列后第50%的數(shù)字。

          • 第三四分位數(shù):又稱較大四分位數(shù),等于該樣本中所有數(shù)值由小到大排列后第75%的數(shù)字。


          pandas.DataFrame.quantile()和numpy.percentile()計(jì)算結(jié)果一樣。


          pandas中有describe方法顯示四分位數(shù)。


          例子:


          >>> ps = pd.DataFrame([1,2,3,4,5,6,7,8,9,10,11,12])
          >>> ps.describe()
          ???????????????0
          count 12.000000
          mean 6.500000
          std 3.605551
          min 1.000000
          25%?????3.750000 #分割點(diǎn)
          50%?????6.500000
          75%?????9.250000
          max 12.000000


          >>> ps.quantile(0.25)
          0 3.75
          ?
          >>> ps.quantile(0.5)
          0 6.5


          >>> np.percentile(ps, 50)
          6.5


          分析方法中的二八法則,結(jié)合分位數(shù)來(lái)使用。


          2


          標(biāo)準(zhǔn)差&方差

          描述數(shù)據(jù)離散程度數(shù)據(jù)的波動(dòng)性。


          • 方差:統(tǒng)計(jì)中的方差(樣本方差)是每個(gè)樣本值與全體樣本值的平均數(shù)之差的平方值的平均數(shù)。

          • 標(biāo)準(zhǔn)差:對(duì)方差開(kāi)跟號(hào)。因?yàn)榉讲顣?huì)消除數(shù)據(jù)的單位。元,缺少了業(yè)務(wù)的含義,所以引入標(biāo)準(zhǔn)差。)


          例子:

          a=[10,10,10,11,12,12,12]

          b=[3,5,7,11,15,17,19]

          a和b的中位數(shù)和平均數(shù)都11,但他們的方差不一樣,a的方差

          a數(shù)據(jù)集的離散程度小于b數(shù)據(jù)集。

          均值+/-標(biāo)準(zhǔn)差,這個(gè)范圍的數(shù)據(jù)占了整個(gè)數(shù)據(jù)集的大部分,可以說(shuō)數(shù)值大部分在這個(gè)范圍內(nèi)波動(dòng)。

          闡述:數(shù)據(jù)集的平均值是m, 大部分在m+/-方差的范圍內(nèi)波動(dòng)。


          例子:


          #還是上面的數(shù)據(jù)
          >>> ps.std()
          0 3.605551


          3


          權(quán)重統(tǒng)計(jì):數(shù)據(jù)標(biāo)準(zhǔn)化之Z-Score標(biāo)準(zhǔn)化


          Z-Score標(biāo)準(zhǔn)化是標(biāo)準(zhǔn)化的一種。可以發(fā)現(xiàn)數(shù)據(jù)中的趨勢(shì)。


          (樣本i-均值)/標(biāo)準(zhǔn)差=數(shù)據(jù)標(biāo)準(zhǔn)化


          它們可以通過(guò)現(xiàn)有樣本進(jìn)行估計(jì)。在已有樣本足夠多的情況下比較穩(wěn)定,適合現(xiàn)代嘈雜大數(shù)據(jù)場(chǎng)景。


          #附加,mac-numbers使用公式的方法:
          1.單元格按=號(hào),右側(cè)彈出函數(shù)列,選擇函數(shù),然后選擇需要計(jì)算的單元格。
          2.完成計(jì)算后,這個(gè)公式可以復(fù)制ctr+c, 然后選擇整列,再ctr+v,應(yīng)用到整列
          - 或者點(diǎn)擊單元格,方框正下方有個(gè)小黃點(diǎn),可以下拉。


          4


          切比雪夫定理


          19世紀(jì)俄國(guó)數(shù)學(xué)家切比雪夫研究統(tǒng)計(jì)規(guī)律中,論證并用標(biāo)準(zhǔn)差表達(dá)了一個(gè)不等式,這個(gè)不等式具有普遍的意義,被稱作切比雪夫定理大意是:


          任意一個(gè)數(shù)據(jù)集中,位于其平均數(shù)m個(gè)標(biāo)準(zhǔn)差范圍內(nèi)的比例(或部分)總是至少為1-1/m2,其中m為大于1的任意正數(shù)。


          對(duì)于m=2,m=3和m=5有如下結(jié)果:


          • 所有數(shù)據(jù)中,至少有3/4(或75%)的數(shù)據(jù)位于平均數(shù)2個(gè)標(biāo)準(zhǔn)差范圍內(nèi)。

          • 所有數(shù)據(jù)中,至少有8/9(或88.9%)的數(shù)據(jù)位于平均數(shù)3個(gè)標(biāo)準(zhǔn)差范圍內(nèi)。

          • 所有數(shù)據(jù)中,至少有24/25(或96%)的數(shù)據(jù)位于平均數(shù)5個(gè)標(biāo)準(zhǔn)差范圍內(nèi)?。?


          隨機(jī)數(shù)據(jù)集合,只有知道平均數(shù)和標(biāo)準(zhǔn)差,就知道這個(gè)數(shù)據(jù)集合的大概分布。


          例子:某大學(xué)100個(gè)學(xué)生平均成績(jī)70分,標(biāo)準(zhǔn)差5分,問(wèn)有多少學(xué)生的成績(jī)?cè)?0·80分?

          答:

          60-70=-10

          80-70= 10

          60/80位于2個(gè)標(biāo)準(zhǔn)差。

          1-1/22 =3/4=75%。

          所以60~80分的學(xué)生至少占75%?

          5


          描述統(tǒng)計(jì)的可視化


          1.box箱線圖


          4分位數(shù)來(lái)表示數(shù)據(jù)的范圍分布


          • 箱體表示占一半數(shù)量的數(shù)值

          • 下四分位數(shù)到下邊界,表示1/4數(shù)量的數(shù)值 (較小數(shù))

          • 上四分位數(shù)到上邊界,表示1/4數(shù)量的數(shù)據(jù) (較大數(shù))




          注意:?上面50%的價(jià)格分布在較小的區(qū)域


          2.直方圖 histogram?


          x軸的數(shù)據(jù),每個(gè)范圍/值都是唯一的。


          在統(tǒng)計(jì)學(xué)中,直方圖是一種對(duì)數(shù)據(jù)分布情況的圖形表示,是一種二維統(tǒng)計(jì)圖表,它的兩個(gè)坐標(biāo)分別是統(tǒng)計(jì)樣本該樣本對(duì)應(yīng)的某個(gè)屬性的度量,以長(zhǎng)條圖的形式具體表現(xiàn)。


          因?yàn)橹狈綀D的長(zhǎng)度及寬度很適合用來(lái)表現(xiàn)數(shù)量上的變化,所以較容易解讀差異小的數(shù)值。



          總共有數(shù)據(jù)1000個(gè),使用參數(shù)bins=50, x軸的數(shù)據(jù)被等分成50份。?





          6


          概率


          1.交集和并集



          解釋:A并B,有一部分是重合的,重合部分就是交集。計(jì)算A并B時(shí),多了一塊交集,所以需要減去多出的一塊交集。



          解釋:用公式和符號(hào)表示: 在B已經(jīng)發(fā)生的情況下,A發(fā)生的概率。圓A和B相交的面積/圓B的面積=在B已經(jīng)發(fā)生的情況下,A發(fā)生的概率。


          7


          貝葉斯定理?


          例1:如果某種疾病的發(fā)病率為千分之一。現(xiàn)在有一種試紙,它在患者得病的情況下,有99%的準(zhǔn)確率判斷患者得病,在患者沒(méi)有得病的情況下,有5%的可能誤判患者得病。現(xiàn)在試紙說(shuō)一個(gè)患者得了病,那么患者真的得病的概率是多少?


          可以用分析圖來(lái)分析:



          所以用試紙查出患者占總樣本人數(shù)的比例為:(4995+99)/100000=5.094 %


          但實(shí)際上這部分查出有病的人中(5094人),有4995人是誤診的。所以查出的這部分人中只有1.943%是真生病的人。


          先驗(yàn)概率(歷史經(jīng)驗(yàn)):

          • P(A1)表示生病人群的概率:0.1%

          • P(A2)表示健康人群的概率:99.9%


          新信息:

          • 事件B表示用試紙檢測(cè),并判斷生病。

          • P(B|A1):是真實(shí)患者的條件下,試紙查出來(lái)是患者的概率:99%

          • P(B|A2):? 是健康人群條件下,? ?試紙誤判是患者的概率:5%


          應(yīng)用貝葉斯定理:



          求得后驗(yàn)概率:

          P(A1|B) 即用試紙檢查出是患者的條件下,是真實(shí)患者的概率。1.943%


          例2:一輛出租車在夜晚肇事之后逃逸,一位目擊證人辨認(rèn)出肇事車輛是藍(lán)色的。已知這座城市 85% 的出租車是綠色的,15% 是藍(lán)色的。警察經(jīng)過(guò)測(cè)試,認(rèn)為目擊者在當(dāng)時(shí)可以正確辨認(rèn)出這兩種顏色的概率是 80%, 辨別錯(cuò)誤的概率是 20%. 請(qǐng)問(wèn),肇事出租車是藍(lán)色的概率是多少?


          注意,如果腦子亂,沒(méi)有思路:

          • 紙上畫圖(xmind思維導(dǎo)圖)

          • 假設(shè)一個(gè)真實(shí)的樣本數(shù)據(jù)。



          -?END -

          本文為轉(zhuǎn)載分享&推薦閱讀,若侵權(quán)請(qǐng)聯(lián)系后臺(tái)刪除

          瀏覽 104
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  久一久二久三 | 爱搞搞就搞搞爱 | 顶级毛片高清免费精品视频 | 天堂色偷偷 | 五月天视频网站 |