<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          數(shù)據(jù)分析必備——統(tǒng)計學入門基礎知識

          共 2099字,需瀏覽 5分鐘

           ·

          2020-10-17 03:30








          數(shù)據(jù)說·夢想季

          成功的關鍵在于相信自己有成功的能力。數(shù)據(jù)之路,與你同行!——數(shù)據(jù)說·夢想季





          導讀要做好數(shù)據(jù)分析,除了自身技術硬以及數(shù)據(jù)思維靈活外,還得學會必備的統(tǒng)計學基礎知識!因此,統(tǒng)計學是數(shù)據(jù)分析必須掌握的基礎知識,即通過搜索、整理、分析、描述數(shù)據(jù)等手段,以達到推斷所測對象的本質(zhì),甚至預測對象未來的一門綜合性科學。統(tǒng)計學用到了大量的數(shù)學及其它學科的專業(yè)知識,其應用范圍幾乎覆蓋了社會科學和自然科學的各個領域,而在數(shù)據(jù)量極大的互聯(lián)網(wǎng)領域也不例外,因此扎實的統(tǒng)計學基礎是一個優(yōu)秀的數(shù)據(jù)人必備的技能。

          但是,統(tǒng)計學的知識包括了圖形信息化、數(shù)據(jù)的集中趨勢、概率計算、排列組合、連續(xù)型概率分布、離散型概率分布、假設檢驗、相關和回歸等知識,對于具體的知識點,本文就不一一介紹了,感興趣的同學請參考《深入淺出統(tǒng)計學》、《統(tǒng)計學:從數(shù)據(jù)到結(jié)論》等專業(yè)書籍。

          統(tǒng)計學分為描述性統(tǒng)計學和推斷性統(tǒng)計學。

          一、

          描述性統(tǒng)計


          定義:使用特定的數(shù)字或圖表來體現(xiàn)數(shù)據(jù)的集中程度和離散程度。
          1、集中趨勢集中趨勢是指一組數(shù)據(jù)所趨向的中心數(shù)值,用到的指標有:算數(shù)均數(shù)、幾何均數(shù)、中位數(shù)。
          1)??算數(shù)均數(shù):即為均數(shù),用以反映一組呈對稱分布的變量值在數(shù)量上的平均水平。
          2)幾何均數(shù):常用以反映一組經(jīng)對數(shù)轉(zhuǎn)換后呈對稱分布的變量值在數(shù)量上的平均水平。
          3)中位數(shù):適用于偏態(tài)分布資料和一端或兩端無確切的數(shù)值的資料,是第50百分位數(shù)。
          4)百分位數(shù):為一界值,用以確定醫(yī)學參考值范圍。
          ?
          2、離散趨勢是反映數(shù)據(jù)的變異程度,常用指標有極差、四分位間距、方差與標準差、變異系數(shù)。
          1)極差:為一組數(shù)據(jù)的最大值和最小值之差,但極差不能反映所有數(shù)據(jù)的變異大小,且極易受樣本含量的影響。常用以描述偏態(tài)分布。
          2)四分位數(shù)間距:它是由第3四分位數(shù)與第1四分位數(shù)相減得到,常和中位數(shù)一起描述偏態(tài)分布資料的分布。
          3)方差與標準差:反映一組數(shù)據(jù)的平均離散水平,消除了樣本含量的影響,常和均數(shù)一起用來描述一組數(shù)據(jù)中的離散和集中趨勢。
          4)變異系數(shù):也稱作異常值,多用于觀察指標單位不同時,可消除因單位不同而不能進行比較的困難。
          例如箱線圖就可以很好反映其中部分重點統(tǒng)計值。
          ? ? ? ? ? ? ?
          ?
          3、抽樣方法和中心極限定理
          #抽樣方法
          我們在做產(chǎn)品檢驗的時候,不可能把所有的產(chǎn)品都打開檢驗一遍看是否合格,我們只能從全部的產(chǎn)品中抽取部分樣本進行檢驗,依據(jù)樣本的質(zhì)量估算整體的產(chǎn)品質(zhì)量,這個就是抽樣,抽樣的定義是為了檢驗整體從整體中抽離部分樣本進行檢測,以樣本的檢測結(jié)果進行整體質(zhì)量的估算的方法。
          抽樣有多種方法,針對不同的目的和場景,需要運用不同的方法進行檢測,常見的抽樣方法有:
          #概率抽樣
          ?簡單隨機抽樣;
          ?分層抽樣;
          ?整群抽樣(先將總體中若干個單位合并為組,這樣的組稱為群,再直接對群進行抽樣);
          ?系統(tǒng)抽樣(將總體中所有單位按一定順序排列,在規(guī)定的范圍內(nèi)隨機抽取一個單位作為初始單位,然后再按事先指定好的規(guī)則確定其他樣本單位);
          ?階段抽樣(先抽群,然后在群內(nèi)進行二階段抽樣)。
          #非概率抽樣
          ?方便抽樣(依據(jù)方便原則自行確定);
          ?判斷抽樣(依據(jù)專業(yè)知識進行判斷);
          ?自愿樣本(調(diào)查者自愿參加);
          ?滾雪球樣本(類似樹結(jié)構(gòu));
          ?配額樣本(類似分層抽樣);
          #兩者抽樣方法之間的比較:
          ?非概率抽樣適合探索性的研究,為更深入的數(shù)據(jù)分析做準備,特點是操作簡便、時效快、成本低。而且對于抽樣中的統(tǒng)計專業(yè)技術要求不是很高;
          ?概率抽樣的技術含量更高,調(diào)查成本更高,統(tǒng)計學專業(yè)知識要求更高,適合調(diào)查目的為研究對象總體,得到總體參數(shù)的置信區(qū)間。
          ?


          #中心極限定理:若給定樣本量的所有樣本來自任意整體,則樣本均值的抽樣分布近似服從正態(tài)分布,且樣本量越大,近似性越強。以30為界限,當樣本量大于30的時候符合中心極限定理,樣本服從正態(tài)分布;當樣本量小于30的時候,總體近似正態(tài)分布時,此時樣本服從t分布。樣本的分布形態(tài)決定了我們在假設檢驗中采用什么方法去檢驗它。
          ?

          二、

          推斷性統(tǒng)計



          定義:根據(jù)樣本數(shù)據(jù)推斷總體的數(shù)據(jù)特征。
          1、基本步驟
          產(chǎn)品質(zhì)檢的時候用的幾乎都是抽樣方法的推斷性統(tǒng)計,推斷性的過程就是一種假設檢驗,在做推斷性統(tǒng)計的時候我們需要明確幾點:
          1)問題是什么?——
          2)需要明確的證據(jù)是什么?
          3)判斷標準是什么?
          ?
          明確后可以對應我們假設檢驗的幾個步驟了:
          1)提出原假設(H0)和備選假設(H1),確定顯著性水平(原假設為正確時,人們把它拒絕了的概率)
          2)選擇檢驗方法,確定檢驗統(tǒng)計量
          3)確定P值,作出統(tǒng)計推理
          ?
          假設對于某一個器件,國家標準要求:平均值要低于20。
          某公司制造出10個器件,相關數(shù)值如下:15.6 16.2 22.5 20.5 16.4 19.4 16.6 17.9 12.7 13.9
          運用假設檢驗判斷該公司器件是否符合國家標準:
          1)設假設:
          原假設:器件平均值>=20;
          備擇假設:器件平均值<20;
          2)總體為正態(tài)分布,方差未知,樣本為小樣本,因此采用T檢驗。
          3)計算檢驗統(tǒng)計量:樣本平均值17.17,樣本標準差2.98,檢驗統(tǒng)計量為?(17.17-20)/(2.98/√10)=-3.0031
          4)當置信度選擇97.5%,自由度為9,此時為單尾檢驗,臨界值為2.262。
          5)由于-3.0031<-2.262,拒絕原假設,因此接受備擇假設,該器件滿足國家標準。
          ?
          2、假設檢驗類型
          ?單樣本檢驗:檢驗單個樣本的平均值是否等于目標值
          ?相關配對檢驗:檢驗相關或配對觀測之差的平均值是否等于目標值
          ?獨立雙樣本檢驗:檢驗兩個獨立樣本的平均值之差是否等于目標值
          ?
          3、統(tǒng)計檢驗方法
          Z檢驗:一般用于大樣本(即樣本容量大于30)平均值差異性檢驗的方法。它是用標準正態(tài)分布的理論來推斷差異發(fā)生的概率,從而比較兩個平均數(shù)>平均數(shù)的差異是否顯著。
          T檢驗:用于樣本含量較小(例如n<30),總體標準差σ未知的正態(tài)分布樣本。
          F檢驗:F檢驗又叫方差齊性檢驗。在兩樣本t檢驗中要用到F檢驗。檢驗兩個樣本的方差是否有顯著性差異 這是選擇何種T檢驗(等方差雙樣本檢驗,異方差雙樣本檢驗)的前提條件。
          (T檢驗用來檢測數(shù)據(jù)的準確度,檢測系統(tǒng)誤差 ;F檢驗用來檢測數(shù)據(jù)的精密度,檢測偶然誤差)
          卡方檢驗:主要用于檢驗兩個或兩個以上樣本率或構(gòu)成比之間差別的顯著性,也可檢驗兩類事物之間是否存在一定的關系。
          ?
          4、雙尾檢測和單尾檢測
          這個和我們提出的原假設相關,例如我們檢測的原假設:器件平均值>=20;我們需要拒絕的假設就是器件平均值<20,此時就是單尾檢驗;如果我們的原假設是器件平均值>20,則我們需要拒絕的假設就是器件平均值<20和器件平均值=20,此時就是雙尾檢測;
          ?
          5、置信區(qū)間和置信水平
          在統(tǒng)計學中,幾乎都是依據(jù)樣本來推斷總體的情況的,但在推斷的過程中,我們會遇到各種各樣的阻礙和干擾,所以我們推斷出的結(jié)果不是一個切確的數(shù)字,而是在某個合理的區(qū)間內(nèi),這個范圍就是置信區(qū)間。
          但整體中所有的數(shù)據(jù)都在這個范圍也不現(xiàn)實,我們只需要絕大多數(shù)出現(xiàn)在置信區(qū)間就可以了,這里的絕大多數(shù)就是置信水平的概念,通常情況我們的置信水平是95%。
          置信區(qū)間[a,b]的計算方法為:(z分數(shù):由置信水平?jīng)Q定,查表得)
          a = 樣本均值 - z*標準誤差,b = 樣本均值 + z*標準誤差



          志在必得

          不學自知,不問自曉,古今行事未之有也!就數(shù)據(jù)分析而言,我們通過統(tǒng)計學可以用更富有信息驅(qū)動力和針對性的方式對數(shù)據(jù)進行操作。更深入、更細致地觀察數(shù)據(jù)是如何進行精確組織的,并且基于這種組織結(jié)構(gòu)確定數(shù)據(jù)分析的方法,來獲取更多的信息。


          --end--


          掃描下方二維碼
          添加好友,備注【交流
          可私聊交流,也可進資源豐富學習群
          瀏覽 79
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  日韩精品在线一二三四五区 | 果冻传媒91cm-084换妻下部董小宛 | 五月天淫秽网站 | 国产麻豆一区二区 | 蜜乳一区二区三区 |