<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          統(tǒng)計學(xué)小抄:常用術(shù)語和基本概念小結(jié)

          共 1630字,需瀏覽 4分鐘

           ·

          2022-05-27 11:38

          大家好,我是陳銳。


          今天分享內(nèi)容來源DeepHub IMBA,內(nèi)容僅供參考學(xué)習(xí)分享。

          作者:Anjali Dharmik

          統(tǒng)計學(xué)是涉及數(shù)據(jù)的收集,組織,分析,解釋和呈現(xiàn)的學(xué)科。

          統(tǒng)計的類型

          1. 描述性統(tǒng)計

          描述性統(tǒng)計是以數(shù)字和圖表的形式來理解、分析和總結(jié)數(shù)據(jù)。對不同類型的數(shù)據(jù)(數(shù)值的和分類的)使用不同的圖形和圖表來分析數(shù)據(jù),如條形圖、餅圖、散點圖、直方圖等。所有的解釋和可視化都是描述性統(tǒng)計的一部分。重要的是要記住,描述性統(tǒng)計可以在樣本和總體數(shù)據(jù)上執(zhí)行,但并不會使用總體數(shù)據(jù)。

          1. 推論統(tǒng)計

          從總體數(shù)據(jù)中提取一些數(shù)據(jù)樣本,然后從這些數(shù)據(jù)樣本中,推斷一些東西(結(jié)論)。數(shù)據(jù)樣本被用作對該總圖作出結(jié)論的基礎(chǔ)。這可以通過各種技術(shù)來實現(xiàn),比如數(shù)據(jù)可視化和操作。

          數(shù)據(jù)的類型

          1、數(shù)字數(shù)字

          數(shù)字數(shù)據(jù)就是指數(shù)字或數(shù)值型的數(shù)據(jù)。數(shù)值數(shù)據(jù)又分為離散和連續(xù)兩類數(shù)值變量。

          I) 離散數(shù)值變量——離散變量的概念是指具有有限取值范圍的變量,例如教室中的排名、系中教授的數(shù)量等。

          II) 連續(xù)數(shù)值變量——連續(xù)變量的值可以是無限的,可能是范圍內(nèi)的任意數(shù)值,例如員工的工資。

          2、分類數(shù)據(jù)-

          分類數(shù)據(jù)類型是數(shù)據(jù)的字符類型表示,例如名稱和顏色。一般來說,這些也有兩種類型。

          I) 序數(shù)變量—序數(shù)分類變量,其值可以在一系列值中排序,例如學(xué)生的年級(a、B、C),或高、中、低。

          II) 名義變量——這些變量沒有排名,只是包含名稱或一些類別,如顏色名稱、主題等。

          集中趨勢量數(shù)的度量

          集中趨勢的度量給出了數(shù)據(jù)中心的概念,即數(shù)據(jù)的中心是什么。其中有幾個術(shù)語,如平均值、中位數(shù)和眾數(shù)。

          一個特定數(shù)值變量的平均值是其中所有數(shù)值的平均值。當數(shù)據(jù)包含異常值時,不建議找出平均值并將其用于任何類型的操作,因為單個異常值會嚴重影響平均值。

          中值是對所有數(shù)字排序后的中心值。如果總數(shù)是偶數(shù),那么它就是中心2值的平均值。它不依賴或影響異常值,除非一半的數(shù)據(jù)是異常值(這樣的話就不是異常值了)。

          眾數(shù)是觀察結(jié)果中出現(xiàn)最多的數(shù)值。Numpy沒有提供查找眾數(shù)的函數(shù),但是Scipy有。

          在使用的時候,不要只使用他們?nèi)齻€的一個,可以試著全部使用這三種方法,這樣就可以理解數(shù)據(jù)的本質(zhì)。

          數(shù)據(jù)分布度的度量

          分布度度量描述了特定變量(數(shù)據(jù)項)的觀察值集的相似性或變化程度。分布度的度量包括范圍,四分位數(shù)和四分位數(shù)范圍,方差和標準差。

          1、范圍

          通過比較數(shù)據(jù)的最大和最小值(最大值)來定義范圍。

          2、四分位數(shù)

          四分位數(shù)是按數(shù)字列表分為四分之一的值。找到四分位數(shù)的步驟是。

          • 按順序排列數(shù)字

          • 將列表切成4個相等的部分

          • 4分的切分點就是4分位數(shù)的值

          可以通過描繪25、50、75和100的百分位數(shù)來找到4個四分位數(shù)。其中Q2也被稱為中位數(shù)。

          它通過描述與平均值的絕對偏差來描述數(shù)據(jù)的變化,也稱為平均絕對偏差(MAD)。

          3、四分位數(shù)范圍(IQR)

          四分位間范圍(IQR)是前75個和后部25個百分位數(shù)之間分散體的量度。它經(jīng)常出現(xiàn)在異常值檢測和處理的情況下。

          4、平均絕對偏差

          它通過描述與平均值的絕對偏差來描述數(shù)據(jù)的變化,也稱為平均絕對偏差(MAD)。簡單地說,它告訴集合中每個點與平均絕對距離。

          5、差方

          方差衡量的是數(shù)據(jù)點離均值的距離。要計算方差,需要找出每個數(shù)據(jù)點與平均值的差值,然后平方,求和,然后取平均值??梢灾苯佑胣umpy計算方差。

          方差的問題在于:由于是平方,它與原始數(shù)據(jù)不在同一個計量單位內(nèi)。因為它不是直觀的,所以大多數(shù)人更喜歡標準差。

          6、標準差

          方差的平方根是標準差,因為我們對原始單位平方,所以我們再次得到相同測量的標準差。使用Numpy,可以直接計算這個。

          正態(tài)分布

          正態(tài)分布是鐘形曲線形式的分布,機器學(xué)習(xí)中的大多數(shù)數(shù)據(jù)集遵循正態(tài)分布,如果不是正態(tài)分布,一般會嘗試將其轉(zhuǎn)換為正態(tài)分布,許多機器學(xué)習(xí)算法在此分布上會有很好的效果,因為在現(xiàn)實中, 世界情景也許多用例也遵循此分配。

          如果任何數(shù)據(jù)遵循正態(tài)分布或高斯分布,那么它也遵循三個條件,稱為經(jīng)驗公式

          1. P[mean - std_dev <= mean + std_dev] = 68%


          2. P[mean - 2*std_dev <= mean + 2*std_dev] = 95%


          3. P[mean - 3*std_dev <= mean + 3*std_dev] = 99.7%

          在進行探索性數(shù)據(jù)分析的同時也可以將任何變量分布轉(zhuǎn)化為標準正態(tài)分布。

          偏態(tài)

          偏度是對分布對稱性的一種度量,可以用直方圖(KDE)來繪制,它在數(shù)據(jù)眾數(shù)方面有一個高峰。偏度一般分為左偏數(shù)據(jù)和右偏數(shù)據(jù)兩種。有些人也把它理解為三種類型,第三種是對稱分布,即正態(tài)分布。

          一、數(shù)據(jù)右偏(正偏分布)

          右偏態(tài)分布是指數(shù)據(jù)有一個向右的長尾(正軸)。右偏的一個經(jīng)典例子是財富分配,很少人擁有很高的財富大多數(shù)人處于中等范圍。

          二、數(shù)據(jù)左偏(負偏分布)

          左偏態(tài)分布是指數(shù)據(jù)有一個長尾朝向左側(cè)(負軸)。一個例子可以是學(xué)生的成績,將會有更少的學(xué)生得到更少的成績,最大的學(xué)生將會在及格類別。

          中心極限定理

          中心極限定理:分析任意總體的樣本數(shù)據(jù)做一些統(tǒng)計測量后,標準差的均值和樣本均值會近似相等。這只是中心極限定理。

          概率密度函數(shù)(PDF)

          如果你知道直方圖,然后你把數(shù)據(jù)進行分箱,就可以對數(shù)據(jù)進行可視化的分析。但是如果我們想對數(shù)值數(shù)據(jù)進行多類分析,那么很難使用直方圖進行操作。這是就需要使用概率密度函數(shù)。概率密度函數(shù)是僅使用KDE(內(nèi)核密度估計)在直方圖內(nèi)繪制的線。

          在上面的圖中,編寫3個區(qū)分分類3個類的條件該怎么做?使用直方圖和PDF可以輕松的看到區(qū)別。

          從上方直方圖中可以看出,如果值小于2,則是setosa。如果大于2且小于4.5,那么它是versicolor。從5到7都是virginica。但是4.5之后的重疊區(qū)域會對判斷進行干擾,在這里PDF可以為我們提供更多的理論支持。

          累積分布函數(shù)(CDF)

          CDF可以告訴我們有多少百分比的數(shù)據(jù)小于某個特定的數(shù)字。找到CDF的過程是,將在指定點之前的所有的直方圖相加。另一種方法是使用微積分,使用曲線下面積,找到想要CDF的點,畫出直線,然后求出內(nèi)部面積。可以對PDF進行積分得到CDF,對CDF求導(dǎo)得到PDF。

          如何計算PDF和CDF

          我們將計算setosa的PDF和CDF。我們將花瓣長度轉(zhuǎn)換為10個分箱,并提取每個箱的樣本數(shù)和邊緣值,這些邊緣表示容器的起點和終點。為了計算PDF,我們將每個頻率計數(shù)值除以總和,我們得到概率密度函數(shù),找到PDF,就可以繼續(xù)計算得到CDF。

          1. ounts, bin_edges = np.histogram(iris_setosa[‘PL’], bins=10)

          2. pdf = counts / sum(counts)

          3. cdf = np.cumsum(pdf)

          4. print(pdf)

          5. print(cdf)


          謝謝大家觀看,如有幫助,來個喜歡或者關(guān)注吧!


          本文僅供學(xué)習(xí)參考,有任何疑問及建議,掃描以下公眾號二維碼添加交流:


          更多學(xué)習(xí)內(nèi)容,僅在知識星球發(fā)布:


          瀏覽 16
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  在线观看三级视频图片 | 麻豆成人入口 | 波多野结衣视频免费在线观看 | 久久1122精品少妇 | 国产色999 |