<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          數(shù)據(jù)分析系列:Z 檢驗(yàn)和 T 檢驗(yàn)的應(yīng)用及代碼實(shí)現(xiàn)

          共 4871字,需瀏覽 10分鐘

           ·

          2020-07-03 23:23

          0375e8e66608306f35a0df519d010e84.webp


          作者:數(shù)據(jù)科學(xué)家聯(lián)盟
          來源:J


          目錄

          • 0前言

          • 1 Z 檢驗(yàn)

            • 1.單樣本 Z 檢驗(yàn)

            • 2.雙樣本 Z 檢驗(yàn)

          • 2 T 檢驗(yàn)

            • 1.單樣本 T 檢驗(yàn)

            • 2.雙樣本 T 檢驗(yàn)

          • 3 比例檢驗(yàn)

            • 1.單比例檢驗(yàn)

            • 2.雙比例檢驗(yàn)

          • 4 總結(jié)

            • 1. Z 分布和 T 分布

            • 2. Z 檢驗(yàn)和 T 檢驗(yàn)的區(qū)別

          0x00 前言

          均值對(duì)比是數(shù)據(jù)分析中最重要的內(nèi)容之一,應(yīng)用廣泛。

          • 對(duì)比試驗(yàn)前后病人的癥狀,證明某種藥是否有效;
          • 對(duì)比某個(gè)班級(jí)兩次語(yǔ)文成績(jī),驗(yàn)證是否有提高;
          • 對(duì)比某個(gè)產(chǎn)品在投放廣告前后的銷量,看廣告是否有效。

          這些都屬于兩均值對(duì)比的應(yīng)用。

          均值對(duì)比的假設(shè)檢驗(yàn)方法主要有 Z 檢驗(yàn)和 T 檢驗(yàn),它們的區(qū)別在于 Z 檢驗(yàn)面向總體數(shù)據(jù)和大樣本數(shù)據(jù),而 T 檢驗(yàn)適用于小規(guī)模抽樣樣本。下面分別介紹 Z 檢驗(yàn)和 T 檢驗(yàn)。

          0x01 Z 檢驗(yàn)

          需要事先知道總體方差,另外,如果總體不服從正態(tài)分布,那么樣本量要大于等于 30 ;如果總體服從正態(tài)分布,那么對(duì)樣本量沒有要求。

          Z 檢驗(yàn)用于比較樣本和總體的均值是否不同或者兩個(gè)樣本的均值是否不同。檢驗(yàn)統(tǒng)計(jì)量 z 值的分布服從正態(tài)分布。

          1.單樣本 Z 檢驗(yàn)

          使用單樣本 Z 可以在知道總體的標(biāo)準(zhǔn)差時(shí),估計(jì)總體的均值并將它與目標(biāo)值或參考值進(jìn)行比較。使用此分析,可以執(zhí)行以下操作:確定總體均值是否不同于您指定的假設(shè)均值。計(jì)算可能包括總體均值的值范圍。

          例子:

          • 質(zhì)量分析員使用單樣本 Z 檢驗(yàn)來確定螺栓的平均螺紋長(zhǎng)度是否不同于目標(biāo)值 39 毫米。如果均值不同于目標(biāo)值,分析員將使用置信區(qū)間來確定差值有可能為多大以及差值是否有實(shí)際意義;

          實(shí)現(xiàn)代碼:

          import?statsmodels.stats.weightstats?as?sw
          arr?=?[
          ????23,36,42,34,39,34,35,42,53,28,
          ????49,39,46,45,39,38,45,27,43,54,
          ????36,34,48,36,47,44,48,45,44,33,
          ????24,40,50,32,39,31
          ]
          tstats,?pvalue?=?sw.ztest(arr,?value=39)
          print(tstats,?pvalue)
          #?輸出:0.3859224924939799 0.6995540720244979
          #?假設(shè)置信度為?0.05 ,由于 p 值大于置信度,接受原假設(shè)。所以平均螺紋長(zhǎng)度等于 39 。

          2.雙樣本 Z 檢驗(yàn)

          在兩個(gè)總體標(biāo)準(zhǔn)差(s1 和 s2)已知的情況下,檢驗(yàn)基于獨(dú)立樣本的兩個(gè)總體平均值(m1 和 m2)是否相等(或大于/小于)。

          實(shí)現(xiàn)代碼:

          import?statsmodels.stats.weightstats?as?sw
          arr1?=?[
          ????23,36,42,34,39,34,35,42,53,28,
          ????49,39,46,45,39,38,45,27,43,54,
          ????36,34,48,36,47,44,48,45,44,33,
          ????24,40,50,32,39,31
          ]
          arr2?=?[
          ????41,34,36,32,32,35,33,31,35,34,
          ????37,34,31,36,37,34,33,37,33,38,
          ????38,37,34,36,36,31,33,36,37,35,
          ????33,34,33,35,34,34,34,35,35,34
          ]
          tstats,?pvalue?=?sw.ztest(arr1,?arr2,?value=0,?alternative='two-sided')
          print(tstats,?pvalue)
          #?3.775645601380307?0.0001595937672736755
          #?假設(shè)置信度為?0.05 ,由于 p 值小于置信度?0.05 ,拒絕原假設(shè),接受備選假設(shè)。所以兩個(gè)獨(dú)立樣本的總體均值相等。

          0x02 T 檢驗(yàn)

          T 檢驗(yàn),亦稱 student t 檢驗(yàn)(Student's t test),主要用于樣本含量較小(例如 n < 30),總體標(biāo)準(zhǔn)差 σ 未知的正態(tài)分布資料。T 檢驗(yàn)是用 T 分布理論來推論差異發(fā)生的概率,從而比較兩個(gè)平均數(shù)的差異是否顯著。

          事先不知道總體方差,另外,如果總體不服從正態(tài)分布,那么樣本量要大于等于 30 ,如果總體服從正態(tài)分布,那么對(duì)樣本量沒有要求。

          Z 檢驗(yàn)雖然能夠進(jìn)行均值差異性檢驗(yàn),但是,它要求總體標(biāo)準(zhǔn)差已知或者樣本容量足夠大,這是很難做到甚至無法達(dá)成的。這時(shí)候t檢驗(yàn)就粉墨登場(chǎng)了,只需從正態(tài)總體中抽取小規(guī)模的樣本數(shù)據(jù),并計(jì)算均值與標(biāo)準(zhǔn)差,用來代替正態(tài)總體的均值和標(biāo)準(zhǔn)差即可。

          1.單樣本 T 檢驗(yàn)

          單樣本 T 檢驗(yàn)確定樣本均值是否與已知或假設(shè)的總體均值具有統(tǒng)計(jì)學(xué)差異。

          例子:

          • 你有 10 個(gè)年齡,你正在檢查平均年齡是否為 30 歲;
          • 已知一般嬰兒出生體重 μ0 ,現(xiàn)有n個(gè)難產(chǎn)兒出生重量數(shù)量,檢驗(yàn)難產(chǎn)兒與一般嬰兒體重的總體均數(shù)是否相等(檢驗(yàn)難產(chǎn)兒體重與一般嬰兒體重有沒有顯著性差異);
          • 媒體報(bào)道某大學(xué)的學(xué)生平均學(xué)習(xí)時(shí)間是 2.5h ,為了證實(shí)這報(bào)道的數(shù)據(jù)是否正確,隨機(jī)抽樣 16 人,平均學(xué)習(xí)時(shí)間是 3.2h ,方差是 0.57 ,檢驗(yàn)這所學(xué)校學(xué)生學(xué)習(xí)時(shí)長(zhǎng)與媒體報(bào)道中的時(shí)長(zhǎng)是否顯著不同;

          實(shí)現(xiàn)代碼:

          from?scipy?import?stats
          arr?=?[31,?35,?28,?29,?27,?34,?32,?33,?30,?26]
          statistic,?pvalue?=?stats.ttest_1samp(arr,?30)
          print('statistic={},?pvalue={}'.format(statistic,?pvalue))
          #?輸出:statistic=0.5222329678670935, pvalue=0.614117254808394
          #?假設(shè)置信度為?0.05 ,由于 p 值大于置信度?0.05 ,接受原假設(shè)。所以 arr 的均值與 30?差異不顯著。

          2.雙樣本 T 檢驗(yàn)

          獨(dú)立樣本 T 檢驗(yàn)或雙樣本 T 檢驗(yàn)比較兩個(gè)獨(dú)立組的平均值,以確定是否有統(tǒng)計(jì)證據(jù)表明相關(guān)的人口均值存在顯著差異。獨(dú)立樣本 T 檢驗(yàn)是參數(shù)檢驗(yàn)。該測(cè)試也稱為:獨(dú)立 T 檢驗(yàn)。

          1)獨(dú)立均值 T 檢驗(yàn)

          例子:

          • 研究表達(dá)性寫作對(duì)創(chuàng)傷事件的治愈效果(ABTest);
          • 用T檢驗(yàn)比較下列男、女兒童身高的均值是否一樣;

          實(shí)現(xiàn)代碼:

          import?statsmodels.stats.weightstats?as?st
          arr1?=?[8,?7,?9,?6,?8]
          arr2?=?[6,?7,?7,?6,?6]
          #?usevar='unequal'兩個(gè)總體方差不一樣
          t,?p,?df?=?st.ttest_ind(arr1,?arr2,?alternative='two-sided',?usevar='unequal')
          print('t值={},p值={},自由度={}'.format(t,?p,?df))
          #?輸出:t值=2.1213203435596415,p值=0.08011884223003829,自由度=5.752808988764045
          #?假設(shè)置信度為?0.05 ,由于 p 值大于置信度?0.05 ,接受原假設(shè)。所以 arr1 與 arr2 的均值沒有差異。

          2)非獨(dú)立(配對(duì)樣本)均值 T 檢驗(yàn)

          例子:

          • 檢驗(yàn)運(yùn)動(dòng)前和運(yùn)動(dòng)后同一批人的體重是否有變化。
          • 檢驗(yàn) 5 位丈夫結(jié)婚前后交流質(zhì)量是否有變化。

          實(shí)現(xiàn)代碼:

          from?scipy?import?stats
          arr1?=?[8,?7,?9,?6,?8]
          arr2?=?[6,?7,?7,?6,?6]
          statistic,?pvalue?=?stats.ttest_rel(arr1,?arr2)
          print('statistic={},?pvalue={}'.format(statistic,?pvalue))
          #?輸出:statistic=2.449489742783178, pvalue=0.07048399691021993
          #?假設(shè)置信度為?0.05 ,由于 p 值大于置信度?0.05 ,接受原假設(shè)。所以 arr1 與 arr2 所代表的總體均值相等。

          注:Z 分布與 T 分布,是兩個(gè)分布,概率函數(shù)公式的存在差異,T 分布較 Z 分布多了一個(gè)自由度的變量,懲罰小樣本,增加其拒絕 H0 的難度,因而小樣本采用 T 檢驗(yàn),優(yōu)于 Z 檢驗(yàn)。

          0x03 比例檢驗(yàn)

          1.單比例檢驗(yàn)

          計(jì)算未知成功比例 (prop) 的檢驗(yàn)。它將樣本 x 中的成功計(jì)數(shù)和樣本 n 中的觀察計(jì)數(shù)作為輸入,比較樣本(p0)和總體(prop)的比率是否相同,以此來檢驗(yàn)樣本和總體之間的差異性。

          零假設(shè):

          • H0: prop=p0
          • H0: prop
          • H0: prop>p0

          例子:

          • 汽車制造商聲稱不安全的汽車不超過 10% ,檢查了 15 輛汽車的安全性,發(fā)現(xiàn) 3 輛不安全,通過假設(shè)檢驗(yàn)判斷不安全汽車的概率是否不超過 10% 。

          實(shí)現(xiàn)代碼:

          #?顯著性水平?α?=?0.05 ,原假設(shè) H0?:汽車不安全性小于?0.1 ;備擇假設(shè) H1 :汽車不安全性大于?0.1
          from?statsmodels.stats.proportion?import?proportions_ztest
          stat,?pval?=?proportions_ztest(3,?15,?0.1,?alternative='larger')
          print('{0:0.4f}'.format(pval))
          #?輸出:0.1664
          #?由于p大于0.05,接受原假設(shè)。

          2.雙比例檢驗(yàn)

          計(jì)算檢驗(yàn)以比較兩個(gè)總體的成功比例(p1 和 p2)。它將每個(gè)樣本中的成功計(jì)數(shù)(x1 和 x2)和每個(gè)樣本中的觀察計(jì)數(shù)(n1 和 n2)作為輸入。

          零假設(shè):

          • H0: p1 = p2
          • H0: p1 < p2
          • H0: p1 > p2

          例子:

          • 調(diào)查南方人還是北方人更喜歡吃甜豆花
            7e739fa6213c451bf5cb0ec539be937f.webp

          實(shí)現(xiàn)代碼:

          from?statsmodels.stats.proportion?import?proportions_ztest
          # H0:假設(shè)南方人和北方人愛吃甜豆花的比例沒有差異;H1:假設(shè)南方人和北方人愛吃甜豆花的比例有差異;
          z_score,?p_value?=?sp.proportions_ztest(
          ????[81,?48],?[180,?150],?alternative='two-sided')
          print('p_value={}'.format(p_value))
          print(z_score,?p_value)
          #?輸出:0.0160
          #?由于 p 小于?0.05 ,接受備選假設(shè),南方人與北方人在喜愛吃甜豆花的比例上有顯著差別,南方人愛吃甜豆花比例更高。

          0x0FF 總結(jié)

          1. Z 分布和 T 分布

          • Z 分布,標(biāo)準(zhǔn)正態(tài)分布。
          • T 分布,正態(tài)分布,v為自由度,隨著v增加,形態(tài)最終趨向標(biāo)準(zhǔn)正態(tài)分布。
          88e16c0f8b0fac52a789cc5739c2ddd6.webpT 分布較 Z 分布多了一個(gè)自由度的變量,懲罰小樣本,增加其拒絕 H0 的難度,因而小樣本采用 T 檢驗(yàn),優(yōu)于 Z 檢驗(yàn)。

          2. Z 檢驗(yàn)和 T 檢驗(yàn)的區(qū)別

          • Z 檢驗(yàn)用于大樣本(n > 30),或總體方差已知;
          • T 檢驗(yàn)用于小樣本(n < 30),且總體方差未知時(shí),適用性優(yōu)于 Z 檢驗(yàn),而在大樣本時(shí),Z 檢驗(yàn)和 T 檢驗(yàn)的結(jié)論趨同。

          下一篇文章,我們將介紹 F 檢驗(yàn)和 卡方 檢驗(yàn)的應(yīng)用及代碼實(shí)現(xiàn)。


          ◆?◆?◆ ?◆?




          長(zhǎng)按二維碼關(guān)注我們



          數(shù)據(jù)森麟公眾號(hào)的交流群已經(jīng)建立,許多小伙伴已經(jīng)加入其中,感謝大家的支持。大家可以在群里交流關(guān)于數(shù)據(jù)分析&數(shù)據(jù)挖掘的相關(guān)內(nèi)容,還沒有加入的小伙伴可以掃描下方管理員二維碼,進(jìn)群前一定要關(guān)注公眾號(hào)奧,關(guān)注后讓管理員幫忙拉進(jìn)群,期待大家的加入。


          管理員二維碼:



          猜你喜歡

          ?笑死人不償命的知乎沙雕問題排行榜

          ?用Python扒出B站那些“驚為天人”的阿婆主!

          ?全球股市跳水大戰(zhàn),誰(shuí)最坑爹!

          ?華農(nóng)兄弟、徐大Sao&李子柒?誰(shuí)才是B站美食區(qū)的最強(qiáng)王者?

          ?你相信逛B站也能學(xué)編程嗎

          瀏覽 71
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  91.xxxxx | 亚洲在线观看高清无码 | 在线无码一区 | 久久亚洲AV成人无码国产人妖 | 国产亲妺妺乱A片)) |