<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          手把手教你使用Python實(shí)現(xiàn)常用的假設(shè)檢驗(yàn) !

          共 2861字,需瀏覽 6分鐘

           ·

          2020-08-22 20:55

          開(kāi)門(mén)見(jiàn)山。

          這篇文章,教大家用Python實(shí)現(xiàn)常用的假設(shè)檢驗(yàn)



          服從什么分布,就用什么區(qū)間估計(jì)方式,也就就用什么檢驗(yàn)!

          比如:兩個(gè)樣本方差比服從F分布,區(qū)間估計(jì)就采用F分布計(jì)算臨界值(從而得出置信區(qū)間),最終采用F檢驗(yàn)。



          建設(shè)檢驗(yàn)的基本步驟:




          前言


          假設(shè)檢驗(yàn)用到的Python工具包

          • Statsmodels是Python中,用于實(shí)現(xiàn)統(tǒng)計(jì)建模和計(jì)量經(jīng)濟(jì)學(xué)的工具包,主要包括描述統(tǒng)計(jì)、統(tǒng)計(jì)模型估計(jì)和統(tǒng)計(jì)推斷
          • Scipy是一個(gè)數(shù)學(xué)、科學(xué)和工程計(jì)算Python工具包,主要包括統(tǒng)計(jì),優(yōu)化,整合,線性代數(shù)等等與科學(xué)計(jì)算有關(guān)的包

          導(dǎo)入數(shù)據(jù)
          from sklearn.datasets import load_irisimport numpy as np#導(dǎo)入IRIS數(shù)據(jù)集iris = load_iris()iris=pd.DataFrame(iris.data,columns=['sepal_length','sepal_width','petal_legth','petal_width'])print(iris)

          一個(gè)總體均值的z檢驗(yàn)
          np.mean(iris['petal_legth'])'''原假設(shè):鳶尾花花瓣平均長(zhǎng)度是4.2備擇假設(shè):鳶尾花花瓣平均長(zhǎng)度不是4.2
          '''
          import statsmodels.stats.weightstatsz, pval = statsmodels.stats.weightstats.ztest(iris['petal_legth'], value=4.2)print(z,pval)

          '''P=0.002 <5%, 拒絕原假設(shè),接受備則假設(shè)。'''

          一個(gè)總體均值的t檢驗(yàn)
          import scipy.statst, pval = scipy.stats.ttest_1samp(iris['petal_legth'], popmean=4.0)print(t, pval)
          '''P=0.0959 > 5%, 接受原假設(shè),即花瓣長(zhǎng)度為4.0。 '''


          模擬雙樣本t檢驗(yàn)

          #取兩個(gè)樣本iris_1 = iris[iris.petal_legth >= 2]iris_2 = iris[iris.petal_legth < 2]print(np.mean(iris_1['petal_legth']))print(np.mean(iris_2['petal_legth']))
          '''H0: 兩種鳶尾花花瓣長(zhǎng)度一樣H1: 兩種鳶尾花花瓣長(zhǎng)度不一樣
          '''
          import scipy.statst, pval = scipy.stats.ttest_ind(iris_1['petal_legth'],iris_2['petal_legth'])print(t,pval)
          '''p<0.05,拒絕H0,認(rèn)為兩種鳶尾花花瓣長(zhǎng)度不一樣'''


          ?練習(xí)


          數(shù)據(jù)字段說(shuō)明:
          • gender:性別,1為男性,2為女性
          • Temperature:體溫
          • HeartRate:心率
          • 共130行,3列
          • 用到的數(shù)據(jù)鏈接:pan.baidu.com/s/1t4SKF6

          本周需要解決的幾個(gè)小問(wèn)題:

          1. 人體體溫的總體均值是否為98.6華氏度?

          2. 人體的溫度是否服從正態(tài)分布?

          3. 人體體溫中存在的異常數(shù)據(jù)是哪些?

          4. 男女體溫是否存在明顯差異?

          5. 體溫與心率間的相關(guān)性(強(qiáng)?弱?中等?)


          1.1 探索數(shù)據(jù)

          import numpy as npimport pandas as pdfrom scipy import statsdata = pd.read_csv("C:\\Users\\baihua\\Desktop\\test.csv")print(data.head())sample_size = data.size #130*3out:   Temperature  Gender  HeartRate0         96.3       1         701         96.7       1         712         96.9       1         743         97.0       1         804         97.1       1         73
          print(data.describe())out: Temperature Gender HeartRatecount 130.000000 130.000000 130.000000mean 98.249231 1.500000 73.761538std 0.733183 0.501934 7.062077min 96.300000 1.000000 57.00000025% 97.800000 1.000000 69.00000050% 98.300000 1.500000 74.00000075% 98.700000 2.000000 79.000000max 100.800000 2.000000 89.000000
          人體體溫均值是98.249231

          1.2 人體的溫度是否服從正態(tài)分布?

          '''人體的溫度是否服從正態(tài)分布?先畫(huà)出分布的直方圖,然后使用scipy.stat.kstest函數(shù)進(jìn)行判斷。
          '''%matplotlib inlineimport seaborn as snssns.distplot(data['Temperature'], color='b', bins=10, kde=True)

          stats.kstest(data['Temperature'], 'norm')out:KstestResult(statistic=1.0, pvalue=0.0)'''p<0.05,不符合正態(tài)分布'''

          判斷是否服從t分布
          '''判斷是否服從t分布:
          '''
          np.random.seed(1)ks = stats.t.fit(data['Temperature'])df = ks[0]loc = ks[1]scale = ks[2]t_estm = stats.t.rvs(df=df, loc=loc, scale=scale, size=sample_size)stats.ks_2samp(data['Temperature'], t_estm)
          '''
          pvalue=0.4321464176976891 <0.05,認(rèn)為體溫服從t分布'''

          判斷是否服從卡方分布
          '''判斷是否服從卡方分布:
          '''np.random.seed(1)chi_square = stats.chi2.fit(data['Temperature'])df = chi_square[0]loc = chi_square[1]scale = chi_square[2]chi_estm = stats.chi2.rvs(df=df, loc=loc, scale=scale, size=sample_size)stats.ks_2samp(data['Temperature'], chi_estm)
          '''pvalue=0.3956146564478842>0.05,認(rèn)為體溫服從卡方分布
          '''

          繪制卡方分布直方圖
          '''繪制卡方分布圖
          '''
          from matplotlib import pyplot as pltplt.figure()data['Temperature'].plot(kind = 'kde')chi2_distribution = stats.chi2(chi_square[0], chi_square[1],chi_square[2])x = np.linspace(chi2_distribution.ppf(0.01), chi2_distribution.ppf(0.99), 100)plt.plot(x, chi2_distribution.pdf(x), c='orange')plt.xlabel('Human temperature')plt.title('temperature on chi_square', size=20)plt.legend(['test_data', 'chi_square'])


          1.3 人體體溫中存在的異常數(shù)據(jù)是哪些?

          '''已知體溫?cái)?shù)據(jù)服從卡方分布的情況下,可以直接使用Python計(jì)算出P=0.025和P=0.925時(shí)(該函數(shù)使用單側(cè)概率值)的分布值,在分布值兩側(cè)的數(shù)據(jù)屬于小概率,認(rèn)為是異常值。'''lower1=chi2_distribution.ppf(0.025)lower2=chi2_distribution.ppf(0.925)t=data['Temperature']print(t[t )print(t[t>lower2])
          out:
          0 96.31 96.765 96.466 96.767 96.8Name: Temperature, dtype: float6463 99.464 99.5126 99.4127 99.9128 100.0129 100.8Name: Temperature, dtype: float64

          1.4 男女體溫差異是否顯著

          '''此題是一道兩個(gè)總體均值之差的假設(shè)檢驗(yàn)問(wèn)題,因?yàn)槭欠翊嬖诓顒e并不涉及方向,所以是雙側(cè)檢驗(yàn)。建立原假設(shè)和備擇假設(shè)如下:H0:u1-u2 =0  沒(méi)有顯著差H1:u1-u2 != 0  有顯著差別
          '''data.groupby(['Gender']).size() #樣本量65male_df = data.loc[data['Gender'] == 1]female_df = data.loc[data['Gender'] == 2]
          '''使用Python自帶的函數(shù),P用的雙側(cè)累計(jì)概率'''

          import scipy.statst, pval = scipy.stats.ttest_ind(male_df['Temperature'],female_df['Temperature'])print(t,pval)if pval > 0.05: print('不能拒絕原假設(shè),男女體溫?zé)o明顯差異。')else: print('拒絕原假設(shè),男女體溫存在明顯差異。')
          out:-2.2854345381654984 0.02393188312240236拒絕原假設(shè),男女體溫存在明顯差異。

          1.5 體溫與心率間的相關(guān)性(強(qiáng)?弱?中等?)

          '''
          體溫與心率間的相關(guān)性(強(qiáng)?弱?中等?)
          '''
          heartrate_s = data['HeartRate']temperature_s = data['Temperature']from matplotlib import pyplot as pltplt.scatter(heartrate_s, temperature_s)


          stat, p = stats.pearsonr(heartrate_s, temperature_s)print('stat=%.3f, p=%.3f' % (stat, p))print(stats.pearsonr(heartrate_s, temperature_s))
          '''相關(guān)系數(shù)為0.004,可以認(rèn)為二者之間沒(méi)有相關(guān)性
          '''


          End.
          作者:求知鳥(niǎo)
          來(lái)源:知乎

          瀏覽 74
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国产精品视频免费看 | 永久免费不卡在线观看黄网站 | 日本黄视频在线观看网 | 欧美高清无码 在线观看 | 亚洲日本番视频在线 |