<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          10個面試必會的統(tǒng)計學(xué)問題!

          共 3120字,需瀏覽 7分鐘

           ·

          2021-11-19 15:43

          數(shù)分面試經(jīng)常會問到一些統(tǒng)計知識點,這些知識點不難,但沒能快速答上來,總會給人不專業(yè)的感覺。
          比如:所有的檢驗統(tǒng)計都是正態(tài)分布的嗎?統(tǒng)計學(xué)的意義是什么?假設(shè)檢驗的內(nèi)涵和步驟?這篇文章帶你來看10個必知必會的統(tǒng)計學(xué)問題。




          正文




          來源:計量經(jīng)濟學(xué)


          1、問:自由度是什么?怎樣確定?

          答:(定義)構(gòu)成樣本統(tǒng)計量的獨立的樣本觀測值的數(shù)目或自由變動的樣本觀測值的數(shù)目。用df表示。

          自由度的設(shè)定是出于這樣一個理由:在總體平均數(shù)未知時,用樣本平均數(shù)去計算離差(常用小s)會受到一個限制——要計算標準差(小s)就必須先知道樣本平均數(shù),而樣本平均數(shù)和n都知道的情況下,數(shù)據(jù)的總和就是一個常數(shù)了。

          所以,“最后一個”樣本數(shù)據(jù)就不可以變了,因為它要是變,總和就變了,而這是不允許的。

          通俗點說,一個班上有50個人,我們知道他們語文成績平均分為80,現(xiàn)在只需要知道49個人的成績就能推斷出剩下那個人的成績。你可以隨便報出49個人的成績,但是最后一個人的你不能瞎說,因為平均分已經(jīng)固定下來,自由度少一個。

          2、問:正態(tài)分布檢驗中自由度問題

          答:在正態(tài)分布檢驗中,這里的M(三個統(tǒng)計量)為:N(總數(shù))、平均數(shù)和標準差。

          因為我們在做正態(tài)檢驗時,要使用到平均數(shù)和標準差以確定該正態(tài)分布形態(tài),此外,要計算出各個區(qū)間的理論次數(shù),我們還需要使用到N。

          所以在正態(tài)分布檢驗中,自由度為K-3。

          3、問:t檢驗

          答:t檢驗適用于兩個變量均數(shù)間的差異檢驗,多于兩個變量間的均數(shù)比較要用方差分析。

          無論哪種類型的t檢驗,都必須在滿足特定的前提條件下: 正態(tài)性和方差齊性,應(yīng)用才是合理的。這是因為必須在這樣的前提下所計算出的t統(tǒng)計量才服從t分布,而t檢驗正是以t分布作為其理論依據(jù)的檢驗方法。

          t檢驗是目前醫(yī)學(xué)研究中使用頻率最高,醫(yī)學(xué)論文中最常見到的處理定量資料的假設(shè)檢驗方法。

          4、問:統(tǒng)計學(xué)意義(P值)?

          答:結(jié)果的統(tǒng)計學(xué)意義是結(jié)果真實程度(能夠代表總體)的一種估計方法。專業(yè)上,P值為結(jié)果可信程度的一個遞減指標,P值越大,我們越不能認為樣本中變量的關(guān)聯(lián)是總體中各變量關(guān)聯(lián)的可靠指標。

          P值是將觀察結(jié)果認為有效即具有總體代表性的犯錯概率。如P=0.05提示樣本中變量關(guān)聯(lián)有5%的可能是由于偶然性造成的。即假設(shè)總體中任意變量間均無關(guān)聯(lián)

          我們重復(fù)類似實驗,會發(fā)現(xiàn)約20個實驗中有一個實驗,我們所研究的變量關(guān)聯(lián)將等于或強于我們的實驗結(jié)果。(這并不是說如果變量間存在關(guān)聯(lián),我們可得到5%或95%次數(shù)的相同結(jié)果,當(dāng)總體中的變量存在關(guān)聯(lián),重復(fù)研究和發(fā)現(xiàn)關(guān)聯(lián)的可能性與設(shè)計的統(tǒng)計學(xué)效力有關(guān)。)

          在許多研究領(lǐng)域,0.05的P值通常被認為是可接受錯誤的邊界水平。

          5、問:如何判定結(jié)果具有真實的顯著性

          答:在最后結(jié)論中判斷什么樣的顯著性水平具有統(tǒng)計學(xué)意義,不可避免地帶有武斷性。換句話說,認為結(jié)果無效而被拒絕接受的水平的選擇具有武斷性。

          實踐中,最后的決定通常依賴于數(shù)據(jù)集比較和分析過程中結(jié)果是先驗性還是僅僅為均數(shù)之間的兩兩比較,依賴于總體數(shù)據(jù)集里結(jié)論一致的支持性證據(jù)的數(shù)量,依賴于以往該研究領(lǐng)域的慣例。

          通常,許多的科學(xué)領(lǐng)域中產(chǎn)生P值的結(jié)果≤0.05被認為是統(tǒng)計學(xué)意義的邊界線,但是這顯著性水平還包含了相當(dāng)高的犯錯可能性。結(jié)果 0.05≥P>0.01被認為是具有統(tǒng)計學(xué)意義,而0.01≥P≥0.001被認為具有高度統(tǒng)計學(xué)意義。但要注意這種分類僅僅是研究基礎(chǔ)上非正規(guī)的判斷常規(guī)。

          6、問:所有的檢驗統(tǒng)計都是正態(tài)分布的嗎?

          答:并不完全如此,但大多數(shù)檢驗都直接或間接與之有關(guān),可以從正態(tài)分布中推導(dǎo)出來,如t檢驗、F檢驗或卡方檢驗。這些檢驗一般都要求:所分析變量在總體中呈正態(tài)分布,即滿足所謂的正態(tài)假設(shè)。許多觀察變量的確是呈正態(tài)分布的,這也是正態(tài)分布是現(xiàn)實世界的基本特征的原因。

          隨著樣本量的增加,樣本分布形狀趨于正態(tài),即使所研究的變量分布并不呈正態(tài)。

          7、問:假設(shè)檢驗的內(nèi)涵及步驟

          答:在假設(shè)檢驗中,由于隨機性我們可能在決策上犯兩類錯誤,一類是假設(shè)正確,但我們拒絕了假設(shè),這類錯誤是“棄真”錯誤,被稱為第一類錯誤;

          一類是假設(shè)不正確,但我們沒拒絕假設(shè),這類錯誤是“取偽”錯誤,被稱為第二類錯誤。

          一般來說,在樣本確定的情況下,任何決策無法同時避免兩類錯誤的發(fā)生,即在避免第一類錯誤發(fā)生機率的同時,會增大第二類錯誤發(fā)生的機率;或者在避免第二類錯誤發(fā)生機率的同時,會增大第一類錯誤發(fā)生的機率。人們往往根據(jù)需要選擇對那類錯誤進行控制,以減少發(fā)生這類錯誤的機率。大多數(shù)情況下,人們會控制第一類錯誤發(fā)生的概率。

          發(fā)生第一類錯誤的概率被稱作顯著性水平,一般用α表示,在進行假設(shè)檢驗時,是通過事先給定顯著性水平α的值而來控制第一類錯誤發(fā)生的概率。

          在這個前提下,假設(shè)檢驗按下列步驟進行:

          1)確定假設(shè);

          2)進行抽樣,得到
          一定的數(shù)據(jù);

          3)根據(jù)假設(shè)條件下,構(gòu)造檢驗統(tǒng)計量,并根據(jù)抽樣得到的數(shù)據(jù)計算檢驗統(tǒng)計量在這次抽樣中的具體值;

          4)依據(jù)所構(gòu)造的檢驗統(tǒng)計量的抽樣分布,和給定的顯著性水平,確定拒絕域及其臨界值;

          5)比較這次抽樣中檢驗統(tǒng)計量的值與臨界值的大小,如果檢驗統(tǒng)計量的值在拒絕域內(nèi),則拒絕假設(shè);

          到這一步,假設(shè)檢驗已經(jīng)基本完成,但是由于檢驗是利用事先給定顯著性水平的方法來控制犯錯概率的,所以對于兩個數(shù)據(jù)比較相近的假設(shè)檢驗,我們無法知道那一個假設(shè)更容易犯錯,即我們通過這種方法只能知道根據(jù)這次抽樣而犯第一類錯誤的最大概率(即給定的顯著性水平),而無法知道具體在多大概率水平上犯錯。

          計算 P值有效的解決了這個問題,P值其實就是按照抽樣分布計算的一個概率值,這個值是根據(jù)檢驗統(tǒng)計量計算出來的。通過直接比較P值與給定的顯著性水平α的大小就可以知道是否拒絕假設(shè),顯然這就代替了比較檢驗統(tǒng)計量的值與臨界值的大小的方法。

          而且通過這種方法,我們還可以知道在p值小于α的情況下犯第一類錯誤的實際概率是多少,p=0.03<α=0.05,那么拒絕假設(shè),這一決策可能犯錯的概率是0.03。需要指出的是,如果P>α,那么假設(shè)不被拒絕,在這種情況下,第一類錯誤并不會發(fā)生。

          8、問:卡方檢驗的結(jié)果,值是越大越好,還是越小越好?

          答:與其它檢驗一樣,所計算出的統(tǒng)計量越大,在分布中越接近分布的尾端,所對應(yīng)的概率值越小。如果試驗設(shè)計合理、數(shù)據(jù)正確,顯著或不顯著都是客觀反映。沒有什么好與不好。

          9、問:在比較兩組數(shù)據(jù)的率是否相同時,二項分布和卡方檢驗有什么不同?

          答:卡方分布主要用于多組多類的比較,是檢驗研究對象總數(shù)與某一類別組的觀察頻數(shù)和期望頻數(shù)之間是否存在顯著差異,要求每格中頻數(shù)不小于5,如果小于5則合并相鄰組。

          二項分布則沒有這個要求。如果分類中只有兩類還是采用二項檢驗為好。如果是2*2表格可以用fisher精確檢驗,在小樣本下效果更好。

          10、問:如何比較兩組數(shù)據(jù)之間的差異性

          答:從三個方面來回答,

          1)設(shè)計類型是完全隨機設(shè)計兩組數(shù)據(jù)比較,不知道數(shù)據(jù)是否是連續(xù)性變量?

          2)比較方法:如果數(shù)據(jù)是連續(xù)性數(shù)據(jù),且兩組數(shù)據(jù)分別服從正態(tài)分布和方差齊性檢驗,則可以采用t檢驗,如果不服從以上條件可以采用其他檢驗。

          3)想知道兩組數(shù)據(jù)是否有明顯差異?不知道這個明顯差異是什么意思?是問差別有無統(tǒng)計學(xué)意義(即差別的概率有多大)還是兩總體均數(shù)差值在哪個范圍波動?如果是前者則可以用第2步可以得到P值,如果是后者,則是用均數(shù)差值的置信區(qū)間來完成的。


          往期精彩:

          ?時隔一年!深度學(xué)習(xí)語義分割理論與代碼實踐指南.pdf第二版來了!

          ?新書預(yù)告 | 《機器學(xué)習(xí)公式推導(dǎo)與代碼實現(xiàn)》出版在即!

          瀏覽 164
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  美女乱伦视频 | 久久7777 | 狠狠躁夜夜躁人人爽视频 | 欧美高清猛交xxx黑人猛交性乱 | 久久精品视频在线 |