統(tǒng)計學(xué)新手必知必會:1文帶你走進(jìn)數(shù)據(jù)分析?。ㄏ拢?/h1>
Mykite | 作者
人人都是產(chǎn)品經(jīng)理?|?來源 http://www.woshipm.com/data-analysis/917862.html
4
回歸分析
1.什么是回歸分析?
在統(tǒng)計學(xué)中,回歸分析(regression analysis)指的是確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計分析方法。回歸分析按照涉及的變量的多少,分為一元回歸和多元回歸分析;按照因變量的多少,可分為簡單回歸分析和多重回歸分析;按照自變量和因變量之間的關(guān)系類型,可分為線性回歸分析和非線性回歸分析。
轉(zhuǎn)化為通俗易懂的文字,你可以這樣理解:回歸分析就是通過一個已知的現(xiàn)象來找到未知的原因,它可以通過嚴(yán)格的數(shù)學(xué)分析復(fù)原出每種原因?qū)Y(jié)果的貢獻(xiàn)比例。
倫敦大學(xué)公共衛(wèi)生學(xué)院曾經(jīng)組織過一項著名的“白廳研究”,醫(yī)學(xué)家們發(fā)現(xiàn)英國政府里低級別的公務(wù)員患上心臟病的概率比他們的上司更高。白廳研究就是要找出這背后的真實原因,這個研究顯然不能用隨機(jī)抽樣的方法來實現(xiàn),因為我們不可能把各個志愿者強(qiáng)行分配到各個工作崗位工作幾年,然后再看哪些人因公殉職了。研究人員只能在很長一段時間里對數(shù)千名公務(wù)員進(jìn)行詳細(xì)的數(shù)據(jù)采集,來對比各類導(dǎo)致心臟病的可能因素。
回歸分析的數(shù)學(xué)過程比較復(fù)雜,幸好我們現(xiàn)在有了成熟的多元線性回歸方程模型可以套用,我們要做的就是將多個變量的取樣結(jié)果帶入回歸方程式,計算結(jié)果就會顯示出我們關(guān)注的變量和心臟病發(fā)病率的線性關(guān)系(回歸分析軟件:SAS、SPSS、BMDP等)。
事實上當(dāng)前科學(xué)界絕大多數(shù)的研究結(jié)論都是以回歸分析作為基礎(chǔ)的。尤其是回歸分析軟件的普及,讓建立模型和解析方程變得很簡單,但同時也要注意電腦永遠(yuǎn)不能代替人的工作,如果我們在進(jìn)行回歸分析時遺漏的變量或者忽視反面因素,回歸分析就會得出危險的結(jié)論。
下面我們使用IBM公司開發(fā)的“統(tǒng)計產(chǎn)品與服務(wù)解決方案”軟件SPSS(Statistical Product and Service Solutions)做一個簡單的實例,給大家介紹如何使用SPSS做回歸分析的方法?;貧w分析的方法包括:線性回歸、邏輯回歸、多項式回歸、逐步回歸等很多種,本次我們就拿就常用的線性回歸結(jié)合案例來給大家講解:年齡和血壓的關(guān)系。
開始之前,我們先了解一下線性回歸到底是怎么回事?它能做什么?
2.線性回歸的意義
線性回歸包含:一元線性回歸和多元線性回歸。一元線性回歸又叫做簡單線性回歸,主要用于判斷是否能通過回歸模型找到一個“線性組合”,從而證明一組變量(因變量和自變量)的關(guān)系。如果能的話,這種關(guān)系的強(qiáng)度有多大,也就是利用自變量的線性組合來預(yù)測因變量的能力有多強(qiáng)?整體解釋能力是否具有統(tǒng)計上的顯著性意義?在整體解釋能力顯著的情況下,哪些自變量有顯著的意義?
3.回歸分析的步驟
確定回歸方程中的解釋變量(自變量)和被解釋變量(因變量) 確定回歸模型——選擇合適的數(shù)學(xué)模型概括回歸線 確定回歸方程——根據(jù)樣本數(shù)據(jù)及確定的回歸模型,在一定的統(tǒng)計擬合準(zhǔn)則下估計模型的參數(shù),得到確定的回歸方程 對回歸方程進(jìn)行各種檢驗——基于樣本得到的回歸方程是否真實反映了總體間的統(tǒng)計關(guān)系?回歸方程能否用于預(yù)測? 利用回歸方程進(jìn)行預(yù)測
一元線性回歸模型:

模型說明:

X為自變量 Y為因變量 Y的截距,即常量 斜率為回歸系數(shù),表明自變量對因變量的影響程度
對一元線性回歸有所了解以后,我們就拿就用它結(jié)合一個簡單的案例:年齡和血壓的關(guān)系,創(chuàng)建一個具體的實例。
第一步:導(dǎo)入數(shù)據(jù)
打開SPSS導(dǎo)入需要分析的表格

第二步:生成散點(diǎn)圖
選擇“簡單散點(diǎn)圖”,得到以下圖形:

通過散點(diǎn)圖觀察變量間的趨勢。如果有多個變量則做出散點(diǎn)圖矩陣、重疊散點(diǎn)圖和三維散點(diǎn)圖。
第三步:分析結(jié)果


因變量是結(jié)果,自變量是原因。在這個實例中我們可以理解為年齡影響血壓。當(dāng)然這里要加個疑問,因為我們是分析嘛,在得到最終的結(jié)果之前這只是一個假設(shè)。
右側(cè)點(diǎn)擊【統(tǒng)計】按鈕,在彈出的界面做如下勾選

點(diǎn)擊右側(cè)【圖】按鈕,有些版本叫【繪制】,做如下配置

這兩項配置完成后點(diǎn)擊主界面的【確定】按鈕就可以得到輸出結(jié)果,我們只截取部分比較重要的圖標(biāo)來做講解。

注:軟件原因“德賓-沃森”英文實際為:Durbin-Watson
調(diào)整R方就是反映這個模型的擬合度的,簡單說就是我們擬合的兩個變量之間的線性方程與兩個變量真實之間關(guān)系的一個擬合度。擬合度通常是在0-1之間的數(shù)字。
anova也叫方差分析,主要目的是衡量年齡是否能夠顯著的影響血壓

以上圖標(biāo)說明年齡對血壓的影響是正向的(0.881),也就是說年齡越大血壓越高。年齡每增加1分,血壓總分就會增加0.881分,這就是自變量和因變量之間的一個定量的影響關(guān)系。
當(dāng)然判斷的依據(jù)和數(shù)據(jù)維度以及最后結(jié)果的幾個關(guān)鍵值都有密切關(guān)系,加入分析的自變量是否正確、數(shù)量多少等因素對結(jié)果也會產(chǎn)生影響。網(wǎng)上有很多專門介紹線性回歸的資料教程,在這里不再詳細(xì)描述,建議大家多看多動手多思考,統(tǒng)計學(xué)雖然入門比較簡單,但是要真正應(yīng)用到實際工作中還是需要一定的實際分析經(jīng)驗的。
統(tǒng)計學(xué)看似簡單,但不是每個人都可以成為數(shù)據(jù)分析師。統(tǒng)計學(xué)既可以給結(jié)論或想法提供支持,更可以給錯誤的結(jié)論披上外衣,這就是下一節(jié)要說的:常犯的概率學(xué)錯誤。
5
常犯的概率學(xué)錯誤
1.“黑天鵝”事件

17世紀(jì)之前的歐洲人認(rèn)為天鵝都是白色的,甚至經(jīng)常用“世界上沒有黑色的天鵝”這句諺語去諷刺那些無中生有的人。但隨著第一只黑天鵝在澳大利亞被發(fā)現(xiàn),這句諺語就變成了笑談,現(xiàn)在“黑天鵝”一般用來指那些影響很大但難以預(yù)測的小概率事件。通過這個例子我們可以了解,忽略那些小概率事件,會造成多么嚴(yán)重的后果。

2008年美國次貸危機(jī)爆發(fā)之前,整個北美金融行業(yè)都在使用同一個風(fēng)險價值模型來預(yù)測投資風(fēng)險。這個模型的強(qiáng)大之處在于它非常精確,它能把華爾街每家公司的資產(chǎn)都進(jìn)行嚴(yán)格的概率學(xué)分析,給出預(yù)期收益和損失值。并且還能給這些海量的市場信息整合成一個簡潔的風(fēng)險指標(biāo)提供給美聯(lián)儲和財政部參考,比如分析了以往市場變動數(shù)據(jù)后,金融家會根據(jù)這個模型給出某項投資在特定周期內(nèi)可能讓公司蒙受的損失,而這種預(yù)測可以覆蓋高達(dá)99%的市場風(fēng)險。
然而這個模型有一個被忽略的致命問題,它的概率學(xué)模型參照的是過去20年的市場行為,不能對未知以外情況作出預(yù)測,所以它預(yù)測不了黑天鵝的出現(xiàn)。
這只黑天鵝就是2007年美國商業(yè)銀行放貸業(yè)務(wù)的崩潰,雖然它發(fā)生的概率只有不到1%,但悲劇確實發(fā)生了。直接導(dǎo)致了一次全球大范圍的金融危機(jī),失業(yè)率達(dá)到了10%,很多國家和政府都陷入了債務(wù)危機(jī),這就是小概率重大事件的破壞力。
難道這是概率學(xué)本身出問題了嗎?顯然不是,模型已經(jīng)告訴了我們有1%的風(fēng)險無法預(yù)測,客人們?nèi)匀贿x擇了無視。所以,最大的風(fēng)險永遠(yuǎn)都不是那些我們能看得見算得出的,而是那些看上去似乎概率很小,我們認(rèn)為一輩子都不可能發(fā)生的風(fēng)險,但它的確發(fā)生了,而且比我們想象的要頻繁的多。
案例小結(jié):忽略小概率事件,有時會造成嚴(yán)重的后果
除了黑天鵝還有一個我們?nèi)菀缀鲆暤膯栴}:統(tǒng)計誤差,統(tǒng)計學(xué)雖然有著嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)計算,但它并不是完美無缺的。我們通過分析數(shù)據(jù)推斷出的結(jié)論永遠(yuǎn)不會是100%正確的,只要數(shù)據(jù)分析建立在抽樣調(diào)查之上,樣本的統(tǒng)計結(jié)果和正式情況之間就會存在誤差。雖然隨著樣本數(shù)量的增大,實驗次數(shù)的增多,這樣的誤差會接近于零,但即使誤差再小,也不能忽視它的存在。
比如第2節(jié)介紹的中心極限定理:警察通過計算車內(nèi)乘客的體重分布,有99%的把握估計那些體重較大的乘客不是鐵人三項選手,但這個推理還有1%的概率是錯的,原因就在于鐵人三項運(yùn)動員體重樣本的平均值雖然會接近整體的平均值,但并不能說二者完全相等。就好像從一棵樹上摘的蘋果,如果進(jìn)行精確的化學(xué)分析他們的成分和甜度總會有細(xì)微的不同。這就是統(tǒng)計誤差的含義,我們不可能通過數(shù)據(jù)得出完全確鑿的真相,只能通過合理控制誤差來無限接近真相。
2.檢方謬誤
另外舉一個有趣的例子:檢方謬誤。假設(shè)你是一名法官,聽到公訴人陳述這樣的事實“犯罪現(xiàn)場遺留的DNA樣本和被告的DNA相吻合,除了被告以外這個樣本和其他人吻合的概率只有百萬分之一,在這個證據(jù)的基礎(chǔ)上你能為被告人定罪嗎?
這時候如果你忽略百萬分之一的誤差就可能會讓無辜的人鋃鐺入獄,這是因為誤差看似很小,但警方的DNA樣本庫數(shù)量非常龐大,通過樣本比對找到兩個DNA特征相似的人并不是不可能的,所以給犯罪分子定罪時,不能死守著概率這種破案工具而忽略了性別、年齡、社會關(guān)系等其它線索。
在現(xiàn)實中其實也是一樣的,對那些意義重大的可研結(jié)論,人們往往對概率計算有精確的要求,比如物理學(xué)家在探測引力波是否真實存在的時候,總計花費(fèi)了數(shù)十億美元用20多年時間來建造探測器,目的就是必須要把實驗誤差控制在一個極其微小的數(shù)量級。事實上這個探測器能探測到小數(shù)點(diǎn)后21位,10的負(fù)21次冪這個尺度上的引力波變化,愛因斯坦一個多世紀(jì)前的預(yù)言才最終得到了有說服力的證明。
案例小結(jié):通過統(tǒng)計數(shù)據(jù)推斷出的結(jié)論,必定存在誤差,不會100%正確。即使誤差再小,也不能忽視它的存在。
黑天鵝事件和檢方謬誤充分說明人們對小概率事件和微小誤差的錯誤認(rèn)識,會讓看似精確的概率計算誤入歧途。精確有時候并不意味著準(zhǔn)確,客觀事實和我們對概率的直觀感受往往是有差異的。概率學(xué)本身不會犯錯,錯誤的是使用它的人。
其實在近代歷史中還存在很多與黑天鵝事件類似的事情,比如:9.11事件,泰坦尼克號、日本地震、中國雪災(zāi)、光大烏龍等,這些事件的發(fā)生大多都是因為忽略小概率事件而引起的,有興趣的朋友可以去詳細(xì)了解。好了,本章內(nèi)容到這里就全部講完了,感謝大家閱讀。
-?END -
本文為轉(zhuǎn)載分享&推薦閱讀,若侵權(quán)請聯(lián)系后臺刪除
瀏覽
125
4
回歸分析
確定回歸方程中的解釋變量(自變量)和被解釋變量(因變量) 確定回歸模型——選擇合適的數(shù)學(xué)模型概括回歸線 確定回歸方程——根據(jù)樣本數(shù)據(jù)及確定的回歸模型,在一定的統(tǒng)計擬合準(zhǔn)則下估計模型的參數(shù),得到確定的回歸方程 對回歸方程進(jìn)行各種檢驗——基于樣本得到的回歸方程是否真實反映了總體間的統(tǒng)計關(guān)系?回歸方程能否用于預(yù)測? 利用回歸方程進(jìn)行預(yù)測


X為自變量 Y為因變量 Y的截距,即常量 斜率為回歸系數(shù),表明自變量對因變量的影響程度







注:軟件原因“德賓-沃森”英文實際為:Durbin-Watson

5
常犯的概率學(xué)錯誤


比如第2節(jié)介紹的中心極限定理:警察通過計算車內(nèi)乘客的體重分布,有99%的把握估計那些體重較大的乘客不是鐵人三項選手,但這個推理還有1%的概率是錯的,原因就在于鐵人三項運(yùn)動員體重樣本的平均值雖然會接近整體的平均值,但并不能說二者完全相等。就好像從一棵樹上摘的蘋果,如果進(jìn)行精確的化學(xué)分析他們的成分和甜度總會有細(xì)微的不同。這就是統(tǒng)計誤差的含義,我們不可能通過數(shù)據(jù)得出完全確鑿的真相,只能通過合理控制誤差來無限接近真相。
另外舉一個有趣的例子:檢方謬誤。假設(shè)你是一名法官,聽到公訴人陳述這樣的事實“犯罪現(xiàn)場遺留的DNA樣本和被告的DNA相吻合,除了被告以外這個樣本和其他人吻合的概率只有百萬分之一,在這個證據(jù)的基礎(chǔ)上你能為被告人定罪嗎?
-?END -
本文為轉(zhuǎn)載分享&推薦閱讀,若侵權(quán)請聯(lián)系后臺刪除
評論
圖片
表情
