操逼做爱视,91麻豆精品一区二区三区,玖玖视频在线观看,国产美女操逼黄站,国产色婷婷免费视频,免费的三级网站在线观看,欧美日视频,欧美性爱国产乱伦

來(lái)源：PMCAFF，作者：大山里人

前言

道德經(jīng)云：”道生一，一生二，二生三，三生萬(wàn)物“。學(xué)習(xí)知識(shí)亦是如此，一個(gè)概念衍生出兩個(gè)概念，兩個(gè)概念演化出更小的子概念，接著衍生出整個(gè)知識(shí)體系。

筆者結(jié)合自己對(duì)統(tǒng)計(jì)學(xué)和概率論知識(shí)的理解寫了這篇文章，有以下幾個(gè)目標(biāo)。

目標(biāo)一：構(gòu)建出可以讓人理解的知識(shí)架構(gòu)，讓讀者對(duì)這個(gè)知識(shí)體系一覽無(wú)余
目標(biāo)二：盡l量闡述每個(gè)知識(shí)在數(shù)據(jù)分析工作中的使用場(chǎng)景及邊界條件
目標(biāo)三：為讀者搭建從“理論”到“實(shí)踐"的橋梁

概述

你的“對(duì)象” 是誰(shuí)？

此對(duì)象非彼“對(duì)象”，我們學(xué)習(xí)“概率和統(tǒng)計(jì)學(xué)”目的在于應(yīng)用到對(duì)于“對(duì)象”的研究中，筆者將我們要研究的“對(duì)象”按照維度分為了兩大類。

一維：就是當(dāng)前擺在我們面前的“一組”，“一批”，哪怕是“一坨”數(shù)據(jù)。這里我們會(huì)用到統(tǒng)計(jì)學(xué)的知識(shí)去研究這類對(duì)象。

二維：就是研究某個(gè)“事件”，筆者認(rèn)為事件是依托于“時(shí)間軸”存在的，過(guò)去是否發(fā)生，現(xiàn)在是可能會(huì)出現(xiàn)幾種情況，每種情況未來(lái)發(fā)生的可能性有多大？這類問(wèn)題是屬于概率論的范疇。

因此，我們?cè)谧鰯?shù)據(jù)分析的研究前，先弄清我們研究的對(duì)象屬于哪類范疇，然后在按著這個(gè)分支檢索自己該用到的知識(shí)或方法來(lái)解決問(wèn)題。

分析就像在給 “愛(ài)人” 畫肖像

從外觀的角度描述一個(gè)姑娘，一般是面容怎么樣？身段怎么樣？?jī)蓚€(gè)維度去描述。就像畫一幅肖像畫，我們的研究“對(duì)象”在描述性分析中也是通過(guò)兩個(gè)維度去來(lái)描述即，“集中趨勢(shì)---代表值”，“分散和程度”。

看到這幾個(gè)概念是不是就很熟悉了？筆者認(rèn)為一個(gè)描述性的分析就是從這兩個(gè)維度來(lái)說(shuō)清楚你要研究的對(duì)象是什么樣子？至于從哪些特征開(kāi)始說(shuō)呢？就是常用的概念“均值”，“方差”之類的。下面我們進(jìn)入正題，筆者將詳細(xì)闡述整個(gè)知識(shí)架構(gòu)。

一. 對(duì)“數(shù)據(jù)”的描述性分析

數(shù)據(jù)分析中最常規(guī)的情況，比如你手上有一組，一批或者一坨數(shù)據(jù)，數(shù)據(jù)分析的過(guò)程就是通過(guò)“描述”從這些數(shù)據(jù)中獲取的信息，通常可以從兩個(gè)維度去描述：

1. 集中趨勢(shì)量度：為這批數(shù)據(jù)找到它們的“代表”

均值（μ）

均值的局限性

均值是最常用的平均數(shù)之一，但是它的局限性在于“若用均值描述的數(shù)據(jù)中存在異常值的情況，會(huì)產(chǎn)生偏差” ；例如下面一組數(shù)據(jù)就不太適合用均值來(lái)代表

這5個(gè)人的年齡均值是：31.2歲

很顯然，在這組數(shù)據(jù)中，大部分人的年齡是10幾歲的青少年，但是E的年齡是100歲為異常值，用均值來(lái)描述他們的年齡是31.2歲，很顯然用均值作為描述這組數(shù)據(jù)是不合適的，那么我們?cè)撊绾螠?zhǔn)確的表征這組數(shù)據(jù)呢？？？

中位數(shù)

中位數(shù)，又稱中點(diǎn)數(shù)，中值。是按順序排列的一組數(shù)據(jù)中居于中間位置的數(shù)。

中位數(shù)的局限

回到上一個(gè)例子，若用中位數(shù)來(lái)表征這組數(shù)據(jù)的平均年齡，就變得更加合理，中位數(shù)15。

那么我們?cè)诳匆幌孪旅嬉唤M數(shù)據(jù)，中位數(shù)的表現(xiàn)又如何？

中位數(shù)：45

這組數(shù)據(jù)的中位數(shù)為：45，但是中位數(shù)45并不能代表這組數(shù)據(jù)。

因?yàn)檫@組數(shù)據(jù)分為兩批，兩批的差異很大。那么如何處理這類數(shù)據(jù)呢？接下來(lái)介紹第三位平均數(shù)。

眾數(shù)

眾數(shù)是樣本觀測(cè)值在頻數(shù)分布表中頻數(shù)最多的那一組的組中值。

平均數(shù)可以表征一批數(shù)據(jù)的典型值，但是僅憑平均數(shù)還不能給我們提供足夠的信息，平均數(shù)無(wú)法表征一組數(shù)據(jù)的分散程度。

2. 分散性與變異性的量度

（全距，迷你距，四分位數(shù)，標(biāo)準(zhǔn)差，標(biāo)準(zhǔn)分）

全距=max-min

全距也叫“極差”極差。它是一組數(shù)據(jù)中最大值與最小值之差。可以用于度量數(shù)據(jù)的分散程度。

全距的局限性

全距雖然求解方便快捷，但是它的局限性在于“若數(shù)據(jù)中存在異常值的情況，會(huì)產(chǎn)生偏差。為了擺脫異常值帶來(lái)的干擾，比如我們看一下下面的兩組數(shù)據(jù)。只是增加了一個(gè)異常值，兩組數(shù)據(jù)的全距產(chǎn)生了巨大的差異。

四分位數(shù)

所有觀測(cè)值從小到大排序后四等分，處于三個(gè)分割點(diǎn)位置的數(shù)值就是四分位數(shù)：Q1，Q2和Q3。

Q1：第一四分位數(shù) (Q1)，又稱“較小四分位數(shù)”，等于該樣本中所有數(shù)值由小到大排列后第25%的數(shù)字。
Q2：第二四分位數(shù) (Q2)，又稱“中位數(shù)”，等于該樣本中所有數(shù)值由小到大排列后第50%的數(shù)字。
Q3：第三四分位數(shù) (Q3)，又稱“較大四分位數(shù)”，等于該樣本中所有數(shù)值由小到大排列后第75%的數(shù)字。

迷你距也叫“四分位距”

迷你距。它是一組數(shù)據(jù)中較小四分位數(shù)與較大四分位數(shù)之差。

即：迷你距= 上四分位數(shù) - 下四分位數(shù)

迷你距可以反映中間50%的數(shù)據(jù)，如果出現(xiàn)了極大或極小的異常值，將會(huì)被排除在中心數(shù)據(jù)50%以外。因此使用迷你距可以剔除數(shù)據(jù)中異常值。

全距，四分位距，箱形圖可以表征一組數(shù)據(jù)極大和極小值之間的差值跨度，一定程度上反應(yīng)了數(shù)據(jù)的分散程度，但是卻無(wú)法精準(zhǔn)的告訴我們，這些數(shù)值具體出現(xiàn)的頻率，那么我們?cè)撊绾伪碚髂兀?/span>

我們度量每批數(shù)據(jù)中數(shù)值的“變異”程度時(shí)，可以通過(guò)觀察每個(gè)數(shù)據(jù)與均值的距離來(lái)確定，各個(gè)數(shù)值與均值距離越小，變異性越小數(shù)據(jù)越集中，距離越大數(shù)據(jù)約分散，變異性越大。方差和標(biāo)準(zhǔn)差就是這么一對(duì)兒用于表征數(shù)據(jù)變異程度的概念。

方差

方差是度量數(shù)據(jù)分散性的一種方法，是數(shù)值與均值的距離的平方數(shù)的平均值。

標(biāo)準(zhǔn)差

標(biāo)準(zhǔn)差為方差的開(kāi)方。

通過(guò)方差和標(biāo)準(zhǔn)差我們現(xiàn)在可以表征一組數(shù)據(jù)的數(shù)值的變異程度。那么對(duì)于擁有不同均值和不同標(biāo)準(zhǔn)差的多個(gè)數(shù)據(jù)集我們?nèi)绾伪容^呢？

標(biāo)準(zhǔn)分——表征了距離均值的標(biāo)準(zhǔn)差的個(gè)數(shù)

標(biāo)準(zhǔn)分為我們提供了解決方法，當(dāng)比較均值和標(biāo)準(zhǔn)差各不相同的數(shù)據(jù)集時(shí)，我們可以把這些數(shù)值視為來(lái)自同一個(gè)標(biāo)準(zhǔn)的數(shù)據(jù)集，然后進(jìn)行比較。標(biāo)準(zhǔn)分將把每一個(gè)數(shù)據(jù)集轉(zhuǎn)化為通用的分布形態(tài)，進(jìn)行比較。

標(biāo)準(zhǔn)分還有個(gè)重要的作用，它可以把正態(tài)分布變?yōu)闃?biāo)準(zhǔn)正態(tài)分布，后文會(huì)有介紹。

第一部分小結(jié)

1. 描述一批數(shù)據(jù)，通過(guò)集中趨勢(shì)分析，找出其“代表值” ；通過(guò)分散和變異性的描述，查看這批數(shù)據(jù)的分散程度。

2. 集中趨勢(shì)參數(shù)：均值，中位數(shù)，眾數(shù)

3. 分散性和變異性參數(shù) : 全距，四分位距，方差，標(biāo)準(zhǔn)差，標(biāo)準(zhǔn)分

二、關(guān)于“事件”的研究分析概率論

1. 一個(gè)事件的情況

為了讓讀者更好理解，筆者概率論中最核心的概念以及概念之間彼此的關(guān)系繪制成了下圖，那么接下來(lái)筆者開(kāi)始“講故事”了。

事件：有概率可言的一件事情，一個(gè)事情可能會(huì)發(fā)生很多結(jié)果，結(jié)果和結(jié)果之間要完全窮盡，相互獨(dú)立。
概率：每一種結(jié)果發(fā)生的可能性。所有結(jié)果的可能性相加等于1，也就是必然！！！
概率分布：我們把事件和事件所對(duì)應(yīng)的概率組織起來(lái)，就是這個(gè)事件的概率分布。

概率分布可以是圖象，也可以是表格。如下圖1和表2都可以算是概率分布

期望：表征了綜合考慮事情的各種結(jié)果和結(jié)果對(duì)應(yīng)的概率后這個(gè)事情的綜合影響值。（一個(gè)事件的期望，就是代表這個(gè)事件的“代表值”，類似于統(tǒng)計(jì)里面的均值）

方差：表征了事件不同結(jié)果之間的差異或分散程度。

2. 細(xì)說(shuō)分布

理想很豐滿，現(xiàn)實(shí)很骨感。真實(shí)的生活中別說(shuō)去算一個(gè)事件的期望，即使把這個(gè)事件的概率分布能夠表述完整，每個(gè)事件對(duì)應(yīng)的概率值得出來(lái)就已經(jīng)是一件了不起的事情了。

因此，為了能更快更準(zhǔn)確的求解出事件的概率分布，當(dāng)某些事件，滿足某些特定的條件，那么我們可以直接根據(jù)這些條件，來(lái)套用一些固定的公式，來(lái)求解這些事件的分布，期望以及方差。

“離散型”數(shù)據(jù)和“連續(xù)性”數(shù)據(jù)差異

在我們展開(kāi)分布的知識(shí)之前，先補(bǔ)充一個(gè)預(yù)備知識(shí)，什么是離散數(shù)據(jù)，什么是連續(xù)數(shù)據(jù)，它們二者之間有什么差異？

離散數(shù)據(jù)：一個(gè)粒兒，一個(gè)粒兒的數(shù)據(jù)就是離散型數(shù)據(jù)。
連續(xù)數(shù)據(jù)：一個(gè)串兒，一個(gè)串兒的數(shù)據(jù)就是連續(xù)型數(shù)據(jù)。

好啦，開(kāi)個(gè)玩笑！！！別打我，下面分享干貨！！！

其實(shí)上述描述并沒(méi)有錯(cuò)誤，離散型和連續(xù)型數(shù)據(jù)是一對(duì)相對(duì)概念，同樣的數(shù)據(jù)既可能是離散型數(shù)據(jù)，又可能是連續(xù)型數(shù)據(jù)。判別一個(gè)數(shù)據(jù)是連續(xù)還是離散最本質(zhì)的因素在于，一個(gè)數(shù)據(jù)組中數(shù)據(jù)總體的量級(jí)和數(shù)據(jù)粒度之間的差異。差異越大越趨近于連續(xù)型數(shù)據(jù)，差異越小越趨近于離散型數(shù)據(jù)。

舉個(gè)例子:

人這個(gè)單位，對(duì)于一個(gè)家庭來(lái)說(shuō)，就離散型數(shù)據(jù)，一個(gè)家庭可能有 3個(gè)人，4個(gè)人，5個(gè)人....等等。

對(duì)于一個(gè)國(guó)家來(lái)說(shuō)，就是連續(xù)型數(shù)據(jù)，我們的國(guó)家有14億人口，那么以個(gè)人為單位在這個(gè)量級(jí)的數(shù)據(jù)群體里就是連續(xù)型數(shù)據(jù)。

清楚了離散型和連續(xù)型數(shù)據(jù)的差異，我們接下來(lái)一塊科普這幾種常用的特殊分布。

離散型分布

離散數(shù)據(jù)的概率分布，就是離散分布。這三類離散型的分布，在“0-1事件”中可以采用，就是一個(gè)事只有成功和失敗兩種狀態(tài)。

連續(xù)型分布

連續(xù)型分布本質(zhì)上就是求連續(xù)的一個(gè)數(shù)據(jù)段概率分布。

正態(tài)分布

f（x）----是該關(guān)于事件X的概率密度函數(shù)
μ --- 均值
σ^2 ---方差
σ ---標(biāo)準(zhǔn)差

綠色區(qū)域的面積 ---該區(qū)間段的概率

正態(tài)分布概率的求法

step1 --- 確定分布和范圍，求出均值和方差
step2 --- 利用標(biāo)準(zhǔn)分將正態(tài)分布轉(zhuǎn)化為標(biāo)準(zhǔn)正態(tài)分布（還記得第一部分的標(biāo)準(zhǔn)分嗎？）
step3 ---查表找概率

離散型分布 → 正態(tài)分布（離散分布轉(zhuǎn)化為正態(tài)分布）

精彩的地方在這里，筆者已經(jīng)闡述了連續(xù)型數(shù)據(jù)和離散型數(shù)據(jù)是一對(duì)相對(duì)的概念，那么這就意味著在某種“邊界”條件下，離散型分布和連續(xù)型分布之間是可以相互轉(zhuǎn)化的。進(jìn)而簡(jiǎn)化概率分布的計(jì)算。這里筆者不在偷懶直接上皂片了（編公式快吐了！！！！）

3. 多個(gè)事件的情況：“概率樹(shù)”和“貝葉斯定理”

多個(gè)事件就要探討事件和事件之間的關(guān)系

對(duì)立事件：如果一個(gè)事件，A’包含所有A不包含的可能性，那么我們稱A’和A是互為對(duì)立事件
窮盡事件：如何A和B為窮盡事件，那么A和B的并集為1
互斥事件：如何A和B為互斥事件，那么A和B沒(méi)有任何交集
獨(dú)立事件：如果A件事的結(jié)果不會(huì)影響B(tài)事件結(jié)果的概率分布那么A和B互為獨(dú)立事件。

例子：10個(gè)球，我隨機(jī)抽一個(gè)，放回去還是10個(gè)球，第二次隨機(jī)抽,還是10選1，那么第一次和第二次抽球的事件就是獨(dú)立的。

相關(guān)事件：如果A件事的結(jié)果會(huì)影響B(tài)事件結(jié)果的概率分布那么A和B互為獨(dú)立事件。

例子：10個(gè)球，我隨機(jī)抽一個(gè)，不放回去還是10個(gè)球，第二次隨機(jī)抽是9選1，那么第一次和第二次抽球的事件就是相關(guān)的。

條件概率（條件概率，概率樹(shù)，貝葉斯公式）

條件概率代表：已知B事件發(fā)生的條件下，A事件發(fā)生的概率

概率樹(shù) --- 一種描述條件概率的圖形工具。

假設(shè)有個(gè)甜品店，顧客買甜甜圈的概率是3/4 ；不買甜甜圈直接買咖啡的概率是1/3 ；同時(shí)買咖啡和甜甜圈概率是9/20。

從圖中我們可以發(fā)現(xiàn)以下兩個(gè)信息:

1. 顧客買不買甜甜圈可以影響喝不喝咖啡的概率，所以事件甜甜圈與事件咖啡是一組相關(guān)事件

2. 概率樹(shù)每個(gè)層級(jí)分支的概率和都是1

貝葉斯公式 ----提供了一種計(jì)算逆條件概率的方法

貝葉斯公式用于以下場(chǎng)景，當(dāng)我們知道A發(fā)生的前提下B發(fā)生的概率，我們可以用貝葉斯公式來(lái)推算出B發(fā)生條件下A發(fā)生的概率。

第二部分小結(jié)

1. 事件，概率，概率分布之間的關(guān)系

2. 期望，方差的意義

3. 連續(xù)型數(shù)據(jù)和離散型數(shù)據(jù)之間的區(qū)別和聯(lián)系

4. 幾何分布，二項(xiàng)分布，泊松分布，正態(tài)分布，標(biāo)準(zhǔn)正態(tài)分布

5. 離散分布和正態(tài)分布可以轉(zhuǎn)化

6. 多個(gè)事件之間的關(guān)系，相關(guān)事件和獨(dú)立事件，條件概率和貝葉斯公式

三、關(guān)于“小樣本”預(yù)測(cè)“大總體”

現(xiàn)實(shí)生活中，總體的數(shù)量如果過(guò)于龐大我們無(wú)法獲取總體中每個(gè)數(shù)據(jù)的數(shù)值，進(jìn)行對(duì)總體的特征提取進(jìn)而完成分析工作。那么接下來(lái)就用到了本章節(jié)的知識(shí)。

1. 抽取樣本

總體：你研究的所有事件的集合
樣本：總體中選取相對(duì)較小的集合，用于做出關(guān)于總體本身的結(jié)論
偏倚：樣本不能代表目標(biāo)總體，說(shuō)明該樣本存在偏倚
簡(jiǎn)單隨機(jī)抽樣：隨機(jī)抽取單位形成樣本。
分成抽樣：總體分成幾組或者幾層，對(duì)每一層執(zhí)行簡(jiǎn)單隨機(jī)抽樣
系統(tǒng)抽樣：選取一個(gè)參數(shù)K，每到第K個(gè)抽樣單位，抽樣一次。

2. 預(yù)測(cè)總體（點(diǎn)估計(jì)預(yù)測(cè)，區(qū)間估計(jì)預(yù)測(cè)）

點(diǎn)估計(jì)量--- 一個(gè)總參數(shù)的點(diǎn)估計(jì)量就是可用于估計(jì)總體參數(shù)數(shù)值的某個(gè)函數(shù)或算式。

場(chǎng)景1：樣本無(wú)偏的情況下，已知樣本，預(yù)測(cè)總體的均值，方差。

（1）樣本的均值 = 總體的估算均值（總體均值的點(diǎn)估計(jì)量） ≈ 總體實(shí)際均值（誤差是否可接受）

（2）總體方差估計(jì)總體方差

場(chǎng)景2：已知總體，研究抽取樣本的概率分布

比例抽樣分布：考慮從同一個(gè)總體中取得所有大小為n的可能樣本，由這些樣本的比例形成一個(gè)分布，這就是“比例抽樣分布”。樣本的比例就是隨機(jī)變量。

舉個(gè)栗子：已知所有的糖球（總體）中紅色糖球比例為0.25。從總體中隨機(jī)抽n個(gè)糖球，我們可以求用比例抽樣分布求出這n個(gè)糖球中對(duì)應(yīng)紅球各種可能比例的概率。

樣本均值分布：考慮同一個(gè)總體中所有大小為n的可能樣本，然后用這個(gè)樣本的均值形成分布，該分布就是“樣本均值分布” ，樣本的均值就是隨機(jī)變量。

中心極限定理：如果從一個(gè)非正態(tài)總體X中抽出一個(gè)樣本，且樣本極大（至少大于30），則圖片.png的分布近似正態(tài)分布。

區(qū)間估計(jì)量--- 點(diǎn)估計(jì)量是利用一個(gè)樣本對(duì)總體進(jìn)行估計(jì)，區(qū)間估計(jì)是利用樣本組成的一段區(qū)間對(duì)樣本進(jìn)行估計(jì)。

舉個(gè)栗子：今天下午3點(diǎn)下雨；今天下午3點(diǎn)到4點(diǎn)下雨。如果我們的目的是為了盡可能預(yù)測(cè)正確，你會(huì)使用那句話術(shù)？

如何求置信區(qū)間？（這里筆者講一下思路，不畫圖碼公式了，讀者有興趣可以查閱一下教材）

求置信區(qū)間簡(jiǎn)便公式（直接上皂片）

關(guān)于C值參數(shù)：置信水平 90% C=1.64 ， 95% C=1.96 ， 99% C=2.58

待補(bǔ)充知識(shí)一（t分布）

我們之前的區(qū)間預(yù)測(cè)有個(gè)前提，就是利用了中心極限定理，當(dāng)樣本量足夠大的時(shí)候（通常大于30），均值抽樣分布近似于正態(tài)分布。若樣本量不夠大呢？這是同樣的思路，只是樣本均值分布將近似于另一種分布處理更加準(zhǔn)確，那就是t分布。這里筆者直接放張圖，不做拓展了。

待補(bǔ)充知識(shí)二（卡方分布）----注意待補(bǔ)充不代表不重要，是筆者水平有限，目前還不能用簡(jiǎn)單的語(yǔ)言概述其中的精髓。

卡方分布的定義

若n個(gè)相互獨(dú)立的隨機(jī)變量ξ、ξ、……、ξn ，均服從標(biāo)準(zhǔn)正態(tài)分布，則這n個(gè)服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)變量的平方和構(gòu)成一新的隨機(jī)變量，其分布規(guī)律稱為卡方分布。

卡方分布的應(yīng)用場(chǎng)景

用途1：用于檢驗(yàn)擬合優(yōu)度。也就是檢驗(yàn)一組給定的數(shù)據(jù)與指定分布的吻合程度；
用途2：檢驗(yàn)兩個(gè)變量的獨(dú)立性。通過(guò)卡方分布可以檢查變量之間是否存在某種關(guān)聯(lián):

3. 驗(yàn)證結(jié)果（假設(shè)檢驗(yàn)）

假設(shè)檢驗(yàn)是一種方法用于驗(yàn)證結(jié)果是否真實(shí)可靠。具體操作分為六個(gè)步驟。

兩類錯(cuò)誤---即使我們進(jìn)行了“假設(shè)檢驗(yàn)”依然無(wú)法保證決策是百分百正確的，會(huì)出現(xiàn)兩類錯(cuò)誤

第一類錯(cuò)誤：拒絕了一個(gè)正確的假設(shè)，錯(cuò)殺了一個(gè)好人
第二類錯(cuò)誤：接收了一個(gè)錯(cuò)誤的假設(shè)，放過(guò)了一個(gè)壞人

第三部分小結(jié)：

1. 無(wú)偏抽樣

2. 點(diǎn)估計(jì)量預(yù)測(cè)（已知樣本預(yù)測(cè)總體，已知總體預(yù)測(cè)樣本）

3. 區(qū)間估計(jì)量預(yù)測(cè)（求置信區(qū)間）

4. 假設(shè)檢驗(yàn)

四、相關(guān)與回歸(y=ax+b)

這里介紹的相關(guān)和回歸是關(guān)于二維雙變量的最簡(jiǎn)單最實(shí)用的線性回歸，非線性回歸這里不暫不做拓展。

散點(diǎn)圖：顯示出二變量數(shù)據(jù)的模式

相關(guān)性：變量之間的數(shù)學(xué)關(guān)系。

線性相關(guān)性：兩個(gè)變量之間呈現(xiàn)的直線相關(guān)關(guān)系。

最佳擬合直線：與數(shù)據(jù)點(diǎn)擬合程度最高的線。（即每個(gè)因變量的值與實(shí)際值的誤差平方和最小）

誤差平方和SSE：

線性回歸法：求最佳擬合直線的方法（y=ax+b），就是求參數(shù)a和b

斜率a公式：

b公式：

相關(guān)系數(shù)r：表征描述的數(shù)據(jù)與最佳擬合線偏離的距離。（r=-1完全負(fù)相關(guān)，r=1完全正相關(guān)，r=0不相關(guān)）

r公式：

結(jié)束語(yǔ)

筆者這里梳理了統(tǒng)計(jì)與概率學(xué)最基礎(chǔ)的概念知識(shí)，盡量闡述清楚這些概念知識(shí)之間關(guān)聯(lián)的關(guān)系，以及應(yīng)用的場(chǎng)景。底層概念是上層應(yīng)用的基礎(chǔ)，當(dāng)今浮躁的“機(jī)器學(xué)習(xí)”，“神經(jīng)網(wǎng)絡(luò)”，“AI自適應(yīng)”這些高大上的關(guān)鍵字滿天飛。筆者認(rèn)為踏踏實(shí)實(shí)的把“基礎(chǔ)”打扎實(shí)，才是向上發(fā)展的唯一途徑。

筆者水平有限，概念理解有偏差的地方歡迎批評(píng)指正。

通透！一萬(wàn)字的統(tǒng)計(jì)學(xué)知識(shí)大梳理

概述