最小二乘法的本質(zhì)是什么?
點(diǎn)擊上方“小白學(xué)視覺”,選擇加"星標(biāo)"或“置頂”
重磅干貨,第一時間送達(dá)
本文轉(zhuǎn)自:深度學(xué)習(xí)與計算機(jī)視覺
https://www.zhihu.com/question/37031188/answer/70840126
模型具有如下形式:




是基函數(shù)殘差滿足正態(tài)分布

于是有:

對于N個獨(dú)立的樣本



與
獨(dú)立
, 得到最大似然估:


得到最小歐式距離
, 即是最小二乘法

https://www.zhihu.com/question/37031188/answer/888897619
假設(shè)我們需要預(yù)測每個省的在淘寶買東西花的錢 t 和該省平均房價 y 的關(guān)系,我們用數(shù)學(xué)符號表達(dá)下: y = N(t) + e
這里的 N(t) 就是我們要找的數(shù)學(xué)模型,但是實際上我們永遠(yuǎn)也沒有辦法找的真的 N, 所以那就次點(diǎn),找個近似的模型 M(t) 吧。為了判斷這個 M 找的準(zhǔn)不準(zhǔn),我們用實際的數(shù)據(jù)考察一下,也就是實際的房價和預(yù)測的房價的差,或者叫殘差。如果殘差的平方和很小,那么我們可以認(rèn)為這個模型和之前的數(shù)據(jù)擬合的很好,這個就是我們要找的的模型啦。
回頭看下,這個找模型的過程實際上是在找理想和預(yù)測差值的最小平方和。假設(shè)我們的模型很簡單:
.
我們用
表示第 i 個數(shù)據(jù)的殘差,
。注意這里的
描述的是模型內(nèi)部的系數(shù),即
假設(shè)我們現(xiàn)在有
個數(shù)據(jù),這
個殘差的平方和用
來表示:
(忽略這里的1/2,為了后面微分的方便)。
以上就是最小2乘問題的介紹和定義。解決最小二乘問題實際上是求解方程
.
實際上像梯度法、高斯法、牛頓法、L-M法、狗腿法(Powell)、都是在解決非線性的最小二乘問題。
https://www.zhihu.com/question/37031188/answer/700993426
勾股定理和歐氏幾何的平行公理等價。 平行公理定義歐氏空間。 歐氏空間是平坦的、線性的、各向同性的。(用愛因斯坦的話來說就是空間曲率為0)
實際上,高斯對于最小二乘法的認(rèn)識,很有欽定的意味:假定最小二乘法最優(yōu),那么如何如何。至于為什么它最優(yōu),抱歉,高斯本人也不知道。
第一個真正證明最小二乘法最優(yōu)的是Maxwell。他的證明主要基于空間對稱性,而這正是歐氏空間的特點(diǎn)。
問題:什么時候最小二乘不好使?
回答:假如把你扔到1-范數(shù)空間,就不要用最小二乘了。那里的誤差不滿足正態(tài)分布,而是滿足拉普拉斯分布。
Laplace:某個高票答案diss我不如Gauss,其實我只是跑到了另一個空間而已。
問題:不知道什么空間怎么辦?
回答:還是用最小二乘吧。線性計算比較簡單,而且采樣足夠多了,都是正態(tài)分布。(中心極限定理)
問題:最小二乘法的本質(zhì)是什么?
回答:我也不清楚提問者想要什么樣的本質(zhì)。不過歐幾里得可以用5條公理構(gòu)建一個龐大的數(shù)學(xué)體系。公理應(yīng)該算本質(zhì)了吧。
https://www.zhihu.com/question/37031188/answer/997196171
就是說,有一堆數(shù)據(jù),看著有點(diǎn)雜亂,但卻體現(xiàn)出一定的規(guī)律,雖然不能構(gòu)建一個函數(shù),完全匹配數(shù)據(jù)的每個值,但是能夠構(gòu)建一個函數(shù),大差不差的勾勒出大概的走向,然后預(yù)測未來數(shù)據(jù)的可能。

于是,要讓所有這種距離的和的平方最小。


這就變成了多元函數(shù)最小化問題,求偏導(dǎo),令偏導(dǎo)等于零,求出來再帶入回去……
https://www.zhihu.com/question/37031188/answer/534504958
看上去這是個相當(dāng)簡單的任務(wù),因為我們只要有兩對精確的{x, y}的取值就可以通過求解線性方程組來得到w和b的取值了。
當(dāng)然,這個思路是不正確的,否則我們也就不需要最小二乘法。那么這個思路錯在哪里呢?顯然,如果說這個思路是錯的,那也就說明我們測量出來的{xi, yi}并不完全符合y=wx+b這個線性關(guān)系。產(chǎn)生這個問題的原因是,在現(xiàn)實任務(wù)當(dāng)中,盡管x與y之間確實存在可以用這個線性式表示的相關(guān)關(guān)系,但我們可能因為測量方式、測量工具、眼斜、手抖或者等等其他因素而產(chǎn)生一定的誤差。也就是說我們實際測量出的(xi, yi)所符合的模型其實是這樣的:

其中epsilon代表我們測量的誤差。
What???這個誤差項我們又沒法測量出來,那我們還怎么求w和b?沒錯,在無法徹底消除誤差的情況下,我們永遠(yuǎn)都不能得到完全精確的w和b的取值。但是幸運(yùn)的是,我們可以根據(jù)概率論去推測一個比較有可能的w和b的取值。
接下來就要說最小二乘法了。我們在使用最小二乘法的時候,實際上也就是在觀測到一系列{xi, yi}的情況下去推測{w, b}的最靠譜的取值
。
那怎么去推出這個最靠譜的取值呢?我們當(dāng)然得先把其他不確定的量確定下來,這里說的就是這個誤差epsilon。我們雖然不能確定epsilon的取值,但是我們可以假設(shè)epsilon滿足一個分布。因為epsilon受到相當(dāng)多因素的影響,根據(jù)中心極限定理,可以猜測epsilon服從高斯分布。也就是

在這個前提下,我們再去推測w和b。這里我們使用最大似然估計。
最大似然估計是什么意思呢?簡單來說,就是w和b的哪個取值能讓我們現(xiàn)在觀測到的{x, y}顯得最可能出現(xiàn),那我們就認(rèn)為w和b是多少。舉個簡單的情況,假如我們觀測到了x=0,y=0,這時候我們回頭看w和b。在w=0與b=0的情況下觀測到x=0,y=0的概率是不低的,而在w=1000,b=10000的情況下,我們就不太可能觀測到x=0,y=0了。所以我們在觀測到x=0,y=0的情況下,我們認(rèn)為w=0,b=0的可能性比w=1000,b=10000的可能性要大。
好了,我們回到剛才的問題。我們記我們對w和b的估計值為
。那在參數(shù)符合推測的情況下,我們觀測到一對值(xi,yi)的概率為


,即


我們的目標(biāo)也就要使得這個概率最大,即

使得預(yù)測值與實際值的平方差之和最小,我們就可以保證這些觀測值{x, y}的出現(xiàn)概率是最高的。總結(jié)一下:從概率的角度理解,最小二乘法的本質(zhì)其實就是在觀測到一組實驗值{x,y}的,并猜測測量誤差服從正態(tài)分布的前提下,利用極大似然估計,去推測出w和b這兩個參數(shù)的最靠譜的取值的過程。
https://www.zhihu.com/question/37031188/answer/546633726
知道E(Y)是不夠的,還需要求出具體的條件概率P(Y|X)。最小二乘法實質(zhì)上假定P(Y|X)服從均值為E(Y),方差為1的正態(tài)分布,作為先驗前提。然后根據(jù)經(jīng)驗集合的分布(即能拿來擬合回歸的數(shù)據(jù)的分布),認(rèn)為其是數(shù)據(jù)真實分布的抽樣,找出最可能的正態(tài)分布形式來,這里只要估計均值E(Y)就行了,因為方差已經(jīng)假定是1。最后這個過程有點(diǎn)像裝修的時候往水管里塞電線,先驗是 水管的形狀,要用 電線 塞進(jìn)去,和水管的大致形狀(因為水管內(nèi)部還有一部分空間,電線還有一點(diǎn)點(diǎn)自由度)最像。
不過我這樣講,估計懂的人早懂了,不懂的也很難,具體思想可以參看 《DEEP LEARNING》 by GOODFELLOW 第五章。線性回歸最小二乘法分別用 最大似然 相對熵 貝葉斯統(tǒng)計的角度實現(xiàn),都是假定P(Y|X)符合正態(tài)分布,根據(jù)各家不同思想得到相同結(jié)果。
https://www.zhihu.com/question/37031188/answer/1255906481
1. Estimation的基本原則就是誤差向量e最小
2. Least Square Estimation的本質(zhì)是讓誤差向量e的L2范數(shù)最小,等價于幾何上的歐式距離最?。ㄒ簿褪亲鐾队埃?/span>
3. 為什么最小的是誤差向量e的“二乘”而不是絕對值等等,就是因為向量的歐式距離(L2范數(shù))的計算方式就是“二乘”的和再開根號
PS1:距離的度量還可以用L1范數(shù)(曼哈頓距離),Lp范數(shù)(閔氏距離),L??范數(shù)(切比雪夫距離)來度量。
PS2: 如果你問我為什么用L2范數(shù)來度量,那么答案只能是一開始就假設(shè)了誤差向量在L2空間內(nèi),自然就要用L2范數(shù)來度量。另外一種解釋就是概統(tǒng)視角出發(fā)的,L2空間的誤差e是正態(tài)分布,而基于誤差e正態(tài)分布的極大似然估計就是LSE。
交流群
歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動駕駛、計算攝影、檢測、分割、識別、醫(yī)學(xué)影像、GAN、算法競賽等微信群(以后會逐漸細(xì)分),請掃描下面微信號加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進(jìn)入相關(guān)微信群。請勿在群內(nèi)發(fā)送廣告,否則會請出群,謝謝理解~

