在進行線性回歸時，為什么最小二乘法是最優(yōu)方法？

pgl147258 2014-09-19

展開全文

【王芊的回答(27票)】:

最小二乘的假設是高斯噪聲，最大似然估計推導出來的，你不妨推一遍，Andrew Ng的視頻里也有講過

你說的距離之和其實是一范數(shù)，是拉普拉斯噪聲推導出來的

具體用那種，看噪聲的分布假設是什么

【JichunSi的回答(39票)】:

謝邀。

不是很同意 @王芊的說法。

首先跟題主說一下，最小二乘法的“最優(yōu)”也要看應用情景的。

實際上最小二乘法更準確的說是一個正交投影（orthogonal projection），而這個投影的很多優(yōu)良性質(zhì)不需要假設正態(tài)分布。

這里正交投影的意思是，在x所張成的線性空間里面找一個向量使得其與y的距離最小。

即使沒有正態(tài)分布的假設，OLS也是對conditional expectation的最優(yōu)線性預測。

也有人提到了BLUE，回想一下，證明BLUE的時候我們并沒有用正態(tài)分布的假定。

如果從統(tǒng)計推斷角度來說，小樣本情況下的統(tǒng)計推斷還需要正態(tài)的假設，大樣本是不需要的。

最小二乘之所以是“最優(yōu)”，僅僅是因為用這個方法做出來的剛好是正交投影而已。

但是還有很多其他方法，比如中位數(shù)回歸：

最小化的就是絕對值。而且中位數(shù)回歸在某些方面有比最小二乘更好的性質(zhì)，比如對異常值穩(wěn)健等等。當然，如果誤差分布對稱，中位數(shù)回歸的

跟最小二乘得到的結果是漸進相等的。

感興趣可以看一下這篇文章：JSTOR: Journal of Economic Literature, Vol. 29, No. 1 (Mar., 1991), pp. 34-50

還是那句話，都在做回歸，但是首先你得明確自己做回歸的目的才能找到那個“最優(yōu)”的回歸方法。

【知乎用戶的回答(2票)】:

通常做回歸擬合時，都要求最大限度的擬合數(shù)據(jù)，也就是常說的經(jīng)驗風險最小，這樣的擬合過程中用到極大似然原則，而在假定誤差

符合正態(tài)分布（高斯分布）的情況下，最小二乘等價于極大似然

推薦看陳希儒的數(shù)理統(tǒng)計簡史，里面有講到最小二乘法的來歷，以及相應的解釋

最小二乘法比高斯分布先出現(xiàn)，但是最開始只是一個經(jīng)驗，并沒有太多的理論證明，而等到

高斯發(fā)現(xiàn)正態(tài)分布以后，從極大似然的角度，推導出了最小二乘法

【知乎用戶的回答(6票)】:

最小二乘法可以讓你只需要估計一次就能得到各個右手邊變量對左手邊變量的“純”影響。

假設你的模型是

且滿足最小二乘法的所有假設。如果你把

里的“點”（這里一“點”指一列）分成兩組，

的話，那么當你要估計

里的

（

對

“純”的影響）時，你可以有兩種做法：

先用最小二乘法估計

，計算出殘差

——這一步把

中可以被

解釋的那部分“去掉”了。然后再用最小二乘法去估計

，計算出殘差

——這一步把

中可以被

解釋的那部分“去掉”了。最后再用一次最小二乘法去估計

，得到

對

的“純”影響

。
直接用一次最小二乘法去估計你的模型，得到

。

而其實通過這兩種方法得到的

，

：這就是 Frisch-Waugh-Lovell 定理。它是最小二乘法之所以經(jīng)久不衰的最最最根本的原因之一。

【zcwgaizhili的回答(5票)】:

你說的應該只是一部分。

高斯馬爾科夫定理中，ols是blue，也就是最佳、線性、無偏，估計。

所謂的最佳，就是方差最小。ols是所有線性無偏估計中方差最小的。但是高斯馬爾科夫定理不成立的情況下，例如異方差，ols即使無偏估計，也不能保證方差最小。

從你的問題補充上看，這條直線保證與每個點的距離之和最小，其實是假設這些點平均來說本來就該落在這條直線上，只是因為一些隨機因素從這條直線上蹦出來了，因為這些隨機因素是同分布的，所以蹦出來的距離和波動都應該差不多。

但是如果這些點的波動越來越大呢？隨著x的提高，這些點蹦出直線的波動越來越大，可以想象這些點近似一個45度的從原點出發(fā)的圓錐，這時候什么樣的直線能夠擬合這些點？

這時候就應該對每一個x加一個權重，由于方差越大的波動越大，對這個x加一個較小的權重，這種加權最小二乘法，才能了blue。

所以ols的優(yōu)良性質(zhì)是有前提條件的。比異方差更強的假設是服從正態(tài)分布。這種情況下，其實ols不但是最佳線性無偏估計，而且在所有非線性和線性估計中，它都是方差最小的。但是不滿足這些假設的情況下，ols的最優(yōu)就無從談起。

【mtPractices的回答(2票)】:

（我之前也往往會把最小二乘法的目標函數(shù)與距離混淆）

1 如果是做線性回歸，那么是一類統(tǒng)計問題。

在統(tǒng)計學中，高斯-馬爾可夫定理解釋了在統(tǒng)計評價指標中，為什么最小二乘法是最佳線性無偏估計。

可參見維基百科http://zh.wikipedia.org/wiki/%E9%AB%98%E6%96%AF%EF%BC%8D%E9%A9%AC%E5%B0%94%E5%8F%AF%E5%A4%AB%E5%AE%9A%E7%90%86

根據(jù)你后面的問題，有可能你對統(tǒng)計方面的一些知識還不太熟悉。

最小二乘法是數(shù)學中會經(jīng)常用到的一種方法，是通過誤差的最小平方和得到擬合函數(shù)的參數(shù)。

(知乎上的數(shù)學公式輸入語句還不全），你可以去維基上搜索關于最小二乘法的定義。

由于是誤差就是預測值與觀測值的差，其平方和與二維空間中的歐式距離是一樣的，所以可以使用歐幾里得度量去表達；

2 所以在最簡單的一元線性函數(shù)

擬合中，最小二乘法的目標函數(shù)就簡化成，每個點與直線上的估計值的距離（二維歐式距離）之和最小；

******************************************

3 也不是你說的點到直線的距離之和最小；

我想，做線性回歸分析的這些點是樣本點，所以你應該考慮的是樣本點與它的估計值之間的誤差，而點到直線的距離，往往很多時候點到直線的垂線所交的垂足，并不是樣本點的估計值，所以從統(tǒng)計上來看意義不大；

【馬拉轟的回答(2票)】:

我能想到的原因有三個：

一，最小二乘問題直接解矩陣就能算，用起來簡便。

二，假設誤差iid正態(tài)分布，最小二乘給出的參數(shù)是最大似然估計。正態(tài)分布最常用，有各種好性質(zhì)。

三，假設誤差同方差，零均值，不相關，最小二乘給出的參數(shù)是最好無偏估計，最好的定義是參數(shù)方差最小。(Gauss-Markov Th.)

實際上后兩條的假設一般都是不成立的，常用的真正原因是第一條。

【EarthsonLu的回答(2票)】:

這其實主要問題在于，你擬合的是一個函數(shù)，還是僅僅是一條直線。

一次函數(shù)和幾何上的一條直線，雖然看起來一樣，但意義卻是不同的。對函數(shù)來說，偏差是|y-f(x)|，而不是點到直線的歐式距離。

- - - -

另外，由中心極限定理，誤差往往都滿足高斯分布（誤差往往是很多擾動共同作用的）。這里最小二乘得到該分布的極大似然估計。

【LinglaiLi的回答(1票)】:

這個問題提得有問題：什么叫“最優(yōu)”方法？憑啥說這條直線比另一條更優(yōu)？要回答這個問題，首先要給出“最優(yōu)”的定義是什么：最小化誤差平方和（2范數(shù)）可以，最小化你說的誤差距離和（1范數(shù)）也可以，還有其他許多最優(yōu)的準則：例如加入各種regulation項...所以沒有統(tǒng)一的“最優(yōu)”。這個問題是，你首先得定義一個合理的目標函數(shù)（例如提到的2范數(shù)，1范數(shù)等等），而最小化該目標函數(shù)的解就是某個意義下的最優(yōu)。沒有哪一個目標函數(shù)比另外的目標函數(shù)更優(yōu)，每一個合理的目標函數(shù)有其適用范圍并且可以在數(shù)學上證明其特性，例如 @王芊提到的。一個核心問題是，使用誤差平方和作為目標函數(shù)時，200多年前的高斯就發(fā)現(xiàn)可以求導得到唯一的顯式解，而這個解法也因此被稱作最小二乘法，人們進一步研究時發(fā)現(xiàn)在高斯噪聲等條件下可以得到一些漂亮的結論：如最小二乘解等價于最大似然估計，最佳線性無偏估計等（說得不太嚴格，請參考教材和 @馬拉轟等人的回答）。而是用其他目標函數(shù)，很難顯式得到最優(yōu)解——而近年來凸優(yōu)化的發(fā)展，使用1范數(shù)等目標函數(shù)也可以有成熟算法求得其最優(yōu)解。

總結：(1)首先你得定義什么叫最優(yōu)，即定義一個合理（make sense）的誤差目標函數(shù)去最小化；（2）然后，你得有算法求得該目標函數(shù)對應的最優(yōu)解。

【shenshore的回答(0票)】:

除了以上，最小方差也是最大似然估計

【唐榮寬的回答(0票)】:

在假設了噪聲符合高斯分布時，利用最大似然估計（MLE）推導得出就是最小化方差（最小二乘法）,當然此時方差估計是有偏的（bias），容易產(chǎn)生過擬合。

【李瑪樂的回答(0票)】:

你說的那種度量方法叫總體最小二乘（TLS）。普通的最小二乘并沒有考慮輸入數(shù)據(jù)的噪聲，回歸的度量因此只與預測輸出和觀測值之間的差異有關。但是總體最小二乘認為輸入數(shù)據(jù)也包含噪音的成分，因此回歸的目標考慮了輸入數(shù)據(jù)的噪聲，簡單來說，最佳回歸直線的是“每個點到直線的距離最短”。

下圖說明了最小二乘（LS）與總體最小二乘（TLS）的區(qū)別

【yangliu的回答(0票)】:

題主提到：

每個點到直線的距離之和最小

這個根據(jù)歐式空間下點到直線的距離定義，用數(shù)學式子表示出來就是L2-norm的minimization.

然后最小二乘是這個最優(yōu)化式的解析解。

【馮俊晨的回答(0票)】:

在經(jīng)典假設(正態(tài)分布不是必要條件)下，OLS是Best Linear Unbiased Estimator，即無偏估計量中標準誤(standard error)最小的。建議題主拿任何一本入門級計量書籍看一下，可以從伍德里奇的經(jīng)典《現(xiàn)代計量經(jīng)濟學:導論》開始

【陳無左的回答(0票)】:

1。橢圓分布的極大似然估計是最小二乘估計，反之不盡然。

2。對誤差的概率建模決定取什么樣的誤差樣本分布，不必橢圓。

3。估計作為從樣本到估計值的函數(shù)，常以上述誤差分布的極大似然估計充當，但不必。

4。經(jīng)典統(tǒng)計推斷理論給出極大似然估計量在無窮大樣本量下的許多優(yōu)良性質(zhì)。Cramer曾說過mle是可以普遍構造的最好的估計量。

【LiHe的回答(0票)】:

對統(tǒng)計這塊兒忘了不少，就單純說下最小二乘法吧，其基本理念是擬合數(shù)據(jù)和原始數(shù)據(jù)之間的二范數(shù)最小，你可以你理解為“距離”，也就是所有擬合數(shù)據(jù)與實測數(shù)據(jù)的距離之和最小。

在某些情況下真的就是最佳啊，但是其實也會出現(xiàn)不穩(wěn)定的情況，而且真的很常見：當數(shù)據(jù)中出現(xiàn)錯誤的樣本或者偏差很大需要舍棄的樣本時，最小二乘就會得出非常不理想的結果。

有回答說中位數(shù)法會更穩(wěn)定，我想也是這個原因，舍棄了壞點，能夠更好的擬合。

淺見，望引玉。

【管清文的回答(0票)】:

不同意樓上 @王芊的說法，我個人是這么認為的：

對于線性回歸，無論用LSE(最小二乘估計)還是MLE(極大似然估計)，都是基于不同的假設而已，LSE是直接假設object function，而MLE假設的是distribution，這里在gauss noise下，他們恰好formula相同而已。anyway，他們都不一定會match ground truth。

至于假設是否靠譜，我們還得通過假設實驗進行驗證。

【知乎用戶的回答(0票)】:

因為考慮的函數(shù)是方差

原文地址:知乎