神說(shuō),要有正態(tài)分布,就有了正態(tài)分布。
神看正態(tài)分布是好的,就讓隨機(jī)誤差就服從了正態(tài)分布。
創(chuàng)世紀(jì)-數(shù)理統(tǒng)計(jì)
一、正態(tài)分布
學(xué)過(guò)基礎(chǔ)統(tǒng)計(jì)學(xué)的同學(xué)大都對(duì)正態(tài)分布非常熟悉。這個(gè)鐘型的分布曲線不但形狀優(yōu)雅,其密度函數(shù)寫(xiě)成數(shù)學(xué)表達(dá)式
也非常具有數(shù)學(xué)的美感。其標(biāo)準(zhǔn)化后的概率密度函數(shù)
更加的簡(jiǎn)潔漂亮,兩個(gè)最重要的數(shù)學(xué)常量 \pi, e都出現(xiàn)在了公式之中。在我個(gè)人的審美之中,它也屬于 top-N 的最美麗的數(shù)學(xué)公式之一,如果有人問(wèn)我數(shù)理統(tǒng)計(jì)領(lǐng)域哪個(gè)公式最能讓人感覺(jué)到上帝的存在,那我一定投正態(tài)分布的票。因?yàn)檫@個(gè)分布戴著神秘的面紗,在自然界中無(wú)處不在,讓你在紛繁蕪雜的數(shù)據(jù)背后看到隱隱的秩序。
正態(tài)分布又通常被稱(chēng)為高斯分布,在科學(xué)領(lǐng)域,冠名權(quán)那是一個(gè)很高
的榮譽(yù)。去過(guò)德國(guó)的兄弟們還會(huì)發(fā)現(xiàn),德國(guó)的鋼镚和10馬克的紙幣上都留有高斯的頭像和正態(tài)密度曲線。正態(tài)分布被冠名高斯分布,我們也容易認(rèn)為是高斯發(fā)現(xiàn)了正態(tài)分布,其實(shí)不然,不過(guò)高斯對(duì)于正態(tài)分布的歷史地位的確立是起到了決定性的作用。
正態(tài)曲線雖然看上去很美,卻不是一拍腦袋就能想到的。我在本科學(xué)習(xí)數(shù)理統(tǒng)計(jì)的時(shí)候,課本一上來(lái)介紹正態(tài)分布就給出密度分布函數(shù),卻從來(lái)不說(shuō)明這個(gè)分布函數(shù)是通過(guò)什么原理推導(dǎo)出來(lái)的。所以我一直搞不明白數(shù)學(xué)家當(dāng)年是怎么找到這個(gè)概率分布曲線的,又是怎么發(fā)現(xiàn)誤差服從這個(gè)奇妙的分布的。直到我讀研究生的時(shí)候我的導(dǎo)師給我介紹了陳希儒的《數(shù)理統(tǒng)計(jì)簡(jiǎn)史》這本書(shū),看了之后才了解了正態(tài)分布曲線從發(fā)現(xiàn)到被人們重視進(jìn)而廣泛應(yīng)用,也是經(jīng)過(guò)了幾百年的歷史。
正態(tài)分布的這段歷史是很精彩的,我們通過(guò)講幾個(gè)故事來(lái)揭開(kāi)她的神秘面紗。
二、邂逅,正態(tài)曲線的首次發(fā)現(xiàn)
第一個(gè)故事和概率論的發(fā)展密切相關(guān),主角是棣莫弗(De Moivre) 和拉普拉斯(Laplace)。
拉普拉斯是個(gè)大科學(xué)家,被稱(chēng)為法國(guó)的牛頓;棣莫弗名氣可能不算很大,不過(guò)大家應(yīng)該都熟悉這個(gè)名字,因?yàn)槲覀冊(cè)诟咧袛?shù)學(xué)學(xué)復(fù)數(shù)的時(shí)候我們都學(xué)過(guò)棣莫弗定理(cos\theta + i sin\theta)^n = cos(n\theta) + i sin(n\theta)。
古典概率論發(fā)源于賭博,惠更斯、帕斯卡、費(fèi)馬、貝努力都是古典概率的奠基人,他們那會(huì)研究的概率問(wèn)題大都來(lái)自賭桌上,最早的概率論問(wèn)題是賭徒梅累在1654年向帕斯卡提出的如何分賭金的問(wèn)題。統(tǒng)計(jì)學(xué)中的總體均值之所以被稱(chēng)為期望(Expectation), 就是源自惠更斯、帕斯卡這些人研究平均情況下一個(gè)賭徒在賭桌上可以期望自己贏得多少錢(qián)。
有一天一個(gè)哥們,也許是個(gè)賭徒,向棣莫弗提了一個(gè)和賭博相關(guān)
的一個(gè)問(wèn)題:A,B 兩人在賭場(chǎng)里賭博,A,B各自的獲勝概率是p, q=1-p,賭 n 局,若 A 贏的局?jǐn)?shù) X > np, 則 A 付給賭場(chǎng) X-np元,否則B 付給賭場(chǎng) np-X元。 問(wèn)賭場(chǎng)掙錢(qián)的期望值是多少。
問(wèn)題并不復(fù)雜, 本質(zhì)上是一個(gè)二項(xiàng)分布,最后求出的理論結(jié)果是
其中 b(n,p,i) = \binom{n}{i}p^iq^{n-i}是常見(jiàn)的二項(xiàng)概率。 但是對(duì)具體的 n, 要把這個(gè)理論結(jié)果實(shí)際計(jì)算出數(shù)值結(jié)果可不容易, 因?yàn)槠渲械亩?xiàng)公式中有組合數(shù).這就驅(qū)動(dòng) De Moivre尋找近似計(jì)算的方法計(jì)算。
與此相關(guān)聯(lián)的另一個(gè)問(wèn)題,是遵從二項(xiàng)分布的隨機(jī)變量 X \sim B(n,p), 求X 落在二項(xiàng)分布中心點(diǎn)一定范圍的概率 P_d = P(|X - np| \le d)
對(duì)于 p=1/2 的情形, 棣莫弗 做了一些計(jì)算并得到了一些近似結(jié)果,但是還不夠漂亮,幸運(yùn)的是 棣莫弗 和 Stirling 處在同一個(gè)時(shí)代, 而且二人之間有聯(lián)系,Stirling 公式是在數(shù)學(xué)分析中必學(xué)的一個(gè)重要公式
1733 年,棣莫弗很快利用 Stirling 公式計(jì)算取得了重要的進(jìn)展。考慮 n 是偶數(shù)的情形,令二項(xiàng)概率
通過(guò) Stirling 公式做一些簡(jiǎn)單的計(jì)算容易得到,
于是有
使用上式的結(jié)果,并在二項(xiàng)概率累加求和的過(guò)程中近似的使用定積分代替求和,很容易就能得到
看,正態(tài)分布的密度函數(shù)的形式在積分公式中出現(xiàn)了!這也就是我們?cè)跀?shù)理統(tǒng)計(jì)課本上學(xué)到的二項(xiàng)分布的極限分布是正態(tài)分布。
以上只是討論了 p=1/2的情形, 棣莫弗也對(duì) p \ne 1/2做了一些計(jì)算,后來(lái)拉普拉斯對(duì) p \ne 1/2的情況做了更多的分析,并把二項(xiàng)分布的正態(tài)近似推廣到了任意 p的情況。 這是第一次正態(tài)密度函數(shù)被數(shù)學(xué)家勾畫(huà)出來(lái),而且是以二項(xiàng)分布的極限分布的情形被推導(dǎo)出來(lái)的。 熟悉基礎(chǔ)概率統(tǒng)計(jì)的同學(xué)們都知道這個(gè)結(jié)果其實(shí)叫棣莫弗-拉普拉斯中心極限定理。
[De Moivre-Laplace 中心極限定理]
設(shè)隨機(jī)變量 X_n (n=1,2,\cdots)服從參數(shù)為 p的二項(xiàng)分布,則對(duì)任意的 x, 恒有
我在大學(xué)學(xué)習(xí)數(shù)理統(tǒng)計(jì)的時(shí)候,學(xué)習(xí)的過(guò)程都是先學(xué)習(xí)了正態(tài)分布,然后才學(xué)習(xí)中心極限定理。而學(xué)習(xí)到正態(tài)分布的時(shí)候,直接就描述了其概率密度的數(shù)學(xué)形式,雖然數(shù)學(xué)上很漂亮,但是當(dāng)時(shí)很困惑數(shù)學(xué)家們是如何憑空就找到這個(gè)分布的。然而讀了陳希孺的《數(shù)理統(tǒng)計(jì)學(xué)簡(jiǎn)史》之后,才發(fā)現(xiàn)正態(tài)分布的密度形式首次發(fā)現(xiàn)是在棣莫弗-拉普拉斯的中心極限定理中。數(shù)學(xué)家研究數(shù)學(xué)問(wèn)題的進(jìn)程很少是按照我們數(shù)學(xué)課本的安排順序推進(jìn)的,現(xiàn)代的數(shù)學(xué)課本都是按照數(shù)學(xué)內(nèi)在的邏輯進(jìn)行組織編排的,雖然邏輯結(jié)構(gòu)上嚴(yán)謹(jǐn)優(yōu)美,卻把數(shù)學(xué)問(wèn)題研究的歷史痕跡抹得一干二凈,我們難以在數(shù)學(xué)課本上看到數(shù)學(xué)家對(duì)數(shù)學(xué)問(wèn)題是如何研究推進(jìn)的。DNA 雙螺旋結(jié)構(gòu)的發(fā)現(xiàn)者之一 Waston 在他的名著《DNA 雙螺旋》序言中說(shuō):“科學(xué)的發(fā)現(xiàn)很少會(huì)像門(mén)外漢所想象的一樣,按照直接了當(dāng)合乎邏輯的方式進(jìn)行的?!?/p>
棣莫弗 出他的發(fā)現(xiàn)后40年(大約是 1770), 拉普拉斯建立了中心極限定理較一般的形式,中心極限定理后續(xù)又被其它數(shù)學(xué)家們推廣到了其它任意分布的情形,而不限于二項(xiàng)分布。后續(xù)的統(tǒng)計(jì)學(xué)家發(fā)現(xiàn),一系列的重要統(tǒng)計(jì)量,在樣本量 N 趨于無(wú)窮的時(shí)候, 其極限分布都有正態(tài)的形式, 這構(gòu)成了數(shù)理統(tǒng)計(jì)學(xué)中大樣本理論的基礎(chǔ)。
棣莫弗在二項(xiàng)分布的計(jì)算中瞥見(jiàn)了正態(tài)曲線的模樣,不過(guò)他并沒(méi)有能展現(xiàn)這個(gè)曲線的美妙之處。棣莫弗的這個(gè)工作當(dāng)時(shí)并沒(méi)有引起人們足夠的重視,原因在于棣莫弗 不是個(gè)統(tǒng)計(jì)學(xué)家,從未從統(tǒng)計(jì)學(xué)的角度去考慮其工作的意義。 正態(tài)分布(當(dāng)時(shí)也沒(méi)有被命名為正態(tài)分布) 在當(dāng)時(shí)也只是以極限分布的形式出現(xiàn),并沒(méi)有在統(tǒng)計(jì)學(xué),尤其是誤差分析中發(fā)揮作用。這也就是正態(tài)分布最終沒(méi)有被冠名 棣莫弗分布的重要原因。 那Gauss 做了啥工作導(dǎo)致統(tǒng)計(jì)學(xué)家把正態(tài)分布的這頂桂冠戴在了他的頭上呢?這先得從最小二乘法的發(fā)展說(shuō)起。下回分解:-)
三、最小二乘法,數(shù)據(jù)分析的瑞士軍刀
第二個(gè)故事的主角是歐拉(Euler), 拉普拉斯(Lapalace),勒讓德Legendre) 和高斯(Gauss),故事發(fā)生的時(shí)間是十八世紀(jì)中到十九世紀(jì)初。十七、十八世紀(jì)是科學(xué)發(fā)展的黃金年代,微積分的發(fā)展和牛頓萬(wàn)有引力定律的建立,直接的推動(dòng)了天文學(xué)和測(cè)地學(xué)的迅猛發(fā)展。當(dāng)時(shí)的大科學(xué)家們都在考慮許多天文學(xué)上的問(wèn)題。幾個(gè)典型的問(wèn)題如下:
- 土星和木星是太陽(yáng)系中的大行星,由于相互吸引對(duì)各自的運(yùn)動(dòng)軌道產(chǎn)生了影響,許多大數(shù)學(xué)家,包括歐拉和拉普拉斯都在基于長(zhǎng)期積累的天文觀測(cè)數(shù)據(jù)計(jì)算土星和木星的運(yùn)行軌道。
- 勒讓德承擔(dān)了一個(gè)政府給的重要任務(wù),測(cè)量通過(guò)巴黎的子午線的長(zhǎng)度,
- 海上航行經(jīng)緯度的定位。主要是通過(guò)對(duì)恒星和月面上的一些定點(diǎn)的觀測(cè)來(lái)確定經(jīng)緯度。
這些天文學(xué)和測(cè)地學(xué)的問(wèn)題,無(wú)不涉及到數(shù)據(jù)的多次測(cè)量,數(shù)據(jù)的計(jì)算與分析;十七、十八世紀(jì)的天文觀測(cè),也積累了大量的數(shù)據(jù)需要進(jìn)行分析和計(jì)算。很多年以前,學(xué)者們就已經(jīng)經(jīng)驗(yàn)性的認(rèn)為,對(duì)于有誤差的測(cè)量數(shù)據(jù),多次測(cè)量取平均是比較好的處理方法,雖然缺乏理論上的論證,也不斷的受到一些人的質(zhì)疑。取平均作為一種異常直觀的方式,已經(jīng)被使用了千百年,在多年積累的數(shù)據(jù)的處理經(jīng)驗(yàn)中也得到一定的驗(yàn)證,被認(rèn)為是一種良好的數(shù)據(jù)處理方法。
以上涉及的問(wèn)題,我們直接關(guān)心的目標(biāo)量往往無(wú)法直接觀測(cè),但是一些相關(guān)的量是可以觀測(cè)到的,而通過(guò)建立數(shù)學(xué)模型,最終可以解出我們關(guān)心的量。這些天文學(xué)的問(wèn)題大體都可以轉(zhuǎn)換為描述如下的問(wèn)題:有我們想估計(jì)的量 \beta_0,\cdots,\beta_p, 另有若干個(gè)可以測(cè)量的量 x_1,\cdots,x_p, y, 這些量之間有線性關(guān)系
如何通過(guò)多組觀測(cè)數(shù)據(jù)求解出參數(shù)\beta_0,\cdots,\beta_p呢? 歐拉和拉普拉斯采用的都是求解線性方程組的方法。
\begin{eqnarray}\left\{\begin{array}{lll}y_1 = \beta_0 + \beta_1x_{11} + \cdots + \beta_px_{p1} \\y_2 = \beta_0 + \beta_1x_{12} + \cdots + \beta_px_{p2} \\\vdots \\y_n = \beta_0 + \beta_1x_{1n} + \cdots + \beta_px_{pn}\end{array}\right.\end{eqnarray}
但是面臨的一個(gè)問(wèn)題是,有 n組觀測(cè)數(shù)據(jù),p + 1個(gè)變量, 如果 n > p + 1, 則得到的線性矛盾方程組,無(wú)法直接求解。 所以歐拉和拉普拉斯采用的方法都是通過(guò)一定的對(duì)數(shù)據(jù)的觀察,把n個(gè)線性方程分為 p+1組,然后把每個(gè)組內(nèi)的方程線性求和后歸并為一個(gè)方程,從而就把n個(gè)方程的方程組劃歸為p+1個(gè)方程的方程組,進(jìn)一步解方程求解參數(shù)。這些方法初看有一些道理,但是都過(guò)于 adhoc, 無(wú)法形成統(tǒng)一處理這一類(lèi)問(wèn)題的一個(gè)通用解決框架。
以上求解線性矛盾方程的問(wèn)題在現(xiàn)在的本科生看來(lái)都不困難,就是統(tǒng)計(jì)學(xué)中的線性回歸問(wèn)題,直接用最小二乘法就解決了,可是即便如歐拉、拉普拉斯這些數(shù)學(xué)大牛,當(dāng)時(shí)也未能對(duì)這些問(wèn)題提出有效的解決方案??梢?jiàn)在科學(xué)研究中,要想在觀念上有所突破并不容易。有效的最小二乘法是勒讓德在 1805 年發(fā)表的,基本思想就是認(rèn)為測(cè)量中有誤差,所以所有方程的累積誤差為
累積誤差 = \sum(觀測(cè)值 - 理論值 )^2
我們求解出導(dǎo)致累積誤差最小的參數(shù)即可。
\begin{eqnarray}\label{least-square-error} \begin{array}{lll}\hat{\beta}& = & \displaystyle argmin_{\beta} \sum_{i=1}^n e_i^2 \\& = & \displaystyleargmin_{\beta} \sum_{i=1}^n [y_i - (\beta_0 + \beta_1x_{1i} + \cdots + \beta_px_{pi})]^2\end{array} \end{eqnarray}
勒讓德在論文中對(duì)最小二乘法的優(yōu)良性做了幾點(diǎn)說(shuō)明:
- 最小二乘使得誤差平方和最小,并在各個(gè)方程的誤差之間建立了一種平衡,從而防止某一個(gè)極端誤差取得支配地位
- 計(jì)算中只要求偏導(dǎo)后求解線性方程組,計(jì)算過(guò)程明確便捷
- 最小二乘可以導(dǎo)出算術(shù)平均值作為估計(jì)值
對(duì)于最后一點(diǎn),從統(tǒng)計(jì)學(xué)的角度來(lái)看是很重要的一個(gè)性質(zhì)。推理如下:假設(shè)真值為 \theta, x_1, \cdots, x_n為n次測(cè)量值, 每次測(cè)量的誤差為 e_i = x_i - \theta ,按最小二乘法,誤差累積為
求解\theta使得 L(\theta)達(dá)到最小,正好是算術(shù)平均 \bar{x} = \frac{\sum_{i=1}^n x_i}{n} 。
由于算術(shù)平均是一個(gè)歷經(jīng)考驗(yàn)的方法,而以上的推理說(shuō)明,算術(shù)平均是最小二乘的一個(gè)特例,所以從另一個(gè)角度說(shuō)明了最小二乘方法的優(yōu)良性,使我們對(duì)最小二乘法更加有信心。
最小二乘法發(fā)表之后很快得到了大家的認(rèn)可接受,并迅速的在數(shù)據(jù)分析實(shí)踐中被廣泛使用。不過(guò)歷史上又有人把最小二乘法的發(fā)明歸功于高斯,這又是怎么一回事呢。高斯在1809年也發(fā)表了最小二乘法,并且聲稱(chēng)自己已經(jīng)使用這個(gè)方法多年。高斯發(fā)明了小行星定位的數(shù)學(xué)方法,并在數(shù)據(jù)分析中使用最小二乘方法進(jìn)行計(jì)算,準(zhǔn)確的預(yù)測(cè)了谷神星的位置。
扯了半天最小二乘法,沒(méi)看出和正態(tài)分布有任何關(guān)系啊,離題了吧?單就最小二乘法本身,雖然很實(shí)用,不過(guò)看上去更多的算是一個(gè)代數(shù)方法,雖然可以推導(dǎo)出最優(yōu)解,對(duì)于解的誤差有多大,無(wú)法給出有效的分析,而這個(gè)就是正態(tài)分布粉墨登場(chǎng)發(fā)揮作用的地方。勒讓德提出的最小二乘法,確實(shí)是一把在數(shù)據(jù)分析領(lǐng)域披荊斬棘的好刀,但是刀刃還是不夠鋒利;而這把刀的打造后來(lái)至少一半功勞被歸到高斯,是因?yàn)楦咚共粏为?dú)自的給出了造刀的方法,而且把最小二乘這把利刀的刀刃造得無(wú)比鋒利,把最小二乘打造為了一把瑞士軍刀。高斯拓展了最小二乘法,把正態(tài)分布和最小二乘法聯(lián)系在一起,并使得正態(tài)分布在統(tǒng)計(jì)誤差分析中確立了自己的定位,否則正態(tài)分布就不會(huì)被稱(chēng)為高斯分布了。 那高斯這位神人是如何把正態(tài)分布引入到誤差分析之中,打造最小二乘這把瑞士軍刀的呢?看下一個(gè)故事。
四、眾里尋她千百度,誤差分布曲線的確立
第三個(gè)故事有點(diǎn)長(zhǎng),主角是高斯和拉普拉斯,故事的主要內(nèi)容是猜測(cè)上帝的造物的旨意,尋找隨機(jī)誤差分布的規(guī)律。
天文學(xué)是第一個(gè)被測(cè)量誤差困擾的學(xué)科,從古代至十八世紀(jì)天文學(xué)一直是應(yīng)用數(shù)學(xué)最發(fā)達(dá)的領(lǐng)域, 到十八世紀(jì),天文學(xué)的發(fā)展積累了大量的天文學(xué)數(shù)據(jù)需要分析計(jì)算,應(yīng)該如何來(lái)處理數(shù)據(jù)中的觀測(cè)誤差成為一個(gè)很棘手的問(wèn)題。 我們?cè)跀?shù)據(jù)處理中經(jīng)常使用平均的常識(shí)性法則,千百來(lái)來(lái)的數(shù)據(jù)使用經(jīng)驗(yàn)說(shuō)明算術(shù)平均能夠消除誤差,提高精度。 平均有如此的魅力,道理何在,之前沒(méi)有人做過(guò)理論上的證明。 算術(shù)平均的合理性問(wèn)題在天文學(xué)的數(shù)據(jù)分析工作中被提出來(lái)討論:測(cè)量中的隨機(jī)誤差服應(yīng)該服從怎樣的概率分布? 算術(shù)平均的優(yōu)良性和誤差的分布有怎樣的密切聯(lián)系?
伽利略在他著名的《關(guān)于兩個(gè)主要世界系統(tǒng)的對(duì)話》中,對(duì)誤差的分布做過(guò)一些定性的描述,主要包括:
- 誤差是對(duì)稱(chēng)分布的;
- 大的誤差出現(xiàn)頻率低,小的誤差出現(xiàn)頻率高。
用數(shù)學(xué)的語(yǔ)言描述,也就是說(shuō)誤差分布函數(shù) f(x)關(guān)于0對(duì)稱(chēng)分布,概率密度隨 |x|增加而減小, 這兩個(gè)定性的描述都很符合常識(shí)。
許多天文學(xué)家和數(shù)學(xué)家開(kāi)始了尋找誤差分布曲線的嘗試。 Thomas Simpson (1710-1761) 先走出了有意義的一步。 設(shè)真值為 \theta, x_1, \cdots, x_n為n次測(cè)量值, 每次測(cè)量的誤差為 e_i = x_i - \theta , 若用算術(shù)平均 \bar{x} = \frac{\sum_{i=1}^n x_i}{n} 去估計(jì)\theta, 其誤差為 \bar{e} = \frac{\sum_{i=1}^n e_i}{n} 。 Simpson 證明了, 對(duì)于如下的一個(gè)概率分布,
【Simpson 的誤差態(tài)分布曲線】
有
也就是說(shuō),|\bar{e}|相比于|e_1|取小值的機(jī)會(huì)更大。 Simpson 的這個(gè)工作很粗糙,但是這是第一次在一個(gè)特定情況下,從概率論的角度嚴(yán)格證明了算術(shù)平均的優(yōu)良性。
從 1772-1774 年, 拉普拉斯也加入到了尋找誤差分布函數(shù)的隊(duì)伍中。拉普拉斯假定誤差分布函數(shù)f(x)滿足如下性質(zhì)
由此最終求得的分布函數(shù)為
這個(gè)函數(shù)現(xiàn)在被稱(chēng)為拉普拉斯分布。
【Laplace 的誤差態(tài)分布曲線】
以這個(gè)函數(shù)作為誤差分布,拉普拉斯開(kāi)始考慮如何基于測(cè)量的結(jié)果去估計(jì)未知參數(shù)的值。 拉普拉斯可以算是一個(gè)貝葉斯主義者,他的參數(shù)估計(jì)的原則和現(xiàn)代貝葉斯方法非常相似,假設(shè)先驗(yàn)分布是均勻的, 計(jì)算出參數(shù)的后驗(yàn)分布后,取后驗(yàn)分布的中值點(diǎn),即1/2分位點(diǎn),作為參數(shù)估計(jì)值??墒腔谶@個(gè)誤差分布函數(shù) 做了一些計(jì)算之后,拉普拉斯發(fā)現(xiàn)計(jì)算過(guò)于復(fù)雜,最終沒(méi)能給出什么有用的結(jié)果。
拉普拉斯可是概率論的大牛,寫(xiě)過(guò)兩本極有影響力的《概率分析理論》, 不過(guò)以我的數(shù)學(xué)審美,實(shí)在無(wú)法理解拉普拉斯這樣的大牛怎么找了一個(gè)零點(diǎn)不可導(dǎo)的誤差的分布函數(shù), 拉普拉斯最終還是沒(méi)能搞定誤差分布的問(wèn)題。
現(xiàn)在輪到高斯登場(chǎng)了,高斯在數(shù)學(xué)史中的地位極高,號(hào)稱(chēng)數(shù)學(xué)史上的狐貍,數(shù)學(xué)家阿貝爾對(duì)他的評(píng)論是 "He is like the fox, who effaces his tracks in the sand with his tail." 我們的數(shù)學(xué)大師陳省身把黎曼和龐加萊稱(chēng)為數(shù)學(xué)家中的菩薩,而稱(chēng)自己為羅漢;高斯是黎曼的導(dǎo)師,數(shù)學(xué)圈里有些教授把高斯稱(chēng)為數(shù)學(xué)家中的佛。 在數(shù)學(xué)家中上既能仰望理論數(shù)學(xué)的星空,又能腳踏應(yīng)用數(shù)學(xué)的實(shí)地的可不多見(jiàn), 高斯是數(shù)學(xué)家中少有的頂”天“立”地“的人物,它既對(duì)純理論數(shù)學(xué)有深刻的洞察力,又極其重視數(shù)學(xué)在實(shí)踐中的應(yīng)用。 在誤差分布的處理中,高斯以及其簡(jiǎn)單的手法確立了隨機(jī)誤差的概率分布,其結(jié)果成為數(shù)理統(tǒng)計(jì)發(fā)展史上的一塊里程碑。
高斯的介入首先要從天文學(xué)界的一個(gè)事件說(shuō)起。1801年1月,天文學(xué)家Giuseppe Piazzi發(fā)現(xiàn)了一顆從未見(jiàn)過(guò) 的光度8等的星在移動(dòng), 這顆現(xiàn)在被稱(chēng)作谷神星(Ceres)的小行星在夜空中出現(xiàn)6個(gè)星期,掃過(guò)八度角后在就在太陽(yáng)的光芒下沒(méi)了蹤影,無(wú)法觀測(cè)。 而留下的觀測(cè)數(shù)據(jù)有限,難以計(jì)算出他的軌道,天文學(xué)家也因此無(wú)法確定這顆新星是彗星還是行星, 這個(gè)問(wèn)題很快成了學(xué)術(shù)界關(guān)注的焦點(diǎn)。高斯當(dāng)時(shí)已經(jīng)是很有名望的年輕數(shù)學(xué)家了, 這個(gè)問(wèn)題引起了他的興趣。高斯以其卓越的數(shù)學(xué)才能創(chuàng)立了一種嶄新的 行星軌道的計(jì)算方法,一個(gè)小時(shí)之內(nèi)就計(jì)算出了行星的軌道,并預(yù)言了他在夜空中出現(xiàn)的時(shí)間和位置。 1801年12月31日夜,德國(guó)天文愛(ài)好者奧伯斯(Heinrich Olbers),在高斯預(yù)言的時(shí)間里,用望遠(yuǎn)鏡對(duì)準(zhǔn)了這片天空。 果然不出所料,谷神星出現(xiàn)了!
高斯為此名聲大震,但是高斯當(dāng)時(shí)拒絕透露計(jì)算軌道的方法,原因可能是高斯認(rèn)為自己的方法的理論基礎(chǔ)還不夠成熟, 而高斯一向治學(xué)嚴(yán)謹(jǐn)、精益求精,不輕易發(fā)表沒(méi)有思考成熟的理論。直到1809年高斯系統(tǒng)地完善了相關(guān)的數(shù)學(xué)理論后, 才將他的方法公布于眾,而其中使用的數(shù)據(jù)分析方法,就是以正態(tài)誤差分布為基礎(chǔ)的最小二乘法。 那高斯是如何推導(dǎo)出誤差分布為正態(tài)分布的?讓我們看看高斯是如何猜測(cè)上帝的意圖的。
設(shè)真值為 \theta, x_1, \cdots, x_n為n次獨(dú)立測(cè)量值, 每次測(cè)量的誤差為 e_i = x_i - \theta , 假設(shè)誤差e_i的密度函數(shù)為 f(e), 則測(cè)量值的聯(lián)合概率為n個(gè)誤差的聯(lián)合概率,記為
\begin{equation} L(\theta) = L(\theta;x_1,\cdots,x_n)=f(e_1)\cdots f(e_n) = f(x_1-\theta)\cdots f(x_n-\theta)\end{equation}
但是高斯不采用貝葉斯的推理方式,而是直接取L(\theta)達(dá)到最大值的 \hat{\theta}=\hat{\theta}(x_1,\cdots,x_n)作為\theta的估計(jì)值,即
現(xiàn)在我們把L(\theta)稱(chēng)為樣本的似然函數(shù),而得到的估計(jì)值 \hat{\theta}稱(chēng)為極大似然估計(jì)。 高斯首次給出了極大似然的思想,這個(gè)思想后來(lái)被統(tǒng)計(jì)學(xué)家 R.A.Fisher 系統(tǒng)的發(fā)展成為參數(shù)估計(jì)中的極大似然估計(jì)理論。
高斯接下來(lái)的想法特別牛,他開(kāi)始揣度上帝的意圖,而這充分體現(xiàn)了高斯的數(shù)學(xué)天才。 高斯把整個(gè)問(wèn)題的思考模式倒過(guò)來(lái):既然千百年來(lái)大家都認(rèn)為算術(shù)平均 是一個(gè)好的估計(jì),那我就認(rèn)為極大似然估計(jì)導(dǎo)出的就應(yīng)該是算術(shù)平均!所以高斯猜測(cè)上帝在創(chuàng)世紀(jì)中的旨意就是:
誤差分布導(dǎo)出的極大似然估計(jì) = 算術(shù)平均值
然后高斯去找誤差密度函數(shù) f以迎合這一點(diǎn)。即尋找這樣的概率分布函數(shù) f, 使 得極大似然估計(jì)正好是算術(shù)平均 \hat{\theta} = \bar{x}。而高斯應(yīng)用數(shù)學(xué)技巧求解這個(gè)函數(shù)f, 高斯證明(證明不難,后續(xù)給出),所有的概率密度函數(shù)中,唯一滿足這個(gè)性質(zhì)的就是
瞧,正態(tài)分布的密度函數(shù) N(0, \sigma^2)被高斯他老人家給解出來(lái)了!
【正態(tài)誤差態(tài)分布律】
進(jìn)一步,高斯基于這個(gè)誤差分布函數(shù)對(duì)最小二乘法給出了一個(gè)很漂亮的解釋。 對(duì)于每個(gè)誤差 e_i,有 e_i \sim N(0, \sigma^2), 則(e_1, \cdots, e_n)的聯(lián)合概率分布為
要使得這個(gè)概率最大,必須使得\sum_{i=1}^n e_i^2 取最小值,這正好就是最小二乘法的要求。
高斯所拓展的最小二乘法成為了十九世紀(jì)統(tǒng)計(jì)學(xué)的最重要成就,它在十九世紀(jì)統(tǒng)計(jì)學(xué)的重要性就相當(dāng)于十八世紀(jì)的微積分之于數(shù)學(xué)。 而勒讓德和最小二乘的的發(fā)明權(quán)之爭(zhēng),成了數(shù)學(xué)史上僅次于牛頓、萊布尼茨微積分發(fā)明的爭(zhēng)端。 相比于勒讓德1805給出的最小二乘法描述,高斯基于誤差正態(tài)分布的最小二乘理論顯然更高一籌, 高斯的工作中既提出了極大似然估計(jì)的思想,又解決了誤差的概率密度分布的問(wèn)題, 由此我們可以對(duì)誤差的大小的影響進(jìn)行統(tǒng)計(jì)度量了。高斯的這項(xiàng)工作對(duì)后世的影響極大,而正態(tài)分布也因此被冠名 高斯分布。估計(jì)高斯本人當(dāng)時(shí)是完全沒(méi)有意識(shí)到他的這個(gè)工作給現(xiàn)代數(shù)理統(tǒng)計(jì)學(xué)帶來(lái)的深刻影響。 高斯在數(shù)學(xué)上的貢獻(xiàn)特多,去世前他是要求給自己的墓碑上雕刻上正十七邊形,以說(shuō)明他在正十七邊形尺規(guī)作圖上的杰出工作。 而后世的德國(guó)鈔票和鋼镚上是以正態(tài)密度曲線來(lái)紀(jì)念高斯,這足以說(shuō)明高斯的這項(xiàng)工作在當(dāng)代科學(xué)發(fā)展中的分量。
17-18世紀(jì)科學(xué)界流行的做法,是盡可能從某種簡(jiǎn)單明了的準(zhǔn)則(first principle)出發(fā)進(jìn)行推導(dǎo), 高斯設(shè)定的準(zhǔn)則“最大似然估計(jì)應(yīng)該導(dǎo)出優(yōu)良的算術(shù)平均”,并導(dǎo)出了誤差服從正態(tài)分布,推導(dǎo)的形式上非常簡(jiǎn)潔優(yōu)美。 但是高斯給的準(zhǔn)則在邏輯上并不足以讓人完全信服,因?yàn)樗阈g(shù)平均的優(yōu)良性當(dāng)時(shí)更多的是一個(gè)直覺(jué)經(jīng)驗(yàn),缺乏嚴(yán)格的理論支持。 高斯的推導(dǎo)存在循環(huán)論證的味道:因?yàn)樗阈g(shù)平均是優(yōu)良的,推出誤差必須服從正態(tài)分布; 反過(guò)來(lái),又基于正態(tài)分布推導(dǎo)出最小二乘和算術(shù)平均,來(lái)說(shuō)明最小二乘法和算術(shù)平均的優(yōu)良性。 這陷入了一個(gè)雞生蛋蛋生雞的怪圈,邏輯上算術(shù)平均的優(yōu)良性到底有沒(méi)有自行成立的理由呢?
高斯的文章發(fā)表之后,拉普拉斯很快得知了高斯的工作。 拉普拉斯看到,正態(tài)分布既可以從作為拋鋼镚產(chǎn)生的序列和中生成出來(lái),又可以被優(yōu)雅的作為誤差分布定律, 這難道是偶然現(xiàn)象?拉普拉斯不愧為概率論的大牛,他馬上將誤差的正態(tài)分布理論和中心極限定理聯(lián)系起來(lái),提出了元誤差解釋。 他指出如果誤差可以看成許多量的疊加,則根據(jù)他的中心極限定理,則隨機(jī)誤差理所應(yīng)當(dāng)是高斯分布。 而20世紀(jì)中心極限定理的進(jìn)一步發(fā)展,也給這個(gè)解釋提供了更多的理論支持。因此有了這個(gè)解釋為出發(fā)點(diǎn), 高斯的循環(huán)論證的圈子就可以打破。 估計(jì)拉普拉斯悟出這個(gè)結(jié)論之后一定想撞墻,自己辛辛苦苦尋尋覓覓 了這么久的誤差分布曲線就在自己的眼皮底下,自己卻長(zhǎng)年來(lái)視而不見(jiàn),被高斯給占了先機(jī)。
至此,誤差分布曲線的尋找塵埃落定,正態(tài)分布在誤差分析中確立了自己的地位,開(kāi)始并在整個(gè)19世紀(jì)不斷的開(kāi)疆?dāng)U土, 直至在統(tǒng)計(jì)學(xué)中鶴立雞群,傲世其它一切概率分布;而高斯和拉普拉斯的工作,為現(xiàn)代統(tǒng)計(jì)學(xué)的發(fā)展開(kāi)啟了一扇大門(mén)。
在整個(gè)正態(tài)分布被發(fā)現(xiàn)與應(yīng)用的歷史中,棣莫弗、拉普拉斯、高斯各有貢獻(xiàn),拉普拉斯從中心極限定理的角度解釋它, 高斯把它應(yīng)用在誤差分析中,殊途同歸。正態(tài)分布被人們發(fā)現(xiàn)有這么好的性質(zhì),各國(guó)人民都爭(zhēng)搶他的冠名權(quán)。 因?yàn)?Laplace 是法國(guó)人,所以當(dāng)時(shí)在法國(guó)被稱(chēng)為拉普拉斯分布; 而高斯是德國(guó)人, 所以在德國(guó)叫做高斯分布;第三中立國(guó)的人民稱(chēng)他為拉普拉斯-高斯分布。后來(lái)法國(guó)的大數(shù)學(xué)家龐加萊(Henri Poincaré)建議改用正態(tài)分布這一中立名稱(chēng),而隨后統(tǒng)計(jì)學(xué)家卡爾.皮爾森使得這個(gè)名稱(chēng)被廣泛接受:
Many years ago I called the Laplace-Gaussian curve the normal curve, which name, while it avoids an international question of priority, has the disadvantage of leading people to believe that all other distributions of frequency are in one sense or another "abnormal".}
-Karl Pearson (1920)
不過(guò)因?yàn)楦咚乖跀?shù)學(xué)家中的名氣是在太大, 正態(tài)分布的桂冠還是更多的被戴在了高斯的腦門(mén)上,目前數(shù)學(xué)界通行的用語(yǔ)是正態(tài)分布高斯分布, 兩者并用。
正態(tài)分布在高斯的推動(dòng)下,迅速在測(cè)量誤差分析中被廣泛使用,然而早期也僅限于測(cè)量誤差的分析中, 其重用性遠(yuǎn)沒(méi)有被自然科學(xué)和社會(huì)科學(xué)領(lǐng)域中的人們所認(rèn)識(shí),那正態(tài)分布是如何從測(cè)量誤差分析的小溪, 沖向自然科學(xué)和社會(huì)科學(xué)的汪洋大海的呢?
(五)曲徑通幽處,禪房花木深,正態(tài)分布的各種推導(dǎo)
在介紹正態(tài)分布的后續(xù)發(fā)展之前,我們來(lái)多講一點(diǎn)數(shù)學(xué),也許有些人會(huì)覺(jué)得枯燥,不過(guò)高斯曾經(jīng)說(shuō)過(guò):“數(shù)學(xué)是上帝的語(yǔ)言”。所以要想更加深入的理解正態(tài)分布的美,唯有通過(guò)上帝的語(yǔ)言。
造物主造物的準(zhǔn)則往往是簡(jiǎn)單明了的,只是在紛繁蕪雜的萬(wàn)物之中,我們要發(fā)現(xiàn)并領(lǐng)會(huì)它并非易事。之前提到過(guò),17-18世紀(jì)科學(xué)界流行的做法,是盡可能從某種簡(jiǎn)單明了的準(zhǔn)則(first principle)出發(fā)作為我們探求的起點(diǎn),而后來(lái)的數(shù)學(xué)家和物理學(xué)家們研究發(fā)現(xiàn),屢次從一些給定的簡(jiǎn)單的準(zhǔn)則出發(fā),我們總是被引領(lǐng)到了正態(tài)分布的家門(mén)口,這讓人感覺(jué)到正態(tài)分布的美妙。
達(dá)爾文的表弟高爾頓是生物學(xué)家兼統(tǒng)計(jì)學(xué)家,他對(duì)正態(tài)分布非常的推崇與贊美:”我?guī)缀醪辉?jiàn)過(guò)像誤差呈正態(tài)分布這么激發(fā)人們無(wú)窮想象的宇宙秩序“。當(dāng)代兩位偉大的概率學(xué)家 Levy 和 Kac 都曾經(jīng)說(shuō)過(guò), 正態(tài)分布是他們切入概率論的初戀情人,具有無(wú)窮的魅力。自從 1919 年以后,Levy 研究的主題曲就是正態(tài)分布,他一而再再而三的以他為出發(fā)點(diǎn),并且屢次堅(jiān)決的又回到她......如果古希臘人知道正態(tài)分布,想必奧林匹斯山的神殿里會(huì)多出一個(gè)正態(tài)女神,由她來(lái)掌管世間的混沌。
要拉下正態(tài)分布的神秘面紗展現(xiàn)她的美麗,需要高深的概率論知識(shí),本人在數(shù)學(xué)方面知識(shí)淺薄,不能勝任。只能在極為有限的范圍內(nèi)嘗試掀開(kāi)她的面紗的一角。棣莫弗和拉普拉斯以拋鋼镚的序列求和為出發(fā)點(diǎn),沿著一條小徑把我們第一次領(lǐng)到了正態(tài)分布的家門(mén)口,這條路叫作中心極限定理,而這條路上風(fēng)景秀麗,許多概率學(xué)家都為之傾倒,這條路在20世紀(jì)被概率學(xué)家們?cè)酵卦綄挕6髷?shù)學(xué)家和物理學(xué)家們發(fā)現(xiàn):條條曲徑通正態(tài)。著名的物理學(xué)家 E.T.Jaynes 在他的名著《Probability Theory, the Logic of Science》(中文書(shū)名翻譯為《概率論沉思錄》)中,描繪了四條通往正態(tài)分布的小徑。曲徑通幽處,禪房花木深,讓我們一起來(lái)欣賞一下四條小徑上的風(fēng)景吧。
1. 高斯的推導(dǎo)(1809)
第一條小徑是高斯找到的,高斯以如下準(zhǔn)則作為小徑的出發(fā)點(diǎn)
誤差分布導(dǎo)出的極大似然估計(jì) = 算術(shù)平均值
設(shè)真值為 \theta, x_1, \cdots, x_n為n次獨(dú)立測(cè)量值, 每次測(cè)量的誤差為 e_i = x_i - \theta ,
假設(shè)誤差e_i的密度函數(shù)為 f(e), 則測(cè)量值的聯(lián)合概率為n個(gè)誤差的聯(lián)合概率,記為
\begin{equation} L(\theta) = L(\theta;x_1,\cdots,x_n)=f(e_1)\cdots f(e_n) = f(x_1-\theta)\cdots f(x_n-\theta)\end{equation}
為求極大似然估計(jì),令
整理后可以得到
令 g(x) = \frac{f'(x)}{f(x)},
由于高斯假設(shè)極大似然估計(jì)的解就是算術(shù)平均 \bar{x},把解帶入上式,可以得到
\begin{equation} \label{gauss-derivation}\sum_{i=1}^n g(x_i-\bar{x}) = 0 (*) \end{equation}
(*) 式中取 n=2, 有
由于此時(shí)有 x_1-\bar{x} = -(x_2-\bar{x}), 并且 x_1, x_2是任意的,有此得到
(*) 式中再取 n=m+1, 并且要求 x_1=\cdots=x_m=-x, x_{m+1} = mx, 則有 \bar{x} = 0, 并且
所以得到
而滿足上式的唯一的連續(xù)函數(shù)就是 g(x)=cx, 從而進(jìn)一步可以求解出
由于f(x)是概率分布函數(shù),把f(x)正規(guī)化一下就得到正態(tài)分布函數(shù)。
2. Herschel(1850)和 Maxwell(1860) 的推導(dǎo)
第二條小徑是天文學(xué)家 Hershcel 和物理學(xué)家麥克斯韋(Maxwell) 發(fā)現(xiàn)的。1850年,天文學(xué)家 John Herschel 在對(duì)星星的位置進(jìn)行測(cè)量的時(shí)候,需要考慮二維的誤差分布,為了推導(dǎo)這個(gè)誤差的概率密度分布 f(x,y),Herschel 設(shè)置了兩個(gè)準(zhǔn)則:
- x 軸和 y 軸的誤差是相互獨(dú)立的,即誤差的概率在正交的方向上相互獨(dú)立
- 誤差的概率分布在空間上具有旋轉(zhuǎn)對(duì)稱(chēng)性,即誤差的概率分布和角度沒(méi)有關(guān)系
這兩個(gè)準(zhǔn)則對(duì)于 Herschel 考慮的實(shí)際測(cè)量問(wèn)題看起來(lái)都很合理。由準(zhǔn)則1,可以得到 f(x,y)應(yīng)該具有如下形式
把這個(gè)函數(shù)轉(zhuǎn)換為極坐標(biāo),在極坐標(biāo)下的概率密度函數(shù)設(shè)為 g(r,\theta), 有
由準(zhǔn)則2, g(r,\theta)具有旋轉(zhuǎn)對(duì)稱(chēng)性,也就是應(yīng)該和 \theta無(wú)關(guān), 所以 g(r,\theta)=g(r),
綜合以上,我們可以得到
取 y=0, 得到 g(x) = f(x)f(0), 所以上式變?yōu)?/p>
令 \log[\frac{f(x)}{f(0)}] = h(x) , 則有
從這個(gè)函數(shù)方程中容易求解出 h(x) = ax^2, 從而可以得到 f(x)的一般形式如下
而 f(x)就是正態(tài)分布 N(0, 1/\sqrt{2\alpha)}, 而 f(x,y)就是標(biāo)準(zhǔn)二維正態(tài)分布函數(shù)。
1860 年,我們偉大的物理學(xué)家麥克斯韋在考慮氣體分子的運(yùn)動(dòng)速度分布的時(shí)候,在三維空間中基于類(lèi)似的準(zhǔn)則推導(dǎo)出了氣體分子運(yùn)動(dòng)的分布是正態(tài)分布\rho(v_x,v_y,v_z) \propto exp\{-\alpha(v_x^2+v_y^2+v_z^2)\} 。這就是著名的麥克斯韋分子速率分布定律。大家還記得我們?cè)谄胀ㄎ锢碇袑W(xué)過(guò)的麥克斯韋-波爾茲曼氣體速率分布定律嗎?
\begin{eqnarray} \label{maxwell}\begin{array}{lll}F(v) & = & \displaystyle (\frac{m}{2\pi kT})^{3/2} e^{-\frac{mv^2}{2kT}} \\& = & \displaystyle (\frac{m}{2\pi kT})^{1/2} e^{-\frac{mv_x^2}{2kT}} \times (\frac{m}{2\pi kT})^{1/2} e^{-\frac{mv_y^2}{2kT}} \times (\frac{m}{2\pi kT})^{1/2} e^{-\frac{mv_z^2}{2kT}} \end{array}\end{eqnarray}
所以這個(gè)分布其實(shí)是三個(gè)正態(tài)分布的乘積,你的物理老師是否告訴過(guò)你其實(shí)這個(gè)分布就是三維正態(tài)分布?反正我是一直不知道,直到今年才明白
Herschel-Maxwell 推導(dǎo)的神妙之處在于,沒(méi)有利用任何概率論的知識(shí),只是基于空間幾何的不變性,就推導(dǎo)出了正態(tài)分布。
3. Landon 的推導(dǎo)(1941)
第三條道是一位電氣工程師,Vernon D. Landon 給出的。1941 年,Landon 研究通信電路中的噪聲電壓,通過(guò)分析經(jīng)驗(yàn)數(shù)據(jù)他發(fā)現(xiàn)噪聲電壓的分布模式很相似,不同的是分布的層級(jí),而這個(gè)層級(jí)可以使用方差 \sigma^2來(lái)刻畫(huà)。因此他推理認(rèn)為噪聲電壓的分布函數(shù)形式是 p(x;\sigma^2)?,F(xiàn)在假設(shè)有一個(gè)相對(duì)于 \sigma而言很微小的誤差擾動(dòng) e,e的分布函數(shù)是 q(e), 那么新的噪聲電壓是 x' = x + e。Landon 提出了如下的準(zhǔn)則
- 隨機(jī)噪聲具有穩(wěn)定的分布模式
- 累加一個(gè)微小的隨機(jī)噪聲,不改變其穩(wěn)定的分布模式,只改變分布的層級(jí)(用方差度量)
用數(shù)學(xué)的語(yǔ)言描述: 如果 則有
現(xiàn)在我們來(lái)推導(dǎo)滿足以上兩個(gè)準(zhǔn)則的函數(shù)p(x;\sigma^2)應(yīng)該長(zhǎng)成啥樣。按照兩個(gè)隨機(jī)變量和的分布的計(jì)算方式, x'的分布函數(shù)將是 x的分布函數(shù)和 e的分布函數(shù)的卷積,即有
把 p(x'-e; \sigma^2)在x'處做泰勒級(jí)數(shù)展開(kāi)(為了方便,展開(kāi)后把自變量由 x'替換為 x), 上式可以展開(kāi)為
記 p=p(x; \sigma^2),則有
對(duì)于微小的隨機(jī)擾動(dòng) e, 我們認(rèn)為他取正值或者負(fù)值是對(duì)稱(chēng)的,所以\bar{e} = 0 。所以有
\begin{equation} \label{landon-x}f(x) = p + \frac{1}{2} \frac{\partial^2 p}{\partial^2 x}\bar{e^2} + o(\bar{e^2})\end{equation}
對(duì)于新的噪聲電壓是 x' = x + e, 方差由\sigma^2增加為 \sigma^2 + var(e) = \sigma^2 + \bar{e^2},所以按照 Landon 的分布函數(shù)模式不變的假設(shè), 新的噪聲電壓的分布函數(shù)應(yīng)該為 f(x) = p(x; \sigma^2 + \bar{e^2})。把p(x; \sigma^2 + \bar{e^2})在 \sigma^2處做泰勒級(jí)數(shù)展開(kāi),得到
\begin{equation} \label{landon-sigma}\displaystyle f(x) = p + \frac{\partial p}{\partial \sigma^2}\bar{e^2} + o(\bar{e^2})\end{equation}
比較 以上 f(x)的兩個(gè)展開(kāi)式,可以得到如下偏微分方程
而這個(gè)方程就是物理上著名的擴(kuò)散方程(diffusion equation),求解該方程就得到
又一次,我們推導(dǎo)出了正態(tài)分布!
E.T. Jaynes對(duì)于這個(gè)推導(dǎo)的評(píng)價(jià)很高,認(rèn)為L(zhǎng)andon 的推導(dǎo)本質(zhì)上給出了自然界的噪音形成的過(guò)程。他指出這個(gè)推導(dǎo)這基本上就是中心極限定理的增量式版本,相比于中心極限定理是一次性累加所有的因素,Landon 的推導(dǎo)是每次在原有的分布上去累加一個(gè)微小的擾動(dòng)。
而在這個(gè)推導(dǎo)中,我們看到,正態(tài)分布具有相當(dāng)好的穩(wěn)定性;只要數(shù)據(jù)中正態(tài)的模式已經(jīng)形成,他就容易繼續(xù)保持正態(tài)分布,無(wú)論外部累加的隨機(jī)噪聲 q(e)是什么分布,正態(tài)分布就像一個(gè)黑洞一樣把這個(gè)累加噪聲吃掉。
4. 最大熵和正態(tài)分布
還有一條神妙的小徑是基于最大熵原理的, 物理學(xué)家 E.T.Jaynes 在最大熵原理上有非常重要的貢獻(xiàn),他在《概率論沉思錄》里面對(duì)這個(gè)方法有描述和證明,沒(méi)有提到發(fā)現(xiàn)者,我不確認(rèn)這條道的發(fā)現(xiàn)者是否是 E.T.Jaynes 本人。
熵在物理學(xué)中由來(lái)已久,信息論的創(chuàng)始人香農(nóng)(Claude Elwood Shannon)把這個(gè)概念引入了信息論,學(xué)習(xí)機(jī)器學(xué)習(xí)的同學(xué)們都知道目前機(jī)器學(xué)習(xí)中有一個(gè)非常好用的分類(lèi)算法叫最大熵分類(lèi)器。要想把熵和最大熵的來(lái)龍去脈說(shuō)清楚可不容易,希望我后續(xù)能有時(shí)間整理一下。這條道的風(fēng)景是相當(dāng)獨(dú)特的,E.T.Jaynes 對(duì)這條道也是偏愛(ài)有加。
對(duì)于一個(gè)概率分布 p(e), 我們定義他的熵為
如果給定一個(gè)分布函數(shù) f(x)的均值 \mu和方差\sigma^2(給定均值和方差這個(gè)條件,也可以描述為給定一階原點(diǎn)矩和二階原點(diǎn)矩,這兩個(gè)條件是等價(jià)的)則在所有滿足這兩個(gè)限制的概率分布中,熵最大的概率分布 p(e|\mu, \sigma^2)就是正態(tài)分布 N(\mu, \sigma^2)。
(Todo: 插入證明)
E.T.Jaynes 顯然對(duì)正態(tài)分布具有這樣的性質(zhì)極為贊賞,因?yàn)檫@從信息論的角度證明了正態(tài)分布的優(yōu)良性。而我們可以看到,熵的大小,取決于方差的大小。 這也容易理解, 因?yàn)檎龖B(tài)分布的均值和密度函數(shù)的形狀無(wú)關(guān),而熵的大小反應(yīng)概率分布中的信息量,顯然和密度函數(shù)的形狀相關(guān),而正態(tài)分布的形狀是由其方差決定的。
好的,風(fēng)景欣賞暫時(shí)告一段落。所謂橫看成嶺側(cè)成峰,遠(yuǎn)近高低各不同,正態(tài)分布給人們提供了多種欣賞角度和想象空間。法國(guó)菩薩級(jí)別的大數(shù)學(xué)家龐加萊對(duì)正態(tài)分布說(shuō)過(guò)一段有意思的話,引用來(lái)作為這個(gè)小節(jié)的結(jié)束:
Physicists believe that the Gaussian law has been proved in mathematics while mathematicians think that it was experimentally established in physics.
— Henri Poincaré