正態(tài)分布的前世今生（上）

昵稱54842828 2023-10-06 發(fā)布于陜西

展開全文

神說，要有正態(tài)分布，就有了正態(tài)分布。
神看正態(tài)分布是好的，就讓隨機誤差服從了正態(tài)分布。
— 創(chuàng)世紀—數(shù)理統(tǒng)計

1. 正態(tài)分布，熟悉的陌生人

學過基礎統(tǒng)計學的同學大都對正態(tài)分布非常熟悉。這個鐘形的分布曲線不但形狀優(yōu)雅，它對應的密度函數(shù)寫成數(shù)學表達式:

也非常具有數(shù)學的美感。其標準化后的概率密度函數(shù):

更加的簡潔漂亮，兩個最重要的數(shù)學常量、都出現(xiàn)在這公式之中。在我個人的審美之中，它也屬于 top-N 的最美麗的數(shù)學公式之一，如果有人問我數(shù)理統(tǒng)計領域哪個公式最能讓人感覺到上帝的存在，那我一定投正態(tài)分布的票。因為這個分布戴著神秘的面紗，在自然界中無處不在，讓你在紛繁蕪雜的數(shù)據(jù)背后看到隱隱的秩序。

正態(tài)分布又通常被稱為高斯分布，在科學領域，冠名權那是一個很高的榮譽。2002年以前去過德國的兄弟們還會發(fā)現(xiàn)，德國1991年至2001年間發(fā)行的的一款10馬克的紙幣上印著高斯(Carl Friedrich Gauss, 1777-1855)的頭像和正態(tài)密度曲線，而1977年東德發(fā)行的20馬克的可流通紀念鋼镚上，也印著正態(tài)分布曲線和高斯的名字。正態(tài)分布被冠名高斯分布，我們也容易認為是高斯發(fā)現(xiàn)了正態(tài)分布，其實不然，不過高斯對于正態(tài)分布的歷史地位的確立是起到了決定性的作用。

正態(tài)曲線雖然看上去很美，卻不是一拍腦袋就能想到的。我們在本科學習數(shù)理統(tǒng)計的時候，課本一上來介紹正態(tài)分布就給出分布密度函數(shù)，卻從來不說明這個密度函數(shù)是通過什么原理推導出來的。所以我一直搞不明白數(shù)學家當年是怎么找到這個概率分布曲線的，又是怎么發(fā)現(xiàn)隨機誤差服從這個奇妙的分布的。我們在實踐中大量地使用正態(tài)分布，卻對這個分布的來龍去脈知之甚少，正態(tài)分布真是讓人感覺既熟悉又陌生。直到我讀研究生的時候，我的導師給我介紹了陳希儒院士的《數(shù)理統(tǒng)計學簡史》這本書，看了之后才了解了正態(tài)分布曲線從發(fā)現(xiàn)到被人們重視進而廣泛應用，也是經(jīng)過了幾百年的歷史。

正態(tài)分布的這段歷史是很精彩的，我們通過講一系列的故事來揭開她的神秘面紗。

2.邂逅，正態(tài)曲線的首次發(fā)現(xiàn)

第一個故事和概率論的發(fā)展密切相關，主角是棣莫弗(Abraham de Moivre, 1667-1754) 和拉普拉斯 (Pierre-Simon Laplace 1749-1827)。拉普拉斯是個大科學家，被稱為法國的牛頓；棣莫弗名氣可能不算很大，不過大家應該都應該很熟悉這個名字，因為我們在高中數(shù)學學復數(shù)的時候都學過棣莫弗公式.而棣莫弗所寫的《機遇論》（The doctrine of chances）是概率論發(fā)展歷史中很重要的一本書。牛頓對棣莫弗十分欣賞,遇到學生向他請教概率方面的問題時，他就說：“這樣的問題應該去找棣莫弗，他對這些問題的研究比我深入得多。”

棣莫弗和拉普拉斯

古典概率論發(fā)源于賭博，惠更斯(Christiaan Huygens, 1629-1695)、帕斯卡(Blaise Pascal, 1623-1662)、費馬(Pierre de Fermat, 1601-1665)、雅可比·貝努利(Jacob Bernoulli, 1654-1705)都是古典概率的奠基人，他們那會研究的概率問題大都來自賭桌上，最早的概率論問題是賭徒梅累在1654年向帕斯卡提出的如何分賭金的問題。統(tǒng)計學中的總體均值之所以被稱為期望 (Expectation), 就是源自惠更斯、帕斯卡這些人研究平均情況下一個賭徒在賭桌上可以期望自己贏得多少錢。

有一天一個哥們，也許是個賭徒，向棣莫弗提了一個和賭博相關的問題：A、B 兩人在賭場里賭博，A、B各自的獲勝概率是,,賭局。兩人約定：若 A 贏的局數(shù) , 則 A 付給賭場元；若，則 B 付給賭場元。問賭場掙錢的期望值是多少。

問題并不復雜，本質(zhì)上是一個二項分布，若為整數(shù)，棣莫弗求出最后的理論結果是

其中是常見的二項概率。但是對具體的, 因為其中的二項公式中有組合數(shù)，要把這個理論結果實際計算出數(shù)值結果可不是件容易的事，這就驅(qū)動棣莫弗尋找近似計算的方法。

與此相關聯(lián)的另一個問題，是遵從二項分布的隨機變量, 求X落在二項分布中心點一定范圍的概率

對于的情形，棣莫弗做了一些計算并得到了一些近似結果，但是還不夠漂亮，幸運的是棣莫弗和斯特林(James Stirling, 1692-1770)處在同一個時代，而且二人之間有聯(lián)系，斯特林公式是在數(shù)學分析中必學的一個重要公式

事實上斯特林公式的雛形是棣莫弗最先得到的，但斯特林改進了這個公式，改進的結果為棣莫弗所用。1733 年，棣莫弗很快利用斯特林公式進行計算并取得了重要的進展。考慮是偶數(shù)的情形，二項概率為

以下把簡記為, 通過斯特林公式做一些簡單的計算容易得到，

于是有：

使用上式的結果，并在二項概率累加求和的過程中近似的使用定積分代替求和，很容易就能得到

看，正態(tài)分布的密度函數(shù)的形式在積分公式中出現(xiàn)了！這也就是我們在數(shù)理統(tǒng)計課本上學到的一個重要結論：二項分布的極限分布是正態(tài)分布。

以上只是討論了的情形，棣莫弗也對做了一些計算，后來拉普拉斯對的情況做了更多的分析，并把二項分布的正態(tài)近似推廣到了任意的情況。這是第一次正態(tài)密度函數(shù)被數(shù)學家刻畫出來，而且是以二項分布的極限分布的形式被推導出來的。熟悉基礎概率統(tǒng)計的同學們都知道這個結果其實叫棣莫弗--拉普拉斯中心極限定理。

[棣莫弗 - 拉普拉斯中心極限定理] 設隨機變量服從參數(shù)為的二項分布，則對任意的，恒有：

我們在大學學習數(shù)理統(tǒng)計的時候，學習的過程都是先學習正態(tài)分布，然后才學習中心極限定理。而學習到正態(tài)分布的時候，直接就描述了其概率密度的數(shù)學形式，雖然數(shù)學上很漂亮，但是容易困惑數(shù)學家們是如何憑空就找到這個分布的。讀了陳希孺的《數(shù)理統(tǒng)計學簡史》之后，我才明白正態(tài)分布的密度形式首次發(fā)現(xiàn)是在棣莫弗 - 拉普拉斯的中心極限定理中。數(shù)學家研究數(shù)學問題的進程很少是按照我們數(shù)學課本編排的順序推進的，現(xiàn)代的數(shù)學課本都是按照數(shù)學內(nèi)在的邏輯進行組織編排的，雖然邏輯結構上嚴謹優(yōu)美，卻把數(shù)學問題研究的歷史痕跡抹得一干二凈。DNA 雙螺旋結構的發(fā)現(xiàn)者之一詹姆斯·沃森 (James D. Watson, 1928-) 在他的名著《DNA 雙螺旋》序言中說：“ Science seldom proceeds in the straightforward logical manner imagined by outsiders.（科學的發(fā)現(xiàn)很少會像門外漢所想象的一樣，按照直接了當合乎邏輯的方式進行的。）”

棣莫弗給出他的發(fā)現(xiàn)后40年（大約是1770年），拉普拉斯建立了中心極限定理較一般的形式，中心極限定理隨后又被其他數(shù)學家們推廣到了其它任意分布的情形，而不限于二項分布。后續(xù)的統(tǒng)計學家發(fā)現(xiàn)，一系列的重要統(tǒng)計量，在樣本量趨于無窮的時候，其極限分布都有正態(tài)的形式，這構成了數(shù)理統(tǒng)計學中大樣本理論的基礎。

棣莫弗在二項分布的計算中瞥見了正態(tài)曲線的模樣，不過他并沒有能展現(xiàn)這個曲線的美妙之處。棣莫弗的這個工作當時并沒有引起人們足夠的重視，原因在于棣莫弗不是個統(tǒng)計學家，從未從統(tǒng)計學的角度去考慮其工作的意義。正態(tài)分布(當時也沒有被命名為正態(tài)分布) 在當時也只是以極限分布的形式出現(xiàn)，并沒有在統(tǒng)計學，尤其是誤差分析中發(fā)揮作用。這也就是正態(tài)分布最終沒有被冠名棣莫弗分布的重要原因。那高斯做了啥工作導致統(tǒng)計學家把正態(tài)分布的這頂桂冠戴在了他的頭上呢？這先得從最小二乘法的發(fā)展說起。

3. 最小二乘法，數(shù)據(jù)分析的瑞士軍刀

第二個故事的主角是歐拉(Leonhard Euler, 1707-1783)、拉普拉斯、勒讓德 (Adrien-Marie Legendre, 1752–1833) 和高斯, 故事發(fā)生的時間是18世紀中到19世紀初。17、18 世紀是科學發(fā)展的黃金年代，微積分的發(fā)展和牛頓萬有引力定律的建立，直接地推動了天文學和測地學的迅猛發(fā)展。當時的大科學家們都在考慮許多天文學上的問題，幾個典型的問題如下：

土星和木星是太陽系中的大行星，由于相互吸引對各自的運動軌道產(chǎn)生了影響，許多大數(shù)學家，包括歐拉和拉普拉斯都在基于長期積累的天文觀測數(shù)據(jù)計算土星和木星的運行軌道。
勒讓德承擔了一個政府給的重要任務，測量通過巴黎的子午線的長度。
海上航行經(jīng)緯度的定位。主要是通過對恒星和月面上的一些定點的觀測來確定經(jīng)緯度。

這些天文學和測地學的問題，無不涉及到數(shù)據(jù)的多次測量、分析與計算；17、18 世紀的天文觀測，也積累了大量的數(shù)據(jù)需要進行分析和計算。很多年以前，學者們就已經(jīng)經(jīng)驗性的認為，對于有誤差的測量數(shù)據(jù)，多次測量取算術平均是比較好的處理方法。雖然缺乏理論上的論證，也不斷的受到一些人的質(zhì)疑，取算術平均作為一種異常直觀的方式，已經(jīng)被使用了千百年, 在多年積累的數(shù)據(jù)的處理經(jīng)驗中也得到相當程度的驗證，被認為是一種良好的數(shù)據(jù)處理方法。

以上涉及的問題，我們直接關心的目標量往往無法直接觀測，但是一些相關的量是可以觀測到的，而通過建立數(shù)學模型，最終可以解出我們關心的量。這些問題都可以用如下數(shù)學模型描述：我們想估計的量是，另有若干個可以測量的量，這些量之間有線性關系：

如何通過多組觀測數(shù)據(jù)求解出參數(shù)呢？歐拉和拉普拉斯采用的的方法都是求解如下線性方程組

但是面臨的一個問題是，有組觀測數(shù)據(jù)，個變量，如果, 則得到的線性矛盾方程組，無法直接求解。所以歐拉和拉普拉斯采用的方法都是通過對數(shù)據(jù)的一定的觀察，把個線性方程分為組，然后把每個組內(nèi)的方程線性求和后歸并為一個方程，從而就把個方程的方程組化為個方程的方程組，進一步解方程求解參數(shù)。這些方法初看有一些道理，但是都過于經(jīng)驗化, 無法形成統(tǒng)一處理這一類問題的通用解決框架。

以上求解線性矛盾方程的問題在現(xiàn)在的本科生看來都不困難，這就是統(tǒng)計學中的線性回歸問題，直接用最小二乘法就解決了?？墒羌幢闳鐨W拉、拉普拉斯這些數(shù)學大牛，當時也未能對這些問題提出有效的解決方案?？梢娫诳茖W研究中，要想在觀念上有所突破并不容易。有效的最小二乘法是勒讓德在 1805 年發(fā)表的，基本思想就是認為測量中有誤差，所以所有方程的累積誤差為

我們求解出導致累積誤差最小的參數(shù)

勒讓德

勒讓德在論文中對最小二乘法的優(yōu)良性做了幾點說明：

最小二乘法使得誤差平方和最小，并在各個方程的誤差之間建立了一種平衡，從而防止某一個極端誤差取得支配地位；
計算中只要求偏導后求解線性方程組，計算過程明確便捷；
最小二乘法可以導出算術平均值作為估計值。

對于最后一點，推理如下：假設真值為為次測量值, 每次測n量的誤差為，按最小二乘法，誤差累積為

求解使得最小，正好是算術平均值

由于算術平均是一個歷經(jīng)考驗的方法，而以上的推理說明，算術平均是最小二乘法的一個特例，所以從另一個角度說明了最小二乘法的優(yōu)良性，使我們對最小二乘法更加有信心。

最小二乘法發(fā)表之后很快得到了大家的認可接受，并迅速地在數(shù)據(jù)分析實踐中被廣泛使用。不過歷史上又有人把最小二乘法的發(fā)明歸功于高斯，這又是怎么一回事呢。高斯在1809年也發(fā)表了最小二乘法，并且聲稱自己已經(jīng)使用這個方法多年。高斯發(fā)明了小行星定位的數(shù)學方法，并在數(shù)據(jù)分析中使用最小二乘法進行計算，準確的預測了谷神星的位置。

扯了半天最小二乘法，沒看出和正態(tài)分布有任何關系啊，離題了吧？單就最小二乘法本身，雖然很實用，不過看上去更多的算是一個代數(shù)方法，雖然可以推導出最優(yōu)解，對于解的誤差有多大，無法給出有效的分析，而這個就是正態(tài)分布粉墨登場發(fā)揮作用的地方。勒讓德提出的最小二乘法，確實是一把在數(shù)據(jù)分析領域披荊斬棘的好刀，但是刀刃還是不夠鋒利；而這把刀的打造后來至少一半功勞被歸到高斯，是因為高斯不但獨自的給出了造刀的方法，而且把最小二乘這把刀的刀刃磨得無比鋒利，把最小二乘法打造成了一把瑞士軍刀。高斯拓展了最小二乘法，把正態(tài)分布和最小二乘法聯(lián)系在一起，并使得正態(tài)分布在統(tǒng)計誤差分析中確立了自己的地位，否則正態(tài)分布就不會被稱為高斯分布了。那高斯這位神人是如何把正態(tài)分布引入到誤差分析之中，打造最小二乘法這把瑞士軍刀的呢？

4. 眾里尋她千百度, 誤差分布曲線的確立

第三個故事有點長，主角是高斯和拉普拉斯，故事的主要內(nèi)容是尋找隨機誤差分布的規(guī)律。

天文學是第一個被測量誤差困擾的學科，從古代至 18 世紀天文學一直是應用數(shù)學最發(fā)達的領域，到 18 世紀，天文學的發(fā)展積累了大量的天文學數(shù)據(jù)需要分析計算，應該如何來處理數(shù)據(jù)中的觀測誤差成為一個很棘手的問題。我們在數(shù)據(jù)處理中經(jīng)常使用平均的常識性法則，千百年來的數(shù)據(jù)使用經(jīng)驗說明算術平均能夠消除誤差，提高精度。算術平均有如此的魅力，道理何在，之前沒有人做過理論上的證明。算術平均的合理性問題在天文學的數(shù)據(jù)分析工作中被提出來討論：測量中的隨機誤差應該服從怎樣的概率分布？算術平均的優(yōu)良性和誤差的分布有怎樣的密切聯(lián)系？

伽利略在他著名的《關于兩個主要世界系統(tǒng)的對話》中，對誤差的分布做過一些定性的描述，主要包括：

觀測數(shù)據(jù)存在誤差
誤差是對稱分布的;
大的誤差出現(xiàn)頻率低，小的誤差出現(xiàn)頻率高。

用數(shù)學的語言描述，也就是說誤差分布的密度函數(shù)關于0對稱分布，概率密度隨增加而減小，這兩個定性的描述都很符合常識。

許多天文學家和數(shù)學家開始了尋找誤差分布曲線的嘗試。天文學家辛普森 (Thomas Simpson, 1710-1761) 先走出了有意義的一步。設真值為為次測量值, 每次測量的誤差為，若用算術平均去估計, 其誤差為。辛普森證明了, 對于如下的一個概率分布，

辛普森的誤差分布曲線

有如下結論：

也就是說，相比于取小值的機會更大。辛普森的這個工作很粗糙，但是這是第一次在一個特定情況下，從概率論的角度嚴格證明了算術平均的優(yōu)良性。

從 1772-1774 年，拉普拉斯也加入到了尋找誤差分布密度函數(shù)的隊伍中。拉普拉斯假定誤差分布密度函數(shù)對稱且滿足

由此可求得分布密度函數(shù)為

這個概率密度函數(shù)現(xiàn)在被稱為拉普拉斯分布。

拉普拉斯的誤差分布曲線

以該函數(shù)作為誤差分布，拉普拉斯開始考慮如何基于測量的結果去估計未知參數(shù)的值。拉普拉斯可以算是一個貝葉斯主義者，他的參數(shù)估計的原則和現(xiàn)代貝葉斯方法非常相似：假設先驗分布是均勻的，計算出參數(shù)的后驗分布后，取后驗分布的中值點，即分位點，作為參數(shù)估計值?？墒腔谶@個誤差分布密度函數(shù)做了一些計算之后，拉普拉斯發(fā)現(xiàn)計算過于復雜，最終沒能給出什么有用的結果。

拉普拉斯可是概率論的大牛，寫過在概率發(fā)展歷史中極有影響力的《分析概率論》，不過以我的數(shù)學審美，實在無法理解拉普拉斯這樣的牛人怎么找了一個零點不可導的函數(shù)作為誤差的分布密度函數(shù)，拉普拉斯最終還是沒能搞定誤差分布的問題。

現(xiàn)在輪到高斯登場了，高斯在數(shù)學史中的地位極高，年輕的時候號稱數(shù)學王子，后來被稱為數(shù)學家中的老狐貍，數(shù)學家阿貝爾 (Niels Henrik Abel, 1802-1829) 對他的評論是：“高斯像一只狐貍，用尾巴將沙地上的足跡抹去 (He is like the fox, who effaces his tracks in the sand with his tail) ?！?我們的數(shù)學大師陳省身把黎曼(Georg Friedrich Bernhard Riemann,1826-1866) 和龐加萊(Jules Henri Poincaré, 1854-1912) 稱為數(shù)學家中的菩薩，而稱自己為羅漢；高斯是黎曼的導師，數(shù)學圈里有些教授把高斯稱為數(shù)學家中的佛。在數(shù)學家中既能仰望理論數(shù)學的星空，又能腳踏應用數(shù)學的實地的可不多見，高斯是數(shù)學家中少有的頂”天 “立” 地“的人物，它既對純理論數(shù)學有深刻的洞察力，又極其重視數(shù)學在實踐中的應用。在誤差分布的處理中，高斯以極其簡單的手法確立了隨機誤差的概率分布，其結果成為數(shù)理統(tǒng)計發(fā)展史上的一塊里程碑。

高斯的介入首先要從天文學界的一個事件說起。1801 年 1 月，天文學家朱塞普 · 皮亞齊 (Giuseppe Piazzi, 1746-1826) 發(fā)現(xiàn)了一顆從未見過的光度 8 等的星在移動，這顆現(xiàn)在被稱作谷神星（Ceres）的小行星在夜空中出現(xiàn) 6 個星期，掃過八度角后就在太陽的光芒下沒了蹤影，無法觀測。而留下的觀測數(shù)據(jù)有限，難以計算出他的軌道，天文學家也因此無法確定這顆新星是彗星還是行星，這個問題很快成了學術界關注的焦點。高斯當時已經(jīng)是很有名望的年輕數(shù)學家了，這個問題引起了他的興趣。高斯以其卓越的數(shù)學才能創(chuàng)立了一種嶄新的行星軌道的計算方法，一個小時之內(nèi)就計算出了谷神星的軌道，并預言了他在夜空中出現(xiàn)的時間和位置。1801 年 12 月 31 日夜，德國天文愛好者奧伯斯 (Heinrich Olbers, 1758-1840)，在高斯預言的時間里，用望遠鏡對準了這片天空。果然不出所料，谷神星出現(xiàn)了！

高斯為此名聲大震，但是高斯當時拒絕透露計算軌道的方法，原因可能是高斯認為自己的方法的理論基礎還不夠成熟，而高斯一向治學嚴謹、精益求精，不輕易發(fā)表沒有思考成熟的理論。直到 1809 年高斯系統(tǒng)地完善了相關的數(shù)學理論后，才將他的方法公布于眾，而其中使用的數(shù)據(jù)分析方法，就是以正態(tài)誤差分布為基礎的最小二乘法。那高斯是如何推導出誤差分布為正態(tài)分布的？讓我們看看高斯是如何猜測上帝的意圖的。

設真值為為次獨立測量值, 每次測量的誤差為，假設誤差的密度函數(shù)為, 則測量值的聯(lián)合概率為個誤差的聯(lián)合概率，記為

但是高斯不采用貝葉斯的推理方式，而是直接取使達到最大值的作為的估計值，即

現(xiàn)在我們把稱為樣本的似然函數(shù)，而得到的估計值稱為極大似然估計。高斯首次給出了極大似然的思想，這個思想后來被統(tǒng)計學家費希爾系統(tǒng)的發(fā)展成為參數(shù)估計中的極大似然估計理論。

數(shù)學家波利亞 (George Pólya, 1887-1985) 說過：“要成為一個好的數(shù)學家,……, 你必須首先是一個好的猜想家 (To be a good mathematician,…, you must be a good guesser)。” 歷史上一流的數(shù)學家都是偉大的猜想家。高斯接下來的想法特別牛，他開始揣度上帝的意圖，而這充分體現(xiàn)了高斯的數(shù)學天才。高斯把整個問題的思考模式倒過來：既然千百年來大家都認為算術平均是一個好的估計，那我就認為極大似然估計導出的就應該是算術平均！所以高斯猜測上帝在創(chuàng)世紀中的旨意就是：

然后高斯去找誤差密度函數(shù)以迎合這一點。即尋找這樣的概率分布密度函數(shù), 使得極大似然估計正好是算術平均。而高斯應用數(shù)學技巧求解這個函數(shù), 高斯證明 (證明不難，后續(xù)給出)，所有的概率密度函數(shù)中，唯一滿足這個性質(zhì)的就是

瞧，正態(tài)分布的密度函數(shù)被高斯他老人家給解出來了！

進一步，高斯基于這個誤差分布的密度函數(shù)對最小二乘法給出了一個很漂亮的解釋。對于最小二乘公式中涉及的每個誤差, 由于誤差服從概率分布, 則的概率為

要使得這個概率最大，必須使得取最小值，這正好就是最小二乘法的要求。

高斯所拓展的最小二乘法成為了 19 世紀統(tǒng)計學的最重要成就，它在 19 世紀統(tǒng)計學的重要性就相當于 18 世紀的微積分之于數(shù)學。而勒讓德和高斯的關于最小二乘法的發(fā)明權之爭，成了數(shù)學史上僅次于牛頓、萊布尼茨微積分發(fā)明權的爭端。相比于勒讓德 1805 年給出的最小二乘法描述，高斯基于誤差正態(tài)分布的最小二乘理論顯然更高一籌，高斯的工作中既提出了極大似然估計的思想，又解決了誤差的概率密度分布的問題，由此我們可以對誤差大小的影響進行統(tǒng)計度量了。高斯的這項工作對后世的影響極大，而正態(tài)分布也因此被冠名高斯分布。估計高斯本人當時是完全沒有意識到他的這個工作給現(xiàn)代數(shù)理統(tǒng)計學帶來的深刻影響。高斯在數(shù)學上的貢獻特多，去世前他是要求給自己的墓碑上雕刻上正十七邊形，以說明他在正十七邊形尺規(guī)作圖上的杰出工作。而后世的德國鈔票和鋼镚上是以正態(tài)密度曲線來紀念高斯，這足以說明高斯的這項工作在當代科學發(fā)展中的分量。

17、18 世紀科學界流行的做法，是盡可能從某種簡單明了的準則 (first principle) 出發(fā)進行邏輯推導。高斯設定了準則“最大似然估計應該導出優(yōu)良的算術平均”，并導出了誤差服從正態(tài)分布，推導的形式上非常簡潔優(yōu)美。但是高斯給的準則在邏輯上并不足以讓人完全信服，因為算術平均的優(yōu)良性當時更多的是一個經(jīng)驗直覺，缺乏嚴格的理論支持。高斯的推導存在循環(huán)論證的味道：因為算術平均是優(yōu)良的，推出誤差必須服從正態(tài)分布；反過來，又基于正態(tài)分布推導出最小二乘法和算術平均，來說明最小二乘法和算術平均的優(yōu)良性。這陷入了一個雞生蛋蛋生雞的怪圈，邏輯上算術平均的優(yōu)良性到底有沒有自行成立的理由呢？

高斯的文章發(fā)表之后，拉普拉斯很快得知了高斯的工作。拉普拉斯看到，正態(tài)分布既可以從拋鋼镚產(chǎn)生的序列和中生成出來，又可以被優(yōu)雅的作為誤差分布定律，這難道是偶然現(xiàn)象？拉普拉斯不愧為概率論的大牛，他馬上將誤差的正態(tài)分布理論和中心極限定理聯(lián)系起來，提出了元誤差解釋。他指出如果誤差可以看成許多微小量的疊加，則根據(jù)他的中心極限定理，隨機誤差理所應當是高斯分布。而 20 世紀中心極限定理的進一步發(fā)展，也給這個解釋提供了更多的理論支持。因此以這個解釋為出發(fā)點，高斯的循環(huán)論證的圈子就可以打破。估計拉普拉斯悟出這個結論之后一定想撞墻，自己辛辛苦苦尋尋覓覓了這么久的誤差分布曲線就在自己的眼皮底下，自己卻長年視而不見，被高斯占了先機。

至此，誤差分布曲線的尋找塵埃落定，正態(tài)分布在誤差分析中確立了自己的地位，并在整個 19 世紀不斷的開疆擴土，直至在統(tǒng)計學中鶴立雞群，傲世其它一切概率分布；而高斯和拉普拉斯的工作，為現(xiàn)代統(tǒng)計學的發(fā)展開啟了一扇大門。

在整個正態(tài)分布被發(fā)現(xiàn)與應用的歷史中，棣莫弗、拉普拉斯、高斯各有貢獻，拉普拉斯從中心極限定理的角度解釋它，高斯把它應用在誤差分析中，殊途同歸。正態(tài)分布被人們發(fā)現(xiàn)有這么好的性質(zhì)，各國人民都爭搶它的冠名權。因為拉普拉斯是法國人, 所以當時在法國被稱為拉普拉斯分布；而高斯是德國人, 所以在德國叫做高斯分布；第三中立國的人民稱他為拉普拉斯 - 高斯分布。后來法國的大數(shù)學家龐加萊建議改用正態(tài)分布這一中立名稱, 而隨后統(tǒng)計學家卡爾 · 皮爾森使得這個名稱被廣泛接受：

Many years ago I called the Laplace-Gaussian curve the normal curve, which name, while it avoids an international question of priority, has the disadvantage of leading people to believe that all other distributions of frequency are in one sense or another “abnormal”.

—Karl Pearson (1920)

不過因為高斯在數(shù)學家中的名氣實在是太大, 正態(tài)分布的桂冠還是更多地被戴在了高斯的腦門上，目前數(shù)學界通行的用語是正態(tài)分布、高斯分布, 兩者并用。

正態(tài)分布在高斯的推動下，迅速在測量誤差分析中被廣泛使用，然而早期也僅限于測量誤差的分析中，其重要性遠沒有被自然科學和社會科學領域中的學者們所認識，那正態(tài)分布是如何從測量誤差分析的小溪，沖向自然科學和社會科學的汪洋大海的呢？

5. 曲徑通幽處，禪房花木深

在介紹正態(tài)分布的后續(xù)發(fā)展之前，我們來多講一點數(shù)學，也許有些人會覺得枯燥，不過高斯曾經(jīng)說過：“數(shù)學是上帝的語言”；所以要想更加深入地理解正態(tài)分布的美，唯有借助于上帝的語言。

造物主造物的準則往往是簡單明了的，只是在紛繁蕪雜的萬物之中，我們要發(fā)現(xiàn)并領會它并非易事。之前提到過，17、18 世紀科學界流行的做法，是盡可能從某種簡單明了的準則出發(fā)作為科學探求的起點；而后來的數(shù)學家和物理學家們的研究發(fā)現(xiàn)，屢次從一些給定的簡單的準則出發(fā), 我們總是被引領到了正態(tài)分布的家門口，這讓人感覺到正態(tài)分布的美妙。

達爾文的表弟高爾頓是生物學家兼統(tǒng)計學家，他對正態(tài)分布非常的推崇與贊美：” 我?guī)缀醪辉娺^像誤差呈正態(tài)分布這么激發(fā)人們無窮想象的宇宙秩序 “。當代兩位偉大的概率學家列維 (Paul Pierre L_é_vy, 1886-1971) 和卡克 (Mark Kac, 1914-1984) 都曾經(jīng)說過，正態(tài)分布是他們切入概率論的初戀情人，具有無窮的魅力。如果古希臘人知道正態(tài)分布，想必奧林匹斯山的神殿里會多出一個正態(tài)女神，由她來掌管世間的混沌。

要拉下正態(tài)分布的神秘面紗展現(xiàn)她的美麗，需要高深的概率論知識，本人在數(shù)學方面知識淺薄，不能勝任。只能在極為有限的范圍內(nèi)嘗試掀開她的面紗的一角。棣莫弗和拉普拉斯以拋鋼镚的序列求和為出發(fā)點，沿著一條小徑第一次把我們領到了正態(tài)分布的家門口，這條路叫做中心極限定理。而這條路上風景秀麗，許多概率學家都為之傾倒。這條路在二十世紀被概率學家們越拓越寬，成為了通往正態(tài)曲線的一條康莊大道。而數(shù)學家和物理學家們發(fā)現(xiàn)：條條小路通正態(tài)。著名的物理學家杰恩斯 (Edwin Thompson Jaynes, 1922-1998) 在他的名著《概率論沉思錄 (Probability Theory: the Logic of Science)》中，描繪了四條通往正態(tài)分布的小徑；曲徑通幽處，禪房花木深，讓我們一起來欣賞一下這四條小徑上的風景吧。

5.1 高斯 (1809) 的推導

第一條小徑是高斯找到的，高斯以如下準則作為小徑的出發(fā)點

設真值為為次獨立測量值, 每次測量的誤差為，假設誤差的密度函數(shù)為, 則測量值的聯(lián)合概率為個誤差的聯(lián)合概率，記為

為求極大似然估計，令

整理后可以得到

令

由于高斯假設極大似然估計的解就是算術平均，把解代入上式，可以得到

(1)式中取, 有

由于此時有, 并且是任意的，由此得到

(1)式中再取, 并且要求則有, 并且

所以得到

而滿足上式的唯一的連續(xù)函數(shù)就是, 從而進一步可以求解出

由于是概率密度函數(shù)，把正規(guī)化一下就得到均值為0的正態(tài)分布密度函數(shù)

5.2 赫歇爾 (1850) 和麥克斯韋(1860) 的推導

第二條小徑是天文學家赫歇爾 (John Frederick William Herschel, 1792-1871) 和物理學家麥克斯韋(James Clerk Maxwell, 1831-1879) 發(fā)現(xiàn)的。1850 年，天文學家赫歇爾在對星星的位置進行測量的時候，需要考慮二維的誤差分布，為了推導這個誤差的概率密度分布, 赫歇爾設置了兩個準則：

軸和軸的誤差是相互獨立的，即隨機誤差在正交的方向上相互獨立
誤差的概率分布在空間上具有旋轉對稱性，即誤差的概率分布和角度沒有關系

這兩個準則對于赫歇爾考慮的實際測量問題看起來都很合理。由第一條準則，可以得到應該具有如下形式

把這個函數(shù)轉換為極坐標，在極坐標下的概率密度函數(shù)設為, 有

由第二條準則, 具有旋轉對稱性，也就是應該和無關, 所以, 綜上所述，我們可以得到

取, 得到, 所以上式可以轉換為

令，則有

從這個函數(shù)方程中可以解出, 從而可以得到的一般形式如下

1860 年，偉大的物理學家麥克斯韋在考慮氣體分子的運動速度分布的時候，在三維空間中基于類似的準則推導出了氣體分子運動的分布是正態(tài)分布。這就是著名的麥克斯韋分子速率分布定律。大家還記得我們在普通物理中學過的麥克斯韋 - 波爾茲曼氣體速率分布定律嗎？

所以這個分布其實是三個正態(tài)分布的乘積, 你的物理老師是否告訴過你其實這個分布就是三維正態(tài)分布？

赫歇爾-麥克斯韋推導的神妙之處在于，沒有利用任何概率論的知識，只是基于空間幾何的不變性，就推導出了正態(tài)分布。美國諾貝爾獎物理學家費曼 (Richard Feymann,1918-1988) 每次看到一個有的數(shù)學公式的時候，就會問：圓在哪里？這個推導中使用到了, 也就是告訴我們正態(tài)分布密度公式中有個, 其根源在于二維正態(tài)分布中的等高線恰好是個圓。

5.3 蘭登 (1941) 的推導

第三條道是一位電氣工程師蘭登 (Vernon D. Landon) 給出的。1941 年，蘭登研究通信電路中的噪聲電壓，通過分析經(jīng)驗數(shù)據(jù)他發(fā)現(xiàn)噪聲電壓的分布模式很相似，不同的是分布的層級，而這個層級可以使用方差來刻畫。因此他推理認為噪聲電壓的分布密度函數(shù)形式是。假設原來的電壓為, 累加了一個相對其方差而言很微小的誤差擾動，的概率密度是, 那么新的噪聲電壓是。蘭登提出了如下的準則:

隨機噪聲具有穩(wěn)定的分布模式
累加一個微小的隨機噪聲，不改變其穩(wěn)定的分布模式，只改變分布的層級 (用方差度量) 用數(shù)學的語言描述: 如果

則有

現(xiàn)在我們來推導函數(shù)應該長成啥樣。按照兩個隨機變量和的分布的計算方式，的分布密度函數(shù)將是的分布密度函數(shù)和的分布密度函數(shù)的卷積，即有

把在處做泰勒級數(shù)展開(為了方便，展開后把自變量由替換為)，上式可以展開為

將簡記為，則有

對于新的噪聲電壓，方差由增加為所以按照蘭登的分布密度函數(shù)模式不變的假設，新的噪聲電壓的分布密度函數(shù)應該為。把在處做泰勒級數(shù)展開，得到

比較(2)和(3)這兩個式子，可以得到如下偏微分方程

而這個方程就是物理上著名的擴散方程 (diffusion equation), 求解該方程就得到

又一次，我們推導出了正態(tài)分布！

杰恩斯對于這個推導的評價很高，認為蘭登的推導本質(zhì)上給出了自然界的噪音形成過程。他指出這個推導這基本上就是中心極限定理的增量式版本，相比于中心極限定理是一次性累加所有的因素，蘭登的推導是每次在原有的分布上去累加一個微小的擾動。而在這個推導中，我們看到，正態(tài)分布具有相當好的穩(wěn)定性；只要數(shù)據(jù)中正態(tài)的模式已經(jīng)形成，他就容易繼續(xù)保持正態(tài)分布，無論外部累加的隨機噪聲是什么分布，正態(tài)分布就像一個黑洞一樣把這個累加噪聲吃掉。

5.4 基于最大熵的推導

還有一條小徑是基于最大熵原理的，物理學家杰恩斯在最大熵原理上有非常重要的貢獻，他在《概率論沉思錄》里面對這個方法有描述和證明，沒有提到發(fā)現(xiàn)者，我不確認這條道的發(fā)現(xiàn)者是否是杰恩斯本人。

熵在物理學中由來已久，信息論的創(chuàng)始人香農(nóng) (Claude Elwood Shannon, 1916-2001) 把這個概念引入了信息論，學習機器學習的同學們都知道目前機器學習中有一個非常好用的分類算法叫最大熵分類器。要想把熵和最大熵的來龍去脈說清楚可不容易，不過這條道的風景是相當獨特的，杰恩斯對這條道也是偏愛有加。

對于一個概率分布, 我們定義他的熵為

如果給定一個分布密度函數(shù)的均值和方差(給定均值和方差這個條件，也可以描述為給定一階原點矩和二階原點矩，這兩個條件是等價的)，則在所有滿足這兩個限制的概率分布中，熵最大的概率分布就是正態(tài)分布。

這個結論的推導數(shù)學上稍微有點復雜，不過如果已經(jīng)猜到了給定限制條件下最大熵的分布是正態(tài)分布，要證明這個猜測卻是很簡單的，證明的思路如下。

考慮兩個概率分布和，使用不等式, 得

于是

所以

熟悉信息論的同學都知道，這個式子是信息論中的很著名的結論：一個概率分布的熵總是小于相對熵。上式要取等號當且僅當

對于，在給定的均值和方差下，我們?nèi)?span>，則可以得到

由于的均值方差有如下限制

于是

而當的時候，上式可以取到等號，這就證明了結論。

杰恩斯顯然對正態(tài)分布具有這樣的性質(zhì)極為贊賞，因為這從信息論的角度證明了正態(tài)分布的優(yōu)良性。而我們可以看到，正態(tài)分布熵的大小，取決于方差的大小。這也容易理解，因為正態(tài)分布的均值和密度函數(shù)的形狀無關，正態(tài)分布的形狀是由其方差決定的，而熵的大小反應概率分布中的信息量，顯然和密度函數(shù)的形狀相關。

好的，風景欣賞暫時告一段落。所謂 “橫看成嶺側成峰，遠近高低各不同”，正態(tài)分布給人們提供了多種欣賞角度和想象空間。法國菩薩級別的大數(shù)學家龐加萊對正態(tài)分布說過一段有意思的話，引用來作為這個小節(jié)的結束：

Physicists believe that the Gaussian law has been proved in mathematics while mathematicians think that it was experimentally established in physics.

物理學家認為高斯分布已經(jīng)在數(shù)學上得到證明，而數(shù)學家則認為高斯分布在物理試驗中得到確認。

—— Henri Poincaré

統(tǒng)計之都：專業(yè)、人本、正直的中國統(tǒng)計學社區(qū)。