一般說到概率,就喜歡拿拋硬幣做例子。大多數(shù)時(shí)候,會(huì)簡(jiǎn)單認(rèn)為硬幣正背面的概率各為二分之一,其實(shí)事情遠(yuǎn)沒有這么簡(jiǎn)單。這篇文章會(huì)以拋硬幣試驗(yàn)為例子并貫穿全文,引出一系列概率論和數(shù)理統(tǒng)計(jì)的基本內(nèi)容。這篇文章會(huì)涉及的有古典概型、公理化概率、二項(xiàng)分布、正態(tài)分布、最大似然估計(jì)和假設(shè)檢驗(yàn)等一系列內(nèi)容。主要目的是以拋硬幣試驗(yàn)為例說明現(xiàn)代數(shù)學(xué)觀點(diǎn)下的概率是什么樣子以及以概率論為基礎(chǔ)的一些基本數(shù)理統(tǒng)計(jì)方法。 概率的存在性好吧,首先我們要回答一個(gè)基本問題就是概率為什么是存在的。其實(shí)這不是個(gè)數(shù)學(xué)問題,而是哲學(xué)問題(貌似一般存在不存在啥的都是哲學(xué)問題)。之所以要先討論這個(gè)問題,是因?yàn)槿魏螖?shù)學(xué)活動(dòng)都是在一定哲學(xué)觀點(diǎn)前提下進(jìn)行的,如果不明確哲學(xué)前提,數(shù)學(xué)活動(dòng)就無法進(jìn)行了(例如如果在你的哲學(xué)觀點(diǎn)下概率根本不存在,那還討論啥概率論啊)。 概率的存在是在一定哲學(xué)觀點(diǎn)前提下的,我不想用哲學(xué)術(shù)語拽文,簡(jiǎn)單來說,就是你首先得承認(rèn)事物是客觀存在的,并可以通過大量的觀察和實(shí)踐被抽象總結(jié)。舉個(gè)例子,我們經(jīng)常會(huì)討論“身高”,為什么我們都認(rèn)為身高是存在的?因?yàn)槲覀兘?jīng)過長(zhǎng)期的觀察實(shí)踐發(fā)現(xiàn)一個(gè)人身體的高度在短期內(nèi)不會(huì)出現(xiàn)大幅度的變動(dòng),因此我們可以用一個(gè)有單位的數(shù)字來描述一個(gè)人的身體在一段不算長(zhǎng)的時(shí)間內(nèi)相對(duì)穩(wěn)定的高度。這就是“身高”作為被普遍承認(rèn)存在的哲學(xué)前提。 與此相似,人們?cè)陂L(zhǎng)期的生活中,發(fā)現(xiàn)世界上有一些事情的結(jié)果是無法預(yù)料的,例如拋硬幣得到正面還是背面,但是,后來有些人發(fā)現(xiàn),雖然單次的結(jié)果不可預(yù)料,但是如果我不斷拋,拋很多次,正面結(jié)果占全部拋硬幣次數(shù)的比率是趨于穩(wěn)定的,而且次數(shù)越多越接近某個(gè)固定的數(shù)值。換句話說,拋硬幣這件事,單次結(jié)果不可預(yù)料,但是多次試驗(yàn)的結(jié)果卻在總體上是有規(guī)律可循的(術(shù)語叫統(tǒng)計(jì)規(guī)律)。 下面是歷史上一些著名的拋硬幣試驗(yàn)的數(shù)據(jù)記錄:
可以看到,雖然這些試驗(yàn)在不同時(shí)間、不同地點(diǎn)由不同的人完成,但是冥冥中似乎有一股力量將正面的占比固定在50%附近。 后來,人們發(fā)現(xiàn)還有很多其它不可預(yù)測(cè)的事情都與拋硬幣類似,例如擲骰子、買六合彩等等,甚至漸漸發(fā)現(xiàn)不只這些簡(jiǎn)單的事情,人類社會(huì)方方面面從簡(jiǎn)單到復(fù)雜的很多不可預(yù)測(cè)的事情宏觀上看都具有統(tǒng)計(jì)規(guī)律。于是人們推測(cè),在某些條件下的一些不可預(yù)測(cè)事件,都是有統(tǒng)計(jì)規(guī)律的,或者直觀說很多不可預(yù)測(cè)結(jié)果的試驗(yàn)在多次進(jìn)行后總體上看結(jié)果會(huì)趨近于一些常數(shù)(這個(gè)現(xiàn)象后來被嚴(yán)格定義為大數(shù)定律,成為概率論最基礎(chǔ)的定理之一,下文會(huì)提到)。這種可觀測(cè)現(xiàn)象,成為概率存在的哲學(xué)基礎(chǔ),而這些常數(shù)就是概率在樸素觀點(diǎn)下的定義。 概率模型在認(rèn)識(shí)到上述事實(shí)后,人們希望將這種規(guī)律加以利用(人類文明的發(fā)展不就是發(fā)現(xiàn)和利用規(guī)律么,呵呵),但是想要利用就首先要對(duì)概率進(jìn)行嚴(yán)格的形式化定義,也就是要建立數(shù)學(xué)模型。比較知名的數(shù)學(xué)模型有古典概型、幾何概率模型和公理化概率,本文將會(huì)討論古典概型和公理化概率。 古典概型古典概型是人類對(duì)概率和統(tǒng)計(jì)規(guī)律最早的建模嘗試,表達(dá)了樸素的數(shù)學(xué)原則下人們對(duì)概率的認(rèn)識(shí)。在表述古典概型之前,需要先定義一些概念。 首先是隨機(jī)試驗(yàn)。 如果一個(gè)同時(shí)試驗(yàn)滿足下面三條原則,則這個(gè)試驗(yàn)稱為隨機(jī)試驗(yàn): 1、可在相同條件下(相對(duì)來說)重復(fù)進(jìn)行。 2、可能出現(xiàn)的結(jié)果不止一個(gè),但事先明確知道所有可能的結(jié)果(可以是無限個(gè),例如所有自然數(shù),但必須事先明確知道結(jié)果的取值范圍)。 3、事先無法預(yù)測(cè)在一次試驗(yàn)中哪一個(gè)結(jié)果會(huì)出現(xiàn)。 顯然上面的拋硬幣試驗(yàn)是一個(gè)隨機(jī)試驗(yàn)。 然后需要定義樣本空間和樣本點(diǎn)。一個(gè)隨機(jī)試驗(yàn)的樣本空間是這個(gè)試驗(yàn)所有可能結(jié)果組成的集合,而其中每個(gè)元素是一個(gè)樣本點(diǎn)。例如,拋硬幣試驗(yàn)中,樣本空間為 另一個(gè)非常重要的概念就是隨機(jī)事件(簡(jiǎn)稱事件):樣本空間的一個(gè)子集稱為一個(gè)事件。例如,拋硬幣試驗(yàn)有四個(gè)不同的事件: 有了上面概念,就可以定義古典概型了: 如果一個(gè)概率模型滿足 1)樣本空間是一個(gè)有限集合,2)每一個(gè)基本事件(只包含一個(gè)樣本點(diǎn)的事件)出現(xiàn)的概率相同,則這是一個(gè)古典概型。例如,在上面的拋硬幣試驗(yàn)中,再定義 古典概型簡(jiǎn)單、直觀,在早期的概率研究中廣泛被使用。但是這個(gè)模型太樸素太不嚴(yán)格了,在這種不完善的定義下,根本沒有辦法做嚴(yán)格的數(shù)學(xué)推理,而且有限樣本空間和等可能性在很多現(xiàn)實(shí)隨機(jī)試驗(yàn)中并不滿足,甚至對(duì)等可能不同定義會(huì)導(dǎo)致不同結(jié)論。因此必須使用一個(gè)更嚴(yán)格的定義,以符合現(xiàn)代數(shù)學(xué)公理化推導(dǎo)的要求,這就是公理化概率。 公理化概率公理化概率對(duì)概率做如下定義: 概率是事件集合到實(shí)數(shù)域的一個(gè)函數(shù),設(shè)事件集合為E,則如若 對(duì)于任意事件A, 對(duì)于必然事件S, 對(duì)于兩兩互斥的事件,有 公理化概率對(duì)概率做了嚴(yán)格的數(shù)學(xué)定義,可以較好的基于公理系統(tǒng)進(jìn)行推導(dǎo)和證明。但是,概率模型只是給出了概率“是什么”(定性),沒有回答“是多少”(定量)這個(gè)問題。也就是說,僅有概率模型,是不能定量回答拋硬幣問題的。下面介紹對(duì)概率進(jìn)行定量分析的方法。 度量與估計(jì)概率從公理化概率的角度,我們可以這樣定義拋硬幣試驗(yàn)的概率:設(shè) 容易驗(yàn)證,這個(gè)定義完全符合公理化概率的所有條件。下面就是確定 頻率估計(jì)頻率是這樣定義的:事件A的頻率是在相同條件下重復(fù)一個(gè)實(shí)驗(yàn)n次,事件A發(fā)生的次數(shù)在n次實(shí)驗(yàn)中的占比。一種簡(jiǎn)單的估計(jì)概率的方法就是用頻率當(dāng)做概率的估計(jì)。 例如,我剛剛拋完十次硬幣,其中六次正面,四次背面,因此根據(jù)此次實(shí)驗(yàn),我估計(jì)我這枚硬幣出現(xiàn)正面的概率為0.6。這就是頻率估計(jì)。 不過你一定有疑惑,為什么可以使用頻率估計(jì)概率?有上面理論依據(jù)?如何對(duì)估計(jì)的準(zhǔn)確性做出定理的分析?下面解答這些問題。 大數(shù)定律頻率估計(jì)的理論基礎(chǔ)是大數(shù)定律。毫不夸張的說,大數(shù)定律是整個(gè)現(xiàn)代概率論和統(tǒng)計(jì)學(xué)的最重要基石,幾乎一切統(tǒng)計(jì)方法的正確性都依賴于大數(shù)定律的正確,因此大數(shù)定律被有些人稱為概率論的首要定律。 大數(shù)定律直觀來看表述了這樣一種事實(shí):在相同條件下,隨著隨機(jī)試驗(yàn)次數(shù)的增多,頻率越來越接近于概率。注意大數(shù)定律陳述的是一個(gè)隨著n趨向于無窮大時(shí)頻率對(duì)真實(shí)概率的一種無限接近的趨勢(shì)。 下面給出大數(shù)定律的數(shù)理表述,大數(shù)定律有多重?cái)?shù)學(xué)表述,這里取伯努利大數(shù)定律: 其中 最大似然估計(jì)下面給出另一種估計(jì)概率的方法,就是最大似然估計(jì)。最大似然估計(jì)是參數(shù)估計(jì)的一種方法,用于在已知概率分布的情況下對(duì)分布函數(shù)的參數(shù)進(jìn)行估計(jì)。而這里分布函數(shù)的參數(shù)剛好是要估計(jì)的概率。 最大似然估計(jì)基于這樣一個(gè)樸素的思想:如果已經(jīng)得到一組試驗(yàn)數(shù)據(jù),在概率分布已知的情況下,可以將出現(xiàn)這組試驗(yàn)數(shù)據(jù)的概率表述為分布函數(shù)參數(shù)的函數(shù)。 看到上面的話很多人肯定又暈了,我還是舉個(gè)具體的例子吧(非數(shù)學(xué)嚴(yán)格的例子,但思想一致)。我來到一所陌生的大學(xué)門口,想知道這所大學(xué)男生多還是女生多,我蹲在校門口數(shù)了走出校門的100名同學(xué),發(fā)現(xiàn)80個(gè)男生20個(gè)女生,如果我認(rèn)為這所學(xué)校每個(gè)學(xué)生這段時(shí)間內(nèi)出校門的概率都是差不多的,那么我會(huì)推斷男生多。因?yàn)槟猩嗟膶W(xué)校更大可能性產(chǎn)生我觀察的結(jié)果。所以,最大似然估計(jì)的核心思想就是:知道了結(jié)果,但不知道結(jié)果所在總體的情況,然后計(jì)算在總體在每種可能下產(chǎn)生這個(gè)結(jié)果的概率,哪種情況下產(chǎn)生已知結(jié)果的概率最大,就認(rèn)為這種情況是總體的情況。 下面正式使用這個(gè)方法估計(jì)硬幣正面出現(xiàn)的概率。 還是上面的實(shí)驗(yàn),我已經(jīng)得到“拋了十次,六次正面”這個(gè)結(jié)果,下面我想知道正面向上的概率。由于這個(gè)概率是一定存在的(第一節(jié)已經(jīng)說明了哈,在既定哲學(xué)觀點(diǎn)下),而且這個(gè)概率的取值范圍應(yīng)該是0到1的開區(qū)間(正面背面都出現(xiàn)過,所以不可能是0或1): 由一些背景知識(shí)知道,每拋十次硬幣,正面出現(xiàn)的次數(shù)服從二項(xiàng)分布: 由于已知n=10,k=6,將其帶入,得到一個(gè)函數(shù): 其中p的定義域?yàn)?span role="textbox" aria-readonly="true"> 因?yàn)樵?0,1)區(qū)間,ln(x)是x的單調(diào)遞增函數(shù),所以最大化lnL(p)就等于最大化L(p)。這樣做主要是取對(duì)數(shù)可以讓連乘變成連加,方便后面求導(dǎo)。 由微積分知識(shí)可知: 讓這個(gè)導(dǎo)數(shù)為0,解得p為0.6,這就是我們對(duì)概率的最大似然估計(jì),與概率估計(jì)的結(jié)果一致。 顯著性及假設(shè)檢驗(yàn)到此為止,我們已經(jīng)說明了概率是存在的、建立了概率的數(shù)學(xué)模型,并能對(duì)不可直接觀測(cè)的概率進(jìn)行估計(jì)。但似乎還缺點(diǎn)什么。 大數(shù)定律只說明了理論上我們的估計(jì)是靠譜的,但是到底有多靠譜,卻無法通過大數(shù)定律定量計(jì)算。這一節(jié),我們就來解決這個(gè)問題:定量計(jì)算出估計(jì)的可靠性(術(shù)語叫顯著性)。 評(píng)估顯著性還是上面我拋那十次硬幣的試驗(yàn)。根據(jù)最優(yōu)的頻率估計(jì)和最大似然估計(jì),均估計(jì)p(出現(xiàn)正面的概率)為0.6。但是如果有人提出異議,說我的估計(jì)可能是錯(cuò)的,p實(shí)際是0.5,我那個(gè)出現(xiàn)六次正面是因?yàn)橹皇桥既恍缘慕Y(jié)果。這時(shí)我需要找證據(jù)反駁他,由于不能做無數(shù)次試驗(yàn),我只能給出一個(gè)較高可信度的證據(jù),例如,我想證明至少95%的可能性出現(xiàn)六次正面是因?yàn)閜不等于0.5,也就是說,證明如果p為0.5,則偶然出現(xiàn)我這個(gè)結(jié)果的可能性不超過5%(5%稱作顯著水平)。 中心極限定理要評(píng)估顯著性,首先要借助于中心極限定理。中心極限定理也是統(tǒng)計(jì)學(xué)的基石定理之一,它的一種表述是: 設(shè)隨機(jī)變量 中心極限定理的直觀意義是,隨便一個(gè)服從什么的總體中,你獨(dú)立隨機(jī)的抽取一組樣本,那么樣本的均值服從正態(tài)分布,并且可以根據(jù)總體的期望和方差推導(dǎo)出這個(gè)均值服從的正態(tài)分布的期望和方差,然后簡(jiǎn)單變換一下就可以得到一個(gè)服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)量。由于標(biāo)準(zhǔn)正態(tài)分布的概率密度函數(shù)是已知的,那么就可以得到這個(gè)量出現(xiàn)的概率。 這樣說貌似太抽象了,我們下面還是看這個(gè)定理的應(yīng)用實(shí)例吧。 假設(shè)檢驗(yàn)上面說過,我要反駁的是拋硬幣得到正面的實(shí)際概率是0.5,那么我就要證明如果p是0.5,則得到這組結(jié)果的概率是很小的(上面要求小于5%)。 設(shè)正面取值為1,背面取值為0。如果p是0.5,則每一次拋硬幣的取值服從一個(gè)p為0.5的0-1分布。由期望及方差的定義可知,這個(gè)分布的期望和方差分別為: 由中心極限定理 而我拋的十次硬幣可以看做十個(gè)獨(dú)立隨機(jī)抽樣,它們的均值是0.6,變換后的值為 標(biāo)準(zhǔn)正態(tài)分布的概率密度公式為: 上面說過,我們希望顯著水平是5%,所以,我需要找到x=z,使得此概率密度函數(shù)從-z到z的定積分為0.95,然后看0.632在不在[-z, z]內(nèi),如果在的話,我會(huì)認(rèn)為我確實(shí)錯(cuò)了,至少我沒有95%以上的把握說p不等于0.5,而如果0.632不再這個(gè)范圍內(nèi),則我可以拍著胸脯說,我已經(jīng)從理論上證明我有95%以上的把握,p不是0.5(換句話說,如果p是0.5,拋十次六次正面的可能性不足5%)。 坦白說這個(gè)z不是很好算,不過還好由于這東西特別常用,任何一本概率課本后面都可以找到標(biāo)準(zhǔn)正態(tài)分布表(或者很多工具如R語言可以直接計(jì)算分位點(diǎn)),下面就是我在網(wǎng)上找到的一個(gè)(來源http://www./data/standard-normal-distribution-table.html): 這是一個(gè)單側(cè)表,要保證顯著水平為5%,則單側(cè)積分上限不能低于0.475,通過查上表,可知0.475對(duì)應(yīng)的z是1.96,遠(yuǎn)大于我們算出的0.632。很不幸,我在5%的顯著水平下無法拒絕p=0.5的假設(shè)。同時(shí)通過上表可以看到,0.63對(duì)應(yīng)的單側(cè)概率是0.2357,也就是說,通過拋十次得到六次正面,我們只有約50%的把握說出現(xiàn)正面的概率不是0.5。換句話說,拋十次硬幣來做頻率估計(jì)是不太合適的,于是,我們需要增加試驗(yàn)次數(shù)。 假如,我又做了100次實(shí)驗(yàn),拋出了60次正面,40次背面。那么這個(gè)試驗(yàn)結(jié)果可以顯著的認(rèn)為p不是0.5嗎?用同樣的方法算出 通過假設(shè)檢驗(yàn)理論,可以通過增加試驗(yàn)次數(shù),將犯錯(cuò)的概率縮小到任意小的值。 總結(jié)這篇文章以拋硬幣試驗(yàn)為引子引出了一系列現(xiàn)代數(shù)學(xué)中概率的基本模型、定理及基本的估計(jì)及顯著性檢驗(yàn)方法。寫這篇文章是我無聊拋硬幣時(shí)一時(shí)興起,其中對(duì)很多東西只是給出一個(gè)輪廓,沒有處處給出嚴(yán)格的定義和證明,不過大約說明了常用的一些統(tǒng)計(jì)方法及其理論基礎(chǔ),限于篇幅不能面面俱到,例如一個(gè)假設(shè)檢驗(yàn)如果展開寫可以單獨(dú)寫一篇文章。目前隨著大數(shù)據(jù)概念的熱炒,基于互聯(lián)網(wǎng)的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)也變得火熱,其實(shí)很多數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)都是基于概率和統(tǒng)計(jì)理論的,很多方法甚至只是傳統(tǒng)統(tǒng)計(jì)方法的應(yīng)用。因此如果準(zhǔn)備在這方面深入學(xué)習(xí),不妨考慮先在概率論和數(shù)理統(tǒng)計(jì)方面打好基礎(chǔ)。 |
|