目前網(wǎng)絡(luò)上流傳著無數(shù)版本的人工智能入門書單,無一例外的都需要學(xué)習(xí)數(shù)學(xué)。對(duì)于很多畢業(yè)多年的程序猿(媛)來說,再次復(fù)習(xí)數(shù)學(xué)可能是一件很痛苦的事情。 初學(xué)者的熱情都會(huì)被繁瑣的公式、燒腦的概念給磨滅的所剩無幾,本文將從人工智能所需的概率論知識(shí)入手,結(jié)合參考資料將復(fù)雜的公式和定理簡(jiǎn)單化,力求最快的進(jìn)行一次人工智能基礎(chǔ)入門。 01 古典概率模型 在古典概率模型中,試驗(yàn)的結(jié)果只包含有限個(gè)基本事件,且單個(gè)事件發(fā)生的可能性相同。這段話可能不好理解,先不著急。我們先看一下對(duì)應(yīng)的數(shù)學(xué)解釋。 假設(shè)所有的基本事件的數(shù)據(jù)為n,待觀察的隨機(jī)事件A包含的基本事件數(shù)目為k,則隨機(jī)事件A發(fā)生的概率公式為: (1) 例如,在拋100次硬幣的試驗(yàn)中,n = 100,想要觀察“拋出正面”則稱之為隨機(jī)事件A,在100次試驗(yàn)中,隨機(jī)事件A發(fā)生的次數(shù)是k = 50次,那么拋出正面的概率為 1/2。 上面的定義針對(duì)的是隨機(jī)事件,如果想要刻畫多個(gè)隨機(jī)事件之間的關(guān)系,那么古典概率模型就無能為力了,需要引入其他的方式了,比如條件概率。 02 條件概率 什么是條件概率呢? 首先看一段數(shù)學(xué)解釋:條件概率是根據(jù)已知信息對(duì)樣本空間進(jìn)行調(diào)整后得到的新的概率分布。條件概率仍然描述的是樣本空間的概率分布,只不過需要根據(jù)已知的樣本進(jìn)行了調(diào)整。假設(shè)兩個(gè)隨機(jī)事件A和B,條件概率就是指事件A在事件B已經(jīng)發(fā)生的條件下發(fā)生的概率,可以使用數(shù)學(xué)公式來表示: (2) 我們來看一個(gè)簡(jiǎn)單的例子:在一次足球比賽中,求解球隊(duì)在已經(jīng)0:2落后的情況下最后以3:2翻盤獲勝的概率?0:2就是上式中的隨機(jī)事件B,3:2獲勝就是上式中的隨機(jī)事件A。 我們繼續(xù)來看一下幾何解釋:如下圖,A∩B表示在B已發(fā)生的情況下A發(fā)生的概率,則P(A∩B) = P(AB)。就可以推導(dǎo)出上面的公式了。 P(AB)表示的聯(lián)合概率,標(biāo)識(shí)了隨機(jī)事件A和隨機(jī)事件B同時(shí)發(fā)生的概率。 如果聯(lián)合概率P(AB)等于各自發(fā)生概率的乘積,也即P(AB) = P(A)·P(B),則表示隨機(jī)事件A與隨機(jī)事件B之間互相獨(dú)立,沒有任何關(guān)系,于是得出P(A|B) = P(B)。 03 全概率公式 了解聯(lián)合概率、條件概率,我們來看一下全概率公式。全概率公式是用于將復(fù)雜事件的概率轉(zhuǎn)換成在不同情況下簡(jiǎn)單事件發(fā)生的概率求和。先看個(gè)公式: (3) 怎么理解上面的公式呢,我們看一個(gè)簡(jiǎn)單的例子:小明從家到公司有B1、B2、B3三條路,小明每次上班選擇上述三條路的概率分別是P(B1)=0.5、P(B2)=0.3和P(B3)=0.2。這三條路不擁堵的概率為P(A1)=0.2、P(A2)=0.4和P(A3)=0.5。求小明每次上班不遲到(不擁堵代表不遲到)的概率是多少? 設(shè)隨機(jī)事件A表示上班不遲到,則P(A|B1)、P(A|B2)、P(A|B3)分別表示選擇B1\B2\B3上班不遲到的概率,那么就有: (4) 公式中的每一項(xiàng)表示:選擇第i條路不遲到的概率 = 選擇第i條路的概率 * 選擇第i條路的前提下還不遲到的概率。 公式(1)和公式(2)等價(jià),即為全概率公式。 全概率公式表示了一個(gè)解決概率論問題的思路:先做出一些假設(shè)P(Bi),再在這些假設(shè)的發(fā)生的情況下討論復(fù)雜事件A發(fā)生的概率。 04 貝葉斯公式及定理 在上面小明上班不遲到的例子中,我們繼續(xù)提問:求小明在不遲到的情況下,選擇B1這條路的概率是多少。 在條件概率中我們推到除了公式(2),將公式(2)換個(gè)方式,就可以得到條件概率P(AB) = P(A|B)·P(B)。在這個(gè)問題中,小明不遲到的情況下選擇B1這條路的概率P(B1|A)就等價(jià)于隨機(jī)事件A(小明不遲到)和隨機(jī)事件B(小明選擇B1這條路)同時(shí)發(fā)生的概率P(AB)除以事件A的概率P(A)。也即: (5) 將上面的全概率公式帶入(5)中,即可得到貝葉斯公式: (6) 我們將式(5)中的Bi和A分別替換為H和D,即可抽象出貝葉斯定理: (7) 其中P(H)表示先驗(yàn)概率,即預(yù)先設(shè)定的假設(shè)成立的概率; p(D|H)表示似然概率,即假設(shè)成立的前提下結(jié)果發(fā)生的概率; P(H|D)表示后驗(yàn)概率,即結(jié)果發(fā)生的前提下,假設(shè)成立的概率。 比較抽象,我們?nèi)匀焕蒙鲜鲞x路的例子來進(jìn)行說明: P(B1)就是先驗(yàn)概率,表示了假設(shè)選擇第一條路的概率; P(A|B1)就是似然概率,表示了選擇第一條路前提下不遲到的概率; P(B1|A)就是后驗(yàn)概率,表示了在不遲到的結(jié)果下,假設(shè)選第一條路的概率。 貝葉斯定理關(guān)注的是后驗(yàn)概率,即根據(jù)觀察到的結(jié)果來尋找合理的假設(shè)。 05 兩個(gè)學(xué)派 其實(shí)概率論的研究可以根據(jù)上述的古典模型和貝葉斯定理分為兩個(gè)學(xué)派:
同一個(gè)硬幣向上拋10次,正面朝上的次數(shù)即為頻率。從事件發(fā)生的頻率來認(rèn)識(shí)概率的研究方向,被稱為“頻率學(xué)派”。 天氣預(yù)報(bào)以及明天下雨的概率是80%,就不能從頻率的角度來認(rèn)識(shí)了,這個(gè)只能看做是可信度,也就是說明天下雨的可信度是80%。從隨機(jī)事件發(fā)生的可信度來認(rèn)識(shí)概率的研究方向,被稱為“貝葉斯學(xué)派”。 頻率學(xué)派認(rèn)為假設(shè)是客觀存在且不會(huì)改變的,即存在固定的先驗(yàn)概率。 貝葉斯學(xué)派認(rèn)為固定的先驗(yàn)概率不存在,參數(shù)本身也是隨機(jī),也就是說假設(shè)是取決于觀察結(jié)果的,不確定且可以修正的。數(shù)據(jù)就是用來對(duì)假設(shè)進(jìn)行調(diào)整的,也即調(diào)參。 06 參數(shù)估計(jì) 在機(jī)器學(xué)習(xí)中,我們經(jīng)常會(huì)聽到參數(shù)、模型等概念,那這些概念表示什么呢?比如,我們可以使用公式y=ax+b來描述一組數(shù)據(jù)的分布,這就是線性模型。那么參數(shù)a和b就確定了這個(gè)線性模型的形狀。我們根據(jù)已經(jīng)發(fā)生的樣本數(shù)據(jù)來分析總體對(duì)應(yīng)的模型,就需要估計(jì)參數(shù),這就是參數(shù)估計(jì)。 在概率論中,參數(shù)估計(jì)有兩種方式,分別是:
這兩種估計(jì)方法分別對(duì)應(yīng)了“頻率學(xué)派”和'貝葉斯學(xué)派'。那怎么理解這兩種估計(jì)方法呢? 最大似然估計(jì) 似然,字面理解就是“貌似就是這樣”,最大似然估計(jì)也即樣本已經(jīng)發(fā)生了,求使得樣本發(fā)生概率最大時(shí)對(duì)應(yīng)的參數(shù)值,因?yàn)榧热粯颖灸馨l(fā)生,那么這種情況概率就最大。 我們先看個(gè)簡(jiǎn)單的例子,在一個(gè)盒子里放了未知個(gè)數(shù)且大小均勻的黑球和白球,每次從盒子里取一個(gè)球,記錄它的顏色之后放回到盒子里?,F(xiàn)在共取了100個(gè)球,其中黑球的個(gè)數(shù)是60個(gè),那么通過黑球出現(xiàn)的頻率我們知道黑球的概率是60%,為什么呢?這里頭包含了什么思想呢? 我們先假設(shè)黑球的概率是p,我們定義隨機(jī)事件A表示100次試驗(yàn)中黑球出現(xiàn)60次,白球出現(xiàn)40次,那么就有: (8) 我們知道,最大似然估計(jì)的思想是,隨機(jī)事件已經(jīng)發(fā)生,找出參數(shù)似的隨機(jī)事件A發(fā)生的概率最大,即找到參數(shù)p的值使得P(A)最大。在高等數(shù)學(xué)中,我們知道函數(shù)的極值就是該函數(shù)導(dǎo)數(shù)為0的點(diǎn)。對(duì)P(A)求導(dǎo)數(shù),于是有了下面的式子: (9) 根據(jù)式(9)即可得到 p = 60%。 這就是最大似然估計(jì)的數(shù)學(xué)思想。 最大后驗(yàn)估計(jì) 最大后驗(yàn)估計(jì)運(yùn)用的其實(shí)是貝葉斯公式,考慮的是找到一個(gè)參數(shù)值使得后驗(yàn)概率最大。我們由貝葉斯公式知道: (10) 需要找到一個(gè)θ的值(θ滿足先驗(yàn)分布p(θ))使得后驗(yàn)概率p(θ|D)取最大值。也就是說上面就可以看做一個(gè)關(guān)于θ的函數(shù),我們記為L(zhǎng)(θ),由于D與θ無關(guān),所以可以看成L(θ) = P(D|θ) · P(θ)??梢钥吹絇(D|θ)是似然概率,如果p(θ)先驗(yàn)概率為1,那么最大后驗(yàn)估計(jì)的值跟最大似然估計(jì)的值就是一樣的了。所以,最大后驗(yàn)估計(jì)其實(shí)就是加入了一個(gè)先驗(yàn)概率來進(jìn)行糾正。 我們來看一個(gè)使用貝葉斯公式計(jì)算概率的經(jīng)典問題:
其實(shí)就是求條件概率。 這個(gè)例子說明了什么呢?得病是存在先驗(yàn)分布的,也就是人群中的患病率為1%。如果不考慮這個(gè)先驗(yàn)分布,那么他患病的概率就是95%。這就是最大后驗(yàn)估計(jì)的數(shù)學(xué)思想。 結(jié)語 概率論的很多思想被廣泛應(yīng)用于機(jī)器學(xué)習(xí)中,學(xué)好概率論是入門機(jī)器學(xué)習(xí)的前提之一,一起加油! |
|