沒有學(xué)不會(huì)的人工智能-概率論篇

excel05 2020-06-11

展開全文

目前網(wǎng)絡(luò)上流傳著無數(shù)版本的人工智能入門書單，無一例外的都需要學(xué)習(xí)數(shù)學(xué)。對(duì)于很多畢業(yè)多年的程序猿(媛)來說，再次復(fù)習(xí)數(shù)學(xué)可能是一件很痛苦的事情。

初學(xué)者的熱情都會(huì)被繁瑣的公式、燒腦的概念給磨滅的所剩無幾，本文將從人工智能所需的概率論知識(shí)入手，結(jié)合參考資料將復(fù)雜的公式和定理簡(jiǎn)單化，力求最快的進(jìn)行一次人工智能基礎(chǔ)入門。

古典概率模型

在古典概率模型中，試驗(yàn)的結(jié)果只包含有限個(gè)基本事件，且單個(gè)事件發(fā)生的可能性相同。這段話可能不好理解，先不著急。我們先看一下對(duì)應(yīng)的數(shù)學(xué)解釋。

假設(shè)所有的基本事件的數(shù)據(jù)為n，待觀察的隨機(jī)事件A包含的基本事件數(shù)目為k，則隨機(jī)事件A發(fā)生的概率公式為:

沒有學(xué)不會(huì)的人工智能-概率論篇

(1)

例如，在拋100次硬幣的試驗(yàn)中，n = 100，想要觀察“拋出正面”則稱之為隨機(jī)事件A，在100次試驗(yàn)中，隨機(jī)事件A發(fā)生的次數(shù)是k = 50次，那么拋出正面的概率為 1/2。

上面的定義針對(duì)的是隨機(jī)事件，如果想要刻畫多個(gè)隨機(jī)事件之間的關(guān)系，那么古典概率模型就無能為力了，需要引入其他的方式了，比如條件概率。

條件概率

什么是條件概率呢？

首先看一段數(shù)學(xué)解釋：條件概率是根據(jù)已知信息對(duì)樣本空間進(jìn)行調(diào)整后得到的新的概率分布。條件概率仍然描述的是樣本空間的概率分布，只不過需要根據(jù)已知的樣本進(jìn)行了調(diào)整。假設(shè)兩個(gè)隨機(jī)事件A和B，條件概率就是指事件A在事件B已經(jīng)發(fā)生的條件下發(fā)生的概率，可以使用數(shù)學(xué)公式來表示：

沒有學(xué)不會(huì)的人工智能-概率論篇

(2)

我們來看一個(gè)簡(jiǎn)單的例子：在一次足球比賽中，求解球隊(duì)在已經(jīng)0:2落后的情況下最后以3:2翻盤獲勝的概率？0:2就是上式中的隨機(jī)事件B，3:2獲勝就是上式中的隨機(jī)事件A。

我們繼續(xù)來看一下幾何解釋：如下圖，A∩B表示在B已發(fā)生的情況下A發(fā)生的概率，則P(A∩B) = P(AB)。就可以推導(dǎo)出上面的公式了。

沒有學(xué)不會(huì)的人工智能-概率論篇

P(AB)表示的聯(lián)合概率，標(biāo)識(shí)了隨機(jī)事件A和隨機(jī)事件B同時(shí)發(fā)生的概率。

如果聯(lián)合概率P(AB)等于各自發(fā)生概率的乘積，也即P(AB) = P(A)·P(B)，則表示隨機(jī)事件A與隨機(jī)事件B之間互相獨(dú)立，沒有任何關(guān)系，于是得出P(A|B) = P(B)。

全概率公式

了解聯(lián)合概率、條件概率，我們來看一下全概率公式。全概率公式是用于將復(fù)雜事件的概率轉(zhuǎn)換成在不同情況下簡(jiǎn)單事件發(fā)生的概率求和。先看個(gè)公式：

沒有學(xué)不會(huì)的人工智能-概率論篇

(3)

怎么理解上面的公式呢，我們看一個(gè)簡(jiǎn)單的例子：小明從家到公司有B1、B2、B3三條路，小明每次上班選擇上述三條路的概率分別是P(B1)=0.5、P(B2)=0.3和P(B3)=0.2。這三條路不擁堵的概率為P(A1)=0.2、P(A2)=0.4和P(A3)=0.5。求小明每次上班不遲到(不擁堵代表不遲到)的概率是多少？

沒有學(xué)不會(huì)的人工智能-概率論篇

設(shè)隨機(jī)事件A表示上班不遲到，則P(A|B1)、P(A|B2)、P(A|B3)分別表示選擇B1\B2\B3上班不遲到的概率，那么就有：

沒有學(xué)不會(huì)的人工智能-概率論篇

(4)

公式中的每一項(xiàng)表示：選擇第i條路不遲到的概率 = 選擇第i條路的概率 * 選擇第i條路的前提下還不遲到的概率。

公式(1)和公式(2)等價(jià)，即為全概率公式。

全概率公式表示了一個(gè)解決概率論問題的思路：先做出一些假設(shè)P(Bi)，再在這些假設(shè)的發(fā)生的情況下討論復(fù)雜事件A發(fā)生的概率。

貝葉斯公式及定理

在上面小明上班不遲到的例子中，我們繼續(xù)提問：求小明在不遲到的情況下，選擇B1這條路的概率是多少。

在條件概率中我們推到除了公式(2),將公式(2)換個(gè)方式，就可以得到條件概率P(AB) = P(A|B)·P(B)。在這個(gè)問題中，小明不遲到的情況下選擇B1這條路的概率P(B1|A)就等價(jià)于隨機(jī)事件A(小明不遲到)和隨機(jī)事件B(小明選擇B1這條路)同時(shí)發(fā)生的概率P(AB)除以事件A的概率P(A)。也即:

沒有學(xué)不會(huì)的人工智能-概率論篇

(5)

將上面的全概率公式帶入(5)中，即可得到貝葉斯公式：

沒有學(xué)不會(huì)的人工智能-概率論篇

(6)

我們將式(5)中的Bi和A分別替換為H和D，即可抽象出貝葉斯定理:

沒有學(xué)不會(huì)的人工智能-概率論篇

(7)

其中P(H)表示先驗(yàn)概率，即預(yù)先設(shè)定的假設(shè)成立的概率；

p(D|H)表示似然概率，即假設(shè)成立的前提下結(jié)果發(fā)生的概率；

P(H|D)表示后驗(yàn)概率，即結(jié)果發(fā)生的前提下，假設(shè)成立的概率。

比較抽象，我們?nèi)匀焕蒙鲜鲞x路的例子來進(jìn)行說明：

P(B1)就是先驗(yàn)概率，表示了假設(shè)選擇第一條路的概率；

P(A|B1)就是似然概率，表示了選擇第一條路前提下不遲到的概率；

P(B1|A)就是后驗(yàn)概率，表示了在不遲到的結(jié)果下，假設(shè)選第一條路的概率。

貝葉斯定理關(guān)注的是后驗(yàn)概率，即根據(jù)觀察到的結(jié)果來尋找合理的假設(shè)。

兩個(gè)學(xué)派

其實(shí)概率論的研究可以根據(jù)上述的古典模型和貝葉斯定理分為兩個(gè)學(xué)派：

頻率學(xué)派
貝葉斯學(xué)派

同一個(gè)硬幣向上拋10次，正面朝上的次數(shù)即為頻率。從事件發(fā)生的頻率來認(rèn)識(shí)概率的研究方向，被稱為“頻率學(xué)派”。

天氣預(yù)報(bào)以及明天下雨的概率是80%，就不能從頻率的角度來認(rèn)識(shí)了，這個(gè)只能看做是可信度，也就是說明天下雨的可信度是80%。從隨機(jī)事件發(fā)生的可信度來認(rèn)識(shí)概率的研究方向，被稱為“貝葉斯學(xué)派”。

頻率學(xué)派認(rèn)為假設(shè)是客觀存在且不會(huì)改變的，即存在固定的先驗(yàn)概率。

貝葉斯學(xué)派認(rèn)為固定的先驗(yàn)概率不存在，參數(shù)本身也是隨機(jī)，也就是說假設(shè)是取決于觀察結(jié)果的，不確定且可以修正的。數(shù)據(jù)就是用來對(duì)假設(shè)進(jìn)行調(diào)整的，也即調(diào)參。

參數(shù)估計(jì)

在機(jī)器學(xué)習(xí)中，我們經(jīng)常會(huì)聽到參數(shù)、模型等概念，那這些概念表示什么呢？比如，我們可以使用公式y=ax+b來描述一組數(shù)據(jù)的分布，這就是線性模型。那么參數(shù)a和b就確定了這個(gè)線性模型的形狀。我們根據(jù)已經(jīng)發(fā)生的樣本數(shù)據(jù)來分析總體對(duì)應(yīng)的模型，就需要估計(jì)參數(shù)，這就是參數(shù)估計(jì)。

在概率論中，參數(shù)估計(jì)有兩種方式，分別是：

最大似然估計(jì)
最大后驗(yàn)估計(jì)

這兩種估計(jì)方法分別對(duì)應(yīng)了“頻率學(xué)派”和'貝葉斯學(xué)派'。那怎么理解這兩種估計(jì)方法呢？

最大似然估計(jì)

似然，字面理解就是“貌似就是這樣”，最大似然估計(jì)也即樣本已經(jīng)發(fā)生了，求使得樣本發(fā)生概率最大時(shí)對(duì)應(yīng)的參數(shù)值，因?yàn)榧热粯颖灸馨l(fā)生，那么這種情況概率就最大。

我們先看個(gè)簡(jiǎn)單的例子，在一個(gè)盒子里放了未知個(gè)數(shù)且大小均勻的黑球和白球，每次從盒子里取一個(gè)球，記錄它的顏色之后放回到盒子里?，F(xiàn)在共取了100個(gè)球，其中黑球的個(gè)數(shù)是60個(gè)，那么通過黑球出現(xiàn)的頻率我們知道黑球的概率是60%，為什么呢？這里頭包含了什么思想呢？

我們先假設(shè)黑球的概率是p，我們定義隨機(jī)事件A表示100次試驗(yàn)中黑球出現(xiàn)60次，白球出現(xiàn)40次，那么就有：

沒有學(xué)不會(huì)的人工智能-概率論篇

(8)

我們知道，最大似然估計(jì)的思想是，隨機(jī)事件已經(jīng)發(fā)生，找出參數(shù)似的隨機(jī)事件A發(fā)生的概率最大，即找到參數(shù)p的值使得P(A)最大。在高等數(shù)學(xué)中，我們知道函數(shù)的極值就是該函數(shù)導(dǎo)數(shù)為0的點(diǎn)。對(duì)P(A)求導(dǎo)數(shù)，于是有了下面的式子：

沒有學(xué)不會(huì)的人工智能-概率論篇

(9)

根據(jù)式(9)即可得到 p = 60%。

這就是最大似然估計(jì)的數(shù)學(xué)思想。

最大后驗(yàn)估計(jì)

最大后驗(yàn)估計(jì)運(yùn)用的其實(shí)是貝葉斯公式，考慮的是找到一個(gè)參數(shù)值使得后驗(yàn)概率最大。我們由貝葉斯公式知道:

沒有學(xué)不會(huì)的人工智能-概率論篇

(10)

需要找到一個(gè)θ的值(θ滿足先驗(yàn)分布p(θ))使得后驗(yàn)概率p(θ|D)取最大值。也就是說上面就可以看做一個(gè)關(guān)于θ的函數(shù)，我們記為L(zhǎng)(θ)，由于D與θ無關(guān)，所以可以看成L(θ) = P(D|θ) · P(θ)?？梢钥吹絇(D|θ)是似然概率，如果p(θ)先驗(yàn)概率為1，那么最大后驗(yàn)估計(jì)的值跟最大似然估計(jì)的值就是一樣的了。所以，最大后驗(yàn)估計(jì)其實(shí)就是加入了一個(gè)先驗(yàn)概率來進(jìn)行糾正。

我們來看一個(gè)使用貝葉斯公式計(jì)算概率的經(jīng)典問題：

有一種病，通過抽樣調(diào)查，在人群中的得病率為1%，采取了一種檢查手段，如果報(bào)告呈陽性說明有95%的可能性患病，請(qǐng)問如果一個(gè)人的檢查報(bào)告呈陽性，那么他患病的概率是多少？
王天一《人工智能基礎(chǔ)課》

其實(shí)就是求條件概率。

沒有學(xué)不會(huì)的人工智能-概率論篇

這個(gè)例子說明了什么呢？得病是存在先驗(yàn)分布的，也就是人群中的患病率為1%。如果不考慮這個(gè)先驗(yàn)分布，那么他患病的概率就是95%。這就是最大后驗(yàn)估計(jì)的數(shù)學(xué)思想。

結(jié)語

概率論的很多思想被廣泛應(yīng)用于機(jī)器學(xué)習(xí)中，學(xué)好概率論是入門機(jī)器學(xué)習(xí)的前提之一，一起加油！

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： excel05 > 《數(shù)學(xué)》

舉報(bào)/認(rèn)領(lǐng)