吳恩達的 CS229的數(shù)學(xué)基礎(chǔ)（概率論），有人把它做成了在線翻譯版本！

LibraryPKU 2019-11-01

展開全文

本文是斯坦福大學(xué) CS229 機器學(xué)習(xí)課程的基礎(chǔ)材料，原始文件下載^[1]

原文作者：Arian Maleki ， Tom Do
翻譯：石振宇^[2]
審核和修改制作：黃海廣^[3]
備注：請關(guān)注github^[4]的更新。線性代數(shù)的翻譯見（這篇文章）。

CS229 機器學(xué)習(xí)課程復(fù)習(xí)材料-概率論

概率論復(fù)習(xí)和參考

概率論是對不確定性的研究。通過這門課，我們將依靠概率論中的概念來推導(dǎo)機器學(xué)習(xí)算法。這篇筆記試圖涵蓋適用于CS229的概率論基礎(chǔ)。概率論的數(shù)學(xué)理論非常復(fù)雜，并且涉及到“分析”的一個分支：測度論。在這篇筆記中，我們提供了概率的一些基本處理方法，但是不會涉及到這些更復(fù)雜的細(xì)節(jié)。

1. 概率的基本要素

為了定義集合上的概率，我們需要一些基本元素，

樣本空間：隨機實驗的所有結(jié)果的集合。在這里，每個結(jié)果可以被認(rèn)為是實驗結(jié)束時現(xiàn)實世界狀態(tài)的完整描述。
事件集（事件空間）：元素的集合（稱為事件）是的子集（即每個是一個實驗可能結(jié)果的集合）。
備注：需要滿足以下三個條件：
(1)
(2)
(3)
概率度量：函數(shù)是一個的映射，滿足以下性質(zhì)：
對于每個，,
如果是互不相交的事件 (即當(dāng)時， ), 那么：

以上三條性質(zhì)被稱為概率公理。

舉例：

考慮投擲六面骰子的事件。樣本空間為。最簡單的事件空間是平凡事件空間.另一個事件空間是的所有子集的集合。對于第一個事件空間，滿足上述要求的唯一概率度量由，給出。對于第二個事件空間，一個有效的概率度量是將事件空間中每個事件的概率分配為，這里是這個事件集合中元素的數(shù)量；例如，。

性質(zhì)：

如果，則：
(布爾不等式)：
(全概率定律)：如果是一些互不相交的事件并且它們的并集是，那么它們的概率之和是 1

1.1 條件概率和獨立性

假設(shè)是一個概率非 0 的事件，我們定義在給定的條件下的條件概率為：

換句話說，)是度量已經(jīng)觀測到事件發(fā)生的情況下事件發(fā)生的概率，兩個事件被稱為獨立事件當(dāng)且僅當(dāng)（或等價地，)。因此，獨立性相當(dāng)于是說觀察到事件對于事件的概率沒有任何影響。

2. 隨機變量

考慮一個實驗，我們翻轉(zhuǎn) 10 枚硬幣，我們想知道正面硬幣的數(shù)量。這里，樣本空間的元素是長度為 10 的序列。例如，我們可能有。然而，在實踐中，我們通常不關(guān)心獲得任何特定正反序列的概率。相反，我們通常關(guān)心結(jié)果的實值函數(shù)，比如我們 10 次投擲中出現(xiàn)的正面數(shù)，或者最長的背面長度。在某些技術(shù)條件下，這些函數(shù)被稱為隨機變量。

更正式地說，隨機變量是一個的函數(shù)。通常，我們將使用大寫字母或更簡單的(其中隱含對隨機結(jié)果的依賴)來表示隨機變量。我們將使用小寫字母來表示隨機變量的值。

舉例：在我們上面的實驗中，假設(shè)是在投擲序列中出現(xiàn)的正面的數(shù)量。假設(shè)投擲的硬幣只有 10 枚，那么只能取有限數(shù)量的值，因此它被稱為離散隨機變量。這里，與隨機變量相關(guān)聯(lián)的集合取某個特定值的概率為：

舉例：假設(shè)是一個隨機變量，表示放射性粒子衰變所需的時間。在這種情況下，具有無限多的可能值，因此它被稱為連續(xù)隨機變量。我們將在兩個實常數(shù)和之間取值的概率(其中)表示為：

2.1 累積分布函數(shù)

為了指定處理隨機變量時使用的概率度量，通常可以方便地指定替代函數(shù)(CDF、PDF和PMF)，在本節(jié)和接下來的兩節(jié)中，我們將依次描述這些類型的函數(shù)。

累積分布函數(shù)(CDF)是函數(shù)，它將概率度量指定為：

通過使用這個函數(shù)，我們可以計算任意事件發(fā)生的概率。圖 1 顯示了一個樣本CDF函數(shù)。

圖1：一個累計分布函數(shù)(CDF)性質(zhì)：

2.2 概率質(zhì)量函數(shù)

當(dāng)隨機變量取有限種可能值(即，是離散隨機變量)時，表示與隨機變量相關(guān)聯(lián)的概率度量的更簡單的方法是直接指定隨機變量可以假設(shè)的每個值的概率。特別地，概率質(zhì)量函數(shù)(PMF)是函數(shù) ，這樣：

在離散隨機變量的情況下，我們使用符號表示隨機變量可能假設(shè)的一組可能值。例如，如果是一個隨機變量，表示十次投擲硬幣中的正面數(shù)，那么。

性質(zhì)：

2.3 概率密度函數(shù)

對于一些連續(xù)隨機變量，累積分布函數(shù)處可微。在這些情況下，我們將概率密度函數(shù)(PDF)定義為累積分布函數(shù)的導(dǎo)數(shù)，即：

請注意，連續(xù)隨機變量的概率密度函數(shù)可能并不總是存在的(即，如果它不是處處可微)。

根據(jù)微分的性質(zhì)，對于很小的，

CDF和PDF(當(dāng)它們存在時！)都可用于計算不同事件的概率。但是應(yīng)該強調(diào)的是，任意給定點的概率密度函數(shù)(PDF)的值不是該事件的概率，即。例如，可以取大于 1 的值(但是在的任何子集上的積分最多為 1)。

性質(zhì)：

2.4 期望

假設(shè)是一個離散隨機變量，其PMF為，是一個任意函數(shù)。在這種情況下，可以被視為隨機變量，我們將的期望值定義為：

如果是一個連續(xù)的隨機變量，其PDF 為，那么的期望值被定義為：

直覺上，的期望值可以被認(rèn)為是對于不同的值可以取的值的“加權(quán)平均值”，其中權(quán)重由或給出。作為上述情況的特例，請注意，隨機變量本身的期望值，是通過令得到的，這也被稱為隨機變量的平均值。

性質(zhì)：

對于任意常數(shù) ，
對于任意常數(shù) ，
(線性期望)：
對于一個離散隨機變量，

2.5 方差

隨機變量的方差是隨機變量的分布圍繞其平均值集中程度的度量。形式上，隨機變量的方差定義為：

使用上一節(jié)中的性質(zhì)，我們可以導(dǎo)出方差的替代表達式:

其中第二個等式來自期望的線性，以及相對于外層期望實際上是常數(shù)的事實。

性質(zhì)：

對于任意常數(shù) ，
對于任意常數(shù) ，

舉例：

計算均勻隨機變量的平均值和方差，任意，其PDF為，其他地方為 0。

舉例：

假設(shè)對于一些子集，有，計算?

離散情況：

連續(xù)情況：

2.6 一些常見的隨機變量

離散隨機變量

伯努利分布：硬幣擲出正面的概率為（其中：），如果正面發(fā)生，則為 1，否則為 0。
二項式分布：擲出正面概率為（其中：）的硬幣次獨立投擲中正面的數(shù)量。

幾何分布：擲出正面概率為（其中：）的硬幣第一次擲出正面所需要的次數(shù)。

泊松分布：用于模擬罕見事件頻率的非負(fù)整數(shù)的概率分布（其中：）。

連續(xù)隨機變量

均勻分布：在和之間每個點概率密度相等的分布（其中：$a

指數(shù)分布：在非負(fù)實數(shù)上有衰減的概率密度（其中：）。

正態(tài)分布：又被稱為高斯分布。

一些隨機變量的概率密度函數(shù)和累積分布函數(shù)的形狀如圖 2 所示。

圖2：一些隨機變量的概率密度函數(shù)(PDF)和累積分布函數(shù)(CDF)下表總結(jié)了這些分布的一些特性：

3. 兩個隨機變量

到目前為止，我們已經(jīng)考慮了單個隨機變量。然而，在許多情況下，在隨機實驗中，我們可能有不止一個感興趣的量。例如，在一個我們擲硬幣十次的實驗中，我們可能既關(guān)心出現(xiàn)的正面數(shù)量，也關(guān)心連續(xù)最長出現(xiàn)正面的長度。在本節(jié)中，我們考慮兩個隨機變量的設(shè)置。

3.1 聯(lián)合分布和邊緣分布

假設(shè)我們有兩個隨機變量，一個方法是分別考慮它們。如果我們這樣做，我們只需要和。但是如果我們想知道在隨機實驗的結(jié)果中，和同時假設(shè)的值，我們需要一個更復(fù)雜的結(jié)構(gòu)，稱為和的聯(lián)合累積分布函數(shù)，定義如下:

可以證明，通過了解聯(lián)合累積分布函數(shù)，可以計算出任何涉及到和的事件的概率。

聯(lián)合CDF: 和每個變量的聯(lián)合分布函數(shù)和分別由下式關(guān)聯(lián):

這里我們稱和為的邊緣累積概率分布函數(shù)。

性質(zhì)：

3.2 聯(lián)合概率和邊緣概率質(zhì)量函數(shù)

如果和是離散隨機變量，那么聯(lián)合概率質(zhì)量函數(shù) 由下式定義：

這里, 對于任意，，, 并且

兩個變量上的聯(lián)合 PMF分別與每個變量的概率質(zhì)量函數(shù)有什么關(guān)系？事實上：

對于類似。在這種情況下，我們稱為的邊際概率質(zhì)量函數(shù)。在統(tǒng)計學(xué)中，將一個變量相加形成另一個變量的邊緣分布的過程通常稱為“邊緣化”。

3.3 聯(lián)合概率和邊緣概率密度函數(shù)

假設(shè)和是兩個連續(xù)的隨機變量，具有聯(lián)合分布函數(shù)。在在和中處處可微的情況下，我們可以定義聯(lián)合概率密度函數(shù)：

如同在一維情況下，，而是：

請注意，概率密度函數(shù)的值總是非負(fù)的，但它們可能大于 1。盡管如此，可以肯定的是

與離散情況相似，我們定義:

作為的邊際概率密度函數(shù)(或邊際密度)，對于也類似。

3.4 條件概率分布

條件分布試圖回答這樣一個問題，當(dāng)我們知道必須取某個值時，上的概率分布是什么？在離散情況下，給定的條件概率質(zhì)量函數(shù)是簡單的：

假設(shè)分母不等于 0。

在連續(xù)的情況下，在技術(shù)上要復(fù)雜一點，因為連續(xù)隨機變量的概率等于零。忽略這一技術(shù)點，我們通過類比離散情況，簡單地定義給定的條件概率密度為：

假設(shè)分母不等于 0。

3.5 貝葉斯定理

當(dāng)試圖推導(dǎo)一個變量給定另一個變量的條件概率表達式時，經(jīng)常出現(xiàn)的一個有用公式是貝葉斯定理。

對于離散隨機變量和：

對于連續(xù)隨機變量和：

3.6 獨立性

如果對于和的所有值，，則兩個隨機變量和是獨立的。等價地，

對于離散隨機變量, 對于任意, ，。
對于離散隨機變量, 當(dāng)對于任意且。
對于連續(xù)隨機變量, 對于任意。
對于連續(xù)隨機變量, ，當(dāng)對于任意。

非正式地說，如果“知道”一個變量的值永遠不會對另一個變量的條件概率分布有任何影響，那么兩個隨機變量和是獨立的，也就是說，你只要知道和就知道關(guān)于這對變量的所有信息。以下引理將這一觀察形式化:

引理 3.1

如果和是獨立的，那么對于任何，我們有：

利用上述引理，我們可以證明如果與無關(guān)，那么的任何函數(shù)都與的任何函數(shù)無關(guān)。

3.7 期望和協(xié)方差

假設(shè)我們有兩個離散的隨機變量，并且是這兩個隨機變量的函數(shù)。那么的期望值以如下方式定義：

對于連續(xù)隨機變量，，類似的表達式是：

我們可以用期望的概念來研究兩個隨機變量之間的關(guān)系。特別地，兩個隨機變量的協(xié)方差定義為：

使用類似于方差的推導(dǎo)，我們可以將它重寫為：

在這里，說明兩種協(xié)方差形式相等的關(guān)鍵步驟是第三個等號，在這里我們使用了這樣一個事實，即和實際上是常數(shù)，可以被提出來。當(dāng)時，我們說和不相關(guān)。

性質(zhì)：

(期望線性)
如果和相互獨立, 那么
如果和相互獨立, 那么 .

4. 多個隨機變量

上一節(jié)介紹的概念和想法可以推廣到兩個以上的隨機變量。特別是，假設(shè)我們有個連續(xù)隨機變量，。在本節(jié)中，為了表示簡單，我們只關(guān)注連續(xù)的情況，對離散隨機變量的推廣工作類似。

4.1 基本性質(zhì)

我們可以定義的聯(lián)合累積分布函數(shù)、聯(lián)合概率密度函數(shù)，以及給定時的邊緣概率密度函數(shù)為：

為了計算事件的概率，我們有：

鏈?zhǔn)椒▌t：

從多個隨機變量的條件概率的定義中，可以看出：

獨立性:對于多個事件，,我們說是相互獨立的,當(dāng)對于任何子集，我們有：

同樣，我們說隨機變量是獨立的，如果：

這里，相互獨立性的定義只是兩個隨機變量獨立性到多個隨機變量的自然推廣。

獨立隨機變量經(jīng)常出現(xiàn)在機器學(xué)習(xí)算法中，其中我們假設(shè)屬于訓(xùn)練集的訓(xùn)練樣本代表來自某個未知概率分布的獨立樣本。為了明確獨立性的重要性，考慮一個“壞的”訓(xùn)練集，我們首先從某個未知分布中抽取一個訓(xùn)練樣本，然后將完全相同的訓(xùn)練樣本的個副本添加到訓(xùn)練集中。在這種情況下，我們有：

盡管訓(xùn)練集的大小為，但這些例子并不獨立！雖然這里描述的過程顯然不是為機器學(xué)習(xí)算法建立訓(xùn)練集的明智方法，但是事實證明，在實踐中，樣本的不獨立性確實經(jīng)常出現(xiàn)，并且它具有減小訓(xùn)練集的“有效大小”的效果。

4.2 隨機向量

假設(shè)我們有n個隨機變量。當(dāng)把所有這些隨機變量放在一起工作時，我們經(jīng)常會發(fā)現(xiàn)把它們放在一個向量中是很方便的...我們稱結(jié)果向量為隨機向量(更正式地說，隨機向量是從到的映射)。應(yīng)該清楚的是，隨機向量只是處理個隨機變量的一種替代符號，因此聯(lián)合概率密度函數(shù)和綜合密度函數(shù)的概念也將適用于隨機向量。

期望:

考慮中的任意函數(shù)。這個函數(shù)的期望值被定義為

其中，是從到的個連續(xù)積分。如果是從到的函數(shù)，那么的期望值是輸出向量的元素期望值，即，如果是：

那么，

協(xié)方差矩陣：對于給定的隨機向量，其協(xié)方差矩陣是平方矩陣，其輸入由給出。從協(xié)方差的定義來看，我們有：

其中矩陣期望以明顯的方式定義。協(xié)方差矩陣有許多有用的屬性: