線性代數(shù)和概率論是機器學習的必備基礎課程。前幾天,量子位已經推薦了一個可以互動的線性代數(shù)課程。 最近,有位印度小哥Nimish Mishra在Medium上分享了一篇概率論基礎知識,也是一篇零基礎的入門課程。 這篇文章提到了很多基本概念和重要的變量分布。其中有些概念,比如協(xié)方差,可以幫助我們理解機器學習中變量之間的關系。 這位小哥提到的指數(shù)分布,則在神經網絡調參中有著直接的應用。 下面,就讓我們一起來跟他學習一下吧。 概率論中的基本概念我們先從擲硬幣開始談起。 隨機變量可以是離散的,也可以是連續(xù)的。比如拋硬幣的結果就是一個離散的隨機變量,而降雨量就是一個連續(xù)的隨機變量。 為了方便起見,我們可以定義一個變量x,當硬幣出現(xiàn)正面時x=1,當硬幣出現(xiàn)反面時x=0。對于降雨量這個隨機變量而言,我們只能定義x是一個大于0的實數(shù)。 隨機變量的結果雖然不可預知,但并不是完全不可捉摸的,它有一定的規(guī)律性,這就是概率分布函數(shù)。 對于離散變量,它是x的概率為p,我們可以定義f(x)=p。在拋硬幣這個問題中,f(0)=1/2,f(1)=1/2。 對于連續(xù)變量,x的取值是連續(xù)的,我們不能再說x等于某個值的概率是多少,而是用一個概率密度函數(shù)來表示它,當x取值在a和b兩個數(shù)之間時,它的概率可以用以下積分結果表示: 弄清楚概率分布函數(shù)后,接下來我們就可以定義這些量:期望值、方差、協(xié)方差。 期望值又叫平均值,一般用μ表示。以離散隨機變量為例,把變量的值和對應的概率相乘,然后把所有乘積相加起來,就是期望值: 方差用來衡量隨機變量偏離平均值的程度,它是變量X減平均值μ的平方——(X-μ)^2——的平均值。 協(xié)方差表示不同隨機變量之間關聯(lián)的強弱。下面是四個變量ABCD之間的協(xié)方差表格: 當兩個變量的協(xié)方差是負數(shù)時,表示一個變量值增加的同時,另一個變量值在減少。如果協(xié)方差是0,表示一個變量的值不會影響另一個變量。 常見的幾種概率分布我們還是以拋硬幣為例,這個隨機變量只能取正面1、反面0兩個值,是一種伯努利分布: 對拋硬幣來說, φ=0.5。 如果我們要預測n次拋硬幣中有k次出現(xiàn)正面的概率是多少,還需要引入二項分布: 其中p表示硬幣在單次投擲中出現(xiàn)正面的概率,也就是0.5。 以上是離散變量的情況,對于連續(xù)的隨機變量,還有最常見的高斯分布(正態(tài)分布)、指數(shù)分布等等。 高斯分布在概率論中具有非常重要的地位,在統(tǒng)計學中,很多隨機變量都符合高斯分布。它的定義如下: 其中μ是期望值,σ是標準差(方差的平方根)。高斯分布的函數(shù)圖像如下,變量在平均值附近左右一個標準差內的概率是68.2%。 在深度學習中,我們需要調節(jié)神經網絡的參數(shù)以防止過度擬合。這時候會用到指數(shù)分布: λ值越大,變量x的分布越集中。 實際應用概率不僅僅是掌握機器學習必需的基礎知識,它也有一些直接的應用。 在前文中我們提到過,指數(shù)分布可以幫助調節(jié)神經網絡的參數(shù),防止過擬合。這一點很重要,因為過擬合會導致神經網絡的性能不佳。 在Kaggle的一項預測客戶交易的任務中,作者Nimish用概率論的方法找到了內部規(guī)律。 Nimish繪制了200個變量對結果分布的影響: 這組圖是不同的兩個參數(shù)(以0和1表示)條件下,相同變量的不同概率分布。第一行中的前3個圖分布不完全相同,而第4個圖幾乎完全重疊。所以,第4個參數(shù)對隨機變量可能沒有影響。 以上只是對概率論的初步介紹,如果想要了解更多,可以去看一些相關專輯,也可以去看看Nimish的專欄文章。 原文鏈接: — 完 — |
|