數(shù)據(jù)科學(xué)家都應(yīng)該知道這5個概率分布

止觀觀止 2019-07-11

展開全文

數(shù)據(jù)科學(xué)家都應(yīng)該知道這5個概率分布

概率分布就像3D眼鏡。它們使熟練的數(shù)據(jù)科學(xué)家能夠識別完全隨機變量中的模式。

在某種程度上，大多數(shù)數(shù)據(jù)科學(xué)或機器學(xué)習(xí)技能都是基于對數(shù)據(jù)概率分布的某些假設(shè)。

這使得概率知識成為統(tǒng)計學(xué)家構(gòu)建工具箱的基礎(chǔ)。如果你正在思考如何成為一名數(shù)據(jù)科學(xué)家，那么這是第一步。

廢話少說，讓我們開門見山吧!

什么是概率分布?

在概率論和統(tǒng)計學(xué)中，隨機變量是一個可以隨機取不同值的變量，比如“我看到的下一個人的身高”或“我下一個拉面碗里廚師頭發(fā)的數(shù)量”。

給定一個隨機變量X，我們想描述它取哪個值。更重要的是，我們想要描述變量取某個值x的可能性有多大。

例如，如果X是“我女朋友養(yǎng)了多少只貓”，那么這個數(shù)字可能是1，甚至可以是5或10。

當(dāng)然，一個人不可能擁有負(fù)數(shù)的貓。

因此我們希望用一種明確的數(shù)學(xué)方法來表示變量X可以取的每一個可能的值，以及事件(X= x)的可能性。

為了做到這一點，我們定義了一個函數(shù)P，使得P(X = x)是變量X值為x的概率。

我們也可以用P(X < x)或者P(X > x)來代替離散值。這非常重要。

P是變量的密度函數(shù)，它表征變量的分布。

隨著時間的推移，科學(xué)家們已經(jīng)意識到，自然界和現(xiàn)實生活中的許多事物往往表現(xiàn)相似，變量共享一個分布，或具有相同的密度函數(shù)(或類似的函數(shù))。

要使P成為一個實際的密度函數(shù)，需要一些條件。

P(X =x) <= 1 對于任意值X, P(X =x)必須小于等于1
P(X =x) >= 0 對于任意值X, P(X =x)必須大于等于0
對于任意值X，P(X =x) 所有值的和為1(X取任意值的概率，加起來等于1）

離散與連續(xù)隨機變量分布

隨機變量可以分為兩組:離散隨機變量和連續(xù)隨機變量。

離散隨機變量

離散變量有一組離散的可能值，每個值的概率都是非零的。

例如，當(dāng)我們拋硬幣時，如果我們說

X = ' 1如果硬幣是正面，0如果是反面'

P(X = 1) = P(X = 0) = 0.5

但是請注意，離散集不一定是有限的。

幾何分布，事件發(fā)生的概率為p，試驗k次才得到第一次成功的概率：

數(shù)據(jù)科學(xué)家都應(yīng)該知道這5個概率分布

k可以取任何非負(fù)的正整數(shù)。

注意所有可能值的概率之和仍然是1。

連續(xù)隨機變量

如果說

X =“從我頭上隨機拔下的一根頭發(fā)的長度，以毫米為單位(沒有舍入)”

X可以取哪些值?我們知道負(fù)數(shù)在這里沒有任何意義。

但是，如果你說的是1毫米，而不是1.1853759……或者類似的東西，我要么懷疑你的測量技能，要么懷疑你的測量報告錯誤。

連續(xù)隨機變量可以取給定(連續(xù))區(qū)間內(nèi)的任何值。

如果X為連續(xù)性隨機變量，則用f（x）表示X的概率分布密度函數(shù)。

用P(a < X < b)表示X位于值a和b之間的概率。

為了得到X取任一指定實數(shù)a的概率，需要把X的密度函數(shù)從a積分到b。

現(xiàn)在您已經(jīng)知道了概率分布是什么，讓我們來學(xué)習(xí)一些最常見的分布!

一、伯努利概率分布

伯努利分布的隨機變量是最簡單的隨機變量之一。

它表示一個二進(jìn)制事件:“這件事發(fā)生”vs“這件事沒有發(fā)生”，并以值p作為唯一的參數(shù)，表示事件發(fā)生的概率。

伯努利分布的隨機變量B的密度函數(shù)為:

P(B = 1) = p, P(B =0)= (1- p)

這里B=1表示事件發(fā)生了，B=0表示事件沒有發(fā)生。

注意這兩個概率加起來是1，因此不可能有其他值。

二、均勻概率分布

均勻隨機變量有兩種:離散隨機變量和連續(xù)隨機變量。

離散均勻分布將取(有限的)一組值S，并為每個值分配1/n的概率，其中n是S中的元素數(shù)量。

這樣，如果變量Y在{1,2,3}中是均勻的，那么每一個值出現(xiàn)的概率都是33%。

骰子就是一個非常典型的離散均勻隨機變量，典型骰子有一組值{1,2,3,4,5,6}，元素數(shù)量為6，每個值出現(xiàn)的概率是1/6。

連續(xù)均勻分布只取兩個值a和b作為參數(shù)，并在它們之間的區(qū)間內(nèi)為每個值分配相同的密度。

這意味著Y在一個區(qū)間(從c到d)取值的概率與它的大小相對整個區(qū)間(從b到a)的大小成正比。

因此，如果Y在a和b之間均勻分布，則

數(shù)據(jù)科學(xué)家都應(yīng)該知道這5個概率分布

這樣，如果Y是1和2之間的均勻隨機變量，

P(1 < X < 2)=1, P(1 < X < 1.5) = 0.5

Python的隨機包的隨機方法就采樣了一個在0到1之間均勻分布的連續(xù)變量。

有趣的是，可以證明，在給定均勻隨機值生成器和一些微積分的情況下，可以對任何其他分布進(jìn)行采樣。

三、正態(tài)概率分布

數(shù)據(jù)科學(xué)家都應(yīng)該知道這5個概率分布

正態(tài)分布變量在自然界中很常見，它們是常態(tài)，這就是這個名字的由來。

如果你把你所有的同事召集起來，測量他們的身高，或者給他們稱重，然后用結(jié)果繪制一個直方圖，結(jié)果很可能接近正態(tài)分布。

如果你取任意一個隨機變量的樣本，對這些測量值取平均值，重復(fù)這個過程很多次，這個平均值也會有一個正態(tài)分布。這個事實很重要，它被稱為統(tǒng)計學(xué)基本定理。

正態(tài)分布變量:

呈對稱鐘形曲線, 以均值為中心（通常稱為μ）。
可以取實空間上的所有值，正態(tài)曲線由均數(shù)所在處開始，分別向左右兩側(cè)逐漸均勻下降。標(biāo)準(zhǔn)差σ決定了分布的幅度。
幾乎無處不在

大多數(shù)情況下，如果你測量任何經(jīng)驗數(shù)據(jù)，并且它是對稱的，一般可假設(shè)它是正態(tài)分布。

例如，擲K個骰子，然后把結(jié)果相加，就會得到正態(tài)分布。

四、對數(shù)正態(tài)分布概率分布

數(shù)據(jù)科學(xué)家都應(yīng)該知道這5個概率分布

對數(shù)正態(tài)概率分布是正態(tài)概率分布中較少見的一類。

如果變量Y = log(X)遵循正態(tài)分布，則稱變量X為對數(shù)正態(tài)分布。

在直方圖中，對數(shù)正態(tài)分布是不對稱的，標(biāo)準(zhǔn)差σ越大分布越不對稱。

我認(rèn)為對數(shù)正態(tài)分布值得一提，因為大多數(shù)以貨幣為基礎(chǔ)的變量都是這樣的。

如果你看與錢有關(guān)的任何變量的概率分布，比如

某銀行最近一次轉(zhuǎn)賬的金額。
華爾街最新成交量。
公司特定季度收益。

它們通常不會是正態(tài)概率分布，更接近于對數(shù)正態(tài)隨機變量。

(如果你能想到你在工作中遇到的任何其他對數(shù)正態(tài)變量，請在評論中發(fā)表你的看法!尤其是財務(wù)以外的事情)。

五、指數(shù)概率分布

數(shù)據(jù)科學(xué)家都應(yīng)該知道這5個概率分布

指數(shù)概率分布也隨處可見，與泊松分布概率概念緊密相連。

泊松分布直接從維基百科中剽竊而來，它是“一個事件以恒定的平均速率連續(xù)獨立地發(fā)生的過程”。

這意味著，如果:

你有很多事情要做。
它們以一定的速度發(fā)生(不隨時間改變)。
任何一個成功的事件都不應(yīng)該影響另一個成功的事件。

泊松分布可能是發(fā)送到服務(wù)器的請求、發(fā)生在超市的交易、或者在某個湖中捕魚的鳥。

想象一下頻率為λ的泊松分布（比如，事件每秒發(fā)生一次）。

指數(shù)隨機變量模擬事件發(fā)生后，下一個事件發(fā)生所需的時間。

有趣的是，在泊松分布中，事件可以發(fā)生在任何時間間隔內(nèi)0到∞之間的任何地方(概率遞減)。

這意味著無論你等待多久，事件發(fā)生的可能性都不是零。這也意味著它可能在很短的時間內(nèi)發(fā)生很多次。

在課堂上，我們常開玩笑說公交車到站是泊松分布。我認(rèn)為，當(dāng)你給一些人發(fā)送WhatsApp消息時的響應(yīng)時間也符合這個標(biāo)準(zhǔn)。

λ參數(shù)調(diào)節(jié)活動的頻率。它將使事件實際發(fā)生所需的預(yù)期時間以某個值為中心。

這意味著，如果我們知道每15分鐘就有一輛出租車經(jīng)過我們的街區(qū)，即使理論上我們可以永遠(yuǎn)等下去，我們極有可能等不到30分鐘。

數(shù)據(jù)科學(xué)中的指數(shù)概率分布

這是指數(shù)分布隨機變量的密度函數(shù):

數(shù)據(jù)科學(xué)家都應(yīng)該知道這5個概率分布

假設(shè)你有一個變量的樣本，想看看它是否可以用指數(shù)分布變量來建模。

最佳λ參數(shù)可以很容易地估計為采樣值平均值的倒數(shù)。

指數(shù)變量非常適合建模任何罕見但巨大的離群值。

這是因為它們可以取任何非負(fù)的值，但以較小的值為中心，隨著值的增長頻率降低。

在特別是異常繁重的樣本中,你可能想要估計λ中位數(shù)而不是平均值, 因為中位數(shù)對異常值更為穩(wěn)健。在這一點上，你的利益可能會有所不同，所以對它持保留態(tài)度。

結(jié)論

總而言之，作為數(shù)據(jù)科學(xué)家，我認(rèn)為學(xué)習(xí)基礎(chǔ)知識非常重要。

概率和統(tǒng)計可能不像深度學(xué)習(xí)或無監(jiān)督機器學(xué)習(xí)那么浮華，但它們是數(shù)據(jù)科學(xué)的基石，更是機器學(xué)習(xí)的基石。

根據(jù)我的經(jīng)驗，提供具有特性的機器學(xué)習(xí)模型，而不知道他們遵循哪種分布是一個糟糕的選擇。

記住指數(shù)分布和正態(tài)分布的普遍性，以及較罕見的對數(shù)正態(tài)分布也是很好的。

在訓(xùn)練機器學(xué)習(xí)模型時，了解它們的特性、用途和表現(xiàn)將扭轉(zhuǎn)格局。在進(jìn)行任何類型的數(shù)據(jù)分析時，將它們牢記于心通常也是有好處的！

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：止觀觀止 > 《文章臨時》

舉報/認(rèn)領(lǐng)

0條評論

發(fā)表

請遵守用戶評論公約

類似文章 更多

止觀觀止

關(guān)注對話

TA的最新館藏

【1985年】第一屆中日圍棋擂臺賽回顧（六）聶衛(wèi)平連勝小林和加藤之后，
[轉(zhuǎn)] pciex1x4x8x16的區(qū)別
攝影技巧：一個手電筒就能拍氛圍感大片！具體操作方法如下
Excel數(shù)據(jù)分析
這樣提煉賣點，你的產(chǎn)品才會大賣
《我對航拍攝影的幾點體會》

喜歡該文的人也喜歡更多

熱門閱讀換一換

一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

數(shù)據(jù)科學(xué)家都應(yīng)該知道這5個概率分布

一、伯努利概率分布

二、均勻概率分布

三、正態(tài)概率分布

四、對數(shù)正態(tài)分布概率分布

五、指數(shù)概率分布

結(jié)論

二、均勻概率分布

三、正態(tài)概率分布

四、對數(shù)正態(tài)分布概率分布