一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

常見的8個概率分布公式和可視化

 深圳東方紅 2022-04-21

概率和統(tǒng)計知識是數(shù)據(jù)科學(xué)和機器學(xué)習(xí)的核心; 我們需要統(tǒng)計和概率知識來有效地收集、審查、分析數(shù)據(jù)。

現(xiàn)實世界中有幾個現(xiàn)象實例被認(rèn)為是統(tǒng)計性質(zhì)的(即天氣數(shù)據(jù)、銷售數(shù)據(jù)、財務(wù)數(shù)據(jù)等)。 這意味著在某些情況下,我們已經(jīng)能夠開發(fā)出方法來幫助我們通過可以描述數(shù)據(jù)特征的數(shù)學(xué)函數(shù)來模擬自然。

“概率分布是一個數(shù)學(xué)函數(shù),它給出了實驗中不同可能結(jié)果的發(fā)生概率?!?/p>

了解數(shù)據(jù)的分布有助于更好地模擬我們周圍的世界。 它可以幫助我們確定各種結(jié)果的可能性,或估計事件的可變性。 所有這些都使得了解不同的概率分布在數(shù)據(jù)科學(xué)和機器學(xué)習(xí)中非常有價值。

文章圖片1

在本文中,我們將介紹一些常見的分布并通過Python 代碼進行可視化以直觀地顯示它們。

均勻分布

最直接的分布是均勻分布。 均勻分布是一種概率分布,其中所有結(jié)果的可能性均等。 例如,如果我們擲一個公平的骰子,落在任何數(shù)字上的概率是 1/6。 這是一個離散的均勻分布。

文章圖片2

但是并不是所有的均勻分布都是離散的——它們也可以是連續(xù)的。 它們可以在指定范圍內(nèi)取任何實際值。 a 和 b 之間連續(xù)均勻分布的概率密度函數(shù) (PDF) 如下:

文章圖片3

讓我們看看如何在 Python 中對它們進行編碼:

import numpy as np import matplotlib.pyplot as pltfrom scipy import stats# for continuous a = 0b = 50size = 5000X_continuous = np.linspace(a, b, size)continuous_uniform = stats.uniform(loc=a, scale=b)continuous_uniform_pdf = continuous_uniform.pdf(X_continuous)# for discreteX_discrete = np.arange(1, 7)discrete_uniform = stats.randint(1, 7)discrete_uniform_pmf = discrete_uniform.pmf(X_discrete) # plot both tablesfig, ax = plt.subplots(nrows=1, ncols=2, figsize=(15,5))# discrete plotax[0].bar(X_discrete, discrete_uniform_pmf)ax[0].set_xlabel('X')ax[0].set_ylabel('Probability')ax[0].set_title('Discrete Uniform Distribution')# continuous plotax[1].plot(X_continuous, continuous_uniform_pdf)ax[1].set_xlabel('X')ax[1].set_ylabel('Probability')ax[1].set_title('Continuous Uniform Distribution')plt.show()
文章圖片4

高斯分布

高斯分布可能是最常聽到也熟悉的分布。 它有幾個名字:有人稱它為鐘形曲線,因為它的概率圖看起來像一個鐘形,有人稱它為高斯分布,因為首先描述它的德國數(shù)學(xué)家卡爾·高斯命名,還有一些人稱它為正態(tài)分布,因為早期的統(tǒng)計學(xué)家 注意到它一遍又一遍地再次發(fā)生。

正態(tài)分布的概率密度函數(shù)如下:

文章圖片5

σ 是標(biāo)準(zhǔn)偏差,μ 是分布的平均值。 要注意的是,在正態(tài)分布中,均值、眾數(shù)和中位數(shù)都是相等的。

當(dāng)我們繪制正態(tài)分布的隨機變量時,曲線圍繞均值對稱——一半的值在中心的左側(cè),一半在中心的右側(cè)。 并且,曲線下的總面積為 1。

mu = 0variance = 1sigma = np.sqrt(variance)x = np.linspace(mu - 3*sigma, mu + 3*sigma, 100)plt.subplots(figsize=(8, 5))plt.plot(x, stats.norm.pdf(x, mu, sigma))plt.title('Normal Distribution')plt.show()
文章圖片6

對于正態(tài)分布來說。 經(jīng)驗規(guī)則告訴我們數(shù)據(jù)的百分比落在平均值的一定數(shù)量的標(biāo)準(zhǔn)偏差內(nèi)。 這些百分比是:

68% 的數(shù)據(jù)落在平均值的一個標(biāo)準(zhǔn)差內(nèi)。

95% 的數(shù)據(jù)落在平均值的兩個標(biāo)準(zhǔn)差內(nèi)。

99.7% 的數(shù)據(jù)落在平均值的三個標(biāo)準(zhǔn)差范圍內(nèi)。

對數(shù)正態(tài)分布

對數(shù)正態(tài)分布是對數(shù)呈正態(tài)分布的隨機變量的連續(xù)概率分布。 因此,如果隨機變量 X 是對數(shù)正態(tài)分布的,則 Y = ln(X) 具有正態(tài)分布。

這是對數(shù)正態(tài)分布的 PDF:

文章圖片7

對數(shù)正態(tài)分布的隨機變量只取正實數(shù)值。 因此,對數(shù)正態(tài)分布會創(chuàng)建右偏曲線。

讓我們在 Python 中繪制它:

X = np.linspace(0, 6, 500)std = 1mean = 0lognorm_distribution = stats.lognorm([std], loc=mean)lognorm_distribution_pdf = lognorm_distribution.pdf(X)fig, ax = plt.subplots(figsize=(8, 5))plt.plot(X, lognorm_distribution_pdf, label='μ=0, σ=1')ax.set_xticks(np.arange(min(X), max(X)))std = 0.5mean = 0lognorm_distribution = stats.lognorm([std], loc=mean)lognorm_distribution_pdf = lognorm_distribution.pdf(X)plt.plot(X, lognorm_distribution_pdf, label='μ=0, σ=0.5')std = 1.5mean = 1lognorm_distribution = stats.lognorm([std], loc=mean)lognorm_distribution_pdf = lognorm_distribution.pdf(X)plt.plot(X, lognorm_distribution_pdf, label='μ=1, σ=1.5')plt.title('Lognormal Distribution')plt.legend()plt.show()
文章圖片8

泊松分布

泊松分布以法國數(shù)學(xué)家西蒙·丹尼斯·泊松的名字命名。 這是一個離散的概率分布,這意味著它計算具有有限結(jié)果的事件——換句話說,它是一個計數(shù)分布。 因此,泊松分布用于顯示事件在指定時期內(nèi)可能發(fā)生的次數(shù)。

如果一個事件在時間上以固定的速率發(fā)生,那么及時觀察到事件的數(shù)量(n)的概率可以用泊松分布來描述。 例如,顧客可能以每分鐘 3 次的平均速度到達咖啡館。 我們可以使用泊松分布來計算 9 個客戶在 2 分鐘內(nèi)到達的概率。

下面是概率質(zhì)量函數(shù)公式:

文章圖片9

λ 是一個時間單位的事件率——在我們的例子中,它是 3。k 是出現(xiàn)的次數(shù)——在我們的例子中,它是 9。這里可以使用 Scipy 來完成概率的計算。

from scipy import statsprint(stats.poisson.pmf(k=9, mu=3))'''0.002700503931560479'''

泊松分布的曲線類似于正態(tài)分布,λ 表示峰值。

X = stats.poisson.rvs(mu=3, size=500)plt.subplots(figsize=(8, 5))plt.hist(X, density=True, edgecolor='black')plt.title('Poisson Distribution')plt.show()
文章圖片10

指數(shù)分布

指數(shù)分布是泊松點過程中事件之間時間的概率分布。指數(shù)分布的概率密度函數(shù)如下:

文章圖片11

λ 是速率參數(shù),x 是隨機變量。

X = np.linspace(0, 5, 5000)exponetial_distribtuion = stats.expon.pdf(X, loc=0, scale=1)plt.subplots(figsize=(8,5))plt.plot(X, exponetial_distribtuion)plt.title('Exponential Distribution')plt.show()
文章圖片12

二項分布

可以將二項分布視為實驗中成功或失敗的概率。 有些人也可能將其描述為拋硬幣概率。

參數(shù)為 n 和 p 的二項式分布是在 n 個獨立實驗序列中成功次數(shù)的離散概率分布,每個實驗都問一個是 - 否問題,每個實驗都有自己的布爾值結(jié)果:成功或失敗。

本質(zhì)上,二項分布測量兩個事件的概率。 一個事件發(fā)生的概率為 p,另一事件發(fā)生的概率為 1-p。

這是二項分布的公式:

文章圖片13

可視化代碼如下:

X = np.random.binomial(n=1, p=0.5, size=1000)plt.subplots(figsize=(8, 5))plt.hist(X)plt.title('Binomial Distribution')plt.show()
文章圖片14

學(xué)生 t 分布

學(xué)生 t 分布(或簡稱 t 分布)是在樣本量較小且總體標(biāo)準(zhǔn)差未知的情況下估計正態(tài)分布總體的均值時出現(xiàn)的連續(xù)概率分布族的任何成員。 它是由英國統(tǒng)計學(xué)家威廉·西利·戈塞特(William Sealy Gosset)以筆名“student”開發(fā)的。

PDF如下:

文章圖片15

n 是稱為“自由度”的參數(shù),有時可以看到它被稱為“d.o.f.” 對于較高的 n 值,t 分布更接近正態(tài)分布。

import seaborn as snsfrom scipy import statsX1 = stats.t.rvs(df=1, size=4)X2 = stats.t.rvs(df=3, size=4)X3 = stats.t.rvs(df=9, size=4)plt.subplots(figsize=(8,5))sns.kdeplot(X1, label = '1 d.o.f')sns.kdeplot(X2, label = '3 d.o.f')sns.kdeplot(X3, label = '6 d.o.f')plt.title('Student's t distribution')plt.legend()plt.show()
文章圖片16

卡方分布

卡方分布是伽馬分布的一個特例; 對于 k 個自由度,卡方分布是一些獨立的標(biāo)準(zhǔn)正態(tài)隨機變量的 k 的平方和。

PDF如下:

文章圖片17

這是一種流行的概率分布,常用于假設(shè)檢驗和置信區(qū)間的構(gòu)建。

讓我們在 Python 中繪制一些示例圖:

X = np.arange(0, 6, 0.25)plt.subplots(figsize=(8, 5))plt.plot(X, stats.chi2.pdf(X, df=1), label='1 d.o.f')plt.plot(X, stats.chi2.pdf(X, df=2), label='2 d.o.f')plt.plot(X, stats.chi2.pdf(X, df=3), label='3 d.o.f')plt.title('Chi-squared Distribution')plt.legend()plt.show()
文章圖片18

掌握統(tǒng)計學(xué)和概率對于數(shù)據(jù)科學(xué)至關(guān)重要。 在本文展示了一些常見且常用的分布,希望對你有所幫助。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    国产丝袜女优一区二区三区| 精品日韩中文字幕视频在线| 亚洲一区二区精品久久av | 亚洲男人天堂成人在线视频| 丰满人妻少妇精品一区二区三区| 开心激情网 激情五月天| 日韩性生活片免费观看| 中国日韩一级黄色大片| 国产精品亚洲一级av第二区| 久久这里只有精品中文字幕| 国产精品流白浆无遮挡| 亚洲中文字幕日韩在线| 亚洲精品国产精品日韩| 日本高清不卡在线一区| 日本黄色录像韩国黄色录像| 亚洲精品成人福利在线| 日韩欧美二区中文字幕| 欧美中文字幕日韩精品| 日韩一区二区三区四区乱码视频| 年轻女房东2中文字幕| 人体偷拍一区二区三区| 午夜视频免费观看成人| 中文字幕一区久久综合| 亚洲专区中文字幕在线| 国内精品偷拍视频久久| 国产精品欧美日韩中文字幕| 黄片在线免费看日韩欧美| 五月婷日韩中文字幕四虎| 懂色一区二区三区四区| 日韩人妻免费视频一专区| 欧美一级黄片免费视频| 国产精品日本女优在线观看| 国产精品一区二区丝袜| 国产精品一区二区视频大全| 日韩中文无线码在线视频| 在线观看免费视频你懂的| 俄罗斯胖女人性生活视频| 日韩欧美在线看一卡一卡| 91欧美视频在线观看免费| 不卡一区二区在线视频| 亚洲成人免费天堂诱惑|