二項分布、泊松分布和正態(tài)分布的區(qū)別及聯(lián)系?被瀏覽 8,9732 個回答之前你已經(jīng)了解概率的基礎(chǔ)知識(如果還不知道概率能干啥,在生活中有哪些應(yīng)用的例子,可以看我之前的《投資賺錢與概率》)。 今天我們來聊聊幾種特殊的概率分布。這個知識目前來看,還沒有人令我滿意的答案,因為其他人多數(shù)是在舉數(shù)學(xué)推導(dǎo)公式。我這個人是最討厭數(shù)學(xué)公式的,但是這并不妨礙我用統(tǒng)計概率思維做很多事情。相比熟悉公式,我更想知道學(xué)的這個知識能用到什么地方。可惜,還沒有人講清楚。今天,就讓我來當(dāng)回雷鋒吧。 首先,你想到的問題肯定是: 1. 什么是概率分布? 2. 概率分布能當(dāng)飯吃嗎?學(xué)了對我有啥用? 好了,我們先看下:什么是概率分布? 1. 什么是概率分布? 要明白概率分布,你需要知道先兩個東東: 1)數(shù)據(jù)有哪些類型 2)什么是分布 數(shù)據(jù)類型(統(tǒng)計學(xué)里也叫隨機變量)有兩種。第1種是離散數(shù)據(jù)。 離散數(shù)據(jù)根據(jù)名稱很好理解,就是數(shù)據(jù)的取值是不連續(xù)的。例如擲硬幣就是一個典型的離散數(shù)據(jù),因為拋硬幣的就2種數(shù)值(也就是2種結(jié)果,要么是正面,要么是反面)。 你可以把離散數(shù)據(jù)想象成一塊一塊墊腳石,你可以從一個數(shù)值調(diào)到另一個數(shù)值,同時每個數(shù)值之間都有明確的間隔。 第2種是連續(xù)數(shù)據(jù)。連續(xù)數(shù)據(jù)正好相反,它能取任意的數(shù)值。例如時間就是一個典型的連續(xù)數(shù)據(jù)1.25分鐘、1.251分鐘,1.2512分鐘,它能無限分割。連續(xù)數(shù)據(jù)就像一條平滑的、連綿不斷的道路,你可以沿著這條道路一直走下去。 什么是分布呢? 數(shù)據(jù)在統(tǒng)計圖中的形狀,叫做它的分布。 其實我們生活中也會聊到各種分布。比如下面不同季節(jié)男人的目光分布.。 各位老鐵,來一波美女,看看你的目光停在哪個分布的地方。 美女也看了,現(xiàn)在該專注學(xué)習(xí)了吧?,F(xiàn)在,我們已經(jīng)知道了兩件事情: 1)數(shù)據(jù)類型(也叫隨機變量)有2種:離散數(shù)據(jù)類型(例如拋硬幣的結(jié)果),連續(xù)數(shù)據(jù)類型(例如時間) 2)分布:數(shù)據(jù)在統(tǒng)計圖中的形狀 現(xiàn)在我們來看看什么是概率。概率分布就是將上面兩個東東(數(shù)據(jù)類型+分布)組合起來的一種表現(xiàn)手段: 概率分布就是在統(tǒng)計圖中表示概率,橫軸是數(shù)據(jù)的值,縱軸是橫軸上對應(yīng)數(shù)據(jù)值的概率。 很顯然的,根據(jù)數(shù)據(jù)類型的不同,概率分布分為兩種:離散概率分布,連續(xù)概率分布。 那么,問題就來了。為什么你要關(guān)心數(shù)據(jù)類型呢? 因為數(shù)據(jù)類型會影響求概率的方法。 對于離散概率分布,我們關(guān)心的是取得一個特定數(shù)值的概率。例如拋硬幣正面向上的概率為:p(x=正面)=1/2 而對于連續(xù)概率分布來說,我們無法給出每一個數(shù)值的概率,因為我們不可能列舉每一個精確數(shù)值。 例如,你在咖啡館約妹子出來,你提前到了。為了給妹子留下好印象,你估計妹子會在5分鐘之內(nèi)出現(xiàn),有可能是在4分鐘10秒以后出現(xiàn),或者在4分鐘10.5秒以后出現(xiàn),你不可能數(shù)清楚所有的可能時間,你更關(guān)心的是在妹子出現(xiàn)前的1-5分鐘內(nèi)(范圍),你把發(fā)型重新整理下(雖然你因為加班頭發(fā) 已經(jīng)禿頂了,但是發(fā)型不能亂),給妹子留個好印象。所以,對于像時間這樣的連續(xù)型數(shù)據(jù),你更關(guān)心的是一個特定范圍的概率是多少。 2. 概率分布能當(dāng)飯吃嗎?學(xué)了對我有啥用? 當(dāng)統(tǒng)計學(xué)家們開始研究概率分布時,他們看到,有幾種形狀反復(fù)出現(xiàn),于是就研究他們的規(guī)律,根據(jù)這些規(guī)律來解決特定條件下的問題。 想起,當(dāng)年為了備戰(zhàn)高考,我是準(zhǔn)備了一個自己的“萬能模板”,任何作文題目過來,我都可以套用該模板,快速解決作文這個難題。當(dāng)你,我高考的作文分?jǐn)?shù)還是不錯的。(我聰明吧) 同樣的,記住概率里這些特殊分布的好處就是: 下次遇到類似的問題,你就可以直接套用“模板”(這些特殊分布的規(guī)律)來解決問題了。 酷不酷?爽不爽? 接下里,我們一起來聊聊常見的4種概率分布。 1)3種離散概率分布 二項分布 泊松分布 幾何何分布 2)1種連續(xù)概率分布 正態(tài)分布 在開始介紹之前,你先回顧下這兩個知識: 期望:概率的平均值 標(biāo)準(zhǔn)差:衡量數(shù)據(jù)的波動大小。 第1種:二項分布 我們從下面3個問題開聊: 1. 二項分布有啥用? 2. 如何判斷是不是二項分布? 3. 二項分布如何計算概率? 1. 二項分布有啥用呢? 當(dāng)你遇到一個事情,如果該事情發(fā)生次數(shù)固定,而你感興趣的是成功的次數(shù),那么就可以用二項分布的公式快速計算出概率來。 例如你按我之前的《投資賺錢與概率》買了這5家公司的股票(谷歌,F(xiàn)acebook,蘋果,阿里巴巴,騰訊),為了保底和計算投入進去多少錢,你想知道只要其中3個股票幫你賺到錢(成功的次數(shù))的概率多大,那么這時候就可以用二項分布計算出來。 牛掰吧? 2. 如何判斷是不是二項分布? 首先,為啥叫二項,不叫三項,或者二愣子呢?故明思義,二項代表事件有2種可能的結(jié)果,把一種稱為成功,另外一種稱為失敗。 生活中有很多這樣2種結(jié)果的二項情況,例如你表白是二項的,一種成功(恭喜你表白成功,可以戀愛了,興奮吧?),一種是失?。ū痪芙^了,傷不傷心?)。你向老板提出加薪的要求,結(jié)果也有兩種(二項)。一種是成功(加薪成功,老板我愛你),一種是失?。榈埃唤o漲薪老子不干了,像是這種有統(tǒng)計概率思維的人,是很稀缺的,明天就投簡歷出去) 那么,什么是二項分布呢?只要符合下面3個特點就可以判斷某事件是二項分布了: 1)做某件事的次數(shù)(也叫試驗次數(shù))是固定的,用n表示。 (例如拋硬幣3次,投資5支股票), 2)每一次事件都有兩個可能的結(jié)果(成功,或者失?。?/span> (例如每一次拋硬幣有2個結(jié)果:正面表示成功,反面表示失敗。 每一次投資美股有2個結(jié)果:投資成功,投資失敗)。 3)每一次成功的概率都是相等的,成功的概率用p表示 (例如每一次拋硬幣正面朝上的概率都是1/2。 你投資了5家公司的股票,假設(shè)每一家投資盈利成功的概率都相同) 4)你感興趣的是成功x次的概率是多少。那么就可以用二項分布的公式快速計算出來了。 (你已經(jīng)知道了我前面講的5家美股的賺錢概率最大,所以你買了這5家公司的股票,假設(shè)投資的這5家公司成功的概率都相同,那么你關(guān)心其中只要有3個投資成功,你就可以賺翻了,所以想知道成功3次的概率) 根據(jù)這4個特點,我們就知道拋硬幣是一個典型的二項分布,還有你投資的這5支股票也是一個典型的二項分布(在假設(shè)每家公司投資成功的前提下)。 3. 二項分布如何計算概率? 怎么計算符合二項分布事件的概率呢?也就是你想知道下面的問題: 你拋硬幣3次,2次正面朝上的概率是多少? 你買了這5家公司的股票,3支股票賺錢的概率是多大? 上面我們已經(jīng)知道了二項分布的4個特點,并知道每個特點的表示方法: 1)做某件事次數(shù)是固定的,用n表示 這時候,二項分布的公式就可以發(fā)揮威力了: 這里你也別害怕數(shù)學(xué)公式,每一項的含義我前面已經(jīng)講的很清楚了。這個公式就是計算做某件事情n次,成功x次的概率的。很多數(shù)據(jù)分析工具(Excel,Python,R)都提供工具讓你帶入你研究問題的數(shù)值,就能得到結(jié)果。 例如,拋硬幣5次(n),恰巧有3次正面朝上(x=3,拋硬幣正面朝上概率p=1/2),可以用上面的公式計算出出概率為31.25%(用Excel的BINOM.DIST函數(shù),Python,R都可以快速計算) 二項分布經(jīng)常要計算的概率還有這樣一種情況: 拋硬幣5次,硬幣至少有3次正面朝上(即x>=3)的概率是多少? 你能直接想到的簡單方法是:將恰巧有3次,恰巧有4次,恰巧有5次的概率相加,結(jié)果便是至少3次,為50%。 但是如果次數(shù)很多,這樣的辦法簡直是給自己挖了一個大大的坑。 我們用逆向思維換個思路,至少3次正面朝上的反向思考是什么呢? 反向思路就是最多2次正面朝上。只要我們先計算出最多2次正面朝上的概率p(x<=2),那么至少3次正面朝上的概率就是1-p(x<=2)。 這樣用逆向思維,就把一個復(fù)雜的問題,化解為簡單的問題。因為求做多2次朝上的概率比較簡單: p(x<=2)=p(0)+p(1)+p(2) 最好提下二項分布的: 期望E(x)=np (表示某事情發(fā)生n次,預(yù)期成功多少次。) 知道這個期望有啥用呢? 做任何事情之前,知道預(yù)期結(jié)果肯定對你后面的決策有幫助。比如你拋硬幣5次,每次概率是1/2,那么期望E(x)=5*1/2=2.5次,也就是有大約3次你可以拋出正面。 在比如你之前投資的那5支股票,假設(shè)每支股票幫你賺到錢的概率是80%,那么期望E(x)=5*80%=4,也就是預(yù)期會有4只股票投資成功幫你賺到錢。 第2種:幾何分布 其實我一直把幾何分布,叫做二項分布的孿生兄弟,因為他兩太像了。只有1點不同,就像海爾兄弟只有內(nèi)褲不同一樣。 我們還是從下面這個套路聊起來一起找出這個不同的“勁爆點”: 1 . 幾何分布有啥用? 2. 如何判斷是不是幾何分布? 3. 幾何分布如何計算概率? 1.幾何分布有啥用? 如果你需要知道嘗試多次能取得第一次成功的概率,則需要幾何分布。 2. 如何判斷是不是幾何分布? 只要符合下面4個特點就可以判別你做的事情是就是幾何分布了: 1)做某事件次數(shù)(也叫試驗次數(shù))是固定的,用n表示 你表白你的暗戀對象,你希望知道要表白3次,心儀對象答應(yīng)和你手牽手的概率多大。) 正如你上面看到的,幾何分布和二項分布只有第4點,也就是解決問題目的不同。這個點夠不夠勁爆?(嘻嘻) 3. 幾何分布如何計算概率? 用下面公式就可以了: p為成功概率,即為了在第x次嘗試取得第1次成功,首先你要失?。▁-1)次。 假如在表白之前,你計算出即使你嘗試表白3次,在最后1次成功的概率還是小于50%,還沒有拋硬幣的概率高。那你就要考慮換個追求對象。或者首先提升下自己,提高自己每一次表白的概率,比如別讓自己的鼻毛長出來。我之前讀書的一個師兄,每天鼻毛長出來,看的我都惡心,何況其他人呢。 幾何分布的期望是E(x)=1/p。代表什么意思呢? 假如你每次表白的成功概率是60%,同時你也符合幾何分布的特點,所以期望E(x)=1/p=1/0.6=1.67 所以你可以期望自己表白1.67次(約等于2次)會成功。這樣的期望讓你信息倍增,起碼你不需要努力上100次才能成功,2次還是能做到的,有必要嘗試下。 幾何分布的標(biāo)準(zhǔn)差: 第3種泊松分布 還是同樣的味道,還是同樣的討論,我們一起通過下面3個問題了解這個泊松分布。 1. 泊松分布有啥用? 2. 如何判斷是不是泊松分布? 3. 泊松分布如何計算概率? 1. 泊松分布有啥用? 如果你想知道某個時間范圍內(nèi),發(fā)生某件事情x次的概率是多大。這時候就可以用泊松分布輕松搞定。比如一天內(nèi)中獎的次數(shù),一個月內(nèi)某機器損壞的次數(shù)等。 知道這些事情的概率有啥用呢? 當(dāng)然是根據(jù)概率的大小來做出決策了。比如你搞了個抽獎活動,最后算出來一天內(nèi)中獎10次的概率都超過了90%,然后你順便算了下期望,再和你的活動成本比一下,發(fā)現(xiàn)要賠不少錢。那這個活動就別搞了。 泊松分布的形狀會隨著平均值的不同而有所變化,無論是一周內(nèi)多少人能贏得彩票,還是每分鐘有多少人會打電話到呼叫中心,泊松分布都可以告訴我們它們的概率。 2. 什么是泊松分布? 符合以下3個特點就是泊松分布: 1)事件是獨立事件 用x代表事情發(fā)的次數(shù)(例如中獎10個人中獎),u代表給定時間范圍內(nèi)事情發(fā)生的平均次數(shù)(例如你搞的抽獎活動1天平均中獎人數(shù)是5人),概率計算公式為: 可別被上面的公式嚇到,數(shù)學(xué)公式就是紙老虎,現(xiàn)在有很多工具(Excel,Python,R)都可以直接計算出來這個概率,所以也別記住這個公式,用的時候知道泊松分布適合啥時候用就妥了。 例如你搞了個促銷抽獎活動,只知道1天內(nèi)中獎的平均個數(shù)為5個,你想知道1天內(nèi)恰巧中獎次數(shù)為7的概率是多少? 此時x=7,u=5(區(qū)間內(nèi)發(fā)生的平均次數(shù)),代入公式求出概率為10.44%。Excel中的函數(shù)為POISSON.DIST就可以立馬算出來。 泊松概率還有一個重要性質(zhì),它的數(shù)學(xué)期望和方差相等,都等于u 1. 什么是概率分布? 概率分布就是在統(tǒng)計圖中表示概率,橫軸是數(shù)據(jù)的值,縱軸是橫軸上對應(yīng)數(shù)據(jù)值的概率。 2. 概率分布能當(dāng)飯吃嗎?學(xué)了對我有啥用? 下次遇到類似的問題,你就可以直接套用“模板”(這些特殊分布的規(guī)律)來求得概率了。 3.特殊的概率分布有哪些? 3種離散概率分布,分別代表了解決3種問題的“萬能模板” 二項分布(Binomial distribution) 符合以下4個特點的就是二項分布 1)做某件事的次數(shù)是固定的。 2)每一次事件都有兩個可能的結(jié)果(成功,或者失?。?/p> 3)每一次成功的概率都是相等的 4)你感興趣的是成功x次的概率是多少 案例: 拋5次硬幣,有2次正面朝上的概率是多少 你買了之前我介紹你的5家公司的股票,假設(shè)投資的這5家公司成功的概率都相同,那么你關(guān)心其中只要有3個投資成功,你就可以賺翻了,所以想知道成功3次的概率多大。 幾何何分布(Geometric distribution) 只要符合下面4個特點就可以判別你做的事情是就是幾何分布了: 1)做某事件次數(shù)(也叫試驗次數(shù))是固定 2)每一次事件都有兩個可能的結(jié)果 3)每一次“成功”的概率都是相等的,成功的概率用p表示 4)你感興趣的是,進行x次嘗試這個事情,取得第1次成功的概率是多大。 案例:例如你在玩拋硬幣的游戲,想知道拋5次硬幣,只有第5次(就是滴1次成功)正面朝上的概率是多大。 表白3次,第3次成功的概率多大 泊松分布(poisson distribution) 符合以下3個特點就是泊松分布: 1)事件是獨立事件 2)在任意相同的時間范圍內(nèi),事件發(fā)的概率相同 3)你想知道某個時間范圍內(nèi),發(fā)生某件事情x次的概率是多大 案例:例如你搞了個促銷抽獎活動,想知道一天內(nèi)10人中獎的概率 例如你是公司質(zhì)檢管理員,想知道一個月內(nèi)某機器損壞的10次(假如超過10次一句認為不合格)的概率是多少。 1種連續(xù)概率分布:正態(tài)分布(Normal distribution) 這個分布在生活中太有用了,給我一種相見恨晚的“勁爆感”,留著下次聊 如何連接我? 微信公眾號:猴子聊人物 雖然...是作業(yè)....吧?但是我最近正好在復(fù)習(xí),就隨意答答...不夠全面的話求輕噴 二項分布和泊松分布都是離散變量的分布,所以二項分布可以在n很大,p接近0時直接轉(zhuǎn)化為泊松分布。 二項分布和泊松分布都可以轉(zhuǎn)換成正態(tài)分布,但是由于正態(tài)分布是連續(xù)變量,所以需要加一個Continuity correction。之后二項分布轉(zhuǎn)換時要n很大,p接近于5的條件。 泊松不需要任何條件。 |
|