兩個(gè)人要走到一起,并且能長(zhǎng)久地相愛下去并不是一件容易的事情。俗話說“門當(dāng)戶對(duì)”、“天造地設(shè)”,戀愛是兩個(gè)人的事情,每個(gè)人的擇偶標(biāo)準(zhǔn)不同、自身?xiàng)l件不同、三觀也不同。那么,在一生中,我們是否能夠遇到屬于自己最合適的那個(gè)人呢? 單身狗注孤生定理:你永遠(yuǎn)遇不到合適的人。 在本推導(dǎo)中,我們將擇偶標(biāo)準(zhǔn)大致分為兩類:客觀自然標(biāo)準(zhǔn)、社會(huì)人文標(biāo)準(zhǔn)。 前者即每個(gè)人的出廠硬件設(shè)定,比如身高、體重、顏值等等,后者則是像財(cái)富值、職業(yè)、價(jià)值觀、興趣愛好等后天積累和養(yǎng)成的因素。為什么這樣劃分呢?主要是考慮到這兩類標(biāo)準(zhǔn)所服從的概率分布模型不同,這一點(diǎn)之后會(huì)有詳細(xì)的說明。 我們先討論客觀自然標(biāo)準(zhǔn)。 高斯分布(亦稱“正態(tài)分布”)是在自然界中廣泛存在的一個(gè)概率分布模型,許多自然現(xiàn)象都符合高斯分布,比如人類的身高、學(xué)生的學(xué)習(xí)成績(jī)、隨機(jī)誤差等等。 假設(shè)你只有一個(gè)滿足高斯分布的擇偶標(biāo)準(zhǔn)A(比如身高、體重等)。一般來說,人們對(duì)于這類自然標(biāo)準(zhǔn)的選擇會(huì)青睞于中上水平的,即不能低于平均水平太多,也不能太高。例如,身高不能低于170cm,但也不能太高,高于190cm的你可能也會(huì)猶豫。 服從高斯分布的擇偶標(biāo)準(zhǔn)A的概率密度函數(shù)如下: 其中,μ是擇偶標(biāo)準(zhǔn)A在人群中的均值,σ是標(biāo)準(zhǔn)差。 將高斯分布的概率密度積分,即可得到隨機(jī)變量X在某一范圍內(nèi)取值的概率,在概率密度圖像上可表現(xiàn)為其所圍的面積。 可見,高斯變量落在(μ-3σ,μ+3σ)范圍外的概率小于千分之三,這就是人們常用的3σ檢驗(yàn)原則。 如果你的擇偶要求(眼光)較高,意味著你對(duì)于擇偶條件A的接受范圍大概位于(μ+σ,μ+2σ)的區(qū)間(圖中陰影部分): 那么你遇到一個(gè)標(biāo)準(zhǔn)A滿足要求的人的概率約為13.6%左右。 當(dāng)然,大部分人的擇偶要求沒有那么苛刻。假設(shè)擇偶標(biāo)準(zhǔn)位于(μ-σ,μ+2σ)的區(qū)間(圖中陰影部分): 那么你遇到一個(gè)標(biāo)準(zhǔn)A滿足要求的人的概率約為81.85%左右。 乍一看,是不是感覺這個(gè)概率還蠻高的! 事實(shí)上,絕大多數(shù)人的擇偶要求不會(huì)這么低,因?yàn)?span>大部分的正常人都能滿足這個(gè)條件…… 這個(gè)擇偶標(biāo)準(zhǔn)區(qū)間已經(jīng)算是很低的門檻了,一般人的擇偶標(biāo)準(zhǔn)會(huì)比這個(gè)嚴(yán)苛很多。而且,最關(guān)鍵的是,這只是滿足其中一個(gè)擇偶標(biāo)準(zhǔn)的概率!你總不可能看到身高合適的就上吧~ 現(xiàn)在我們同時(shí)考慮兩個(gè)擇偶標(biāo)準(zhǔn)會(huì)如何呢?比如擇偶標(biāo)準(zhǔn)A(體重)、B(顏值)。 假設(shè)A和B都服從高斯分布,此時(shí)我們需要引入二元高斯分布模型。 其中,X~N(μ1,σ12),Y~N(μ2,σ22),ρ是X和Y的相關(guān)系數(shù)。 有的朋友可能會(huì)問,為啥從1個(gè)變量到2個(gè)變量就復(fù)雜了這么多呢?不能直接把兩個(gè)變量的概率直接相乘嗎? 答案是:大多數(shù)情況下,不能。 在概率統(tǒng)計(jì)中,概率能直接相乘的條件是變量之間互相獨(dú)立。 而類似于身高、體重這樣的兩個(gè)變量并不是獨(dú)立的,存在著某種相關(guān)性。所以不能簡(jiǎn)單地將它們的概率相乘。 由于不能直接相乘,我們可以根據(jù)概率密度函數(shù)的定義,對(duì)其求二重積分進(jìn)而算出概率,即: 其中f(x,y)是二元正態(tài)分布函數(shù)。 二重積分示意圖 回想在一元正態(tài)分布下有“3σ原則”,那么推廣到二元的情況呢? 是否在二元正態(tài)分布下,兩個(gè)變量同屬1σ的區(qū)間(x∈(μ1-σ1,μ1+σ1) & y∈(μ2-σ2,μ2+σ2))的概率就是0.6826×0.6826=0.4659呢? 答案是否定的,因?yàn)閮蓚€(gè)隨機(jī)變量不一定是獨(dú)立的,即二元正態(tài)分布受到參數(shù)ρ(相關(guān)系數(shù))的影響。 下面我們觀察不同的相關(guān)系數(shù)ρ對(duì)概率的影響。 由于該積分無法直接求出解析解,我們使用matlab求定積分?jǐn)?shù)值解: 得到曲線如下: 圖1 圖1中,橫坐標(biāo)是變量X和Y的相關(guān)系數(shù)ρ,縱坐標(biāo)是概率。2D-1σ(藍(lán)線)表示X和Y都落在各自的1σ區(qū)域,即x∈(μ1-σ1,μ1+σ1)且 y∈(μ2-σ2,μ2+σ2)的概率;1D-1σ(紫虛線)表示一元高斯變量的值落在1σ區(qū)間內(nèi)概率,即上文提到的0.6826。 其中,相關(guān)系數(shù)ρ越大,說明變量X和Y的線性相關(guān)性越強(qiáng),相關(guān)系數(shù)ρ=0說明變量X和Y不相關(guān)。 注意:隨機(jī)變量獨(dú)立和不相關(guān)是兩個(gè)概念,獨(dú)立一定不相關(guān),但不相關(guān)不一定獨(dú)立,不相關(guān)要弱于獨(dú)立。 但是可以證明,對(duì)于高斯分布來說,獨(dú)立就等價(jià)于不相關(guān)。所以,當(dāng)ρ=0時(shí),高斯分布變量X和Y獨(dú)立,于是有P(XY)=P(X)×P(Y)。 從圖1中也可以看出,當(dāng)ρ=0時(shí),以下結(jié)果成立: 這很好地應(yīng)證了上面所說的高斯分布由變量不相關(guān)可以推導(dǎo)出獨(dú)立的結(jié)論。 從圖1中可以看到,如果我們的擇偶標(biāo)準(zhǔn)A和B相關(guān)性較高,那么你遇到同時(shí)滿足要求的人的概率也就會(huì)大一些,但是最高也不會(huì)超過你遇到滿足你最嚴(yán)苛的條件的人概率。 也就是說,如果你遇到滿足擇偶條件A的人的概率是60%,遇到滿足擇偶條件B的人的概率是40%,那么你想要遇到同時(shí)滿足這兩個(gè)條件的人概率最大不會(huì)超過40%(可以算作某種意義上的“短板效應(yīng)”)。 而隨著擇偶標(biāo)準(zhǔn)A和B相關(guān)性的下降(比如A是身高,B是學(xué)習(xí)成績(jī)),你遇到那個(gè)ta的概率會(huì)隨之下降。這一點(diǎn)其實(shí)很顯然,與我們的直觀感受一致。 下面我們?cè)倏疾烊M實(shí)驗(yàn),看看有什么有趣的結(jié)果: (1)以嚴(yán)苛的條件同時(shí)限制擇偶標(biāo)準(zhǔn)A和B,即A和B都得落在各自的(μ+σ,μ+2σ)區(qū)間內(nèi)。 (2)以嚴(yán)苛的條件限制擇偶標(biāo)準(zhǔn)A,以寬松的條件限制擇偶標(biāo)準(zhǔn)B,即A得落在(μ+σ,μ+2σ)區(qū)間內(nèi),B也落在(μ-σ,μ+2σ)區(qū)間內(nèi)。 (3)以寬松的條件同時(shí)限制擇偶標(biāo)準(zhǔn)A和B,即A和B都落在各自的(μ-σ,μ+2σ)區(qū)間內(nèi)。 同樣,我們使用matlab求解。 實(shí)驗(yàn)結(jié)果如下圖: 圖2 表1 從圖2不難看出,當(dāng)我們將擇偶標(biāo)準(zhǔn)從1個(gè)增加到2個(gè)之后,無論你的擇偶條件是嚴(yán)苛還是寬松,你遇到合適的人的概率都大幅下降了。表1中列出了不同擇偶條件組合下遇到合適的人的最大概率和最小概率。 從最好情況的概率來看仿佛一切都還ok,但是,很遺憾地告訴大家,最好情況在這里并沒有什么卵用……因?yàn)樽詈们闆r是當(dāng)相關(guān)系數(shù)ρ接近1時(shí)得到的,這意味著我們選擇的兩個(gè)擇偶標(biāo)準(zhǔn)A和B有著很強(qiáng)的線性關(guān)系,比如學(xué)習(xí)成績(jī)和努力程度。既然這兩個(gè)擇偶標(biāo)準(zhǔn)已經(jīng)有很強(qiáng)的相關(guān)性了,那么我們?yōu)楹芜€要把他們分成兩個(gè)指標(biāo)呢? 事實(shí)上,在現(xiàn)實(shí)生活中,我們能夠選為擇偶標(biāo)準(zhǔn)的指標(biāo)之間的相關(guān)性都比較弱,也只有這樣才能夠多維度、全方位地評(píng)價(jià)一個(gè)人。你會(huì)把身高、勤奮度作為兩個(gè)不同的擇偶指標(biāo),但沒必要把科研能力和頂級(jí)期刊論文發(fā)表數(shù)這兩個(gè)相關(guān)性很強(qiáng)的指標(biāo)單列為兩個(gè)擇偶標(biāo)準(zhǔn)。所以,我們要關(guān)注的更多的是當(dāng)ρ比較小時(shí)的情況,也就是最差情況的概率。 這是想說明什么呢?在兩個(gè)擇偶標(biāo)準(zhǔn)下,你遇到合適的人的概率已經(jīng)大幅縮水了,尤其是如果你的眼光比較高的話,你現(xiàn)在遇到滿足要求的人的概率已經(jīng)不足2%了,哪怕你只對(duì)一個(gè)條件比較嚴(yán)苛而對(duì)另一個(gè)條件抱有寬宏的態(tài)度,你現(xiàn)在遇到合適的人的概率也只剩11%。 更可怕的是……現(xiàn)在還只是討論了兩個(gè)擇偶標(biāo)準(zhǔn)的情況。顯然,你挑選戀人不會(huì)只在乎兩個(gè)標(biāo)準(zhǔn)吧,你不可能對(duì)今后要結(jié)婚生子、托付終身的人只有兩個(gè)要求吧? 所以,接下來,我們將對(duì)自然客觀類的擇偶標(biāo)準(zhǔn)推廣到n維的情況…… 結(jié)果是什么我想你已經(jīng)可以預(yù)見了吧…… 結(jié)局會(huì)是多么的凄涼慘淡、不忍卒讀…… n元高斯分布的概率密度函數(shù)如下: 其中∑是協(xié)方差矩陣,μ是均值向量。 n元高斯分布的累計(jì)概率分布為: 由于高維無法用圖表示,我們示意性地畫一個(gè)二維情況下的概率分布圖像: 二元高斯分布累計(jì)概率分布函數(shù)圖像 更高維的情況下大家可以自行想象一下。 下面我們假設(shè)n維高斯變量之間兩兩相互獨(dú)立,以此來估算一個(gè)下界。 假設(shè)你有n個(gè)服從高斯分布的擇偶標(biāo)準(zhǔn),他們之間相互獨(dú)立。我們遵循上面的討論,分為嚴(yán)格和寬松兩種條件。我們畫出不同寬松組合下你遇到滿足要求的人的概率圖如下: 上圖橫坐標(biāo)m表示寬松組合中嚴(yán)苛的頻次,縱坐標(biāo)表示遇到滿足要求的人的概率。比如,當(dāng)n=5時(shí),表示你有5個(gè)不同的擇偶標(biāo)準(zhǔn),橫坐標(biāo)m=1對(duì)應(yīng)的點(diǎn),代表5個(gè)不同的擇偶標(biāo)準(zhǔn)中,你有1個(gè)標(biāo)準(zhǔn)是以嚴(yán)苛來要求,其余4個(gè)是寬松,也即是4寬1嚴(yán)的組合下,你遇到滿足要求的人的概率是0.061(6.1%)。 從曲線可以看出,隨著n的增大以及m的增大,概率衰減得特別快。 這告訴我們什么呢?想找到男朋友女朋友,就要少提要求、降低門檻,不然你遇到滿足條件的人完全就是一個(gè)小概率事件(一般概率低于5%的事件就算得上小概率事件了)。然而,怎么可能對(duì)另一半不提要求、放寬限制呢?寧缺毋濫!所以,這成功地說明一個(gè)道理:你幾乎不可能遇到合適的人?。。?/strong> 以上就是我們對(duì)自然客觀類擇偶標(biāo)準(zhǔn)的討論。 下面我們考慮社會(huì)人文類標(biāo)準(zhǔn)。這類標(biāo)準(zhǔn)有一個(gè)特點(diǎn),就是會(huì)受到人類社會(huì)活動(dòng)很強(qiáng)的影響。 除了高斯分布,還有一個(gè)常見的分布是冪律分布。實(shí)際上,在社會(huì)生活中,許多現(xiàn)象并不符合高斯分布,而是更貼近冪律分布,比如人類財(cái)富的分布、國(guó)家GDP分布、詞頻分布、社交網(wǎng)絡(luò)分布等等。著名的80/20定律(20%的人擁有80%的社會(huì)資源)即是出自冪律分布。 冪律分布的數(shù)學(xué)模型是冪函數(shù): 其中C,α是常數(shù)。 冪函數(shù)示例(C=1,α=3) 在概率統(tǒng)計(jì)中,概率密度函數(shù)f(x)滿足非負(fù)性和規(guī)范性,即函數(shù)值非負(fù)并且全域積分為1。 所以,在冪律分布中,就要求有C>0,α>0。除此之外,由微積分的知識(shí)不難得出,為了讓上述積分收斂,我們一般指定x有一個(gè)最小值(下界)xmin。于是,我們就引出了著名的Pareto Distribution,也即人們常說的長(zhǎng)尾分布。 由上式即可求出規(guī)范化常數(shù)C的值,進(jìn)而求出Pareto Distribution的概率密度函數(shù)為: 其中,要求α>1。 于是,Pareto Distribution的概率累計(jì)分布函數(shù)為: 其中,xmin和α是模型的參數(shù)。 xmin=1,α不同取值時(shí)的Pareto Distribution概率密度圖像 xmin=1,α不同取值時(shí)的Pareto Distribution概率分布圖像 Pareto Distribution有如下性質(zhì): (1)當(dāng)α>2時(shí)才有均值: (2)當(dāng)α>3時(shí)方差才收斂: 自然界中,冪律分布的參數(shù)α大多落在2~3之間。 為了近似擬合“80/20定律”,我們這里取α=3。 注意:“80/20定律”并不嚴(yán)格說明控制80%資源的關(guān)鍵部分就是20%,而是一個(gè)從圖像上得到的直觀籠統(tǒng)的概念。實(shí)際上,在當(dāng)前假設(shè)下,無法求解關(guān)鍵部分的確切占比(如果對(duì)冪律分布做截?cái)嗵幚?,?guī)定最大最小值,那么有可能設(shè)計(jì)出恰好的“80/20分布”)。 接下來,我們可以從以下兩個(gè)角度對(duì)其進(jìn)行觀察分析。 第一個(gè)角度將從較為直觀的“80/20定律”出發(fā),這個(gè)角度不存在嚴(yán)格的數(shù)學(xué)推導(dǎo)與證明。 假設(shè)你有一個(gè)擇偶條件A服從“80/20定律”,比如財(cái)富值。舉個(gè)具體的例子,若現(xiàn)在共有100個(gè)人,假設(shè)他們的財(cái)富分布表如下: 這意味著,你有80%的概率,遇到的人都屬于“長(zhǎng)尾部分”(沒錢的那部分)。反過來說,如果你的擇偶條件對(duì)財(cái)富值有較高的要求,那么你只有20%的概率接觸到率先組成總財(cái)富80%的那個(gè)富裕集團(tuán)的成員。 如果你放寬一些條件呢?遇到率先組成總財(cái)富90%的群體的成員的概率是多少呢?由于冪律分布極快的收縮性,這個(gè)概率也并不會(huì)很高,大約會(huì)在30%左右。也就是說,剩下70%的人總共的財(cái)富加起來才只占人類總財(cái)富的10%…… 這說明了什么呢?說明這個(gè)世界上,絕大部分的人都挺窮……(啊,終于找到了安慰自己的理由) 也就是說,直觀上,“80/20定律”告訴了我們這么一個(gè)道理:真正的有錢人是真正的少,但他們是真真正正的有錢!你想遇到真正的有錢人的概率是真正的低,因?yàn)槟闵磉叾际钦嬲嬲母F人?。ó?dāng)然,也包括我和你) 第二個(gè)角度我們將從概率密度函數(shù)的數(shù)學(xué)意義入手,詮釋冪律分布的準(zhǔn)確意義。 讓我們回顧一下這張圖。 在數(shù)學(xué)上,概率密度f(x)是指隨機(jī)變量X落在某一點(diǎn)處“單位寬度”內(nèi)的概率。概率密度函數(shù)在某個(gè)區(qū)域上的積分,就表示了隨機(jī)變量X的取值落在該區(qū)域之內(nèi)的概率。 于是,上圖在概率統(tǒng)計(jì)上的意義即是,對(duì)于服從xmin=1,α=3的長(zhǎng)尾分布的隨機(jī)變量X,X的取值落在[1,2.236]范圍之內(nèi)的概率是80%。 弄清楚這個(gè)之后,我們就可以將其和擇偶概率聯(lián)系起來了。 同前文所述的高斯分布一樣,這里的橫坐標(biāo)表示某一個(gè)擇偶標(biāo)準(zhǔn)的度量,比如在這里我們假設(shè)擇偶標(biāo)準(zhǔn)A是財(cái)富值,橫坐標(biāo)就表示財(cái)富等級(jí),等級(jí)越高說明財(cái)富值越大,最小值1是當(dāng)前系統(tǒng)內(nèi)的最小財(cái)富值等級(jí)。 我們先來算一下這個(gè)系統(tǒng)內(nèi)的財(cái)富值均值。根據(jù)前文的公式,有: 于是,均值μ=2。 假設(shè)你的擇偶條件是該系統(tǒng)內(nèi)財(cái)富值大于均值μ的人,那么概率為: 也就是說,你的要求僅僅是能夠達(dá)到平均水平就行,但是遇到滿足條件的人的概率也只有25%! 倘若你的要求稍微高一些呢?比如你想找到該系統(tǒng)內(nèi)該指標(biāo)大于兩倍均值μ的人,概率為: 天吶!概率已經(jīng)驟降為6.25%了?。?! (這個(gè)要求很高么?不高?。。?/span> 可見,對(duì)于社會(huì)人文類的擇偶標(biāo)準(zhǔn),哪怕你的要求看上去算是很寬松了,你遇到合適的人的概率也還是很低很低!這還只是一個(gè)擇偶標(biāo)準(zhǔn)的情況,現(xiàn)實(shí)中我們的擇偶標(biāo)準(zhǔn)肯定不止一個(gè)吧…… 下面,我們將自然客觀擇偶標(biāo)準(zhǔn)和社會(huì)人文擇偶標(biāo)準(zhǔn)結(jié)合起來。我們之前討論過變量之間不獨(dú)立的問題,但是鑒于計(jì)算的可行性以及針對(duì)該問題我們可以近似認(rèn)為擇偶標(biāo)準(zhǔn)之間相關(guān)性很低,這里我們假設(shè)變量?jī)蓛瑟?dú)立,以此來估算一個(gè)下界。 我們假設(shè)在兩類標(biāo)準(zhǔn)中各選兩個(gè)擇偶標(biāo)準(zhǔn),則共有9種不同的寬松組合。 雖然這個(gè)概率只是一個(gè)下界(最差情況),但是相信大家還是能從中感受到一股寒意……并且我們這里只討論了四個(gè)擇偶標(biāo)準(zhǔn),實(shí)際情況肯定還要比這個(gè)復(fù)雜多變,意味著真實(shí)概率可能比這個(gè)還要低…… 還有一個(gè)更關(guān)鍵的問題,就算你很幸運(yùn)地遇到了滿足你要求的人,但是你滿足對(duì)方的要求了嗎? 你喜歡別人,別人喜歡你嗎?你覺得對(duì)方是你的最佳選擇,對(duì)方或許都沒把你寫入備胎名單?。ㄟ@些問題需要大家每日三?。。?/span> 沒錯(cuò),這就是你找不到合適的人的原因——因?yàn)樵诟怕噬?,你已?jīng)涼了! 好了,一首涼涼先送給大家!
|
|