博弈論是一項關于競爭者之間決策的數學研究。它最早由數學家約翰-馮-諾伊曼和經濟學家奧斯卡-莫根斯坦在20世紀40年代提出。它之所以被稱為博弈論,是因為該理論試圖了解兩個或多個玩家(參與者)在特定情況下的策略。在博弈論中,兩個或更多參與者之間的互動通常以具有一套特定規(guī)則的游戲來定義。它涉及零和博弈,這意味著一個玩家贏得的收益對其他玩家來說是一種損失。心理學、進化生物學、戰(zhàn)爭、政治、經濟學、商業(yè)、計算機科學中的許多現(xiàn)象都可以被建模為博弈。因此,博弈論具有廣泛的應用。博弈論有4個主要要素。- 均衡:在博弈中,雙方玩家都做出了自己的策略而不能采取任何其他行動的點
非合作性非合作性博弈是每個玩家之間的競爭性博弈,其中會有一些贏家和一些輸家。非合作博弈理論中最有名的例子是 "囚徒困境"。有兩個罪犯,即小明和小華被警察抓住,被關在兩個不同的房間里被審問,因此他們不能互相交流。所有可能的結果是。- 如果小明和小華互相指控,他們各自在監(jiān)獄中服刑兩年。
- 如果小明指控小華,并且小華認罪,那么小明將被釋放,小華將服刑三年。
- 如果小華指控小明,并且小明認罪,那么小華將被釋放,小明將服刑三年。
在囚徒困境中,小明和小華各自選擇一種策略,即指控或坦白,總共有四種可能的情況,每一種情況都對應著一種結果。因此,我們可以說明每種策略組合的結果矩陣。這意味著小明和小華最好選擇指控對方。因為指控對方比他們一起認罪能獲得更大的“回報”,所有完全理性的自利的囚犯都會選擇指控對方,這意味著他們兩人唯一可能的結果就是指控對方。這個推理是基于一個兩難境地。- 如果小華認罪,小明就應該指控,因為獲得自由比服刑一年要好。
- 如果小華指控,小明也應該指控,因為服兩年刑期比服三年刑期要好。所以無論如何,小明都應該指控。同理,小華也應該指控。
因為無論對方的選擇如何,指控的結果總是比坦白的結果好,因此它是一種優(yōu)勢策略。博弈中唯一的納什均衡(Nash equilibrium)(一組策略,沒有參與者可以通過改變策略來提高自己的收益)是相互指控。進退兩難的是,雖然相互坦白比相互指責有更好的結果,但這并不是一個理性的結果,因為從自利的角度來看,選擇坦白并不理性。這不是一個合作性的游戲,因為所有的參與者都能從背后捅刀子中獲益。囚徒困境適用于許多現(xiàn)實世界的問題。當你與他人競爭時,最好選擇對你最有利的行動,不管其他人決定怎么做。合作性在合作博弈理論中,每個玩家都同意為同一個目標而合作。由于他們是以合作的方式一起工作,所以很常見的是把這個團體稱為聯(lián)盟。合作博弈中的問題是一個玩家對聯(lián)盟的貢獻有多大,一個玩家從聯(lián)盟中獲得多少利益。簡單地說,它試圖確定什么是公平的。如果一個非合作博弈有納什均衡,那么合作博弈就有夏普利值(Shapley value),它根據玩家對聯(lián)盟的貢獻值在玩家之間劃分收益和成本。它通過滿足以下公理而發(fā)揮作用:邊際貢獻。每個參與者的貢獻可以通過把他們從聯(lián)盟中移除來確定。假設聯(lián)盟的目標是生產盡可能多的飲料。當小明被剔除后,聯(lián)盟生產的飲料比小明在的那一天少了100件。因此,小明的邊際貢獻是100。可互換的參與者具有同等價值。如果2個玩家為聯(lián)盟提供了同樣的東西,他們貢獻量就應該相同。因此,他們應該得到同等的獎勵。如果2個人在餐館里點同樣的菜品,他們的賬單應該是一樣的。一個虛擬玩家的價值為零。如果聯(lián)盟中的一個玩家根本沒有貢獻,他們根本不應該得到獎勵。如果你和你的朋友一起去餐廳,但沒有點任何東西,那么你就不應該支付任何賬單,也根本不應該享用美食。在一個有多個部分的博弈中,成本和支付應該在這些部分之間進行分解。如果你在周一生產礦泉水,然后在周五生產紅酒,那么你在周五的收益應該比周一多。因此,聯(lián)盟應定期審查,以作出調整。如果滿足上述所有情況,在聯(lián)盟博弈中玩家i的沙普利值可以用以下公式計算。- N是玩家(參與者)的總數,總和擴展到N的所有子集S,不包括參與人i
為了簡化,想象一下你可以在一小時內單獨工作生產10杯飲料,而你的朋友可以在一小時內生產20杯飲料。然后,你們兩個人決定一起工作。分開任務,你負責包裝,而你的朋友負責其他方面。結果發(fā)現(xiàn),你們兩個人都能在一小時內生產40種飲料。假設,每杯飲料價值1元。那么你們如何分配收入呢?事實上,你可以在一小時內生產10杯飲料,然后從總數中減去它們,40-10=30。這就是如果你除去你的朋友會生產多少。因此,你朋友對你的邊際貢獻是30。事實上,你的朋友可以在一小時內做20杯飲料,并從總數中減去,40-20=20。這就是如果你的朋友把你剔除的情況。因此,你對你朋友的邊際貢獻是20。如果你能在一小時內做10杯飲料,你的邊際貢獻是20,根據夏普利值,你應該把這2個數字平均起來。因此,你的獎勵應該是(20+10)/2=15。而你的朋友在一小時內可以做20杯飲料,他的邊際貢獻是30。他的獎勵應該是(20+30)/2=25。因此,從40元中你應該得到15元,你的朋友得到25元。結論在個人競爭中,你應該聰明一點,做出對你最有利的決定,而在一群人一起工作以達到同一目標時,你應該公平一點。
|