一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

從囚徒困境到博弈論

 野冰 2008-01-23

 

從囚徒困境到博弈論

 
                                        (2003年9月10日)

今天我要講的是博弈論(也叫對策論),這本來是一門很深的學問,在學校里至少要講一個學期,甚至還有專門的博士課程。但在這里我不可能講這么多,我只能做一個簡單的概括,把它的基本概念、研究方法和一般規(guī)律給大家介紹出來。

從囚犯難題說起

我們先從一個常見的案例說起。這個故事是這樣的:

有一個富人在家中被謀殺,他的財產(chǎn)被盜。警方在偵訊過程中抓到兩名嫌疑犯:甲和乙,并在他們家中搜出了被盜的財物。但甲、乙都否認殺人,聲稱他們進入被害 人家中時那個人已經(jīng)死去。所以警方肯定他們至少犯下了盜竊罪,但對他們是否殺死了被害人并沒有把握。于是警方在把他們隔離的情況下分別對他們表示:因為偷 東西已經(jīng)有確鑿證據(jù),這將被判刑2年;如果拒不承認殺人而被另一方檢舉,將被判刑20年,而檢舉的一方可以受獎無罪釋放;如果雙方都坦白殺人,將各被判刑 10年。這樣,甲乙可能面臨的判決如下:



通過分析可以看出,最后的結果是甲乙都會承認殺人。因為對本人來說,不管對方承認不承認,自己承認總比不承認好。如果對方不承認,自己承認相比不承認等于 從判刑2年改為無罪釋放;如果對方承認,自己承認相比不承認相當于從判刑20年減到了10年。這樣,對甲乙雙方來說,最佳的選擇都是承認殺人。

這個結果與他們是否真的殺了人無關,即使他們沒有殺人,也會承認殺人。由于特定的選擇條件,本來對雙方最有利的結局(都不承認殺人,各被判刑2年)不會出 現(xiàn),出現(xiàn)的是對雙方都不利的結果,這就是所謂的“囚犯困境”。我們想想看,“文革”時期坦白從寬、抗拒從嚴的政策使一大批人承認了自己從沒有犯過的“罪 行”,原因就在于此。

“囚徒困境”具有非常深刻的含義,它說明了為什么短視地追求自己利益將導致對大家都不利的結局?,F(xiàn)實中類似的例子還很多,比如為了圖一時的方便,大家都不 按交通規(guī)則行事,結果導致交通癱瘓;再比如前些年很多單位拿國家的錢爭相發(fā)獎金,結果導致了全社會的通貨膨脹。不同的是,在囚徒困境模型里只涉及兩個人, 如果這種情況重復出現(xiàn),兩個人很容易從失敗中吸取教訓,從選擇承認殺人改為不承認,這樣,處境就可以改善。而生活中很多類似囚徒困境的情況涉及到成千上萬 的單位或個人,要想讓他們一致地改進策略就非常困難。

在囚徒困境中,雙方都承認殺人是一個穩(wěn)定的結果,因為任何一方一旦單獨離開這個選擇,只會使自己的處境變得更壞。在多次重復的情況下,雙方可能通過吸取教 訓改變策略(都不承認罪行),使雙方都能受益。然而這又是一個比較脆弱的均衡,因為任何一方一旦突然改變策略,承認罪行,又可以立刻得利。但這種利益也不 會長久,到了下一次,對方必然也承認罪行,從而回到最初對雙方都不利的狀況。所以,除非雙方都能著眼于長遠利益,并克服僥幸的心理,他們才可能走出困境。

博弈論的基本概念和分析方法

“囚 徒困境”其實是博弈論里一個特定的例子。博弈論又叫對策論,它研究兩人或多人對局時,各方如何決定自己的策略,以求得最佳結果。在博弈中各方都有幾種可供 選擇的著法,各方雖然知道每種對策所導致的后果,但并不知道對方將選擇何種著法。它是對利益對立條件下人的選擇規(guī)律性的客觀研究,它不偏袒任何一方,它既 要考慮如何進攻,又要考慮如何防御。

博奕論中的對局(game),定義為有一定人數(shù)參加(不是變換著的)、每人有一定數(shù)目的策略(strategy)。各方的策略給定后,稱為一個局 (play)。對所有發(fā)生的局都有一個支付數(shù)量(payoff),就稱為對策。下面我們再舉一個例子來說明博弈論的分析方法。

設甲、乙二人參加一種游戲,甲有兩種選擇:A1或A2;乙也有兩種選擇:B1或B2。游戲規(guī)則規(guī)定:如果甲選擇 A1,乙選擇B1,則乙付給甲1元;如果甲選擇A1,乙選擇B2,甲付給乙1元;如果甲選擇A2,乙選擇B1,乙付給甲2元;如果甲選擇A2,乙選擇 B2,甲付給乙2元。我們可以把游戲規(guī)則用一個方陣來表示:



這個方陣我們稱為甲的支付矩陣,矩陣中的正數(shù)表示甲的所得、乙的支付,而負數(shù)表示甲的支付、乙的所得。類似地,可以想象,乙也有一個支付矩陣,其中的數(shù)字正好跟甲的支付矩陣反號。這樣,我們看甲乙二人會如何選擇。

對乙來說,最有利的選擇是B2,這樣他肯定贏錢,至少能得到1元。如果選B1,他不僅不可能贏錢,反而必須付錢。

對甲來說,最有利的結果是A2B1,但他知道,乙不可能選B1,所以他只能選A1,這樣能把損失降到最低。

所以,最后的結果是A1B2,甲付給乙1元。對這個結果,雙方都沒有改進的余地,如果改變策略只能使自己的處境變得更糟,因而都不愿意改變策略,我們稱之 為納什均衡。在例中,對任何一個局,一方的收入等于另一方的付出,參與各方損益之和為零,稱為零和對局。容易看出,零和對局的特點一方的支付矩陣為另一方 支付矩陣的反號。

我們知道,經(jīng)濟活動中的商品交換不是零和對局。參與交換的人都能從中得益,所以他們才有參與的積極性。股票市場也不是零和對局。一個正常的股票市場,從總量上看,投資者賺的錢一定大于賠的錢,這是因為股票市場能促進資源優(yōu)化配置,為社會創(chuàng)造了財富。

前面支付矩陣得到的結果-1(A1B2)還有一個特點,它是所在行中的最小值,又是所在列中的最大值,我們稱之為鞍點。當支付矩陣有鞍點時,雙方將穩(wěn)定在這個點上,不再移動。此策略稱為博奕對局的穩(wěn)定解,簡稱解。

較復雜的博弈方式:混合策略

對于沒有鞍點的對局,雙方將采取碰運氣的方式混合使用各種策略。下面舉一個例子:

在這個矩陣中,找不一個點,在所在行中為最小,同時在所在列中為最大,所以它沒有鞍點。這個對局沒有一個穩(wěn)定的解。

設想一下,如果甲選擇A1,乙將選擇B1;如果乙選擇B1,甲又會變?yōu)锳2;如果甲變?yōu)锳2,乙又會跑到B2;如果乙到了B2,甲又會選擇A1……如此往 復,永遠找不到一個穩(wěn)定的解。對這樣的對局,雙方無法推測對方的策略是什么,因此只能碰運氣,混合使用各種策略。

值得注意的是,混合策略也有均衡解,即按概率分配每種策略,使得結局為最優(yōu)。這種情況可以引用一個案例來說明(本例為講座后收集補充)。我們來看一個犯罪者與警察的支付矩陣(假定犯罪者在警察休息時一定作案成功,在警察巡邏時作案一定會被抓?。?br>


這個矩陣的數(shù)字含義表示:警察巡邏,犯罪者不作案,雙方都沒有收益也沒有損失;警察巡邏,犯罪者作案,警察因抓到罪犯受到表彰,得到效用2單位,罪犯被判 刑喪失效用2單位;警察休息,犯罪者不作案,警察休息的很愉快得到效用2單位,犯罪者沒有收益也沒有損失;警察休息,犯罪者作案,警察因失職被處分而喪失 效用1單位,罪犯犯罪成功獲得效用1單位。這個博弈是沒有納什均衡的。

但是,如果警察知道犯罪者以p的概率選擇作案(不作案概率就為1-p),他該怎樣采取自己的行動?對警察而言,巡邏的預期效用為0×(1-p)+2p= 2p,休息的預期效用為2×(1-p)-1×p=2-3p。顯然,當2p>2-3p即p>0.4的時候,警察最好選擇巡邏;反之2p< 2-3p即p<0.4的時候,警察寧愿選擇休息。假設警察應以q的概率巡邏(休息的概率就為1-q),那么犯罪者最好的行動是什么?他作案的預期效 用是-2×q+1×(1-q)=1-3q,不作案的預期效用為0×q+0×(1-q)=0。顯然,當1-3q>0即q<0.33時,他的理性 選擇是作案,反之不作案。在這個博弈中,警察以0.33的概率巡邏0.67的概率休息,犯罪者以0.4的概率作案0.6的概率不作案構成一個混合納什均 衡。

博弈均衡的一般規(guī)律

為了總結求解零和對局的一般規(guī)律,我們再來看一個更復雜的例子。以下為甲的支付矩陣(乙的支付矩陣與此反號):

在對局中,甲有4種選擇,乙有5種選擇,現(xiàn)在來看二人如何選擇自己的策略。

甲作選擇時,會這么考慮:如果自己選A1,對方為了最大限度降低損失,必然選B5。同理,如果自己選A2,對方必然選B3;如果自己選A3,對方必然選 B1;如果自己選A4,對方必然選B5。比較四個可能出現(xiàn)的結果(表中斜體字):0、4、2、1,對甲最有利的是4,所以甲會選擇A2。

乙作選擇時,將這么考慮:如果自己選B1,對方為了最大限度受益,必然選A1。同理,如果自己選B2,對方必然選A4;如果自己選B3,對方必然選A2; 如果自己選B4,對方必然選A1;如果自己選B5,對方必然選A3。比較五個可能出現(xiàn)的結果(表中粗體字):9、6、4、8、8,對乙最有利的是4,所以 乙會選擇B3。

最后的結果是A2B3——乙向甲支付4,這是一個穩(wěn)定解(也是納什均衡),無論甲或乙都不會離開這個策略,因為離開將對自己不利。支付值4有一個特點,它 是各行的最小值中最大者,同時又是各列中最大值中的最小者,這就是鞍點。由此可以得出求解二人零和對局的一般方法:尋找支付矩陣各行中最小值中的最大者 (Maximin),同時尋找各列中最大值中的最小者(Minimax),如果兩者重合,重合點就是對局的鞍點,此時我們稱之為純策略的均衡解。

根據(jù)支付矩陣橫行的Maximin=豎列的Minimax求解零和對局的規(guī)律,我們再來回顧前面第一個對局中的求解過程。

在例中,甲選擇的每一個策略中都有一個損失最大的。他會比較所有策略中損失最大的結果中選損失最小的。其他策略可能有得益,但是也可能損失更大。如果對方 是聰明的,就不會制造空子。所以甲將在橫行中選擇策略A1(如果選擇策略A2他可能損失2,現(xiàn)在頂多損失1),這是選擇最小值中的最大者,即 Maximin。

乙選擇策略的原則也類似,他將找出同一支付矩陣各列中的最小者,然后比較這些最小值,找出最大的,即Minimax(也是對他自己的支付矩陣中的 Minimax)如果此結果與甲所選的結果重合,則該對局有解。穩(wěn)定解所對應的支付值為對局的值。在上例中即為-1(A1B2)。

博弈矩陣中Minimax=Maximin代表最優(yōu)均衡解的概念有著深刻而普遍的經(jīng)濟學含義。市場均衡中需求和供給的交點即意味著Minimax of demand set(需求方最大值中的最小者)=Maximin of supply set(供給方最小值中的最大者)。我們可以通過供求曲線的相交來說明這個道理。如圖:

D 為某商品的需求線,它代表商品的價格越低,愿意購買的人就越多。例如,當價格為16時,購買者為4;價格為13時,購買者為8;價格為10時,購買者為 11……在這里,可以把需求線看作一個連續(xù)變動的過程,當價格一點一點降低時,購買者在一點一點增加。需求線上的每一個點,既代表一個價格,又代表一個消 費者的購買量,該價格是該消費者對該商品的最高出價,一旦售價高于此價格,消費者將放棄購買。所以,需求線代表著一組最高出價的集合,此集合中的元素從高 到低排列,就構成了向右下傾斜的需求線。需求線上的每一個點表示最高出價(該點左邊的點的集合)集合中的最低價,也就是Minimax.

再看供給線S,它代表商品的價格越高,愿意出售的人就越多。例如,當價格為5時,出售者為6;價格為8時,出售者為9,當價格為10時,出售者為11…… 在這里,同樣可以把供給線看作一個連續(xù)變動的過程,它意味著當價格一點點上升時,出售者會一點點增加。供給線上每一個點都代表一個出售者的最低售價,如果 價格低于這個水平,出售者將放棄出售。所以,供給線代表一組最低售價的集合,此集合中的元素從低到高排列,就構成了向右上爬升的供給線。供給線上的每一個 點表示最低要價(該點左邊的點的集合)集合中的最高價,也就是Maximin.

通過市場交易,最后需求線和供給線的交點將形成均衡點,此時有11(個)人愿意以10(元)的價格購買此商品,同時又有11(個)人愿意以10(元)的價 格出售此商品,市場將完全出清。均衡價格10既是每個購買者最高出價中的最低價,又是每個出售者最低要價中的最高價,這就是我們前面所說的Minimax =Maximin。此時,市場處于穩(wěn)定狀態(tài),且消費者剩余和生產(chǎn)者剩余達到最大,為最優(yōu)均衡解。

博弈論和信息經(jīng)濟學的簡單應用

下面來談博弈論和信息經(jīng)濟學的一些簡單案例。

有一個居民區(qū),由于沒有安裝街燈,因此帶來了很多不便。于是管理部門準備通過集資來解決這個問題。但在管理者向居民們收費的時候,卻出現(xiàn)了問題:因為各個 家庭的收入不同,具體情況也不一樣:有的上夜班,有的不上夜班,有的家庭老人婦女多,有的都是青壯少年……這樣,他們對街燈的需求不相同,管理者也就無法 向他們收取統(tǒng)一的費用。

我們可以想象,其實每個家庭對街燈給自己帶來的好處都有一個評價。據(jù)此,管理者可以讓他們自愿進行出資報價,如果報價之和大于修建街燈的費用,則街燈可以 設置,余款按比例退回出資本人,這樣最為公平合理。但是問題在于,由于有搭便車的思想,各個家庭在報價的時候報出的數(shù)字往往少于其真實評價。例如,我本來 覺得設置路燈對我的好處能值100元,但我只報60元,我希望自己少出點錢,別人多出錢,而我一樣能享受到街燈的好處。這個想法是比較“聰明”,但如果人 人都跟我一樣想,街燈就可能因為經(jīng)費不足無法修建起來。這種情況經(jīng)常發(fā)生。

如何讓大家都說真話呢?研究者提出這樣的辦法:管理者首先要向居民申明,如果報價之和超出修建街燈的費用,余款按出資比例退回,多報多退,少報少退,這樣 很大程度上可以減輕大家按真實估價報價的顧慮。但即便這樣,仍然可能出現(xiàn)報價不足的情況。這時候要采用多次博弈的方法:在保密條件下重復報價,第一次不行 報第二次,第二次不行報第三次……這樣的重復報價對己無損,且因為各家各戶都希望街燈能修建起來,所以他們會愿意參與重復報價,并逐漸提高出價,直到湊夠 修建費用或達到他們的真實評價為止。

經(jīng)驗表明,上述方法在公共決策問題上能夠有效發(fā)揮作用,但也有少數(shù)情況不能達到目的(例如上面的例子中如果修建街燈的費用超出了居民的預期收益,則無法籌集足夠的修建經(jīng)費)。這就是對策論和信息經(jīng)濟學在現(xiàn)實生活中的一例具體運用。

還有一種關于對策論的研究是對拍賣的研究。一般來說,拍賣有四種方式:英國式、荷蘭式、最高價封標拍賣和第二價格封標拍賣。

英國式拍賣是我們最為常見的:由拍賣師從低到高公開叫價,潛在的買主如果認為價格可以接受,就舉牌應價。通過買主的競爭,到最后只剩下一個應價者的時候, 買賣雙方就按此時的叫價成交。這種拍賣一般都設定最低價,如果連最低價也無人應價,拍賣就中止,并不進行交易。這種拍賣適用于藝術品、土地等時效性不是很 強的商品。

另一種公開叫價的拍賣還有荷蘭式拍賣:它由拍賣師從一個相當高的價位開始叫價,從高到低,一旦有第一位賣主接受叫價,就按照這個價格成交。荷蘭式拍賣適用于時效性比較強的商品。如鮮花和活魚這樣的商品,不及時脫手不行,因此常采用荷蘭式拍賣。

最高價封標拍賣采用書面投標的形式,先由買家分別保密報價,然后公布投標結果,由出價最高的買家購得商品。

第二價格封標拍賣跟上面的最高價封標拍賣類似,不同的是:前者是按最高出價成交,而后者是按次高價成交。舉例說:四個人競購一個拍賣品,甲乙丙丁分別秘密 出價6、7、8、9,開標后,出價最高的丁將按次高的出價8購得拍賣品,這就是第二價格封標拍賣。這種方式非常有利于杜絕僥幸心理,保證買方以對商品的真 實估價參加競拍。

上述四種拍賣方式各有不同的適用場合。之所以發(fā)展出形式眾多的拍賣方式,也是出于鼓勵傳遞真實信息的需要,以達到準確估價,價高者得的目的。而有趣的是, 根據(jù)對策論和信息經(jīng)濟學的研究:在競購者行為理性和數(shù)目眾多等條件下,上述四種拍賣方式導致的拍賣人的預期收入都是相等的?;蛘哒f,四種拍賣的效率都是相 同的。

補充總結

最后我們來回顧一下囚犯難題所體現(xiàn)的深刻意義。囚徒困境的特點,是博弈雙方互不信任,采取損人利己的策略,最后導致對雙方都不利的結局。這個例子可以很好地說明道德的特點和它產(chǎn)生的過程。

道德的特點是人人遵守、人人受益,但它可能需要犧牲個人的短期利益。曾經(jīng)有學者指出,人和動物的區(qū)別,不是使用工具或使用語言,而是人有道德,知道通過抑 制短期利益獲取長期利益。最初,人跟動物一樣,是在野蠻爭斗的“叢林規(guī)則”中生存。后來,通過重復博弈和長期學習,人們意識到道德的重要性,把道德秩序建 立起來,才使人真正從動物世界中分離出來。這一過程了經(jīng)歷很長的時間。

道德的建立非常困難,而它的破壞卻很容易。因為在大家都遵守道德的時候,個別人不講道德反而能獲益。例如在馬路上,大部分車輛都按順序行駛,一旦個別車輛 加塞插隊,它就能比別人走得快。此時如果守規(guī)矩的車覺得吃了虧,也會跟著不守規(guī)矩。大家都不守規(guī)矩,都加塞排隊,就等于道德完全失效。結果如何?不僅沒有 人能走得快,反而會使交通陷于癱瘓,大家都走不了。所以缺乏道德的狀態(tài)也不會一直持續(xù)下去,新的道德秩序終究會建立起來。道德就是在反復試錯和淘汰的過程 中不斷發(fā)展的。

專門的研究還表明,在社會發(fā)展的長久歷程中,道德狀態(tài)并不完善,往往是大部分人能遵守道德,小部分人道德敗壞,但在一定限度內,社會的穩(wěn)定和發(fā)展不會遭到破壞。這說明道德秩序是一個連續(xù)性變量。

這是一個非常重要的結論。它告訴我們:道德水平的提高不是一蹴而就的,良好的道德風尚要靠每個人的行動一點一點去積累。特別在整個社會風氣惡劣的時候,我 們不能光抱怨別人,而應該從自己做起,從身邊做起,奉行良好的道德規(guī)則。這樣,每多一個講道德的人,我們的社會就會朝好的方向轉變一步。

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    午夜成年人黄片免费观看| 国产高清在线不卡一区| 日本一区不卡在线观看| 激情视频在线视频在线视频| 九九热视频免费在线视频| 日韩一级一片内射视频4k| 人妻偷人精品一区二区三区不卡 | 午夜福利在线观看免费| 亚洲av日韩av高潮无打码| 久久午夜福利精品日韩| 国产午夜精品久久福利| 国产av一二三区在线观看| 国产成人精品一区二区在线看| 在线免费国产一区二区三区| 欧美大黄片在线免费观看| 免费在线观看激情小视频| 乱女午夜精品一区二区三区| 日本高清视频在线观看不卡 | 日本最新不卡免费一区二区| 不卡一区二区高清视频| 国产午夜精品福利免费不| 国产高清三级视频在线观看| 精品熟女少妇av免费久久野外| 欧洲亚洲精品自拍偷拍| 夜夜嗨激情五月天精品| av在线免费播放一区二区| 国产对白老熟女正在播放| 国产精品视频久久一区| 亚洲伦片免费偷拍一区| 中文字幕亚洲精品人妻| 91日韩在线观看你懂的| 粉嫩内射av一区二区| 91日韩在线视频观看| 国产精品欧美一级免费| 亚洲一区二区精品免费视频| 国产精品亚洲综合天堂夜夜| 激情内射日本一区二区三区| 欧美丰满大屁股一区二区三区| 男人和女人草逼免费视频| 色无极东京热男人的天堂| 日韩不卡一区二区视频|