文/陳根 如果說,有一種決策的方法能跨越文化、種族和地域的限制,那么除了抽簽這種純靠運(yùn)氣的方式,恐怕只剩下猜拳了。 猜拳被長(zhǎng)久地使用在生活中不需要太多思考的決策里,一般認(rèn)為,玩家獲勝的概率應(yīng)該是一樣的,即恒定的30%左右,從長(zhǎng)遠(yuǎn)來看,這使任意玩家同樣有可能贏、平或輸。這就是所謂的混合策略納什均衡,在這種均衡中,每個(gè)參與者在每一輪中以相等的概率選擇三個(gè)行動(dòng)。
但事實(shí)可能并非如此,來自浙江大學(xué)的研究團(tuán)隊(duì)的研究發(fā)現(xiàn),真正的玩家的策略看起來是隨機(jī)的,但實(shí)際上是由可預(yù)測(cè)的模式組成的,狡猾的對(duì)手可以利用這些模式來獲得重要的優(yōu)勢(shì)。 具體來說,研究團(tuán)隊(duì)開發(fā)了一個(gè)基于基于n-階馬爾可夫鏈的人工智能模型——Multi-AI ,這意味著Multi-AI 擁有記憶性,能夠向前追溯最多 n 個(gè)歷史狀態(tài)并加以利用。研究人員將單個(gè)模型結(jié)合起來,應(yīng)對(duì)人類玩家的不同性格和策略。 如果人類玩家連續(xù)勝利,就會(huì)促使 Multi-AI 轉(zhuǎn)向選擇其他人工智能模型的更優(yōu)解。如果人類玩家連續(xù)失敗,大概率會(huì)轉(zhuǎn)換策略,或者打破之前的出拳規(guī)律,這時(shí)Multi-AI 也可以隨之調(diào)整。
這意味著一種不同的博弈策略。即Multi-AI 模型更強(qiáng)調(diào)針對(duì)不同玩家之間的個(gè)性差異、出拳策略,來及時(shí)的進(jìn)行調(diào)控,選取當(dāng)下最適宜的博弈策略。 最終實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),在和52名人類玩家分別大戰(zhàn)300回合之后,人工智能擊敗了95%的玩家。由于比賽規(guī)則是贏+2分,平+1分,輸不得分,且參與者均知道獲勝會(huì)獲得金錢獎(jiǎng)勵(lì),總分越高,贏的錢越多,因此玩家故意放水或者隨便亂選的可能性極小。 即便如此,人工智能仍然大勝人類。在最懸殊的一場(chǎng)較量中,人工智能獲得了198次勝利,55次平手,僅輸了47次,勝率超過人類對(duì)手4倍。 當(dāng)然,這項(xiàng)關(guān)于猜拳的最新研究,成果不僅僅是一個(gè)很厲害的猜拳人工智能,還是一個(gè)很厲害的循環(huán)制衡模型分析師,這意味著人類的競(jìng)爭(zhēng)行為確實(shí)有規(guī)律可循,而通過使用適當(dāng)?shù)暮?jiǎn)單模型就能利用這些規(guī)律。研究人員認(rèn)為,該人工智能模型未來有望拓展到其他博弈場(chǎng)景,比如預(yù)測(cè)競(jìng)爭(zhēng)對(duì)手的下一步舉動(dòng),規(guī)劃更有效的競(jìng)選策略,或者制定更有利的定價(jià)方案等等。 |
|