當(dāng)深藍(lán)、AlphaGo先后在國際象棋、圍棋界殺遍強手孤獨求敗時,很多人覺得,人類在決策類游戲中已經(jīng)無法抵擋AI的挑戰(zhàn)了。不過,至少在電子競技,尤其是多人在線戰(zhàn)術(shù)競技游戲(MOBA,例如Dota 2)這種需要團(tuán)隊配合的策略類游戲中,AI尚未攻克人類的堡壘。 6月25日,由埃隆·馬斯克和Sam Altman創(chuàng)立的非營利AI研究公司OpenAI宣布,他們在該領(lǐng)域取得重要突破:通過強化學(xué)習(xí)訓(xùn)練出的OpenAI Five系統(tǒng),在Dota 2的5v5團(tuán)戰(zhàn)中擊敗了業(yè)余高手。接下來,他們的目標(biāo)是在今年的Dota 2界最重要賽事——The International大賽上挑戰(zhàn)頂級職業(yè)戰(zhàn)隊。 來源 | OpenAI、the Verge等 編譯 | 吳非 視頻來源:OpenAI 挑戰(zhàn)機器協(xié)作難題 OpenAI公司的首席技術(shù)官Greg Brockman將其稱作里程碑式的突破:“這項工作在實際應(yīng)用中意義重大,當(dāng)你能夠模擬某個問題,你就能無障礙地將其應(yīng)用于更大的場景中?!?/span> 去年8月,OpenAI就在Dota 2領(lǐng)域一展身手。他們設(shè)計的1v1 bot系統(tǒng)在1v1對戰(zhàn)中擊敗了頂級職業(yè)高手。當(dāng)然,相比于團(tuán)戰(zhàn),1v1對戰(zhàn)的實現(xiàn)要簡單得多。作為一款MOBA,Dota 2的難點在于隊友間的配合:雙方各由五名隊員組成,每人操控一位“英雄”,也就是游戲角色。在一張地圖上,團(tuán)隊通過分工合作推倒對方的基地,從而贏得勝利。而團(tuán)隊協(xié)作,也是AI系統(tǒng)所面臨的一項前所未有的挑戰(zhàn)。 OpenAI團(tuán)隊的部分成員。去年,正是用這臺筆記本,AI在1v1對戰(zhàn)中戰(zhàn)勝了頂級職業(yè)選手。 人工智能之所以難以攻克Dota 2等MOBA類游戲,除了需要系統(tǒng)間的團(tuán)隊協(xié)作,還因為這類游戲需要長期的決策——在45分鐘的游戲時間內(nèi),玩家需要進(jìn)行上萬次操作,而其中一些決策的影響將貫穿全場;相比于棋類游戲的信息透明,每位玩家能夠看到的信息,尤其是對方的信息是有限的;在游戲中,系統(tǒng)在一瞬間需要處理2萬個數(shù)據(jù)點,并從1000種不同的操作中作出選擇,遠(yuǎn)遠(yuǎn)超過棋類比賽中的數(shù)量。 面對這一系列難題,在1v1 bot的基礎(chǔ)上,OpenAI的研究人員開發(fā)出了OpenAI Five算法。研究人員通過強化學(xué)習(xí)的方法,讓AI系統(tǒng)在虛擬環(huán)境中,通過不斷的自我對戰(zhàn)進(jìn)行學(xué)習(xí)。它們每天的自我對戰(zhàn)量十分驚人,相當(dāng)于180年的游戲量。也就是說,AI一天的訓(xùn)練量,相當(dāng)于最具經(jīng)驗的職業(yè)玩家一生訓(xùn)練量的數(shù)十倍。 訓(xùn)練過程用到了256個GPU和128,000個CPU內(nèi)核,與去年的1v1 bot系統(tǒng)相比有明顯提升。每位英雄使用自己的長短期記憶網(wǎng)絡(luò),整個過程沒有用到人類的數(shù)據(jù)。“最初幾小時內(nèi),AI只會隨機地在地圖上亂走。但逐漸地,它能夠掌握一些基本機能?!盉rockman說。 Greg Brockman 戰(zhàn)勝業(yè)余高手 AI系統(tǒng)擁有令人類玩家羨慕的特質(zhì)。它的反應(yīng)速度更快,只需80毫秒,比人類玩家快;每分鐘可以完成150~170次操作,與人類的頂尖職業(yè)玩家相當(dāng),并且不會錯失點擊。AI的優(yōu)勢還體現(xiàn)在,它們能夠隨時準(zhǔn)確獲取角色間的距離、裝備欄、英雄的健康狀況等重要信息,并應(yīng)用這些數(shù)據(jù)選擇最佳策略。相比之下,人類玩家只能手動檢查,或是根據(jù)經(jīng)驗及本能進(jìn)行判斷。 從今年5月起,OpenAI Five先后與五支水平不等的業(yè)余及半職業(yè)隊伍進(jìn)行了5v5團(tuán)戰(zhàn)較量,結(jié)果令研究團(tuán)隊感到欣喜:即使在與訓(xùn)練有素的半職業(yè)戰(zhàn)隊的對抗中,AI也在三場比賽中贏得兩場勝利。而在與OpenAI員工戰(zhàn)隊的對戰(zhàn)中,AI更是取得了完勝。OpenAI Five的平均天梯分?jǐn)?shù)超過4200分。 值得一提的是,OpenAI Five在實戰(zhàn)中展現(xiàn)出強大的團(tuán)隊意識。“為了最終的勝利,它們懂得犧牲一條線路或是一位英雄?!盉rockman說道。AI的表現(xiàn)還得到了人類隊友的稱贊。在一輪測試中,一位人類玩家加入了AI戰(zhàn)隊。他說,四位AI隊友給了他大量支持:“無論我想要什么,這些機器都能實現(xiàn)。” 贏得該系列測試后,研究團(tuán)隊將目標(biāo)投向了更為強勁的對手。他們計劃繼續(xù)優(yōu)化系統(tǒng),并在今年7月28日的The International賽場上,與頂級職業(yè)戰(zhàn)隊進(jìn)行較量。 更廣闊的應(yīng)用場景 雖然OpenAI Five已經(jīng)在5v5實戰(zhàn)中取得不錯的成績,但需要強調(diào)的是,目前其適用條件還較為有限。Dota 2玩家都知道,他們需要從115個英雄中選擇5個英雄,但目前OpenAI Five還無法做到這一點,它只能用五位選定的英雄【瘟疫法師(Necrophos)、狙擊手(Sniper)、冥界亞龍(Viper)、水晶室女(Crystal Maiden)和巫妖(Lich)】進(jìn)行對戰(zhàn)。不用對AI的英雄選擇感到同情,因為人類玩家也被限定使用同樣的角色;另外,這次“人機大戰(zhàn)”在對戰(zhàn)規(guī)則上也做了限定:不能插眼、沒有肉山、沒有隱身能力、不能使用召喚和幻象……如果你對這些名詞摸不著頭腦,記住,這些多為決策較為困難的操作。 雖然這項研究還有不足之處,在OpenAI團(tuán)隊看來,這項研究的意義遠(yuǎn)遠(yuǎn)超出了這款游戲本身。例如,在現(xiàn)實世界中,AI需要對隨時發(fā)生的情況作出實時反饋,此類能力正是AI在Dota 2比賽中取勝的關(guān)鍵之一,但在回合制的棋類比賽中無法得到訓(xùn)練。此外,Dota 2需要AI在無法獲取完整信息的情況下作出決策,這與大量實際應(yīng)用場景十分相似。能夠掌握Dota 2游戲,意味著AI將可能在城市交通系統(tǒng)、物流系統(tǒng)等現(xiàn)實場景中發(fā)揮更大的作用。 參考鏈接: https://blog./openai-five/ https://www./2018/6/25/17492918/openai-dota-2-bot-ai-five-5v5-matches https://www./article/2172612-ai-trained-on-3500-years-of-games-finally-beats-humans-at-dota-2/ https://www./2018/06/25/openai-bots-dota-2-the-invitational/ |
|