Dota2團(tuán)戰(zhàn)AI擊敗人類最全解析：能團(tuán)又能gank，AI一日人間180年

長沙7喜 2018-06-28

展開全文

夏乙問耕發(fā)自凹非寺
量子位出品 | 公眾號 QbitAI

GG。

隨著人類喊出這兩個(gè)字母，一切都結(jié)束了。

OpenAI研發(fā)的人工智能戰(zhàn)隊(duì)，首次在5v5的Dota2開黑團(tuán)戰(zhàn)對戰(zhàn)中，擊敗人類玩家戰(zhàn)隊(duì)。

這真是一個(gè)里程碑式的事件。

這個(gè)能打團(tuán)戰(zhàn)的AI名叫OpenAI Five，是OpenAI最新的研發(fā)成果。

OpenAI Five完全通過自我對戰(zhàn)來學(xué)習(xí)打Dota2，每天的對戰(zhàn)量據(jù)說相當(dāng)于人類的180年。而且驚人的硬件消耗量，應(yīng)該也是創(chuàng)下紀(jì)錄：256塊GPU和12.8萬個(gè)CPU……

人類就這么又一次全面陷落了么？

顯然，Dota2團(tuán)戰(zhàn)AI擊敗人類這件事，一點(diǎn)也不簡單。這次我們分三個(gè)部分，帶來一份從實(shí)力到技術(shù)的最全解析。

第一部分：OpenAI Five有多強(qiáng)？
第二部分：現(xiàn)在去TI打?qū)I(yè)戰(zhàn)隊(duì)有戲嗎？
第三部分：AI一日，人間180年

開始。

Dota2團(tuán)戰(zhàn)AI有多強(qiáng)？

可能真的出乎你的預(yù)料。一起看下。

團(tuán)戰(zhàn)不虛

團(tuán)戰(zhàn)，需要綜合使用技能、裝備和走位，最大化對敵方英雄的傷害，同時(shí)避免損失本方英雄。

來看實(shí)戰(zhàn)。

這是一波AI守高地的戰(zhàn)斗。當(dāng)時(shí)人類團(tuán)隊(duì)的裝備和等級都要更高。而且五位人類玩家全部集結(jié)在一路，準(zhǔn)備強(qiáng)行拆塔。

雙方甫一接觸時(shí)，AI只有一位23級的英雄應(yīng)戰(zhàn)，人類團(tuán)隊(duì)24級的巫妖（Lich）首先發(fā)難，使出“阿托斯之棍”，將AI一方23級的巫妖定在原地。

隨后，AI巫妖對自己釋放“EUL的神圣法杖”，這個(gè)技能可以讓自己被卷入龍卷風(fēng)中，并且暫時(shí)處于無敵狀態(tài)。通過這一招，AI的用意是拖住人類團(tuán)隊(duì)，并且給自己的隊(duì)友趕來贏得時(shí)間。

隨后，AI巫妖繼續(xù)將人類團(tuán)隊(duì)拖上高地，誘使人類玩家信心爆棚。而其他AI英雄則開始從后方包抄人類團(tuán)隊(duì)。

繞后的AI冰女（Crystal Maiden），對人類團(tuán)隊(duì)拖后的火槍（Sniper）率先使出“閃爍匕首”，緊接著用出“冰封禁制”把狙擊手凍住，接著再是一記“黑皇杖”，最后施法“極寒領(lǐng)域”召喚冰晶展開轟炸。

AI冰女釋放的“極寒領(lǐng)域”，和AI毒龍（Viper）釋放的“幽冥劇毒”，迫使人類團(tuán)隊(duì)只能散開。于是，AI火槍可以從安全距離上展開遠(yuǎn)程攻擊。

在高傷害和群控的攻擊下，人類火槍和冰女想要撤退，卻只能以被擊殺而告終。隨后，在沒有視野的情況下，AI冰女使用“冰霜新星”，擊殺了人類巫妖。

隨后，AI冰女還不肯罷休，閃現(xiàn)追擊人類僅剩的最后一個(gè)英雄死靈法師（Necrophos），然而在凍住對方后，AI冰女已經(jīng)無技能可用，只得放棄追擊。

最終這波團(tuán)戰(zhàn)，AI打了人類玩家一個(gè)2換4，而且守家成功。

詭計(jì)多端

遇到打不過的時(shí)候，人類英雄躲進(jìn)樹林想要避一避，沒用的。AI英雄即便失去了視野，也會一路追進(jìn)森林尋找，然后擊殺。

眼見AI殘血，人類玩家想要追擊，千萬小心，因?yàn)槠渌鸄I英雄正趕來捉人。人類玩家不單收不了人頭，而且還要送命。

特別強(qiáng)調(diào)一點(diǎn)，AI還學(xué)會了“擒賊先擒王”，不惜使用多重大招，只為確保能擊殺等級最高的那個(gè)敵方英雄。

而且AI英雄還會自我犧牲，把人類玩家引誘出高地，確保團(tuán)隊(duì)其他成員能推塔成功。

總之，OpenAI Five又能團(tuán)，又能gank，足智多謀，詭計(jì)多端。

下面這個(gè)視頻，更全面的講述了AI掌握的七大技能。

實(shí)際上，按照官方的說法，目前OpenAI Five在選擇攻擊目標(biāo)這一項(xiàng)上，達(dá)到了專業(yè)水平，但補(bǔ)兵能力還有不足。

去TI打?qū)I(yè)選手有戲嗎？

回答這個(gè)問題之前，先得明確一個(gè)事實(shí)：目前OpenAI Five戰(zhàn)勝的對手，并不是人類頂尖高手。

雙方的對戰(zhàn)，大約兩個(gè)月前已經(jīng)開始。目前OpenAI Five已經(jīng)先后與五支人類團(tuán)隊(duì)有過交手：

1、最強(qiáng)OpenAI員工隊(duì)：MMR匹配分 2500
2、最強(qiáng)觀眾隊(duì)：MMR 4000-6000
3、Valve員工隊(duì)：MMR 2500-4000
4、業(yè)余隊(duì)：MMR 4200，有團(tuán)隊(duì)訓(xùn)練
5、半職業(yè)隊(duì)：MMR 5500，有團(tuán)隊(duì)訓(xùn)練

4月23日，OpenAI Five首次擊敗了腳本基線版本。5月15日，與第1隊(duì)打成1:1。6月6日，與第1、2、3隊(duì)的對戰(zhàn)中，均取得勝利。

可以看到OpenAI Five一直在進(jìn)步。這個(gè)AI與第4、第5隊(duì)進(jìn)行了非正式的比賽，雖然沒能取勝，但是在前三場中贏下兩場。

與人類玩家相比，OpenAI Five平均每分鐘可進(jìn)行150-170次操作，平均反應(yīng)時(shí)間為80毫秒，明顯比人類更快。

不過這些不是決定5v5勝利與否的關(guān)鍵因素。

OpenAI還總結(jié)了OpenAI Five的幾個(gè)特點(diǎn)：

屢次犧牲自己的優(yōu)勢路（夜魘軍團(tuán)的上路，天輝軍團(tuán)的下路），以壓制敵人的優(yōu)勢路，迫使戰(zhàn)斗轉(zhuǎn)移到對手更難防御的一邊。
比賽初期到中期的轉(zhuǎn)換比對手更快。方法：(1) 多次成功gank人類玩家 (2) 趕在對手集結(jié)之前，組隊(duì)推塔。

也有一些非主流打法。例如前期把錢和經(jīng)驗(yàn)讓給輔助英雄。OpenAI Five的優(yōu)先級使其傷害值能更快攀升，進(jìn)而贏得團(tuán)戰(zhàn)等。

這么厲害的隊(duì)伍，當(dāng)然也不是陪業(yè)余人類玩玩就算了的。

OpenAI說，他們打算8月份去DotA 2頂級賽事TI上，找一支頂級專業(yè)隊(duì)伍PK一下，7月底還要搞一場對戰(zhàn)專業(yè)團(tuán)隊(duì)的直播。

當(dāng)然，全部英雄OpenAI Five暫時(shí)還搞不定，和專業(yè)選手對局，雙方也只能在有限的英雄里選。

到時(shí)候這個(gè)“有限的英雄”究竟有多少，現(xiàn)在還不知道，不過，這也說明了一個(gè)很重要的問題：現(xiàn)在OpenAI Five的能力，還不足以玩人類版的DotA 2。

那么，AI現(xiàn)在玩的DotA 2和人類版相比做了哪些簡化呢？

OpenAI在博客最后列出了AI版DotA的限制：

雙方英雄陣容是固定的：死靈法師、火槍、毒龍、冰女、巫妖（他們的學(xué)名叫瘟疫法師、矮人狙擊手、冥界亞龍、水晶室女、巫妖）；
不插眼；
沒有肉山；
沒有隱身裝備；
沒有召喚單位、沒有幻像；
少了一些物品：圣劍、瓶子、補(bǔ)刀斧、飛鞋、經(jīng)驗(yàn)書、凝魂之淚；
有5個(gè)無敵信使（雞），但是不能用來偵查或者防御；
沒有掃描。

這意味著什么？

有了這些限制，AI打的DotA就比人類版有了很多簡化，也說明了這個(gè)AI還有些沒掌握的技能。

比如英雄的選擇和陣容的搭配。雙方只有固定的5個(gè)英雄，就不需要掌握英雄之間的配合和克制情況，游戲也少了很多變化。

AI現(xiàn)在也還不懂得對視野的控制。AI玩的版本沒有隱身裝備、沒有插眼的操作、沒有掃描，于是雙方只能在游戲原本設(shè)定的視野中對戰(zhàn)，不能靠自己的能力改變視野，也不需要偵查。

游戲中，如果不考慮信使，AI控制的單位也只能是5個(gè)，這也就是為什么不能出現(xiàn)召喚單位和幻象。

另外，沒有游戲野區(qū)最強(qiáng)大的怪物肉山，也就沒有了打肉山能得到的復(fù)活盾。在職業(yè)比賽中，復(fù)活盾帶來的原地滿狀態(tài)復(fù)活能力，可以說是個(gè)翻盤利器。

讓人類職業(yè)選手來打一個(gè)這樣的DotA，并沒有什么優(yōu)勢；如果讓現(xiàn)在的OpenAI Five去打人類版DotA，這支沒學(xué)過選英雄、做視野、偷雞等等技能，還少學(xué)了很多裝備的隊(duì)伍，也會不知所措。

不過，OpenAI也說了，這些限制大都是因?yàn)橛螒蚶镉行┎糠诌€沒整合進(jìn)來，像插眼、肉山這種職業(yè)比賽中的關(guān)鍵元素，他們會盡快加上。

AI一日，人間180年

雖然還有種種限制，但不可否認(rèn)，AI的進(jìn)步還是快得嚇人。

OpenAI的解釋是，這個(gè)AI通過自我對戰(zhàn)來提升，從隨機(jī)參數(shù)開始，不用人類玩家的方法引導(dǎo)，也不人類玩家方法中搜索。

他們還特別提到，在訓(xùn)練1v1模型的時(shí)候，是專門針對卡兵這個(gè)操作設(shè)置了獎勵的。但是在OpenAI Five模型中并沒有這個(gè)獎勵，但這個(gè)新模型還是自己學(xué)會了卡兵。

AI每天的訓(xùn)練量，相當(dāng)于打180年游戲?？芍^真·勤學(xué)苦練，人類選手一輩子的訓(xùn)練量也不及它半天。

這些每天訓(xùn)練180年的選手，究竟是些什么怪物？

他們的長相是這樣的：

不要被結(jié)構(gòu)圖嚇到，簡單來說，每個(gè)選手，也就是每個(gè)智能體（agent），都是一個(gè)單層LSTM（長短時(shí)記憶網(wǎng)絡(luò)），有1024個(gè)單元，能夠通過Valve的Bot API觀察當(dāng)前游戲狀態(tài)，控制自己的英雄接下來選擇哪一種操作、釋放到XY坐標(biāo)系中的哪一點(diǎn)。

智能體能夠觀察到的信息和人類差不多，包括自身、隊(duì)友和敵人的狀況，比如位置、血量、攻擊力、護(hù)甲、攜帶物品、能力等等?？赡軙幸稽c(diǎn)點(diǎn)區(qū)別的，就是智能體對過去12幀的血量、攻擊和被攻擊情況等歷史信息大概記得比人類清楚。

?這些信息，對于智能體來說是一個(gè)包含20000數(shù)值的列表，而它判斷之后發(fā)出的行動指令，是8個(gè)值的列表。

選手們的訓(xùn)練，使用的是擴(kuò)展版的近端策略優(yōu)化（PPO）方法，這也是OpenAI現(xiàn)在默認(rèn)的強(qiáng)化學(xué)習(xí)訓(xùn)練方法。這些智能體的目標(biāo)是最大化未來獎勵的指數(shù)衰減和。

AI選手們在訓(xùn)練中飯量驚人，承載它們需要256塊P100 GPU和12.8萬個(gè)CPU核心。

上面的5v5版本與1v1版本對比，有一個(gè)令人欣慰的結(jié)果：OpenAI Five需要的CPU和GPU計(jì)算力，與去年擊敗Dendi的1v1版相比，并沒有翻到5倍。

5個(gè)智能體訓(xùn)練出來，它們之間又是怎樣配合的呢？總不能像我們?nèi)祟愰_黑一樣互相喊話吧？

答案是，他們之間沒有那種人類可以理解的溝通渠道，而是由一個(gè)“團(tuán)隊(duì)精神”超參數(shù)來統(tǒng)一控制。這個(gè)超參數(shù)的范圍在0到1之間，決定了選手對與自身獎勵函數(shù)和隊(duì)友平均獎勵函數(shù)的關(guān)注程度分配。

留給AI的時(shí)間還很多

OpenAI說，他們打算在7月28日和頂級選手對戰(zhàn)一番，留給他們的時(shí)間，還有整整1個(gè)月。8月，他們還要和頂級人類專業(yè)選手在TI上較量，如果這一場較量在AI結(jié)束時(shí)的話，留給AI的時(shí)間還有兩個(gè)月。

按照“人間一天，AI界180年的”算法，加上肉山、插眼等關(guān)鍵元素之后，只要能給AI留半個(gè)月時(shí)間和自己對戰(zhàn)，在它的世界里就可以說修煉了“數(shù)千年”。

這場對戰(zhàn)，還開設(shè)了直播，等著和人類觀眾相見。

傳送門

7月28日大戰(zhàn)的直播：
https://www./openai

OpenAI博客詳解（包含各種場景下AI觀察到的情形和可采取行動的交互圖解）：
https://blog./openai-five/

LSTM架構(gòu)大圖：
https://d4mucfpksywv./research-covers/openai-five/network-architecture.pdf

PPO：
https:///abs/1707.06347

— 完 —

實(shí)習(xí)生招聘

量子位正在招募市場運(yùn)營實(shí)習(xí)生，策劃執(zhí)行AI明星公司CEO、高管等參與的線上/線下活動，有機(jī)會與AI行業(yè)大牛直接交流。一份豐富的實(shí)習(xí)經(jīng)歷等你解鎖~

工作地點(diǎn)在北京中關(guān)村。簡歷歡迎投遞到quxin@qbitai.com

本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：長沙7喜 > 《智能技術(shù)》

舉報(bào)/認(rèn)領(lǐng)