Dota2人類靠“手段”贏下AI一局！AI最終以2:1戰(zhàn)勝Dota2頂尖玩家團(tuán)隊(duì)，劍指職業(yè)隊(duì)

yangtz008 2018-08-06

展開(kāi)全文

北京時(shí)間 8 月 6 日凌晨，OpenAI的AI系統(tǒng)又跟人類打了三場(chǎng)Dota 2比賽，最終2：1 戰(zhàn)勝了人類隊(duì)伍！

此次比賽旨在檢驗(yàn) AI 系統(tǒng)是否具備在 TI8（2018 年 Dota2 國(guó)際邀請(qǐng)賽）上與頂尖職業(yè)強(qiáng)隊(duì)一較高低的水平。如此看來(lái)，OpenAI 又將邁向新的征程。

這次代表人類出戰(zhàn)的是 Blitz，Cap，F(xiàn)ogged，Merlini 和 MoonMeander，他們是歐美 Dota 圈耳熟能詳?shù)闹鞑?、解說(shuō)和前職業(yè)選手和現(xiàn)役職業(yè)選手，其中 Merlini 更是 Dota 1 的宙斯冠名者，經(jīng)典的“繞樹(shù)林三殺”引無(wú)數(shù)玩家傳頌。據(jù) OpenAI 官網(wǎng)介紹，他們的平均水平超過(guò)了 99.95% 的 Dota2 玩家，不過(guò)5人并沒(méi)有在一起訓(xùn)練過(guò)，默契程度有限。

DOTABUFF 的數(shù)據(jù)顯示，他們都進(jìn)入了超凡入圣天梯排行榜，其中天梯排名最高的是現(xiàn)役 Complexity 隊(duì)員 MoonMeander，美服第 40 名，排名最低的是解說(shuō) Capitalist，美服第 1054 名。

與一個(gè)多月前的 5V5 鏡像英雄 Dota2 比賽不同，這一次，OpenAI 不僅擴(kuò)大了英雄池，允許雙方以隨機(jī)征召模式挑選英雄（無(wú)禁用），而且將 AI 系統(tǒng)的反應(yīng)速度從 80ms 增加到了 200ms，更接近人類的反應(yīng)速度，同時(shí)還移除了此前多種對(duì)人類不利的限制：

圖丨比賽限制

相比之下，最大的變化就是新的規(guī)則允許選手插眼、隱身（使用隱刀或詭計(jì)之霧等）和打 Roshan。這些限制的解除代表著人類可以獲得更多的信息和發(fā)展空間，運(yùn)用更多的戰(zhàn)術(shù)和策略，比如利用刁鉆的偵察守衛(wèi)獲得更多的信息，彌補(bǔ)技能銜接失誤和反應(yīng)速度較慢的弱點(diǎn)。

圖 | OpenAI Five 打 Roshan

這也意味著 AI 在短短一個(gè)多月的時(shí)間里掌握了這些英雄、操作和相應(yīng)的對(duì)策。此前，一些解說(shuō)和 Reddit 論壇的大部分聲音均認(rèn)為，掌握這些復(fù)雜的游戲機(jī)制還有很長(zhǎng)的路要走，至少要 1-2 年的時(shí)間。但是，人類被人工智能打臉的事情可沒(méi)少出現(xiàn)過(guò)。

在正式較量之前，AI 系統(tǒng)和現(xiàn)場(chǎng)的 5 名觀眾進(jìn)行了一場(chǎng)熱身賽。只過(guò)了 13 分鐘，觀眾隊(duì)伍就以 4：21 的懸殊人頭數(shù)輸?shù)袅吮荣?/strong>。AI 在游戲中表現(xiàn)出了強(qiáng)烈的進(jìn)攻欲望和壓迫性，各種越塔強(qiáng)殺，繞塔 Gank，鉆樹(shù)林 TP，只用了 10 分鐘就站在了人類玩家的高地上為所欲為。

圖丨第一局陣容

不過(guò)這種情況在正式比賽中有所好轉(zhuǎn)，因?yàn)橥婕业乃接辛藰O大提升。在第一局的對(duì)線期，人類選手的補(bǔ)刀并沒(méi)有落下 AI 多少，AI 的沖塔欲望也收斂了許多，因?yàn)檫x手的走位和耗血都更加慎重。同時(shí)人類的優(yōu)勢(shì)路拉野技巧也讓 AI 不知所措，這也是它控制的英雄第一次出現(xiàn)原地轉(zhuǎn)圈的情況。

然而好景不長(zhǎng)，AI 對(duì)技能和血量的精準(zhǔn)計(jì)算使得它們?cè)谛∫?guī)模交戰(zhàn)中占盡優(yōu)勢(shì)，幾次交戰(zhàn)人類選手不僅沒(méi)有占到優(yōu)勢(shì)，還被打出多次 3 人小團(tuán)滅，甚至被 AI 火槍手繞樹(shù)林反殺。自此，AI 開(kāi)始占據(jù)人頭和經(jīng)濟(jì)優(yōu)勢(shì)，并且展示出了十分明顯的抱團(tuán)推進(jìn)策略，經(jīng)常會(huì)出現(xiàn)殺人拿塔的“完美節(jié)奏”。

人類隊(duì)伍在影魔做出隱刀后稍稍穩(wěn)住了局面，幾次成功的抓人和互換暫緩了 AI 的殺人節(jié)奏。這時(shí)的 AI 并沒(méi)有展現(xiàn)出傳統(tǒng) Bot 的無(wú)腦抱團(tuán)推進(jìn)，它們開(kāi)始展開(kāi) 2-3 人的小型抓人，同時(shí)大哥火槍和直升機(jī)偶爾鉆野補(bǔ)發(fā)育。不難看出，AI 系統(tǒng)其實(shí)已經(jīng)形成了對(duì)游戲的“理解”，即在不同局面下做出不同的選擇。

此后局面持續(xù)失控，人類隊(duì)伍面對(duì) AI 的兇狠 Gank 和抱團(tuán)拿塔毫無(wú)辦法，畢竟火槍的狙擊和直升機(jī)的高射炮隨隨便便就能秒殺輔助。在 AI 隊(duì)伍殺上下路高地時(shí)，人類的死靈法被秒，但是第一時(shí)間選擇買活，AI 隊(duì)伍居然像人類玩家一樣選擇了撤退，尋找下一次更好的時(shí)機(jī)。之后再次沖擊高地時(shí)，人類神牛跳大被萊恩秒羊，這不僅預(yù)示著團(tuán)戰(zhàn)的潰敗，高地的失守，也奠定了此后游戲的走向。最終人類無(wú)力抵抗，24 分鐘打出 GG。

圖丨第二局陣容

第二局比賽的總體走向和第一局十分相似，人類隊(duì)伍拿出隱刺試圖打出更多信息，增加更多的不確定性，影響 AI 的判斷。最初雖然打出了一定的效果，但是 AI 的總體思路并沒(méi)有改變，通過(guò)剛?cè)龎褐迫祟惔蟾绲陌l(fā)育，積極的游走、換路和 TP 破壞人類選手的擊殺和推塔。

雖然隱刺、神牛和影魔的配合打出了一定的積極效果，多次成果擊殺 AI 的火槍和輔助，但在人類乘勝追擊時(shí)，AI 總是會(huì)找到突破口反殺人類。值得一提的是，第一局中人類選手因?yàn)橛螒蜓舆t暫停了游戲，而第二局中 AI 系統(tǒng)也暫停了一次，這似乎證明了 AI 在學(xué)習(xí)人類的行為，盡管它不明白背后的理由。

圖 | 比賽現(xiàn)場(chǎng)

游戲進(jìn)行到15分鐘左右，隨著人類中路的失守，局勢(shì)再一次被AI所掌控。最終AI隊(duì)伍在24分鐘拿下次局。

在2：0擊敗人類隊(duì)伍后，OpenAI的CTO Greg Brockman宣布，“我們的系統(tǒng)已經(jīng)準(zhǔn)備好在TI8上面對(duì)頂尖職業(yè)隊(duì)伍了！”

圖丨OpenAI CTO 推文

隨后進(jìn)行的第三局頗有些為人類挽回最后尊嚴(yán)的意思，因?yàn)殡p方的陣容是由觀眾選出的，AI只負(fù)責(zé)在游戲中操作。最后我們可以看出 OpenAI 對(duì)觀眾選出的陣容十分“不滿”，只給出了 2.9% 的賽前勝率預(yù)測(cè)。

第三局的走向也證明了OpenAI的賽前預(yù)測(cè)，沒(méi)有了前兩局的順風(fēng)順?biāo)屯昝拦?jié)奏。在游戲初期，AI 操刀的斧王選擇了雙圓盾出門，配合除隱刺外的3名隊(duì)友強(qiáng)行壓制人類優(yōu)勢(shì)路，不過(guò)效果并不理想，畢竟斯溫和小魚(yú)雙核在沒(méi)有裝備支撐的情況下效果有限。

在喪失了分路知識(shí)和熟悉的節(jié)奏后，AI 英雄在 10 到 25 分鐘在地圖的各個(gè)地方頻頻被抓，5 個(gè)英雄各自為戰(zhàn)，無(wú)法組織有效的反擊、防御和游走。比賽也進(jìn)入了人類的節(jié)奏，此后 OpenAI 下路高地被破，我們也看到了很多莫名的舉動(dòng)，比如小魚(yú)人胡亂使用暗影之舞，女王對(duì)著風(fēng)杖吹起的死亡先知放大，斯溫和斧王在敵方塔下亂走等。AI 系統(tǒng)還在游戲中給出了1%的絕望勝率。

人類在 33 分鐘攻上了 AI 的中路高地，在 BKB 的直升機(jī)面前，AI 并沒(méi)有做出多少有效的抵抗就被擊潰。最終人類扳回一局，守住尊嚴(yán)。同時(shí)也揭示了現(xiàn)階段 AI 系統(tǒng)的不足—從逆風(fēng)局中學(xué)習(xí)的知識(shí)還不夠多，無(wú)法有效應(yīng)對(duì)局面不利的情況。

事實(shí)上，在此前擊敗人類業(yè)余隊(duì)伍后，OpenAI 承認(rèn)，他們?cè)陧?xiàng)目最初也沒(méi)有料到，全無(wú)基礎(chǔ)的強(qiáng)化學(xué)習(xí)會(huì)達(dá)到如此高度。

圖丨OpenAI Five 的網(wǎng)絡(luò)架構(gòu)圖

OpenAI 的 Dota 2 人工智能系統(tǒng)名為“OpenAI Five”。根據(jù) OpenAI 此前的論文，該系統(tǒng)基于機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)技術(shù)，在 256 個(gè) GPU 和 12.8 萬(wàn)個(gè) CPU（谷歌云平臺(tái)）的加持下，通過(guò)近端策略優(yōu)化（PPO）算法，24 小時(shí)不間斷地進(jìn)行自主對(duì)抗，其每日訓(xùn)練量等同于 180 年的游戲時(shí)間。

訓(xùn)練全程未使用人類選手的數(shù)據(jù)，也沒(méi)有搜索和觀看人類游戲的錄像，全靠自學(xué)成才。不過(guò)目前英雄的出裝和技能選擇都是人類編寫(xiě)的腳本，AI 在每局游戲中會(huì)隨機(jī)選擇一套。

由于 AI 系統(tǒng)要“操控”5 位英雄，OpenAI 為每位英雄分配了一個(gè)長(zhǎng)短期記憶遞歸神經(jīng)網(wǎng)絡(luò)（LSTM RNN Network）。網(wǎng)絡(luò)之間沒(méi)有直接的溝通渠道，只有在同一局游戲中，5 個(gè)網(wǎng)絡(luò)才會(huì)通過(guò)“團(tuán)隊(duì)精神”的超參數(shù)值互相協(xié)調(diào)。該參數(shù)介于 0 和 1 之間，用于協(xié)調(diào)個(gè)人和團(tuán)隊(duì)的利益分配比重。最終這一數(shù)值被設(shè)定為 0.97，促使每個(gè)網(wǎng)絡(luò)將團(tuán)隊(duì)利益放在首位。

在訓(xùn)練中，OpenAI 團(tuán)隊(duì)使用了獎(jiǎng)懲機(jī)制來(lái)定義每名英雄獲得的“得分”：補(bǔ)刀和破塔等行為被視為獎(jiǎng)勵(lì)，而死亡被視為懲罰。

有意思的是，在 GitHub 開(kāi)源的獎(jiǎng)勵(lì)機(jī)制文檔中，殺死對(duì)方英雄的比重是-0.6，這是因?yàn)椤皳魵ⅰ彼玫降慕疱X和經(jīng)驗(yàn)會(huì)增加很多分?jǐn)?shù)，為了平衡“擊殺”帶來(lái)的獎(jiǎng)勵(lì)，故而將其行為本身設(shè)為“懲罰”，降低其帶來(lái)的分?jǐn)?shù)收益，防止 AI 過(guò)分追求擊殺。

圖丨AI系統(tǒng)計(jì)算個(gè)人獎(jiǎng)勵(lì)比重

以上的種種機(jī)制不僅印證了 Dota 2 的本質(zhì)是“推塔”，而不是“擊殺”，更重要的是向我們展現(xiàn)了一個(gè)理智的決策機(jī)制，是如何進(jìn)行短期利益和長(zhǎng)期利益之間的博弈的。

本質(zhì)上講，通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的AI系統(tǒng)是在不斷尋找和計(jì)算一個(gè)“最優(yōu)解”，可以是局部最優(yōu)，亦或是全局最優(yōu)。而比賽中的細(xì)節(jié)顯示，AI系統(tǒng)的確會(huì)放棄當(dāng)下的利益，轉(zhuǎn)而為局勢(shì)和整體發(fā)展著想。

因此 OpenAI 認(rèn)為，“我們的系統(tǒng)確實(shí)在向著長(zhǎng)遠(yuǎn)的方向優(yōu)化?！?/span>

縱觀全局，AI 系統(tǒng)展現(xiàn)的戰(zhàn)術(shù)成長(zhǎng)、溝通、協(xié)調(diào)和取舍可以簡(jiǎn)單地概括為“為達(dá)最終目標(biāo)的長(zhǎng)期規(guī)劃”。無(wú)論是 OpenAI Five 之于 Dota 2，還是 DeepMind Alpha Go之于圍棋，人工智能都做出了一些人類難以理解的舉動(dòng)，其中不乏完全沒(méi)有意義和必要的操作，這歸根結(jié)底是從零開(kāi)始學(xué)習(xí)的結(jié)果，AI 系統(tǒng)仍然在摸索并逐步完善。不過(guò)事實(shí)已經(jīng)證明，無(wú)數(shù)個(gè)類似的舉動(dòng)最終帶來(lái)了勝利，也啟發(fā)了人類。

國(guó)外解說(shuō) Purge 和 Pixel 在比賽中多次提到，人類選手可以從 AI 身上學(xué)到很多技巧，比如仇恨分擔(dān)和轉(zhuǎn)移。這也是 OpenAI 系統(tǒng)的正確使用方式，人類目前對(duì)AI 系統(tǒng)的套路和策略并不了解，相信在多次練習(xí)和對(duì)戰(zhàn)中，人類對(duì)抗 AI 的能力一定會(huì)有所提高。這反過(guò)來(lái)也可以用來(lái)提升人類玩家的水平。

正如 OpenAI 聯(lián)合創(chuàng)始人兼 CTO Greg Brockman 所說(shuō)，因?yàn)?OpenAI 背后也是人類智慧的結(jié)晶，“無(wú)論結(jié)果如何，勝利（受益）的一方都是人類?！?/span>

-End-

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自： yangtz008 > 《AI、大數(shù)據(jù)、區(qū)塊鏈、科普資安、隱私》

舉報(bào)/認(rèn)領(lǐng)