北京時(shí)間 8 月 6 日凌晨,OpenAI的AI系統(tǒng)又跟人類打了三場(chǎng)Dota 2比賽,最終2:1 戰(zhàn)勝了人類隊(duì)伍! 此次比賽旨在檢驗(yàn) AI 系統(tǒng)是否具備在 TI8(2018 年 Dota2 國(guó)際邀請(qǐng)賽)上與頂尖職業(yè)強(qiáng)隊(duì)一較高低的水平。如此看來(lái),OpenAI 又將邁向新的征程。 這次代表人類出戰(zhàn)的是 Blitz,Cap,F(xiàn)ogged,Merlini 和 MoonMeander,他們是歐美 Dota 圈耳熟能詳?shù)闹鞑?、解說(shuō)和前職業(yè)選手和現(xiàn)役職業(yè)選手,其中 Merlini 更是 Dota 1 的宙斯冠名者,經(jīng)典的“繞樹(shù)林三殺”引無(wú)數(shù)玩家傳頌。據(jù) OpenAI 官網(wǎng)介紹,他們的平均水平超過(guò)了 99.95% 的 Dota2 玩家,不過(guò)5人并沒(méi)有在一起訓(xùn)練過(guò),默契程度有限。 DOTABUFF 的數(shù)據(jù)顯示,他們都進(jìn)入了超凡入圣天梯排行榜,其中天梯排名最高的是現(xiàn)役 Complexity 隊(duì)員 MoonMeander,美服第 40 名,排名最低的是解說(shuō) Capitalist,美服第 1054 名。 與一個(gè)多月前的 5V5 鏡像英雄 Dota2 比賽不同,這一次,OpenAI 不僅擴(kuò)大了英雄池,允許雙方以隨機(jī)征召模式挑選英雄(無(wú)禁用),而且將 AI 系統(tǒng)的反應(yīng)速度從 80ms 增加到了 200ms,更接近人類的反應(yīng)速度,同時(shí)還移除了此前多種對(duì)人類不利的限制: 圖丨比賽限制 相比之下,最大的變化就是新的規(guī)則允許選手插眼、隱身(使用隱刀或詭計(jì)之霧等)和打 Roshan。這些限制的解除代表著人類可以獲得更多的信息和發(fā)展空間,運(yùn)用更多的戰(zhàn)術(shù)和策略,比如利用刁鉆的偵察守衛(wèi)獲得更多的信息,彌補(bǔ)技能銜接失誤和反應(yīng)速度較慢的弱點(diǎn)。 圖 | OpenAI Five 打 Roshan 這也意味著 AI 在短短一個(gè)多月的時(shí)間里掌握了這些英雄、操作和相應(yīng)的對(duì)策。此前,一些解說(shuō)和 Reddit 論壇的大部分聲音均認(rèn)為,掌握這些復(fù)雜的游戲機(jī)制還有很長(zhǎng)的路要走,至少要 1-2 年的時(shí)間。但是,人類被人工智能打臉的事情可沒(méi)少出現(xiàn)過(guò)。 在正式較量之前,AI 系統(tǒng)和現(xiàn)場(chǎng)的 5 名觀眾進(jìn)行了一場(chǎng)熱身賽。只過(guò)了 13 分鐘,觀眾隊(duì)伍就以 4:21 的懸殊人頭數(shù)輸?shù)袅吮荣?/strong>。AI 在游戲中表現(xiàn)出了強(qiáng)烈的進(jìn)攻欲望和壓迫性,各種越塔強(qiáng)殺,繞塔 Gank,鉆樹(shù)林 TP,只用了 10 分鐘就站在了人類玩家的高地上為所欲為。 圖丨第一局陣容 不過(guò)這種情況在正式比賽中有所好轉(zhuǎn),因?yàn)橥婕业乃接辛藰O大提升。在第一局的對(duì)線期,人類選手的補(bǔ)刀并沒(méi)有落下 AI 多少,AI 的沖塔欲望也收斂了許多,因?yàn)檫x手的走位和耗血都更加慎重。同時(shí)人類的優(yōu)勢(shì)路拉野技巧也讓 AI 不知所措,這也是它控制的英雄第一次出現(xiàn)原地轉(zhuǎn)圈的情況。 然而好景不長(zhǎng),AI 對(duì)技能和血量的精準(zhǔn)計(jì)算使得它們?cè)谛∫?guī)模交戰(zhàn)中占盡優(yōu)勢(shì),幾次交戰(zhàn)人類選手不僅沒(méi)有占到優(yōu)勢(shì),還被打出多次 3 人小團(tuán)滅,甚至被 AI 火槍手繞樹(shù)林反殺。自此,AI 開(kāi)始占據(jù)人頭和經(jīng)濟(jì)優(yōu)勢(shì),并且展示出了十分明顯的抱團(tuán)推進(jìn)策略,經(jīng)常會(huì)出現(xiàn)殺人拿塔的“完美節(jié)奏”。 人類隊(duì)伍在影魔做出隱刀后稍稍穩(wěn)住了局面,幾次成功的抓人和互換暫緩了 AI 的殺人節(jié)奏。這時(shí)的 AI 并沒(méi)有展現(xiàn)出傳統(tǒng) Bot 的無(wú)腦抱團(tuán)推進(jìn),它們開(kāi)始展開(kāi) 2-3 人的小型抓人,同時(shí)大哥火槍和直升機(jī)偶爾鉆野補(bǔ)發(fā)育。不難看出,AI 系統(tǒng)其實(shí)已經(jīng)形成了對(duì)游戲的“理解”,即在不同局面下做出不同的選擇。 此后局面持續(xù)失控,人類隊(duì)伍面對(duì) AI 的兇狠 Gank 和抱團(tuán)拿塔毫無(wú)辦法,畢竟火槍的狙擊和直升機(jī)的高射炮隨隨便便就能秒殺輔助。在 AI 隊(duì)伍殺上下路高地時(shí),人類的死靈法被秒,但是第一時(shí)間選擇買活,AI 隊(duì)伍居然像人類玩家一樣選擇了撤退,尋找下一次更好的時(shí)機(jī)。之后再次沖擊高地時(shí),人類神牛跳大被萊恩秒羊,這不僅預(yù)示著團(tuán)戰(zhàn)的潰敗,高地的失守,也奠定了此后游戲的走向。最終人類無(wú)力抵抗,24 分鐘打出 GG。 圖丨第二局陣容 第二局比賽的總體走向和第一局十分相似,人類隊(duì)伍拿出隱刺試圖打出更多信息,增加更多的不確定性,影響 AI 的判斷。最初雖然打出了一定的效果,但是 AI 的總體思路并沒(méi)有改變,通過(guò)剛?cè)龎褐迫祟惔蟾绲陌l(fā)育,積極的游走、換路和 TP 破壞人類選手的擊殺和推塔。 雖然隱刺、神牛和影魔的配合打出了一定的積極效果,多次成果擊殺 AI 的火槍和輔助,但在人類乘勝追擊時(shí),AI 總是會(huì)找到突破口反殺人類。值得一提的是,第一局中人類選手因?yàn)橛螒蜓舆t暫停了游戲,而第二局中 AI 系統(tǒng)也暫停了一次,這似乎證明了 AI 在學(xué)習(xí)人類的行為,盡管它不明白背后的理由。 圖 | 比賽現(xiàn)場(chǎng) 游戲進(jìn)行到15分鐘左右,隨著人類中路的失守,局勢(shì)再一次被AI所掌控。最終AI隊(duì)伍在24分鐘拿下次局。 在2:0擊敗人類隊(duì)伍后,OpenAI的CTO Greg Brockman宣布,“我們的系統(tǒng)已經(jīng)準(zhǔn)備好在TI8上面對(duì)頂尖職業(yè)隊(duì)伍了!” 圖丨OpenAI CTO 推文 隨后進(jìn)行的第三局頗有些為人類挽回最后尊嚴(yán)的意思,因?yàn)殡p方的陣容是由觀眾選出的,AI只負(fù)責(zé)在游戲中操作。最后我們可以看出 OpenAI 對(duì)觀眾選出的陣容十分“不滿”,只給出了 2.9% 的賽前勝率預(yù)測(cè)。 第三局的走向也證明了OpenAI的賽前預(yù)測(cè),沒(méi)有了前兩局的順風(fēng)順?biāo)屯昝拦?jié)奏。在游戲初期,AI 操刀的斧王選擇了雙圓盾出門,配合除隱刺外的3名隊(duì)友強(qiáng)行壓制人類優(yōu)勢(shì)路,不過(guò)效果并不理想,畢竟斯溫和小魚(yú)雙核在沒(méi)有裝備支撐的情況下效果有限。 在喪失了分路知識(shí)和熟悉的節(jié)奏后,AI 英雄在 10 到 25 分鐘在地圖的各個(gè)地方頻頻被抓,5 個(gè)英雄各自為戰(zhàn),無(wú)法組織有效的反擊、防御和游走。比賽也進(jìn)入了人類的節(jié)奏,此后 OpenAI 下路高地被破,我們也看到了很多莫名的舉動(dòng),比如小魚(yú)人胡亂使用暗影之舞, 女王對(duì)著風(fēng)杖吹起的死亡先知放大,斯溫和斧王在敵方塔下亂走等。AI 系統(tǒng)還在游戲中給出了1%的絕望勝率。 人類在 33 分鐘攻上了 AI 的中路高地,在 BKB 的直升機(jī)面前,AI 并沒(méi)有做出多少有效的抵抗就被擊潰。最終人類扳回一局,守住尊嚴(yán)。同時(shí)也揭示了現(xiàn)階段 AI 系統(tǒng)的不足—從逆風(fēng)局中學(xué)習(xí)的知識(shí)還不夠多,無(wú)法有效應(yīng)對(duì)局面不利的情況。 事實(shí)上,在此前擊敗人類業(yè)余隊(duì)伍后,OpenAI 承認(rèn),他們?cè)陧?xiàng)目最初也沒(méi)有料到,全無(wú)基礎(chǔ)的強(qiáng)化學(xué)習(xí)會(huì)達(dá)到如此高度。 圖丨OpenAI Five 的網(wǎng)絡(luò)架構(gòu)圖 OpenAI 的 Dota 2 人工智能系統(tǒng)名為“OpenAI Five”。根據(jù) OpenAI 此前的論文,該系統(tǒng)基于機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)技術(shù),在 256 個(gè) GPU 和 12.8 萬(wàn)個(gè) CPU(谷歌云平臺(tái))的加持下,通過(guò)近端策略優(yōu)化(PPO)算法,24 小時(shí)不間斷地進(jìn)行自主對(duì)抗,其每日訓(xùn)練量等同于 180 年的游戲時(shí)間。 訓(xùn)練全程未使用人類選手的數(shù)據(jù),也沒(méi)有搜索和觀看人類游戲的錄像,全靠自學(xué)成才。不過(guò)目前英雄的出裝和技能選擇都是人類編寫(xiě)的腳本,AI 在每局游戲中會(huì)隨機(jī)選擇一套。 由于 AI 系統(tǒng)要“操控”5 位英雄,OpenAI 為每位英雄分配了一個(gè)長(zhǎng)短期記憶遞歸神經(jīng)網(wǎng)絡(luò)(LSTM RNN Network)。網(wǎng)絡(luò)之間沒(méi)有直接的溝通渠道,只有在同一局游戲中,5 個(gè)網(wǎng)絡(luò)才會(huì)通過(guò)“團(tuán)隊(duì)精神”的超參數(shù)值互相協(xié)調(diào)。該參數(shù)介于 0 和 1 之間,用于協(xié)調(diào)個(gè)人和團(tuán)隊(duì)的利益分配比重。最終這一數(shù)值被設(shè)定為 0.97,促使每個(gè)網(wǎng)絡(luò)將團(tuán)隊(duì)利益放在首位。 在訓(xùn)練中,OpenAI 團(tuán)隊(duì)使用了獎(jiǎng)懲機(jī)制來(lái)定義每名英雄獲得的“得分”:補(bǔ)刀和破塔等行為被視為獎(jiǎng)勵(lì),而死亡被視為懲罰。 有意思的是,在 GitHub 開(kāi)源的獎(jiǎng)勵(lì)機(jī)制文檔中,殺死對(duì)方英雄的比重是-0.6,這是因?yàn)椤皳魵ⅰ彼玫降慕疱X和經(jīng)驗(yàn)會(huì)增加很多分?jǐn)?shù),為了平衡“擊殺”帶來(lái)的獎(jiǎng)勵(lì),故而將其行為本身設(shè)為“懲罰”,降低其帶來(lái)的分?jǐn)?shù)收益,防止 AI 過(guò)分追求擊殺。 圖丨AI系統(tǒng)計(jì)算個(gè)人獎(jiǎng)勵(lì)比重 以上的種種機(jī)制不僅印證了 Dota 2 的本質(zhì)是“推塔”,而不是“擊殺”,更重要的是向我們展現(xiàn)了一個(gè)理智的決策機(jī)制,是如何進(jìn)行短期利益和長(zhǎng)期利益之間的博弈的。 本質(zhì)上講,通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的AI系統(tǒng)是在不斷尋找和計(jì)算一個(gè)“最優(yōu)解”,可以是局部最優(yōu),亦或是全局最優(yōu)。而比賽中的細(xì)節(jié)顯示,AI系統(tǒng)的確會(huì)放棄當(dāng)下的利益,轉(zhuǎn)而為局勢(shì)和整體發(fā)展著想。 因此 OpenAI 認(rèn)為,“我們的系統(tǒng)確實(shí)在向著長(zhǎng)遠(yuǎn)的方向優(yōu)化?!?/span> 縱觀全局,AI 系統(tǒng)展現(xiàn)的戰(zhàn)術(shù)成長(zhǎng)、溝通、協(xié)調(diào)和取舍可以簡(jiǎn)單地概括為“為達(dá)最終目標(biāo)的長(zhǎng)期規(guī)劃”。無(wú)論是 OpenAI Five 之于 Dota 2,還是 DeepMind Alpha Go之于圍棋,人工智能都做出了一些人類難以理解的舉動(dòng),其中不乏完全沒(méi)有意義和必要的操作,這歸根結(jié)底是從零開(kāi)始學(xué)習(xí)的結(jié)果,AI 系統(tǒng)仍然在摸索并逐步完善。不過(guò)事實(shí)已經(jīng)證明,無(wú)數(shù)個(gè)類似的舉動(dòng)最終帶來(lái)了勝利,也啟發(fā)了人類。 國(guó)外解說(shuō) Purge 和 Pixel 在比賽中多次提到,人類選手可以從 AI 身上學(xué)到很多技巧,比如仇恨分擔(dān)和轉(zhuǎn)移。這也是 OpenAI 系統(tǒng)的正確使用方式,人類目前對(duì)AI 系統(tǒng)的套路和策略并不了解,相信在多次練習(xí)和對(duì)戰(zhàn)中,人類對(duì)抗 AI 的能力一定會(huì)有所提高。這反過(guò)來(lái)也可以用來(lái)提升人類玩家的水平。 正如 OpenAI 聯(lián)合創(chuàng)始人兼 CTO Greg Brockman 所說(shuō),因?yàn)?OpenAI 背后也是人類智慧的結(jié)晶,“無(wú)論結(jié)果如何,勝利(受益)的一方都是人類?!?/span>
-End- |
|