一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

Dota2人類靠“手段”贏下AI一局!AI最終以2:1戰(zhàn)勝Dota2頂尖玩家團(tuán)隊(duì),劍指職業(yè)隊(duì)

 yangtz008 2018-08-06

北京時(shí)間 8 月 6 日凌晨,OpenAI的AI系統(tǒng)又跟人類打了三場(chǎng)Dota 2比賽,最終2:1 戰(zhàn)勝了人類隊(duì)伍!


此次比賽旨在檢驗(yàn) AI 系統(tǒng)是否具備在 TI8(2018 年 Dota2 國(guó)際邀請(qǐng)賽)上與頂尖職業(yè)強(qiáng)隊(duì)一較高低的水平。如此看來(lái),OpenAI 又將邁向新的征程。


這次代表人類出戰(zhàn)的是 Blitz,Cap,F(xiàn)ogged,Merlini 和 MoonMeander,他們是歐美 Dota 圈耳熟能詳?shù)闹鞑?、解說(shuō)和前職業(yè)選手現(xiàn)役職業(yè)選手,其中 Merlini 更是 Dota 1 的宙斯冠名者,經(jīng)典的“繞樹(shù)林三殺”引無(wú)數(shù)玩家傳頌。據(jù) OpenAI 官網(wǎng)介紹,他們的平均水平超過(guò)了 99.95% 的 Dota2 玩家,不過(guò)5人并沒(méi)有在一起訓(xùn)練過(guò),默契程度有限。


DOTABUFF 的數(shù)據(jù)顯示,他們都進(jìn)入了超凡入圣天梯排行榜,其中天梯排名最高的是現(xiàn)役 Complexity 隊(duì)員 MoonMeander,美服第 40 名,排名最低的是解說(shuō) Capitalist,美服第 1054 名。




與一個(gè)多月前的 5V5 鏡像英雄 Dota2 比賽不同,這一次,OpenAI 不僅擴(kuò)大了英雄池,允許雙方以隨機(jī)征召模式挑選英雄(無(wú)禁用),而且將 AI 系統(tǒng)的反應(yīng)速度從 80ms 增加到了 200ms,更接近人類的反應(yīng)速度,同時(shí)還移除了此前多種對(duì)人類不利的限制:



圖丨比賽限制


相比之下,最大的變化就是新的規(guī)則允許選手插眼、隱身(使用隱刀或詭計(jì)之霧等)和打 Roshan。這些限制的解除代表著人類可以獲得更多的信息和發(fā)展空間,運(yùn)用更多的戰(zhàn)術(shù)和策略,比如利用刁鉆的偵察守衛(wèi)獲得更多的信息,彌補(bǔ)技能銜接失誤和反應(yīng)速度較慢的弱點(diǎn)。


圖 | OpenAI Five 打 Roshan


這也意味著 AI 在短短一個(gè)多月的時(shí)間里掌握了這些英雄、操作和相應(yīng)的對(duì)策。此前,一些解說(shuō)和 Reddit 論壇的大部分聲音均認(rèn)為,掌握這些復(fù)雜的游戲機(jī)制還有很長(zhǎng)的路要走,至少要 1-2 年的時(shí)間。但是,人類被人工智能打臉的事情可沒(méi)少出現(xiàn)過(guò)。


在正式較量之前,AI 系統(tǒng)和現(xiàn)場(chǎng)的 5 名觀眾進(jìn)行了一場(chǎng)熱身賽。只過(guò)了 13 分鐘,觀眾隊(duì)伍就以 4:21 的懸殊人頭數(shù)輸?shù)袅吮荣?/strong>。AI 在游戲中表現(xiàn)出了強(qiáng)烈的進(jìn)攻欲望和壓迫性,各種越塔強(qiáng)殺,繞塔 Gank,鉆樹(shù)林 TP,只用了 10 分鐘就站在了人類玩家的高地上為所欲為。



圖丨第一局陣容


不過(guò)這種情況在正式比賽中有所好轉(zhuǎn),因?yàn)橥婕业乃接辛藰O大提升。在第一局的對(duì)線期,人類選手的補(bǔ)刀并沒(méi)有落下 AI 多少,AI 的沖塔欲望也收斂了許多,因?yàn)檫x手的走位和耗血都更加慎重。同時(shí)人類的優(yōu)勢(shì)路拉野技巧也讓 AI 不知所措,這也是它控制的英雄第一次出現(xiàn)原地轉(zhuǎn)圈的情況。


然而好景不長(zhǎng),AI 對(duì)技能和血量的精準(zhǔn)計(jì)算使得它們?cè)谛∫?guī)模交戰(zhàn)中占盡優(yōu)勢(shì),幾次交戰(zhàn)人類選手不僅沒(méi)有占到優(yōu)勢(shì),還被打出多次 3 人小團(tuán)滅,甚至被 AI 火槍手繞樹(shù)林反殺。自此,AI 開(kāi)始占據(jù)人頭和經(jīng)濟(jì)優(yōu)勢(shì),并且展示出了十分明顯的抱團(tuán)推進(jìn)策略,經(jīng)常會(huì)出現(xiàn)殺人拿塔的“完美節(jié)奏”。


人類隊(duì)伍在影魔做出隱刀后稍稍穩(wěn)住了局面,幾次成功的抓人和互換暫緩了 AI 的殺人節(jié)奏。這時(shí)的 AI 并沒(méi)有展現(xiàn)出傳統(tǒng) Bot 的無(wú)腦抱團(tuán)推進(jìn),它們開(kāi)始展開(kāi) 2-3 人的小型抓人,同時(shí)大哥火槍和直升機(jī)偶爾鉆野補(bǔ)發(fā)育。不難看出,AI 系統(tǒng)其實(shí)已經(jīng)形成了對(duì)游戲的“理解”,即在不同局面下做出不同的選擇。


此后局面持續(xù)失控,人類隊(duì)伍面對(duì) AI 的兇狠 Gank 和抱團(tuán)拿塔毫無(wú)辦法,畢竟火槍的狙擊和直升機(jī)的高射炮隨隨便便就能秒殺輔助。在 AI 隊(duì)伍殺上下路高地時(shí),人類的死靈法被秒,但是第一時(shí)間選擇買活,AI 隊(duì)伍居然像人類玩家一樣選擇了撤退,尋找下一次更好的時(shí)機(jī)。之后再次沖擊高地時(shí),人類神牛跳大被萊恩秒羊,這不僅預(yù)示著團(tuán)戰(zhàn)的潰敗,高地的失守,也奠定了此后游戲的走向。最終人類無(wú)力抵抗,24 分鐘打出 GG。



圖丨第二局陣容


第二局比賽的總體走向和第一局十分相似,人類隊(duì)伍拿出隱刺試圖打出更多信息,增加更多的不確定性,影響 AI 的判斷。最初雖然打出了一定的效果,但是 AI 的總體思路并沒(méi)有改變,通過(guò)剛?cè)龎褐迫祟惔蟾绲陌l(fā)育,積極的游走、換路和 TP 破壞人類選手的擊殺和推塔。


雖然隱刺、神牛和影魔的配合打出了一定的積極效果,多次成果擊殺 AI 的火槍和輔助,但在人類乘勝追擊時(shí),AI 總是會(huì)找到突破口反殺人類。值得一提的是,第一局中人類選手因?yàn)橛螒蜓舆t暫停了游戲,而第二局中 AI 系統(tǒng)也暫停了一次,這似乎證明了 AI 在學(xué)習(xí)人類的行為,盡管它不明白背后的理由。



圖 | 比賽現(xiàn)場(chǎng)


游戲進(jìn)行到15分鐘左右,隨著人類中路的失守,局勢(shì)再一次被AI所掌控。最終AI隊(duì)伍在24分鐘拿下次局。


20擊敗人類隊(duì)伍后,OpenAICTO Greg Brockman宣布,“我們的系統(tǒng)已經(jīng)準(zhǔn)備好在TI8上面對(duì)頂尖職業(yè)隊(duì)伍了!”



圖丨OpenAI CTO 推文


隨后進(jìn)行的第三局頗有些為人類挽回最后尊嚴(yán)的意思,因?yàn)殡p方的陣容是由觀眾選出的,AI只負(fù)責(zé)在游戲中操作。最后我們可以看出 OpenAI 對(duì)觀眾選出的陣容十分“不滿”,只給出了 2.9% 的賽前勝率預(yù)測(cè)。



第三局的走向也證明了OpenAI的賽前預(yù)測(cè),沒(méi)有了前兩局的順風(fēng)順?biāo)屯昝拦?jié)奏。在游戲初期,AI 操刀的斧王選擇了雙圓盾出門,配合除隱刺外的3名隊(duì)友強(qiáng)行壓制人類優(yōu)勢(shì)路,不過(guò)效果并不理想,畢竟斯溫和小魚(yú)雙核在沒(méi)有裝備支撐的情況下效果有限。


在喪失了分路知識(shí)和熟悉的節(jié)奏后,AI 英雄在 10 到 25 分鐘在地圖的各個(gè)地方頻頻被抓,5 個(gè)英雄各自為戰(zhàn),無(wú)法組織有效的反擊、防御和游走。比賽也進(jìn)入了人類的節(jié)奏,此后 OpenAI 下路高地被破,我們也看到了很多莫名的舉動(dòng),比如小魚(yú)人胡亂使用暗影之舞, 女王對(duì)著風(fēng)杖吹起的死亡先知放大,斯溫和斧王在敵方塔下亂走等。AI 系統(tǒng)還在游戲中給出了1%的絕望勝率。




人類在 33 分鐘攻上了 AI 的中路高地,在 BKB 的直升機(jī)面前,AI 并沒(méi)有做出多少有效的抵抗就被擊潰。最終人類扳回一局,守住尊嚴(yán)。同時(shí)也揭示了現(xiàn)階段 AI 系統(tǒng)的不足—從逆風(fēng)局中學(xué)習(xí)的知識(shí)還不夠多,無(wú)法有效應(yīng)對(duì)局面不利的情況。


事實(shí)上,在此前擊敗人類業(yè)余隊(duì)伍后,OpenAI 承認(rèn),他們?cè)陧?xiàng)目最初也沒(méi)有料到,全無(wú)基礎(chǔ)的強(qiáng)化學(xué)習(xí)會(huì)達(dá)到如此高度。


圖丨OpenAI Five 的網(wǎng)絡(luò)架構(gòu)圖


 OpenAI 的 Dota 2 人工智能系統(tǒng)名為“OpenAI Five”。根據(jù) OpenAI 此前的論文,該系統(tǒng)基于機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)技術(shù),在 256 個(gè) GPU 和 12.8 萬(wàn)個(gè) CPU(谷歌云平臺(tái))的加持下,通過(guò)近端策略優(yōu)化(PPO)算法,24 小時(shí)不間斷地進(jìn)行自主對(duì)抗,其每日訓(xùn)練量等同于 180 年的游戲時(shí)間。


訓(xùn)練全程未使用人類選手的數(shù)據(jù),也沒(méi)有搜索和觀看人類游戲的錄像,全靠自學(xué)成才。不過(guò)目前英雄的出裝和技能選擇都是人類編寫(xiě)的腳本,AI 在每局游戲中會(huì)隨機(jī)選擇一套。


由于 AI 系統(tǒng)要“操控”5 位英雄,OpenAI 為每位英雄分配了一個(gè)長(zhǎng)短期記憶遞歸神經(jīng)網(wǎng)絡(luò)(LSTM RNN Network)。網(wǎng)絡(luò)之間沒(méi)有直接的溝通渠道,只有在同一局游戲中,5 個(gè)網(wǎng)絡(luò)才會(huì)通過(guò)“團(tuán)隊(duì)精神”的超參數(shù)值互相協(xié)調(diào)。該參數(shù)介于 0 和 1 之間,用于協(xié)調(diào)個(gè)人和團(tuán)隊(duì)的利益分配比重。最終這一數(shù)值被設(shè)定為 0.97,促使每個(gè)網(wǎng)絡(luò)將團(tuán)隊(duì)利益放在首位。




在訓(xùn)練中,OpenAI 團(tuán)隊(duì)使用了獎(jiǎng)懲機(jī)制來(lái)定義每名英雄獲得的“得分”:補(bǔ)刀和破塔等行為被視為獎(jiǎng)勵(lì),而死亡被視為懲罰。


有意思的是,在 GitHub 開(kāi)源的獎(jiǎng)勵(lì)機(jī)制文檔中,殺死對(duì)方英雄的比重是-0.6,這是因?yàn)椤皳魵ⅰ彼玫降慕疱X和經(jīng)驗(yàn)會(huì)增加很多分?jǐn)?shù),為了平衡“擊殺”帶來(lái)的獎(jiǎng)勵(lì),故而將其行為本身設(shè)為“懲罰”,降低其帶來(lái)的分?jǐn)?shù)收益,防止 AI 過(guò)分追求擊殺。


圖丨AI系統(tǒng)計(jì)算個(gè)人獎(jiǎng)勵(lì)比重


以上的種種機(jī)制不僅印證了 Dota 2 的本質(zhì)是“推塔”,而不是“擊殺”,更重要的是向我們展現(xiàn)了一個(gè)理智的決策機(jī)制,是如何進(jìn)行短期利益和長(zhǎng)期利益之間的博弈的。


本質(zhì)上講,通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的AI系統(tǒng)是在不斷尋找和計(jì)算一個(gè)“最優(yōu)解”,可以是局部最優(yōu),亦或是全局最優(yōu)。而比賽中的細(xì)節(jié)顯示,AI系統(tǒng)的確會(huì)放棄當(dāng)下的利益,轉(zhuǎn)而為局勢(shì)和整體發(fā)展著想。


因此 OpenAI 認(rèn)為,“我們的系統(tǒng)確實(shí)在向著長(zhǎng)遠(yuǎn)的方向優(yōu)化?!?/span>


縱觀全局,AI 系統(tǒng)展現(xiàn)的戰(zhàn)術(shù)成長(zhǎng)、溝通、協(xié)調(diào)和取舍可以簡(jiǎn)單地概括為“為達(dá)最終目標(biāo)的長(zhǎng)期規(guī)劃”。無(wú)論是 OpenAI Five 之于 Dota 2,還是 DeepMind Alpha Go之于圍棋,人工智能都做出了一些人類難以理解的舉動(dòng),其中不乏完全沒(méi)有意義和必要的操作,這歸根結(jié)底是從零開(kāi)始學(xué)習(xí)的結(jié)果,AI 系統(tǒng)仍然在摸索并逐步完善。不過(guò)事實(shí)已經(jīng)證明,無(wú)數(shù)個(gè)類似的舉動(dòng)最終帶來(lái)了勝利,也啟發(fā)了人類。


國(guó)外解說(shuō) Purge 和 Pixel 在比賽中多次提到,人類選手可以從 AI 身上學(xué)到很多技巧,比如仇恨分擔(dān)和轉(zhuǎn)移。這也是 OpenAI 系統(tǒng)的正確使用方式,人類目前對(duì)AI 系統(tǒng)的套路和策略并不了解,相信在多次練習(xí)和對(duì)戰(zhàn)中,人類對(duì)抗 AI 的能力一定會(huì)有所提高。這反過(guò)來(lái)也可以用來(lái)提升人類玩家的水平。


正如 OpenAI 聯(lián)合創(chuàng)始人兼 CTO Greg Brockman 所說(shuō),因?yàn)?OpenAI 背后也是人類智慧的結(jié)晶,“無(wú)論結(jié)果如何,勝利(受益)的一方都是人類?!?/span>

 


-End-

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多

    丝袜美女诱惑在线观看| 欧美韩日在线观看一区| 日本婷婷色大香蕉视频在线观看| 日韩欧美综合中文字幕| 精品推荐久久久国产av| 黄片在线观看一区二区三区| 好吊色欧美一区二区三区顽频| 国产日韩久久精品一区| 欧美尤物在线观看西比尔| 亚洲熟妇熟女久久精品 | 国产一区二区熟女精品免费| 国产日韩中文视频一区| 亚洲精品黄色片中文字幕| 国产精品日韩欧美第一页| 国产一区二区三区免费福利| 搡老熟女老女人一区二区| 欧美国产日韩变态另类在线看| 亚洲品质一区二区三区| 国产视频福利一区二区| 香蕉尹人视频在线精品| 国产又大又黄又粗的黄色| 亚洲性生活一区二区三区| 精品人妻一区二区三区在线看| 国产精品丝袜一二三区| 久久亚洲精品中文字幕| 熟妇人妻av中文字幕老熟妇| 日韩一级免费中文字幕视频| 中文字幕人妻av不卡| 国产日本欧美韩国在线| 亚洲日本加勒比在线播放| 欧美日韩最近中国黄片| 国产成人精品99在线观看| 国产精品熟女乱色一区二区| 亚洲一区二区三区精选| 免费亚洲黄色在线观看| 亚洲日本久久国产精品久久| 欧美性高清一区二区三区视频| 免费人妻精品一区二区三区久久久 | 欧美激情区一区二区三区| 午夜福利大片亚洲一区| 午夜传媒视频免费在线观看|