自最早的虛擬國際象棋和單人紙牌游戲以來,視頻游戲一直是開發(fā)人工智能(AI)的運(yùn)動場。 機(jī)器對抗人類的每一次勝利都使算法更智能,更高效。 但是,為了解決現(xiàn)實(shí)世界中的問題(例如使包括駕駛和談判在內(nèi)的復(fù)雜任務(wù)自動化),這些算法必須在比棋盤游戲更復(fù)雜的環(huán)境中導(dǎo)航并學(xué)習(xí)團(tuán)隊(duì)合作。 到目前為止,教AI如何工作以及如何與其他玩家互動以取得成功一直是一項(xiàng)不可克服的任務(wù)。 在一項(xiàng)新研究中 ,研究人員詳細(xì)介紹了一種訓(xùn)練AI算法以在流行的3D多人游戲中達(dá)到人類性能水平的方法,這是“奪旗”模式下Quake III Arena的改良版。 即使該游戲的任務(wù)很簡單-兩個相對的團(tuán)隊(duì)通過導(dǎo)航地圖競爭捕捉對方的旗幟-獲勝需要復(fù)雜的決策制定能力以及預(yù)測和響應(yīng)其他玩家行為的能力。 這是AI在第一人稱視頻游戲中第一次獲得類人技能。 那么研究人員是如何做到的呢?機(jī)器人學(xué)習(xí)曲線 在2019年,其他多人策略游戲也達(dá)到了AI研究的幾個里程碑。 由“人工智能”控制的五個“機(jī)器人” 在DOTA 2游戲中擊敗了一支專業(yè)的電子競技團(tuán)隊(duì) 。 在《星際爭霸2》的游戲中,職業(yè)人類玩家也被AI擊敗 。 在所有情況下,都采用一種形式的強(qiáng)化學(xué)習(xí) ,該算法通過反復(fù)試驗(yàn)以及與環(huán)境的相互作用來學(xué)習(xí)。 在DOTA 2上擊敗人類的五種機(jī)器人沒有從人類的游戲中學(xué)到東西-他們是通過與自己的克隆人進(jìn)行比賽來專門訓(xùn)練的 。 使他們擊敗專業(yè)玩家的改進(jìn)來自擴(kuò)展現(xiàn)有算法 。 由于計(jì)算機(jī)的速度,AI可以在幾秒鐘內(nèi)玩完一部游戲,而這需要人類花幾分鐘甚至幾小時(shí)才能玩完。 這使研究人員可以在10個月的實(shí)時(shí)時(shí)間內(nèi)以45,000年的游戲時(shí)間來訓(xùn)練自己的AI。 2016年5月在莫斯科舉行的Dota 2電子競技比賽 。RomanKosolapov 最近的研究中的“奪旗”機(jī)器人也從零開始學(xué)習(xí)。 但是,與其與同一個克隆人競爭,不如創(chuàng)建一個由30個機(jī)器人組成的隊(duì)列, 并對其內(nèi)部獎勵信號進(jìn)行并行訓(xùn)練 。 然后,這個群體中的每個機(jī)器人都將一起玩耍并互相學(xué)習(xí)。 正如參與研究的科學(xué)家之一大衛(wèi)·西爾弗(David Silver)指出的那樣,人工智能開始“消除人類知識的束縛……并創(chuàng)造知識本身”。 人類的學(xué)習(xí)速度仍然比最先進(jìn)的深度強(qiáng)化學(xué)習(xí)算法快得多 。 OpenAI的機(jī)器人和DeepMind的AlphaStar(玩星際爭霸II的機(jī)器人)在達(dá)到人為的性能水平之前,都吞噬了數(shù)千年的游戲經(jīng)驗(yàn)。 這種培訓(xùn)估計(jì)要花費(fèi)數(shù)百萬美元 。 盡管如此,能夠在人類游戲中擊敗人類的自學(xué)型AI是一項(xiàng)令人興奮的突破,它可能會改變我們對機(jī)器的看法。 人與機(jī)器的未來 人們通常將AI描繪為替代或補(bǔ)充人類能力 ,但很少將其作為成熟的團(tuán)隊(duì)成員來執(zhí)行與人類相同的任務(wù)。 這些視頻游戲?qū)嶒?yàn)涉及人機(jī)協(xié)作,因此可以窺見未來。 Capture the Flag的人類玩家認(rèn)為機(jī)器人比其他人類更協(xié)作,但DOTA 2的玩家對其AI隊(duì)友的反應(yīng)喜憂參半。 一些人非常熱情,說他們感到支持,并且從與他們一起玩耍中學(xué)到了東西。 專業(yè)的DOTA 2玩家Sheever談到了與機(jī)器人合作的經(jīng)驗(yàn): 實(shí)際上感覺很好。 [AI隊(duì)友]在某個時(shí)候?yàn)槲耀I(xiàn)出了生命。 他試圖幫助我,想著“我確定她知道她在做什么”,然后顯然我沒有。 但是,你知道,他相信我。 我與[人類]隊(duì)友的關(guān)系不大。 其他人則不那么熱情 ,但是由于交流是任何關(guān)系的基礎(chǔ),因此改善人機(jī)交流在未來將至關(guān)重要。 研究人員已經(jīng)調(diào)整了一些功能,使機(jī)器人更加“人性化”,例如讓機(jī)器人在比賽前的團(tuán)隊(duì)選拔中人為地等待,然后再選擇角色 ,以免給人類造成壓力。 但是,人工智能應(yīng)該向我們學(xué)習(xí)還是繼續(xù)自學(xué)? 在不模仿人類的情況下進(jìn)行自我學(xué)習(xí)可以教會AI更高的效率和創(chuàng)造力,但這可以創(chuàng)建更適合于不涉及人類協(xié)作的任務(wù)的算法,例如倉儲機(jī)器人。另一方面,有人可能會辯稱,由人訓(xùn)練的機(jī)器會更直觀-使用這種AI的人可以理解為什么機(jī)器會做到這一點(diǎn)。 隨著AI變得越來越智能,我們將全力以赴以獲得更多驚喜。
|
|