在20世紀(jì)的大部分時(shí)間里,國際象棋博弈都是人工智能研究人員的基準(zhǔn)。約翰·麥卡錫(John McCarthy)在20世紀(jì)50年代早期創(chuàng)造了“人工智能”一詞,曾經(jīng)把國際象棋稱為“人工智能界的果蠅”,可見國際象棋對于人工智能研究的重要性。 在20世紀(jì)90年代后期,IBM的Deep Blue展開與世界冠軍Garry Kasparov的一系列國際象棋比賽。于1997年最終擊敗卡斯帕羅夫,這標(biāo)志著一臺(tái)機(jī)器首次在比賽中擊敗了世界冠軍。到了二十一世紀(jì)初,這項(xiàng)技術(shù)已經(jīng)提高到無論在什么樣的游戲環(huán)境中機(jī)器都能夠擊敗國際象棋大師。 自然AI開發(fā)人員開始轉(zhuǎn)向其他更復(fù)雜的游戲來測試他們?nèi)找鎻?fù)雜的算法。在過去的12個(gè)月里,AI越過了一系列新的門檻,最終在各種不同的游戲中擊敗人類玩家,從圍棋游戲到動(dòng)態(tài)交互式紙牌游戲,德州撲克。 Going going gone 在九十年代后期,在一臺(tái)機(jī)器終于擊敗一個(gè)國際象棋特級(jí)大師。 面對挑戰(zhàn),計(jì)算機(jī)科學(xué)家把注意力轉(zhuǎn)移到這個(gè)圍棋游戲上,這個(gè)游戲看起來簡單易玩,但卻非常復(fù)雜。 在過去的十年里,機(jī)器學(xué)習(xí)的發(fā)展才剛剛創(chuàng)造出真正有競爭力的圍棋選手。 2014年,Google開始研究一個(gè)名為AlphaGo的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)。經(jīng)過幾年的半成功的挑戰(zhàn)之后,開發(fā)團(tuán)隊(duì)嘗試了一些不同的東西。 在2016年底,流行的亞洲游戲服務(wù)器Tygem上出現(xiàn)了一個(gè)名為“Master”的神秘在線玩家。在接下來的幾天里,這個(gè)神秘的玩家在這個(gè)系統(tǒng)上與許多世界冠軍的游戲中都占主導(dǎo)地位。到1月4日,官方確認(rèn)“Master”實(shí)際上是DeepMind的AI AlphaGo的最新版本。 2017年5月,AlphaGo“Master”贏過了世界排名最高的選手柯潔。在它們的三場比賽中,該機(jī)器全面占據(jù)了主導(dǎo),但最令人吃驚的是,在十月份的時(shí)候,Google已經(jīng)產(chǎn)生了比“Master”還要好的AlphaGo更復(fù)雜的迭代。 在《自然》期刊上發(fā)表的“AlphaGo Zero”是一個(gè)革命性的算法,目標(biāo)是進(jìn)行完全的自主學(xué)習(xí)。這個(gè)系統(tǒng)只是反復(fù)地對抗自己,并且學(xué)習(xí)如何掌握它所編程的任何游戲。經(jīng)過21天的學(xué)習(xí),AlphaGo Zero達(dá)到了“Master”的水平,到了第40天,它已經(jīng)超過了之前版本的技能水平。 到2017年12月,DeepMind發(fā)現(xiàn)了一個(gè)更新的系統(tǒng)版本。這個(gè)名叫AlphaZero的新AI可以在幾個(gè)小時(shí)內(nèi)就掌握各種游戲。經(jīng)過八個(gè)小時(shí)的自主訓(xùn)練,該系統(tǒng)不僅可以擊敗AlphaGo Zero之前的版本,還可以成為國際象棋特級(jí)大師和棋將冠軍。 掌握虛張聲勢 經(jīng)過十多年的嘗試,人工智能終于擊敗了大牌撲克專業(yè)人士。來自Alberta大學(xué)的DeepStack公布了一個(gè)人工智能系統(tǒng),該系統(tǒng)可以用人工智能的“直覺”形式全面主宰人類的撲克玩家。 經(jīng)過艱苦的20天的馬拉松,機(jī)器全面擊敗所有四名職業(yè)撲克玩家。而卡內(nèi)基梅隆大學(xué)的一個(gè)團(tuán)隊(duì)在2017年1月舉行了更為公開的比賽,當(dāng)時(shí)Libratus AI系統(tǒng)花費(fèi)了20天時(shí)間與4名撲克專業(yè)人士共同玩了12萬無限德州撲克。雖然職業(yè)玩家每天晚上都在討論他們可以利用的人工智能的弱點(diǎn),但是機(jī)器每天都在不斷提高自身的能力,修補(bǔ)游戲中的漏洞并改進(jìn)策略。 人類大腦趕不上機(jī)器的速度,經(jīng)過近一個(gè)月的全天候游戲,Libratus還增加了170萬美元,四名專業(yè)人員中的每一個(gè)人都失去了數(shù)千美元的虛構(gòu)美元。 伊隆·馬斯克的AI實(shí)驗(yàn) 幾年前,Google DeepMind在49個(gè)Atari 2600游戲中設(shè)置了自己的AI。提供了與其他人類玩家相同的投入,AI想出了許多贏得游戲的方法。雖然有些游戲比其他游戲更難以掌握,尤其是80年代的經(jīng)典電子游戲“Ms Pac-Man”尤其困難。 2017年,一家名為Maluuba的深度學(xué)習(xí)公司被Google收購,并被納入DeepMind集團(tuán)。 Maluuba的新機(jī)器學(xué)習(xí)方法被稱為“混合獎(jiǎng)勵(lì)架構(gòu)”(HRA)。將這種方法應(yīng)用到Ms Pac-Man身上,該系統(tǒng)創(chuàng)建了150多名個(gè)體代理,每個(gè)代理都負(fù)責(zé)具體的目標(biāo),例如尋找特定的藥丸或避開鬼魂。 HRA方法產(chǎn)生了一個(gè)頂級(jí)代理,類似于高級(jí)經(jīng)理。這位最優(yōu)秀的經(jīng)紀(jì)人在做出個(gè)人行動(dòng)的最終決定之前,評估下級(jí)代理人的所有建議。這個(gè)方法被委婉地稱為“分而治之”,這樣,一個(gè)復(fù)雜的任務(wù)就被分解成更小的部分。 AI將這一方法應(yīng)用到Ms Pac-Man之后,AI很快就想出了如何取得999,990的高分,這是人類以前沒有想到的。 人工智能很快就會(huì)在游戲中稱霸 如果人工智能在幾乎每一場比賽中都能擊敗我們,那么下一步是什么呢? Falmouth大學(xué)的一位研究人員最近透露了一個(gè)機(jī)器學(xué)習(xí)算法,他聲稱這種人工智能可以為我們設(shè)計(jì)出自己的游戲。這個(gè)被稱為安吉麗娜(Angelina)的人工智能系統(tǒng)每天都在不斷改進(jìn),但是現(xiàn)在可以利用從維基共享網(wǎng)站(Wikimedia Commons)、在線報(bào)紙和社交媒體等來源的數(shù)據(jù)進(jìn)行游戲。 那么,這意味著什么? 也許2017年最重要,最可怕的發(fā)展是強(qiáng)化學(xué)習(xí)系統(tǒng)的巨大進(jìn)步。這些程序可以有效地教導(dǎo)自己如何掌握新的技能。例如,最近的AlphaZero迭代可以在幾天的自主學(xué)習(xí)之后在某些游戲中實(shí)現(xiàn)超人的技能。 對350多名人工智能研究人員進(jìn)行的一項(xiàng)大型調(diào)查顯示,人工智能幾乎可以把“所有的東西”都打敗,這時(shí)間不會(huì)太長了。調(diào)查預(yù)測,到2049年,它將能夠?qū)懗鲆槐緯充N小說,到2053年,它在手術(shù)上的表現(xiàn)會(huì)比人類更好。事實(shí)上,調(diào)查得出的結(jié)論是,到2060年AI有50%的可能性能夠做人類做的每一件事,甚至比我們做的更好。 毫無疑問,2017年是人工智能在日益復(fù)雜的游戲中擊敗人類的一個(gè)里程碑,盡管這看起來微不足道,但其影響卻是巨大的。這些發(fā)展中國家的許多公司正迅速將目光投向現(xiàn)實(shí)世界的挑戰(zhàn)。谷歌DeepMind已經(jīng)將AlphaGo Zero系統(tǒng)從游戲中移開,開始對蛋白質(zhì)折疊進(jìn)行了全面的研究,希望能對阿爾茨海默癥和帕金森氏癥等疾病進(jìn)行治療。 ( (內(nèi)容來源:譯云綜編/圖片來源:網(wǎng)絡(luò)) |
|