一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

僅用3天,AlphaGo Zero就憑借自學(xué)以100:0擊敗AlphaGo,柯潔表示人類太多余了

 鎂客網(wǎng) 2020-09-10


AlphaGo Zero3天時間就能達(dá)到擊敗李世石的AlphaGo Lee的水平,21天可以達(dá)到了之前擊敗柯潔的AlphaGo Master的水平。

今天凌晨,谷歌旗下Deepmind人工智能團(tuán)隊發(fā)布了一篇轟動AI界的論文,《Mastering the game of Go without human knowledge》(在沒有人類知識的情況下掌握圍棋),一句話總結(jié)這篇論文,他們研發(fā)的AlphaGo大表哥AlphaGo Zero能夠在沒有人類圍棋對弈數(shù)據(jù)的情況下,直接通過自我純強(qiáng)化學(xué)習(xí),于短短的3天自我訓(xùn)練時間后,以100:0的戰(zhàn)績擊敗曾經(jīng)的AlphaGo。

學(xué)霸中的戰(zhàn)斗機(jī)

大表哥AlphaGo Zero完全靠“悟性”登上圍棋巔峰


在下面的視頻中,DeepMind研究人員簡單的介紹了新一代的AlphaGo Zero的基本原理,

DeepMind聯(lián)合創(chuàng)始人兼CEO Demis Hassabis表示:“AlphaGo Zero是我們項目中最強(qiáng)大的版本,它展示了我們在更少的計算能力,而且完全不使用人類數(shù)據(jù)的情況下可以取得如此大的進(jìn)展?!?/span>

舉個簡單的例子,AlphaGo是經(jīng)過大量的人工對弈數(shù)據(jù)學(xué)習(xí)和訓(xùn)練才一點點登上圍棋的巔峰,它之所以能在去年打敗李世石,并且在今年以Master的身份戰(zhàn)勝排名世界第一的柯潔,都依賴于海量的人類對弈數(shù)據(jù)。

但是它的大表哥AlphaGo Zero是從一個完全不懂圍棋知識和規(guī)則的神經(jīng)網(wǎng)絡(luò)開始,AlphaGo Zero每天就默默的自己一個人玩,不會像我們一樣整天突擊學(xué)習(xí)各種歷史棋譜,參考前輩們的經(jīng)驗知識,它完全依靠自己的悟性(自我強(qiáng)化學(xué)習(xí)),在這個過程中,神經(jīng)網(wǎng)絡(luò)會不斷更新、調(diào)整,來預(yù)測落子的位置,發(fā)展新的策略。

值得注意的是,AlphaGo Zero的自我訓(xùn)練強(qiáng)化時間更短,AlphaGo Zero只需要在4個TPU上花三天時間,自己左右互搏490萬棋局。而它的大表弟AlphaGo需要在48個TPU上,花幾個月的時間,學(xué)習(xí)三千萬棋局,才能打敗人類。對于AlphaGo Zero來說,3天時間就能達(dá)到了擊敗李世石的AlphaGo Lee的水平,21天可以達(dá)到了之前擊敗柯潔的AlphaGo Master的水平。

AlphaGo Zero給我們的啟發(fā)


Deepmind的論文中也公布了AlphaGo Zero的一些技術(shù)細(xì)節(jié),現(xiàn)在也有不少文章分享了相關(guān)的技術(shù)原理,鎂客君簡單的整理一下,其實主要在于AlphaGo Zero有更深的網(wǎng)絡(luò)能更有效地直接從棋盤上提取特征。

AlphaGo Zero在自我對弈中,在每一個落點s,神經(jīng)網(wǎng)絡(luò)fθ都會進(jìn)行蒙特卡洛樹(MCTS)搜索,得出每一步落子的概率π,再根據(jù)游戲規(guī)則計算出最終的獲勝者z,這一過程可被視為一個強(qiáng)有力的評估策略操作。在這其中,神經(jīng)網(wǎng)絡(luò)參數(shù)不斷更新,落子概率和價值 (p,v)= fθ(s)也越來越接近改善后的搜索概率和自我對弈勝者 (π, z),而新的參數(shù)也會被用于下一次的自我對弈來以增強(qiáng)搜索的結(jié)果。

更多的技術(shù)原理可以參考下面的論文:

https:///documents/119/agz_unformatted_nature.pdf

其實AlphaGo Zero之所以會一石激起千層浪,很大原因在于這種自我強(qiáng)化訓(xùn)練,不需要過多人工標(biāo)注樣本的自我強(qiáng)化訓(xùn)練未來可能的應(yīng)用前景。

想象一下,以后可能再也不用花費大量的時間去為人工智能的應(yīng)用或者產(chǎn)品做海量的數(shù)據(jù)準(zhǔn)備工作,更何況很多情況下,數(shù)據(jù)的獲取難度也非常之大。

尤其是很多小樣本應(yīng)用領(lǐng)域內(nèi),大量的人工標(biāo)注幾乎不可能實現(xiàn),比如醫(yī)療數(shù)據(jù)方面,考慮到數(shù)據(jù)隱私性,以及各個醫(yī)院之間的互通性,這些都讓海量數(shù)據(jù)獲取和訓(xùn)練難上加難。

而Demis Hassabis認(rèn)為AlphaGo Zero的意義在于,“我們希望利用這樣的算法突破來幫助解決現(xiàn)實世界的各種緊迫問題,例如蛋白質(zhì)折疊或新材料設(shè)計。如果我們能在這些問題上取得與AlphaGo同樣的進(jìn)展,就有可能推動人類理解,并對我們的生活產(chǎn)生積極影響?!?/span>

AlphaGo Zero的技術(shù)理論是美好的,但是我們也需要思考的是,這種僅僅依靠神經(jīng)網(wǎng)絡(luò)算法來解決實際問題,其實際應(yīng)用的范圍到底有多大以及效果如何?

人工智能專家、美國北卡羅萊納大學(xué)夏洛特分校洪韜教授表示,早期人工智能火了之后,被神經(jīng)網(wǎng)絡(luò)“解決”的實際問題寥寥無幾;美國密歇根大學(xué)人工智能實驗室主任Satinder Singh也表示,人工智能和人甚至動物相比,所知所能依然極端有限。

回顧AlphaGo成名史

聊聊AlphaGo Zero的下一步


出生于2014年的AlphaGo,2015年就擊敗了樊麾,成為第一個無需讓子即可在19路棋盤上擊敗圍棋職業(yè)棋手的電腦圍棋程序。到了2016年3月,AlphaGo在和李世石的對戰(zhàn)中一舉成名,4:1的勝績讓它成為有史以來第一位非人類的名譽(yù)職業(yè)九段;之后升級版AlphaGo以“Master”的稱號,挑戰(zhàn)了中韓日臺的一流高手,最終60戰(zhàn)全勝;2017年,AlphaGo在浙江烏鎮(zhèn),和我國圍棋選手柯潔進(jìn)行對戰(zhàn),最終以打敗柯潔成為世界第一正式退役謝幕。

那么對于AlphaGo Zero,大家也非常期待它會以什么樣的身份正式亮相,鎂客君覺得可能會是這樣的情景:

今年8月的時候,DeepMind 曾公開宣布,星際爭霸 2 將會是其下一個目標(biāo)。自學(xué)能力如此強(qiáng)的AlphaGo Zero極有可能會在星際爭霸AI中亮相。

和圍棋對弈相比,星際爭霸 AI 也是基于開發(fā)者人工編寫的規(guī)則和策略,此前的對戰(zhàn)中,AI會觀看海量的比賽數(shù)據(jù),然后嘗試各種不同的策略,在反復(fù)的訓(xùn)練和學(xué)習(xí)后,從其中選出最有可能獲勝的一種。可以想象,按照AlphaGo Zero的自我強(qiáng)化學(xué)習(xí)能力,它完全能夠在自我博弈過程中去尋找到最佳的策略。

最后,在看到柯潔發(fā)的這條微博動態(tài)后,

一聲唏噓,在這樣的人工智能面前,人類的學(xué)習(xí)經(jīng)驗價值似乎越來越低,人類會太多余嗎……

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    亚洲精品一区二区三区免| 欧美日韩最近中国黄片| 欧美国产日产在线观看| 亚洲欧美日韩网友自拍| 伊人久久青草地综合婷婷| 亚洲国产成人精品福利| 91亚洲国产日韩在线| 午夜福利网午夜福利网| 手机在线不卡国产视频| 白白操白白在线免费观看| 欧美国产亚洲一区二区三区| 国语对白刺激高潮在线视频| 日本大学生精油按摩在线观看| 亚洲视频一区自拍偷拍另类| 人妻少妇系列中文字幕| 久久免费精品拍拍一区二区| 欧美午夜不卡在线观看| 久草精品视频精品视频精品 | 天堂网中文字幕在线视频| 亚洲国产成人久久99精品| 日韩中文字幕狠狠人妻| 中文字幕一区二区久久综合| 国产在线一区二区三区不卡| 欧美色婷婷综合狠狠爱| 国产欧美精品对白性色| 国产精品第一香蕉视频| 91精品日本在线视频| 一区二区在线激情视频| 国产女优视频一区二区| 色婷婷丁香激情五月天| 日本熟妇五十一区二区三区| 国产av大片一区二区三区| 国产精品视频一区二区秋霞 | 欧美精品久久99九九| 又大又长又粗又黄国产| 国产精品免费视频专区| 亚洲一区二区精品国产av| 熟女免费视频一区二区| 欧美国产亚洲一区二区三区| 大香蕉大香蕉手机在线视频| 99久久精品午夜一区二|