一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

星陳圍棋的研發(fā)背景和星陳技術(shù)

 愛好橋牌 2020-02-03

研發(fā)背景

2016年3月,DeepMind團(tuán)隊(duì)的圍棋AI程序AlphaGo 4:1戰(zhàn)勝世界冠軍李世石九段,成為人工智能歷史上的里程碑事件。2017年5月,改進(jìn)后的AlphaGo再次與柯潔九段對(duì)弈,以3:0獲得完勝。DeepMind團(tuán)隊(duì)發(fā)表在《自然》雜志上的兩篇重磅論文,闡釋了這兩次勝利背后的技術(shù)驅(qū)動(dòng)力。

第一篇論文(Mastering the game of Go with deep neural networks and tree search)主要講述了如何使用監(jiān)督學(xué)習(xí)的方法,通過(guò)深度學(xué)習(xí)技術(shù),學(xué)習(xí)人類棋譜,達(dá)到略高于人類頂尖棋手的水平。這篇論文證明了深度學(xué)習(xí)技術(shù)的優(yōu)越性。戰(zhàn)勝李世石九段的AlphaGo版本就是這篇論文的工程實(shí)現(xiàn)。深度學(xué)習(xí)是一種數(shù)據(jù)驅(qū)動(dòng)的方法,數(shù)據(jù)的數(shù)量和質(zhì)量決定了學(xué)習(xí)效果的上限。這篇論文對(duì)應(yīng)的AlphaGo版本,學(xué)習(xí)的數(shù)據(jù)是人類棋譜,因此其水平受限于人類棋譜的數(shù)量和質(zhì)量。

第二篇論文(Master the game of Go without human knowledge)發(fā)表于2017年,主要思想是使用強(qiáng)化學(xué)習(xí)方法突破人類棋譜水平和數(shù)量的瓶頸。通過(guò)自我對(duì)弈生成棋譜,再學(xué)習(xí)這些棋譜來(lái)自我提高,如此不斷重復(fù),螺旋上升,可以超越上一版的水平。2017年5月3:0擊敗柯潔的版本,就是第二篇論文的產(chǎn)物。基于強(qiáng)化學(xué)習(xí)技術(shù)的AlphaGo-Zero從零開始,學(xué)習(xí)40天后,達(dá)到了遠(yuǎn)超人類頂尖棋手的水平。

AlphaGo-Zero在包括圍棋的完全信息博弈領(lǐng)域開辟了一條嶄新的道路。也給了后繼研究者站在巨人肩膀上持續(xù)工作,改進(jìn)算法的可能空間。AlphaGo-Zero存在一些問(wèn)題,使得它尚未達(dá)到完美:

首先,是水平上限的問(wèn)題。AlphaGo-Zero證明了使用強(qiáng)化學(xué)習(xí)技術(shù)可以提高AI的棋力,但是從論文的實(shí)驗(yàn)數(shù)據(jù)來(lái)看這種棋力增長(zhǎng)的速度越來(lái)越慢,后期趨向停滯。也就是說(shuō),在這一框架下,棋力的提升存在瓶頸。

其次,是資源開銷問(wèn)題。AlphaGo-Zero的方法自對(duì)弈消耗的計(jì)算資源空前巨大,DeepMind團(tuán)隊(duì)為了打造AlphaGo-Zero,使用了2000個(gè)TPU進(jìn)行自對(duì)弈,總耗資過(guò)億元。這樣的算力消耗是中小型學(xué)術(shù)機(jī)構(gòu)、研究團(tuán)隊(duì)難以承受的,需要從算法層面做出改進(jìn),降低訓(xùn)練使用的計(jì)算資源開銷。

第三,是算法的通用性、靈活性、可遷移性的問(wèn)題。AlphaGo-Zero的強(qiáng)化學(xué)習(xí)算法,基于單一、特定的圍棋規(guī)則,從實(shí)現(xiàn)角度來(lái)說(shuō),就是中國(guó)規(guī)則黑貼3.75子。一旦規(guī)則改變,就需要重新訓(xùn)練,之前投入的大量計(jì)算資源也白白浪費(fèi)了。全世界的圍棋規(guī)則并沒有統(tǒng)一,而如果使用強(qiáng)化學(xué)習(xí)方法為各個(gè)圍棋規(guī)則分別訓(xùn)練圍棋AI,會(huì)造成極大的浪費(fèi)。

星陣技術(shù)

星陣圍棋力求使用更少的訓(xùn)練資源,實(shí)現(xiàn)更具通用性、更人性化的高水平圍棋智能。它在AlphaGo的基礎(chǔ)上做了一些技術(shù)創(chuàng)新。星陣的主要貢獻(xiàn)涉及到機(jī)器學(xué)習(xí)的兩個(gè)重要領(lǐng)域,多任務(wù)學(xué)習(xí)和遷移學(xué)習(xí)。

多任務(wù)學(xué)習(xí)

多任務(wù)學(xué)習(xí)(MTL)是機(jī)器學(xué)習(xí)中一個(gè)很有前景的領(lǐng)域,它利用多個(gè)學(xué)習(xí)任務(wù)中包含的有用信息來(lái)幫助每個(gè)任務(wù)學(xué)習(xí)到更為準(zhǔn)確的學(xué)習(xí)器。假定所有任務(wù)或部分任務(wù)的學(xué)習(xí)目標(biāo)是相關(guān)聯(lián)的,那么聯(lián)合多個(gè)學(xué)習(xí)任務(wù)會(huì)比單獨(dú)學(xué)習(xí)它們得到更好的性能。

與AlphaGo只使用策略網(wǎng)絡(luò)(Policy Network)和價(jià)值網(wǎng)絡(luò)(Value Network)不同,星陣同時(shí)學(xué)習(xí)了四個(gè)任務(wù),另外兩個(gè)是領(lǐng)地網(wǎng)絡(luò)(Area Network)和子差網(wǎng)絡(luò)(Score Network)。領(lǐng)地網(wǎng)絡(luò)基于任意給定盤面,分別估算棋盤上每個(gè)交叉點(diǎn)最終歸屬黑棋或白棋的概率。子差網(wǎng)絡(luò)基于任意給定盤面,估算最終黑方子數(shù)與白方子數(shù)的差值。

在領(lǐng)地網(wǎng)絡(luò)和子差網(wǎng)絡(luò)的幫助下,星陣對(duì)局面的判斷更加全面、立體,這也讓星陣學(xué)會(huì)了像人一樣“點(diǎn)目”,而不僅僅是依靠勝率來(lái)下棋。在勝率接近的情況下,星陣會(huì)選擇子差更優(yōu)的下法,將領(lǐng)先的優(yōu)勢(shì)繼續(xù)擴(kuò)大,或者試圖縮小落后的目數(shù),咬住局面尋找機(jī)會(huì)。這一技術(shù)特點(diǎn)也形成了星陣“不退讓圍棋”的棋風(fēng)。

多任務(wù)學(xué)習(xí)能夠行之有效,有其深層次的原因。首先,越多任務(wù)的越多標(biāo)簽,意味著數(shù)據(jù)量的增加,能夠顯著降低過(guò)擬合的風(fēng)險(xiǎn)。其次,越多任務(wù)同時(shí)學(xué)習(xí),越容易捕捉到同一個(gè)隱藏特征的表示,這些隱藏特征能對(duì)多個(gè)任務(wù)同時(shí)產(chǎn)生作用。此外,還可以幫助某些任務(wù)獲取單獨(dú)訓(xùn)練無(wú)法學(xué)習(xí)到的隱藏特征表示。

遷移學(xué)習(xí)

機(jī)器學(xué)習(xí)的模型訓(xùn)練是靠數(shù)據(jù)驅(qū)動(dòng)的,但在很多情況下數(shù)據(jù)極端匱乏,遷移學(xué)習(xí)就是解決數(shù)據(jù)量匱乏的一種重要方法。假定源域具有充足的數(shù)據(jù),并已經(jīng)訓(xùn)練出足以解決源問(wèn)題的模型,遷移學(xué)習(xí)利用源域中的現(xiàn)有模型,幫助在缺乏訓(xùn)練樣本的目標(biāo)域,訓(xùn)練出解決目標(biāo)任務(wù)的模型。使用遷移學(xué)習(xí)有兩個(gè)假設(shè),源域與目標(biāo)域的樣本分布不同;目標(biāo)域嚴(yán)重缺乏帶有標(biāo)簽的樣本。

圍棋規(guī)則并沒有在全世界范圍內(nèi)統(tǒng)一,不同圍棋規(guī)則下的訓(xùn)練樣本并不通用。目前圍棋AI大多使用19路棋盤,中國(guó)規(guī)則黑貼3.75子,此規(guī)則下的訓(xùn)練樣本相對(duì)充足。星陣通過(guò)引入遷移學(xué)習(xí)技術(shù),將中國(guó)規(guī)則黑貼3.75子的模型,用較小的代價(jià),遷移到其他規(guī)則下。遷移學(xué)習(xí)為星陣帶來(lái)了極大的算法靈活性。星陣因此可以進(jìn)行任意路數(shù)的對(duì)局,也可以進(jìn)行任意貼目的對(duì)局,可以進(jìn)行讓子棋的對(duì)弈,完美適應(yīng)中國(guó)規(guī)則數(shù)子法和韓日規(guī)則數(shù)目法。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多

    免费黄片视频美女一区| 一个人的久久精彩视频| 草草视频福利在线观看| 日韩偷拍精品一区二区三区 | 国产欧美日韩综合精品二区| 精品日韩av一区二区三区| 日本道播放一区二区三区| 老司机精品视频免费入口| 欧美一区二区三区在线播放| 成人精品视频在线观看不卡| 98精品永久免费视频| 欧美成人免费夜夜黄啪啪| 欧美午夜一级特黄大片| 黄片免费播放一区二区| 在线欧美精品二区三区| 粉嫩国产一区二区三区在线| 国产精品视频一区麻豆专区| 国产精品欧美一区两区| 国产日韩欧美专区一区| 偷拍偷窥女厕一区二区视频| 精品国产91亚洲一区二区三区 | 精品女同一区二区三区| 日韩成人免费性生活视频| 粉嫩内射av一区二区| 日韩一区二区三区在线日| 国产又粗又长又爽又猛的视频| 一区二区三区四区亚洲专区| 久久国产精品亚州精品毛片| 日韩免费国产91在线| 日韩色婷婷综合在线观看| 免费观看一级欧美大片| 午夜午夜精品一区二区| 东京不热免费观看日本| 久久精品视频就在久久| 日本淫片一区二区三区| 亚洲一区二区三区熟女少妇| 国产精品欧美一区二区三区不卡| 福利新区一区二区人口| 夫妻性生活动态图视频| 中文字幕精品人妻一区| 九九久久精品久久久精品|