【新智元導(dǎo)讀】還記得當(dāng)年柯潔和AlphaGo對(duì)戰(zhàn)失利后的失聲痛哭嗎?AlphaGo背后的模型訓(xùn)練要燃燒多少經(jīng)費(fèi)你知道嗎?本文來告訴你答案。當(dāng)年,19歲的世界圍棋第一人柯潔九段在和AlphaGo的圍棋終極人機(jī)大戰(zhàn)以0:3完敗,這也是人類頂尖高手與這臺(tái)機(jī)器之間的最后一次較量,AlphaGo從此將退隱江湖。 比賽至中局之時(shí),柯潔再次被AlphaGo的手法驚到了。他先是取下眼鏡捂住自己的臉,繼而在桌子上趴了幾秒鐘,起身?yè)u頭,再次趴下,然后才用手把頭撐起,雙手抹了抹眼睛,又重新戴上眼鏡。 韓國(guó)高手李世石也面對(duì)過AlphaGo,曾在三連敗的情況下扳回一局,連輸兩場(chǎng)的柯潔自然也希望能在最后一句中挽回顏面,很可惜這次柯潔全面落于下風(fēng)。 2017年,機(jī)器學(xué)習(xí)領(lǐng)域最令人興奮的事件之一,莫過于 AlphaGo 戰(zhàn)勝李世石成為世界上最好的圍棋選手了。 同年10月份,DeepMind 發(fā)表了一篇論文,描述了一個(gè)名為 AlphaGo Zero 的新版本。僅僅經(jīng)過36個(gè)小時(shí)的訓(xùn)練,AlphaGo Zero已經(jīng)比擊敗李世石的阿爾法狗更擅長(zhǎng)圍棋了。 不僅如此,AlphaGo Zero 學(xué)會(huì)下圍棋,卻是在沒有任何先驗(yàn)的游戲知識(shí)的情況下(換句話說,就是白板)。 而相比之下,之前發(fā)布的 AlphaGo 則是在人類圍棋比賽數(shù)據(jù)庫(kù)的幫助下進(jìn)行訓(xùn)練的。 這一成就確實(shí)非同尋常,因?yàn)樗砻?,我們可以開發(fā)一個(gè)系統(tǒng),教會(huì)自己從一張白紙上做一些不瑣碎的任務(wù),并最終在完成任務(wù)方面比人類做得更好。 它同時(shí)也表明了,現(xiàn)在整個(gè)世界的可能性是觸手可及的,只要想象計(jì)算機(jī)可以教自己做任何人類可以做的事情。 但是取得這樣的進(jìn)步卻并不便宜。 正如人類掌握圍棋需要多年的訓(xùn)練一樣,計(jì)算機(jī)掌握圍棋也需要大量的資源,復(fù)現(xiàn) AlphaGo Zero 的論文中報(bào)道的實(shí)驗(yàn)需要花費(fèi)3500萬美元的算力。 AlphaGo Zero 學(xué)習(xí)下圍棋的方法是通過一種被稱為「self-play」的過程,模擬圍棋對(duì)它自己的比賽。該論文報(bào)告了以下幾點(diǎn): 1.在72個(gè)小時(shí)里,共進(jìn)行了490萬場(chǎng)比賽 2. 在自我游戲過程中,每個(gè)動(dòng)作大約占用0.4秒的時(shí)間 3.在一臺(tái)機(jī)器上執(zhí)行自我游戲,該機(jī)器包含4個(gè) TPU 不過,這里有一個(gè)數(shù)字沒有被公布出來,就是在三天的過程中使用的進(jìn)行自我游戲的機(jī)器的數(shù)量。按照平均每場(chǎng)圍棋211步的估計(jì)值,得到了最終的1595臺(tái)自動(dòng)對(duì)戰(zhàn)機(jī)器的結(jié)果,或者說6380個(gè) TPU。 按照每個(gè)TPU每小時(shí)6.50美元的報(bào)價(jià)(截至2018年3月) ,僅僅進(jìn)行復(fù)現(xiàn)就要花費(fèi)2,986,822美元。 而這只是他們論文中的兩個(gè)實(shí)驗(yàn)中的一個(gè)小實(shí)驗(yàn): 「隨后,我們使用一個(gè)更大的神經(jīng)網(wǎng)絡(luò),將我們的強(qiáng)化學(xué)習(xí)管道應(yīng)用于 AlphaGo Zero 的第二個(gè)實(shí)例,并且持續(xù)時(shí)間更長(zhǎng)。訓(xùn)練再次從完全隨機(jī)的行為開始,持續(xù)了大約40天」 「在訓(xùn)練過程中,產(chǎn)生了2900萬場(chǎng)自我比賽」 在為期40天的這項(xiàng)實(shí)驗(yàn)中,使用的神經(jīng)網(wǎng)絡(luò)的層數(shù)(大小相同)是為期3天的實(shí)驗(yàn)中使用的網(wǎng)絡(luò)的兩倍,因此,假設(shè)實(shí)驗(yàn)沒有其他任何改變,一個(gè)動(dòng)作所需的計(jì)算機(jī)思考時(shí)間大約是之前的兩倍。 考慮到這一點(diǎn),可以大概求出最終花費(fèi)了35,354,222美元的TPU來復(fù)現(xiàn)這個(gè)為期40天的實(shí)驗(yàn)。 就 DeepMind 運(yùn)行這項(xiàng)實(shí)驗(yàn)的實(shí)際成本而言,還有其它因素需要考慮,比如研究人員的薪水等。但是對(duì)于谷歌以外的人來說,這個(gè)數(shù)字對(duì)于重復(fù)這個(gè)實(shí)驗(yàn)的成本是一個(gè)很好的估計(jì)。 另一種看待 AlphaGo Zero 實(shí)驗(yàn)成本的方式是想象需要多少人的大腦來提供同樣數(shù)量的能量。 圖:當(dāng)機(jī)器接管后,他們將更有效地使用我們的大腦 一個(gè)TPU消耗大約40瓦,人腦大約是20瓦。所以,這個(gè)實(shí)驗(yàn)的耗電量相當(dāng)于12760個(gè)人的大腦連續(xù)運(yùn)轉(zhuǎn)。 這種耗電量和金錢的消耗并不是說AlphaGo Zero不是一個(gè)驚人的成就,它向世界展示了建立系統(tǒng)來自學(xué)完成復(fù)雜任務(wù)是可能的,只是開發(fā)這種通用技術(shù)還沒有提供給大眾而已。 也就是說,許多具有現(xiàn)實(shí)價(jià)值的問題并不需要超人一般的表現(xiàn)。也許,通過應(yīng)用領(lǐng)域知識(shí)和 AlphaGo Zero 提供的技術(shù),未來這些問題可以用比創(chuàng)建 AlphaGo Zero 便宜得多的成本得到解決。 |
|