讓柯潔痛哭的AlphaGo，耗電量相當(dāng)于12760個(gè)大腦

Loading69 2022-06-08 發(fā)布于四川

展開全文

【新智元導(dǎo)讀】還記得當(dāng)年柯潔和AlphaGo對(duì)戰(zhàn)失利后的失聲痛哭嗎？AlphaGo背后的模型訓(xùn)練要燃燒多少經(jīng)費(fèi)你知道嗎？本文來告訴你答案。

當(dāng)年，19歲的世界圍棋第一人柯潔九段在和AlphaGo的圍棋終極人機(jī)大戰(zhàn)以0:3完敗，這也是人類頂尖高手與這臺(tái)機(jī)器之間的最后一次較量，AlphaGo從此將退隱江湖。

比賽至中局之時(shí)，柯潔再次被AlphaGo的手法驚到了。他先是取下眼鏡捂住自己的臉，繼而在桌子上趴了幾秒鐘，起身?yè)u頭，再次趴下，然后才用手把頭撐起，雙手抹了抹眼睛，又重新戴上眼鏡。

韓國(guó)高手李世石也面對(duì)過AlphaGo，曾在三連敗的情況下扳回一局，連輸兩場(chǎng)的柯潔自然也希望能在最后一句中挽回顏面，很可惜這次柯潔全面落于下風(fēng)。

2017年，機(jī)器學(xué)習(xí)領(lǐng)域最令人興奮的事件之一，莫過于 AlphaGo 戰(zhàn)勝李世石成為世界上最好的圍棋選手了。

同年10月份，DeepMind 發(fā)表了一篇論文，描述了一個(gè)名為 AlphaGo Zero 的新版本。僅僅經(jīng)過36個(gè)小時(shí)的訓(xùn)練，AlphaGo Zero已經(jīng)比擊敗李世石的阿爾法狗更擅長(zhǎng)圍棋了。

不僅如此，AlphaGo Zero 學(xué)會(huì)下圍棋，卻是在沒有任何先驗(yàn)的游戲知識(shí)的情況下(換句話說，就是白板)。

而相比之下，之前發(fā)布的 AlphaGo 則是在人類圍棋比賽數(shù)據(jù)庫(kù)的幫助下進(jìn)行訓(xùn)練的。

這一成就確實(shí)非同尋常，因?yàn)樗砻?，我們可以開發(fā)一個(gè)系統(tǒng)，教會(huì)自己從一張白紙上做一些不瑣碎的任務(wù)，并最終在完成任務(wù)方面比人類做得更好。

它同時(shí)也表明了，現(xiàn)在整個(gè)世界的可能性是觸手可及的，只要想象計(jì)算機(jī)可以教自己做任何人類可以做的事情。

但是取得這樣的進(jìn)步卻并不便宜。

正如人類掌握圍棋需要多年的訓(xùn)練一樣，計(jì)算機(jī)掌握圍棋也需要大量的資源，復(fù)現(xiàn) AlphaGo Zero 的論文中報(bào)道的實(shí)驗(yàn)需要花費(fèi)3500萬美元的算力。

AlphaGo Zero 學(xué)習(xí)下圍棋的方法是通過一種被稱為「self-play」的過程，模擬圍棋對(duì)它自己的比賽。該論文報(bào)告了以下幾點(diǎn):

1.在72個(gè)小時(shí)里，共進(jìn)行了490萬場(chǎng)比賽

2. 在自我游戲過程中，每個(gè)動(dòng)作大約占用0.4秒的時(shí)間

3.在一臺(tái)機(jī)器上執(zhí)行自我游戲，該機(jī)器包含4個(gè) TPU

不過，這里有一個(gè)數(shù)字沒有被公布出來，就是在三天的過程中使用的進(jìn)行自我游戲的機(jī)器的數(shù)量。按照平均每場(chǎng)圍棋211步的估計(jì)值，得到了最終的1595臺(tái)自動(dòng)對(duì)戰(zhàn)機(jī)器的結(jié)果，或者說6380個(gè) TPU。

按照每個(gè)TPU每小時(shí)6.50美元的報(bào)價(jià)(截至2018年3月) ，僅僅進(jìn)行復(fù)現(xiàn)就要花費(fèi)2,986,822美元。

而這只是他們論文中的兩個(gè)實(shí)驗(yàn)中的一個(gè)小實(shí)驗(yàn):

「隨后，我們使用一個(gè)更大的神經(jīng)網(wǎng)絡(luò)，將我們的強(qiáng)化學(xué)習(xí)管道應(yīng)用于 AlphaGo Zero 的第二個(gè)實(shí)例，并且持續(xù)時(shí)間更長(zhǎng)。訓(xùn)練再次從完全隨機(jī)的行為開始，持續(xù)了大約40天」

「在訓(xùn)練過程中，產(chǎn)生了2900萬場(chǎng)自我比賽」

在為期40天的這項(xiàng)實(shí)驗(yàn)中，使用的神經(jīng)網(wǎng)絡(luò)的層數(shù)(大小相同)是為期3天的實(shí)驗(yàn)中使用的網(wǎng)絡(luò)的兩倍，因此，假設(shè)實(shí)驗(yàn)沒有其他任何改變，一個(gè)動(dòng)作所需的計(jì)算機(jī)思考時(shí)間大約是之前的兩倍。

考慮到這一點(diǎn)，可以大概求出最終花費(fèi)了35,354,222美元的TPU來復(fù)現(xiàn)這個(gè)為期40天的實(shí)驗(yàn)。

就 DeepMind 運(yùn)行這項(xiàng)實(shí)驗(yàn)的實(shí)際成本而言，還有其它因素需要考慮，比如研究人員的薪水等。但是對(duì)于谷歌以外的人來說，這個(gè)數(shù)字對(duì)于重復(fù)這個(gè)實(shí)驗(yàn)的成本是一個(gè)很好的估計(jì)。

另一種看待 AlphaGo Zero 實(shí)驗(yàn)成本的方式是想象需要多少人的大腦來提供同樣數(shù)量的能量。

圖：當(dāng)機(jī)器接管后，他們將更有效地使用我們的大腦

一個(gè)TPU消耗大約40瓦，人腦大約是20瓦。所以，這個(gè)實(shí)驗(yàn)的耗電量相當(dāng)于12760個(gè)人的大腦連續(xù)運(yùn)轉(zhuǎn)。

這種耗電量和金錢的消耗并不是說AlphaGo Zero不是一個(gè)驚人的成就，它向世界展示了建立系統(tǒng)來自學(xué)完成復(fù)雜任務(wù)是可能的，只是開發(fā)這種通用技術(shù)還沒有提供給大眾而已。

也就是說，許多具有現(xiàn)實(shí)價(jià)值的問題并不需要超人一般的表現(xiàn)。也許，通過應(yīng)用領(lǐng)域知識(shí)和 AlphaGo Zero 提供的技術(shù)，未來這些問題可以用比創(chuàng)建 AlphaGo Zero 便宜得多的成本得到解決。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： Loading69 > 《AlphaGo》

舉報(bào)/認(rèn)領(lǐng)