比AlphaGo更神秘解讀谷歌自學(xué)習(xí)機(jī)器人項(xiàng)目

天道酬勤YXJ1 2017-02-01

展開全文

智東西（公眾號(hào)：zhidxcom）

編 | 元琛

導(dǎo)語：從AlphaGo開始，人機(jī)大戰(zhàn)層出不窮，機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的概念也越發(fā)普及。實(shí)現(xiàn)強(qiáng)人工智能的捷徑，似乎就在眼前。

有這樣一個(gè)場(chǎng)景：兩個(gè)機(jī)器人面對(duì)兩扇關(guān)著的門，他們向前伸出“手”，但卻完全沒有抓住門把手。于是他們重新開始，這一次他們正面觸到了門把手，還敲響了門框。他們又試一次，又試一次，不斷嘗試。經(jīng)過幾個(gè)小時(shí)的試驗(yàn)和錯(cuò)誤，最后，他們可以輕松地抓住門把手，把門打開。

一直以來，雖然有很多類型的機(jī)器人都可以做到這件事，但上面描述的這兩個(gè)機(jī)器人明顯有所不同：它們由谷歌研發(fā)，具備自我學(xué)習(xí)的能力，是依靠自己學(xué)會(huì)了“開門”。依靠一種稱為“強(qiáng)化學(xué)習(xí)”的技術(shù)，他們訓(xùn)練自己執(zhí)行一個(gè)特定的任務(wù)，一遍又一遍地重復(fù)它，仔細(xì)記錄這個(gè)過程。 大名鼎鼎的圍棋人工智能AlphaGo正是基于相同的技術(shù)原理。現(xiàn)在，它將機(jī)器人技術(shù)推向了一個(gè)全新的領(lǐng)域。

除了幾個(gè)視頻和兩篇博客文章外，谷歌拒絕對(duì)外透露這項(xiàng)研究。目前已知的是該研究由加利福尼亞大學(xué)伯克利分校的機(jī)器人學(xué)家謝爾蓋·萊文主導(dǎo)。當(dāng)然，該項(xiàng)目仍處于早期階段。但對(duì)于機(jī)器行業(yè)來說，它顯然代表了一個(gè)更寬廣的可能性——機(jī)器可以自己學(xué)習(xí)做事，而不用嚴(yán)格遵守工程師預(yù)先設(shè)計(jì)的程序辦事。

人們都希望，強(qiáng)化學(xué)習(xí)和相關(guān)方法可以促進(jìn)自動(dòng)機(jī)器人的發(fā)展。畢竟。這些方法已經(jīng)成功地促進(jìn)了純數(shù)字領(lǐng)域中許多技術(shù)的進(jìn)步。而隨著上述技術(shù)的不斷進(jìn)步，機(jī)器人硬件也在迅速演變。在那些谷歌發(fā)布的網(wǎng)絡(luò)視頻中，機(jī)器人的這一改變也被強(qiáng)調(diào)提出。諷刺的是，這樣的技術(shù)研究完全無視了特朗普政府要給美國工業(yè)帶來更多的工作機(jī)會(huì)的誓言——美國企業(yè)已經(jīng)用機(jī)器人取代了大量的人類工作，而現(xiàn)在研究人員正在研發(fā)的自主學(xué)習(xí)機(jī)器無疑將能夠替代更多的人類工作。

Ronnie Vuine與哈佛認(rèn)知科學(xué)家Joscha Bach一起創(chuàng)立了機(jī)器人公司Micropsi。“我們感興趣的是能夠與人類互動(dòng)的機(jī)器人，”他說， “想象一下，機(jī)器人完成一部分工作后把它交還給人類手中，或者從人類手中領(lǐng)取一部分工作。今天，這樣的設(shè)想還未能實(shí)現(xiàn)?！?/p>

1.試驗(yàn)和錯(cuò)誤

強(qiáng)化學(xué)習(xí)并不是一項(xiàng)全新技術(shù)。兩年前，當(dāng)Google收購倫敦人工智能實(shí)驗(yàn)室DeepMind并使用這項(xiàng)技術(shù)構(gòu)建以超人力方式玩經(jīng)典“雅達(dá)利”游戲的系統(tǒng)時(shí)，強(qiáng)化學(xué)習(xí)就已經(jīng)出現(xiàn)了。這個(gè)游戲需要用一個(gè)槳和一個(gè)彈跳球來擊倒一堵磚墻，經(jīng)過訓(xùn)練學(xué)習(xí)，DeepMind的AI最終可以令人難以置信地輕松通關(guān)。

然后，實(shí)驗(yàn)室對(duì)人工智能下圍棋運(yùn)用了相同的技術(shù)，提前計(jì)劃十年突破了這項(xiàng)歷史悠久的游戲。 DeepMind創(chuàng)始人Demis Hassabis和他的團(tuán)隊(duì)將大約3000萬局圍棋記錄植入到機(jī)器的深層神經(jīng)網(wǎng)絡(luò) ——這是一種模式識(shí)別系統(tǒng)，它能夠通過分析大量的數(shù)據(jù)來完成學(xué)習(xí)任務(wù)。一旦系統(tǒng)學(xué)習(xí)了某項(xiàng)游戲，它就會(huì)通過和自己不斷的“對(duì)戰(zhàn)”，來達(dá)到更高競(jìng)技水平。

比AlphaGo更神秘解讀谷歌自學(xué)習(xí)機(jī)器人項(xiàng)目

強(qiáng)化學(xué)習(xí)特別適合游戲。該技術(shù)由“獎(jiǎng)勵(lì)功能”驅(qū)動(dòng)，系統(tǒng)會(huì)自動(dòng)追蹤哪些動(dòng)作能夠帶來獎(jiǎng)勵(lì)，哪些不帶獎(jiǎng)勵(lì)。在游戲中，獎(jiǎng)勵(lì)是顯而易見的：更多的積分。但是在現(xiàn)實(shí)生活中，獎(jiǎng)勵(lì)功能有時(shí)不太明顯，有時(shí)則會(huì)更多。比如，對(duì)于谷歌的機(jī)器人來說，獎(jiǎng)勵(lì)就是成功打開門。

2.廣闊新天地

當(dāng)然，打開門只是進(jìn)入新世界的一小步。要實(shí)現(xiàn)更遠(yuǎn)大的目標(biāo)，對(duì)于研究項(xiàng)目來說正變得極為復(fù)雜、需要極速更新，更不用說也是極為昂貴的。這就解釋了一大疑問：為什么許多研究人員在將強(qiáng)化學(xué)習(xí)應(yīng)用到現(xiàn)實(shí)世界，以改進(jìn)機(jī)器人的游戲能力之前，要使用數(shù)字模擬來進(jìn)行探索。

比如OpenAI，它是由埃隆·馬斯克投入十億美元?jiǎng)?chuàng)建的人工智能實(shí)驗(yàn)室。它構(gòu)建了一個(gè)名為Universe的掃描軟件平臺(tái)，其中AI“代理”可以使用強(qiáng)化學(xué)習(xí)來掌握從游戲到Web瀏覽器的各種計(jì)算機(jī)應(yīng)用程序。在理論上，這可以幫助實(shí)現(xiàn)現(xiàn)實(shí)生活中的智能操作代理。如果你能教一個(gè)AI玩一個(gè)駕駛游戲，同理，你可以教會(huì)它開車。

Prowler.io是英國劍橋的一家創(chuàng)業(yè)公司，它正沿著同樣的道路前進(jìn)。今天，這個(gè)小團(tuán)隊(duì)的研究人員正在建立可以學(xué)習(xí)指導(dǎo)大型多人游戲《虛擬世界》的代理。但隨著時(shí)間的推移，他們計(jì)劃將這項(xiàng)工作擴(kuò)展到現(xiàn)實(shí)世界中的機(jī)器人和無人駕駛汽車。

當(dāng)今，真正的無人駕駛汽車不應(yīng)該是具體的如何操作問題，不應(yīng)是基于工程師編制的那一套龐大的規(guī)則做出決定。因?yàn)檫@并非是真正的自動(dòng)駕駛，并非是真正的自主決策。 Prowler的創(chuàng)始人兼CEO Vishal Chatrath將他以前的AI公司賣給了蘋果公司，他認(rèn)為強(qiáng)化學(xué)習(xí)和相關(guān)技術(shù)對(duì)于建設(shè)真正的無人駕駛汽車至關(guān)重要 ——汽車自己可以做一切人類駕駛者能做的事情。

比AlphaGo更神秘解讀谷歌自學(xué)習(xí)機(jī)器人項(xiàng)目

在柏林，如同Google一樣，Micropsi已經(jīng)將這些技術(shù)推廣到現(xiàn)實(shí)中。該公司成立于2014年，著眼于為制造業(yè)及其他工業(yè)目的來制造機(jī)器人。它首先建立了機(jī)器人模擬系統(tǒng)，通過強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練。公司網(wǎng)站上的視頻展示了這樣一個(gè)系統(tǒng)：一個(gè)虛擬機(jī)器人手臂正學(xué)習(xí)用虛擬手指的指尖來使虛擬桿保持平衡。該系統(tǒng)模擬重力和機(jī)器人動(dòng)作，并且獎(jiǎng)勵(lì)功能自動(dòng)追蹤該虛擬桿掉落與否。 “為使虛擬桿不掉落，我們每秒鐘給機(jī)器人一個(gè)cookie，”Vuine說。 “如果桿掉了，就懲罰它。”現(xiàn)在，公司正在將這些相同的技術(shù)應(yīng)用到一個(gè)稱為通用機(jī)器人的現(xiàn)實(shí)機(jī)器上。

3.現(xiàn)實(shí)的問題

麻煩的是，現(xiàn)實(shí)世界也需要新技術(shù)。Vuine聲稱他的公司可以解決計(jì)算機(jī)模擬中出現(xiàn)的任何機(jī)器人問題，但模擬畢竟只是模擬，并非現(xiàn)實(shí)。 “如果你在模擬中做到了，那么在現(xiàn)實(shí)中也不一定可以做到，”他承認(rèn)這一點(diǎn)，“現(xiàn)實(shí)情況很難完全模擬出來?！睋Q句話說，你可以通過模擬來構(gòu)建一個(gè)能夠保持虛擬桿平衡的機(jī)器人，但是要教它將插頭插入插座，則需要真正的插頭和插座?！?/p>

由于有一個(gè)明顯并簡(jiǎn)單的獎(jiǎng)勵(lì)機(jī)制，將插頭插入插座的任務(wù)無疑十分容易。然而，現(xiàn)實(shí)中的大多數(shù)行為更難以評(píng)價(jià)。當(dāng)你將諸多任務(wù)串在一起時(shí)，這些獎(jiǎng)勵(lì)系統(tǒng)會(huì)變得非常復(fù)雜。 Carnegie Mellon研究員Abhinav Gupta正在使用來自Google的資金探索類似技術(shù)，希望解決如何在短期內(nèi)有效地使用強(qiáng)化學(xué)習(xí)的問題。

Chatrath認(rèn)為，至少現(xiàn)在，要現(xiàn)實(shí)世界中真正應(yīng)用AI，最好方法是先通過那些小而簡(jiǎn)單的機(jī)器實(shí)現(xiàn)，比如說玩具。這一設(shè)想的原理很簡(jiǎn)單：系統(tǒng)可以通過學(xué)習(xí)使用簡(jiǎn)單的機(jī)器，將他們所學(xué)到的應(yīng)用到更復(fù)雜的機(jī)器上。很明顯，機(jī)器人不只是有一種學(xué)習(xí)方式。他們的學(xué)習(xí)方法有很多。

機(jī)器們已經(jīng)開始學(xué)習(xí)了。

原文來自：wired

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：天道酬勤YXJ1 > 《文件夾1》

舉報(bào)/認(rèn)領(lǐng)