智東西(公眾號(hào):zhidxcom) 編 | 元琛 導(dǎo)語:從AlphaGo開始,人機(jī)大戰(zhàn)層出不窮,機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的概念也越發(fā)普及。實(shí)現(xiàn)強(qiáng)人工智能的捷徑,似乎就在眼前。 有這樣一個(gè)場(chǎng)景:兩個(gè)機(jī)器人面對(duì)兩扇關(guān)著的門,他們向前伸出“手”,但卻完全沒有抓住門把手。 于是他們重新開始,這一次他們正面觸到了門把手,還敲響了門框。 他們又試一次, 又試一次,不斷嘗試。經(jīng)過幾個(gè)小時(shí)的試驗(yàn)和錯(cuò)誤, 最后,他們可以輕松地抓住門把手,把門打開。 一直以來,雖然有很多類型的機(jī)器人都可以做到這件事,但上面描述的這兩個(gè)機(jī)器人明顯有所不同:它們由谷歌研發(fā),具備自我學(xué)習(xí)的能力,是依靠自己學(xué)會(huì)了“開門”。依靠一種稱為“強(qiáng)化學(xué)習(xí)”的技術(shù),他們訓(xùn)練自己執(zhí)行一個(gè)特定的任務(wù),一遍又一遍地重復(fù)它,仔細(xì)記錄這個(gè)過程。 大名鼎鼎的圍棋人工智能AlphaGo正是基于相同的技術(shù)原理。現(xiàn)在,它將機(jī)器人技術(shù)推向了一個(gè)全新的領(lǐng)域。 除了幾個(gè)視頻和兩篇博客文章外,谷歌拒絕對(duì)外透露這項(xiàng)研究。目前已知的是該研究由加利福尼亞大學(xué)伯克利分校的機(jī)器人學(xué)家謝爾蓋·萊文主導(dǎo)。當(dāng)然,該項(xiàng)目仍處于早期階段。但對(duì)于機(jī)器行業(yè)來說,它顯然代表了一個(gè)更寬廣的可能性——機(jī)器可以自己學(xué)習(xí)做事,而不用嚴(yán)格遵守工程師預(yù)先設(shè)計(jì)的程序辦事。 人們都希望,強(qiáng)化學(xué)習(xí)和相關(guān)方法可以促進(jìn)自動(dòng)機(jī)器人的發(fā)展。畢竟。這些方法已經(jīng)成功地促進(jìn)了純數(shù)字領(lǐng)域中許多技術(shù)的進(jìn)步。而隨著上述技術(shù)的不斷進(jìn)步,機(jī)器人硬件也在迅速演變。在那些谷歌發(fā)布的網(wǎng)絡(luò)視頻中,機(jī)器人的這一改變也被強(qiáng)調(diào)提出。諷刺的是,這樣的技術(shù)研究完全無視了特朗普政府要給美國工業(yè)帶來更多的工作機(jī)會(huì)的誓言——美國企業(yè)已經(jīng)用機(jī)器人取代了大量的人類工作,而現(xiàn)在研究人員正在研發(fā)的自主學(xué)習(xí)機(jī)器無疑將能夠替代更多的人類工作。 Ronnie Vuine與哈佛認(rèn)知科學(xué)家Joscha Bach一起創(chuàng)立了機(jī)器人公司Micropsi。“我們感興趣的是能夠與人類互動(dòng)的機(jī)器人,”他說, “想象一下,機(jī)器人完成一部分工作后把它交還給人類手中,或者從人類手中領(lǐng)取一部分工作。 今天,這樣的設(shè)想還未能實(shí)現(xiàn)?!?/p> 1.試驗(yàn)和錯(cuò)誤 強(qiáng)化學(xué)習(xí)并不是一項(xiàng)全新技術(shù)。兩年前,當(dāng)Google收購倫敦人工智能實(shí)驗(yàn)室DeepMind并使用這項(xiàng)技術(shù)構(gòu)建以超人力方式玩經(jīng)典“雅達(dá)利”游戲的系統(tǒng)時(shí),強(qiáng)化學(xué)習(xí)就已經(jīng)出現(xiàn)了。這個(gè)游戲需要用一個(gè)槳和一個(gè)彈跳球來擊倒一堵磚墻,經(jīng)過訓(xùn)練學(xué)習(xí),DeepMind的AI最終可以令人難以置信地輕松通關(guān)。 然后,實(shí)驗(yàn)室對(duì)人工智能下圍棋運(yùn)用了相同的技術(shù),提前計(jì)劃十年突破了這項(xiàng)歷史悠久的游戲。 DeepMind創(chuàng)始人Demis Hassabis和他的團(tuán)隊(duì)將大約3000萬局圍棋記錄植入到機(jī)器的深層神經(jīng)網(wǎng)絡(luò) ——這是一種模式識(shí)別系統(tǒng),它能夠通過分析大量的數(shù)據(jù)來完成學(xué)習(xí)任務(wù)。 一旦系統(tǒng)學(xué)習(xí)了某項(xiàng)游戲,它就會(huì)通過和自己不斷的“對(duì)戰(zhàn)”,來達(dá)到更高競(jìng)技水平。 強(qiáng)化學(xué)習(xí)特別適合游戲。該技術(shù)由“獎(jiǎng)勵(lì)功能”驅(qū)動(dòng),系統(tǒng)會(huì)自動(dòng)追蹤哪些動(dòng)作能夠帶來獎(jiǎng)勵(lì),哪些不帶獎(jiǎng)勵(lì)。在游戲中,獎(jiǎng)勵(lì)是顯而易見的:更多的積分。 但是在現(xiàn)實(shí)生活中,獎(jiǎng)勵(lì)功能有時(shí)不太明顯,有時(shí)則會(huì)更多。比如,對(duì)于谷歌的機(jī)器人來說,獎(jiǎng)勵(lì)就是成功打開門。 2.廣闊新天地 當(dāng)然,打開門只是進(jìn)入新世界的一小步。要實(shí)現(xiàn)更遠(yuǎn)大的目標(biāo),對(duì)于研究項(xiàng)目來說正變得極為復(fù)雜、需要極速更新,更不用說也是極為昂貴的。 這就解釋了一大疑問:為什么許多研究人員在將強(qiáng)化學(xué)習(xí)應(yīng)用到現(xiàn)實(shí)世界,以改進(jìn)機(jī)器人的游戲能力之前,要使用數(shù)字模擬來進(jìn)行探索。 比如OpenAI,它是由埃隆·馬斯克投入十億美元?jiǎng)?chuàng)建的人工智能實(shí)驗(yàn)室。 它構(gòu)建了一個(gè)名為Universe的掃描軟件平臺(tái),其中AI“代理”可以使用強(qiáng)化學(xué)習(xí)來掌握從游戲到Web瀏覽器的各種計(jì)算機(jī)應(yīng)用程序。 在理論上,這可以幫助實(shí)現(xiàn)現(xiàn)實(shí)生活中的智能操作代理。 如果你能教一個(gè)AI玩一個(gè)駕駛游戲,同理,你可以教會(huì)它開車。 Prowler.io是英國劍橋的一家創(chuàng)業(yè)公司,它正沿著同樣的道路前進(jìn)。今天,這個(gè)小團(tuán)隊(duì)的研究人員正在建立可以學(xué)習(xí)指導(dǎo)大型多人游戲《虛擬世界》的代理。 但隨著時(shí)間的推移,他們計(jì)劃將這項(xiàng)工作擴(kuò)展到現(xiàn)實(shí)世界中的機(jī)器人和無人駕駛汽車。 當(dāng)今,真正的無人駕駛汽車不應(yīng)該是具體的如何操作問題,不應(yīng)是基于工程師編制的那一套龐大的規(guī)則做出決定。因?yàn)檫@并非是真正的自動(dòng)駕駛,并非是真正的自主決策。 Prowler的創(chuàng)始人兼CEO Vishal Chatrath將他以前的AI公司賣給了蘋果公司,他認(rèn)為強(qiáng)化學(xué)習(xí)和相關(guān)技術(shù)對(duì)于建設(shè)真正的無人駕駛汽車至關(guān)重要 ——汽車自己可以做一切人類駕駛者能做的事情。 在柏林,如同Google一樣,Micropsi已經(jīng)將這些技術(shù)推廣到現(xiàn)實(shí)中。 該公司成立于2014年,著眼于為制造業(yè)及其他工業(yè)目的來制造機(jī)器人。它首先建立了機(jī)器人模擬系統(tǒng),通過強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練。 公司網(wǎng)站上的視頻展示了這樣一個(gè)系統(tǒng):一個(gè)虛擬機(jī)器人手臂正學(xué)習(xí)用虛擬手指的指尖來使虛擬桿保持平衡。 該系統(tǒng)模擬重力和機(jī)器人動(dòng)作,并且獎(jiǎng)勵(lì)功能自動(dòng)追蹤該虛擬桿掉落與否。 “為使虛擬桿不掉落,我們每秒鐘給機(jī)器人一個(gè)cookie,”Vuine說。 “如果桿掉了,就懲罰它。”現(xiàn)在,公司正在將這些相同的技術(shù)應(yīng)用到一個(gè)稱為通用機(jī)器人的現(xiàn)實(shí)機(jī)器上。 3.現(xiàn)實(shí)的問題 麻煩的是,現(xiàn)實(shí)世界也需要新技術(shù)。Vuine聲稱他的公司可以解決計(jì)算機(jī)模擬中出現(xiàn)的任何機(jī)器人問題,但模擬畢竟只是模擬,并非現(xiàn)實(shí)。 “如果你在模擬中做到了,那么在現(xiàn)實(shí)中也不一定可以做到,”他承認(rèn)這一點(diǎn),“現(xiàn)實(shí)情況很難完全模擬出來?!睋Q句話說,你可以通過模擬來構(gòu)建一個(gè)能夠保持虛擬桿平衡的機(jī)器人,但是要教它將插頭插入插座,則需要真正的插頭和插座?!?/p> 由于有一個(gè)明顯并簡(jiǎn)單的獎(jiǎng)勵(lì)機(jī)制,將插頭插入插座的任務(wù)無疑十分容易。然而,現(xiàn)實(shí)中的大多數(shù)行為更難以評(píng)價(jià)。當(dāng)你將諸多任務(wù)串在一起時(shí),這些獎(jiǎng)勵(lì)系統(tǒng)會(huì)變得非常復(fù)雜。 Carnegie Mellon研究員Abhinav Gupta正在使用來自Google的資金探索類似技術(shù),希望解決如何在短期內(nèi)有效地使用強(qiáng)化學(xué)習(xí)的問題。 Chatrath認(rèn)為,至少現(xiàn)在,要現(xiàn)實(shí)世界中真正應(yīng)用AI,最好方法是先通過那些小而簡(jiǎn)單的機(jī)器實(shí)現(xiàn),比如說玩具 。這一設(shè)想的原理很簡(jiǎn)單:系統(tǒng)可以通過學(xué)習(xí)使用簡(jiǎn)單的機(jī)器,將他們所學(xué)到的應(yīng)用到更復(fù)雜的機(jī)器上。很明顯,機(jī)器人不只是有一種學(xué)習(xí)方式。他們的學(xué)習(xí)方法有很多。 機(jī)器們已經(jīng)開始學(xué)習(xí)了。 原文來自:wired |
|