機器之心原創(chuàng) 作者:汪汪
這個人工智能像你一樣學(xué)習(xí)寫字 假設(shè)你從來沒有見過菠蘿。有一天,有人送了你一個菠蘿。盡管你這輩子只見過這一個菠蘿,但你只用一眼就看出了菠蘿的特征。第二天,你去水果店,很快就能從一堆蘋果、葡萄、柚子中認出菠蘿來。你甚至還能在紙上畫出菠蘿的簡筆畫。 這種「僅從一個例子就形成概念」的能力對人來說很容易。然而,盡管人工智能近年來取得了長足的進步,但要讓機器做到這一點,卻難于上青天,因為目前的人工智能通常需要從大量的數(shù)據(jù)中進行學(xué)習(xí),你得讓它看成千上萬張菠蘿的圖片才行。 不過,這個事實或許從今天開始改變了。今天,一篇人工智能論文登上了《科學(xué)》雜志的封面,為人們帶來了人工智能領(lǐng)域的一個重大突破:三名分別來自麻省理工學(xué)院、紐約大學(xué)和多倫多大學(xué)的研究者開發(fā)了一個「只看一眼就會寫字」的計算機系統(tǒng)。(論文Human-level concept learning through probabilistic program induction見文末,或回復(fù)12可下載pdf格式。) 《科學(xué)》雜志封面 只需向這個系統(tǒng)展示一個來自陌生文字系統(tǒng)的字符,它就能很快學(xué)到精髓,像人一樣寫出來,甚至還能寫出其他類似的文字——更有甚者,它還通過了圖靈測試。下面就是機器和人寫出的字符。你猜哪些是機器寫出來的?傻傻分不清了吧?
這三名研究者分別是紐約大學(xué)數(shù)據(jù)科學(xué)中心的Brenden Lake,多倫多大學(xué)計算機科學(xué)與統(tǒng)計學(xué)系的Ruslan Salakhutdinov和麻省理工學(xué)院大腦與認知科學(xué)系的Joshua Tenenbaum。他們創(chuàng)造的AI系統(tǒng)能夠迅速學(xué)會寫陌生的文字,從某種意義上說明它領(lǐng)悟到了字符的本質(zhì)特征(也就是字符的整體結(jié)構(gòu)),同時還能識別出非本質(zhì)特征(也就是那些因書寫造成的輕微變異)。
人類的概念具有極大的彈性,因此,盡管許多概念的邊界十分模糊,但我們依然能進行明確的分類。這三位研究者聲稱,他們的系統(tǒng)就抓住了這種彈性。該系統(tǒng)能模仿人類的一個特殊天賦——從少量案例中學(xué)習(xí)新概念。它所根植的計算結(jié)構(gòu)叫做概率程序(probabilistic program),還可能有助于對人類獲得復(fù)雜概念的過程進行建模。 Joshua B. Tenenbaum是麻省理工學(xué)院大腦與認知科學(xué)系的教授,他說:「目前的人工智能領(lǐng)域大都聚焦在對模式進行分類。但是,這種類型的智能所缺少的不是分類或識別的能力,而是思考。所以,盡管我們研究的只是手寫字符,但依然大言不慚地使用『概念』這種詞。因為我們能用字符來研究更加豐富和復(fù)雜的概念。我們能理解字符的來歷和構(gòu)件,也能理解如何用不同的方式來使用字符,并造出新的字符來?!?/p> 通過「圖靈測試」 這篇論文的第一作者Brenden Lake曾在Tenenbaum的團隊中獲得認知科學(xué)博士學(xué)位,如今他是紐約大學(xué)的博士后。根據(jù)Lake的介紹,他們在論文中分析了三個核心原則。這些原則都很通用,既可以用在字符上,也可以用在其他的概念上:
研究者對這個AI系統(tǒng)進行了幾項測試。
與此同時,人類被試也被要求做同樣的事情。最后,研究者要求一組人類裁判(來自亞馬遜土耳其機器人,Amazon Mechanical Turk)分辨出哪些字符是機器寫的,哪些是人類寫的。結(jié)果,裁判的正確率僅為52%,和隨機的結(jié)果差不多。于是,機器通過了所謂的視覺圖靈測試。
傳統(tǒng)的機器學(xué)習(xí)系統(tǒng)(比如手機上的語音識別算法)在某些分類任務(wù)上的表現(xiàn)很好,但它們首先需要大量的數(shù)據(jù)集來進行訓(xùn)練。相比之下,人類只需要少量的例子就能抓住某個概念的精髓。這種「一次性學(xué)習(xí)」正是研究者希望他們的系統(tǒng)能模擬的能力。 學(xué)會如何學(xué)習(xí) 三位研究者采用的方法是「貝葉斯程序?qū)W習(xí)」(BPL,Bayesian Program Learning),能讓計算機系統(tǒng)對人類認知進行很好的模擬。傳統(tǒng)的機器學(xué)習(xí)方法需要大量的數(shù)據(jù)來訓(xùn)練,而這種方法只需要一個粗略的模型,然后使用推理算法來分析案例,補充模型的細節(jié)。 在這篇論文中,研究者的模型只規(guī)定了字符由筆畫組成,筆畫由抬高筆觸來區(qū)分,而筆畫又由更小的子筆畫組成,子筆畫用筆尖速度為零的點來區(qū)分。 有了這個初始模型之后,研究者向AI展現(xiàn)了人類手寫文字的方式,包括筆畫順序等,讓系統(tǒng)學(xué)習(xí)連續(xù)的筆畫和子筆畫之間的統(tǒng)計關(guān)系,以及單個筆畫所能容忍的變異程度。這個系統(tǒng)從未在它所分析的書寫系統(tǒng)上進行過任何訓(xùn)練,它只是推理出了人類寫字的一般規(guī)律。 Tenenbaum說:「每個星期,我們似乎都能讀到機器在人臉識別、語音識別方面與人類旗鼓相當?shù)男侣?。但是,對我這種研究心智的科學(xué)家來說,機器學(xué)習(xí)和人類學(xué)習(xí)之間的鴻溝是巨大的。我們希望彌合這個鴻溝,這是我們的長期目標?!?/p> 各方評價 劍橋大學(xué)的信息工程教授Zoubin Ghahramani說:「我認為這對人工智能、認知科學(xué)和機器學(xué)習(xí)是一個重大的貢獻。深度學(xué)習(xí)目前已取得了重要的成功,這篇論文非常清醒地表明了深度學(xué)習(xí)的局限性,因為深度學(xué)習(xí)需要大量的數(shù)據(jù),并且在這篇論文所描述的任務(wù)上表現(xiàn)很差。這篇論文也展現(xiàn)了實現(xiàn)類人機器學(xué)習(xí)的重要方法?!?/span> 也有一些人對「人工智能超越人腦」這種說法持謹慎態(tài)度。艾倫人工智能研究所的Oren Etzioni說:「我對『超人的表現(xiàn)』這種說法非常謹慎。當然,這個算法確實超過一般人的表現(xiàn),除了達斯汀·霍夫曼?!梗ㄖ富舴蚵餮莸摹队耆恕冯娪啊#?/p> 與深度學(xué)習(xí)優(yōu)勢互補 多倫多大學(xué)和谷歌的人工智能先驅(qū)Geoffrey Hinton說這個研究「令人印象非常深刻」。他說,這個模型能通過視覺圖靈測試,這很重要,「是一個不錯的成就?!笻inton是深度學(xué)習(xí)的奠基者。深度學(xué)習(xí)近年來取得了舉世矚目的成就,被廣泛應(yīng)用在許多領(lǐng)域,例如語音翻譯、圖像識別等,還用在谷歌的圖像搜索和Facebook的人臉識別上,獲得了巨量的數(shù)據(jù)以供學(xué)習(xí)。 Geoffrey Hinton 然而,這篇新論文說「貝葉斯程序?qū)W習(xí)」在某些方面比深度學(xué)習(xí)的表現(xiàn)更好。三位作者和Hinton都禮貌地表明,這兩種方法在不同的任務(wù)上各領(lǐng)風(fēng)騷,假如能彼此借鑒,一定能互相彌補。如果能建出一個混血系統(tǒng),說不定能有更大的提升。在數(shù)據(jù)量巨大但較混亂的情況下,深度學(xué)習(xí)能發(fā)揮優(yōu)勢;而在數(shù)據(jù)量少而清晰的情況下,貝葉斯學(xué)習(xí)占領(lǐng)上風(fēng)。 Hinton說,這篇論文最令人興奮的成果或許是能讓那些宣稱智能計算機系統(tǒng)的學(xué)習(xí)方式與人類完全不同的批評者閉嘴,因為他們的主要論據(jù)正是計算機不能從單個例子中形成概念。 未來 在未來,這種機器學(xué)習(xí)的技術(shù)能夠完成很多任務(wù),例如讀懂手語、提升語音識別軟件的性能等。運用這種方法,或許只用向計算機展示一張人臉照片,它就能從任何角度識別出這個人。它甚至有可能用來制定軍事行動計劃。 當然,盡管這個成果很重要,但它對人工智能領(lǐng)域來說只是一個小小的起點,不代表未來的機器學(xué)習(xí)都必須采用這種方法。正如它顛覆了「計算機如何理解概念」這個課題一樣,在這個日新月異的領(lǐng)域中,極有可能下個月就出現(xiàn)一種新方法,將它甩在后面飛揚的塵土中。 參考:
以下是論文 本文由機器之心原創(chuàng)編譯,轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)。 ------------------------------------------------ 加入機器之心(全職記者/實習(xí)生):hr@almosthuman.cn 投稿或?qū)で髨蟮溃篹ditor@almosthuman.cn 廣告&商務(wù)合作:bd@almosthuman.cn ↓↓↓點擊「閱讀原文」查看機器之心網(wǎng)站,獲取更多精彩內(nèi)容。 |
|