編者按 科學(xué)就是一個可以被證偽的學(xué)說。任何一個科學(xué)論述,都要能夠被實驗檢驗。比如說,要科學(xué)地解釋定義什么是自我意識,其本質(zhì)就是設(shè)計一個實驗。比如觀察動物在鏡子里看到自己時候的行為,是尋找鏡子后面的另一只動物,還是知道鏡子里就是自己。通過做類似的實驗,我們可以判斷,貓、老鼠、猴子等等有沒有自我意識。 人工智能領(lǐng)域中,最重要的概念就是智能。但什么樣的實驗?zāi)軌蚨x”智能“這個概念?大家常常利用圖靈測試這個實驗來定義有沒有智能。但這一定義真的合適嗎?真的有利于人工智能的發(fā)展嗎?有沒有更好的實驗定義?這篇文章深入討論了這個問題。 ——文小剛
隨著人工智能成為熱門話題,“圖靈”(Alan M. Turing,1912.6.23~1954.6.7)這個名字也逐漸廣為人知。一個常見的說法是把他提出的“圖靈測試”作為人工智能的標(biāo)準(zhǔn)或定義,并以此為由稱他為“人工智能之父”。我下面要反駁這種說法,理由是:
我無意貶低圖靈對人工智能的重大貢獻(xiàn),只是試圖澄清一些誤解,并指出這些誤解在當(dāng)前人工智能討論中所造成的問題。我不希望這些問題被錯誤地算在圖靈名下。 1圖靈和人工智能到底是什么關(guān)系? 圖靈大概是最早認(rèn)識到“計算機”除了完成數(shù)值計算之外還能從事其它智力活動的人之一,并且是第一個對此進(jìn)行了系統(tǒng)思考和深入分析的。有證據(jù)表明,他早在1941年就開始考慮在計算機上實現(xiàn)“智能”(或者說“思維”,在這個討論中這兩個詞差別不大)的可能性了,并在1948年寫了以“智能機器”為題的報告,盡管他最廣為人知的有關(guān)著述是在1950年發(fā)表的《計算機器與智能》[1]。 在這篇歷史文獻(xiàn)中,圖靈開宗明義地要大家考慮機器是否能思維的問題。為了避免“思維”一詞在解釋上的混亂,他主張只要計算機在語言行為(對話)上和人沒有明顯差別,就應(yīng)該算是“能思維”或“有智能”了。這就是后來所稱的“圖靈測試”。他認(rèn)為可以編制一個“兒童”程序,然后對其進(jìn)行教育以達(dá)到成人的智力水平。圖靈自己在1948年曾和朋友合作設(shè)計過一個國際象棋程序,但在他1954年去世之前沒能把他關(guān)于智能機器的設(shè)想充分展開。 阿蘭·圖靈 “人工智能”作為一個研究領(lǐng)域,公認(rèn)是在1956年夏的達(dá)特茅斯會議上形成的。這個只有十來個人參加的會議不但給這個領(lǐng)域取了名,而且涌現(xiàn)了其主要奠基人:麥卡錫、明斯基、紐維爾、司馬賀。這四個人,以及他們分別在斯坦福、麻省理工、卡內(nèi)基梅隆建立的研究中心,主導(dǎo)了這個領(lǐng)域前幾十年的研究方向。他們遠(yuǎn)比圖靈更有資格被稱為“人工智能之父”,而圖靈更適合被稱為“先行者”。 比名號更重要的是:這幾位對智能的理解和圖靈有重要的差別。他們當(dāng)中沒有一個是以“通過圖靈測試”作為自己研究工作的目標(biāo)的,并且都或明或暗地對這個測試表示過不以為然。在達(dá)特茅斯會議的計劃書中,人工智能問題被說成讓計算機的行為符合人們對智能行為的認(rèn)識。以此為起點,主流人工智能一直是以“讓計算機解決那些人腦能解決的問題”為工作定義和劃界標(biāo)準(zhǔn)的,而并不要求系統(tǒng)的具體行為和人不可區(qū)分。以計算機圍棋為例,“把棋下好”和“把棋下的和人下的一樣”是兩個不同的研究目標(biāo)。出于這種考慮,在主流人工智能文獻(xiàn)中提到圖靈測試時,一般都是只承認(rèn)其歷史價值,而否認(rèn)其對研究工作的現(xiàn)實指導(dǎo)意義的。就在不久前,世界上最大的人工智能協(xié)會AAAI的機關(guān)刊物《人工智能雜志》的2016春季號還出了一期??瘉碛懻搱D靈測試的各種替代方案。 以通過圖靈測試為目標(biāo)的對話程序一般稱為“chatbot” 。這個詞和機器人(robot)一詞相近,故常被譯作“聊天機器人”,但其實應(yīng)當(dāng)譯作“聊天程序”,因為它們都是專用軟件,而非專用硬件。這類工作在歷史上長期被大部分人工智能研究者視為旁門左道或嘩眾取寵,其中最著名的例子的是魏增鮑姆在1966年編寫的“伊莉莎”(ELIZA)。這個程序只憑一些簡單的花招就使得很多使用者相信他們是在和一個人對話,以至于后來產(chǎn)生了“伊莉莎效應(yīng)”這個概念,專指一個計算機系統(tǒng)的使用者和觀察者以擬人化的思路解釋系統(tǒng)的行為,因此賦予了該系統(tǒng)許多它本來根本不具有的品質(zhì)。這種現(xiàn)象在對“阿爾法狗”的評論中又一次得到了充分展現(xiàn)。近來,主要拜深度學(xué)習(xí)所賜,聊天程序的研發(fā)終于被接納成了主流人工智能的一部分,而圖靈測試在這個領(lǐng)域中自然是一個恰當(dāng)?shù)臉?biāo)準(zhǔn)。但盡管如此,這個標(biāo)準(zhǔn)也不能推廣到人工智能的其它子領(lǐng)域。因此,至今以通過圖靈測試為目標(biāo)的工作仍只占人工智能領(lǐng)域中很小的一部分。 2圖靈測試哪里不對了? 反對圖靈測試的意見來自若干不同的方向。 主流人工智能既然是以“解決那些人腦能解決的問題”為目標(biāo),自然是要“解題能力”越高越好,而不在乎“解題行為”是否和人一樣。如果對某個問題有更適合計算機的解決辦法,那為什么還一定要像人腦那樣做呢?圖靈已經(jīng)預(yù)料到,要通過他的測試,計算機要會裝傻和撒謊才行,因為在某些方面(如算數(shù))能力太強就不像人了?!度斯ぶ悄茈s志》專刊所提到的替代圖靈測試的主要理由也是它往往鼓勵系統(tǒng)采用欺騙手段,而非真正展現(xiàn)其認(rèn)知能力。 香農(nóng)(對,就是創(chuàng)建信息論那位)和麥卡錫在1956年的一篇文章中提出圖靈測試的缺點是:“在原則上”它可以通過查一張列出所有問題和相應(yīng)答案的清單來做到,因此和我們關(guān)于思維的直觀不符。具有諷刺意味的是,隨著計算機硬件的發(fā)展,現(xiàn)在的一些“智能系統(tǒng)”的確是按這個“原則”構(gòu)建的。哲學(xué)家塞爾的“中文屋”思想試驗也是假定一個計算機可以用這個平淡無奇的辦法通過圖靈測試,而他以此論證真正的(強)人工智能不可能實現(xiàn)。 我自己的研究目標(biāo)既非再現(xiàn)人類行為,也非達(dá)到或超越人類問題求解能力,而是讓計算機遵循人所體現(xiàn)的信息加工原則。我認(rèn)為這個原則就是“在知識和資源不足時適應(yīng)環(huán)境”(詳見《王培專欄|人工智能:何為“智”?》,而其它具體的“思維規(guī)律”都是建立在這個基礎(chǔ)上的。根據(jù)這個原則,一個智能系統(tǒng)的行為(輸出)依賴于它的經(jīng)驗(輸入)。由于一個人工智能系統(tǒng)不會有和人類完全相同的經(jīng)驗,它就不會有和人類完全相同的行為,即使其輸入-輸出關(guān)系和人的基本一樣。因此,我的系統(tǒng)不是以通過圖靈測試為目標(biāo)的。比如說,它對一個問題的回答取決于系統(tǒng)自身對此問題知道些什么,而不是一個普通人對此問題知道些什么。 3圖靈錯了嗎? 在這個問題上最令人哭笑不得的一點是:圖靈從來沒有建議過把他的測試作為“思維”或“智能”的定義。 盡管圖靈的文章《計算機器與智能》被廣泛引用,但很多人可能只看了他開頭介紹“模仿游戲”(即后來被稱為“圖靈測試”)的那一部分。我這么說是因為他的下面一段話很少被提到:
這段話說的很明白:圖靈把通過他的測試作為“能思維”的充分條件,而非充分必要條件(也就是定義)。這就是說和人行為一樣必是能思維,但和人行為不同也未必就不算思維。在1952年參加BBC的一個廣播節(jié)目時,圖靈明確表示他沒有試圖給“思維”下一個定義,而只是想在人腦諸多性質(zhì)之間“劃一條線”,來區(qū)分那些智能機器需要具有的和那些不需要具有的[2]。 既然圖靈沒有給“思維”或“智能”下定義,而人工智能的領(lǐng)軍人物們也沒有接受這個測試,那“圖靈測試是人工智能的定義”是誰說的呢?這大致是一些對人工智能半懂不懂的人士的貢獻(xiàn),而好萊塢也難逃其咎。一旦這個簡單易懂的說法傳播開來,大概誰也拿它沒有辦法了,更不要說圖靈英年早逝,沒機會反復(fù)辟謠了。 綜上所述,在主流人工智能歷史上,圖靈測試從未被接受為標(biāo)準(zhǔn)或定義,而圖靈也不是人工智能主流研究規(guī)范的奠基人,盡管他的觀點的確對很多人產(chǎn)生了不同程度的影響。圖靈測試的弊端是“和人的行為完全一樣”不應(yīng)被當(dāng)作“智能”的必要條件。雖然實際上圖靈從來也沒有這個意思,他的文章的確給了不少人這種誤解。 盡管如此,我仍認(rèn)為圖靈對人工智能做出了巨大的貢獻(xiàn)。這體現(xiàn)在下列方面:
在我看來,圖靈的主要局限是沒有看到軀體和經(jīng)驗對概念和信念的重要影響。一個沒有腿和眼的機器人完全可以有智能,但是不會有和人類完全相同的思想,因此也就不會有和人類完全相同的行為,即使我們只關(guān)注其語言行為也是如此。如果這個系統(tǒng)的智力足夠高,它的確可能靠對人類的知識通過圖靈測試(所以這個測試可以作為智能的充分條件),但這不應(yīng)該是我們說它有智能的唯一依據(jù)。 4和我們有什么關(guān)系嗎? 以上分析的目的不僅僅是澄清歷史事實,更是要據(jù)此評說目前的狀況。 把圖靈測試作為人工智能的標(biāo)準(zhǔn)或定義直接導(dǎo)致了對這一領(lǐng)域成果評價的片面化、膚淺化、娛樂化。既然一個計算機系統(tǒng)不可能在所有方面同等水平地和人相像,那么聚焦于其外在行為的似人程度就意味著忽略其內(nèi)在機制的似人程度。在最近的新聞和討論中不難發(fā)現(xiàn)這一傾向的種種表現(xiàn):
這些工作不能說毫無意義,但仍是主要靠伊莉莎效應(yīng)來贏得承認(rèn),即靠觀眾想“只有聰明人能這么做,現(xiàn)在這個計算機做到了,所以它一定聰明”,而完全忽略這些行為在計算機中的產(chǎn)生機制,尤其是它們和系統(tǒng)設(shè)計、以往經(jīng)歷、當(dāng)前情境等因素的關(guān)系。比如說,盡管有理由認(rèn)為一個人工智能系統(tǒng)可能有情感機制和審美能力(詳情以后再說),那也不意味著它注定會“美我們之所美”、“愛我們之所愛”。賈府上的焦大是不愛林妹妹的,但這不說明他沒有愛憎。實際上如果他表現(xiàn)出愛她,那反而不是真感情了。既然賈寶玉的情感和審美標(biāo)準(zhǔn)不能推廣到其他人,有什么理由認(rèn)為人類的情感和審美標(biāo)準(zhǔn)可以推廣到其他智能物種呢? 一個領(lǐng)域的成果評價標(biāo)準(zhǔn)如果是不合適的,后果會很嚴(yán)重。不但研發(fā)工作會被誤導(dǎo),公眾的期望也會落空,而且會錯過真正有價值的方向。在人工智能領(lǐng)域中,這仍然是個大問題。 參考文獻(xiàn) [1] Alan Turing, Computing Machinery and Intelligence, Mind 49: 433-460, 1950 [2] Alan Turing, Richard Braithwaite, Geoffrey Jefferson, Max Newman, Can Automatic Calculating Machines Be Said To Think? A broadcast discussion on BBC Third Programme, January 14, 1952 |
|