在某些情況下,我們常常無(wú)法對(duì)自己的行為作出合理的解釋。例如一場(chǎng)說(shuō)走就走的旅行,一次奮不顧身的愛(ài)情,事后人們常常無(wú)法相信當(dāng)時(shí)的自己究竟為什么會(huì)做出那樣的選擇。但這種情況畢竟是少數(shù),大多數(shù)時(shí)候,我們都具有自我解釋和自我認(rèn)知的能力,而這一點(diǎn)也是人類與機(jī)器人(或者說(shuō)人工智能)最大的區(qū)別之一。 一般我們所說(shuō)的人工智能,其實(shí)說(shuō)到底就是由一段程序代碼組成的復(fù)雜運(yùn)算系統(tǒng),這個(gè)系統(tǒng)能夠根據(jù)輸入數(shù)據(jù)得出一個(gè)運(yùn)算結(jié)果,而這個(gè)結(jié)果的外在體現(xiàn)就是人工智能。在通常情況下,我們只能看到輸入的數(shù)據(jù)和最終的運(yùn)算結(jié)果,至于中間的運(yùn)算過(guò)程究竟怎樣,則一概不知。 這會(huì)帶來(lái)兩方面的缺陷:一是當(dāng)整個(gè)系統(tǒng)出現(xiàn)問(wèn)題時(shí),我們無(wú)法迅速準(zhǔn)確地對(duì)問(wèn)題進(jìn)行定位并實(shí)施改進(jìn);二是當(dāng)人工智能得到一個(gè)近乎完美的運(yùn)算結(jié)果時(shí),我們無(wú)法回溯整個(gè)過(guò)程,并從中汲取經(jīng)驗(yàn)(雷鋒網(wǎng)注:也就是我們常說(shuō)的“AI決策黑箱”)。 現(xiàn)在有一個(gè)正在迅速成長(zhǎng)的研究領(lǐng)域,正在試圖改變這一現(xiàn)狀。 拿圖像識(shí)別的場(chǎng)景來(lái)說(shuō)。通常的做法是:我們會(huì)將一系列的圖像數(shù)據(jù)輸入系統(tǒng),然后系統(tǒng)會(huì)以既定的模式識(shí)別出圖像中的物體,并予以標(biāo)記。在現(xiàn)實(shí)場(chǎng)景中,每張圖片包含的信息都非常復(fù)雜,這使得一旦出現(xiàn)標(biāo)記錯(cuò)誤,我們將很難回溯整個(gè)標(biāo)記流程,從而也很難定位并解決問(wèn)題。 日前來(lái)自加州伯克利大學(xué)和Max Planck信息研究所的科學(xué)家們發(fā)明了一種全新的圖像識(shí)別算法,可以解決這一難題。該算法除了能夠按照一般的流程對(duì)圖像信息進(jìn)行識(shí)別并加以標(biāo)記之外,還能對(duì)產(chǎn)生這一標(biāo)記的原始數(shù)據(jù)進(jìn)行記錄,并將這一原始數(shù)據(jù)“翻譯”成人類可以理解的語(yǔ)言備份下來(lái),方便研究者們回溯和檢查。 根據(jù)團(tuán)隊(duì)發(fā)表的論文,目前這一算法還僅限于識(shí)別圖像里的人物動(dòng)作信息(例如這個(gè)人是在打棒球還是騎自行車),而且需要基于兩種不同的數(shù)據(jù)集合的支持。第一個(gè)集合是關(guān)于圖像信息本身的,包括圖像、圖像的初步描述、以及圖像的進(jìn)一步說(shuō)明。例如一個(gè)打棒球的照片,描述信息可以是“圖中有一個(gè)棒球棍,以及一個(gè)人握著它”,說(shuō)明信息可以是“這個(gè)人正在握著棒子揮舞”。第二個(gè)集合是關(guān)于圖像信息解釋的,其中包括三個(gè)圖像的相關(guān)問(wèn)題,而且針對(duì)每個(gè)問(wèn)題要給出10種可能的答案。例如問(wèn):“這個(gè)人是在打棒球么?”一種回答可以是:“不是,因?yàn)閳D中沒(méi)有棒球棍?!?/p> 正是基于上述兩種數(shù)據(jù)集合的支持,當(dāng)某個(gè)利用了這種算法的神經(jīng)網(wǎng)絡(luò)系統(tǒng)被問(wèn)到為什么將圖片描述為“打棒球”時(shí),它就可以追溯到最原始的定位信息,并將之描述出來(lái):例如它檢測(cè)到圖中出現(xiàn)了一個(gè)棒球棍,以及一個(gè)人在握著這根棒球棍揮舞,因此得出結(jié)論這是一個(gè)打棒球的照片。研究者們稱之為“標(biāo)記并解釋”系統(tǒng),因?yàn)樗坏苊枋鲆粡垐D片的內(nèi)容,還能指出為什么得出了這樣的結(jié)論。 微軟首席研究員Kate Crawford在評(píng)論中指出:工程師們已經(jīng)開(kāi)發(fā)出了能夠自動(dòng)識(shí)別不同種類的貓、狗或者其他內(nèi)容的深度學(xué)習(xí)系統(tǒng)。雖然這些系統(tǒng)的表現(xiàn)隨著研究的深入正在變得越來(lái)越好,但人們始終無(wú)法搞清楚背后的邏輯,即為什么系統(tǒng)會(huì)得到這個(gè)結(jié)論。 Kate Crawford的觀點(diǎn)觸及了機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)核心問(wèn)題:當(dāng)一個(gè)算法進(jìn)行自我學(xué)習(xí)時(shí),它只能根據(jù)研究者輸入的數(shù)據(jù)(可以是文本,也可以是圖像或者視頻等),提取出關(guān)鍵的信息,并將這些信息按照只有機(jī)器自己才能理解的方式加以歸類和整理,這一過(guò)程完全不需要人類的直接參與,人類也無(wú)法加以觀察和控制。 波士頓大學(xué)計(jì)算機(jī)學(xué)科的教授Kate Saenko表示:實(shí)際上并沒(méi)有人能夠設(shè)計(jì)一個(gè)深度神經(jīng)網(wǎng)絡(luò)。人們只是設(shè)計(jì)了這個(gè)系統(tǒng)的算法,并提供了相應(yīng)的數(shù)據(jù)集合,剩下的都由系統(tǒng)自主完成。 所以,這就是來(lái)自加州伯克利大學(xué)和Max Planck信息研究所這一最新算法的重要意義:它能將機(jī)器內(nèi)部的邏輯鏈條翻譯出來(lái)展示給人類,而不是簡(jiǎn)單的僅僅給出一個(gè)結(jié)論。 歐洲計(jì)算機(jī)視覺(jué)聯(lián)會(huì)的主席,F(xiàn)acebook訪問(wèn)學(xué)者Devi Parikh表示:這一算法的難點(diǎn)不在于解釋一個(gè)結(jié)論本身,而是如何以人類能理解的方式表述出來(lái)。因?yàn)槿绻憧吹竭^(guò)機(jī)器內(nèi)部的運(yùn)算流程,就會(huì)發(fā)現(xiàn)其中所有的參數(shù)和中間變量都是以數(shù)字的形式出現(xiàn)的,有些數(shù)字甚至長(zhǎng)達(dá)數(shù)百上千位。因此,從內(nèi)部的運(yùn)算邏輯中找到一個(gè)結(jié)論的源頭數(shù)據(jù)或許并不困難,真正困難的是如何將這一長(zhǎng)串?dāng)?shù)字翻譯成人類能夠理解的語(yǔ)言。 雖然目前來(lái)看,來(lái)自加州伯克利大學(xué)和Max Planck信息研究所的這一最新研究成果還非常具有局限性(例如只能識(shí)別人類的動(dòng)作)。但更重要的是,它為我們指明了一種未來(lái)可能出現(xiàn)的現(xiàn)實(shí)場(chǎng)景:不但能夠從機(jī)器那里得到一件事情的具體決策,還能像跟朋友聊天一樣詢問(wèn)它得到這一結(jié)論的原因。未來(lái),隨著我們賦予機(jī)器越來(lái)越關(guān)鍵信息的決策能力(例如自動(dòng)駕駛),這種能夠自我解釋的機(jī)制也將變得越來(lái)越重要。 當(dāng)然,如果像此前的報(bào)道那樣,機(jī)器有一天也終于學(xué)會(huì)了騙人,那就是另一個(gè)故事了。 來(lái)源:Quartz 本文作者:恒亮@雷鋒網(wǎng) 本文責(zé)編:岑峰@雷鋒網(wǎng) |
|