Alan Yuille：在計(jì)算機(jī)視覺(jué)領(lǐng)域，誰(shuí)是殺死神經(jīng)網(wǎng)絡(luò)的真兇？

2016xing 2019-02-20

展開(kāi)全文

大數(shù)據(jù)文摘出品

來(lái)源：thegradient.pub

編譯：籍緩、lvy、蔣寶尚、錢天培

需要大量的注釋數(shù)據(jù)；難以在標(biāo)準(zhǔn)測(cè)試集外取得良好表現(xiàn)；對(duì)于數(shù)據(jù)的微小變化尤為敏感。

這都是近年來(lái)深度學(xué)習(xí)被詬病的缺陷。

即便深度學(xué)習(xí)已經(jīng)在諸多領(lǐng)域得到廣泛應(yīng)用，但這三大缺陷也成為了深度學(xué)習(xí)仍舊無(wú)法完全勝任自動(dòng)駕駛、醫(yī)療診斷等“敏感”任務(wù)的致命弱點(diǎn)。

畢竟，如果一臺(tái)自動(dòng)駕駛系統(tǒng)因?yàn)橛?xùn)練數(shù)據(jù)集中不包含“坐在路上的嬰兒”這一情境，就無(wú)法作出正確的避讓判斷，想必不會(huì)有人會(huì)放心讓這一系統(tǒng)完全接管方向盤。

那么，這些問(wèn)題的背后，究竟體現(xiàn)了深度神經(jīng)網(wǎng)絡(luò)怎樣的致命缺陷呢？

近期，計(jì)算機(jī)視覺(jué)的奠基人之一、約翰霍普金斯大學(xué)教授Alan Yuille和他的學(xué)生劉晨曦撰寫了一篇博文，詳述了深度網(wǎng)絡(luò)局限性的本質(zhì)所在。

他們認(rèn)為，難以處理“組合爆炸問(wèn)題”正是深度神經(jīng)網(wǎng)絡(luò)的致命弱點(diǎn)。

那么，什么是組合爆炸問(wèn)題呢？

讓我們先來(lái)看下面這個(gè)例子。

圖1 :添加遮擋體(Occluders)會(huì)導(dǎo)致深層網(wǎng)絡(luò)失敗。左：添加遮擋體摩托車將猴子變成了人類。中心：添加遮擋體自行車將猴子變成人，叢林將自行車把手變成鳥(niǎo)。右：添加遮擋體吉他將猴子變成了人類，叢林將吉他變成了一只鳥(niǎo)。

這張圖顯示了將吉他照片添加到叢林中的猴子照片中的效果。Deep Net錯(cuò)誤地將猴子識(shí)別為人類并將吉他誤解為鳥(niǎo)類，大概是因?yàn)镈eep Net認(rèn)為猴子不可能攜帶吉他，并且鳥(niǎo)類比吉他更可能在猴子附近的叢林中出現(xiàn)。

這種對(duì)背景的過(guò)度敏感可以歸因于有限的數(shù)據(jù)集大小。對(duì)于任何對(duì)象，數(shù)據(jù)集中僅出現(xiàn)有限數(shù)量的背景，因此神經(jīng)網(wǎng)絡(luò)就會(huì)發(fā)生判斷偏差。

例如，在早期數(shù)據(jù)集中，長(zhǎng)頸鹿僅在樹(shù)木邊出現(xiàn)，因此，如果長(zhǎng)頸鹿附近如果沒(méi)有樹(shù)，那神經(jīng)網(wǎng)絡(luò)就無(wú)法正確識(shí)別，即使它們是圖片中最主要的對(duì)象主體。

捕捉各種各樣背景的困難，以及探索大范圍的滋擾因素的需要，造成了Deep Nets這類方法的缺陷。

關(guān)于組合爆炸

上面這一問(wèn)題就是“組合爆炸”很好的例子。

真實(shí)世界圖像集是組合的。因此，任何數(shù)據(jù)集（無(wú)論多大）都很難代表現(xiàn)實(shí)世界的復(fù)雜性。

組合能產(chǎn)生出多大的集合呢？

想象一下，我們可以在一個(gè)場(chǎng)景中隨意添加各種物體，這顯然可以用很多方式完成。即使對(duì)于單個(gè)對(duì)象的圖像，我們也可以獲得類似的復(fù)雜度，因?yàn)樗梢砸灾笖?shù)增加的方式添加被部分遮擋的情況。我們還可以通過(guò)無(wú)數(shù)種方式更改對(duì)象的背景。

盡管人類能夠自然地適應(yīng)視覺(jué)環(huán)境的變化，但是深度神經(jīng)網(wǎng)絡(luò)卻更敏感，然而更容易出錯(cuò)，就如圖1所示。

在某些視覺(jué)任務(wù)中，這種組合爆炸基本不會(huì)發(fā)生。深度神經(jīng)網(wǎng)絡(luò)在醫(yī)學(xué)圖像的應(yīng)用中可謂是非常成功，因?yàn)槠浔尘暗淖兓鄬?duì)較?。ɡ缫认倏偸欠浅＝咏改c）。

但是，對(duì)于許多日常使用的應(yīng)用程序來(lái)說(shuō)，如果沒(méi)有指數(shù)級(jí)別的數(shù)據(jù)集，我們就無(wú)法捕捉到現(xiàn)實(shí)世界的復(fù)雜性。

這就帶來(lái)了巨大的挑戰(zhàn)——在數(shù)量有限、隨機(jī)抽取的樣本上訓(xùn)練和測(cè)試模型的標(biāo)準(zhǔn)范式變得不切實(shí)際。

所以這迫使我們解決兩個(gè)新的問(wèn)題：

我們?cè)鯓釉谟邢薮笮〉臄?shù)據(jù)集上訓(xùn)練算法，從而使它們能夠在需要龐大數(shù)據(jù)集才能捕獲現(xiàn)實(shí)世界的組合復(fù)雜性的任務(wù)中表現(xiàn)良好？
如果我們只能在有限的子集上測(cè)試這些算法，那么我們?nèi)绾斡行У販y(cè)試并確保它們?cè)邶嫶蟮臄?shù)據(jù)集中表現(xiàn)優(yōu)秀？

如果克服組合性爆炸

像深度神經(jīng)網(wǎng)絡(luò)這樣的方法，以目前的形式來(lái)看，似乎不太可能具有處理組合爆炸的能力，因?yàn)閿?shù)據(jù)集的數(shù)量可能永遠(yuǎn)都不足以訓(xùn)練或測(cè)試它們。

我們認(rèn)為，組合模型或許是解決問(wèn)題的關(guān)鍵。

組合性

組合性是一個(gè)基本原則，可以感性的稱它為“一種信仰的體現(xiàn)，即世界是可知的，人們可以將事物拆開(kāi)并理解它們，然后在精神上隨意地重新組合它們”。

但其中關(guān)鍵的假設(shè)是，結(jié)構(gòu)是由更基本的子結(jié)構(gòu)按照一組語(yǔ)法規(guī)則組成的。這就表明子結(jié)構(gòu)和語(yǔ)法可以從有限的數(shù)據(jù)中學(xué)習(xí)，然后拓展到組合的場(chǎng)景中。

與深度神經(jīng)網(wǎng)絡(luò)不同，組合模型需要結(jié)構(gòu)化的表征，從而明確其結(jié)構(gòu)和子結(jié)構(gòu)。組合模型能夠?qū)梢?jiàn)的數(shù)據(jù)進(jìn)行外推，對(duì)系統(tǒng)進(jìn)行推理、干預(yù)、診斷以及使用相同的基礎(chǔ)知識(shí)結(jié)構(gòu)回答許多不同問(wèn)題。

我們注意到，盡管深度神經(jīng)網(wǎng)絡(luò)捕獲了一種組合性形式，例如，高層特征是由來(lái)自下層特征的響應(yīng)組成的，但與本文中我們所指的組合性顯然還是不一樣的。

圖2：從（a）到（c），可變性增加同時(shí)出現(xiàn)了遮擋情況。尤其（c）是一個(gè)龐大組合數(shù)據(jù)集的例子，它本質(zhì)上與驗(yàn)證碼相同。有趣的是，關(guān)于驗(yàn)證碼的研究表明，組合模型的性能很好，而深度神經(jīng)網(wǎng)絡(luò)的性能則較差。

組合模型的優(yōu)勢(shì)已經(jīng)在很多視覺(jué)問(wèn)題上得到了證明，例如使用相同的底層模型執(zhí)行多個(gè)任務(wù)和識(shí)別驗(yàn)證碼（圖2）。其他非視覺(jué)的例子也說(shuō)明了同樣的觀點(diǎn)，比如智商測(cè)試。

在這項(xiàng)任務(wù)中，我們的目標(biāo)是預(yù)測(cè)3x3網(wǎng)格中丟失的圖像，其中8個(gè)網(wǎng)格的圖像已經(jīng)給出，同時(shí)任務(wù)的基本規(guī)則是組合型的（并且可以存在干擾）。在這一任務(wù)上，組合模型相比深度神經(jīng)網(wǎng)絡(luò)也有相當(dāng)?shù)膬?yōu)勢(shì)。

組合模型具有許多理想的理論性質(zhì)，例如可解釋性和可生成樣本性。這使得錯(cuò)誤更容易診斷，因此它們比像DeepNets這樣的黑盒方法更難被欺騙。

但是，學(xué)習(xí)組合模型也是十分困難的，因?yàn)樗婕暗綄W(xué)習(xí)構(gòu)件和語(yǔ)法（甚至語(yǔ)法的本質(zhì)也是有爭(zhēng)議的）。此外，為了通過(guò)合成進(jìn)行分析，它們需要有一個(gè)模型來(lái)生成對(duì)象和場(chǎng)景結(jié)構(gòu)。

更為根本的是，處理組合爆炸需要學(xué)習(xí)三維世界的因果模型以及這些模型如何生成圖像。對(duì)人類嬰兒的研究表明，他們通過(guò)預(yù)測(cè)環(huán)境結(jié)構(gòu)的因果模型來(lái)學(xué)習(xí)。這種因果理解能夠讓他們從有限的數(shù)據(jù)中學(xué)習(xí)，并拓展到新的環(huán)境中。

這與牛頓定律與托勒密模型的對(duì)比類似，牛頓定律用最小的自由參數(shù)來(lái)解釋因果關(guān)系，而太陽(yáng)系的托勒密模型給出了非常精確的預(yù)測(cè)，但它需要大量的數(shù)據(jù)來(lái)確定其細(xì)節(jié)。

在組合數(shù)據(jù)上測(cè)試

在現(xiàn)實(shí)世界中測(cè)試視覺(jué)算法的組合復(fù)雜度的一個(gè)潛在挑戰(zhàn)是，我們只能測(cè)試有限的數(shù)據(jù)。我們可以通過(guò)關(guān)注最壞情況，而不是一般情況來(lái)解決這一問(wèn)題。

正如我們前面所說(shuō)，如果數(shù)據(jù)集沒(méi)體現(xiàn)出問(wèn)題的組合復(fù)雜性，那么算法在有限大小數(shù)據(jù)集中的結(jié)果可能沒(méi)有意義。顯然，如果目標(biāo)是為自動(dòng)駕駛汽車開(kāi)發(fā)視覺(jué)算法，或者在醫(yī)學(xué)圖像中診斷癌癥，那么關(guān)注最壞的情況也是有意義的，因?yàn)樗惴ǖ氖】赡軙?huì)產(chǎn)生嚴(yán)重的后果。

如果能在低維空間中捕捉到故障模式，例如立體匹配算法的危險(xiǎn)因素，那么我們可以利用計(jì)算機(jī)圖形學(xué)和網(wǎng)格搜索對(duì)其進(jìn)行研究。但對(duì)于大多數(shù)視覺(jué)任務(wù)，特別是涉及組合數(shù)據(jù)的任務(wù)，我們很難識(shí)別出少數(shù)可以被隔離和測(cè)試的危險(xiǎn)因素。

另一種策略是將標(biāo)準(zhǔn)對(duì)抗攻擊的概念擴(kuò)展到包括非局部結(jié)構(gòu)，并允許復(fù)雜的操作，這些操作會(huì)導(dǎo)致圖像或場(chǎng)景發(fā)生變化，例如通過(guò)遮擋或更改正在查看的對(duì)象的物理屬性，盡管這不會(huì)對(duì)人的感知造成太大的影響。

將此策略擴(kuò)展到處理組合數(shù)據(jù)的視覺(jué)算法仍然是非常具有挑戰(zhàn)性的。但是，如果在設(shè)計(jì)算法時(shí)考慮到了組合性，那么它們的顯式結(jié)構(gòu)可能使診斷和確定它們的故障模式成為可能。

挑戰(zhàn)與未來(lái)

幾年前，Aude Oliva和Alan Yuille（本文第一作者）共同組織了一個(gè)由NSF贊助的計(jì)算機(jī)視覺(jué)前沿研討會(huì)（MIT CSAIL 2011）。這次會(huì)議鼓勵(lì)參會(huì)者坦誠(chéng)交換意見(jiàn)，參會(huì)者對(duì)計(jì)算機(jī)視覺(jué)的深度神經(jīng)網(wǎng)絡(luò)的潛力產(chǎn)生了巨大分歧。

Yann LeCun大膽地預(yù)言，每個(gè)人都將很快地使用深度神經(jīng)網(wǎng)絡(luò)。他的預(yù)測(cè)是正確的。深度神經(jīng)網(wǎng)絡(luò)的成功非同尋常，它帶領(lǐng)計(jì)算機(jī)視覺(jué)走向了熱門，極大地增加了學(xué)術(shù)界和工業(yè)界之間的互動(dòng)，將計(jì)算機(jī)視覺(jué)應(yīng)用到了許多不同的學(xué)科，并產(chǎn)生了很多有意義的成果。

但是，盡管深度神經(jīng)網(wǎng)絡(luò)取得了成功，但在我們達(dá)到通用人工智能和理解生物視覺(jué)系統(tǒng)的目標(biāo)之前，仍然存在著巨大的挑戰(zhàn)。我們的一些擔(dān)憂與最近對(duì)深層網(wǎng)絡(luò)的批評(píng)中提到的類似。

其中，我們今天討論的“組合爆炸”就是最大的挑戰(zhàn)之一。

雖然深度神經(jīng)網(wǎng)絡(luò)肯定是解決方案的一部分，但我們相信，我們還需要一些額外的方法用來(lái)捕獲數(shù)據(jù)基礎(chǔ)結(jié)構(gòu)的復(fù)合原理和因果模型。此外，面對(duì)組合爆炸，我們需要重新思考如何訓(xùn)練和評(píng)估視覺(jué)算法。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自： 2016xing > 《人工智能》

舉報(bào)/認(rèn)領(lǐng)