【編者按】這篇文章的起意有兩點(diǎn):一是由剛剛過去的 315 打假日,智能語音機(jī)器人在過去一年撥出的超 40 億電話,聯(lián)想到前一段時(shí)間引起大家熱烈討論的 StyleGAN 生成假臉,明年的打假日 AI 是否又會(huì)有“新作品”?二是即將到來的 April Fool's Day,隨著 AI 不斷智能化,那天是不是也可以捉弄一下 AI?要如何攻擊強(qiáng)大又復(fù)雜的神經(jīng)網(wǎng)絡(luò)呢?有什么方法和策略?由此,營長就想在本文中與大家一起探討關(guān)于“機(jī)器學(xué)習(xí) Adversarial Attack”的那些事兒。 視覺有多重要?對(duì)于我們?nèi)祟悂碚f,獲取的外界信息中有 80% 都是通過視覺通道接收的,是第一大感覺信息通道??墒?,人的視覺不僅能為我們帶來這些信息,也容易讓我們受到欺騙,有一些錯(cuò)覺是我們無法避免的?,F(xiàn)在,除了要被自己的錯(cuò)誤知覺“欺騙”,還要被 AI 欺騙。 前一段時(shí)間,一項(xiàng)AI 成果讓不少國內(nèi)外的小伙伴都覺得非常的 “Amazing”、“Unbelievable”,甚至有些“Creepy”、“Terrible”,沒錯(cuò)就是那個(gè)利用 StyleGAN 做的網(wǎng)站,俗稱“沒有這個(gè)人”。你在這個(gè)網(wǎng)站上每刷新一次,都會(huì)顯示一張人臉,但是每張臉都是假的。比如:
(來源:https:///) 這么帥的小哥哥真的是假的嗎?怎么就是覺得“似曾相識(shí)”呢! 一些照片還是有明顯的穿幫痕跡,也有一些照片非常逼真,看多了真是覺得“神奇”又“瘆得慌”。得益于 GAN 模型的發(fā)展,除了假人像,還有假視頻、假畫,都讓我們難以分辨,難道只有我們被騙的份兒?想要在機(jī)器視覺現(xiàn)有的能力范圍內(nèi)欺騙 AI,可以怎么做? 一個(gè)最經(jīng)典的例子:
一開始給模型識(shí)別左圖,AI 的模型可以判別是“panda”,置信度 57.7%,然后加一點(diǎn)“干擾”,把右面的圖再讓模型判別(哈哈哈~)這只萌萌噠的熊貓就變成了“gibbon”(長臂猿),天吶,對(duì)這樣的結(jié)果還自信心爆棚呢,置信度有“99.3”,這還真是驚呆了營長。 還有這只”會(huì)飛的豬“~
Pig 變飛機(jī),看到這個(gè)結(jié)果,天蓬元帥怕是要來找你了~ 這樣迷之自信的例子還有很多,營長略加分類整理了一下,下面的這些內(nèi)容很“逗樂”,建議反復(fù)觀看 ???? 一、不同領(lǐng)域/場景下的 Fool Time
最開始這類有趣的例子多是在圖像分類任務(wù)中發(fā)現(xiàn)的,后來拓展到分割與檢測任務(wù)研究中,再到一些重要的應(yīng)用場景中,都發(fā)現(xiàn)了漏洞。 1、圖像分類:Attacks for classification
上面的每個(gè)圖處理后分別讓 CaffeNet、VGG-F 和 GoogLeNet 三個(gè)網(wǎng)絡(luò)模型做判別得到的結(jié)果。 2、語義分割與目標(biāo)檢測:Attacks on Semantic Segmentation and Object Detection
用于分割和檢測的模型:FCN 和 Faster-RCNN 。左列第三個(gè)圖的分割和檢測識(shí)別的結(jié)果都非常好,加入干擾后的樣本,無論是分割還是識(shí)別結(jié)果都出現(xiàn)了懸殊差異,有“人”,有“火車”...... 3、3D 打印 2017 年,MIT 通過一只 3D 打印烏龜?shù)牟煌藙?,徹底騙倒了 ImageNet 模型。被識(shí)別成 rifle(手槍),也是沒誰了! 前一段時(shí)間,Google Brain 的研究員發(fā)現(xiàn),在一根香蕉的旁邊放了一張貼紙,模型就不認(rèn)識(shí)這根香蕉了,硬要說人家是面包機(jī)。
4、自動(dòng)駕駛 試想上面的這些如果應(yīng)用到我們實(shí)際生活中,這樣的“error”可不是玩笑,兒戲了。例如,在自動(dòng)駕駛中,最常見的場景:識(shí)別交通路牌。不同距離、不同角度這些都還算不上特殊情況,但僅在分類模型上取得高精準(zhǔn)度是遠(yuǎn)遠(yuǎn)不夠的。
5、人臉識(shí)別攻擊:FaceID 現(xiàn)在的手機(jī)都有面部識(shí)別功能,尤其是用 FaceID 支持一系列涉及安全與隱私等功能時(shí),如支付、轉(zhuǎn)賬。如果這么容易被攻擊.......
還有,在醫(yī)療影像輔助診療系統(tǒng)中,一個(gè)小陰影會(huì)產(chǎn)生怎樣的結(jié)果,不敢深想。(內(nèi)心充滿了拒絕) 除了計(jì)算機(jī)視覺領(lǐng)域,還有在其他技術(shù)領(lǐng)域不同場景的研究:
在 AAAI 2019 安全領(lǐng)域接收論文中, Adversarial Attacks 的研究成果也比以往有所增加,如《Distributionally Adversarial Attack 》《Non-Local Context Encoder: Robust Biomedical Image Segmentation against Adversarial Attacks 》等。 二、什么是對(duì)抗攻擊 GAN 的不斷發(fā)展,創(chuàng)造了很多讓我們難辨真?zhèn)蔚纳衿?、虛假的結(jié)果,同樣,GAN 也是機(jī)器學(xué)習(xí)與深度學(xué)習(xí)中網(wǎng)絡(luò)模型的“試金石”。這就是我們上面那些例子發(fā)揮的作用:對(duì)抗攻擊。 什么是對(duì)抗攻擊?上面列出的例子中大多屬于有目標(biāo)攻擊,通過對(duì)抗性樣本進(jìn)行攻擊模型,導(dǎo)致模型出錯(cuò),進(jìn)而產(chǎn)生潛在危險(xiǎn)。2014 年 Szegedy 等人[1]率先在圖像分類任務(wù)中發(fā)現(xiàn)了深度學(xué)習(xí)的一些弱點(diǎn),論文中通過一些“有趣的例子”,向大家闡述即使再魯棒,準(zhǔn)確性再高的神經(jīng)網(wǎng)絡(luò),也都是非常容易受到攻擊的。([1]論文《Intriguing properties of neural networks》可以說是對(duì)抗攻擊領(lǐng)域的開山之作了) 除了不同場景下,通過對(duì)抗性樣本進(jìn)行攻擊方法,還有對(duì)模型本身的攻擊,如對(duì) RNN、強(qiáng)化學(xué)習(xí)等模型的攻擊。ICML 2018 的一篇論文《Adversarial Attack on Graph Structured Data》試圖探討對(duì) GNN 網(wǎng)絡(luò)進(jìn)行對(duì)抗攻擊,并嘗試了多種算法。 雖然深度學(xué)習(xí)在計(jì)算機(jī)視覺、語音識(shí)別、NLP等領(lǐng)域中的很多任務(wù)都取得了顯著的突破性成果,深度神經(jīng)網(wǎng)絡(luò)模型也越來越完善,但是這些技術(shù)是否真正成熟,產(chǎn)品是否足夠安全、可靠?這些將成為以后越來越被重視的問題,這也是對(duì)抗攻擊越來越重要的原因。 重要術(shù)語 為了便于大家在接下來的閱讀過程中容易理解,這里先提前為大家對(duì)一些重要的術(shù)語做簡單解釋: 1、對(duì)抗樣本:上面營長做了簡單、通俗的解釋。在原本圖像中(Origanal)加入一些 Perturbation(擾動(dòng)),這些干擾,或是噪聲都是極小、輕微的,我們?nèi)搜凼菬o法覺察到的,機(jī)器模型接收這些數(shù)據(jù)作為輸入,產(chǎn)生錯(cuò)誤的結(jié)果。構(gòu)造攻擊性樣本分為定向和非定向兩種類型。
2、攻擊模型:主要分為黑盒攻擊與白盒攻擊兩種方法
3、防御方法:有三個(gè)主要方向,其中為大家重點(diǎn)介紹兩個(gè)思路:
三、攻擊算法的發(fā)展 根據(jù)采用黑盒/白盒攻擊、定向/非定向等分類,將生成對(duì)抗性樣本的方法歸納總結(jié)了 12 類:
L-BFGS 方法是 Szegedy等人率先提出的,隨后,Ian Goodfellow 在論文《Explaining and Harnessing Adversarial Examples》中提出 FGSM(Fast Gradient Sign Method),一種白盒、定向攻擊方法,通過發(fā)現(xiàn)對(duì)抗樣本擾動(dòng)的線性解釋,提出對(duì)擾動(dòng)進(jìn)行有效計(jì)算。 One Pixel 提出的差分進(jìn)化方法不同于以往通過改變像素值來進(jìn)行攻擊,采用黑盒攻擊方法,在不知道網(wǎng)絡(luò)參數(shù)等信息下,通過迭代擇優(yōu)進(jìn)行攻擊,達(dá)到了顯著的效果。DeepFool 是一種白盒、非定向的攻擊方法,作者在研究中表示比 FGSM 方法生成的擾動(dòng)更小。論文《Breaking High Performance Image Classifiers》中提出兩種黑盒、定向的攻擊方法:UPSET 和 ANGRI,UPSET 可以生成為特定類別生成對(duì)抗擾動(dòng)。 而 ICLR 2018 的最佳論文《Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples》提出了 Backwards Pass Differentiable Approximation(BPDA),攻擊了 7 篇論文中提出的基于混淆梯度防御方法,并表示成功攻擊了 6 篇,另外一篇部分被攻擊。 四、防御方法 “來而不往非禮也”,你攻我守。隨著對(duì)抗攻擊的不斷深入研究,防御方法也需要不斷的研究。NIPS 2017 會(huì)上,由 Ian Goodfellow 牽頭舉辦了第一屆 Adversarial Attacks and Defences(對(duì)抗攻擊防御)比賽。在這次比賽中,清華組成的團(tuán)隊(duì)在三個(gè)比賽項(xiàng)目中得到了冠軍。 在防御上的主要思路、方法有下面這三類:在學(xué)習(xí)中修改訓(xùn)練過程或輸入樣本數(shù)據(jù),例如把對(duì)抗樣本加入模型訓(xùn)練中,修改網(wǎng)絡(luò),或者利用附加網(wǎng)絡(luò)。
其中,針對(duì)利用梯度下降方法生成對(duì)抗性樣本的進(jìn)行防御的混淆梯度(Obfuscated gradients)方法主要分三類:離散梯度、隨機(jī)梯度與梯度爆炸(或梯度消失)。
BPDA 方法作者稱已經(jīng)成功攻擊了上面的大多數(shù)方法。這項(xiàng)結(jié)果的發(fā)表也引起了 Ian Goodfellow 的回應(yīng)與質(zhì)疑,“在《Ensemble Adversarial Training: Attacks and Defenses》研究中已經(jīng)解決相關(guān)問題”,但攻擊之法不斷,對(duì)抗樣本防御方法也還有很長的路要走。 而膠囊網(wǎng)路(CapsNet 模型的原作者有 Sabour、Frosst 以及 Hinton,論文《Dynamic Routing Between Capsules》)近期在此方面也有新進(jìn)展,論文《DARCCC: Detecting Adversaries by Reconstruction from Class Conditional Capsules》(Nicholas Frosst、Sara Sabour、Geoffrey Hinton 等人)指出,CapsNet 不僅可以對(duì)圖像分類,還可以結(jié)合重建過程,利用 DARCCC 技術(shù)有效地檢測對(duì)抗攻擊樣本。(準(zhǔn)確來說,這是一種自動(dòng)檢測技術(shù),還不等同于防御方法。)不過,這種方法在黑盒攻擊方法,以及白盒攻擊方法 FGSM 上的檢測效果都還不錯(cuò),但在更強(qiáng)大的白盒攻擊方法上還不能攻破。
五、未來研究新趨勢 2018 年 GeekPwn CAAD(對(duì)抗樣本挑戰(zhàn)賽)上,戰(zhàn)隊(duì)[IYSWIM] 用傳統(tǒng)的黑盒攻擊方法,僅 21 分鐘就破解了亞馬遜名人鑒別系統(tǒng) Celebrity Recognition。AI 模型本身以及應(yīng)用模型的產(chǎn)品的安全性問題再一次引發(fā)我們的深思與更深入的研究。 現(xiàn)在 AI 在各領(lǐng)域不斷取得研究突破,并被廣泛應(yīng)用,之前便有言論稱“AI 已經(jīng)超越人類”?此時(shí)也許還不是給“ !”的時(shí)候,越是在看似已經(jīng)取得良好成果的時(shí)候,越是要深思是否真的這么好?接下來要做什么?深度學(xué)習(xí)網(wǎng)絡(luò)模型需要對(duì)抗攻擊更完善自己,進(jìn)一步提高安全性。語音助手也不該是 Liar,自動(dòng)駕駛更不能是 Killer。我們可以針對(duì)特定的場景進(jìn)行對(duì)抗樣本攻擊與防御,但是一張圖片可以放到不同模型中,如何用新算法對(duì)抗不同領(lǐng)域、不同場景、不同模型的攻擊?機(jī)器學(xué)習(xí)的下一城,相信有 Adversarial Attack!
|
|