深度學(xué)習(xí)中的對抗性攻擊都有哪些？怎么防御？

昵稱535749 2021-06-10

展開全文

2021-06-10 18:20

深度學(xué)習(xí)中的對抗性攻擊都有哪些？怎么防御？

本文來自微信公眾號：中國工程院院刊（ID：CAE-Engineering），作者：任奎、Tianhang Zheng、秦湛、Xue Liu，本文選自中國工程院院刊《Engineering》2020年第3期，原文標(biāo)題：《深度學(xué)習(xí)中的對抗性攻擊和防御丨Engineering》，題圖來自：《監(jiān)視資本主義：智能陷阱》

在深度學(xué)習(xí)算法驅(qū)動的數(shù)據(jù)計(jì)算時(shí)代，深度學(xué)習(xí)算法在音視頻識別、自然語言處理和博弈論等領(lǐng)域得到了廣泛應(yīng)用，為此，確保深度學(xué)習(xí)算法具有安全性和魯棒性至關(guān)重要。

近日，中國工程院院刊《Engineering》2020年第3期發(fā)表的《深度學(xué)習(xí)中的對抗性攻擊和防御》（Adversarial Attacks and Defenses in Deep Learning）一文，成為2020年1-3月發(fā)表在愛思唯爾（Elsevier）金色開放獲取期刊上的下載量最高的文章，該論文作者浙江大學(xué)任奎教授成為“愛思唯爾中國金色開放獲取高下載論文學(xué)者”首批獲獎?wù)摺?/p>

文章總結(jié)了對抗性攻擊和防御研究領(lǐng)域中最前沿的研究成果，介紹了深度學(xué)習(xí)對抗攻擊技術(shù)的理論基礎(chǔ)、算法和應(yīng)用，并根據(jù)目前的研究進(jìn)展對攻擊和防御方式的有效性進(jìn)行評述，介紹了防御方法中的一些代表性研究成果。這些攻擊和防御機(jī)制可以為該領(lǐng)域的前沿研究提供參考。此外，文章進(jìn)一步提出了一些開放性的技術(shù)挑戰(zhàn)，并希望讀者能夠從所提出的評述和討論中受益。

視頻介紹丨深度學(xué)習(xí)中的對抗性攻擊和防御

視頻來源：任奎

一、引言

計(jì)算能力的萬億倍增長使得深度學(xué)習(xí)（deep learning, DL）在處理各種機(jī)器學(xué)習(xí)（machine learning, ML）任務(wù)中得到廣泛應(yīng)用，如圖像分類、自然語言處理和博弈論。然而，研究者發(fā)現(xiàn)現(xiàn)有DL算法存在著嚴(yán)重的安全隱患：攻擊者可以通過給良性樣本添加特定噪聲而輕易地欺騙DL模型，并且通常不會被人發(fā)現(xiàn)。攻擊者利用人的視覺/聽覺無法感知的擾動，足以使正常訓(xùn)練的模型輸出置信度很高的錯誤預(yù)測，研究者將這種現(xiàn)象叫做對抗攻擊，它被認(rèn)為是在生產(chǎn)中部署DL模型之前的巨大障礙，因此激發(fā)了人們對對抗攻擊和防御研究的廣泛興趣。

根據(jù)威脅模型可以將現(xiàn)有的對抗性攻擊分為白盒、灰盒和黑盒攻擊。這3種模型之間的差異在于攻擊者了解的信息。在白盒攻擊的威脅模型中，假定攻擊者具有關(guān)于其目標(biāo)模型的完整知識，包括模型體系結(jié)構(gòu)和參數(shù)。因此攻擊者可以通過任何方式直接在目標(biāo)模型上制作對抗性樣本。在灰盒威脅模型中，攻擊者了解的信息僅限于目標(biāo)模型的結(jié)構(gòu)和查詢訪問的權(quán)限。在黑盒威脅模型中，攻擊者只能依賴查詢訪問的返回結(jié)果來生成對抗樣本。

在這些威脅模型的框架中，研究者開發(fā)了許多用于對抗樣本生成的攻擊算法，比如基于有限內(nèi)存的 BFGS（limited-memory Broyden-Fletcher-Goldfarb-Shan-no, L-BFGS）、快速梯度符號法（fast gradient sign method, FGSM）、基本迭代攻擊/投影梯度下降（basic iterative attack/projected gradient descent, BIA/PGD）、分布式對抗攻擊（distributionally adversarial attack, DAA）、Carlini和Wagner（C&W）攻擊、基于雅可比的顯著圖攻擊（Jacobian-based saliency map attack, JSMA）以及DeepFool。盡管這些攻擊算法最初是在白盒威脅模型下設(shè)計(jì)的，但是由對抗樣本在模型之間的可傳遞性可知：它們同樣適用于灰盒威脅模型和黑盒威脅模型。

同時(shí)，近年來我們還發(fā)現(xiàn)了多種對抗性樣本分類/ 檢測的防御技術(shù)，包括啟發(fā)式和可證明式防御。啟發(fā)式防御是指對某些特定攻擊可能具有良好性能，但沒有給出防御性能的理論性保障。當(dāng)前最成功的啟發(fā)式防御是對抗訓(xùn)練，它試圖通過將對抗樣本納入訓(xùn)練階段來提高模型的魯棒性。根據(jù)經(jīng)驗(yàn)結(jié)果，PGD對抗訓(xùn)練可在 MNIST、CIFAR10和ImageNet等多個基準(zhǔn)數(shù)據(jù)集上抵御各種L_∞攻擊，從而得到當(dāng)前最好的防御效果。

其他啟發(fā)式防御可能依賴于輸入/特征轉(zhuǎn)換和降噪來減輕數(shù)據(jù)/特征域中對抗樣本的影響。相反，在明確知道對抗性攻擊類別的情況下，可證明式防御能夠計(jì)算模型輸出的最低精度。最近流行的可證明式防御是制定對抗性多面體，并通過凸松弛來限制它的上界。寬松弛過后的上界可以作為已訓(xùn)練模型的一個保障，它可以證明在限定的限制條件下，沒有任何攻擊可以超過該上界對應(yīng)的攻擊成功率。但是這些可證明式防御措施的實(shí)際性能仍然比對抗訓(xùn)練的性能差很多。

本文將調(diào)查并總結(jié)對抗性攻擊和防御研究領(lǐng)域中最前沿的研究成果。此外，我們將根據(jù)目前最新的研究進(jìn)展對這些攻擊和防御方式的有效性進(jìn)行評述。本文的其余部分安排如下：第2節(jié)首先介紹背景；第3節(jié)詳細(xì)介紹具有代表性的攻擊方法；第4節(jié)介紹對抗性攻擊在工業(yè)某些潛在領(lǐng)域中的應(yīng)用；第5節(jié)介紹最新的防御方法；第6節(jié)討論我們對該研究領(lǐng)域的見解，包括白盒和黑盒攻擊技術(shù)之間的差異、對抗攻擊和防御發(fā)展趨勢的差異、模型魯棒性的最新理論結(jié)果、面臨的主要挑戰(zhàn)；第 7節(jié)總結(jié)全文。

二、預(yù)備知識

（一）定義和符號

本節(jié)將闡明本文中使用的定義和符號。本文中數(shù)據(jù)集定義為

其中，x_i是帶有標(biāo)簽的數(shù)據(jù)樣本；N 是數(shù)據(jù)集的大小。我們將神經(jīng)網(wǎng)絡(luò)記為f(·)，其中輸入為x，預(yù)測結(jié)果為發(fā)f（x）。相應(yīng)的優(yōu)化損失函數(shù)（也稱為對抗損失函數(shù)）用表示，其中，θ 表示模型權(quán)重。對于分類任務(wù)，將與標(biāo)簽（獨(dú)熱編碼）y 之間的交叉熵用作優(yōu)化損失函數(shù)，用J（f（x）;y）表示。當(dāng)樣本x′ 在特定距離度量函數(shù)下接近樣本x，但f(x′ )≠y時(shí)，稱樣本x′ 是樣本x 的對抗樣本。將x 的對抗樣本定義為：

式中，D(·,·)是距離度量函數(shù)；η 是預(yù)定義的距離約束，也稱為允許擾動。根據(jù)經(jīng)驗(yàn)可以利用較小的η 來保證x 和x′ 之間的相似性，從而使x′ 與x 不可區(qū)分。

（二）距離度量

由上述定義知，對抗樣本x′ 和良性樣本x 在特定的距離量度方式下應(yīng)該很接近。最常用的距離度量是L_p距離度量。x 和x′ 之間的Lp 距離用

表示，其中，

定義為：

式中，p 是實(shí)數(shù)。

具體來說，L₀距離表示因?yàn)閷构舳l(fā)生修改的良性樣本x 中的元素的數(shù)量；L₂距離測量x 和x′ 之間的標(biāo)準(zhǔn)歐式距離。最受歡迎的距離度量方式是L_∞距離，該距離測量良性樣本和對抗樣本之間的對應(yīng)元素值最大的差異。對于離散數(shù)據(jù)，也有幾種對抗攻擊方式，這些攻擊應(yīng)用了其他距離度量，如文獻(xiàn)中的刪除點(diǎn)數(shù)和文獻(xiàn)中的語義相似度。

（三）威脅模型

對抗攻擊和防御有3種主流的威脅模型，即黑盒模型、灰盒模型和白盒模型。這3個模型是根據(jù)攻擊者所知道的待攻擊模型信息量的多少定義的。

在黑盒模型中，攻擊者不知道其目標(biāo)模型的結(jié)構(gòu)和參數(shù)，但是它們可以與模型進(jìn)行交互，以查詢某些特定數(shù)據(jù)的預(yù)測結(jié)果。攻擊者將查詢得到的成對的數(shù)據(jù)、預(yù)測結(jié)果和其他的良性對抗樣本用于替代的分類器，并在替代的分類器上生成對抗樣本。由于對抗性樣本的可傳遞性，黑盒攻擊會損害正常訓(xùn)練的非防御性模型。

在灰盒攻擊中，假定攻擊者沒有模型權(quán)重，但知道其目標(biāo)模型的體系結(jié)構(gòu)，并且還可以在發(fā)起攻擊之前與模型進(jìn)行交互。在這種威脅模型中，攻擊者會在相同網(wǎng)絡(luò)體系結(jié)構(gòu)的替代分類器上制作對抗樣本。由于存在額外的網(wǎng)絡(luò)結(jié)構(gòu)信息，因此在攻擊性能方面，灰盒攻擊總是比黑盒攻擊的效果更好。

最強(qiáng)大的攻擊方式是白盒攻擊，這種攻擊可以完全訪問其目標(biāo)網(wǎng)絡(luò)的模型（包括所有參數(shù)），這意味著攻擊者可以直接在目標(biāo)網(wǎng)絡(luò)模型上制作對抗樣本。目前許多防御措施可以有效防御黑盒/灰盒攻擊，但卻對白盒無能為力。例如，ICLR2018中9種啟發(fā)式防御里有7 種會受到文獻(xiàn)中提出的自適應(yīng)白盒攻擊的破壞。

三、對抗攻擊

本節(jié)將介紹一些具有代表性的對抗攻擊算法。這些算法主要用于攻擊圖像分類的模型，但也可以應(yīng)用于其他DL模型。第4節(jié)詳細(xì)介紹針對其他通用DL模型的特定對抗攻擊。

（一） L-BFGS

文獻(xiàn)首先發(fā)現(xiàn)了深度神經(jīng)網(wǎng)絡(luò)（deep neural network, DNN）無法有效處理對抗樣本的情況，作者發(fā)現(xiàn)某些難以察覺的對抗擾動會引起模型對圖片的分類錯誤，提出了一種稱為L-BFGS的方法，通過最小化L_p范數(shù)可以找到欺騙DNN的對抗性擾動，其公式為：

式中，

是對抗性擾動的L_p 范數(shù)；y′ 是對抗攻擊的目標(biāo)標(biāo)簽（y′ ≠ y）。由于此優(yōu)化問題不易求解，因此文獻(xiàn)提出最小化混合損失，即用

近似代替該優(yōu)化問題的目標(biāo)函數(shù)，并通過線性搜索/網(wǎng)格搜索找到最優(yōu)解c 。

（二）快速梯度符號法

Goodfellow等首先提出了一種有效的無目標(biāo)攻擊方法，稱為快速梯度符號法（FGSM），該方法通過在良性樣本的L_∞ 范數(shù)限制下生成對抗樣本，如圖1所示。FGSM是典型的一步攻擊算法，它沿著對抗性損失函數(shù)的梯度方向（即符號）執(zhí)行一步更新，以增加最陡峭方向上的損失。FGSM生成的對抗性樣本表示如下：

式中，? 是擾動大小。通過降低

的梯度（其中y′ 表示目標(biāo)類別）可以將FGSM輕松地?cái)U(kuò)展為目標(biāo)攻擊算法（targeted FGSM）。如果將交叉熵作為對抗損失，則此更新過程可以減少預(yù)測概率向量和目標(biāo)概率向量之間的交叉熵。目標(biāo)攻擊算法的梯度更新可以表示為：

此外，在良性樣本上先添加隨機(jī)擾動再執(zhí)行FGSM可以提高FGSM生成對抗樣本的性能和多樣性。

圖1 通過將FGSM應(yīng)用于GoogleNet產(chǎn)生的對抗性樣本示例。FGSM生成的難以察覺的干擾使GoogleNet將該圖像識別為長臂猿

（三）基本迭代攻擊和投影梯度下降

Kurakin等提出了BIA方法，該方法通過將一個迭代優(yōu)化器迭代優(yōu)化多次來提高FGSM的性能。BIA以較小的步長執(zhí)行FGSM，并將更新后的對抗樣本裁剪到有效范圍內(nèi)，通過這樣的方式總共迭代T 次，在第k 次迭代中的梯度更新方式如下：

式中，αT = ? 。投影梯度下降（PGD）可以看作是BIA的廣義形式，這種方法沒有約束αT = ? 。為了約束對抗性擾動，PGD將每次迭代學(xué)習(xí)的對抗性樣本投影到良性樣本的?- L_∞鄰域中，從而使對抗性擾動值小于? 。其更新方式如下：

式中，Proj會將更新后的對抗樣本投影到?- L_∞ 鄰域和有效范圍內(nèi)。

（四）動量迭代攻擊

受動量優(yōu)化器的啟發(fā)，Dong等提出將動量記憶集成到BIM的迭代過程中，并推導(dǎo)了一種新的迭代算法Momentum Iterative FGSM（MI-FGSM）。該方法通過以下方式迭代更新其對抗樣本：

式中，g_t₊₁梯度通過

更新。文獻(xiàn)提出的方案是以一組集成模型為目標(biāo)，在黑盒/灰盒設(shè)置下攻擊一個不可見的模型。其基本思想是考慮多個模型相對于輸入的梯度，并綜合確定一個梯度方向，這種攻擊方法生成的對抗樣本更可能轉(zhuǎn)移攻擊其他黑盒/灰盒模型。MI-FGSM與集成攻擊方案的結(jié)合在NIPS 2017無目標(biāo)攻擊和度量攻擊競賽（黑盒設(shè)置）中獲得了第一名。

（五）分布式對抗攻擊

Zheng等提出了一種新的對抗攻擊方法分布式對抗攻擊（DAA），該方法在概率度量的空間上運(yùn)行。其與PGD不同的是：PGD會針對每個良性樣本獨(dú)立生成對抗性樣本，而DAA對潛在的對抗性分布執(zhí)行優(yōu)化。此外該方法提出的目標(biāo)函數(shù)首次將對抗樣本盒良性樣本數(shù)據(jù)分布之間的KL散度包含在了對抗損失函數(shù)中，從而在優(yōu)化過程中增加了對抗性攻擊泛化的強(qiáng)度。此分布優(yōu)化問題可以表示如下：

式中，μ 表示對抗性數(shù)據(jù)分布；π (x )表示良性數(shù)據(jù)分布。

由于對分布進(jìn)行直接優(yōu)化比較困難，因此作者利用兩種粒子優(yōu)化方法進(jìn)行近似。與PGD相比，DAA探索了新的生成對抗樣本模式，如圖2所示。值得注意的是，DAA在MIT MadryLab的白盒排行榜上排名第二，是對當(dāng)時(shí)幾種防御措施最有效的L_∞ 攻擊之一。

圖2 PGD和DAA之間的比較。DAA傾向于產(chǎn)生更多的結(jié)構(gòu)化擾動

（六）Carlini 和 Wagner 攻擊

Carlini和Wagner提出了一組基于優(yōu)化的對抗攻擊C&W，它們可以生成L₀ 、L₂ 和L_∞范數(shù)限制下的對抗樣本CW₀、CW₂和CW_∞ 。與L-BFGS類似，將優(yōu)化目標(biāo)函數(shù)表示為：

式中，δ 是對抗擾動；表示L₀ 、L₂ 或L_∞ 距離度量；f(x +δ)是自定義的對抗損失，當(dāng)且僅當(dāng)DNN的預(yù)測為攻擊目標(biāo)時(shí)才滿足f(x +δ≤0。為了確保x +δ 產(chǎn)生有效的圖像（即x +δ ∈ [0, 1]），引入了一個新變量來代替δ，如式（11）所示

這樣，x +δ =1/2(tanh (κ ) + 1)在優(yōu)化過程中始終位于[0, 1]中。除了在MNIST、CIFAR10和ImageNet的正常訓(xùn)練DNN模型上獲得100%的攻擊成功率外，C＆W攻擊還可以破壞防御性蒸餾模型，而這些模型可以使L-BFGS和Deepfool無法找到對抗性樣本。

（七）基于雅可比的顯著性圖方法

Papernot等提出了一種稱為基于雅可比的顯著性圖方法（JSMA）的有效攻擊方式，它可以利用較小的L₀ 擾動來欺騙DNN。該方法首先在softmax層之前計(jì)算logit層輸出的的雅可比矩陣：

雅可比矩陣表示輸入x 的各個分量如何影響不同類別的logit層輸出。然后根據(jù)雅可比矩陣，攻擊者定義了一個對抗性顯著圖S(x,y')用以選擇應(yīng)該受到干擾的特征/像素，以便在logit層的輸出中獲得所需的變化。他們選擇擾動具有最高S(x,y')[γ]的元素x_i，從而增加目標(biāo)類別的logit層輸出或顯著減少其他類別的logit層輸出，這樣對一小部分元素的擾動已經(jīng)可以影響并欺騙神經(jīng)網(wǎng)絡(luò)。

（八） Deepfool

Moosavi-Dezfooli等提出了一種新的稱為Deep-fool的算法，該算法可以在仿射二進(jìn)制分類器和通用二進(jìn)制可微分類器上找到最小化L₂范數(shù)的對抗性擾動。對于仿射分類器

更改樣本x 的分類結(jié)果的最小擾動就是移動x 到?jīng)Q策邊界超平面

該距離為

對于一般的可微分類器，Deepfool假設(shè)f在x'_t的領(lǐng)域是線性的，并且迭代計(jì)算擾動δ_t ：

該過程將持續(xù)到f(x'_t)≠f(x)為止，并最終用δ_t的總和來近似最小擾動。該方法也可以擴(kuò)展為攻擊通用的多分類器，只需要將問題改變?yōu)橛?jì)算從x 到所有類之間的決策邊界形成的凸多面體P表面的距離即可，如圖3所示。實(shí)驗(yàn)表明，在一些基準(zhǔn)數(shù)據(jù)集上，Deepfool產(chǎn)生的擾動小于FGSM。

圖3 所有類別之間的決策邊界形成的凸多面體。（a）線性模型；（b）非線性模型

（九）對 DNN 的彈性網(wǎng)攻擊

Chen等提出的對抗攻擊將對抗樣本的生成過程視為一個彈性網(wǎng)正則化優(yōu)化的問題，即對DNN的彈性網(wǎng)攻擊（elastic-net attack to DNN, EAD）。總的來說，EAD希望在同時(shí)最大化減少L₁ 和L₂距離度量下擾動的前提下，能找到可以欺騙神經(jīng)網(wǎng)絡(luò)的對抗性樣本。該優(yōu)化問題表述為：

式中，

是目標(biāo)對抗損失函數(shù)，

用于懲罰對抗性樣本x′ 與良性樣本x 之間的L₁ 和L₂ 距離。EAD首次在對抗攻擊中引入了L₁ 范數(shù)約束，并產(chǎn)生了一組能與其他最新方法一較高下的對抗樣本。

（十）通用對抗攻擊

上述所有攻擊都是針對良性樣本來精心設(shè)計(jì)對抗性擾動的。換句話說，對抗性擾動不會在良性樣本之間傳遞。因此一個自然的問題是：是否存在一種普遍的擾動會欺騙大多數(shù)良性樣本的網(wǎng)絡(luò)？文獻(xiàn)首先嘗試通過使用所有目標(biāo)良性樣本迭代更新擾動來尋求這種擾動向量。在每次迭代中，對于當(dāng)前擾動無法欺騙的良性樣本，將求解一個類似于L-BFGS的優(yōu)化問題，以找到危害這些樣本所需的最小附加擾動。附加擾動將添加到當(dāng)前擾動中。最終，擾動使大多數(shù)良性樣本欺騙了網(wǎng)絡(luò)。實(shí)驗(yàn)表明，這種簡單的迭代算法可以有效地攻擊深度神經(jīng)網(wǎng)絡(luò)，如CaffeNet、GoogleNet、VGG和 ResNet。出乎意料的是，這種可在不同樣本中傳遞的擾動同時(shí)可以應(yīng)用到其他不同的模型中，例如，在 VGG上制作的通用擾動在其他模型上也可以達(dá)到53% 以上的欺騙率。

（十一）對抗補(bǔ)丁

直接使用上述攻擊算法將會對良性樣本的所有分量（如良性圖像中的所有像素）進(jìn)行干擾。最近的研究顯示良性樣本的局部區(qū)域/片段中的擾動也可能使DL模型失控，我們稱這種擾動為對抗補(bǔ)?。╝dversarial patch）。

Sharif等提出了只在面部圖片里附著的眼鏡架上制作對抗性擾動的方法，如圖4所示。該方法通過優(yōu)化常用的對抗性損失（即交叉熵）從而使局部產(chǎn)生的擾動也能輕易欺騙VGG-Face卷積神經(jīng)網(wǎng)絡(luò)（convolutional neural network, CNN）。作者還3D打印了這種帶有干擾的眼鏡，并在物理世界中實(shí)現(xiàn)了對抗攻擊。他們還提供了視頻演示，其中戴有對抗眼鏡的人們被真實(shí)的VGG-Face CNN系統(tǒng)識別為攻擊目標(biāo)。文獻(xiàn)提出了一種生成通用魯棒對抗補(bǔ)丁的方法。這種方法基于良性圖像、補(bǔ)丁變換和補(bǔ)丁位置定義了優(yōu)化補(bǔ)丁的對抗損失函數(shù)，然后通過將補(bǔ)丁放在所有良性圖像上進(jìn)行優(yōu)化來實(shí)現(xiàn)通用性，此外作者通過使用EoT方法計(jì)算不敏感于噪聲盒三維變換的梯度用于優(yōu)化，從而實(shí)現(xiàn)了對噪聲和三維變換的魯棒性。

Liu等提出在良性樣本上添加特洛伊木馬補(bǔ)丁，以生成對抗性樣本。該攻擊首先選擇幾個能顯著影響網(wǎng)絡(luò)輸出的神經(jīng)元，然后初始化對抗補(bǔ)丁區(qū)域中的像素值，從而使選定的神經(jīng)元達(dá)到最大值，最后利用良性圖像和帶有特洛伊木馬補(bǔ)丁的圖像對模型進(jìn)行重新訓(xùn)練，以調(diào)整與所選神經(jīng)元相關(guān)的權(quán)重。盡管在良性圖像上該模型執(zhí)行的操作與原始模型類似，但重新訓(xùn)練的模型會在帶有對抗補(bǔ)丁的圖像上表示出惡意行為。

圖4 具有對抗擾動的眼鏡欺騙了一種面部識別系統(tǒng)，可以將第一行中的人臉錯誤的識別為第二行中的人臉

（十二）基于生成對抗網(wǎng)絡(luò)的攻擊

Xiao等首先提出利用生成對抗網(wǎng)絡(luò)（generative adversarial network, GAN）生成對抗樣本的方法。該方法通過最大化目標(biāo)對抗損失和GAN損失LGAN來訓(xùn)練生成器，以使其學(xué)習(xí)對抗樣本的分布。軟鉸鏈損失被作為懲罰來約束生成的對抗樣本x′ 和良性樣本x 之間的L_p 距離。值得注意的是，在動態(tài)蒸餾的設(shè)置下，代理分類器（蒸餾模型）也會通過目標(biāo)分類器在生成的對抗樣本上的輸出與生成器一起訓(xùn)練，該攻擊將MadryLab’s MNIST未知模型的準(zhǔn)確性降低到92.74%。這是目前最好的黑盒攻擊結(jié)果。

Yang等訓(xùn)練輔助分類器生成對抗網(wǎng)絡(luò)（auxiliary classifier GAN, AC-GAN），從而對每個類別的數(shù)據(jù)分布建模。他們提出的攻擊是通過優(yōu)化明確定義的目標(biāo)函數(shù)來實(shí)現(xiàn)的，這樣可以找到特定類別的潛在代碼從而生成樣本，這些樣本會被目標(biāo)分類器分類為另一個類別。由于生成的對抗性樣本與任何現(xiàn)有的良性樣本都不接近，因此將它們稱為非限制性對抗樣本。這種攻擊不遵循通常為對抗性樣本定義的常規(guī)約束，因此它能更有效地攻擊滿足常規(guī)約束的對抗性訓(xùn)練模型。

（十三）實(shí)踐性攻擊

盡管PGD和C＆W等對抗性攻擊算法在數(shù)字領(lǐng)域非常有效，但將其擴(kuò)展到物理世界仍然需要克服兩個關(guān)鍵問題。第一個問題是環(huán)境噪聲和自然變化將破壞數(shù)字空間中計(jì)算出的對抗性擾動。例如，模糊、噪聲和聯(lián)合圖像專家小組（joint photographic experts group, JPEG）編碼等會對對抗性攻擊的破壞率超過80%。

第二個問題是攻擊僅限于使用圖像/視頻的ML任務(wù)，其中只有與某些對象相對應(yīng)的像素才能在物理世界中被干擾，也可以說攻擊者不可能干擾背景。Athalye等提出了一種稱為轉(zhuǎn)換期望（expectation over transformation, EoT）的方法來解決第一個問題。EoT不是使用理想數(shù)字域中計(jì)算出的梯度，而是在輸入上添加/應(yīng)用了一組隨機(jī)噪聲/自然變換，然后取這些噪聲/自然變換的輸入計(jì)算得到梯度的平均值用于優(yōu)化。在基于梯度的攻擊算法（如 FGSM和PGD）中采用這種平均梯度，可以提高生成的對抗樣本的魯棒性。

對抗補(bǔ)丁的思想則可以簡單地解決第二個問題，即空間約束。Eykholt等提出了一種掩模/補(bǔ)丁變換來分離背景和目標(biāo)，從而可以將對抗性擾動限制在目標(biāo)區(qū)域內(nèi)。此外，文獻(xiàn)還考慮了因?yàn)榇蛴『褪軘_動RGB值之間的差異引起的制造誤差，如圖 5 所示。這種方法的特點(diǎn)是在優(yōu)化損失中包含一個附加懲罰項(xiàng)，稱為不可打印分?jǐn)?shù)（non-printable score, NPS）。最終文獻(xiàn)成功地在現(xiàn)實(shí)世界的交通標(biāo)志上生成了可打印的對抗干擾，總體攻擊成功率達(dá)到80%以上。

圖5（a）顯示了由原始Inception v3模型識別為微波爐的原始圖像；（b）顯示了被識別為電話的對抗樣本

（十四）混淆梯度規(guī)避攻擊

Athalye等說明了大多數(shù)啟發(fā)式防御方法（包括 ICLR2018中公布的9種防御中的8種）所共有的一個常見問題。這一問題是這些防御模型的梯度要么是不存在的，要么是由于采用諸如量化和隨機(jī)化之類的附加操作而不確定。對于這些防御，文獻(xiàn)提出了3種方法可以繞過附加組件操作，從而獲得用于生成對抗樣本的有效梯度。

第一種：對于依賴于不可微的附加操作（如量化）的防御，通過使用可微函數(shù)來逼近它們；第二種：對于設(shè)置有隨機(jī)變換等不確定性操作的防御系統(tǒng)，只需使用EoT來確定所有可能變換中的一般梯度方向的期望，并沿著該一般梯度方向更新對抗樣本；第三種：對于由優(yōu)化循環(huán)引起的梯度爆炸或消失的防御方法，提出進(jìn)行變量更改以便將優(yōu)化循環(huán)轉(zhuǎn)換為可微函數(shù)。利用這3種方法近似的梯度，打破了ICLR2018中9種啟發(fā)式防御中的7種。

四、對工業(yè)界廣泛使用的應(yīng)用進(jìn)行對抗性攻擊

第3節(jié)主要介紹了一些典型的攻擊算法，其中大多數(shù)最初是為圖像分類而設(shè)計(jì)的。但是這些方法也可以應(yīng)用于其他領(lǐng)域，如圖像/視頻分割、3D識別、音頻識別和強(qiáng)化學(xué)習(xí)，這引起了學(xué)術(shù)界和工業(yè)界越來越多的關(guān)注。因?yàn)樘囟ǖ臄?shù)據(jù)和應(yīng)用程序可能導(dǎo)致獨(dú)特的對抗攻擊，所以在本節(jié)中，我們還將概述那些針對其他普及應(yīng)用獨(dú)特的對抗攻擊。

（一）語義分割模型中的對抗性攻擊

Xie等首先提出了一種密集對抗生成算法（dense adversarial generation, DAG），該算法可以用于生成目標(biāo)檢測和語義分割任務(wù)的對抗樣本。DAG的基本思想是同時(shí)考慮檢測/分割任務(wù)中的所有目標(biāo)并優(yōu)化總體損失，如圖6所示。

此外，為了解決像素級對象檢測任務(wù)中的大量候選單元[即以O(shè) (K² )縮放，其中k 是像素?cái)?shù)]，DAG通過在優(yōu)化階段修改交并比（intersection-over-union, IoU）來保證候選單元數(shù)量增加并維持在合理的范圍。在文獻(xiàn)中，作者發(fā)現(xiàn)在分割任務(wù)中沒有很好地建立對抗性損失與分類任務(wù)中的準(zhǔn)確度之間的關(guān)系。因此他們提出了一種新的替代損失Houdini，并用這個損失來逼近實(shí)際對抗損失，它是隨機(jī)邊際和任務(wù)損失的乘積。隨機(jī)邊際表示真值與預(yù)測目標(biāo)的預(yù)測概率之間的差值，并且任務(wù)損失與模型無關(guān)，它對應(yīng)于最大化目標(biāo)函數(shù)。

文獻(xiàn)進(jìn)一步推導(dǎo)出在給定輸入的情況下新替代損失梯度的近似值，從而可以對輸入進(jìn)行基于梯度的優(yōu)化。實(shí)驗(yàn)表明， Houdini算法在語義分割方面達(dá)到了最先進(jìn)的攻擊性能，人眼很難識別出這種對抗性擾動。

圖6 在左側(cè)的良性圖像中，F(xiàn)aster CNN正確地檢測了三只狗并識別了它們的區(qū)域，而在DAG生成的右側(cè)對抗圖像中，檢測結(jié)果是完全錯誤的

（二）3D 識別中的對抗性攻擊

點(diǎn)云是3D物體識別的重要數(shù)據(jù)表示形式。PointNet、PointNet ++和動態(tài)圖CNN（dynamic graph CNN, DGCNN）是基于點(diǎn)云的分類/分割的3種最受歡迎的DL模型。但是，最近發(fā)現(xiàn)這3種模型也容易受到對抗攻擊。在文獻(xiàn)中，作者首先將C＆W 攻擊擴(kuò)展到這些3D點(diǎn)云DL模型。在文獻(xiàn)中，空間點(diǎn)位置與像素值相對應(yīng)，通過移動空間點(diǎn)（即擾動空間點(diǎn)的位置）來優(yōu)化C＆W損失。同樣，文獻(xiàn)將BIA/PGD應(yīng)用于點(diǎn)云分類并實(shí)現(xiàn)了很高的攻擊成功率。

在文獻(xiàn)中，作者基于丟棄點(diǎn)云中現(xiàn)有的空間點(diǎn)的思想提出了新的攻擊方法。該方法通過將點(diǎn)移動到點(diǎn)云的質(zhì)心來近似每個點(diǎn)對分類結(jié)果的貢獻(xiàn)，然后丟棄具有較大正貢獻(xiàn)的點(diǎn)。隨著一定數(shù)量的這些點(diǎn)被丟棄，PointNet、PointNet ++和DGCNN的分類精度顯著降低。對于點(diǎn)云模型，文獻(xiàn)建議在三維網(wǎng)格上添加對抗性擾動，以便三維網(wǎng)格的二維投影可以誤導(dǎo)二維圖像分類模型。這種三維攻擊是通過對目標(biāo)二維模型帶有對抗損失的混合損失和保證三維網(wǎng)格對抗樣本看起來像實(shí)物的損失函數(shù)進(jìn)行優(yōu)化來實(shí)現(xiàn)的。

（三）音頻和文本識別中的對抗性攻擊

Carlini和Wagner通過對C&W損耗函數(shù)的優(yōu)化，成功地構(gòu)建了高質(zhì)量的音頻對抗性樣本。對于任何音頻信號，只要在DeepSpeech上對音頻信號的1%進(jìn)行對抗性干擾，即可在文本翻譯中最多修改50個單詞。他們還發(fā)現(xiàn)，構(gòu)建的對抗性音頻信號對點(diǎn)噪聲和MP3壓縮具有魯棒性。但是由于麥克風(fēng)和錄音機(jī)的非線性影響，被擾動的音頻信號在空氣中播放后不會保持對抗性。文獻(xiàn)中的作者提出一種模擬非線性效應(yīng)和噪聲，并在攻擊過程中將它們考慮在內(nèi)的攻擊方法。具體而言，作者將接收信號建模為發(fā)射信號的函數(shù)，該建模包括模型受到帶通濾波器、脈沖響應(yīng)和白高斯噪聲的影響的變換。對抗損失函數(shù)是在接收信號而不是發(fā)射信號上定義的。這種方法成功地在物理世界中產(chǎn)生了對抗性的音頻樣本，即使在空氣中播放，也能攻擊音頻識別模型。

在文本識別領(lǐng)域，Liang等提出了3種針對文本數(shù)據(jù)的詞級干擾策略，包括插入、修改和刪除。攻擊者首先確定影響分類結(jié)果的最重要的文本項(xiàng)，然后對這些文本項(xiàng)采用其中一種擾動方法。實(shí)驗(yàn)表明，這種攻擊可以成功地欺騙一些基于DNN的最新文本分類器。TextBugger對文本數(shù)據(jù)采用了5種干擾操作，包括插入、刪除、交換、字符替換和單詞替換，如圖7所示。

在白盒設(shè)置中，先使用雅可比矩陣識別重要單詞，再對這些單詞執(zhí)行上述5種干擾操作。在黑盒威脅模型中，矩陣是不可計(jì)算的，但假設(shè)攻擊者有權(quán)獲得句子和文檔預(yù)測結(jié)果的置信值，在這種情況下，每個句子的重要性被定義為它對預(yù)測類的置信值。在對分類結(jié)果最重要的句子中，每個詞的重要性是由含有該詞和不含有該詞的句子的置信值之間的差來定義的。

圖7 TextBugger生成的對抗文本。負(fù)面評論被誤分類為正面評論

（四）深度強(qiáng)化學(xué)習(xí)中的對抗性攻擊

Huang等發(fā)現(xiàn)通過在策略的原始輸入上添加對抗性擾動，現(xiàn)有的攻擊方法也可用于在深度強(qiáng)化學(xué)習(xí)中降低已訓(xùn)練策略的性能。比如構(gòu)建一個替代損失函數(shù) J (θ, x, y )，這個函數(shù)包含參數(shù)θ、策略的輸入x 以及所有可能操作y 的加權(quán)得分。FGSM對3種不同前饋訓(xùn)練策略的算法進(jìn)行了攻擊，包括深度Q-networks（deep Q-network, DQN）、異步優(yōu)勢動作評價(jià)（asynchronous advantage actor-critic, A3C）和信任區(qū)域策略優(yōu)化（trust region policy optimization, TRPO）。

在大多數(shù)情況下，白盒攻擊可以將智能體的準(zhǔn)確性降低50%，另外，在黑盒攻擊同樣也有效。盡管攻擊性能可能會下降，但這3種算法之間的對抗效果是能夠相互轉(zhuǎn)移的。文獻(xiàn)建議擾動Q 函數(shù)Q(s_t₊₁, ɑ, θ_t )中的輸入狀態(tài)s_t，從而在學(xué)習(xí)過程中產(chǎn)生對抗性動作ɑ′。

文章中推薦使用FGSM 和JSMA算法生成對抗性擾動。Lin等提出了深度強(qiáng)化學(xué)習(xí)的兩種攻擊策略，包括策略定時(shí)攻擊和附魔攻擊。策略定時(shí)攻擊是指僅在幾個特定的時(shí)間步長內(nèi)擾動圖像輸入從而使獎勵最小化。這種攻擊是通過優(yōu)化獎勵的擾動來進(jìn)行的。附魔攻擊可以對抗性地干擾圖像幀從而將智能體引誘到目標(biāo)狀態(tài)。這種攻擊需要一個生成模型來預(yù)測未來的狀態(tài)和動作，然后產(chǎn)生一個誤導(dǎo)性的動作序列指導(dǎo)生成圖像幀上的擾動。

五、對抗防御

本節(jié)將總結(jié)近年來具有代表性的對抗防御方法，主要包括對抗訓(xùn)練、基于隨機(jī)化的方法、降噪方法、可證明的防御以及其他一些新防御。我們還將簡要討論它們在不同環(huán)境下對不同攻擊的有效性。

（一）對抗訓(xùn)練

對抗訓(xùn)練是一種針對對抗樣本的直觀防御方法，該方法試圖通過利用對抗樣本進(jìn)行訓(xùn)練來提高神經(jīng)網(wǎng)絡(luò)的魯棒性。從形式上講，這是一個Min-Max的游戲，可以表述為：

式中，

是對抗損失函數(shù)；θ 是網(wǎng)絡(luò)權(quán)重；x′ 是對抗輸入；y 是標(biāo)簽真值。D (x, x′ )表示x 和x′ 之間的某種距離度量。內(nèi)部的最大化優(yōu)化問題是找到最有效的對抗樣本，這可以通過精心設(shè)計(jì)的對抗攻擊實(shí)現(xiàn)，如 FGSM和PGD。外部的最小化優(yōu)化問題是損失函數(shù)最小化的標(biāo)準(zhǔn)訓(xùn)練流程。最終的網(wǎng)絡(luò)應(yīng)該能夠抵抗訓(xùn)練階段用的生成對抗性樣本的對抗性攻擊。

最近的研究表明：對抗性訓(xùn)練是對抗性攻擊最有效的防御手段之一。主要是因?yàn)檫@種方法在幾個基準(zhǔn)數(shù)據(jù)集上達(dá)到了最高的精度。因此在本節(jié)中，我們將詳細(xì)介紹過去幾年里表現(xiàn)最好的對抗訓(xùn)練技術(shù)。

1. FGSM 對抗訓(xùn)練

Goodfellow等首先提出用良性和FGSM生成的對抗樣本訓(xùn)練神經(jīng)網(wǎng)絡(luò)以增強(qiáng)其網(wǎng)絡(luò)魯棒性的方法。他們提出的對抗目標(biāo)函數(shù)可以表達(dá)為：

式中，

是良性樣本x 根據(jù)FGSM方法生成的對抗樣本；c 是用于平衡良性和對抗性樣本的準(zhǔn)確性。文獻(xiàn)中的實(shí)驗(yàn)表明，該網(wǎng)絡(luò)對于FGSM方法生成的對抗性樣本變得有些穩(wěn)健。具體來說，在對抗訓(xùn)練中對抗樣本的錯誤率從89.4%急劇下降至17.9%。盡管該方法對FGSM的攻擊有效，但是訓(xùn)練后的模型仍然容易受到基于迭代/優(yōu)化方式的對抗攻擊。因此許多研究進(jìn)一步挖掘了具有更強(qiáng)對抗性攻擊（如BIA/PGD攻擊）的對抗性訓(xùn)練。

2. PGD 對抗訓(xùn)練

大量評估表明，PGD攻擊可能是通用的一階L_∞攻擊。如果是這樣，那么針對PGD的模型魯棒性意味著可以抵抗各種一階L_∞攻擊?；谶@種推測，Madry等提出使用PGD對抗訓(xùn)練一個穩(wěn)健的網(wǎng)絡(luò)，出人意料的是PGD對抗訓(xùn)練確實(shí)提高了CNN和ResNets的魯棒性，從而能夠抵抗幾種具有代表性的一階L_∞攻擊，如在黑盒和白盒設(shè)置下的FGSM、PGD和CW_∞攻擊。即使是當(dāng)前最強(qiáng)的L_∞攻擊（即DAA），也只能將PGD對抗訓(xùn)練的MNIST模型和CIFAR-10模型的準(zhǔn)確性分別降低到88.56%和44.71%。

在最近的對抗攻擊與防御競賽（competition on adversarial attack and defense, CAAD）中，針對ImageNet對抗樣本的一流防御實(shí)際上也依賴于PGD 對抗訓(xùn)練。通過PGD對抗訓(xùn)練，原始的ResNets在20步PGD下已經(jīng)達(dá)到了50%以上的精度，而文獻(xiàn)中提出的降噪架構(gòu)實(shí)際上僅進(jìn)一步將精度提高了3%。以上所有研究和結(jié)果表明，PGD對抗訓(xùn)練總體上是針對L_∞攻擊的最有效對策。但是由于生成PGD對抗樣本需要大量計(jì)算成本，因此PGD對抗訓(xùn)練不是一種有效率的防御措施。

例如，在TITAN-V圖形處理器（graphics processing unit, GPU）上使用針對CIFAR-10數(shù)據(jù)集的簡化ResNet進(jìn)行PGD對抗訓(xùn)練大約需要3 d，而在CAAD 中排名第一的模型在128個Nvidia V100 GPU上花費(fèi)了 52 h。此外，PGD對抗訓(xùn)練模型僅對L_∞攻擊具有魯棒性，這樣的模型依然容易受其他Lp-norm攻擊者的攻擊，如EAD和CW₂。

3. 集成對抗訓(xùn)練

為了避免PGD對抗訓(xùn)練帶來的大量計(jì)算成本，文獻(xiàn)提出通過FGSM對抗訓(xùn)練和隨機(jī)啟動（RAND + FGSM）結(jié)合來生成魯棒的ImageNet模型。但是經(jīng)過對抗訓(xùn)練的模型甚至很容易受到黑盒攻擊。為了解決這個問題，文獻(xiàn)提出了一種訓(xùn)練方法，該方法利用多個預(yù)先訓(xùn)練的模型中轉(zhuǎn)移的對抗樣本進(jìn)行對抗訓(xùn)練，即集成對抗訓(xùn)練（ensemble adversarial training, EAT）。

直觀上，EAT增加了用于對抗訓(xùn)練的對抗樣本的多樣性，從而增強(qiáng)了針對從其他模型轉(zhuǎn)移過來的對抗樣本的神經(jīng)網(wǎng)絡(luò)魯棒性。實(shí)驗(yàn)結(jié)果表明，EAT模型對其他模型遭受的各種單步和多步攻擊產(chǎn)生的對抗樣本都具有較強(qiáng)的魯棒性。在某些情況下，EAT對黑盒和灰盒攻擊的抵抗性能甚至優(yōu)于PGD對抗訓(xùn)練。

4. 對抗 Logit 配對

Kannan等提出了一種新的稱為對抗Logit配對（adversarial Logit-pairing, ALP）的對抗訓(xùn)練方法。與文獻(xiàn)中提出的穩(wěn)定性訓(xùn)練策略相似。該方法通過將良性樣本x 的logits層和相應(yīng)的擾動樣本x′之間的交叉熵包括在訓(xùn)練損失函數(shù)中，來鼓勵提高成對樣本在學(xué)習(xí)到的 Logits層的相似性。唯一的區(qū)別是文獻(xiàn)中使用的x′ 是PGD對抗樣本。該方法訓(xùn)練的損失函數(shù)為：

式中，

是原始損失；而

是x 和x′ 的Logits層的交叉熵。文獻(xiàn)中的實(shí)驗(yàn)表明，這種配對損失有助于在多個基準(zhǔn)數(shù)據(jù)集上提高PGD對抗訓(xùn)練的性能，如 SVHN、CIFAR-10和小型ImageNet。文獻(xiàn)聲稱ALP 在白盒PGD攻擊下可以將Inception V3模型的準(zhǔn)確性從 1.5%提高到27.9%，并且在抵御黑盒攻擊方面也表現(xiàn)得與EAT差不多。然而文獻(xiàn)評估了經(jīng)過ALP訓(xùn)練的 ResNet的魯棒性，發(fā)現(xiàn)在文獻(xiàn)考慮的目標(biāo)攻擊下， ResNet僅能實(shí)現(xiàn)0.6%的正確分類率。文獻(xiàn)還指出 ALP不太適合梯度下降，因?yàn)锳LP有時(shí)會引起“凹凸不平”，例如，在損失函數(shù)空間中，輸入樣本點(diǎn)附近可能被凹陷的損失情況包圍。因此ALP可能不如文獻(xiàn)中所描述的那樣穩(wěn)健。

5. 生成對抗訓(xùn)練

以上所有對抗訓(xùn)練策略均采用確定性攻擊算法來生成訓(xùn)練樣本。文獻(xiàn)首先提出在對抗性訓(xùn)練的過程中利用非確定性生成器來生成對抗性樣本。作者設(shè)置了一個生成器，該生成器的輸入是訓(xùn)練好的模型在良性樣本點(diǎn)上的梯度，并產(chǎn)生了類似FGSM的對抗性擾動。通過在良性樣本和生成樣本上訓(xùn)練分類器，與FGSM對抗訓(xùn)練模型相比，獲得了一個對FGSM具有更強(qiáng)魯棒性的模型。Liu等首先提出使用AC-GAN架構(gòu)進(jìn)行數(shù)據(jù)擴(kuò)充，從而提高PGD對抗訓(xùn)練的通用性。通過將PGD對抗樣本作為真實(shí)樣本輸入到鑒別器中，ACGAN學(xué)會了生成與PGD對抗性樣本相似的偽造樣本。類似于PGD的假樣本將被用來訓(xùn)練輔助分類器和預(yù)訓(xùn)練的鑒別器。根據(jù)文獻(xiàn)，生成器、鑒別器、輔助分類器和PGD攻擊的這種組合在單個網(wǎng)絡(luò)中不僅會形成更強(qiáng)大的分類器，而且可以形成更好的生成器。

（二）隨機(jī)化

最近的許多防御措施都采用隨機(jī)化來減輕輸入/特征域中對抗性擾動的影響，因?yàn)閺闹庇X上看，DNN總是對隨機(jī)擾動具有魯棒性?；陔S機(jī)化的防御方法試圖將對抗性效應(yīng)隨機(jī)化為隨機(jī)性效應(yīng)，當(dāng)然這對大多數(shù) DNN而言都不是問題。在黑盒攻擊和灰盒攻擊的設(shè)置下，基于隨機(jī)化的防御獲得了不錯的性能，但是在白盒攻擊下，EoT方法能夠通過在攻擊過程中考慮隨機(jī)過程來破壞大多數(shù)防御方法。本節(jié)將詳細(xì)介紹幾種基于隨機(jī)化的代表性防御方式，并介紹其針對不同環(huán)境中各種防御的性能。

1. 隨機(jī)輸入變換

Xie等利用隨機(jī)調(diào)整大小和填充這兩種隨機(jī)變換來減輕推理時(shí)的對抗效果。隨機(jī)調(diào)整大小是指在將輸入圖像輸入DNN之前將其調(diào)整為隨機(jī)大小。隨機(jī)填充是指以隨機(jī)方式在輸入圖像周圍填充零。這種快速而敏銳的機(jī)制如圖8所示。該防御方法在黑盒攻擊下取得了卓越的性能，在NIPS 2017對抗樣本防御挑戰(zhàn)中排名第二，然而在白盒攻擊下這種防御會被EoT方法破壞。當(dāng)使用30個隨機(jī)調(diào)整大小和填充的圖像集合來逼近梯度時(shí)，EoT能夠通過8/255 L_∞擾動將模型精度降低到0。Guo等的防御方法是將圖像送入到 CNN之前使用具有隨機(jī)性的圖像變換，如位深度減小、 JPEG壓縮、總方差最小化和圖像縫合。這種方法可以抵抗由多種主流攻擊方法生成的60%的強(qiáng)灰盒對抗樣本和90%的強(qiáng)黑盒對抗樣本。但是它也會受到EoT方法的損害。

圖8 Xie等提出的基于隨機(jī)化的防御機(jī)制流程圖。輸入圖像首先被隨機(jī)調(diào)整大小，然后被隨機(jī)填充

2. 隨機(jī)噪聲

Liu等提出名為RSE（random self-ensemble）的隨機(jī)噪聲機(jī)制來防御對抗性干擾。在訓(xùn)練和測試階段， RSE在每個卷積層之前添加一個噪聲層，并集成隨機(jī)噪聲的預(yù)測結(jié)果以確保DNN有穩(wěn)定的輸出，如圖9所示。

Lecuyer等從差分隱私（differential privacy, DP）的角度看待隨機(jī)噪聲的防御方式，并提出了一種基于DP的防御PixelDIP。PixelDP在DNN內(nèi)集成了DP噪聲層，基于范數(shù)的微小擾動會引起預(yù)測結(jié)果概率分布的變化，通過這種變化可以給出DP邊界。PixelDP可在使用Laplacian/Gaussian DP機(jī)制防御的前提下抵抗L₁/L₂攻擊。

受PixelDP的啟發(fā)，文獻(xiàn)中的作者進(jìn)一步提出在分類之前將隨機(jī)噪聲直接添加到對抗性樣本的像素中，從而消除對抗性擾動的影響?；赗enyi散度理論，文獻(xiàn)證明了利用輸出概率分布（向量）的第一和第二大概率可以確定其對抗擾動的魯棒上限。

圖9 RSE的結(jié)構(gòu)

3. 隨機(jī)特征修剪

Dhillon等提出了一種稱為隨機(jī)激活修剪（stochastic activation pruning, SAP）的方法進(jìn)行對抗防御，該方法通過隨機(jī)修剪每一層中的一部分激活子集，并優(yōu)先保留更大幅度的激活項(xiàng)來保護(hù)預(yù)訓(xùn)練網(wǎng)絡(luò)免受對抗樣本的攻擊。在激活修剪之后，SAP會擴(kuò)展尚存的激活從而標(biāo)準(zhǔn)化每個層的輸入。但是在CIFAR-10上， EoT還是可以通過8/255 L_∞對抗擾動將SAP的精度降低為0。Luo等通過隨機(jī)掩蓋卷積層輸出的特征圖設(shè)計(jì)了一種新的CNN結(jié)構(gòu)。通過隨機(jī)掩蓋輸出特征圖使每個過濾器僅從局部位置提取要素。Luo等聲稱這將有助于過濾器學(xué)習(xí)與掩模圖案一致分布的特征，因此CNN可以捕獲有關(guān)局部特征空間結(jié)構(gòu)的更多信息。

（三）去噪

就減輕對抗性擾動/效果而言，降噪是一種非常簡單的方法。之前的工作指出了設(shè)計(jì)這種防御的兩個方向，包括輸入降噪和特征圖降噪。其中第一個方向試圖從輸入中部分或完全消除對抗性擾動，第二個方向是減輕對抗性擾動對DNN學(xué)習(xí)高級功能的影響。本節(jié)將詳細(xì)介紹這兩個方向上的幾種著名防御方法。

1. 常規(guī)輸入整流

為了減輕對抗效果，Xu等首先利用兩種壓縮（去噪）方法：位減少和圖像模糊，以減少自由度并消除對抗性擾動，如圖10所示。通過比較原始圖像和壓縮圖像上的模型預(yù)測值來實(shí)現(xiàn)對抗樣本檢測。如果原始輸入和壓縮輸入產(chǎn)生的輸出與模型有很大差異，則原始輸入可能是對抗樣本。

Xu等進(jìn)一步聲稱在文獻(xiàn)中提出的特征壓縮方法可以減輕C＆W攻擊，但是He等證明了特征壓縮仍然容易受到知識適應(yīng)性的攻擊者的攻擊，在實(shí)驗(yàn)過程中采用CW₂損失作為對抗損失。在每步優(yōu)化之后，作者可從優(yōu)化器里獲得中間圖像。

Xu 等的檢測系統(tǒng)會檢查通過減小色深獲得的中間圖像，這種優(yōu)化將運(yùn)行多次，所有可以繞過Xu等系統(tǒng)的中間對抗性樣本都將被統(tǒng)計(jì)，整個自適應(yīng)攻擊可以在比文獻(xiàn)中小得多的擾動下破壞輸入壓縮系統(tǒng)。Sharma和 Chen也表明EAD和CW₂可以通過增強(qiáng)攻擊者的實(shí)力繞過輸入壓縮系統(tǒng)。

圖10 Xu等提出的特征壓縮框架。d₁和d₂：模型對壓縮輸入的預(yù)測與原始輸入的預(yù)測之間的差異；H：用于檢測對抗示例的閾值

2. 基于 GAN 的輸入清理

生成對抗網(wǎng)絡(luò)（GAN）是一種功能強(qiáng)大的工具，其可用于學(xué)習(xí)數(shù)據(jù)分布并形成生成器。大量的工作試圖利用GAN來學(xué)習(xí)良性數(shù)據(jù)分布，從而在對抗性輸入的前提下生成良性預(yù)測。防御-GAN（Defense-GAN）和對抗干擾消除-GAN（adversarial perturbation elimination-GAN, APE-GAN）是這類工作的兩個代表。Defence-GAN訓(xùn)練生成器來對良性圖像的分布進(jìn)行建模，如圖11所示。

在測試階段，Defense-GAN通過在其學(xué)習(xí)的分布中搜索接近于對抗樣本的圖像來清除對抗樣本，然后將良性圖像輸入分類器。這種策略可以用來防御各種對抗攻擊，目前針對Defence-GAN最有效的攻擊方案是基于BPDA的攻擊方法，它可以通過 0.005L₂的對抗擾動將其準(zhǔn)確性降低到55%。APE-GAN直接學(xué)習(xí)生成器，它將對抗樣本作為輸入，輸出其對應(yīng)的良性樣本，從而清晰對抗樣本。盡管APE-GAN 在文獻(xiàn)的實(shí)驗(yàn)平臺上取得了很好的性能，但在文獻(xiàn)中指出自適應(yīng)白盒攻擊CW₂可以很容易擊敗APEGAN。

圖11 Defense-GAN的流程圖。G：可以從低維向量z 生成高維輸入樣本的生成模型；R：隨機(jī)數(shù)生成器生成的隨機(jī)向量的數(shù)量

3. 基于自動編碼器的輸入去噪

在文獻(xiàn)中作者介紹了一種稱為MagNet的兩節(jié)防御系統(tǒng)，其中包括一個探測器和一個重整器。在 MagNet中使用自動編碼器來學(xué)習(xí)良性樣本的多種形式。檢測器根據(jù)樣本與學(xué)習(xí)到的良性樣本的多種形式之間的關(guān)系來區(qū)分良性樣本和對抗樣本。重整器用于將對抗樣本糾正為良性樣本。作者通過實(shí)驗(yàn)證明了MagNet可以有效抵抗灰盒和黑盒設(shè)置（如FGSM、BIA和C＆W）下的各種對抗攻擊。然而文獻(xiàn)證明了MagNet容易受到CW₂攻擊產(chǎn)生的可轉(zhuǎn)移對抗樣本的攻擊。

4. 特征去噪

Liao等提出了一種基于高級表示法指導(dǎo)的去噪器（high-level representation guided denoiser, HGD），這種去噪器可以改善受對抗性擾動影響的特征。HGD不是使用像素級去噪，而是使用特征級損失函數(shù)訓(xùn)練降噪的U-NET，這樣可以最大限度地減少良性和對抗性樣本之間的特征級差異。在NIPS2017比賽中，HGD獲得了防御賽道的第一名（黑盒攻擊）。盡管這種方法在黑盒設(shè)置下有效，但在白盒設(shè)置下HGD會受到PGD攻擊者的損害。

文獻(xiàn)中的實(shí)驗(yàn)表明，4/255 L_∞擾動的PGD攻擊已經(jīng)可以將HGD的精度降低到0。Xie等設(shè)計(jì)了一個塊來學(xué)習(xí)幾種去噪操作，從而糾正DNN 中間層學(xué)習(xí)到的特征。改進(jìn)后的PGD對抗訓(xùn)練網(wǎng)絡(luò)在 CAAD 2018對抗防御賽道中排名第一。盡管Xie等取得了顯著的成功，但與PGD對抗訓(xùn)練相比，特征去噪塊對網(wǎng)絡(luò)魯棒性的貢獻(xiàn)并不顯著。因?yàn)樵诎缀蠵GD攻擊下，PGD對抗訓(xùn)練的基線ResNet也能達(dá)到近50%的準(zhǔn)確率，而文獻(xiàn)提出的去噪塊僅使該基線的準(zhǔn)確率提高了3%。

（四）可證明式防御

以上所有介紹的防御都是啟發(fā)式防御，這意味著這些防御的有效性只在實(shí)驗(yàn)上得到驗(yàn)證，而沒有在理論上得到證明。如果無法計(jì)算理論上的錯誤率，這些啟發(fā)式防御可能會被未來的新攻擊所打破。因此許多研究者致力于探索可證明的防御方法，在一類定義明確的攻擊下，這些方法始終能保持一定的準(zhǔn)確性。本節(jié)將介紹幾種具有代表性的可證明的防御。

1. 基于半定規(guī)劃的可證明式防御

Raghunathan等首先提出了一種針對兩層網(wǎng)絡(luò)生成的對抗樣本的可證明的防御方法。作者導(dǎo)出了攻擊者損失函數(shù)上界的半定松弛，并將其作為正則化項(xiàng)加入訓(xùn)練損失函數(shù)中。

這種訓(xùn)練方法產(chǎn)生的一個網(wǎng)絡(luò)被證明在不超過 0.1/1.0 L_∞擾動的情況下，不會對MNIST造成超過35% 的測試誤差。在文獻(xiàn)中，Raghunathan等進(jìn)一步提出了一種新的半定性松弛來證明任意ReLU網(wǎng)絡(luò)的防御性能。新提出的松弛比以前的松弛更嚴(yán)格，并且可以在3個不同的網(wǎng)絡(luò)上保證其魯棒性。

2. 基于對偶方法的可證明式防御

借鑒文獻(xiàn)的思路，Wong等提出了一個對抗問題來界定對抗樣本的輸出多維區(qū)域。他們表明可以通過在另一個深度神經(jīng)網(wǎng)絡(luò)上進(jìn)行優(yōu)化來解決對偶問題。與僅適用于兩層全連接網(wǎng)絡(luò)有所不同，該方法可應(yīng)用于具有任意線性算子層（如卷積層）的深層網(wǎng)絡(luò)。文獻(xiàn)^[88]將文獻(xiàn)^[87]中的技術(shù)擴(kuò)展到了具有跳過連接和任意非線性激活的更通用的網(wǎng)絡(luò)。文獻(xiàn)^[88]還提出了一種非線性隨機(jī)投影技術(shù)，這種方法使得估計(jì)邊界問題的規(guī)模與隱藏元的規(guī)模是線性相關(guān)的，這使得該方法適用于較大的網(wǎng)絡(luò)。在MNIST和CIFAR數(shù)據(jù)集上，利用文獻(xiàn)^[88]提出的技術(shù)訓(xùn)練分類器可以大大改善先前可證明式防御方法的魯棒性：在? = 0.1的L_∞擾動下，在MNIST 上的錯誤率從5.8%下降到3.1%；在? = 2/255的L_∞擾動的情況下，在CIFAR上的錯誤率從80%下降到36.4%。

3. 分布穩(wěn)健性證明

從分布優(yōu)化的角度來看，文獻(xiàn)^[89]將對抗性分布的優(yōu)化問題表述為：

式中， ? 是圍繞良性數(shù)據(jù)所有分布的候選集，可以由散度球或Wasserstein球構(gòu)造。在此分布目標(biāo)上進(jìn)行的優(yōu)化等效于將對良性數(shù)據(jù)相鄰的所有樣本（即對抗樣本的所有候選項(xiàng)）的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化。由于P 會影響計(jì)算的復(fù)雜性，并且難以在任意P上進(jìn)行直接優(yōu)化，因此文獻(xiàn)^[80]使用Wasserstein距離度量和計(jì)算效率高的松弛，可求出能處理的集合P，即使J (θ, x, y )不為凸函數(shù)也可計(jì)算。文獻(xiàn)^[89]還提供了對抗訓(xùn)練方法，其計(jì)算性能和統(tǒng)計(jì)性能可以利用數(shù)學(xué)進(jìn)行證明。在所提出的訓(xùn)練過程中，文獻(xiàn)^[89]引入了一個懲罰項(xiàng)來描述對抗穩(wěn)健性區(qū)域。由于很難對該懲罰項(xiàng)進(jìn)行優(yōu)化，因此提出了針對該懲罰項(xiàng)的拉格朗日松弛法，從而實(shí)現(xiàn)了對分布損失函數(shù)的魯棒優(yōu)化。作者還能夠確保魯棒鞍點(diǎn)問題的經(jīng)驗(yàn)性最小值，并給出了域適應(yīng)問題的專門界限，這也為分布魯棒性證明提供了啟發(fā)。

（五）稀疏權(quán)重 DNN

Guo等首先證明了針對FGSM和DeepFool生成的對抗樣本的權(quán)重稀疏性和網(wǎng)絡(luò)穩(wěn)健性之間的內(nèi)在聯(lián)系。對于線性模型，文獻(xiàn)證明了對抗樣本的優(yōu)化會導(dǎo)致網(wǎng)絡(luò)權(quán)重的稀疏化。對于非線性神經(jīng)網(wǎng)絡(luò)，文獻(xiàn)]應(yīng)用了文獻(xiàn)中確保魯棒性的方法，并證明當(dāng)權(quán)重矩陣較稀疏時(shí)，網(wǎng)絡(luò)Lipchitz常數(shù)傾向于更小。由于研究發(fā)現(xiàn)最小化Lipchitz常數(shù)有助于提高網(wǎng)絡(luò)的魯棒性，因此可以得出結(jié)論，稀疏權(quán)重也將導(dǎo)致神經(jīng)網(wǎng)絡(luò)更魯棒。文獻(xiàn)還顯示了權(quán)重稀疏性對網(wǎng)絡(luò)穩(wěn)健性驗(yàn)證是有益的。作者證明稀疏度可以將計(jì)算上難以解決的驗(yàn)證問題轉(zhuǎn)變?yōu)橐子诮鉀Q的問題。文獻(xiàn)通過用L₁正則化訓(xùn)練神經(jīng)網(wǎng)絡(luò)來改善權(quán)重稀疏性，并發(fā)現(xiàn)權(quán)值稀疏性顯著加快了用于網(wǎng)絡(luò)魯棒性驗(yàn)證的線性規(guī)劃（linear programming, LP）求解器。

（六）基于 KNN 的防御

Wang等首先開發(fā)了一個框架用于分析k 最近鄰（KNN）算法的對抗魯棒性。該框架確定了具有不同魯棒性的k的兩個不同狀態(tài)。假設(shè)常數(shù)為k 的KNN在條件概率p (y = 1|x )位于(0, 1)的區(qū)域中，這樣的模型在大樣本限制條件下不具有魯棒性。對于

其中，d是數(shù)據(jù)維度；n 是樣本大小，在大樣本限制條件下，基于KNN的分類的魯棒性區(qū)域接近貝葉斯最佳分類器的魯棒性區(qū)域。由于對于具有高數(shù)據(jù)維度和大量樣本的真實(shí)數(shù)據(jù)集而言太大，文獻(xiàn)提出了一種有效的1-最近鄰算法。該算法中當(dāng)反向標(biāo)記的點(diǎn)相距較遠(yuǎn)時(shí)，最接近的1個鄰居是魯棒的?；谏鲜霈F(xiàn)象，該算法會刪除附近的反向標(biāo)記點(diǎn)，并保留與其鄰居共享相同標(biāo)記的點(diǎn)。

在MNIST上，對于較小的對抗性擾動（低攻擊半徑），此算法與基于1-最近鄰的分類相比其性能稍遜于其他防御（如對抗訓(xùn)練的分類器），而在較大攻擊半徑的情況下，其性能優(yōu)于那些防御。Papernot等提出了一種稱為DkNN的基于KNN 的防御方法，該方法是對DNN每一層學(xué)習(xí)的數(shù)據(jù)表示執(zhí)行KNN算法。KNN算法主要用于估計(jì)測試輸入的異常預(yù)測。當(dāng)DNN學(xué)習(xí)的中間表示與那些和預(yù)測共享同一標(biāo)簽的訓(xùn)練樣本的表示不接近時(shí)，則認(rèn)為該預(yù)測是異常的。實(shí)驗(yàn)表明，在多次對抗攻擊下，尤其是在C&W 攻擊下，DkNN可以顯著提高DNN的準(zhǔn)確性。

（七）基于貝葉斯模型的防御

Liu等將貝葉斯神經(jīng)網(wǎng)絡(luò)（Bayesian neural network, BNN）與對抗訓(xùn)練相結(jié)合，從而學(xué)習(xí)在對抗攻擊下的最優(yōu)模型的權(quán)重分布。具體來說，作者假設(shè)網(wǎng)絡(luò)中的所有權(quán)重都是隨機(jī)的，并使用BNN理論中常用的技術(shù)訓(xùn)練網(wǎng)絡(luò)。通過對抗性訓(xùn)練，這種隨機(jī)的BNN，與RSE和CIFAR10以及STL10和 ImageNet143的常見的對抗性訓(xùn)練相比，顯著提高了對抗魯棒性。Schott等建議基于貝葉斯模型對輸入數(shù)據(jù)的分類條件分布進(jìn)行建模，并將新樣本分類為相應(yīng)類別條件模型產(chǎn)生最高似然性的類別。他們將模型命名為 Analysis by Synthesis model（ABS）。ABS被稱為MNIST 數(shù)據(jù)集上針對L₀、L₂和L_∞攻擊的第一個穩(wěn)健模型。ABS在抵抗L₀和L₂攻擊方面達(dá)到了最先進(jìn)的性能，但在L_∞的攻擊下其性能要比PGD對抗訓(xùn)練的模型稍差。

（八）基于一致性的防御

對于諸如音頻識別和圖像語義分割之類的機(jī)器學(xué)習(xí)任務(wù)，可以應(yīng)用一致性信息來區(qū)分良性樣本和對抗性樣本。Xiao等發(fā)現(xiàn)對于語義分割任務(wù)，對抗性干擾一個像素也會影響其周圍像素的預(yù)測。因此對單個區(qū)塊進(jìn)行干擾也會破壞其附近元素之間的空間一致性。這種一致性信息可以用于區(qū)分良性和對抗性圖像。作者用自適應(yīng)攻擊方式對這種基于一致性的防御進(jìn)行了評估，最終證明了這種防御比其他異常檢測系統(tǒng)具有更好的性能。對于音頻識別任務(wù)，Yang等探索了音頻信號的時(shí)間一致性，并且還發(fā)現(xiàn)對抗性擾動將破壞時(shí)間一致性。對于對抗性音頻信號，信號的一部分平移與整個信號的平移不一致。文獻(xiàn)顯示基于一致性測試的檢測可以在對抗性音頻信號上實(shí)現(xiàn)90%以上的檢測率。

六、討論

（一）白盒與黑盒攻擊

從攻擊者的角度來看，白盒攻擊和黑盒攻擊的主要區(qū)別在于它們對目標(biāo)模型的訪問權(quán)限。在白盒攻擊中，攻擊者可以訪問模型的結(jié)構(gòu)和權(quán)重，以便他們可以通過文獻(xiàn)中的方法計(jì)算真實(shí)的模型梯度或近似梯度，此外攻擊者還可以根據(jù)防御方法和參數(shù)調(diào)整其攻擊方法。在這種情況下，以前引入的大多數(shù)啟發(fā)式防御實(shí)際上無法抵御這種強(qiáng)大的自適應(yīng)攻擊者。

在黑盒攻擊中，模型結(jié)構(gòu)和權(quán)重不會被攻擊者知道，在這種情況下，為了使用上述基于梯度的攻擊算法，對手必須從有限的信息中推斷出模型的梯度。在沒有任何特定模型信息的情況下，對模型梯度的無偏估計(jì)就是對具有不同隨機(jī)種子的一組預(yù)訓(xùn)練模型梯度的期望。文獻(xiàn)使用基于動量梯度的方法進(jìn)行此梯度估計(jì)，并在NIPS2017挑戰(zhàn)賽（在黑盒設(shè)置下）中獲得第一名。

Chen等研究了另一種黑盒攻擊方法，該方法可以向攻擊者授予額外的查詢訪問權(quán)限。因此如果給定精心設(shè)計(jì)的輸入，攻擊者可以從目標(biāo)模型的輸出推斷出梯度。在這種設(shè)置下，可以應(yīng)用零階方法來更好地估計(jì)模型梯度。但是此方法的缺點(diǎn)是需要進(jìn)行大量的查詢操作，其查詢量與數(shù)據(jù)維度成比例。

（二）對抗攻擊與防御研究趨勢之間的差異

對抗攻擊的研究趨勢主要包括兩個方向。第一個是設(shè)計(jì)更有效、更強(qiáng)大的攻擊用來評估新興的防御系統(tǒng)，這個方向的重要性很直觀，因?yàn)槲覀兿Ｍ跐撛趯κ置媲邦A(yù)先了解所有的風(fēng)險(xiǎn)。第二個是實(shí)現(xiàn)物理世界中的對抗攻擊。以前對該研究主題的主要疑問是那些對抗性攻擊是否會對物理世界形成真正的威脅。

一些研究人員懷疑由于某些環(huán)境因素的影響，最初在數(shù)字空間中設(shè)計(jì)的對抗性攻擊將無效。Kurakin等首先通過使用模型梯度相對于輸入的期望值并加上環(huán)境因素引起的隨機(jī)噪聲來實(shí)現(xiàn)物理世界中的對抗攻擊。Eykholt等進(jìn)一步考慮了掩模和制造誤差，從而實(shí)現(xiàn)了交通標(biāo)志的對抗性擾動。最近Cao等成功生成的對抗目標(biāo)可以用來欺騙基于激光雷達(dá)的檢測系統(tǒng)，這些都驗(yàn)證了物理對抗樣本的存在。

在防御方面，由于大多數(shù)啟發(fā)式防御都無法防御自適應(yīng)白盒攻擊，因此研究者開始關(guān)注可證明的防御，這種防御是指無論攻擊者采用哪種攻擊方式，可證明防御都可以在一定程度下保證防御的性能。但是到目前為止，可擴(kuò)展性是目前大多數(shù)可證明防御所普遍具有的問題。例如，區(qū)間界分析是最近流行的證明式防御方法，但是它不能擴(kuò)展到非常深的神經(jīng)網(wǎng)絡(luò)和大型數(shù)據(jù)集。由此可見，與攻擊相比，防御系統(tǒng)的發(fā)展面臨著更多的挑戰(zhàn)。這主要是因?yàn)橐淮喂糁荒茚槍σ活惙烙?，所以防御機(jī)理急需被證明，這樣某種防御在某些情況下對所有可能的攻擊才能都有效。

（三）模型魯棒性分析的最新進(jìn)展

由于DNN具有復(fù)雜的非凸性，理論上很難對其進(jìn)行分析，因此人們開始分析一些簡單的ML模型，如 KNN和線性分類器的魯棒性。Wang等指出KNN的穩(wěn)健性在很大程度上依賴于參數(shù)k、數(shù)據(jù)維數(shù)d 和數(shù)據(jù)大小n。k 必須非常大才能保證KNN像貝葉斯優(yōu)化分類器一樣具有漸近穩(wěn)健性。Fawzi等分析了線性和二階分類器穩(wěn)健性的理論框架，其中模型穩(wěn)健性由能夠引起樣本類別變化的擾動范數(shù)平均值來定義。在適用于包括線性和二階在內(nèi)的大量分類器假設(shè)下，模型魯棒性的上界得到了證明。研究表明，與均勻隨機(jī)噪聲的魯棒性相比，對抗魯棒性的尺度為

最近，MLP、CNN 和ResNet的魯棒性也被廣泛研究，研究者通過抽象的區(qū)間界分析試圖在給定擾動大小的情況下逐層約束輸出。我們在本次調(diào)查中沒有詳細(xì)分析，請感興趣的讀者參考文獻(xiàn)。

（四）未解決的主要挑戰(zhàn)

（1）對抗樣本背后的因果關(guān)系。雖然提出了許多對抗攻擊方式，但是對抗樣本的因果關(guān)系仍不清楚。早期對這一問題的研究將對抗樣本的出現(xiàn)歸功于模型結(jié)構(gòu)和學(xué)習(xí)方法，研究者認(rèn)為適當(dāng)?shù)牟呗院途W(wǎng)絡(luò)結(jié)構(gòu)將顯著提高對抗樣本的魯棒性。研究者沿著這種思路嘗試過一些探索，特別是與產(chǎn)生模糊梯度相關(guān)的研究，然而實(shí)際上這可能是一種不太合理的研究方向。相反，最近的研究發(fā)現(xiàn)對抗性的出現(xiàn)更可能是高維數(shù)據(jù)幾何和訓(xùn)練數(shù)據(jù)不足的結(jié)果。具體來說，文獻(xiàn)證明了對抗性擾動在幾個概念驗(yàn)證數(shù)據(jù)集（如{0, 1}ⁿ和同心n 維球體）上按比例放縮，其中d 是數(shù)據(jù)維度。Ludwig等表明對抗性強(qiáng)的任務(wù)比普通的ML任務(wù)需要更多的數(shù)據(jù)，并且所需的數(shù)據(jù)大小可能以比例放縮。

（2）通用魯棒決策邊界的存在。由于在不同度量標(biāo)準(zhǔn)下定義了許多對抗攻擊方法，一個自然的問題是是否存在由特定訓(xùn)練策略的某種DNN來學(xué)習(xí)的通用魯棒決策邊界。當(dāng)前，這個問題的答案是“否”。盡管PGD對抗訓(xùn)練對各種L_∞攻擊表現(xiàn)出顯著的抵抗力，但文獻(xiàn)表明它仍然容易受到其他L_p范數(shù)的對抗攻擊，如EAD和 CW₂。Khoury等證明了2-同心球面數(shù)據(jù)集的最優(yōu)L₂和L_∞決策邊界是不同的，它們的差異隨著數(shù)據(jù)集的共維（即數(shù)據(jù)流形的維數(shù)與整個數(shù)據(jù)空間的維數(shù)之差）而增大。

（3）有效防御白盒攻擊。我們?nèi)匀粵]有看到一種能夠很好地平衡效果和效率的防御。在有效性方面，對抗性訓(xùn)練表現(xiàn)出最好的性能，但計(jì)算成本很高。在效率方面，許多基于隨機(jī)和去噪的防御/檢測系統(tǒng)的配置只需幾秒鐘。然而，最近的許多論文表明這些防御方法并沒有他們聲稱的那樣有效。這些研究可證明防御理論為實(shí)現(xiàn)對抗防御指明了一條道路，但其準(zhǔn)確性和有效性都遠(yuǎn)遠(yuǎn)不能滿足實(shí)際要求。

七、結(jié)論

本文綜述了近年來具有代表性的對抗攻擊與對抗防御方法。我們研究了這些方法的思想，還根據(jù)最新進(jìn)展對對抗防御的有效性進(jìn)行了評論。我們的結(jié)論是：近兩年來新的對抗攻擊和防御迅速發(fā)展，同時(shí)針對對抗樣本的因果關(guān)系、一般魯棒邊界的存在等基本問題還需要深入研究。此外我們還沒有看到一種有效的對抗防御方法，目前最有效的防御是對抗性訓(xùn)練，但其在實(shí)際部署中計(jì)算成本太高。許多啟發(fā)式防御都聲稱其是有效的，但這類防御目前還不能抵御自適應(yīng)性白盒攻擊者的攻擊。簡而言之，要達(dá)到有效防御的目標(biāo)似乎還有很長的路要走。

注：本文內(nèi)容呈現(xiàn)略有調(diào)整，若需可查看原文。

改編原文：

Kui Ren, Tianhang Zheng, Zhan Qin, Xue Liu.Adversarial Attacks and Defenses in Deep Learning[J].Engineering,2020,6(3):346-360.

本文來自微信公眾號：中國工程院院刊（ID：CAE-Engineering），作者：任奎、Tianhang Zheng、秦湛、Xue Liu

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：昵稱535749 > 《學(xué)術(shù)觀點(diǎn)》

舉報(bào)/認(rèn)領(lǐng)