【原】毒丸計(jì)劃，干翻AI大模型？！

雷科技 2023-11-07 發(fā)布于廣東

展開全文

AI大模型的本質(zhì)，就是用大量的數(shù)據(jù)進(jìn)行訓(xùn)練，使其能夠了解并掌握各種數(shù)據(jù)，你所看到的文字回答、圖畫、視頻、音樂，其實(shí)都是由一個(gè)個(gè)數(shù)據(jù)子集根據(jù)模型算法所構(gòu)造的結(jié)果。

實(shí)際上，我們的大腦在回答問題時(shí)，也是類似的方式，只不過我們有著更強(qiáng)大的模糊運(yùn)算能力，甚至可以跳出原有知識的束縛，從一個(gè)新的角度對問題進(jìn)行解析，換言之就是無中生有。

但是，我們也往往會因?yàn)橐恍╁e(cuò)誤的認(rèn)知、失真的記憶等因素，而得出一些完全錯(cuò)誤或是與真相背道而馳的答案，那么AI呢？他們同樣如此，甚至當(dāng)他們的數(shù)據(jù)庫中出現(xiàn)污染時(shí)，他們會“信誓旦旦”地給出完全錯(cuò)誤的回答，并且認(rèn)為這就是正確的。

隨著AI大模型的數(shù)據(jù)版權(quán)問題愈演愈烈，如今網(wǎng)上正在涌現(xiàn)出不少針對AI大模型設(shè)置的陷阱，他們的做法是通過插入特殊數(shù)據(jù)，破壞AI的數(shù)據(jù)庫，使其產(chǎn)生完全錯(cuò)誤的回答。最終迫使開發(fā)者回滾相關(guān)數(shù)據(jù)版本，并主動避開產(chǎn)生錯(cuò)誤數(shù)據(jù)的網(wǎng)站，以達(dá)到保護(hù)自身數(shù)據(jù)版權(quán)不受侵害的目的。

對于這種行為，有個(gè)十分貼切的形容——毒丸。

毒丸的危害有多大？

關(guān)注AI大模型領(lǐng)域的朋友，應(yīng)該都還記得前段時(shí)間，國內(nèi)某科技公司的市值一天內(nèi)蒸發(fā)上百億，而造成這個(gè)后果的原因就是該企業(yè)的AI大模型遭到污染，進(jìn)而讓AI生成了一篇有違主流價(jià)值觀的文章，該文章被一位家長發(fā)現(xiàn)后發(fā)到了網(wǎng)上，引起了廣泛關(guān)注。

值得注意的是，也有聲音稱文章并非由AI生成，而是AI在抓取網(wǎng)絡(luò)資源時(shí)無意將其納入數(shù)據(jù)庫中，并在后續(xù)同步到了應(yīng)用里，導(dǎo)致該文章得到了曝光。不管是什么原因，一個(gè)顯而易見的事實(shí)都擺在我們面前，AI在分辨事物好壞的能力上，依然有著明顯的欠缺。

早在AI大模型受到關(guān)注的初期，就有聲音發(fā)出質(zhì)疑：“如果我們給AI投喂一些有害的數(shù)據(jù)，是否就可以讓AI成為一個(gè)壞人？”，答案無疑是肯定的。有人將AI部署到匿名網(wǎng)絡(luò)論壇4chan中，學(xué)習(xí)論壇中各個(gè)用戶之間的交流，在一段時(shí)間的訓(xùn)練后，開發(fā)者獲得了一個(gè)“五毒俱全”的AI，它支持納粹、支持種族歧視、支持種族清洗，并且擅長用各種惡毒的語言辱罵對話者。

這個(gè)結(jié)果甚至讓開發(fā)者都感到震驚，同時(shí)也說明如果對AI的訓(xùn)練數(shù)據(jù)不加以甄別，就會導(dǎo)致AI的認(rèn)知及回答都出現(xiàn)嚴(yán)重的錯(cuò)誤。所以，主流AI大模型都會加入了多重糾錯(cuò)和屏蔽措施，避免數(shù)據(jù)庫遭受有害信息的污染。

但是，相較于比較容易甄別及防范的文字?jǐn)?shù)據(jù)，繪畫等數(shù)據(jù)的“毒丸”則更加隱蔽且高效。此前，有黑客團(tuán)隊(duì)就為此專門開發(fā)了一套“投毒”工具，這套工具可以在看似正常的畫作中加入特殊的特征碼，使得AI將其誤認(rèn)為是另一個(gè)數(shù)據(jù)子集的作品，然后通過重復(fù)地污染數(shù)據(jù)池，來達(dá)到徹底破壞AI認(rèn)知的目的。

圖源：technologyreview

被污染的AI在面對畫圖需求時(shí)，就會給出完全錯(cuò)誤的回答，比如你讓AI畫一只狗，在短暫等待后，出現(xiàn)在你面前的卻是一只貓或者一頭牛，或者其他隨便什么東西，反正擺在你面前的肯定不是“一條狗”。

圖源：technologyreview

隨著污染數(shù)據(jù)的增多，AI生成的圖畫也會越發(fā)抽象，到最后變成一堆無意義的線條時(shí)，這個(gè)AI的數(shù)據(jù)庫基本上就算是玩完了，想要讓他恢復(fù)正常，只能選擇版本回歸，讓其回到出現(xiàn)問題之前的狀態(tài)。

但是，如何確定數(shù)據(jù)污染時(shí)間點(diǎn)也是一項(xiàng)費(fèi)時(shí)費(fèi)力的工作，而且會直接讓這段時(shí)間的訓(xùn)練數(shù)據(jù)打水漂，增加訓(xùn)練成本又降低訓(xùn)練效率，畫師們正是通過這種方式來保護(hù)自己的版權(quán)不受侵害，并逼迫AI公司主動繞開掛上了禁止抓取標(biāo)識的作品。

如果說毒丸只用在備注了禁止抓取的畫作上，那么這只能算是一次版權(quán)糾紛，而且多數(shù)網(wǎng)友或許也會選擇站在畫師一邊。但是，開發(fā)者很快就發(fā)現(xiàn)有大量并未標(biāo)識禁止抓取的作品也內(nèi)置了毒丸，并且開始持續(xù)性地污染AI數(shù)據(jù)庫，想要從浩瀚的訓(xùn)練數(shù)據(jù)中找出毒丸，難度卻極大，可以說直接影響了AI繪畫模型的訓(xùn)練速度。

如何防范毒丸的污染，已經(jīng)成為各個(gè)AI大模型需要慎重對待的問題。

AI攻防戰(zhàn)

如何避免AI被污染？對此，開發(fā)者想了很多辦法，比如加入更嚴(yán)苛的數(shù)據(jù)審核制度，寧愿降低訓(xùn)練效率也要將疑似有問題的數(shù)據(jù)剔除出去。但是，這個(gè)方法的效果并不算好，隨著審核力度加強(qiáng)的還有毒丸的隱蔽性。

通過特殊的算法，黑客團(tuán)隊(duì)也在不停地迭代更新投毒工具，讓毒丸可以被盡可能地偽裝成正常數(shù)據(jù)，進(jìn)而騙過AI的安全機(jī)制，進(jìn)入到核心數(shù)據(jù)區(qū)。或許10個(gè)毒丸只有1個(gè)可以安全過關(guān)，但是毒丸的生成速度極快，而摧毀一個(gè)數(shù)據(jù)庫所需要的毒丸數(shù)量，其實(shí)只需幾十個(gè)，一旦毒丸數(shù)量達(dá)到數(shù)百個(gè)，那么AI對某個(gè)事物的認(rèn)知就會完全帶歪。

此外，AI的學(xué)習(xí)能力也可以成為對抗毒丸的手段之一，將偽裝后的毒丸進(jìn)行數(shù)據(jù)標(biāo)識，然后反復(fù)投喂給AI，讓AI認(rèn)識到帶有此類特征的數(shù)據(jù)都是“有毒”的，進(jìn)而讓AI能夠舉一反三，從浩瀚的數(shù)據(jù)中分辨出有害數(shù)據(jù)。

當(dāng)然，有些隱蔽的非公開投毒工具就無法使用這種方法進(jìn)行對抗，此時(shí)就需要開發(fā)者進(jìn)行定期的安全審查，核實(shí)并清除惡意數(shù)據(jù)，同時(shí)根據(jù)惡意數(shù)據(jù)的特征提高模型對惡意數(shù)據(jù)的應(yīng)對能力。

不過這些方法都不夠高效，需要開發(fā)者時(shí)刻關(guān)注并更新模型，那么是否有別的辦法能夠更好地解決這個(gè)問題呢？當(dāng)然是有的，只不過需要付出更多的精力和成本，比如AI融合模型。

簡單來說，就是將多個(gè)AI模型融合成一個(gè)模型矩陣，在輸出數(shù)據(jù)前各個(gè)模型間先交換一輪數(shù)據(jù)，對輸出內(nèi)容進(jìn)行審核，在交叉認(rèn)證確認(rèn)數(shù)據(jù)無誤后再進(jìn)行輸出，考慮到一次性多個(gè)AI都被污染的概率很低，這種方法的效果和效率也是最高的。

但是，多個(gè)AI模型的混合十分考慮開發(fā)者的技術(shù)，會顯著增加系統(tǒng)的復(fù)雜度和計(jì)算成本，對于許多尚未盈利的AI團(tuán)隊(duì)或是中小型開發(fā)團(tuán)隊(duì)而言，有點(diǎn)難以承擔(dān)。所以這種方法大多被用在大型企業(yè)的AI模型矩陣中，為了確保輸出數(shù)據(jù)的正確性（至少看起來不能有明顯錯(cuò)誤），這點(diǎn)成本可以說不值一提。

可以說，如今的AI模型訓(xùn)練已經(jīng)不再是簡單地比拼數(shù)據(jù)規(guī)模和算法架構(gòu)，糾錯(cuò)及抗干擾能力也成為一個(gè)重要指標(biāo)。隨著AI大模型的應(yīng)用越發(fā)廣泛且用戶群體日益壯大，如何保證AI在回答問題時(shí)不出錯(cuò)已經(jīng)成為關(guān)鍵，考慮到如今草木皆兵，神經(jīng)高度敏感的投資市場風(fēng)氣，一個(gè)小失誤就損失百億并非玩笑。

End