在世人對AI的“邪惡性”進行攻詰的浪潮中,AI造假,可能已經(jīng)是現(xiàn)在排首位的理由了。 自從2017年Deepfake(深度偽造)橫空出世以后,人們驚呼原來AI在造假方面簡直天賦異稟。此后“AI生成內(nèi)容”技術,特別是GAN算法的突飛猛進更加印證了這一事實。不僅僅是AI換臉,還有AI自動生成文本、語音、圖像、視頻等等一切數(shù)字內(nèi)容。 除了AI換臉帶來的色情視頻泛濫之外,人們更進一步擔心AI生成內(nèi)容技術在隱私侵犯、威脅信息安全、操縱政治選舉等方面帶來全新挑戰(zhàn)。 人們往往會假設,如果任由AI生成的內(nèi)容在互聯(lián)網(wǎng)中蔓延,將會更進一步?jīng)_毀互聯(lián)網(wǎng)世界的真實性邊界。 (被AI造假的扎克伯格“諷刺”自己的Facebook平臺) Deepfake之后,真相何在? 如果哪些是真,哪些是假,普通人都難以分辨的時候,那么組成社會基石的真相和信任將就此坍塌,但我們似乎還沒有做好活在“無信任社會”的準備吧。 德國哲學家康德在《實踐理性批判》中論證“人為什么不能說謊”的法則,揭示了“無信任社會”的悖論和荒謬。假如“人人可以說謊”是一條社會的通行法則,那么,每個人都不會再信任另一個人說的話,這樣說話人的謊言也就不會得逞。說謊而無人相信,就陷入了自相矛盾的境地,反之“人人不能說謊”,才應該是正常社會的通行法則。 這就是說,只有在默認“人人應該誠實”的信任社會里,說謊者才可以通過成功騙到他人獲利,也會因為謊言被戳穿而信譽破產(chǎn)。而在“無信任社會”中,信息的真假判斷都難以進行,那只能默認一切都為“假”,才會不至于上當受騙。但是相應的代價是信任全無,合作難以達成,交流也不再可能,最終將會是社會的分崩離析。 當然這只是理論上面最極端的演繹?,F(xiàn)實世界永遠會在理論世界之下形成巨大的灰色空間,人性的基石仍將亙古不變,技術的演進也會一往無前,而人性的弱點就會在這兩者的撕扯的張力中一直暴露無遺。每一代的新人類除了持續(xù)的學習、進化,以適應技術加速帶來的全新挑戰(zhàn),似乎也沒有什么更好的辦法。 回到“Deepfake”為代表的“AI生成內(nèi)容”技術來說,它既不會成為將我們的社會拖向“無信任”的深淵,也不會讓我們的人性變得更好或更壞一點。在一個即將到來的“虛實相容、真假不分”的后真相世界當中,只會讓適應這一變化的我們變得更加復雜和反脆弱。 所以。這一略帶“貶義”的Deepfake(深度偽造)的技術名詞,需要被我們重新塑造為一個技術中性詞匯——Deep Synthesis(深度合成)。 為“深度合成”正名:AI的技術中性 科技的每一次突破,都可能帶來意想不到的“副產(chǎn)品”。 就如同愛因斯坦發(fā)現(xiàn)了質(zhì)能方程式之后,即使再不情愿,他也無法阻止原子彈的出現(xiàn)和使用。就在Deepfake這個“妖孽”在美國新聞網(wǎng)站Reddit被放出來之后,AI的領軍人物Yann LeCun也在Twitter上深深反?。?/p> “說真的,要是當初知道卷積神經(jīng)網(wǎng)絡(CNN)會催生Deepfake,我們還要不要發(fā)表它?” 隨即LeCun自己就回答了這個問題。LeCun表示,即使不是我們首先公開發(fā)表,CNN也會由其他人或機構發(fā)明出來。而在2002年當時被公布出來以后,人們也不知道如何來利用它。換句話說,CNN的價值要在技術人員的不斷探索下才能挖掘出來。 現(xiàn)在CNN正在被開發(fā)出各種各樣的應用,既對世界有很多正向的積極影響,比如醫(yī)療診斷、自動駕駛、內(nèi)容過濾以及安全監(jiān)控等等,也可能引起一些負面的效果,比如侵犯隱私、造假詐騙、偏見歧視等等,好壞參半,可以各打五十大板。 簡單來說,就是AI無罪,問題還是出在使用AI技術的人類身上。 以Deepfake技術所引發(fā)的AI換臉的色情視頻泛濫來說,AI技術被應用于色情產(chǎn)業(yè)幾乎是一件“必然如此”的過程。一方面,現(xiàn)代色情產(chǎn)業(yè)一直都是最新科學技術應用的急先鋒,另一方面,AI在圖像內(nèi)容生成技術的發(fā)展正好迎來了突破臨界點。最后一步就只剩下這個叫“Deepfakes”的用戶最后的“靈機一動”了。 實際上,Deepfake為“AI內(nèi)容生成”技術的普及起到了推波助瀾的作用,但同時也帶來難以抹去的污名化影響。而鑒于“AI內(nèi)容生成”技術的發(fā)展早已超出AI換臉的范疇,技術商業(yè)領域正在試圖用“深度合成”來為這一技術正名。 首先,Deepfake(深度偽造)一詞明顯以偏概全,其僅僅是“AI換臉”技術的早期代表,不足以包含所有的“AI生成內(nèi)容”的技術。用Deep Synthesis(深度合成)可以更好地泛指所有AI生成算法和涵蓋自動生成圖像、視頻、語音、文本、音樂等內(nèi)容的合成技術。 其次,Deepfake尚未得到技術社區(qū)的廣泛認可,只是被媒體大眾叫順嘴了而已。況且Deepfake自帶的“腹黑”體質(zhì),對于AI技術的應用推廣會帶來直接的負面影響。 “深度合成”這個更為中性的技術名稱,將會代替Deepfake來行使AI內(nèi)容發(fā)展的應盡之責。那么,“深度合成”該如何撐起這重任呢? “深度合成”的底氣:技術加速和商業(yè)落地 “深度合成”技術,其實就是借助可以自主學習的深度學習算法模型來實現(xiàn)的,其主要使用的的兩個技術就是“自動編碼器”人工神經(jīng)網(wǎng)絡和 “生成對抗網(wǎng)絡”(GAN)的人工神經(jīng)網(wǎng)絡組成。前者用于訓練數(shù)據(jù)的合成,后者由生成器和鑒別器組成,一個用來進行新數(shù)據(jù)的生成和一個用來對其進行鑒別,經(jīng)過二者無數(shù)次的對抗,最終生成出“以假亂真”的合成數(shù)據(jù),其中就包括Deepfake所創(chuàng)造出來的換臉視頻。 (GAN相關論文的發(fā)表情況) 從2014年,GAN提出一直到今天,已經(jīng)經(jīng)歷了從CGAN、BigGAN 、StyleGAN等多個版本更新,其中每年的相關研究論文也在加速增長,可見學界對于GAN算法的重視和發(fā)展前景的看好。 (BigGAN 生成的包含各種類別的高清晰圖片) 與此相應的,就是圖像生成質(zhì)量的突飛猛進,其中不僅可以實現(xiàn)人臉的合成,也能更一步實現(xiàn)圖像疊加融合,或者直接生成全新的高清圖片,以致于人眼根本難以分辨真假。 比如,去年MIT和IBM沃森聯(lián)合實驗室發(fā)布的一個基于GAN的AI藝術畫師,就可以學習文藝復興時期的畫家的繪畫風格,直接將現(xiàn)代人類的照片變成文藝復興時期的畫作。 其中的技術優(yōu)勢在于,GAN神經(jīng)網(wǎng)絡會根據(jù)自己學到的技巧為畫面重新構圖,也就是它是畫出新的圖片,而不是利用風格遷移的方式,改變原圖的色彩。 其實,深度合成技術已經(jīng)可以走得更遠。除了單一的圖像、音頻合成之外,多維度的內(nèi)容合成已經(jīng)是一個趨勢,這樣可以將語音識別、人臉識別、唇形搜索等結合起來,進行人臉語音的合成,從而可以讓一個人自然流利地說出自己從未說過的話。 此外,人臉合成之外,全身合成、3D合成虛擬人技術也成為當前的應用熱點。剛剛過去的兩會期間,搜狗聯(lián)合新華社推出上崗的全球首個3D版AI合成主播,就已經(jīng)可以在文本實時驅(qū)動面部表情和唇形,肢體動作、超寫實細節(jié)呈現(xiàn)上面做到比擬真人的動態(tài)效果。 在“深度合成”技術的商業(yè)化方面,已經(jīng)有眾多行業(yè)和企業(yè)看到其應用場景和廣闊市場。目前,“深度合成”已經(jīng)在影視娛樂、社交通訊等多個行業(yè)的場景中開始發(fā)揮作用。 比如,在影視劇制作中,最直接的幫助就是提升音視頻制作的效率,拓展創(chuàng)作想象空間;一些特殊情況下,還可以通過合成技術為影視劇的失聲的演員進行聲音合成,為已過世的演員進行“數(shù)字復活”;甚至直接創(chuàng)造虛擬數(shù)字人來進行影視劇集的制作。 在娛樂應用體驗上面,最基本的臉部特效應用、換臉視頻、動圖,都已經(jīng)多次在我們的生活中出現(xiàn);虛擬偶像、虛擬主播、虛擬客服也隨著深度合成技術的成熟而變得越逼真和可信。 在社交通訊上面,與其擔心深度合成技術會暴露個人隱私,不如可以讓深度合成技術幫我們在社交網(wǎng)絡中建立自己的“數(shù)字分身”,就如同《頭號玩家》里面每個人創(chuàng)建的虛擬形象一樣,成為自己在網(wǎng)絡世界的通行證。 此外,像電商營銷、教育藝術、醫(yī)療科研等領域,深度合成技術帶來的仿真數(shù)據(jù)和虛擬化內(nèi)容都可以為這些產(chǎn)業(yè)帶來新的應用場景或者直接推動該領域的技術進步。 顯然,深度合成技術的這些正向價值正在為其換來更有底氣的話語權和發(fā)展前景。但是這個一出現(xiàn)就飽受人類質(zhì)疑和恐懼的AI技術,仍然值得我們認真對待其應用邊界和規(guī)則。 “深度合成”的治理: 如何鎖住“虛假內(nèi)容”的惡龍 正如一切獲得都必須付出代價一般,我們?nèi)绻胍硎苌疃群铣杉夹g帶來我們的一切生活便利和精神享受,同時就必須承受其帶來的將數(shù)字世界全面虛擬化的代價。 深度合成技術所帶來的“虛假內(nèi)容”的社會風險將長期存在。首先,深度合成的開源技術和軟件,讓普通人們偽造、操縱音視頻的門檻大幅降低;其次,這些虛假音視頻內(nèi)容足以以假亂真地騙過大多數(shù)“不明真相”的群眾;最后,這些帶有明顯色情、危言聳聽或侵犯隱私的信息又足以吸引人,只要從源頭傳出,就會進行源源不斷的擴散。 除了少數(shù)能夠辨別真?zhèn)蔚膶I(yè)人士,大多數(shù)人都難以分辨和抵制這些假信息的誘惑。深度合成的技術濫用風險,需要得到來自法律、技術、行業(yè)、民眾等多方面的制約。 第一,法律層面。對AI深度合成內(nèi)容的用途、標記、使用范圍以及濫用技術的處罰,都應該進行深入研究,并出臺相應的規(guī)定,為深度合成的合法使用提供依據(jù)。 第二,技術層面。與深度合成技術同步進化的內(nèi)容鑒別技術和溯源追蹤技術也應該得到重視。針對合成內(nèi)容的有效鑒別與標記,才能從源頭來識別合成內(nèi)容,以防止負面的虛假內(nèi)容的擴散。 第三,行業(yè)層面。深度合成技術離不開行業(yè)自律,合成內(nèi)容技術提供者和平臺要承諾在合成內(nèi)容之上必須做出標記,或者提供有效的檢測和標注工具,來保證合成內(nèi)容被清晰識別出來。 最后,民眾層面。相比較于權威機構或者主流精英人群對合成內(nèi)容泛濫的擔憂,廣大民眾反而可能是這波“虛擬化”浪潮最主要的支持者,甚至是虛假信息的推波助瀾者。 在我們即將全面迎來數(shù)字化世界的今天,培養(yǎng)合格“數(shù)字素養(yǎng)”應該要成為一件從小就抓起的公民必修課。但這門課教什么、怎么上,仍然需要在深度合成技術發(fā)展的路上慢慢探索。 正如沒有任何一個技術是我們在做好準備之后才出現(xiàn),AI技術也是如此。 從一開始,我們就把AI技術出發(fā)點定義為,盡可能地學習和模仿人類的能力,以致于最終能夠代替人類行駛那些繁重、重復甚至極高難度的任務。 而深度合成技術不正是這一目標的實現(xiàn)過程。我們既然選擇喚醒AI這條巨龍,就不能再“葉公好龍”地擔心AI越來越像人類這件事情。 最后,反過來看我們?nèi)祟愡@個物種,一方面我們有極致的智慧去探索世界的因果規(guī)律,始終去探索那個“真相”;一方面我們又抱著極大熱情來發(fā)明各種工具,來承擔人類的各種工作。 這兩種能力也直接促成了我們今天的工業(yè)世界,以及未來要進入的數(shù)字虛擬世界。 樂觀來說,我們不僅不用太過擔心“后真相時代”的來臨,甚至于,我們還會很快適應這個徹底“虛擬化”的美麗新世界。 對于絕大多數(shù)人來說,追求真相,遠遠沒有追求舒適更具吸引力。 |
|