電廠丨社交網(wǎng)絡(luò)刷屏的AI作畫，它來自達(dá)利和WALL · E

鄭飛3bbr5o1bk2 2022-09-14 發(fā)布于北京

展開全文

記者湯一濤

編輯高宇雷

但凡你每天要花半小時(shí)在社交網(wǎng)絡(luò)上，那在過去的幾個月里，一定已經(jīng)被DALL·E 2刷屏了。或許對這個名字有點(diǎn)陌生，但你一定知道AI作畫——輸入任何文字，AI模型就能為你生成一幅畫作。

DALL·E 2是人工智能公司OpenAI推出的第二代圖像生成模型。它的名字來自于藝術(shù)家薩爾瓦多 · 達(dá)利(Salvador Dali)和皮克斯同名電影中的機(jī)器人瓦力(WALL · E)。根據(jù)Open AI的說法，DALL·E 2有35億個參數(shù)，雖然比上一代模型120億參數(shù)的模型要小，但它的分辨率是上一代的4倍。

更為關(guān)鍵的是，從藝術(shù)史上最有名的畫作，到超寫實(shí)的圖片和3D作品，DALL·E 2都呈現(xiàn)出了驚人的效果，以及遠(yuǎn)超人類藝術(shù)家的效率。通常，DALL·E 2可以在30秒內(nèi)就生成一幅畫作，而人類畫師花費(fèi)的時(shí)間，則是以小時(shí)計(jì)算。

“蒙娜麗莎的天啟”｜圖片來源：DALL·E 2

披頭士的經(jīng)典專輯封面“Abbey Road”中，“四人組”變成了“六人組”｜圖片來源：Twitter@spetznatz

1980年代的泰迪熊在月球上從事AI研究｜圖片來源：Twitter@sama

“任何足夠先進(jìn)的科技，都與魔法無異?！边@是科幻作家亞瑟·克拉克（Arthur Clark）廣為流傳的一句名言。每當(dāng)科技界有什么新動向，這句話都會反復(fù)被人提及，迪士尼樂園和初代iPhone都屬此列。

但理智告訴我們，這個世界不存在魔法。這句話隱含的另一層意思是，任何足夠先進(jìn)的科技，背后都下了無數(shù)笨拙的苦工，DALL·E 2也是如此。

DALL·E 2是如何工作的？

本質(zhì)上，DALL·E 2就是一個將文本處理成可視化信息的工具。它不理解達(dá)芬奇是誰，夢娜麗莎是怎樣一幅偉大的畫作，或者畫面的透視關(guān)系是怎樣的，但它學(xué)習(xí)了6.5億張圖片，由此形成了一定程度的“預(yù)測”，“假裝”自己完成了一幅畫作。

其中的關(guān)鍵是，如何將文本和圖像聯(lián)系起來。OpenAI使用了他們的另一個模型CLIP（語言-圖像對比預(yù)訓(xùn)練）。

通過數(shù)以億計(jì)的圖像和相關(guān)標(biāo)題的訓(xùn)練，CLIP學(xué)習(xí)了給定的文本與圖像的關(guān)聯(lián)程度。在過往計(jì)算機(jī)視覺的神經(jīng)網(wǎng)絡(luò)中，常見的方法是將大量圖像數(shù)據(jù)集合在一起，然后手動標(biāo)記類別。CLIP的聰明之處在于，它關(guān)注的是文本與圖像的關(guān)聯(lián)程度，這種對比性而非預(yù)測性的方法，使得模型能夠更精確地理解語言之間的區(qū)別，而不需要依賴人類的決策。

訓(xùn)練結(jié)束后，CLIP模型被凍結(jié)，DALL·E 2進(jìn)入下一個任務(wù)——學(xué)習(xí)反轉(zhuǎn)CLIP剛剛生成的圖像編碼映射。因?yàn)槲覀兊哪康脑谟谏蓤D像，這就需要DALL·E 2有一定的“創(chuàng)造性”，而不是機(jī)械的給出已經(jīng)學(xué)習(xí)過的圖片中的一張。

OpenAI使用了另一個模型GLIDE來實(shí)現(xiàn)這個目的。GLIDE的是擴(kuò)散模型的一種。擴(kuò)散模型會隨機(jī)將一張圖片的像素打亂，直至形成一張純噪聲的圖片。然后再逐步改變其像素來降低噪聲，從而回到原始圖像。

GLIDE生成過程｜圖片來源：Aditya Singh

由于反向擴(kuò)散過程是隨機(jī)的，因此我們很容易得到一張和原圖相似卻又有所區(qū)別的圖片。GLIDE擴(kuò)展了擴(kuò)散模型的概念，通過增加額外的文本信息，最終產(chǎn)出定向條件的圖像。

這也為DALL·E 2增加了一個重要的特性，就是生成的圖像是可編輯的，包括元素的位置；增加或刪除元素；調(diào)整陰影、反射、顏色、紋理等。例如，如果你想在左圖中增加一只柯基，只需要向DALL·E 2描述這只柯基的位置——“在那個男人的右邊增加一只柯基”，就可以得到右圖。

圖片來源：dpreview

當(dāng)然，實(shí)際的技術(shù)過程要比上述的介紹復(fù)雜得多，但簡單總結(jié)來說，DALL·E 2從文字生成圖像的過程可以分為以下幾個步驟：

1、CLIP文本編碼器將文本映射到表示空間

2、擴(kuò)散模型將文本編碼映射到圖像編碼

3、GLIDE模型通過反向擴(kuò)散，從編碼從表示空間映射到圖像空間，傳達(dá)文本的語義信息，生成圖像

DALL·E 2圖像生成過程｜圖片來源：Aditya Singh

畫作水平取決于你的使用方式

長期以來，人工智能的另一個名字就是“人工智障”。DALL·E 2已經(jīng)非常出色，但它仍然有一些局限。

上圖的10張小狗同樣是由DALL·E 2生成的。乍看之下他們與真實(shí)的照片幾乎沒有什么差別，但當(dāng)你仔細(xì)觀察時(shí)，就會發(fā)現(xiàn)這些小狗的比例并不完全正確。例如這張圖片中，小狗的前腿太長了，嘴巴很模糊，左耳也有些奇怪。

對于人工智能來說，文本描述地越精確，圖像生成的效果就越好。倫敦藝術(shù)策展人兼程序員蓋伊·帕森斯(Guy Parsons)就寫道: “ DALL-E 什么都知道。因此，你知道的術(shù)語越多，結(jié)果就越詳細(xì)。”“一只超重的老狗看起來很高興，因?yàn)樗膬晌还放笥褳樗鼞c祝了生日”顯然就比“三只狗”要好得多。

圖片來源：OpenAI

帕森斯甚至整理了一本81頁的DALL·E 2使用指南，給出了一些實(shí)用建議，例如：

1、借用一些攝影術(shù)語，例如“特寫”

2、形容詞很容易影響許多要素，“裝飾藝術(shù)”就會影響畫面風(fēng)格。年代也會產(chǎn)生相同的效果，像“90年代后期”

3、在任何情況下，輸入的文本都不能超過400個字符

小狗的例子可能還只是DALL·E 2犯的一些小錯誤，但是當(dāng)涉及到超寫實(shí)的人類面孔時(shí)，DALL·E 2就可能產(chǎn)生一些恐怖的結(jié)果。

圖片來源：OpenAI

這一定程度上是因?yàn)?，OpenAI引入了保護(hù)機(jī)制，以防止DALL·E 2記住真實(shí)的人類面孔。DALL-E的產(chǎn)品經(jīng)理喬安娜·姜（ Joanne Jang）表示，公司仍在完善內(nèi)容規(guī)則。OpenAI禁止制作暴力、色情和仇恨內(nèi)容，以及描繪投票箱和抗議活動的圖像，或任何“可能被用于影響政治進(jìn)程或競選活動”的圖像。

實(shí)際上，OpenAI把相當(dāng)多的精力都放在了AI倫理上。在DALL·E 2發(fā)布之前，OpenAI就邀請外部研究人員，檢查DALL·E 2的風(fēng)險(xiǎn)和局限。他們發(fā)現(xiàn)，DALL·E 2在性別和種族上都存在一定的偏見。

DALL·E 2生成的圖片具有職業(yè)性別偏見，以及西方特色｜圖片來源：Aditya Singh

OpenAI的研究員馬克·陳（Mark Chen）告訴科技媒體IEEE，OpenAI的一個團(tuán)隊(duì)已經(jīng)開始實(shí)驗(yàn)糾正這種偏見。例如，OpenAI在訓(xùn)練過程中，刪除了一個男性多于女性的數(shù)據(jù)集，以增加更多女性形象。

盡管如此，仍然有很多批評者質(zhì)疑在大量未經(jīng)管理的數(shù)據(jù)集上訓(xùn)練模型的做法。獨(dú)立研究人員維奈·普拉布(Vinay Prabhu)認(rèn)為，人工智能研究界高估了擴(kuò)大模型規(guī)模的價(jià)值。

而隨著DALL·E 2新增了100萬用戶，加州大學(xué)伯克利分校的研究人員法里德（Farid）表示，DALL·E 2的濫用其實(shí)只是時(shí)間問題：“就像類固醇造成的假消息那樣（治療新冠），人們總會想辦法繞過規(guī)定?！?/p>

*文章頭圖來自 AI 作畫程序 Midjourney，本文作者輸入“Do Androids Dream of Electric Sheep?”（仿生人會夢見電子羊嗎？）后自動生成。

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：鄭飛3bbr5o1bk2 > 《繪畫》

舉報(bào)/認(rèn)領(lǐng)