記者 湯一濤 編輯 高宇雷 但凡你每天要花半小時(shí)在社交網(wǎng)絡(luò)上,那在過去的幾個月里,一定已經(jīng)被DALL·E 2刷屏了。或許對這個名字有點(diǎn)陌生,但你一定知道AI作畫——輸入任何文字,AI模型就能為你生成一幅畫作。 DALL·E 2是人工智能公司OpenAI推出的第二代圖像生成模型。它的名字來自于藝術(shù)家薩爾瓦多 · 達(dá)利(Salvador Dali)和皮克斯同名電影中的機(jī)器人瓦力(WALL · E)。根據(jù)Open AI的說法,DALL·E 2有35億個參數(shù),雖然比上一代模型120億參數(shù)的模型要小,但它的分辨率是上一代的4倍。 更為關(guān)鍵的是,從藝術(shù)史上最有名的畫作,到超寫實(shí)的圖片和3D作品,DALL·E 2都呈現(xiàn)出了驚人的效果,以及遠(yuǎn)超人類藝術(shù)家的效率。通常,DALL·E 2可以在30秒內(nèi)就生成一幅畫作,而人類畫師花費(fèi)的時(shí)間,則是以小時(shí)計(jì)算。 “蒙娜麗莎的天啟”|圖片來源:DALL·E 2 披頭士的經(jīng)典專輯封面“Abbey Road”中,“四人組”變成了“六人組”|圖片來源:Twitter@spetznatz 1980年代的泰迪熊在月球上從事AI研究|圖片來源:Twitter@sama “任何足夠先進(jìn)的科技,都與魔法無異?!边@是科幻作家亞瑟·克拉克(Arthur Clark)廣為流傳的一句名言。每當(dāng)科技界有什么新動向,這句話都會反復(fù)被人提及,迪士尼樂園和初代iPhone都屬此列。 但理智告訴我們,這個世界不存在魔法。這句話隱含的另一層意思是,任何足夠先進(jìn)的科技,背后都下了無數(shù)笨拙的苦工,DALL·E 2也是如此。 DALL·E 2是如何工作的? 本質(zhì)上,DALL·E 2就是一個將文本處理成可視化信息的工具。它不理解達(dá)芬奇是誰,夢娜麗莎是怎樣一幅偉大的畫作,或者畫面的透視關(guān)系是怎樣的,但它學(xué)習(xí)了6.5億張圖片,由此形成了一定程度的“預(yù)測”,“假裝”自己完成了一幅畫作。 其中的關(guān)鍵是,如何將文本和圖像聯(lián)系起來。OpenAI使用了他們的另一個模型CLIP(語言-圖像對比預(yù)訓(xùn)練)。 通過數(shù)以億計(jì)的圖像和相關(guān)標(biāo)題的訓(xùn)練,CLIP學(xué)習(xí)了給定的文本與圖像的關(guān)聯(lián)程度。在過往計(jì)算機(jī)視覺的神經(jīng)網(wǎng)絡(luò)中,常見的方法是將大量圖像數(shù)據(jù)集合在一起,然后手動標(biāo)記類別。CLIP的聰明之處在于,它關(guān)注的是文本與圖像的關(guān)聯(lián)程度,這種對比性而非預(yù)測性的方法,使得模型能夠更精確地理解語言之間的區(qū)別,而不需要依賴人類的決策。 訓(xùn)練結(jié)束后,CLIP模型被凍結(jié),DALL·E 2進(jìn)入下一個任務(wù)——學(xué)習(xí)反轉(zhuǎn)CLIP剛剛生成的圖像編碼映射。因?yàn)槲覀兊哪康脑谟谏蓤D像,這就需要DALL·E 2有一定的“創(chuàng)造性”,而不是機(jī)械的給出已經(jīng)學(xué)習(xí)過的圖片中的一張。 OpenAI使用了另一個模型GLIDE來實(shí)現(xiàn)這個目的。GLIDE的是擴(kuò)散模型的一種。擴(kuò)散模型會隨機(jī)將一張圖片的像素打亂,直至形成一張純噪聲的圖片。然后再逐步改變其像素來降低噪聲,從而回到原始圖像。 GLIDE生成過程|圖片來源:Aditya Singh 由于反向擴(kuò)散過程是隨機(jī)的,因此我們很容易得到一張和原圖相似卻又有所區(qū)別的圖片。GLIDE擴(kuò)展了擴(kuò)散模型的概念,通過增加額外的文本信息,最終產(chǎn)出定向條件的圖像。 這也為DALL·E 2增加了一個重要的特性,就是生成的圖像是可編輯的,包括元素的位置;增加或刪除元素;調(diào)整陰影、反射、顏色、紋理等。例如,如果你想在左圖中增加一只柯基,只需要向DALL·E 2描述這只柯基的位置——“在那個男人的右邊增加一只柯基”,就可以得到右圖。 圖片來源:dpreview 當(dāng)然,實(shí)際的技術(shù)過程要比上述的介紹復(fù)雜得多,但簡單總結(jié)來說,DALL·E 2從文字生成圖像的過程可以分為以下幾個步驟: 1、CLIP文本編碼器將文本映射到表示空間 2、擴(kuò)散模型將文本編碼映射到圖像編碼 3、GLIDE模型通過反向擴(kuò)散,從編碼從表示空間映射到圖像空間,傳達(dá)文本的語義信息,生成圖像 DALL·E 2圖像生成過程|圖片來源:Aditya Singh 畫作水平取決于你的使用方式 長期以來,人工智能的另一個名字就是“人工智障”。DALL·E 2已經(jīng)非常出色,但它仍然有一些局限。 上圖的10張小狗同樣是由DALL·E 2生成的。乍看之下他們與真實(shí)的照片幾乎沒有什么差別,但當(dāng)你仔細(xì)觀察時(shí),就會發(fā)現(xiàn)這些小狗的比例并不完全正確。例如這張圖片中,小狗的前腿太長了,嘴巴很模糊,左耳也有些奇怪。 對于人工智能來說,文本描述地越精確,圖像生成的效果就越好。倫敦藝術(shù)策展人兼程序員蓋伊·帕森斯(Guy Parsons)就寫道: “ DALL-E 什么都知道。因此,你知道的術(shù)語越多,結(jié)果就越詳細(xì)。”“一只超重的老狗看起來很高興,因?yàn)樗膬晌还放笥褳樗鼞c祝了生日”顯然就比“三只狗”要好得多。 圖片來源:OpenAI 帕森斯甚至整理了一本81頁的DALL·E 2使用指南,給出了一些實(shí)用建議,例如: 1、借用一些攝影術(shù)語,例如“特寫” 2、形容詞很容易影響許多要素,“裝飾藝術(shù)”就會影響畫面風(fēng)格。年代也會產(chǎn)生相同的效果,像“90年代后期” 3、在任何情況下,輸入的文本都不能超過400個字符 小狗的例子可能還只是DALL·E 2犯的一些小錯誤,但是當(dāng)涉及到超寫實(shí)的人類面孔時(shí),DALL·E 2就可能產(chǎn)生一些恐怖的結(jié)果。 圖片來源:OpenAI 這一定程度上是因?yàn)?,OpenAI引入了保護(hù)機(jī)制,以防止DALL·E 2記住真實(shí)的人類面孔。DALL-E的產(chǎn)品經(jīng)理喬安娜·姜( Joanne Jang)表示,公司仍在完善內(nèi)容規(guī)則。OpenAI禁止制作暴力、色情和仇恨內(nèi)容,以及描繪投票箱和抗議活動的圖像,或任何“可能被用于影響政治進(jìn)程或競選活動”的圖像。 實(shí)際上,OpenAI把相當(dāng)多的精力都放在了AI倫理上。在DALL·E 2發(fā)布之前,OpenAI就邀請外部研究人員,檢查DALL·E 2的風(fēng)險(xiǎn)和局限。他們發(fā)現(xiàn),DALL·E 2在性別和種族上都存在一定的偏見。 DALL·E 2生成的圖片具有職業(yè)性別偏見,以及西方特色|圖片來源:Aditya Singh OpenAI的研究員馬克·陳(Mark Chen)告訴科技媒體IEEE,OpenAI的一個團(tuán)隊(duì)已經(jīng)開始實(shí)驗(yàn)糾正這種偏見。例如,OpenAI在訓(xùn)練過程中,刪除了一個男性多于女性的數(shù)據(jù)集,以增加更多女性形象。 盡管如此,仍然有很多批評者質(zhì)疑在大量未經(jīng)管理的數(shù)據(jù)集上訓(xùn)練模型的做法。獨(dú)立研究人員維奈·普拉布(Vinay Prabhu)認(rèn)為,人工智能研究界高估了擴(kuò)大模型規(guī)模的價(jià)值。 而隨著DALL·E 2新增了100萬用戶,加州大學(xué)伯克利分校的研究人員法里德(Farid)表示,DALL·E 2的濫用其實(shí)只是時(shí)間問題:“就像類固醇造成的假消息那樣(治療新冠),人們總會想辦法繞過規(guī)定?!?/p> *文章頭圖來自 AI 作畫程序 Midjourney,本文作者輸入“Do Androids Dream of Electric Sheep?”(仿生人會夢見電子羊嗎?)后自動生成。 |
|