" 自然語言生成圖像 ",俗稱 " 人工智能繪畫(AI 繪畫)",又走到了最近的風口浪尖上。 在美國的舉行的一場專業(yè)的繪畫評獎中,有這樣一幅畫作參賽。身著復古華服的女子在太空中翩翩起舞,畫面細節(jié)豐富,上色精致。評委看了以后覺得不管是立意還是繪制細節(jié)上,都無可挑剔,然后,就宣布這幅畫獲得本次比賽的第一名。 作者欣喜若狂,在社交網絡上表示:這幅作品是使用 Midjourney 繪制,居然擊敗了其他的參賽作品,真是太棒啦! 他口中的 Midjourney,其實就是目前涌現(xiàn)的 AI 繪畫工具之一。盡管他一再表示自己在這幅畫作中投入了無差別的人力勞動,比如選取關鍵詞、調整文本參數(shù)、進行后期修改等等,但依然無法獲得其他參賽者的認同。其他參賽者認為:你的畫并不是你 " 畫 " 的,你沒有資格參與這個比賽。 而虛擬與現(xiàn)實的分割線也在逐漸模糊。在關于重慶山火的報道中,有部分人使用了 AI 生成的畫面來強調火場面對的壓力。這些畫面在互聯(lián)網上的傳播度極高,如果不強調 " 非新聞畫面 ",普通人很難分辨其中真假。 圖片角落寫的 " 非新聞圖片 ",表示這張圖片來自于程序生成 而創(chuàng)作者面對的壓力要更大,會不會哪一天就會出現(xiàn)一個超級人工智能,卷死所有打工人,讓打工人無工可打。 轉眼之間,我們好像眾多真真假假的畫面,更多的焦慮和爭議包圍。這是一個發(fā)展過快的技術領域,我們也只能通過如下的切片,試圖跟你介紹——它從何處來,它將帶我們前往什么地方。 01 筆終于學會自己動 我們之前聊過《過氣小游戲,在人工智能領域下崗再就業(yè)》,里面有稍微提到現(xiàn)在人工智能的發(fā)展狀況,其中 " 自然語言圖像生成 " 是近兩年研究的大熱門方向。主要原因在于隨著神經網絡算法的發(fā)展,自然語言識別、圖片內容識別等等單獨的領域,都有了不俗的進展,那么研究者們自然會想著,將這些技能整合起來,提升整個模型的理解能力。 按照清華大學唐杰教授團隊 COGVIEW 基礎算法的描述,一個合格的自然語言圖像生成算法應當達到以下標準: 1、從像素點中解耦出形狀、顏色等一系列特征。也就是說給模型輸入一張圖片時,它真的能像人一樣去 " 看 " 到其中的各種物體和特征,而不是一個個無意義的像素點; 2、理解文本,理解文本中描述的畫面所指為何; 3、將圖像中的物體和特征與單詞對齊(包括同義詞),意味著模型能夠把同一事物的兩種模態(tài)聯(lián)系起來; 4、學習到如何將各種物體、特征組合起來,這種生成能力需要更高的認知水平。 目前,以英文為操作語言的 "AI 繪圖 " 發(fā)展極為蓬勃。目前人氣比較高的工具就包括—— Disco Diffusion,早在年初就在科技圈和繪畫藝術家中掀起熱潮。 Disco Diffusion- Gates of Eden Stable Diffusion:穆夏風格賽博朋克 Midjourney,剛剛提到的在競賽中奪魁的人工智能算法,實際上是 Disco Diffusion 的產品化版本。依托 Discord 進行測試,由于 Discord 本身就是一個好用的即時通訊工具,所以頻道里聚集了非常多的數(shù)字藝術家,討論氛圍也相對好。 Midjourney:炸雞漢堡靜物寫生 DALL · E 2,號稱" 乙方設計師的終極形態(tài),傻逼甲方終結者 ",由 Open AI 通用算法迭代而來。Open AI 通用算法訓練了目前最接近自然語言的 GPT-3 自然語言模型,換句話說,它訓練了目前最能聽懂人話,寫出跟人類差不多的文本的人工智能神經網絡。所以,由 Open AI 開發(fā)的 DALL · E 2 模型,可以說是最能聽懂人話的模型。 DALL · E 2:用手機的貓 此外,還有支持原生中文的 Tiamat,微軟開發(fā)的 NUWA(女媧),谷歌開發(fā)的 Imagen,Parti 兩個互相卷的算法,Meta 開發(fā)的 Make-A-Scene 等等。整個領域在以非常驚人的速度進化、迭代。 Tiamat 作品 如果說人類的認識是對數(shù)式、漸進的認識過程,以算法和人工智能為代表的硅基智能,則呈現(xiàn)出指數(shù)式的增長。讓筆自己動已經不再是夢想,只要你能清楚描述自己要什么畫面,算法就會將異彩紛呈的碎片呈現(xiàn)在你眼前。 02 畫師們急了,但 AI 也并非無所不能 但這種無視創(chuàng)作意圖,近乎流水線生產的 " 量產數(shù)字繪畫 ",的確令人恐懼。 有人恐懼于,可能造成的技術濫用,以及背后的一部分道德問題,比如現(xiàn)實和虛擬的界限進一步混淆。也有人有更實際的擔心:我作為一個美術,以后畫都給 AI 畫了,那我還做啥? 在游戲行業(yè),這個擔心尤其現(xiàn)實。對于獨立開發(fā)者來說,這可以是非常低成本嘗試美術風格的方案,并且已經有人這么做了。但對于畫手來說,將自己的繪畫扔到算法里面,作為訓練素材,然后得到一個 " 似己而非己 " 的四不像,甚至對方畫得有可能比你還好,無疑會撼動自己對于 " 存在 " 的定義——原來 " 我 " 并不特殊。 最近,日本一家公司推出的繪畫 AI"mimic" 的 β 版上線。該網站主打學習功能,用戶上傳不低于 15 張圖,AI 就能學習其畫風自動生成新的圖片。 而日本畫師就在推特上明確表示:禁止任何人將自己的作品上傳到該網站,作為 AI 學習和模仿的材料。一個畫師的畫風需要長時間的積累,同時也是一個畫師跟其他畫師區(qū)別的關鍵。而只需要 15 張圖就可以模仿畫風的 AI,則會 " 偷 " 走畫師們最珍貴的東西。 線索紛繁復雜,我們不知道自己打開的是新時代的大門,還是潘多拉的盒子。 但 AI 也并非無所不能。 首先第一個問題,目前的自然語言生成圖像,所使用的自然語言是有限制的。必須使用比較精確的風格描述、作者類比,以及內容描述,才能獲得一張完整的圖像。打個比方,你可以說自己要一張 " 日本浮世繪風格,窗戶,窗前有張桌子,桌子上有堆靜物水果 " 的畫面,但你不能說 " 很憂傷,我想要一張呈現(xiàn)憂傷氛圍的圖 "。這是目前的 AI 無法理解的內容。 另外一個問題,則是畫面的空間感呈現(xiàn)上。大部分 AI 無法畫鏡子、水面倒影或者是折射、漫反射,透明杯子后面折射的物體等等,光線復雜的環(huán)境。而 AI 繪畫的基礎邏輯是基于統(tǒng)計學的,它不懂光學。這是一個比較底層的問題,目前也還沒有太好的解決方案。 人的浪漫自由,和算法的冷酷精確,在 AI 繪畫的話題上,形成了鮮明的對比。而如果將所有的浪漫自由統(tǒng)統(tǒng)捕獲,我們又會迎來怎樣的未來呢? 原神 3.0 的主線劇情,千朵玫瑰帶來的黎明,對須彌的虛空技術進行了簡單介紹。簡單來說,須彌的虛空系統(tǒng),可以理解成某種大型的分布式計算裝置。這個裝置白天給人灌輸知識,晚上則占用須彌人的 " 冗余算力 "(也就是夢境),去 " 見證神明的誕生 "。結果就是:須彌人喪失了做夢的權利。 03 所以,究竟是誰在畫畫 所以問題來了,這么好用的工具,融合了無數(shù)人的智慧結晶,最后究竟是誰在畫畫?是提供 AI 訓練材料的無數(shù)畫家,是編寫生成算法的工程師,還是在輸入生成文本、選擇最終呈現(xiàn)的的用戶? 這是一個非常有趣的問題。最后,究竟,是誰,在畫畫? 如果你在文本生成圖像軟件里面,寫一個 " 林中、月夜、雪 " 的關鍵詞,拿到的內容也不算差。幾乎所有畫面的左上角或者右上角,都會有一個圓圓的白色物體。你知道那 " 是 " 月亮。但你也知道,在生成的時候,它并沒有更多的想法,它只是呈現(xiàn),只是在采集了成千上萬的類似主題圖片之后,發(fā)現(xiàn):此處應有白色橢圓。 所以它就在里面加上了。 Stable Diffusion:川瀨巴水的意大利之旅 肉體苦弱,機械飛升。就提煉現(xiàn)實方面,算法要比人更強悍。單線程的腦子,怎么可能跟多線程的硅基主板相提并論呢?但就有生之年的情況來說,我們終究無法成為肉體跟義肢混合的新人類。只要還活著,就會被困在名為身體的牢獄里,只能做到那些人類才能做到的事情。 所以讓我們回到創(chuàng)作的起點吧:想要訴說,想要讓更多人知道自己某時某刻的想法、感受,一閃而過的念頭。去做一些只有人類才能完成的事情,去講述你自己的故事吧。 非常感謝木遙在微博上的科普,李 rumor 的相關介紹,Simon- 阿文的圖片示范。 同樣感謝畫手朋友們孜孜不倦的自我表達,你們的作品是我重要的精神補給。 |
|