中國AI繪畫行業(yè)調(diào)查報告——技術(shù)，用戶，爭議與未來

老林37 2022-11-22 發(fā)布于北京

展開全文

前言

報告的數(shù)據(jù)及來源包括公開新聞媒體文章，第三方統(tǒng)計數(shù)據(jù)，6pen 自身數(shù)據(jù)，以及我們收回的 2398 份問卷調(diào)查和對部分行業(yè)資深人士的深度訪談。

我們的問卷通過 6pen 自有渠道，即刻，微博，以及行業(yè) KOL 分發(fā)，最終有效收到 2398 個提交，它們可能是這個行業(yè)首次的大批量對用戶的直接調(diào)查，并聚焦在國內(nèi)市場，我們認(rèn)為其具有相當(dāng)?shù)膮⒖夹浴?/section>

利益相關(guān)：本報告由 6pen 調(diào)查發(fā)布，作為行業(yè)從業(yè)者，本報告將更多從技術(shù)，用戶及行業(yè)整體視角出發(fā)。

AI繪畫技術(shù)發(fā)展的簡要脈絡(luò)

GAN時代

在 diffusion 被廣泛運(yùn)用于AI繪畫之前，這種藝術(shù)形式的主要實現(xiàn)方式 GAN （Generative Adversarial Nets ），以NVlabs的SPADE為例：用戶提供草圖，由GAN模型將其轉(zhuǎn)化為真實的風(fēng)景圖像。這聽起來有點像AI繪畫里的img2img，但在這類模型里，用戶無法通過文本影響生成結(jié)果。

NVIDIA 開源模型 SPADE可以將草圖變成真實的自然風(fēng)景

直到類似 CLIP 這種跨模態(tài)的圖文模型出現(xiàn)，才讓用戶有辦法用文字實現(xiàn)AI作畫。后來者如VQGAN+CLIP 或StyleCLIP，均是因為CLIP打通文本和圖形域(domain)，用戶輸入的文本與GAN生成的結(jié)果真正有了「可比較性」，這使得計算二者誤差并迭代效果成為了可能。

StyleCLIP 可以根據(jù)用戶輸入文本調(diào)整人臉五官和頭發(fā)等屬性

GAN在模擬分布方面有著天然的優(yōu)勢，因此它在人臉屬性編輯、風(fēng)格模仿等領(lǐng)域大放異彩，例如給人戴上墨鏡、加上胡子、生成動漫臉、模仿小說風(fēng)格。也正因如此，它也很容易陷入模型坍縮(Model Collapse)，即生成器(Generator)傾向于生成那些最不容易出錯、能騙過判別器(Discriminator)的結(jié)果，例如當(dāng)用戶希望生成'眼睛長在鼻子下面的人臉'，或'戴著用鮮花構(gòu)成的眼鏡'這種域外(Out-Of-Domain)的結(jié)果時，GAN通常會失效。

Diffusion 崛起

和大多數(shù)人以為的相反，Diffusion 其實是早于 GAN 被提出的，但因為 Diffusion 依賴大模型實現(xiàn)，所以對大部分用戶的進(jìn)入門檻較高，研究者也不多，直到 2021 年，因為開源項目 Disco Diffusion(也被簡稱為DD)，Open AI的商業(yè)服務(wù) Dalle 等，Diffusion 才開始被更多人了解。

Diffusion 模型的前向和反向過程

2022年，Disco Diffusion 經(jīng)過更多開發(fā)者的貢獻(xiàn)，效果有了較大提升，通過 Google colab 的方式運(yùn)行(很多人因此誤以為 DD 是 Google 發(fā)布的)，也降低了使用者嘗試使用的門檻，在 2022 年 4 月左右，DD 生成的圖像在社交網(wǎng)絡(luò)上得到廣泛傳播，進(jìn)一步帶動了 Disco Diffusion 的破圈。

同一時期，包括 6pen 在內(nèi)，國內(nèi)開始有小部分團(tuán)隊和公司進(jìn)行 DD 的產(chǎn)品化工作，旨在進(jìn)一步降低 DD 的使用門檻，包括：

提供人機(jī)友好的交互界面

提供云端的算力服務(wù)

對 DD 的模型做 finetune（微調(diào)）

通過封裝 CLIP 關(guān)鍵詞等方式，降低用戶使用門檻，提高風(fēng)格化效果

在研究領(lǐng)域，也有諸多機(jī)構(gòu)或公司進(jìn)入模型層的研究，例如清華大學(xué)的 cogview ，百度的文心，微軟的女媧模型， 6pen 的南瓜模型等等，因為 DD 在社交網(wǎng)絡(luò)的破圈，這些產(chǎn)品和模型都得到了更多人的關(guān)注和使用，但依然有很多較專業(yè)的中國用戶會通過各種方式使用 midjourney 和 Dalle2 等國外的商業(yè)化產(chǎn)品。

Stable Diffusion 開源的潘多拉魔盒

在 Stable Diffusion 之前，開源方案里最好的AI繪畫實現(xiàn)毫無疑問是 Disco Diffusion，但 Disco Diffusion 也存在諸多問題，例如：

生成速度慢（基于像素迭代），由此帶來的問題是生成成本高（顯卡成本高昂）

生成圖片邏輯性較差，畫面結(jié)構(gòu)經(jīng)常錯亂

幾乎無法生成人和物體

彌補(bǔ) Disco Diffusion 的不足，是許多模型或研究團(tuán)隊的方向。CompVis提出的 latent diffusion 將diffusion過程從圖像層面遷移到了隱變量(latent)層面，這將推理耗時降低了一個數(shù)量級(~10min->30s)。latent diffusion 在模型內(nèi)嵌了一個很小的文本模型，使得生成過程不必依賴CLIP等開源語言大模型，但這也使模型對用戶輸入文本的理解能力較弱，生成的結(jié)果文不對題。

latent diffusion 將 diffusion 過程從像素圖壓縮到隱空間

6pen 提供的南瓜正是基于對它的某種改進(jìn)：將 CLIP 模型替換掉 latent diffusion 自有的文本編碼小模型，計算模型結(jié)果與文本間的 CLIP 誤差來優(yōu)化生成過程，因此模型對用戶文本理解能力、生成質(zhì)量都有了明顯提升。后來的 Stable Diffusion 也是基于 latent diffusion + CLIP 思路做了模型結(jié)構(gòu)、數(shù)據(jù)方面的優(yōu)化，并進(jìn)行了大規(guī)模的訓(xùn)練，達(dá)到了堪稱驚艷的效果。

Stable diffusion 在 2022 年 8 月下旬由 Stability 發(fā)布，Stable diffusion 擁有強(qiáng)大的特性：

極快的速度（基于隱空間迭代）

遠(yuǎn)超 DD 的畫面邏輯

能較好的處理人和物體

更多的風(fēng)格化，例如二次元風(fēng)格

更簡易的訓(xùn)練框架

Stable Diffusion 極大降低了行業(yè)的進(jìn)入門檻，包括技術(shù)門檻和儲備顯卡的成本，帶來了較多的競爭者入場，但同時也有部分基于 Stable Diffusion 的創(chuàng)新應(yīng)用開始出現(xiàn)，例如文生視頻，圖片無限拓展，和 3D 建模工具結(jié)合等等，毫無疑問，Stable Diffusion 具有這個時代的革命性。

我們目前就處在這個時間節(jié)點。

AI繪畫的用戶畫像

用戶基礎(chǔ)畫像

根據(jù)我們的回收報告顯示，國內(nèi)的AI繪畫用戶特點是年輕化，其中 46% 以上是大學(xué)生和研究生，其中甚至有 18% 是初中和高中生。

從城市分布上，絕大多數(shù)用戶還是分布在一二線城市，其中北京占8.7%，深圳占7.8%，但青島出人意料的排在了第四，占到了6.1%。南方城市占絕大多數(shù)，北方城市較少。

在受眾用戶的行業(yè)分布上，調(diào)查結(jié)果和我們預(yù)期差異較大，美術(shù)和設(shè)計工作者僅僅只占 24.2%（排名第二），排名第一的行業(yè)是線下行業(yè)（26%），排名第三的是互聯(lián)網(wǎng)行業(yè)（24%）。

在使用AI繪畫的具體方式上，38% 的用戶只使用在線服務(wù)，使用自己顯卡的用戶占到16%，即便如此，依然有21%的用戶表示，雖然目前自己使用在線服務(wù)，但未來希望使用自己的顯卡，與之相反，現(xiàn)在使用顯卡，并表示未來會使用在線服務(wù)的用戶，只占 4%。

用戶付費及收入調(diào)查

根據(jù)我們的調(diào)查，60% 的用戶并沒有在使用AI繪圖產(chǎn)品上有過付費行為，也就是完全免費在使用，剩下40% 的付費用戶中，16% 付費在 10 元以內(nèi)，14% 在100元以內(nèi)，付費超過 100 元的不到 10%。

與此同時，我們也調(diào)查了用戶通過AI繪畫產(chǎn)生收入的情況，結(jié)果顯示絕大部分用戶（92%）沒有通過AI繪畫產(chǎn)生收入，也就是「單純娛樂使用」，4% 的用戶獲得了 100 元以下的收入，1.9% 的用戶獲得了100-1000 元的收入，而獲得超過 1000 元收入的用戶，占 2%。

用戶認(rèn)知

問卷調(diào)查顯示，42% 的用戶認(rèn)為 AI 繪畫單純只能滿足娛樂需求，38% 的用戶認(rèn)為AI繪畫可以部分運(yùn)用到工作之中，9.17% 的用戶認(rèn)為AI繪畫具有顛覆性，與此同時，也有 7% 的用戶認(rèn)為這根本不值一提。

絕大部分受訪者在最近一個月（8-9月）才了解到AI繪畫領(lǐng)域，今年上半年開始接觸的占 27%，去年就了解的僅占 23%。

我們的問卷包括對模型的使用，為了保證客觀，我們排除了 6pen （來自6pen渠道的用戶會影響數(shù)據(jù)準(zhǔn)確性，我們將單獨展示 6pen 不同模型的使用比例），對用戶使用其余模型進(jìn)行了統(tǒng)計，目前可以看到 Disco Diffusion 略微占優(yōu)，第二名是 Stable Diffusion，第三名則是 midjourney ，令我們驚訝的是，老牌的 AI 繪圖產(chǎn)品 wombo dream ，依然有比較廣泛的受眾，甚至比著名的 Dalle 系列被更多人使用。

與此同時，6pen 內(nèi)的近千萬次用戶使用模型數(shù)據(jù)則顯示，Stable Diffusion 被使用的最多，占到了77%，Disco Diffusion模型占 10%，南瓜占 13%。

用戶的使用場景

絕大部分的用戶表示，使用AI生成繪畫作品，僅僅是自己欣賞，同時表示會分享給朋友的占 56%，6%的用戶表示會自己加工之后在工作中使用，低于2%的用戶會將生成圖片直接商業(yè)使用，此外還有23%的用戶表示，會發(fā)布在社交網(wǎng)絡(luò)媒體以增加粉絲關(guān)注。

平臺和工具的商業(yè)模式

直接向用戶收費

目前，絕大多數(shù)產(chǎn)品化的 AI 繪畫服務(wù)幾乎都通過按照生成收費的方式獲得收入，如下：

Stable Diffusion

模型開源免費
Dream Studio 及 API ：0.01 歐元 / 基礎(chǔ)調(diào)用

midjourney

10 美元 / 月：200次快速生成+不限量的排隊生成
30 美元 / 月：900次快速生成+不限量的排隊生成
4 美元 / GPU小時
600 美元 / 年企業(yè)套餐

Dalle

0.13 美元 / 生成

6pen

不限量的免費排隊生成
付費快速生成：0.1人民幣起

可以看出，商業(yè)化的 AI繪畫的服務(wù)目前幾乎不區(qū)分 ToB 或 ToC ，更多是提供按量或按需付費的服務(wù)，無論是企業(yè)還是個人用戶都可以使用。這種收費模式是因為這些原因：

AI生成使用顯卡服務(wù)器，維持免費使用需要付出巨大成本

缺乏生成圖之后的閉環(huán)，無法從免費用戶獲得其他方面的收入

受限于尚處在爭議中的版權(quán)及其它道德因素，其它商業(yè)化手段還有待探索

ToB 的可能性

AI繪畫在 ToB 領(lǐng)域天然擁有更多可能性，但受限于模型質(zhì)量，版權(quán)爭議，以及目前較早期的技術(shù)階段，還很少有公開落地的案例，但我們認(rèn)為在下列方向，可能會在未來涌現(xiàn)出更多 ToB 的成功案例：

廣告行業(yè)

ToB 素材庫

設(shè)計師/美術(shù)工作者輔助工具

營銷定制服務(wù)

線下實體結(jié)合服務(wù)

元宇宙等線上虛擬空間

爭議，問題，潛力和未來

爭議

目前 AI 繪畫的最大的爭議在于版權(quán)歸屬，以及模型是否有權(quán)利指定版權(quán)歸屬，眾所周知，AI模型訓(xùn)練所使用的大量素材，可能包含了未經(jīng)授權(quán)的，有明確版權(quán)方的圖片數(shù)據(jù)，因此模型源頭就帶有「未經(jīng)授權(quán)」的烙印，支持者一方則認(rèn)為，AI模型經(jīng)過訓(xùn)練，迭代，蒸餾，最終沉淀下來的是單純的，嶄新的運(yùn)算方法，由這種運(yùn)算方法產(chǎn)出的圖片，版權(quán)歸屬應(yīng)該由模型指定。

即便如此，目前獲得較多認(rèn)可的說法是，如果在AI生成圖片的文本描述( prompt )中，指定了在世的藝術(shù)家，那么絕對不應(yīng)該申明該圖片的版權(quán)。

我們提倡，如果在生成 prompt 中指定了在世藝術(shù)家，那么至少應(yīng)該將AI生成的圖片以 CC0 協(xié)議發(fā)布，同時應(yīng)該保留藝術(shù)家的相關(guān)信息，并且在得到藝術(shù)家授權(quán)前，盡量不做商業(yè)用途，即便這樣，依然可能會對藝術(shù)家造成困擾，目前全世界范圍內(nèi)對此都還在進(jìn)行討論，AI和人類藝術(shù)家的更好的合作規(guī)則也急需盡快建立。

版權(quán)問題的探索

6pen 對原創(chuàng)藝術(shù)家發(fā)放問卷，并搜集到了 368 份藝術(shù)家反饋，其中 7.1% 的受訪藝術(shù)家明確表示自己已經(jīng)被 AI 模型學(xué)習(xí)，67%的藝術(shù)家對此還不確定。

27% 的藝術(shù)家無論如何都不希望AI模型使用自己的風(fēng)格，27%的藝術(shù)家希望如果生成者使用了自己的風(fēng)格，那么需要在使用圖片時展示藝術(shù)家的信息，37%的藝術(shù)家希望如果使用自己的風(fēng)格，那么需要向自己付費，完全不介意的只有6.9%

對目前的 AI 繪畫（包括模型和產(chǎn)品），絕大部分藝術(shù)家都持有負(fù)面的態(tài)度，NPS評分低至-89，這主要的原因在于，那些在未經(jīng)授權(quán)就被模型學(xué)習(xí)的大量人類藝術(shù)家，其本身并不能從模型生成中獲益，但生成的圖片卻可能為生成者帶來收益，這既不公平，也在某種程度上破壞了生產(chǎn)關(guān)系，還將進(jìn)一步瓦解人類的創(chuàng)作動力——為了免于成為模型學(xué)習(xí)的素材，原創(chuàng)性的探索將會減少，新的風(fēng)格，范式，流派都可能會停止出現(xiàn)。

但是，如果未來AI繪畫能更具規(guī)范，例如：

使用版權(quán)干凈的素材訓(xùn)練模型

使用藝術(shù)家風(fēng)格，向其進(jìn)行分成付費

和藝術(shù)家共同探索新的風(fēng)格邊界

為人類創(chuàng)作提供輔助性功能

尊重藝術(shù)家不被AI模型學(xué)習(xí)的意愿

根據(jù)我們的問卷調(diào)查，如果這些問題得到解決，那么藝術(shù)家對AI生成圖片技術(shù)的 NPS 評分將提高 4 倍，絕大多數(shù)藝術(shù)家認(rèn)為這樣的 AI 生成是可以被接受的。

然而這樣的模式建立也并不容易，其中在技術(shù)，產(chǎn)品和規(guī)則上都需要很多創(chuàng)新和嘗試，6pen 將在搜集更多反饋后開始行動，我們也會將探索的過程隨時分享。

其他問題

技術(shù)問題

雖然在過去的幾個月，AI繪畫技術(shù)已經(jīng)得到了快速的發(fā)展，但依然有一部分問題一直存在，包括：

對顯卡，主要是顯存，要求較高，成本高昂

無法精確的指定畫面對象的數(shù)量，例如“三只豬和四只老虎”

人的肢體（主要是手指）和眼球效果較差

多主體對象生成效果差（往往只會保留一個或兩個主體對象）

無法進(jìn)行有邏輯延續(xù)的故事性生成

不過，這些問題有望在未來 6-12 個月得到較大改善。

技術(shù)性道德問題

和其它賽道不同，AI繪畫既依托先進(jìn)的AI技術(shù)，又(很多時候)依托開源世界的能力，因此可能會有一些其他行業(yè)所不存在的可能的道德問題，例如在 Stable Diffusion 開源之后，從國內(nèi)涌現(xiàn)出較多的封裝型產(chǎn)品，其中許多都存在技術(shù)性道德問題，包括：

不遵守開源模型 licence ，包裝成自研或國產(chǎn) AI 進(jìn)行營銷 *
直接將可能含有藝術(shù)家風(fēng)格的生成圖片用于版權(quán)交易或NFT
將未經(jīng)安全過濾的圖片直接展示給用戶，可能含有歧視，暴力，色情或其他內(nèi)容
過度封裝，隱藏藝術(shù)家的相關(guān)信息
使用非開源服務(wù)，用爬蟲等方式獲取其他服務(wù)的生成結(jié)果，封裝成獨立產(chǎn)品

* 據(jù)我們統(tǒng)計，2022 年 9 月后國內(nèi)涌現(xiàn)的AI繪畫產(chǎn)品，95% 都使用了 Stable Diffusion，但是按照 Stability License 展示必要信息的，只有不到 10 %

這些問題可能會阻礙行業(yè)的健康發(fā)展，甚至加劇不同立場的用戶群體之間的矛盾，其中有些難以避免，另一些則完全是故意為之，我們也再次呼吁，從業(yè)者應(yīng)該理性的，有尊嚴(yán)的進(jìn)行探索和創(chuàng)新。

未來的市場預(yù)估

AI 繪畫目前依然是快速增長的市場，技術(shù)也在快速發(fā)展，根據(jù)我們的預(yù)測，在未來五年，全世界的圖片內(nèi)容可能有10-30%為AI生成或AI輔助生成，據(jù)此估算其市場規(guī)?？赡艹^600億。

但如果要達(dá)到這樣的數(shù)字，前述的問題和爭議都需要得到妥善的解決，就總體而言，AI繪畫的技術(shù)發(fā)展確實很快，甚至快到法律和規(guī)則還遠(yuǎn)遠(yuǎn)沒有跟上，就已經(jīng)產(chǎn)生了巨大的影響力，這不一定是好事，但也蘊(yùn)含著許多新的可能性，我們應(yīng)該更加謹(jǐn)慎，小心的進(jìn)行探索，盡可能的保護(hù)而非損害更多人的利益。

如果AI技術(shù)的發(fā)展是以人類創(chuàng)作力的枯竭為代價，那 AIGC 將是人類之最大不幸，但如果我們能找到好的方式，來激勵人類無窮的創(chuàng)造力，并讓所有人都從中受益，那么，這將能成為開啟一個更美好的世界的鑰匙，我們正處在這兩條道路的中間，我們無法停止前進(jìn)，我們也將注視著，看到人類將邁向何方。

我們希望，能走向?qū)Φ哪欠健?/section>