本文來自微信公眾號:量子位 (ID:QbitAI),作者:明敏、夢晨,原文標題:《原畫師驚呆:這個爆火AI真把夢境畫成現(xiàn)實了!下載APP人人可用》,題圖來自:Dream by Wombo 沒想到,平常都是我拿著最新AI的Demo到處去安利。 這回竟然被美術圈的朋友安利了一個AI繪畫APP? 話不多說先看效果: 這摩登又玄幻的畫面,一上來就沖擊到我了。 抽象的線條兼具了美感和想象力,同時還傳遞出未來城市的感覺。 要不是被劇透,我還真不一定能立刻猜出來這是出自AI之手。 而且除了能對照片進行二改,這個AI還能根據(jù)文字命題、憑自己想象作畫。 比如輸入落日飛車四個字,在AI的“想象”中會是這樣: 另外還可以畫出不同畫風,目前已支持20種。 還真是能滿足你提出的所有需求,怪不得能征服美術設計圈(doge)。 AI畫完后,甚至可以一鍵保存成手機壁紙。 過去幾天,這款APP還在Apple Store圖形和設計區(qū)霸榜多日(安卓版本也有)。 要知道,過去美術圈、藝術圈可是有不少人吐槽AI生成的內(nèi)容沒得靈魂…… 結(jié)果現(xiàn)在紛紛在社交平臺上po自己的作品,還有設計區(qū)大V要專門聊聊這個事兒。 但更讓我震驚的是,這個APP背后公司的故事。 公司創(chuàng)始人現(xiàn)在只有25歲,為了創(chuàng)業(yè),他直接從多倫多大學退學。 公司首次推出的APP(WOMBO.AI),能讓照片對口型唱歌。 ??沒錯,就是那個此前在抖音上爆火、席卷全球互聯(lián)網(wǎng)的魔性特效。 憑借著這款APP,這家公司估值直沖4000萬美元(折合人民幣約2.5億)。 而他們最初的啟動資金,只有6萬美元。 這不禁讓人好奇,到底是怎樣的一伙人,能憑借AI一次又一次做出全球爆火的APP? 25歲輟學創(chuàng)業(yè),公司估值4000萬美元 先從小哥的公司W(wǎng)ombo創(chuàng)辦說起。 Wombo是一家加拿大公司,創(chuàng)始人及CEO名叫Ben-Zion Benkhin,今年25歲。 (接下來我們暫時用“小本哥”來稱呼他。) 圖片來自:Wombo 小本哥本來是多倫多大學數(shù)學與哲學專業(yè)的一位學生。 在學校的時候,他組建過一個人工智能興趣社團,自己對deepfake也十分感興趣。 2020年8月的一個夏夜,小本哥和他的室友在公寓屋頂上吹風,突然靈光一現(xiàn):
△Wombo效果 在經(jīng)過4個小時的討論之后,Wombo的雛形輪廓逐漸清晰了起來。 小本哥對這個想法還真不是一時上頭。 為此,他選擇輟學完成創(chuàng)業(yè)。 同時還拉來了自己做管理顧問的朋友Paul Pavel一起“搞?事”,并在多倫多大學招募了一些學生。 ?其中Angad Arneja放棄了全額獎學金,選擇和小本哥一樣輟學,現(xiàn)在他是Wombo的人力主管。 圖片來自:Wombo 公司最初啟動資金有6萬美元,主要依靠各位創(chuàng)始人的父母慷慨解囊。 小本哥說這些錢主要用在了買電腦、招募開發(fā)人員和品牌推廣上。 大約半年以后,2021年2月28日,Wombo就準備好發(fā)布了。 小本哥和其他公司創(chuàng)始人們把這個應用發(fā)給了大約10個人。 一周之內(nèi),Wombo的下載量就達到了50萬次。 第二周,這個數(shù)字躍升到了900萬。 由此,Wombo也引起了各方投資人的關注,順利拿到了由Global Founders Capital和Sofreh Capital共同領投600萬美元天使輪。 現(xiàn)在估值達到了4000萬美元。 值得一提的是,Wombo在爆火前,曾被200多家VC拒絕過。 所以這一波下來,真正贏麻了的是最初提供啟動資金的家長們。 比如Paul Pavel的父母就是資助2萬美元,最終換來了數(shù)十萬美元的股票。 目前,Wombo旗下的兩個APP下載量已經(jīng)達到了8400萬 ,月活用戶超過1000萬。 Wombo上的創(chuàng)作量已經(jīng)達到10億,Dream by Wombo這一數(shù)據(jù)也達到了1.8億。 由此帶來的收入也非常可觀,去年Wombo上線4個多月,依靠內(nèi)部廣告和免費歌曲庫獲得了數(shù)十萬美元的收入。 Dream by Wombo支持用戶購買自己用AI生成的作品。 20美元可定制一張海報,加邊框的價格則從45美元起算。 這個AI是怎么畫畫的? 讓AI根據(jù)文字作畫,了解AI的朋友會知道這屬于多模態(tài)生成。 模態(tài),指的是文本、圖像、聲音等不同的信息表現(xiàn)形式。 多模態(tài),則是把不同類型的信息結(jié)合起來。 如果給每個圖片標上文字描述組成一對,用大量這種圖文對去訓練AI,就能讓它理解到圖文之間的對應關系。 OpenAI開源的CLIP就是這個原理,Wombo工程師也曾在一次采訪中透露過,他們的算法中就使用了CLIP。 CLIP使用了4億組從網(wǎng)上收集的圖文對做訓練,可以理解顏色和形狀,日常物品或建筑物,甚至抽象的藝術風格比如“印象派”或“賽博朋克”。 △CLIP訓練數(shù)據(jù)示例 接下來,還要解決圖像生成的部分。 沒錯,又要請出GAN(生成對抗網(wǎng)絡)了,而且這次GAN要接受CLIP的指揮。 整個流程是這樣的: 首先生成一張平平無奇的隨機圖像當種子。 讓CLIP給圖像與文字描述的相似度打分,反饋給GAN,GAN以提升分數(shù)為目標不斷迭代。 整個迭代過程可以在App中直觀地看到。 其中的隨機性意味著AI幾乎不可能兩次生成同樣的圖像。 如果第一次結(jié)果不滿意,還可以點擊按鈕用相同配置再試一次。 至于Wombo的算法具體使用了哪種GAN,并未公開。 但在招聘信息里,高級機器學習工程師的崗位描述中寫著,有DC-GAN經(jīng)驗的優(yōu)先。 DC-GAN最早于2015年提出,是第一個使用深度卷積網(wǎng)絡生成圖像的GAN變體。 意味著Wombo的算法大概率是以此為基礎改進而來。 Wombo選擇卷積網(wǎng)絡而不是Transformer的理由也不難猜。 要做成移動App給全球玩家使用,而且生成的是高分辨率圖像,卷積在效率上要占優(yōu)勢。 CLIP GAN結(jié)合成AI畫家的方法并非Wombo首創(chuàng)。 CLIP于2021年1月發(fā)布,第二天網(wǎng)友@advadnoun就開始試驗其與各種生成模型的組合。 最終他選擇了BigGAN,將代碼發(fā)布為Colab筆記The Big Sleep 早期The Big Sleep生成的畫,怎么說呢,總是帶點精神污染,分辨率也不高。 (建議不要去翻@advadnoun的早期分享,真的有毒) 后來西班牙玩家Katherine Crowson在此基礎上發(fā)布了CLIP VQGAN的版本。 VQGAN是CVPR 2021 Oral入選論文,將CNN的高效率和Transformer的高性能結(jié)合起來,生成的圖像質(zhì)量更高。 這一版Colab筆記真正流行了起來,不少人開始分享AI創(chuàng)作的畫,還開發(fā)出各種技巧。 比如文字提示中加入虛幻引擎或者光線追蹤,畫質(zhì)還能大幅提升。 圍繞CLIP VQGAN開始形成社區(qū),代碼不斷有人做優(yōu)化改進,還有了專門收集發(fā)布AI畫作的賬號。 而最早的先驅(qū)@advadnoun還順利入職Adobe擔任研究員。 但這一波AI作畫浪潮的玩家主要還是技術愛好者。 畢竟在Colab上排隊申請GPU、運行代碼訓練AI,時不時還要處理一下報錯,門檻還是有點高了。 直到Dream by WOMBO的出現(xiàn),改變了一切。 AI作畫開始被認真對待 實際上,這幾年已經(jīng)浮現(xiàn)出不少讓AI作畫的技術工具。 最早是谷歌在2015年推出的DeepDream。 后來,除了前面提到的以外,還有英偉達的GauGAN、OpenAI的DALL·E,開源的Disco Diffusion等。 憑借著獨一無二還驚艷眾人的特點,AI作畫影響到的圈層也越來越廣泛,比較典型的有美術圈、藝術收藏圈以及NFT領域。 首先來看美術圈,他們接觸更多的是Disco Diffusion。 這款AI用擴散模型代替了GAN,生成圖像的質(zhì)量更高,幾乎達到了原畫級。 盡管要在Colab上自己運行代碼,門檻不低,但還是大受歡迎,甚至出現(xiàn)了專門收集提示詞的共享文檔。 知乎上最近也有一個與之相關的熱門話題。
在這個討論中,大部分人都覺得,AI對當下美術圈的影響還比較有限。 但是未來呢?大家的觀點不盡相同。 有人認為AI可以成為創(chuàng)作者的輔助工具;有人卻覺得AI能直接取代畫師。 知乎答主@畫畫的花噎菜認為,AI繪畫依舊淘汰不了繪畫行業(yè)。
@魚一般也覺得,AI將會是專業(yè)畫師手中一個很好的工具,可以提供很多靈感,也可以當做底稿使用。 @Liuuzaki雖然也贊同AI在想象力上是長板,但他認為,AI有一天會取代與之工作方式相似的從業(yè)者。
而如果再把目光延伸到藝術收藏圈來看,AI作畫在這幾年已經(jīng)帶來了一些肉眼可見的影響。 2018年,一幅由AI創(chuàng)作出的肖像畫在紐約佳士得拍賣會上以43.2萬美元成交。 這一價格也是該場拍賣會的最高成交價,甚至超過了同場拍賣的畢加索作品。 這幅畫最大的噱頭,便是用GAN作畫所帶來的的獨一無二性。 One More Thing 最后,AI作畫還影響到了同樣在沖擊藝術圈的NFT。 此前有人推出了一個平臺Eponym。 它能夠利用AI將文本轉(zhuǎn)化為圖畫,然后再將這些作品直接鑄造到最大的NFT市場OpenSea。 在這個平臺上,每個文本只能生成一幅畫作。 由它推出第一批NFT(3500個),在OpenSea上一夜售罄。 △Eponym生成的作品 關于AI作畫將成為NFT領域的下一個趨勢,也成為最近圈內(nèi)熱議的話題。 實際上,Wombo也有進軍NFT領域的打算。 去年年底,有位網(wǎng)友在推特上向他們發(fā)問:
對此官方給出回應:目前還沒有鑄造,但是正在考慮這一計劃! 這事兒,你怎么看呢? AI繪圖靈感共享庫: https://docs.qq.com/sheet/DWFR0VmpQa3ZtbXda TheBigSleep: https://colab.research.google.com/drive/1NCceX2mbiKOSlAd_o7IU7nA9UskKN5WR CLIP VQGAN: https://ljvmiranda921./notebook/2021/08/11/vqgan-list/ Disco Diffusion: https://colab.research.google.com/github/alembics/disco-diffusion/blob/main/Disco_Diffusion.ipynb 參考鏈接: [1]https://www./business/article-making-it-by-faking-it-how-torontos-wombo-became-canadas-fastest/ [2]https://www./article/6722724 [3]https:///magazine/2022/02/16/features-wombo-dream-and-ai-art-with-salman-shahid/ [4]https://weibo.com/u/5619550614?is_hot=1 [5]https://www.zhihu.com/question/528563685/answer/2447959396 [6]https://www.zhihu.com/question/528563685/answer/2445286621 [7]https://www.zhihu.com/question/528563685/answer/2445279372 本文來自微信公眾號:量子位 (ID:QbitAI),作者:明敏、夢晨
本內(nèi)容為作者獨立觀點,不代表虎嗅立場。授權事宜請聯(lián)系 hezuo@huxiu.com
如對本稿件有異議或投訴,請聯(lián)系tougao@huxiu.com |
|