改BUG、編故事、繪畫我不如AI

財(cái)富人生 2022-12-07 發(fā)布于黑龍江

展開全文

這些看似只有人類才能完成的任務(wù)，都出自同一個(gè)聊天機(jī)器人之手。

當(dāng)?shù)貢r(shí)間11月30日，OpenAI發(fā)布了一個(gè)全新的對(duì)話式大規(guī)模語言模型ChatGPT。作為GPT-3.5系列的主力模型之一，通過對(duì)話的形式，ChatGPT可以回答后續(xù)問題、承認(rèn)錯(cuò)誤、挑戰(zhàn)不正確的前提并拒絕不適當(dāng)?shù)恼?qǐng)求。

這一模型在開放測(cè)試以后，迅速涌入了大批用戶，并在社交媒體上曬出自己與ChatGPT的互動(dòng)。有人用來給自己的貓寫詩，有人用來給代碼改BUG，還有人問它關(guān)于人類的意義......12月5日，OpenAI首席執(zhí)行官Sam Altman發(fā)推表示，OpenAI 訓(xùn)練的大型語言模型ChatGPT于上周三推出，目前已突破100萬用戶。

甚至于馬斯克也為其稱贊“ChatGPT非常好。我們離強(qiáng)大到危險(xiǎn)的AI不遠(yuǎn)了。”

之所以ChatGPT能夠引起如此大的反響，是因?yàn)檫@一次算法模型的升級(jí)讓AI的認(rèn)知智能更上一層臺(tái)階，換句話說，現(xiàn)階段的AI能夠?qū)θ祟愐鈭D的理解更為深刻、準(zhǔn)確。

讓AI更懂人、更像人，一直是技術(shù)不斷在攻克的難題，而同樣作為生成式AI（AIGC）中一員的AI繪畫，也因?yàn)镈iffusion擴(kuò)散模型的加入，闖入了更多公眾的視野。

只需要輸入幾個(gè)關(guān)鍵詞，就能獲得一幅由AI生成的繪畫。今年以來，AI繪畫可謂是在社交媒體上賺足了眼球，從年初Disco Diffusion的流行，再到8月，由AI繪畫程序Midjourney生成的《太空歌劇院》獲獎(jiǎng)，Stable Diffusion擴(kuò)散模型的使用，讓AI繪畫在圖像細(xì)節(jié)的處理上更為出色。

如果將ChatGPT和Stable Diffusion模型兩者進(jìn)行“強(qiáng)強(qiáng)聯(lián)合”，便能夠讓模型更懂創(chuàng)作者的需求。一方面，利用ChatGPT強(qiáng)大的語言理解能力生成文本描述，另一方面，擴(kuò)散模型能夠最大程度保持圖像的細(xì)節(jié)，既保留了圖像中的語義結(jié)構(gòu)，又能夠生成高質(zhì)量的AI繪畫作品，“甲方爸爸”看了都直呼滿意。

無論是ChatGPT還是Diffusion擴(kuò)散模型，一個(gè)作為多輪對(duì)話模型，一個(gè)作為輔助多模態(tài)生成的模型，都讓AI的能力從“機(jī)械執(zhí)行”，進(jìn)階到“創(chuàng)造性”，這也意味著AIGC迎來了一個(gè)新的發(fā)展階段。

“我不如AI”，在多久后會(huì)成為現(xiàn)實(shí)？

生成式AI到底有多牛？

AI給你改BUG、編故事，是一種什么體驗(yàn)？

“幫我以魯迅的文筆寫一段話，表達(dá)一下我現(xiàn)在因?yàn)橐咔檫B門都不敢出的慘狀，還有想吃火鍋的心情”，有網(wǎng)友在ChatGPT中輸入一段自己的需求。幾秒鐘后，ChatGPT就給出了一篇質(zhì)量頗高的小作文。

除了讓它寫小作文以外，它還擁有解決數(shù)學(xué)、邏輯和編程問題的能力，有網(wǎng)友直呼：媽媽以后再也不用擔(dān)心我的作業(yè)不會(huì)做了！

與此同時(shí)，ChatGPT還能根據(jù)用戶提出的調(diào)整建議不停地對(duì)回答內(nèi)容進(jìn)行修改，同時(shí)也能對(duì)不恰當(dāng)?shù)募僭O(shè)和要求提出挑戰(zhàn)和拒絕。

一改AI智障的面孔，能讓聊天機(jī)器人如此優(yōu)秀，ChatGPT究竟有哪些創(chuàng)新？

2020年，OpenAI推出自然語言模型GPT-3，這是ChatGPT的上上一代產(chǎn)品，其在總結(jié)和簡化文本方面表現(xiàn)出強(qiáng)大的能力，甚至還在《衛(wèi)報(bào)》上公開發(fā)表過專欄文章，一時(shí)間引起了不小的轟動(dòng)。

兩年過去，就在眾人對(duì)GPT-4翹首以盼的時(shí)候，OpenAI在今年年初出其不意地先推出了GPT-3.5，并訓(xùn)練了InstructGPT模型，能夠幫助GPT-3輸出的結(jié)果更為準(zhǔn)確。

而ChatGPT則是InstructGPT的兄弟模型，同屬于GPT-3.5。雖然ChatGPT目前仍然處于測(cè)試階段，并且還沒有真正聯(lián)網(wǎng)，但已經(jīng)展現(xiàn)出了足夠驚艷的性能。

這次ChatGPT的走紅，除了有社交媒體裂變優(yōu)勢(shì)的助力以外，很重要的一個(gè)原因還是其跟上一代的GPT-3相比，在生成內(nèi)容的效果上有了兩方面的顯著提升：一是有記憶功能，可以實(shí)現(xiàn)連續(xù)對(duì)話；二是能夠更好的理解和完成人類的指令。

在對(duì)于人類指令的理解和執(zhí)行上，可以發(fā)現(xiàn)，ChatGPT生成的結(jié)果在盡可能地貼合人類的意圖和期望，而GPT-3更像是設(shè)定好的套路模版。比如說同一個(gè)指令“寫一首簡短的關(guān)于青蛙的詩歌”，右邊ChatGPT的可讀性明顯要更強(qiáng)。

對(duì)比下來，GPT-3的局限性在于不擅長邏輯的推理和決策，而在ChatGPT中，結(jié)果的反饋也成為了學(xué)習(xí)過程的一部分，實(shí)現(xiàn)了在認(rèn)知智能層面上的提升。這一次ChatGPT的推出，大概率也是為了能夠收集更多的用戶數(shù)據(jù)反饋，以飼養(yǎng)模型，讓AI更懂人類。

事實(shí)上，對(duì)于人類意圖的理解一直都是AI難以橫跨的一道坎。

就拿同樣火熱的AI繪畫為例，能夠出圈的一大原因是因?yàn)樯傻淖髌贰胺嚒碧珔柡?。把寵物識(shí)別成人，把人物識(shí)別成建筑...畫風(fēng)開始偏離，諸如此類的烏龍開始頻繁出現(xiàn)。

圖片來源于網(wǎng)絡(luò)，如有版權(quán)問題請(qǐng)聯(lián)系我們

對(duì)于一些簡單的人物和環(huán)境都無法準(zhǔn)確識(shí)別、理解，更別提具有復(fù)雜意象的詩歌了。在某個(gè)AI繪畫產(chǎn)品中，光錐智能輸入“醉后不知天在水，滿船清夢(mèng)壓星河”后，生成的結(jié)果也跟詩歌意境相差甚遠(yuǎn)。

不難發(fā)現(xiàn)，在AI繪畫爆火背后，大多數(shù)軟件對(duì)于如何保證準(zhǔn)確的語義理解和圖片生成能力的敏感度并不算高。

現(xiàn)階段AI繪畫的槽點(diǎn)雖然很多，但進(jìn)步卻是毋庸置疑的。據(jù)一位二次元畫師透露，在今年年初的時(shí)候，圈子里的人對(duì)于AI繪畫的印象還是“生成速度慢”“生成質(zhì)量差”，但誰也沒想到AI能夠在短短幾個(gè)月時(shí)間進(jìn)步神速。特別是今年8月，AI繪畫作品《太空歌劇院》的獲獎(jiǎng)，更是讓大家炸開了鍋，“從來沒感覺到自己離失業(yè)那么近。”二次元畫師小元（化名）說道。

算法的迭代之路

從“人工智障”到“人工智能”，背后是算法模型的幾次大幅迭代。

從最早基于手寫規(guī)則的簡單學(xué)習(xí)，到神經(jīng)網(wǎng)絡(luò)的誕生，AI開始像人腦一樣學(xué)習(xí)，開始嘗試大量數(shù)據(jù)。

圖片來自真格基金分享

直到2017年，谷歌首次提出了Transform模型，取代了此前的CNN和RNN兩種神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方式，這一模型的核心在于注意力機(jī)制，讓AI在學(xué)習(xí)的過程中關(guān)注重點(diǎn)而非全部，大大降低了模型訓(xùn)練所需的時(shí)間。Transform模型問世以后，很長一段時(shí)間里都是機(jī)器翻譯領(lǐng)域的主流模型。

而將Transform模型拆開來看，可以分成編碼器和解碼器兩個(gè)部分，編碼器負(fù)責(zé)把自然語言序列轉(zhuǎn)化成數(shù)學(xué)表達(dá)，而解碼器則是負(fù)責(zé)把數(shù)學(xué)表達(dá)再轉(zhuǎn)化為自然語言序列，即我們?nèi)粘Ｄ軌蚩吹枚恼Z言。

OpenAI的自然語言模型GPT就是屬于后者。

圖片來自真格基金分享

從2018年推出了GPT-1之后，該自然語言模型系列一共經(jīng)歷了3次迭代。相較于GPT-1，GPT-2并沒有太多結(jié)構(gòu)上創(chuàng)新，只是數(shù)據(jù)更多了，參數(shù)從原來1.17億增加到了15億。而在GPT-3上，OpenAI再一次加大了對(duì)于數(shù)據(jù)量的投入，訓(xùn)練參數(shù)直接達(dá)到了1750億個(gè)，上千億的參數(shù)和更類人的智能也讓其成為了自然語言模型里程碑式的產(chǎn)物。

到了今天的主角ChatGPT，再一次顛覆了“AI究竟能夠多像人類”的認(rèn)知。

上文提到，ChatGPT現(xiàn)在更能理解人類的指令和意圖，根本原因在于ChatGPT和InstructGPT都加入了“從人類反饋中強(qiáng)化學(xué)習(xí)”的訓(xùn)練方式。

相比于原來訓(xùn)練標(biāo)注師單純輸入固定的結(jié)果模版，這種訓(xùn)練方式加入了人類有可能對(duì)于結(jié)果的反饋，并將不同的結(jié)果進(jìn)行排序，通過獎(jiǎng)勵(lì)模型讓AI不斷地在人類的反饋中迭代、調(diào)整，這樣一來，提前讓ChatGPT與有可能的反饋產(chǎn)生交互，使得最后生成更符合人類指令或者意圖的答案。

值得一提的是，雖然是兄弟模型，但I(xiàn)nstructGPT無法判斷人類下達(dá)的指令是否是不正當(dāng)?shù)模匀淮嬖谝恍岸拘浴?，而?yōu)化過后的ChatGPT則能夠意識(shí)到這一點(diǎn)，敢于質(zhì)疑不正確的前提。

在算法模型的不斷迭代下，加上數(shù)據(jù)量不斷提升，“AI越來越聰明，也越來越努力?！?/p>

同樣，AI繪畫能夠在今年爆火，也是因?yàn)榈讓蛹夹g(shù)實(shí)現(xiàn)了重大突破。

從識(shí)別用戶輸入的文字語義，再到生成一幅AI繪畫作品，這其中的難點(diǎn)之一在于AI需要實(shí)現(xiàn)從文字到圖像的跨模態(tài)生成。

讓我們先把時(shí)間撥回2014年。彼時(shí)，GAN對(duì)抗生成網(wǎng)絡(luò)的提出標(biāo)志著AI圖像生成邁出了關(guān)鍵一步，但遺憾的是，GAN生成的結(jié)果可控性差、圖像分辨率較低、不能實(shí)現(xiàn)文字和圖像之間的跨模態(tài)生成。

因此，CLIP模型出現(xiàn)了。2021年，OpenAI提出了基于NLP（自然語言理解）和CV（計(jì)算機(jī)視覺）的多模態(tài)預(yù)訓(xùn)練算法CLIP，可以將CLIP模型簡單地理解為不同模態(tài)之間架起的一座橋梁。

不過，真正引爆AI繪畫的，還是Diffusion擴(kuò)散模型的應(yīng)用。

擴(kuò)散模型就是一種生成圖像的方法，在正擴(kuò)散過程中，給圖像添加噪聲，讓圖像變成了一堆隨機(jī)的噪聲，然后通過逆擴(kuò)散給圖像去噪，學(xué)習(xí)圖像是如何生成的，相當(dāng)于讓AI換了一種學(xué)習(xí)畫畫的方式。

伴隨著今年Stability AI對(duì)擴(kuò)散模型的改進(jìn)之后，模型的計(jì)算降低了對(duì)算力的要求和對(duì)內(nèi)存的消耗，從前動(dòng)輒半天、一天的生成速度已經(jīng)快進(jìn)到秒級(jí)別，這也是為什么在Stable Diffusion開源以后，AI繪畫能夠迅速在C端走紅的原因。

目前的AIGC已經(jīng)能夠?qū)崿F(xiàn)文字、圖像、音頻以及視頻等多領(lǐng)域、跨模態(tài)的內(nèi)容生成。

招商證券認(rèn)為，得益于深度學(xué)習(xí)模型的不斷完善、開源模式的推動(dòng)以及數(shù)字內(nèi)容供給需求的不斷增長，AIGC將會(huì)呈現(xiàn)指數(shù)級(jí)的發(fā)展增速。在技術(shù)加持下，一場(chǎng)AIGC的變革正在醞釀。

尋找技術(shù)和商業(yè)化的交點(diǎn)

生成式AI的進(jìn)步不斷地給人以驚喜，在應(yīng)用層，應(yīng)該如何尋找技術(shù)和商業(yè)化的交點(diǎn)？

近日，ChatGPT的火爆之余，馬斯克在推特上也對(duì)ChatGPT提出了關(guān)鍵性的問題：每次對(duì)話的平均費(fèi)用是多少？

而OpenAI首席執(zhí)行官Sam Altman給出的回復(fù)是“每次對(duì)話的平均費(fèi)用可能只有幾美分”，正試圖找出更精確的測(cè)量方法并壓縮費(fèi)用。

類似于ChatGPT這樣的對(duì)話式AI產(chǎn)品，最早出現(xiàn)在2016年。隨著技術(shù)的發(fā)展，近些年來也被廣泛運(yùn)用在AI客服、虛擬數(shù)字人和電話營銷等領(lǐng)域。不過，從效果上看，這些產(chǎn)品仍然不夠智能，此前中國聯(lián)通的AI客服冒充人工，還被用戶識(shí)破發(fā)到網(wǎng)上調(diào)侃了一番。

此次ChatGPT的出現(xiàn)，不僅僅帶來了技術(shù)的關(guān)鍵性變革，也讓對(duì)話式AI產(chǎn)品的商業(yè)化前景變得更加清晰。

而相較于ChatGPT，AI繪畫的商業(yè)化則走在更前面。

量子位智庫發(fā)布的報(bào)告認(rèn)為，多模態(tài)能力的提升將成為AI真正實(shí)現(xiàn)認(rèn)知智能和決策智能的關(guān)鍵轉(zhuǎn)折點(diǎn)，在未來1-2年，“文字-圖像”的生成將快速落地。

從海外市場(chǎng)的情況來看，不僅有谷歌、Meta、微軟等科技巨頭跑步入場(chǎng)，隨著Stable Diffusion的開源，一大批初創(chuàng)企業(yè)也如雨后春筍般涌現(xiàn)。

再看國內(nèi)的情況，百度較早地嗅到了AI繪畫的機(jī)會(huì)，在今年8月就發(fā)布了基于其飛槳、文心大模型的AI繪畫軟件文心一格，而初創(chuàng)企業(yè)里，也有盜夢(mèng)師、TIAMAT、達(dá)利AI、6pen等公司開始冒尖。

現(xiàn)階段AI繪畫仍然處于大量投入的早期階段，商業(yè)模式仍然在探索中。

就拿這次在C端爆火的眾多AI繪畫軟件來看，光錐智能了解到，意間AI繪畫是積分制，初始積分是20，當(dāng)積分消耗完畢后可以通過觀看廣告視頻來繼續(xù)獲取積分；盜夢(mèng)師、6pen以及百度的文心一格都是免費(fèi)生成一定數(shù)量的作品之后，按量進(jìn)行收費(fèi)。

總的來看，目前國內(nèi)的AI繪畫軟件變現(xiàn)模式單一，且C端的用戶大多數(shù)只是出于好奇心的嘗試，愿意付費(fèi)的仍是少數(shù)。根據(jù)6pen的調(diào)研，60%的用戶從未在AI繪畫產(chǎn)品上有過付費(fèi)行為，剩下40%的用戶中，付費(fèi)超過100元占比僅10%。

C端的付費(fèi)意愿并不高，因此，諸如工業(yè)設(shè)計(jì)、游戲制作等B端場(chǎng)景或許會(huì)成為AI繪畫未來的一個(gè)重要落地方向。

值得注意的是，AI繪畫如果真的在不久的將來實(shí)現(xiàn)大規(guī)模商業(yè)化落地，那么內(nèi)容生產(chǎn)方式的變革也會(huì)進(jìn)一步加速。

光錐智能向盜夢(mèng)師的To B產(chǎn)品負(fù)責(zé)人李慶功了解到，過去專業(yè)設(shè)計(jì)師大多使用的都是PS這類的工具，但目前盜夢(mèng)師已經(jīng)在嘗試研發(fā)面向?qū)I(yè)生產(chǎn)場(chǎng)景的AI生成工具，這種全新的創(chuàng)作交互方式不僅能夠讓AI來執(zhí)行設(shè)計(jì)流程，甚至于連設(shè)計(jì)師的靈感都可以由AI來提供。

這就意味著，跟原先被AI替代的單一、重復(fù)工種一樣，AI繪畫的出現(xiàn)也會(huì)替代掉一部分的工作。誰會(huì)成為下一個(gè)被替代的？

結(jié)語

當(dāng)我們?cè)谡務(wù)揂I時(shí)，我們究竟是在談?wù)撌裁矗?/p>

從AI誕生之日起，它的任務(wù)就是要進(jìn)一步解放生產(chǎn)力。順著AI發(fā)展的脈絡(luò)來看，通過不斷模擬人腦的思考過程，AI逐漸具有了對(duì)數(shù)據(jù)和語言的理解、推理、解釋、歸納、演繹的能力，越來越像一個(gè)人類。

當(dāng)然，目前的AI對(duì)于人腦的探索遠(yuǎn)遠(yuǎn)未觸及核心情感層，但我們不得不承認(rèn)，AI正在醞釀著一場(chǎng)生產(chǎn)力的變革，而這必然會(huì)引起新一輪人類價(jià)值的轉(zhuǎn)移。

回顧人類歷史，每一次生產(chǎn)力變革的背后，技術(shù)都在不斷地將人類從單一、繁重、重復(fù)的勞動(dòng)中解放出來。從體力勞動(dòng)開始，到腦力勞動(dòng)，在這一過程當(dāng)中，人類的勞動(dòng)形式逐漸發(fā)生改變，并依次疊加。而伴隨著AI往更高階的智能進(jìn)發(fā)的同時(shí)，另外一種勞動(dòng)形式也順勢(shì)出現(xiàn)。

借用知乎上一位答主的話，那就是想象力勞動(dòng)。

區(qū)別于腦力勞動(dòng)，想象力勞動(dòng)的核心在于靈感和創(chuàng)意的提供。

上文提到，ChatGPT能夠根據(jù)人類簡短的指令生成代碼、編寫故事，AI繪畫也能夠識(shí)別關(guān)鍵詞的語義進(jìn)行創(chuàng)作，本質(zhì)上AI正在承擔(dān)并且有能力承擔(dān)一部分的人類勞動(dòng)。因此，人類已經(jīng)無需去思考其中的過程，只需要給AI提出問題、把自己的靈感告訴AI即可。

也正因?yàn)锳I天然具有根據(jù)指令執(zhí)行的機(jī)械思維，所以AI無法真正理解人的情感和多樣性，即使AI可以替代程序員寫代碼、替代作家寫故事，但是它所有的靈感來源依舊要從人類那里獲得。

根據(jù)傳播學(xué)者梅尼賽的研究，技術(shù)進(jìn)步之后，引發(fā)社會(huì)變革的途徑之一就是創(chuàng)造新機(jī)會(huì)和產(chǎn)生新問題，前者引發(fā)產(chǎn)業(yè)結(jié)構(gòu)和社會(huì)結(jié)構(gòu)的變化，而后者推動(dòng)新制度的轉(zhuǎn)型。

AI作為新一代科技革命技術(shù)，它的進(jìn)步也在不斷反推人類去思考，我們的新問題、新機(jī)會(huì)在哪兒。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：財(cái)富人生 > 《經(jīng)濟(jì)商機(jī)》

舉報(bào)/認(rèn)領(lǐng)