一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

DALL·E 3關(guān)鍵技術(shù)公開!19頁(yè)論文揭秘如何對(duì)提示詞“唯命是從”

 timtxu 2023-10-21 發(fā)布于上海
量子位
量子位
2023-10-20 12:25量子位官方賬號(hào) 優(yōu)質(zhì)科技領(lǐng)域創(chuàng)作者

蕭簫 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

出場(chǎng)即炸場(chǎng)的DALL·E 3,又有新動(dòng)向了!

這次直接宣布對(duì)ChatGPT Plus企業(yè)版用戶開放,還連帶公開了更多“官方推薦案例”。

DALL·E 3關(guān)鍵技術(shù)公開!19頁(yè)論文揭秘如何對(duì)提示詞“唯命是從”

不僅如此,OpenAI還一紙論文透露了DALL·E 3的關(guān)鍵技術(shù)細(xì)節(jié)。

相比其他AI,DALL·E 3表現(xiàn)最優(yōu)秀的地方,應(yīng)該就要屬對(duì)提示詞的完美遵循了。

無(wú)論是整體的環(huán)境描寫,還是精確到物體數(shù)量、著裝、顏色這種細(xì)節(jié)敘述,DALL·E 3都能很好地理解,并生成對(duì)應(yīng)的畫作,絲毫不漏重點(diǎn)。

DALL·E 3關(guān)鍵技術(shù)公開!19頁(yè)論文揭秘如何對(duì)提示詞“唯命是從”

論文一公開,可以說(shuō)是解決了“如何讓DALL·E 3遵循指令”這一讓諸多人困惑的問(wèn)題,有網(wǎng)友感嘆:

OpenAI終于又Open了?

DALL·E 3關(guān)鍵技術(shù)公開!19頁(yè)論文揭秘如何對(duì)提示詞“唯命是從”

一起來(lái)看看這篇DALL·E 3論文的關(guān)鍵細(xì)節(jié),以及它的更多用例。

用數(shù)據(jù)集讓DALL·E 3“唯命是從”

先來(lái)看看DALL·E 3論文最大的亮點(diǎn):提示詞遵循(prompt following)。

此前,不少繪畫AI會(huì)刻意忽略提示詞中的某些關(guān)鍵詞、或是混淆提示詞的含義(多義詞如column,列還是柱子),簡(jiǎn)單來(lái)說(shuō)就是文本提示詞和畫面細(xì)節(jié)沒(méi)對(duì)齊。

OpenAI的研究人員在經(jīng)過(guò)一番分析后認(rèn)為,這是數(shù)據(jù)集的鍋。

現(xiàn)有的圖像文本對(duì)數(shù)據(jù)集,文字對(duì)圖像的描述可以說(shuō)是“惜字如金”。

尤其是從互聯(lián)網(wǎng)上扒下來(lái)的數(shù)據(jù)集,大多數(shù)對(duì)圖像的描述只有一句話,更別提細(xì)節(jié)了。包括環(huán)境、物體在內(nèi),容易忽略的文本描述主要有4類

  • 場(chǎng)景中物體描述,如廚房里的水槽、人行道上的停車標(biāo)志等;
  • 物體位置和數(shù)量描述
  • 物體顏色和大小描述
  • 圖像中的文本描述(如呈現(xiàn)在商店招牌上的字母/漢字)

除此之外,還有不少互聯(lián)網(wǎng)上扒下來(lái)圖像的文本描述,直接就是錯(cuò)誤或不相關(guān)的,例如梗圖或Alt文本(圖像加載失敗時(shí)網(wǎng)頁(yè)上呈現(xiàn)的文字描述)。

DALL·E 3關(guān)鍵技術(shù)公開!19頁(yè)論文揭秘如何對(duì)提示詞“唯命是從”

為此,有必要將這些圖像對(duì)應(yīng)的文本數(shù)據(jù)重新整理一遍,更準(zhǔn)確地描述圖像中的場(chǎng)景和物品進(jìn)行描述。

光靠人力是不太可能的,畢竟要生成的“廢話文學(xué)”太多了。

和RLHF一樣,OpenAI同樣將這個(gè)過(guò)程“自動(dòng)化”了一波,讓AI來(lái)完成這件事。

他們訓(xùn)練了一個(gè)“圖像字幕器”(image captioner),專門用來(lái)給數(shù)據(jù)集中的圖像重新生成文本描述。

這是“圖像字幕器”給數(shù)據(jù)集中的部分圖片生成文本描述的效果:

DALL·E 3關(guān)鍵技術(shù)公開!19頁(yè)論文揭秘如何對(duì)提示詞“唯命是從”

這下子描述就詳細(xì)多了。

那么,用AI來(lái)合成文本,實(shí)際訓(xùn)練出來(lái)的模型是否真能提升生成效果?

研究人員用開源模型(如CLIP)測(cè)試了一波,得出的結(jié)論是可以。

DALL·E 3關(guān)鍵技術(shù)公開!19頁(yè)論文揭秘如何對(duì)提示詞“唯命是從”

不過(guò)也不能完全使用合成的文本描述,畢竟AI生成的內(nèi)容可能有些“神秘共性”,直接全盤接受容易導(dǎo)致圖像過(guò)擬合。

因此,OpenAI還在CLIP上嘗試了一波合成文本描述-圖像數(shù)據(jù)集的效果。

他們發(fā)現(xiàn),數(shù)據(jù)集中混雜95%的合成文本-圖像數(shù)據(jù)時(shí),CLIP的效果是最好的。

DALL·E 3關(guān)鍵技術(shù)公開!19頁(yè)論文揭秘如何對(duì)提示詞“唯命是從”

最終,他們決定95%的圖像用合成文本描述,剩下的5%圖像依舊使用人工描述,用這個(gè)比例的文本-圖像數(shù)據(jù)集重新訓(xùn)練了DALL·E 3,取得了不錯(cuò)的效果。

最后,OpenAI也采用人工評(píng)估的方法,對(duì)DALL·E 3和其他模型進(jìn)行了測(cè)試。

評(píng)估方法大致像這樣,詢問(wèn)人類哪個(gè)圖像能更好地遵循提示詞、或生成更好看的圖像。

DALL·E 3關(guān)鍵技術(shù)公開!19頁(yè)論文揭秘如何對(duì)提示詞“唯命是從”
DALL·E 3關(guān)鍵技術(shù)公開!19頁(yè)論文揭秘如何對(duì)提示詞“唯命是從”

結(jié)果顯示,DALL·E 3相比Midjourney 5.2、SDXL和DALL·E 2,在提示詞遵循、風(fēng)格匹配等任務(wù)測(cè)試上均取得了不錯(cuò)的效果。

DALL·E 3關(guān)鍵技術(shù)公開!19頁(yè)論文揭秘如何對(duì)提示詞“唯命是從”

已向企業(yè)版和Plus用戶開放

除了這篇論文以外,OpenAI這次還公布了DALL·E 3的另一動(dòng)向——向ChatGPT Plus企業(yè)版開放。

在宣布這一消息的同時(shí),OpenAI也給出了企業(yè)和機(jī)構(gòu)使用DALL·E 3的建議,例如做科學(xué)項(xiàng)目:

DALL·E 3關(guān)鍵技術(shù)公開!19頁(yè)論文揭秘如何對(duì)提示詞“唯命是從”

搞網(wǎng)站設(shè)計(jì):

DALL·E 3關(guān)鍵技術(shù)公開!19頁(yè)論文揭秘如何對(duì)提示詞“唯命是從”

或是幫企業(yè)設(shè)計(jì)LOGO:

DALL·E 3關(guān)鍵技術(shù)公開!19頁(yè)論文揭秘如何對(duì)提示詞“唯命是從”

當(dāng)然,無(wú)論是ChatGPT Plus還是企業(yè)版,仍然也屬于收費(fèi)項(xiàng)目。

目前唯一可以免費(fèi)玩到DALL·E 3的地方,應(yīng)該還是微軟的New Bing。

DALL·E 3關(guān)鍵技術(shù)公開!19頁(yè)論文揭秘如何對(duì)提示詞“唯命是從”

對(duì)于OpenAI帶來(lái)的DALL·E 3新消息,不少網(wǎng)友感覺(jué)振奮。

有網(wǎng)友表示,DALL·E 3的出現(xiàn)真正給設(shè)計(jì)圈帶來(lái)了改變,例如設(shè)計(jì)飲料包裝等:

DALL·E 3關(guān)鍵技術(shù)公開!19頁(yè)論文揭秘如何對(duì)提示詞“唯命是從”

還有網(wǎng)友已經(jīng)在催API的到來(lái)了:

DALL·E 3關(guān)鍵技術(shù)公開!19頁(yè)論文揭秘如何對(duì)提示詞“唯命是從”

但也有網(wǎng)友對(duì)這次更新不甚滿意,尤其是對(duì)DALL·E 3論文涉及的技術(shù)信息表示了嘲諷:

直接用谷歌的T5文本編碼器和卷積解碼器,這就是公司發(fā)展太快的結(jié)果嗎?

DALL·E 3關(guān)鍵技術(shù)公開!19頁(yè)論文揭秘如何對(duì)提示詞“唯命是從”

這里是網(wǎng)友提到的DALL·E 3論文細(xì)節(jié):

DALL·E 3關(guān)鍵技術(shù)公開!19頁(yè)論文揭秘如何對(duì)提示詞“唯命是從”

要是對(duì)DALL·E 3的更多技術(shù)細(xì)節(jié)感興趣,也可以到論文中找找答案~

論文地址:
https://cdn./papers/dall-e-3.pdf

參考鏈接:
[1]https://twitter.com/OpenAI/status/1715050642560151963
[2]https:///blog/dall-e-3-is-now-available-in-chatgpt-plus-and-enterprise

— 完 —

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多

    日本少妇中文字幕不卡视频| 国产中文另类天堂二区| 国产麻豆视频一二三区| 国产午夜福利一区二区| 不卡在线播放一区二区三区| 黄片美女在线免费观看| 亚洲欧美中文字幕精品| 欧美一级内射一色桃子| 美女露小粉嫩91精品久久久| 精品人妻少妇二区三区| 亚洲天堂精品在线视频| 在线免费不卡亚洲国产| 亚洲高清一区二区高清| 亚洲国产91精品视频| 熟女中文字幕一区二区三区| 国产一级二级三级观看| 午夜亚洲精品理论片在线观看| 高清亚洲精品中文字幕乱码| av中文字幕一区二区三区在线| 日韩一区二区三区观看| 人妻久久这里只有精品| 国产麻豆一线二线三线| 伊人久久青草地婷婷综合| 色哟哟精品一区二区三区| 一区二区三区欧美高清| 欧美在线观看视频免费不卡| 91亚洲人人在字幕国产| 免费特黄欧美亚洲黄片| 日本人妻免费一区二区三区| 亚洲乱妇熟女爽的高潮片| 久久这里只精品免费福利| 欧美日韩综合综合久久久| 国产成人国产精品国产三级| 欧美午夜伦理在线观看| 在线日本不卡一区二区| 操白丝女孩在线观看免费高清| 国产精品色热综合在线| 日韩av亚洲一区二区三区| 日韩精品少妇人妻一区二区| 国产又粗又深又猛又爽又黄| 午夜福利黄片免费观看|