日本午夜免费超清视频,日本黄色三级免费录像,绯色精品人妻av一区二区三区

蕭簫發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

出場(chǎng)即炸場(chǎng)的DALL·E 3，又有新動(dòng)向了！

這次直接宣布對(duì)ChatGPT Plus和企業(yè)版用戶開放，還連帶公開了更多“官方推薦案例”。

DALL·E 3關(guān)鍵技術(shù)公開！19頁(yè)論文揭秘如何對(duì)提示詞“唯命是從”

不僅如此，OpenAI還一紙論文透露了DALL·E 3的關(guān)鍵技術(shù)細(xì)節(jié)。

相比其他AI，DALL·E 3表現(xiàn)最優(yōu)秀的地方，應(yīng)該就要屬對(duì)提示詞的完美遵循了。

無(wú)論是整體的環(huán)境描寫，還是精確到物體數(shù)量、著裝、顏色這種細(xì)節(jié)敘述，DALL·E 3都能很好地理解，并生成對(duì)應(yīng)的畫作，絲毫不漏重點(diǎn)。

論文一公開，可以說(shuō)是解決了“如何讓DALL·E 3遵循指令”這一讓諸多人困惑的問(wèn)題，有網(wǎng)友感嘆：

OpenAI終于又Open了？

一起來(lái)看看這篇DALL·E 3論文的關(guān)鍵細(xì)節(jié)，以及它的更多用例。

用數(shù)據(jù)集讓DALL·E 3“唯命是從”

先來(lái)看看DALL·E 3論文最大的亮點(diǎn)：提示詞遵循（prompt following）。

此前，不少繪畫AI會(huì)刻意忽略提示詞中的某些關(guān)鍵詞、或是混淆提示詞的含義（多義詞如column，列還是柱子），簡(jiǎn)單來(lái)說(shuō)就是文本提示詞和畫面細(xì)節(jié)沒(méi)對(duì)齊。

OpenAI的研究人員在經(jīng)過(guò)一番分析后認(rèn)為，這是數(shù)據(jù)集的鍋。

現(xiàn)有的圖像文本對(duì)數(shù)據(jù)集，文字對(duì)圖像的描述可以說(shuō)是“惜字如金”。

尤其是從互聯(lián)網(wǎng)上扒下來(lái)的數(shù)據(jù)集，大多數(shù)對(duì)圖像的描述只有一句話，更別提細(xì)節(jié)了。包括環(huán)境、物體在內(nèi)，容易忽略的文本描述主要有4類：

場(chǎng)景中物體描述，如廚房里的水槽、人行道上的停車標(biāo)志等；
物體位置和數(shù)量描述
物體顏色和大小描述
圖像中的文本描述（如呈現(xiàn)在商店招牌上的字母/漢字）

除此之外，還有不少互聯(lián)網(wǎng)上扒下來(lái)圖像的文本描述，直接就是錯(cuò)誤或不相關(guān)的，例如梗圖或Alt文本（圖像加載失敗時(shí)網(wǎng)頁(yè)上呈現(xiàn)的文字描述）。

為此，有必要將這些圖像對(duì)應(yīng)的文本數(shù)據(jù)重新整理一遍，更準(zhǔn)確地描述圖像中的場(chǎng)景和物品進(jìn)行描述。

光靠人力是不太可能的，畢竟要生成的“廢話文學(xué)”太多了。

和RLHF一樣，OpenAI同樣將這個(gè)過(guò)程“自動(dòng)化”了一波，讓AI來(lái)完成這件事。

他們訓(xùn)練了一個(gè)“圖像字幕器”（image captioner），專門用來(lái)給數(shù)據(jù)集中的圖像重新生成文本描述。

這是“圖像字幕器”給數(shù)據(jù)集中的部分圖片生成文本描述的效果：

這下子描述就詳細(xì)多了。

那么，用AI來(lái)合成文本，實(shí)際訓(xùn)練出來(lái)的模型是否真能提升生成效果？

研究人員用開源模型（如CLIP）測(cè)試了一波，得出的結(jié)論是可以。

不過(guò)也不能完全使用合成的文本描述，畢竟AI生成的內(nèi)容可能有些“神秘共性”，直接全盤接受容易導(dǎo)致圖像過(guò)擬合。

因此，OpenAI還在CLIP上嘗試了一波合成文本描述-圖像數(shù)據(jù)集的效果。

他們發(fā)現(xiàn)，數(shù)據(jù)集中混雜95%的合成文本-圖像數(shù)據(jù)時(shí)，CLIP的效果是最好的。

最終，他們決定95%的圖像用合成文本描述，剩下的5%圖像依舊使用人工描述，用這個(gè)比例的文本-圖像數(shù)據(jù)集重新訓(xùn)練了DALL·E 3，取得了不錯(cuò)的效果。

最后，OpenAI也采用人工評(píng)估的方法，對(duì)DALL·E 3和其他模型進(jìn)行了測(cè)試。

評(píng)估方法大致像這樣，詢問(wèn)人類哪個(gè)圖像能更好地遵循提示詞、或生成更好看的圖像。

結(jié)果顯示，DALL·E 3相比Midjourney 5.2、SDXL和DALL·E 2，在提示詞遵循、風(fēng)格匹配等任務(wù)測(cè)試上均取得了不錯(cuò)的效果。

已向企業(yè)版和Plus用戶開放

除了這篇論文以外，OpenAI這次還公布了DALL·E 3的另一動(dòng)向——向ChatGPT Plus和企業(yè)版開放。

在宣布這一消息的同時(shí)，OpenAI也給出了企業(yè)和機(jī)構(gòu)使用DALL·E 3的建議，例如做科學(xué)項(xiàng)目：

搞網(wǎng)站設(shè)計(jì)：

或是幫企業(yè)設(shè)計(jì)LOGO：

當(dāng)然，無(wú)論是ChatGPT Plus還是企業(yè)版，仍然也屬于收費(fèi)項(xiàng)目。

目前唯一可以免費(fèi)玩到DALL·E 3的地方，應(yīng)該還是微軟的New Bing。

對(duì)于OpenAI帶來(lái)的DALL·E 3新消息，不少網(wǎng)友感覺(jué)振奮。

有網(wǎng)友表示，DALL·E 3的出現(xiàn)真正給設(shè)計(jì)圈帶來(lái)了改變，例如設(shè)計(jì)飲料包裝等：

還有網(wǎng)友已經(jīng)在催API的到來(lái)了：

但也有網(wǎng)友對(duì)這次更新不甚滿意，尤其是對(duì)DALL·E 3論文涉及的技術(shù)信息表示了嘲諷：

直接用谷歌的T5文本編碼器和卷積解碼器，這就是公司發(fā)展太快的結(jié)果嗎？

這里是網(wǎng)友提到的DALL·E 3論文細(xì)節(jié)：

要是對(duì)DALL·E 3的更多技術(shù)細(xì)節(jié)感興趣，也可以到論文中找找答案~

論文地址：
https://cdn./papers/dall-e-3.pdf

參考鏈接：
[1]https://twitter.com/OpenAI/status/1715050642560151963
[2]https:///blog/dall-e-3-is-now-available-in-chatgpt-plus-and-enterprise

— 完 —

一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

DALL·E 3關(guān)鍵技術(shù)公開！19頁(yè)論文揭秘如何對(duì)提示詞“唯命是從”

用數(shù)據(jù)集讓DALL·E 3“唯命是從”

已向企業(yè)版和Plus用戶開放