#DALL·E 和 CLIP#、#OpenAI# DALL·E 可以基于文本直接生成圖像; CLIP 則能夠完成圖像與文本類別的匹配。 OpenAI 聯(lián)合創(chuàng)始人、首席科學(xué)家 Ilya Sutskever 表示:人工智能的長(zhǎng)期目標(biāo)是構(gòu)建「多模態(tài)」神經(jīng)網(wǎng)絡(luò),即 AI 系統(tǒng)能夠?qū)W習(xí)多個(gè)不同模態(tài)的概念(主要是文本和視覺領(lǐng)域),從而更好地理解世界。 而 DALL·E 和 CLIP 使我們更接近「多模態(tài) AI 系統(tǒng)」這一目標(biāo)。 自帶魔法棒的 DALL·E→ 以下是Mixlab 多模態(tài)專欄作者:大錚博士的部分專欄內(nèi)容。今天,我們主要聊聊 DALL·E,如果大家感興趣,歡迎文末留言,我們?cè)俑玛P(guān)于 CLIP 的介紹。 CHUNFANG:大家最近在聊的熱門詞兒 DALL·E 是什么?具備什么功能? 大錚:DALL·E 能按照文字的描述,畫出十分自然的圖像。 目前的模型對(duì)于選詞比較敏感,官方釋出的例子是類似完形填空的形式,給句子中的名詞位置挖了空,并提供了候選的詞匯。 我們選擇了一個(gè)擬物的句子來展示DALL·E的能力。我們來看幾個(gè)例子: 第一個(gè)句子是:“一個(gè)長(zhǎng)得像豬的鬧鐘”。 于是,DALL·E 生成了這樣的圖片: https:///blog/dall-e/ 專欄作者:大錚 復(fù)旦大學(xué) | 計(jì)算機(jī)應(yīng)用技術(shù)在讀博士 研究:機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、媒體大數(shù)據(jù)分析 |
|