文本視覺(jué)，多篇 Visual/Video BERT 論文介紹

taotao_2016 2019-08-31

展開(kāi)全文

繼 2018 年谷歌的 BERT 模型獲得巨大成功之后，在純文本之外的任務(wù)上也有越來(lái)越多的研究人員借鑒了 BERT 的思維，開(kāi)發(fā)出各種視覺(jué)/視頻（Visual/Video）融合的 BERT 模型。這里我們介紹最初的 VideoBERT 論文以及近期的 6 篇其它 V-BERT 論文（按時(shí)間先后順序排序）。

VideoBERT

VideoBERT: A Joint Model for Video and Language Representation Learning

VideoBERT：一個(gè)視頻和語(yǔ)言表征的聯(lián)合學(xué)習(xí)模型

論文地址：https:///abs/1904.01766

論文摘要：為了利用 YouTube 之類的公眾媒體平臺(tái)上的大規(guī)模無(wú)標(biāo)簽數(shù)據(jù)，自監(jiān)督學(xué)習(xí)如今變得越來(lái)越重要。目前的大多數(shù)方法都是學(xué)習(xí)一些低階表征，而這篇論文中作者們提出了一個(gè)視覺(jué)和語(yǔ)意的聯(lián)合模型，在沒(méi)有額外顯式監(jiān)督的條件下學(xué)習(xí)高階特征。具體來(lái)說(shuō)，作者們借鑒了語(yǔ)言建模中十分成功的 BERT 模型，在它的基礎(chǔ)上進(jìn)行改進(jìn)，從視頻數(shù)據(jù)的向量量化和現(xiàn)有的語(yǔ)音識(shí)別輸出結(jié)果上分別導(dǎo)出視覺(jué) token 和語(yǔ)言學(xué) token，然后在這些 token 的序列上學(xué)習(xí)雙向聯(lián)合分布。作者們?cè)诙囗?xiàng)任務(wù)中測(cè)試了這個(gè)模型，包括動(dòng)作分類和視頻描述。作者們表明了這個(gè)模型可以直接用于開(kāi)放詞匯庫(kù)的分類任務(wù)，也確認(rèn)了大規(guī)模訓(xùn)練數(shù)據(jù)以及跨模態(tài)信息都對(duì)模型的表現(xiàn)有重大影響。除此之外，這個(gè)模型的表現(xiàn)超過(guò)了最優(yōu)秀的視頻描述模型，作者們也通過(guò)量化結(jié)果驗(yàn)證了這個(gè)模型確實(shí)學(xué)習(xí)到了高階語(yǔ)義特征。

ViLBERT

ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks

ViLBERT：為視覺(jué)-語(yǔ)言任務(wù)訓(xùn)練非任務(wù)專用的視覺(jué)語(yǔ)言表征

論文地址：https:///abs/1908.02265

論文摘要：這篇論文中作者們提出了 ViLBERT（視覺(jué)和語(yǔ)言 BERT），一個(gè)學(xué)習(xí)任務(wù)無(wú)關(guān)的圖像內(nèi)容與自然語(yǔ)言聯(lián)合表征的模型。作者們把熱門的 BERT 架構(gòu)拓展為一個(gè)支持兩個(gè)流輸入的多模態(tài)模型，它在這兩個(gè)流中分別預(yù)處理視覺(jué)和文本輸入，并在聯(lián)合注意力 transformer 層中進(jìn)行交互。作者們先在大規(guī)模自動(dòng)采集數(shù)據(jù)集 Conceptual Captions 上通過(guò)兩個(gè)代理任務(wù)預(yù)訓(xùn)練模型，然后把它遷移到多個(gè)現(xiàn)有的視覺(jué)-語(yǔ)言任務(wù)上，包括視覺(jué)問(wèn)答、視覺(jué)常識(shí)推理、代指詞、基于說(shuō)明的圖像檢索，過(guò)程中也只對(duì)基礎(chǔ)架構(gòu)做很小的調(diào)整。相比于目前的任務(wù)專用模型，作者們的做法帶來(lái)了巨大的表現(xiàn)提升，在所有 4 個(gè)任務(wù)上都得到了最好的成績(jī)。作者們的成果也代表了學(xué)習(xí)視覺(jué)和語(yǔ)言之間聯(lián)系的一種新思路，不再局限于某個(gè)具體任務(wù)訓(xùn)練過(guò)程中的學(xué)習(xí)，而是把視覺(jué)-語(yǔ)言聯(lián)系作為一個(gè)可預(yù)訓(xùn)練、可轉(zhuǎn)移的模型能力。

VisualBERT

VisualBERT: A Simple and Performant Baseline for Vision and Language

VisualBERT：一個(gè)簡(jiǎn)單有效的視覺(jué)和語(yǔ)言基準(zhǔn)線模型

論文地址：https:///abs/1908.03557

論文摘要：這篇論文里作者們提出了 VisualBERT，這是一個(gè)可以對(duì)一系列不同的視覺(jué)-語(yǔ)言任務(wù)進(jìn)行建模的框架，而且簡(jiǎn)單靈活。VisualBERT 包含了一組層疊的 Transformer 層，借助自我注意力把輸入一段文本中的元素和一張相關(guān)的輸入圖像中的區(qū)域隱式地對(duì)齊起來(lái)。除此之外，作者們還提出了兩個(gè)在圖像描述數(shù)據(jù)上的視覺(jué)-語(yǔ)言關(guān)聯(lián)學(xué)習(xí)目標(biāo)，用于 VisualBERT 的預(yù)訓(xùn)練。作者們?cè)?VQA、VCR、NLVR2 以及 Flickr30K 這四個(gè)視覺(jué)-語(yǔ)言任務(wù)上進(jìn)行了實(shí)驗(yàn)，結(jié)果表明 VisualBERT 以明顯更簡(jiǎn)單的架構(gòu)在所有任務(wù)中都達(dá)到了做好的表現(xiàn)或者和競(jìng)爭(zhēng)者相當(dāng)?shù)谋憩F(xiàn)。作者們的進(jìn)一步分析表明 VisualBERT 可以在沒(méi)有任何顯式監(jiān)督的情況下建立語(yǔ)言元素和圖像中區(qū)域之間的聯(lián)系，而且也對(duì)句法關(guān)系和追蹤（根據(jù)描述建立動(dòng)詞和圖像區(qū)域之間的關(guān)系）有一定的敏感性。

B2T2

Fusion of Detected Objects in Text for Visual Question Answering

視覺(jué)問(wèn)答中的檢測(cè)到物體的文本融合

論文地址：https:///abs/1908.05054

論文摘要：論文作者們開(kāi)發(fā)了一種簡(jiǎn)單但強(qiáng)有力的神經(jīng)網(wǎng)絡(luò)，它可以合并處理視覺(jué)和自然語(yǔ)言數(shù)據(jù)，作為多模態(tài)模型的持續(xù)改進(jìn)。模型的名字是 B2T2（Bounding Boxes in Text Transformer，文本 Transformer 中的邊界框），它也在同一個(gè)統(tǒng)一架構(gòu)中利用了把單詞指向圖像中的一部分的參考信息。B2T2 在視覺(jué)常識(shí)推理（http:///）數(shù)據(jù)集上有優(yōu)秀的表現(xiàn)，相比此前公開(kāi)的基準(zhǔn)模型降低了 25% 錯(cuò)誤率，也是公共排行榜上目前表現(xiàn)最好的模型。作者們進(jìn)行了詳細(xì)的對(duì)照試驗(yàn)，表明在早期就把視覺(jué)特征和文本分析相結(jié)合是這個(gè)新架構(gòu)發(fā)揮出好效果的重要原因。

Unicoder-VL

Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training

Unicoder-VL：一個(gè)通過(guò)跨模態(tài)預(yù)訓(xùn)練生成的語(yǔ)言和視覺(jué)通用編碼器

論文地址：https:///abs/1908.06066

論文摘要：作者們提出了 Unicoder-VL，這是一個(gè)以預(yù)訓(xùn)練的方式學(xué)習(xí)視覺(jué)和語(yǔ)言的聯(lián)合表征的通用編碼器。這個(gè)模型借鑒了 XLM 和 Unicoder 等跨語(yǔ)言、預(yù)訓(xùn)練模型的設(shè)計(jì)思路，視覺(jué)和語(yǔ)言內(nèi)容都會(huì)被傳入一個(gè)多層 transformer 中，作為跨模態(tài)預(yù)訓(xùn)練階段；預(yù)訓(xùn)練階段使用三個(gè)任務(wù)，包括掩蔽語(yǔ)言建模、掩蔽對(duì)象標(biāo)簽預(yù)測(cè)以及視覺(jué)-語(yǔ)言匹配。前兩個(gè)任務(wù)會(huì)讓模型學(xué)習(xí)從基于語(yǔ)言和視覺(jué)內(nèi)容輸入的聯(lián)合 token 學(xué)習(xí)到內(nèi)容相關(guān)的表征；后一個(gè)任務(wù)嘗試預(yù)測(cè)一張圖像和一段文本描述之間是否相符。在大量的圖像-描述對(duì)上預(yù)訓(xùn)練之后，作者們把 Unicoder-VL 遷移到了圖像-文本檢索任務(wù)上，只添加了一個(gè)額外的輸出層，就在 MSCOCO 和 Flicker30K 兩個(gè)數(shù)據(jù)集上都取得了目前最佳的表現(xiàn)。

LXMERT

LXMERT: Learning Cross-Modality Encoder Representations from Transformers

LXMERT：從 Transformers 中學(xué)習(xí)跨模態(tài)編碼器表征

論文地址：https:///abs/1908.07490

論文摘要：視覺(jué)-語(yǔ)言推理需要對(duì)視覺(jué)概念、語(yǔ)言語(yǔ)義有一定的理解，尤其還需要能在這兩個(gè)模態(tài)之間進(jìn)行對(duì)齊、找到關(guān)系。作者們提出了 LXMERT 框架來(lái)學(xué)習(xí)這些語(yǔ)言和視覺(jué)的聯(lián)系。在 LXMERT 中，作者們構(gòu)建了一個(gè)大規(guī)模 Transformer 模型，它含有三個(gè)編碼器：一個(gè)對(duì)象關(guān)系編碼器、一個(gè)語(yǔ)言編碼器和一個(gè)跨模態(tài)編碼器。接著，為了讓模型具備聯(lián)系視覺(jué)和語(yǔ)言語(yǔ)義的能力，作者們用大量的圖像和句子對(duì)進(jìn)行了模型預(yù)訓(xùn)練，使用了 5 個(gè)不同的、有代表性的預(yù)訓(xùn)練任務(wù)：掩蔽語(yǔ)言建模、掩蔽對(duì)象預(yù)測(cè)（特征回歸和標(biāo)簽檢測(cè)）、跨模態(tài)對(duì)齊以及圖像問(wèn)答。這些任務(wù)既可以幫助學(xué)習(xí)同一個(gè)模態(tài)內(nèi)的聯(lián)系，也可以幫助學(xué)習(xí)跨模態(tài)的聯(lián)系。在預(yù)訓(xùn)練的參數(shù)基礎(chǔ)上進(jìn)行精細(xì)調(diào)節(jié)之后，模型在 VQG 和 GQA 兩個(gè)視覺(jué)問(wèn)答數(shù)據(jù)集上都取得了最好成績(jī)。作者們還把這個(gè)預(yù)訓(xùn)練跨模態(tài)模型適配到了一個(gè)有挑戰(zhàn)的視覺(jué)推理任務(wù) NLVR2 上，把最好成績(jī)從此前的 54% 正確率一舉提升到了 76%，表明了模型有良好的泛化性。最后，作者們通過(guò)對(duì)照試驗(yàn)證明了他們新設(shè)計(jì)的模型部件和預(yù)訓(xùn)練策略都對(duì)結(jié)果有很大的幫助。代碼和預(yù)訓(xùn)練模型可以參見(jiàn) https://github.com/airsplay/lxmert

VL-BERT

VL-BERT: Pre-training of Generic Visual-Linguistic Representations

VL-BERT：通用視覺(jué)-語(yǔ)言表征預(yù)訓(xùn)練

論文地址：https:///abs/1908.08530

論文摘要：作者們?cè)O(shè)計(jì)了一種新的用于視覺(jué)-語(yǔ)言任務(wù)的可預(yù)訓(xùn)練的通用表征，名為 VL-BERT。VL-BERT 把簡(jiǎn)單有效的 Transformer 模型作為主干并進(jìn)行拓展，視覺(jué)和語(yǔ)言嵌入特征可以同時(shí)作為輸入。輸入中的每個(gè)元素可以是來(lái)自句子的一個(gè)單詞，也可以是輸入圖像中的一個(gè)感興趣區(qū)域。模型的設(shè)計(jì)也為了能夠和所有視覺(jué)-語(yǔ)言的下游任務(wù)兼容。作者們?cè)诖笠?guī)模的 Conceptual Captions 上對(duì)模型進(jìn)行預(yù)訓(xùn)練，三個(gè)預(yù)訓(xùn)練任務(wù)為：帶有視覺(jué)線索的掩蔽文字建模、帶有語(yǔ)言線索的感興趣區(qū)域分類、句子-圖像關(guān)系預(yù)測(cè)。作者們通過(guò)大量的實(shí)證分析表明預(yù)訓(xùn)練階段可以更好地對(duì)齊視覺(jué)-語(yǔ)言線索，并為視覺(jué)問(wèn)答、視覺(jué)常識(shí)推理、代指詞匯理解等下游任務(wù)帶來(lái)收益。值得一提的是 VL-BERT 在 VCR 排行榜上取得了單一模型的最好成績(jī)。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自： taotao_2016 > 《AI》

舉報(bào)/認(rèn)領(lǐng)