一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

Query Generation Module-NTU用多樣性的query生成,漲點(diǎn)基于文本的實(shí)例分割(已開源)

 我愛計(jì)算機(jī)視覺 2021-08-29

 寫在前面

在本文中,作者解決的任務(wù)是基于文本的實(shí)例分割(referring segmentation,RES)。在這個(gè)任務(wù)中,作為query的文本通常描述了實(shí)例之間的關(guān)系,模型需要根據(jù)這些關(guān)系來定位出描述的實(shí)例。要在圖像中的所有實(shí)例中找到一個(gè)目標(biāo)實(shí)例,模型必須對整個(gè)圖像有一個(gè)全面的理解。

為了實(shí)現(xiàn)這一點(diǎn),作者將RES重新定義為一個(gè)Attention問題:在圖像中找到作為query的文本最受關(guān)注的區(qū)域。作者引入了Transformer和Multi-head Self-Attention,構(gòu)建了一個(gè)具有編碼器-解碼器注意機(jī)制架構(gòu)的網(wǎng)絡(luò),用語言表達(dá)式“查詢”給定的圖像。
此外,作者還提出了一個(gè)查詢生成模塊(Query Generation Module) ,它能夠產(chǎn)生多組具有不同注意權(quán)重的查詢,代表了對語言表達(dá)式的多樣性理解。同時(shí),為了從這些多樣性理解找到最佳的表達(dá),作者進(jìn)一步提出了一個(gè)查詢平衡模塊(Query Balance Module) ,以自適應(yīng)地選擇這些查詢的輸出特征,以更好地生成Mask。


 1. 論文和代碼地址

Vision-Language Transformer and Query Generation for Referring Segmentation

論文:https:///abs/2108.05565

代碼:https://github.com/henghuiding/Vision-Language-Transformer


 2. Motivation

RES的目標(biāo)為,以自然語言作為查詢,來生成圖像中目標(biāo)實(shí)例的Mask。由于RES既涉及自然語言處理,又涉及計(jì)算機(jī)視覺,因此它也是最基本的多模態(tài)任務(wù)之一。

在RES任務(wù)中,圖片中對象關(guān)聯(lián)方式復(fù)雜,而查詢表達(dá)式(文本)經(jīng)常通過描述與其他對象的關(guān)系來表示目標(biāo)對象,這使得模型需要對圖像和語言表達(dá)式的整體理解。另一個(gè)挑戰(zhàn)是由于圖像的多樣性以及語言的不受限制的表達(dá),造成了數(shù)據(jù)高度的隨機(jī)性。
首先,為了解決給定圖像和語言中復(fù)雜相關(guān)性的挑戰(zhàn),作者通過構(gòu)建具有全局操作的網(wǎng)絡(luò)來增強(qiáng)對多模態(tài)特征的整體理解,建模了所有元素(如pixel-pixel, word-word, pixel-word)之間的直接交互。目前的RES任務(wù)大多采用FCN結(jié)構(gòu),它們通常對融合的視覺語言特征執(zhí)行卷積操作,以生成目標(biāo)Mask。
然而,卷積操作中的長期依賴關(guān)系建模是間接的,因?yàn)榫矸e的大感受野通過是通過幾個(gè)小感受野的卷積堆疊而成的。這種機(jī)制導(dǎo)致像素/單詞之間的信息交互效率低下,因此不利于RES模型來理解圖像的全局上下文。
近年來,注意機(jī)制在交互方面的優(yōu)勢逐漸顯現(xiàn),有助于模型捕獲全局語義信息。一些RES工作也使用注意機(jī)制來緩解長期依賴問題。然而,它們中的大多數(shù)只使用注意機(jī)制作為基于FCN的輔助模塊,這限制了它們建模全局上下文的能力。在本文中,作者采用了Transformer結(jié)構(gòu)。

作者使用視覺引導(dǎo)從語言特征中生成一組查詢向量,并使用這些向量來“查詢”給定的圖像,并從響應(yīng)中生成分割mask,如上圖所示。這種基于注意力的框架在計(jì)算的每個(gè)階段實(shí)現(xiàn)多模態(tài)特征之間的全局操作,使網(wǎng)絡(luò)能夠更好地建模視覺和語言信息的全局上下文。
其次,為了處理由圖像的多樣性和語言的無約束表達(dá)所引起的隨機(jī)性,作者結(jié)合視覺特征,以不同的方式來理解語言表達(dá)。在以往的方法中,經(jīng)常使用語言的Self-Attention來提取信息 。
對于這些方法,它們的語言理解僅來自語言表達(dá)本身,而不與圖像交互,因此它們無法區(qū)分哪些強(qiáng)調(diào)更合適、更有效,更適合特定的圖像。因此,他們檢測到的重點(diǎn)可能是不準(zhǔn)確的或低效的。
另一方面,在以前的工作中,對Transformer Decoder的查詢通常是一組固定的學(xué)習(xí)向量,每個(gè)向量都用于預(yù)測一個(gè)對象。如果在Decoder中使用固定查詢,必須有一個(gè)假設(shè),即輸入圖像中的對象是在一些統(tǒng)計(jì)規(guī)則下分布的 ,這與RES的隨機(jī)性不匹配。
為了解決這些問題,作者提出了一個(gè)查詢生成模塊(QGM),基于該語言和相應(yīng)的視覺特征生成多個(gè)不同的查詢向量。通過所提出的QGM,提升了文本和圖像理解的多樣性,增強(qiáng)了網(wǎng)絡(luò)在處理高度隨機(jī)輸入方面的魯棒性。
同時(shí),為了確保生成的查詢向量有效,并找到更適合對圖像和語言的理解方法,作者進(jìn)一步提出了一個(gè)查詢平衡模塊(QBM) 來自適應(yīng)地選擇這些查詢的輸出特征,以更好地生成Mask。


 3. 方法

模型的整體結(jié)構(gòu)圖上圖所示。模型首先輸入圖片和文本進(jìn)行分別編碼,映射到特征空間 。然后語言和視覺特征通過查詢生成模塊(QGM)來處理產(chǎn)生一系列語言查詢向量 ,代表了關(guān)于圖像和文本的不同理解。
同時(shí),視覺特征被發(fā)送到Transformer Encoder,以生成一組內(nèi)存特征 。從QGM獲得的查詢向量用于“查詢”內(nèi)存特征 ,然后由查詢平衡模塊(QBM)選擇來自解碼器的結(jié)果響應(yīng) 。最后,網(wǎng)絡(luò)為目標(biāo)對象輸出一個(gè)Mask 。

3.1. Query Generation Module

在大多數(shù)以前的Vision Transformer中,對Transformer解碼器的查詢通常是一組固定的學(xué)習(xí)向量,每個(gè)向量用于預(yù)測一個(gè)對象,并有其自己的操作模式,例如,專門處理特定類型或位于特定區(qū)域的對象。在這些使用固定查詢的工作中,必須有一個(gè)假設(shè),即輸入圖像中的對象分布在一些統(tǒng)計(jì)規(guī)則下。

對于RES任務(wù),由語言定義的對象可能是圖片中的任意一個(gè)物體。由于圖像和語言表達(dá)式都是不受約束的,因此目標(biāo)對象屬性的隨機(jī)性明顯很高。因此,固定的查詢向量不足以表示目標(biāo)對象的屬性。
為了提取關(guān)鍵信息并解決參考分割中的高隨機(jī)性,作者提出了一個(gè)查詢生成模塊,利用圖像信息根據(jù)輸入圖像和語言表達(dá)式自適應(yīng)地在線生成查詢向量,如上圖所示。為了讓網(wǎng)絡(luò)學(xué)習(xí)信息的不同方面,并增強(qiáng)查詢的魯棒性,盡管只有一個(gè)目標(biāo)實(shí)例,模型也會生成多個(gè)查詢。
查詢生成模塊以語言特征和原始視覺特性作為輸入。在中,第i個(gè)向量是單詞的特征向量,它是輸入語言表達(dá)式中的第i個(gè)詞。該模塊旨在輸出個(gè)查詢向量,每個(gè)查詢向量都是在視覺信息引導(dǎo)下具有不同注意權(quán)值的語言特征(也就是視覺特征作為query, 語言 作為key、value )。

視覺特征的預(yù)處理如上圖所示,作者將視覺特征的特征通道維度通過三個(gè)卷積層,得到通道維度為的特征映射,它們中的每一個(gè)維度都將參與一個(gè)查詢向量的生成。將特征的空間維度flatten成一維的特征:
對于一種語言的表達(dá)式,不同單詞的重要性是不同的。以前的一些方法通過測量每個(gè)單詞的重要性來解決這個(gè)問題。大多數(shù)工作通過語言的自注意來獲得權(quán)重,它不利用圖像中的信息,只輸出一組權(quán)重。但是,同一個(gè)句子可能有不同的理解視角和強(qiáng)調(diào),最合適和最有效的強(qiáng)調(diào)只能在圖像的幫助下知道。
如上圖所示,用同一句話對于定位出紅色的圈圈,對于(a)來說,是'left'單詞比較重要,對于(b)來說,是'large'單詞比較重要。因此,在查詢生成模塊中,作者從合并圖像之后的多個(gè)方面來理解語言表達(dá)式,然后從語言中形成查詢。不同的查詢強(qiáng)調(diào)不同的單詞,然后通過查詢平衡模塊找到并增強(qiáng)更合適的注意權(quán)重。
為此,作者通過結(jié)合視覺特征F_{vq}F_t$的注意權(quán)重。計(jì)算方式和Self-Attention相似,第i個(gè)單詞的第n個(gè)attention weight,可以通過視覺特征的第n個(gè)通道和語言特征的第i個(gè)單詞,線性映射之后點(diǎn)乘得到:
對于某一個(gè)查詢,它由一組針對不同單詞的注意權(quán)值組成,不同的查詢可能涉及到語言表達(dá)式的不同部分。個(gè)不同的查詢向量關(guān)注于語言表達(dá)式的不同理解方式。
然后,得到的attention map乘到語言特征上:
每個(gè)都是由視覺信息引導(dǎo)的語言特征向量,并作為Transformer解碼器的一個(gè)查詢向量。從數(shù)學(xué)上講,每個(gè)查詢都是語言表達(dá)式中不同單詞特征的加權(quán)和,因此它仍然是作為一個(gè)語言特性的屬性,可以用于查詢圖像。

3.2. Query Balance Module

從查詢生成模塊中可以得到了個(gè)不同的查詢向量。每個(gè)查詢表示對輸入語言表達(dá)式的特定理解。正如前面所討論的,輸入圖像和語言表達(dá)式都具有很高的隨機(jī)性。因此,需要自適應(yīng)地選擇更好的理解方式,讓網(wǎng)絡(luò)專注于更合理和更合適的理解方式
另一方面,在Transformer解碼器存在多個(gè)查詢向量中,但最終只需要一個(gè)mask輸出,因此需要平衡不同查詢對最終輸出的影響。因此,作者提出了一個(gè)查詢平衡模塊來自適應(yīng)地分配每個(gè)查詢向量一個(gè)置信度量,該置信度反映了它與預(yù)測和圖像上下文的匹配程度。結(jié)構(gòu)如上圖所示。
查詢平衡模塊從查詢生成模塊中獲取查詢向量,并從Transformer解碼器中獲取響應(yīng),它與的大小相同。在查詢平衡模塊中,查詢及其相應(yīng)的響應(yīng)首先concat在一起。
然后,由兩個(gè)連續(xù)的線性層生成一組大小為的查詢置信級別。每個(gè)標(biāo)量顯示了查詢的預(yù)測上下文,并控制了其響應(yīng)對Mask解碼的影響。第二個(gè)線性層后使用Sigmoid作為激活函數(shù)來控制輸出范圍。
每個(gè)響應(yīng)乘以相應(yīng)的查詢置信度,來獲得最終選擇之后的Decoder結(jié)果(其實(shí)這里做的就是一步加權(quán)求和的工作,用Query Confidence對Transformer Output進(jìn)行加權(quán)求和 )。

3.3. Network Architecture

Encoding

由于Transformer結(jié)構(gòu)只接受序列輸入,因此在輸入原始圖像和語言之前,必須將其轉(zhuǎn)換為特征空間。對于視覺特征,作者使用CNN主干網(wǎng)進(jìn)行圖像編碼。將主干網(wǎng)絡(luò)中最后三層的特征作為編碼器的輸入。通過將三組特征映射調(diào)整為相同的大小,并將它們匯總在一起,就得到了原始視覺特征

對于語言特征,作者首先使用一個(gè)查找表將每個(gè)單詞轉(zhuǎn)換為單詞embedding,然后使用一個(gè)RNN模塊將單詞embedding轉(zhuǎn)換為與視覺特征相同的通道,從而得到一組語言特征。然后將作為視覺和語言發(fā)送到查詢生成模塊。同時(shí)將視覺特征flatten之后輸入到Transformer Encoder之中。

Transformer Module

作者使用一個(gè)完整但較淺的Transformer來應(yīng)用對輸入特征的attention操作。該網(wǎng)絡(luò)有一個(gè)Transformer編碼器和一個(gè)解碼器,每個(gè)編碼層都有兩層。每一層都有一個(gè)(編碼器)或兩個(gè)(解碼器)多頭注意力模塊和一個(gè)前饋網(wǎng)絡(luò)。

Transformer編碼器以視覺特征作為輸入,得到視覺信息特征。在發(fā)送到編碼器之前,作者在上添加了一個(gè)固定的位置編碼。然后將視覺特征和得到的query在Decoder中進(jìn)行信息的交互。

Mask Decoder Module

Mask Decoder由三個(gè)堆疊的3×3卷積層組成,用于解碼,然后是一個(gè)1×1卷積層,用于輸出最終的Mask。如果需要,上采樣層也插入到不同層之間,以控制輸出大小。


 4.實(shí)驗(yàn)

4.1. Ablation Study

Parameter Size

結(jié)果表明,基于注意力的模塊的參數(shù)大小僅大致相當(dāng)于7個(gè)卷積層,同時(shí)具有更優(yōu)越的性能。

Query Generation

作者將查詢生成模塊與其他生成查詢向量的方法進(jìn)行比較。結(jié)果表明,學(xué)習(xí)到的固定查詢向量不能像查詢生成模塊的在線生成的查詢那樣有效地表示目標(biāo)對象。

Query Number

當(dāng)查詢數(shù)大于8后,性能增益會減慢,因此作者在實(shí)驗(yàn)中選擇16作為默認(rèn)的查詢數(shù)。

4.2. Comparison with State-of-the-art

可以看出作者在不同數(shù)據(jù)集上都達(dá)到了SOTA的性能。

4.3. Visualization and Qualitative Results

上圖中展示了本文方法的示例輸出。

(a)作者從一個(gè)點(diǎn)的Transformer編碼器的第二層中提取一個(gè)attention map??梢钥吹?,來自一個(gè)實(shí)例的點(diǎn)關(guān)注整個(gè)圖像中的其他相關(guān)實(shí)例。(b)顯示了一些查詢向量,說明了查詢向量的多樣性。


 5. 總結(jié)

本文中,作者利用注意力網(wǎng)絡(luò)來緩解傳統(tǒng)卷積網(wǎng)絡(luò)中的全局信息交換問題,解決了RES的難題。作者將該任務(wù)重建為一個(gè)attention問題,并提出了一個(gè)利用Transformer來執(zhí)行attention操作的框架。

此外,作者提出了一個(gè)查詢生成模塊和一個(gè)查詢平衡模塊來生成給定句子的不同理解。該模型在三個(gè)的數(shù)據(jù)集上均優(yōu)于其他方法。

▊ 作者簡介

研究領(lǐng)域:FightingCV公眾號運(yùn)營者,研究方向?yàn)槎嗄B(tài)內(nèi)容理解,專注于解決視覺模態(tài)和語言模態(tài)相結(jié)合的任務(wù),促進(jìn)Vision-Language模型的實(shí)地應(yīng)用。

知乎/眾號:FightingCV



END,入群??備注:分割



    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    国产免费一区二区不卡| 国产在线一区二区三区不卡| 亚洲黑人精品一区二区欧美| 精品国模一区二区三区欧美| 国产女性精品一区二区三区| 千仞雪下面好爽好紧好湿全文| 熟女一区二区三区国产| 亚洲一区二区欧美在线| 国产在线视频好看不卡| 日韩欧美第一页在线观看| 亚洲精品欧美精品一区三区 | 一区二区日本一区二区欧美 | 在线视频免费看你懂的| 久久热麻豆国产精品视频 | 精品久久av一二三区| 91亚洲精品国产一区| 国产一级二级三级观看| 偷拍美女洗澡免费视频| 欧美精品久久男人的天堂| 精品欧美在线观看国产| 91福利视频日本免费看看| 青青操视频在线观看国产| 日韩一区二区三区有码| 日本高清加勒比免费在线| 黄片在线免费观看全集| 日本午夜免费啪视频在线| 国产一区二区三区免费福利| 国产精品香蕉在线的人| 国产欧美日韩精品一区二| 在线免费观看一二区视频 | 日系韩系还是欧美久久| 国产真人无遮挡免费视频一区| 精品少妇人妻av免费看| 国产亚州欧美一区二区| 东京热加勒比一区二区| 欧美日韩一级黄片免费观看| 黑人巨大精品欧美一区二区区| 国产精品伦一区二区三区四季| 国产精品一区二区高潮| 麻豆视频传媒入口在线看| 香蕉网尹人综合在线观看|