微軟亞洲研究院27篇論文入選AAAI 2019

昵稱16619343 2019-01-25

展開(kāi)全文

編者按：人工智能領(lǐng)域的國(guó)際頂級(jí)會(huì)議AAAI 2019將于1月27日至2月1日在美國(guó)夏威夷舉行。根據(jù)已經(jīng)公布的論文錄取結(jié)果，今年的大會(huì)錄取率創(chuàng)歷史新低，投稿數(shù)量高達(dá)7745篇，錄取的數(shù)量?jī)H有16%左右。但在被錄取的論文中，來(lái)自微軟亞洲研究院的卻有27篇之多，包括了機(jī)器學(xué)習(xí)、自然語(yǔ)言處理（NLP）、計(jì)算機(jī)視覺(jué)和圖形學(xué)等多個(gè)領(lǐng)域。本文將詳細(xì)介紹這三個(gè)領(lǐng)域中來(lái)自微軟亞洲研究院的那些硬核論文。

機(jī)器學(xué)習(xí)

非自回歸機(jī)器翻譯模型的兩種優(yōu)化新方式

2018年，非自回歸（Non-Autoregressive）機(jī)器翻譯模型引起了眾多研究人員的興趣。非自回歸模型打破了翻譯過(guò)程順序性，將原來(lái)自回歸機(jī)器翻譯的逐詞順序生成轉(zhuǎn)變?yōu)橐淮涡援a(chǎn)生所有目標(biāo)端單詞，極大地提升了機(jī)器翻譯速度。然而，隨著順序依賴關(guān)系的打破，非自回歸模型的翻譯準(zhǔn)確率卻遠(yuǎn)遠(yuǎn)不及自回歸機(jī)器翻譯模型；同時(shí)，漏翻譯和重復(fù)翻譯也將翻譯質(zhì)量大打折扣。微軟亞洲研究院分別通過(guò)以下兩篇論文提出了針對(duì)上述兩個(gè)問(wèn)題的解決方法。

代表論文：Non-Autoregressive Neural Machine Translation with Enhanced Decoder Input

論文鏈接：https:///abs/1812.09664

在該論文中，研究員提出了兩種方法來(lái)提升解碼器的輸入質(zhì)量，減少翻譯精度的損失。如下圖所示：第一種方法（Phrase-Table Lookup）直接利用詞表將源語(yǔ)言查表翻譯成目標(biāo)語(yǔ)言并輸入到解碼器，第二種方法（Embedding Mapping）通過(guò)詞級(jí)別的對(duì)抗學(xué)習(xí)以及句子級(jí)別的對(duì)齊信息，將源語(yǔ)言的詞向量對(duì)齊到目標(biāo)語(yǔ)言的詞向量，作為解碼器的輸入。

通過(guò)在WMT14 En-De/De-En、WMT16 En-Ro、IWSLT14 De-En一共4個(gè)翻譯語(yǔ)言上的實(shí)驗(yàn)，相比基線模型（NART），這種方法達(dá)到了3~5個(gè)BLEU 分的提升，相比先前最好的工作（IR-NAT）有1~5個(gè)BLEU分的提升。

該模型翻譯精度更加接近AT模型，在WMT16 En-Ro數(shù)據(jù)集上，相比AT模型（Transformer）僅有1個(gè)BLEU分的差距。在翻譯速度方面，相比AT模型（Transformer）最高有25倍的翻譯速度提升；相比NAT模型（LT、NART、IR-NAT）也有速度上的提升。

同時(shí)這兩種方法各有優(yōu)勢(shì)，Phrase-Table Lookup在數(shù)據(jù)質(zhì)量比較好的WMT14 De-En以及IWSLT De-En數(shù)據(jù)集上優(yōu)勢(shì)明顯，因?yàn)槟芑谟?xùn)練集得到高質(zhì)量的詞典，而在WMT14 En-De以及WMT16 En-Ro上，得到的詞典質(zhì)量較差，因此Embedding Mapping更能顯現(xiàn)出優(yōu)勢(shì)。

代表論文：Non-Autoregressive Machine Translation with Auxiliary Regularization

論文鏈接：https://taoqin./papers/nat.reg.AAAI2019.pdf

對(duì)于非自回歸模型的重復(fù)翻譯和漏翻譯的問(wèn)題，該論文提出了基于輔助約束（Auxiliary Regularization）的非自回歸翻譯模型，如下圖。

重復(fù)翻譯的產(chǎn)生代表解碼器端相鄰位置的隱層表示（Hidden Representation）有著極大的相似性，從而解碼產(chǎn)生同樣的翻譯單詞。為此，研究員提出了相似性約束（Similarity Regularization）來(lái)限制兩個(gè)相鄰位置的隱層表示向量之間的關(guān)系：

其中s_cos代表兩個(gè)向量之間的余弦距離。H_t代表解碼器第t個(gè)位置的隱層狀態(tài)向量，y_t代表第t個(gè)位置的目標(biāo)單詞的單詞嵌入（embedding）向量。L_sim的意義在于，如果相鄰兩個(gè)位置（t和t+1）的目標(biāo)單詞語(yǔ)義接近（s_cos?很大），那么h_t和h_(t+1)也應(yīng)該很接近，反之亦然。

對(duì)于漏翻譯，可以重建約束（Reconstruction Regularization），在非自回歸模型的頂部添加一個(gè)反方向的自回歸翻譯模型，進(jìn)而要求解碼器的隱層向量在該反方向的模型中重建源端句子。通過(guò)這一約束，強(qiáng)制要求非自回歸模型的翻譯含有所有信息以克服漏翻譯的問(wèn)題。

通過(guò)在多個(gè)數(shù)據(jù)集上與各個(gè)基線算法進(jìn)行了性能的對(duì)比，包括對(duì)于翻譯質(zhì)量和翻譯速度的衡量。NAT-REG算法不僅具有良好的性能，在翻譯速度（上圖最后兩列）也有了顯著的提升。通過(guò)這兩項(xiàng)約束項(xiàng)，非自回歸機(jī)器翻譯模型的重復(fù)翻譯和漏翻譯的現(xiàn)象得到了極大的緩解。

深度神經(jīng)網(wǎng)絡(luò)模型的泛化及對(duì)泛化誤差的刻畫(huà)

在機(jī)器學(xué)習(xí)領(lǐng)域，理解深度神經(jīng)網(wǎng)絡(luò)模型的泛化性質(zhì)以及刻畫(huà)其泛化誤差是一個(gè)熱點(diǎn)，論文“Capacity Control of ReLU Neural Networks by Basis-path Norm”論述了這一理論研究。

代表論文：Capacity Control of ReLU Neural Networks by Basis-path Norm

論文鏈接：https:///abs/1809.07122

ReLU神經(jīng)網(wǎng)絡(luò)具有正伸縮不變性，即一個(gè)隱節(jié)點(diǎn)的所有入邊乘以一個(gè)正常數(shù)c, 同時(shí)所有出邊除以一個(gè)正常數(shù)c, ReLU神經(jīng)網(wǎng)絡(luò)的輸出值不變。因此，一個(gè)恰當(dāng)?shù)呐c神經(jīng)網(wǎng)絡(luò)泛化性質(zhì)有關(guān)的度量，應(yīng)該也具有正伸縮不變性?；赗eLU神經(jīng)網(wǎng)絡(luò)的路徑的度量也滿足該性質(zhì)。

對(duì)于神經(jīng)網(wǎng)絡(luò)的路徑（path），將ReLU神經(jīng)網(wǎng)絡(luò)看做一個(gè)有向無(wú)環(huán)圖，一條路徑p即為輸入節(jié)點(diǎn)至輸出節(jié)點(diǎn)的一條通路，路徑的值v(p) 被定義為其所經(jīng)過(guò)的參數(shù)的乘積。那么ReLU神經(jīng)網(wǎng)絡(luò)的第k維輸出可以表示為：

其中P_(i→k)表示連接第i個(gè)輸入節(jié)以及第k個(gè)輸出節(jié)點(diǎn)的所有路徑的集合；a(p;x)取值為1或0，分別代表該路徑的值在經(jīng)過(guò)多層激活函數(shù)作用后是否流入輸出。

路徑p_(i,j)的值等于w_(1,i)?w_(2,j), 那么路徑之間相互關(guān)聯(lián)，例如v(p_(2,2) )=(v(p_(1,2) )?v(p_(2,1) ))/v(p_(1,1) ) 。

Path-norm被定義為所有路徑值的L2-范數(shù)，其被證明與ReLU神經(jīng)網(wǎng)絡(luò)的泛化能力緊密相關(guān)。然而，神經(jīng)網(wǎng)絡(luò)所有路徑值是相關(guān)聯(lián)的（如上圖），這會(huì)使得當(dāng)Path-norm作為約束加入優(yōu)化算法中時(shí)，無(wú)法求解出閉式的更新法則。有工作通過(guò)研究路徑值之間的關(guān)系，在所有路徑值中找到了一組互不相關(guān)的路徑，稱為基路徑，并且其余路徑均可通過(guò)基路徑的值進(jìn)行計(jì)算。

這一論文提出了一個(gè)基于基路徑的度量。首先，基路徑可以分為兩類，一類的值在表達(dá)非基路徑時(shí)出現(xiàn)在分子，第二類的值在表達(dá)非基路徑時(shí)出現(xiàn)在分母。于是，出現(xiàn)在分母的基路徑值不能過(guò)大或過(guò)小。因此，限制前者的值靠近0，后者的值靠近1，受此啟發(fā)，研究員提出了一個(gè)僅基于基路徑的度量：BP-norm。

定義1: (BP-norm) 對(duì)于任意的路徑值向量

BP-norm定義如下：

其中

根據(jù)BP-norm, 可得如下泛化誤差的上界。

定理 1: 至少以概率 1-δ, 泛化誤差 (測(cè)試誤差 – 訓(xùn)練誤差) of hypothesis space F can be upper bounded as

其中 Φ(u;d,H,L)=(e^2u+d?u^2 ) (1+H?u^2?e^2u )^(L-2) (4H)^L, d表示輸入維度, H表示網(wǎng)絡(luò)的寬度, L表示網(wǎng)絡(luò)的深度。

將BP-norm作為正則項(xiàng)加入損失函數(shù)，并用SGD和G-SGD來(lái)優(yōu)化BP正則損失函數(shù)。下表展示了算法在圖像分類任務(wù)上的訓(xùn)練誤差、測(cè)試誤差和泛化誤差，其中Δ反映了泛化誤差的大小。結(jié)果表明BP正則算法可以有效地降低模型復(fù)雜度，從而取得更小的泛化誤差。

自然語(yǔ)言處理

AI也可以自動(dòng)發(fā)彈幕了

彈幕，已經(jīng)成為人們看視頻的一種習(xí)慣；不同用戶之間的彈幕往往會(huì)形成上下文回復(fù)關(guān)系，更讓彈幕成為一種新的社交模式?；谶@一現(xiàn)象，微軟亞洲研究院設(shè)計(jì)了一款名為L(zhǎng)iveBot的自動(dòng)彈幕生成系統(tǒng)。在這一系統(tǒng)中需要克服兩個(gè)難點(diǎn)：一是要充分理解視頻內(nèi)容，根據(jù)其他用戶的評(píng)論彈幕生成適當(dāng)?shù)膬?nèi)容；二是要在合適的時(shí)間點(diǎn)顯示在對(duì)應(yīng)的視頻幀之上。

代表論文：LiveBot: Generating Live Video Comments Based on Visual and Textual Contexts

論文鏈接：http://export./pdf/1809.04938

該論文論述了兩種深度神經(jīng)網(wǎng)絡(luò)模型，基于視頻和文本的上下文信息來(lái)生成彈幕，并構(gòu)建了一個(gè)包含2,361個(gè)視頻和895,929條彈幕的大規(guī)模訓(xùn)練數(shù)據(jù)集來(lái)驗(yàn)證模型的有效性。

實(shí)驗(yàn)結(jié)果表明，LiveBot能夠準(zhǔn)確地學(xué)習(xí)到真實(shí)用戶在觀看視頻時(shí)進(jìn)行彈幕評(píng)論的行為特點(diǎn)，有效地進(jìn)行了視頻內(nèi)容的理解和用戶評(píng)論的交互，同時(shí)在客觀評(píng)價(jià)指標(biāo)上也取得優(yōu)異的成績(jī)。

無(wú)監(jiān)督機(jī)器翻譯的最新性能提升

最近一年，無(wú)監(jiān)督機(jī)器翻譯逐漸成為機(jī)器翻譯界的一個(gè)研究熱點(diǎn)。在無(wú)監(jiān)督場(chǎng)景下，神經(jīng)機(jī)器翻譯模型主要通過(guò)聯(lián)合訓(xùn)練（joint training）或交替回譯（iterative back-translation）進(jìn)行逐步迭代。但是由于缺乏有效的監(jiān)督信號(hào)，回譯得到的偽訓(xùn)練數(shù)據(jù)中會(huì)包含大量的噪音，這些噪音在迭代的過(guò)程中，會(huì)被神經(jīng)機(jī)器翻譯模型強(qiáng)大的模式匹配能力放大，從而損害模型最終的翻譯性能。

代表論文：Unsupervised Neural Machine Translation with SMT as Posterior Regularization

論文鏈接：http://export./pdf/1901.04112

該論文采用了后驗(yàn)正則（Posterior Regularization）的方式將SMT（統(tǒng)計(jì)機(jī)器翻譯）引入到無(wú)監(jiān)督NMT的訓(xùn)練過(guò)程中，并通過(guò)EM過(guò)程交替優(yōu)化SMT和NMT模型，使得無(wú)監(jiān)督NMT迭代過(guò)程中的噪音能夠被有效去除，同時(shí)NMT模型也彌補(bǔ)了SMT模型在句子流暢性方面的不足。

該方法的整體結(jié)構(gòu)大致分為兩部分，如上圖所示。左邊是模型初始化，通過(guò)單語(yǔ)數(shù)據(jù)訓(xùn)練出兩種語(yǔ)言（如英語(yǔ)和法語(yǔ)）的詞向量（word embedding），之后通過(guò)無(wú)監(jiān)督的訓(xùn)練方法得到cross-lingual embedding，并通過(guò)計(jì)算其余弦相似度得到初始的詞到詞的翻譯概率表（word translation table）。這個(gè)翻譯概率表連同由單語(yǔ)訓(xùn)練得到的語(yǔ)言模型（language model）作為初始的SMT模型的特性，從而完成了模型初始化。

上圖右邊是方法的主體部分，初始的SMT模型翻譯一批單語(yǔ)數(shù)據(jù)，構(gòu)成的偽數(shù)據(jù)作為初始NMT模型的訓(xùn)練數(shù)據(jù)。在訓(xùn)練得到初始的NMT模型后，將繼續(xù)進(jìn)行交替回譯（右下，iterative back-translation NMT），并用收斂的NMT模型翻譯出一批新的偽數(shù)據(jù)。此時(shí)產(chǎn)生的偽數(shù)據(jù)含有大量的噪音，可以通過(guò)這批偽數(shù)據(jù)訓(xùn)練新的SMT模型（右上，SMT as PR）。SMT模型通過(guò)構(gòu)造質(zhì)量更高的基于片段的翻譯概率表（phrase translation table），將偽數(shù)據(jù)中的噪音過(guò)濾掉，并通過(guò)翻譯新的一批單語(yǔ)數(shù)據(jù)，得到互譯性更好的一批偽數(shù)據(jù)。這一批偽數(shù)據(jù)便可以用于調(diào)整（fine-tune）之前的NMT模型，之后NMT模型再次進(jìn)行交替回譯。我們將訓(xùn)練NMT和SMT的過(guò)程集成在一個(gè)EM訓(xùn)練框架中，兩個(gè)過(guò)程進(jìn)行交互迭代直到最終收斂。

在英法(en-fr)和英德（en-de）語(yǔ)言對(duì)上進(jìn)行的實(shí)驗(yàn)中，這一方法明顯優(yōu)于以前的方法，顯著提高了無(wú)監(jiān)督機(jī)器翻譯的性能。

新型TTS：結(jié)合了Tacotron2和Transformer的優(yōu)點(diǎn)

人機(jī)交互中有項(xiàng)重要的任務(wù)，即文本合成語(yǔ)音（Text to speech，TTS），以達(dá)到合成清晰自然且接近真人錄音的音頻。

在過(guò)去的幾十年里，基于拼接的模型（concatenative model）和基于參數(shù)的模型（parametric model）是TTS領(lǐng)域的兩大主流；然而，兩者都有著非常復(fù)雜的流水線，而且挑選有效的聲學(xué)特征通常是非常耗時(shí)且與語(yǔ)言密切相關(guān)的。除此之外，這兩種方法合成的音頻不流暢，而且在韻律和發(fā)音上與真人錄音都有較大的差距。

隨著神經(jīng)網(wǎng)絡(luò)的興起，一些端到端（end to end）的TTS模型逐漸出現(xiàn)，如Tacotron和Tacotron2，使得合成的音頻質(zhì)量有了非常大的進(jìn)步，甚至在某些特定的數(shù)據(jù)集上與真人錄音不相上下。這種端到端的TTS模型主要有兩部分：編碼器和解碼器。編碼器負(fù)責(zé)將文本映射到語(yǔ)義空間（semantic space）中，生成一個(gè)隱狀態(tài)序列；接著由解碼器（通常是一個(gè)基于RNN的神經(jīng)網(wǎng)絡(luò)）配合注意力機(jī)制（attention mechanism）將這個(gè)隱狀態(tài)序列解碼成頻譜。

然而，在RNN中，每一個(gè)隱狀態(tài)的生成都要基于之前所有的隱狀態(tài)以及當(dāng)前時(shí)刻的輸入；因此模型只能串行地進(jìn)行計(jì)算，限制了網(wǎng)絡(luò)的并行計(jì)算能力，從而降低了運(yùn)算效率。并且RNN難以對(duì)距離較遠(yuǎn)的兩個(gè)輸入建立直接的依賴關(guān)系。而最近流行的自關(guān)注網(wǎng)絡(luò)（Transformer）在訓(xùn)練中可以實(shí)現(xiàn)并行計(jì)算，而且有能力在輸入序列的任意兩個(gè)token之間建立起直接的依賴。

代表論文：Neural Speech Synthesis with Transformer Network

論文鏈接：https:///abs/1809.08895

該論文中結(jié)合了Tacotron2和Transformer的優(yōu)點(diǎn)，提出了新的TTS模型：通過(guò)使用多頭注意力(multi-head attention)機(jī)制代替了原本Tacotron2中的RNN以及編碼器和解碼器之間的attention。這樣，一方面通過(guò)自注意力(self attention) 機(jī)制，網(wǎng)絡(luò)可以并行計(jì)算，從而使訓(xùn)練效率達(dá)到了原來(lái)的4倍；同時(shí)，任意兩個(gè)輸入之間可以建立起直接的長(zhǎng)距離依賴。另一方面，多頭的注意力機(jī)制可以從多個(gè)角度對(duì)輸入信息進(jìn)行整合。

如上圖，在Tacotron2的基礎(chǔ)上，使用Transformer的encoder和decoder分別代替原有的雙向RNN編碼器和雙層RNN解碼器；另一方面原始的注意力機(jī)制被多頭注意力機(jī)制取代從而能更好地對(duì)輸入信息進(jìn)行特征提??；除此之外我們還對(duì)其它的網(wǎng)絡(luò)結(jié)構(gòu)，如positional encoding進(jìn)行了調(diào)整。在該模型中，由于有自注意力機(jī)制的存在，可以更好地建立長(zhǎng)距離依賴，從而能對(duì)包括韻律在內(nèi)的音頻特征進(jìn)行更好的建模。

在MOS測(cè)試（滿分5分）中， Tacotron2和Transformer TTS model均能夠得到很接近真實(shí)的人聲錄音（即ground truth）的得分。在CMOS測(cè)試中（成對(duì)比較，得分[-3,3]分），我們的方法相比Tacotron2能夠得到顯著的性能提升。

另一方面，對(duì)比Transformer TTS model和Tacotron2合成的mel譜，可以發(fā)現(xiàn)，在低頻部分二者相近，都表現(xiàn)出了很強(qiáng)的能力；在高頻部分，Transformer TTS model能更好地還原頻譜的紋理，從而使合成的音頻有更高的質(zhì)量。

基于改寫(xiě)的復(fù)述生成模型更高效

代表論文：Dictionary-Guided Editing Networks for Paraphrase Generation

論文鏈接：https:///pdf/1806.08077.pdf

在自然語(yǔ)言處理中，句子復(fù)述應(yīng)用很廣泛，例如被應(yīng)用在信息檢索、自動(dòng)文摘、句子翻譯等任務(wù)。句子復(fù)述（Paraphrase）是指換一種方式表達(dá)原句，同時(shí)要與原句意思相同。人在完成句子復(fù)述的時(shí)候，往往會(huì)使用同義詞替換句子中的一些詞語(yǔ)，然后對(duì)替換后的句子進(jìn)行簡(jiǎn)單的修改。

以此為出發(fā)點(diǎn)，該論文提出了基于改寫(xiě)網(wǎng)絡(luò)的復(fù)述生成模型。復(fù)述生成模型首先使用原句進(jìn)行檢索，得到一組詞語(yǔ)級(jí)別的復(fù)述對(duì)；然后將檢索得到的復(fù)述對(duì)進(jìn)行編碼，得到一組固定長(zhǎng)度的向量；最后基于改寫(xiě)網(wǎng)絡(luò)完成句子的復(fù)述。

上圖所示，復(fù)述生成模型建立在序列到序列模型（Seq2Seq）的框架下，進(jìn)行解碼的過(guò)程中，采用了注意力機(jī)制（attention mechanism），對(duì)檢索得到的復(fù)述對(duì)進(jìn)行權(quán)重組合，將加權(quán)之后的結(jié)果用于解碼器。如模型在解碼到overcome的時(shí)候，會(huì)更加側(cè)重于使用（overcome，get rid of）這樣的復(fù)述對(duì)。通過(guò)注意力機(jī)制讓模型自己學(xué)習(xí)如何進(jìn)行改寫(xiě)，在哪些地方需要進(jìn)行替換和調(diào)整。

通過(guò)在MSCOCO和Quora兩個(gè)公開(kāi)數(shù)據(jù)集上實(shí)驗(yàn)，如上圖所示，基于改寫(xiě)網(wǎng)絡(luò)的復(fù)述生成模型在MSCOCO數(shù)據(jù)集上取得了最好的實(shí)驗(yàn)結(jié)果，在Quora數(shù)據(jù)集上，在貪婪搜索的條件下取得了最好的結(jié)果。

另外，通過(guò)分析實(shí)驗(yàn)結(jié)果顯示，如上圖，在生成的復(fù)述中，機(jī)器會(huì)基于檢索得到的復(fù)述對(duì)進(jìn)行改寫(xiě)和替換，采用這種方式既保證了復(fù)述結(jié)果與原句的區(qū)別，同時(shí)又不會(huì)改變?cè)狻?/p>

計(jì)算機(jī)視覺(jué)

MonoGRNet：?jiǎn)螐垐D像估測(cè)物體三維位置

在圖像中，傳統(tǒng)的物體定位或檢測(cè)估計(jì)二維邊界框，可以框住屬于圖像平面上物體的可見(jiàn)部分。但是，這種檢測(cè)結(jié)果無(wú)法在真實(shí)的3D世界中提供場(chǎng)景理解的幾何感知，這對(duì)很多應(yīng)用的意義并不大。

代表論文：MonoGRNet：A Geometric Reasoning Network for Monocular 3D Object Localization

論文鏈接：https:///abs/1811.10247

該論文提出了使用MonoGRNet，從單目RGB圖像中通過(guò)幾何推斷，在已觀察到的二維投影平面和在未觀察到的深度維度中定位物體非模態(tài)三維邊界框（Amodal Bounding Box, ABBox-3D），即實(shí)現(xiàn)了由二維視頻確定物體的三維位置。

MonoGRNet的主要思想是將3D定位問(wèn)題解耦為幾個(gè)漸進(jìn)式子任務(wù)，這些子任務(wù)可以使用單目RGB數(shù)據(jù)來(lái)解決。網(wǎng)絡(luò)從感知2D圖像平面中的語(yǔ)義開(kāi)始，然后在3D空間中執(zhí)行幾何推理。這里需要克服一個(gè)具有挑戰(zhàn)性的問(wèn)題是，在不計(jì)算像素級(jí)深度圖的情況下準(zhǔn)確估計(jì)實(shí)例3D中心的深度。該論文提出了一種新的個(gè)體級(jí)深度估計(jì)（Instance Depth Estimation, IDE）模塊，該模塊探索深度特征映射的大型感知域以捕獲粗略的實(shí)例深度，然后聯(lián)合更高分辨率的早期特征以優(yōu)化IDE。

為了同時(shí)檢索水平和垂直位置，首先要預(yù)測(cè)3D中心的2D投影。結(jié)合IDE，然后將投影中心拉伸到真實(shí)3D空間以獲得最終的3D對(duì)象位置。所有組件都集成到端到端網(wǎng)絡(luò)MonoGRNet中，其中有三個(gè)3D推理分支，如下圖。最后通過(guò)聯(lián)合的幾何損失函數(shù)進(jìn)行優(yōu)化，最大限度地減少3D邊界在整體背景下的邊界框的差異。

MonoGRNet由四個(gè)子網(wǎng)絡(luò)組成，用于2D檢測(cè)（棕色），個(gè)體深度估計(jì)（綠色），3D位置估計(jì)（藍(lán)色）和局部角落回歸（黃色）。在檢測(cè)到的2D邊界框的引導(dǎo)下，網(wǎng)絡(luò)首先估計(jì)3D框中心的深度和2D投影以獲得全局3D位置，然后在本地環(huán)境中回歸各個(gè)角坐標(biāo)。最終的3D邊界框基于估計(jì)的3D位置和局部角落在全局環(huán)境中以端到端的方式進(jìn)行優(yōu)化。

根據(jù)對(duì)具有挑戰(zhàn)性的KITTI數(shù)據(jù)集的實(shí)驗(yàn)表明，該網(wǎng)絡(luò)在3D物體定位方面優(yōu)于最先進(jìn)的單眼方法，且推理時(shí)間最短。

3D檢測(cè)性能，KITTI驗(yàn)證集上的3D邊界框的平均精度和每張圖像的推理時(shí)間。注意不比較基于Stereo的方法3DOP，列出以供參考。

MVPNet：?jiǎn)螐垐D像重建物體三維模型

在相同的圖像中，由于形狀、紋理，照明和相機(jī)配置的不同，若想從單幅RGB圖像重建三維物體，這是一個(gè)強(qiáng)不適定的問(wèn)題。但深度學(xué)習(xí)模型讓我們重新定義這個(gè)任務(wù)，即從一個(gè)特定的分布生成實(shí)際樣本。深度卷積神經(jīng)網(wǎng)絡(luò)得益于規(guī)則的表達(dá)形式、數(shù)據(jù)采樣密度高、權(quán)重共享等等。

三角網(wǎng)格（triangular mesh）是表面（surface）的主要表示形式，但它的不規(guī)則結(jié)構(gòu)不易編碼和解碼；大多數(shù)現(xiàn)存的深網(wǎng)使用三維體素網(wǎng)格（3D volumetric grid），但是稠密采樣計(jì)算復(fù)雜性高；最近的一些方法提倡無(wú)序點(diǎn)云表示，但無(wú)序?qū)傩孕枰~外的計(jì)算才能為點(diǎn)對(duì)點(diǎn)建立一一對(duì)應(yīng)的映射，這各高代價(jià)的映射算法，通常會(huì)使用較少的點(diǎn)來(lái)表示，從而產(chǎn)生稀疏的表面。

代表論文：MVPNet: Multi-View Point Regression Networks for 3D Object Reconstruction from A Single Image

論文鏈接：https:///abs/1811.09410

為了描繪稠密的表面，該論文引入了一種有效的基于多視圖（multi-view）的表現(xiàn)形式，通過(guò)用多個(gè)視點(diǎn)可見(jiàn)的稠密點(diǎn)云并集來(lái)表示表面，分配視點(diǎn)時(shí)覆蓋盡量多的表面。

（a）MVPC表示。1-VPC中的每個(gè)像素都存儲(chǔ)來(lái)自該像素的反投影表面點(diǎn)（x，y，z）及其可見(jiàn)性v 。存儲(chǔ)的三維點(diǎn)根據(jù)圖像平面上的二維網(wǎng)格進(jìn)行三角化，此圖顯示網(wǎng)格三角形的法線以指示表面的方向。（b）給定RGB圖像，MVPNet生成一組1-VPC，它們的聯(lián)合形成了預(yù)測(cè)的MVPC。幾何損失函數(shù)用來(lái)測(cè)量預(yù)測(cè)和真實(shí)的MVPC。

上圖描繪了多視圖點(diǎn)云（MVPC）。每個(gè)點(diǎn)云存儲(chǔ)在嵌入視圖像平面中的二維網(wǎng)格中。單視點(diǎn)云（1-VPC）看起來(lái)像深度圖，但每個(gè)像素存儲(chǔ)三維坐標(biāo)和可見(jiàn)性信息，而不是來(lái)自該像素的反投影表面點(diǎn)的深度。反投影變換提供了1-VPC中具有相等攝像機(jī)參數(shù)的點(diǎn)集的一對(duì)一映射。同時(shí)，該論文從二維網(wǎng)格引入三維點(diǎn)的局部連通性，促使基于這些反投影點(diǎn)形成三角形網(wǎng)格表面。至此，表面重建問(wèn)題被轉(zhuǎn)化為回歸存儲(chǔ)在MVPC中的三維坐標(biāo)和可見(jiàn)性信息。

通過(guò)使用編碼器-解碼器網(wǎng)絡(luò)作為條件采樣器來(lái)生成MVPC，上圖（b）所示。編碼器提取圖像特征并分別將它們與不同的視點(diǎn)特征組合。解碼器由多個(gè)權(quán)重共享分支組成，每個(gè)分支生成一個(gè)視圖相關(guān)的點(diǎn)云。所有1-VPC的聯(lián)合構(gòu)成了最終的MVPC，如下圖。

給定輸入圖像I，由編碼器和解碼器組成的MVPNet對(duì)N個(gè)視點(diǎn)c _i的1-VPC進(jìn)行回歸。 N個(gè)特征（z，c_i）被饋送到解碼器的N個(gè)分支中，其中分支共享權(quán)重。

這里提出了一種新穎的幾何損失函數(shù)，如下圖，來(lái)衡量真實(shí)三維表面與二維平面相比的差異。與先前基于視圖的方法不同，他們間接計(jì)算二維投影空間（即圖像平面）中的特征而且忽略了由于從三維到二維的降維而導(dǎo)致的信息損失，這里MVPC允許我們?cè)跇?gòu)造的三角形網(wǎng)格上作離散表面變化的積分，即直接計(jì)算了三維表面。幾何損失函數(shù)整合了三維體積變化，預(yù)測(cè)置信度和多視圖一致性，大大提高了三維重建的精確度。

損失函數(shù)（a）1-VPC的逐點(diǎn)距離（b）準(zhǔn)量三維體積差異（c）多視圖一致性

下圖展示了在公共數(shù)據(jù)集ShapeNet和真實(shí)圖像的結(jié)果，可見(jiàn)這個(gè)方法可以生成稠密的三維表面。另外，使用兩個(gè)學(xué)到的特征作線性差值后再用解碼器生成的三維重建模型，MVPNet學(xué)到的特征空間具有較好的表達(dá)性和連續(xù)性。

ShapeNet數(shù)據(jù)集結(jié)果比較

真實(shí)圖像三維重建結(jié)果

學(xué)習(xí)到的特征線性插值生成的三維重建結(jié)果

微軟亞洲研究院全部被接受論文列表如下：

Active Mini-Batch Sampling using Repulsive Point Processes
Balanced Sparsity for Efficient DNN Inference on GPU
Capacity Control of ReLU Neural Networks by Basis-path Norm
Deep Single-View 3D Object Reconstruction with Visual Hull Embedding
Detect or Track: Towards Cost-Effective Video Object Detection/Tracking
Dictionary-Guided Editing Networks for Paraphrase Generation
DRr-Net: Dynamic Re-read Network for Sentence Semantic Matching
Explainable Recommendation Through Attentive Multi-View Learning
FANDA: A Novel Approach to Perform Follow-up Query Analysis
Learning Basis Representation to Refine 3D Human Pose Estimations
Leveraging Web Semantic Knowledge in Word Representation Learning
LiveBot: Generating Live Video Comments Based on Visual and Textual Contexts
MonoGRNet：A Geometric Reasoning Network for Monocular 3D Object Localization
MVPNet: Multi-View Point Regression Networks for 3D Object Reconstruction from A Single Image
Neural Speech Synthesis with Transformer Network
Non-Autoregressive Machine Translation with Auxiliary Regularization
Non-Autoregressive Neural Machine Translation with Enhanced Decoder Input
Popularity Prediction on Online Articles with Deep Fusion of Temporal Process and Content Features
Read + Verify: Machine Reading Comprehension with Unanswerable Questions
Regularizing Neural Machine Translation byTarget-bidirectional Agreement
Response Generation by Context-aware Prototype Editing
Sentence-wise Smooth Regularization for Sequence to Sequence Learning
Session-based Recommendation with Graph Neural Network
TableSense: Mask R-CNN for Spreadsheet Table Detection
Tied Transformers: Neural Machine Translation with Shared Encoder and Decoder
Trust Region Evolution Strategies
Unsupervised Neural Machine Translation with SMT asPosterior Regularization

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：昵稱16619343 > 《科學(xué)技術(shù)》

舉報(bào)/認(rèn)領(lǐng)