NeurIPS 2019中的Transformers

西北望msm66g9f 2020-01-20

展開全文

作者：Pavel Gladkov
編譯：ronghuaiyang
來源：AI公園

導(dǎo)讀

NeurIPS 2019上和Transformer有關(guān)的論文的主要內(nèi)容解讀。

在我之前關(guān)于 BERT 在 EMNLP 2019 的報道之后，如果不在 NeurIPS 2019 年大會上簡要回顧一下關(guān)于 transformers 的論文，那將是一種犯罪。神經(jīng)信息處理系統(tǒng)研討會于 12 月 8 日至 14 日在溫哥華舉行。像往常一樣，有很多令人驚嘆的想法和先進的研究。以下是其中的一些。

ViLBERT：視覺和語言任務(wù)的預(yù)訓(xùn)練任務(wù)的視覺語言表示

http:///abs/1908.02265

提出了一種新的方法來學(xué)習(xí)與任務(wù)無關(guān)的圖像內(nèi)容和自然語言的聯(lián)合表示。

ViLBERT(Vision-and-Language BERT)由兩個并行的 BERT 風(fēng)格的模型組成，它們在圖像區(qū)域和文本段上運行。每個流是一系列 transformer 塊和新的 co-attentional transformer 層，它們被引入以實現(xiàn)模式之間的信息交換。每個圖像通過從一個預(yù)訓(xùn)練的目標檢測網(wǎng)絡(luò)(Faster R-CNN)中提取邊界框及其視覺特征作為一組區(qū)域的特征表示。

ViLBERT模型由兩個并行的視覺(綠色)和語言(紫色)處理流組成，它們通過新的共注意transformer層相互作用。

預(yù)訓(xùn)練有兩項任務(wù)：masked 多模態(tài)建模和多模態(tài)對齊預(yù)測。masked 多模態(tài)建模任務(wù)遵循標準 BERT 中的 masked 語言建模任務(wù) —— 掩蔽大約 15%的單詞和圖像區(qū)域作為輸入，并在給定剩余輸入的情況下對模式進行重構(gòu)。在多模態(tài)對齊任務(wù)中，模型提出了一個圖像 — 文本對，必須預(yù)測圖像和文本是否對齊，即文本是否描述圖像。

在許多已建立的視覺和語言任務(wù)中，ViLBERT 模型表現(xiàn)優(yōu)于最先進的模型：視覺問題回答、視覺常識推理、引用表達式和基于標題的圖像檢索。

將我們的ViLBERT模型的任務(wù)結(jié)果與現(xiàn)有的最先進和合理的結(jié)構(gòu)進行消融比較。

Ouroboros: 基于 Transformer 的語言模型的加速訓(xùn)練

http:///abs/1909.06695

毫無疑問，Transformers 在很多任務(wù)上都取得了巨大的成就，但是訓(xùn)練它們可能是一個漫長而昂貴的過程。解決這個問題的一種可能的方法是并行化。

當(dāng)模型太大而不能在單個設(shè)備中進行訓(xùn)練時，模型的并行化仍然是一個有待解決的問題。當(dāng)一個模型變得太大而不能適用于單個計算設(shè)備時，最簡單的解決方案是將模型層分布到多個設(shè)備上。

文章提出了一種新的模型并行算法來并行化基于 Transformers 的語言模型的訓(xùn)練。這種算法可以在不損失精度的情況下產(chǎn)生顯著的加速效果。

每個batch的計算時間的加速(在K個gpu上)

可視化和 BERT 幾何形狀的測量

http:///abs/1906.02715

本文試圖證明 transformer 具有一組語義和句法信息的中間表示。為了尋找句法信息，他們在注意力向量的頂部訓(xùn)練了線性模型。該模型必須預(yù)測兩個詞之間依賴關(guān)系的存在和類型。二分類預(yù)測的準確度為 85.8%，多分類預(yù)測的準確度為 71.9%。這個簡單線性預(yù)測的成功表明，句法信息被編碼在注意力向量中。

一個有序token對的模型范圍內(nèi)的注意力向量包含該token對在所有注意力頭和層中的標量注意力值。

第二部分是語義信息。很自然地，我們可以推測 transformer 捕捉了一個詞在一個特定句子中的特殊含義。

對于一個具有 n 種含義的給定單詞，他們制作一個最近鄰分類器，其中每個鄰居都是訓(xùn)練集中給定單詞含義的基于 BERT 的嵌入的質(zhì)心。為了對一個新單詞進行分類，他們會找到這些質(zhì)心中最近的一個，如果這個單詞在訓(xùn)練數(shù)據(jù)中沒有出現(xiàn)，則默認為最常用的詞義。簡單最近鄰分類器的 F1 得分為 71.1，高于目前的技術(shù)水平，其準確率在層間單調(diào)遞增。這是一個強烈的信號，即上下文嵌入表示了詞意信息。

詞義消歧任務(wù)的F1得分

新的位置編碼，使能樹型結(jié)構(gòu)的 transformers

https:///pdf?id=SJerEhR5Km

transformer 可以很好地完成順序建模任務(wù)。但是在某些情況下，使用純面向序列的方法可能會導(dǎo)致丟失有價值的結(jié)構(gòu)信息，例如，當(dāng)我們想要表示層次結(jié)構(gòu)時。這項工作為樹結(jié)構(gòu)數(shù)據(jù)引入了新的位置編碼。這可能會將 transformer 從自然語言解析樹擴展到到程序抽象語法樹中。

這種方法有兩種評估方法：合成翻譯任務(wù)和生成的 CoffeeScript 和 JavaScript 代碼之間的翻譯。實驗表明，在面向樹的任務(wù)中，采用這種編碼的模型的性能優(yōu)于序列轉(zhuǎn)換器。