NeurIPS 2019上和Transformer有關(guān)的論文的主要內(nèi)容解讀。 在我之前關(guān)于 BERT 在 EMNLP 2019 的報道之后,如果不在 NeurIPS 2019 年大會上簡要回顧一下關(guān)于 transformers 的論文,那將是一種犯罪。神經(jīng)信息處理系統(tǒng)研討會于 12 月 8 日至 14 日在溫哥華舉行。像往常一樣,有很多令人驚嘆的想法和先進的研究。以下是其中的一些。 ViLBERT:視覺和語言任務(wù)的預(yù)訓(xùn)練任務(wù)的視覺語言表示http:///abs/1908.02265 提出了一種新的方法來學(xué)習(xí)與任務(wù)無關(guān)的圖像內(nèi)容和自然語言的聯(lián)合表示。 ViLBERT(Vision-and-Language BERT)由兩個并行的 BERT 風(fēng)格的模型組成,它們在圖像區(qū)域和文本段上運行。每個流是一系列 transformer 塊和新的 co-attentional transformer 層,它們被引入以實現(xiàn)模式之間的信息交換。每個圖像通過從一個預(yù)訓(xùn)練的目標檢測網(wǎng)絡(luò)(Faster R-CNN)中提取邊界框及其視覺特征作為一組區(qū)域的特征表示。 預(yù)訓(xùn)練有兩項任務(wù):masked 多模態(tài)建模和多模態(tài)對齊預(yù)測。masked 多模態(tài)建模任務(wù)遵循標準 BERT 中的 masked 語言建模任務(wù) —— 掩蔽大約 15%的單詞和圖像區(qū)域作為輸入,并在給定剩余輸入的情況下對模式進行重構(gòu)。在多模態(tài)對齊任務(wù)中,模型提出了一個圖像 — 文本對,必須預(yù)測圖像和文本是否對齊,即文本是否描述圖像。 在許多已建立的視覺和語言任務(wù)中,ViLBERT 模型表現(xiàn)優(yōu)于最先進的模型:視覺問題回答、視覺常識推理、引用表達式和基于標題的圖像檢索。 Ouroboros: 基于 Transformer 的語言模型的加速訓(xùn)練http:///abs/1909.06695 毫無疑問,Transformers 在很多任務(wù)上都取得了巨大的成就,但是訓(xùn)練它們可能是一個漫長而昂貴的過程。解決這個問題的一種可能的方法是并行化。 當(dāng)模型太大而不能在單個設(shè)備中進行訓(xùn)練時,模型的并行化仍然是一個有待解決的問題。當(dāng)一個模型變得太大而不能適用于單個計算設(shè)備時,最簡單的解決方案是將模型層分布到多個設(shè)備上。 文章提出了一種新的模型并行算法來并行化基于 Transformers 的語言模型的訓(xùn)練。這種算法可以在不損失精度的情況下產(chǎn)生顯著的加速效果。 可視化和 BERT 幾何形狀的測量http:///abs/1906.02715 本文試圖證明 transformer 具有一組語義和句法信息的中間表示。為了尋找句法信息,他們在注意力向量的頂部訓(xùn)練了線性模型。該模型必須預(yù)測兩個詞之間依賴關(guān)系的存在和類型。二分類預(yù)測的準確度為 85.8%,多分類預(yù)測的準確度為 71.9%。這個簡單線性預(yù)測的成功表明,句法信息被編碼在注意力向量中。 第二部分是語義信息。很自然地,我們可以推測 transformer 捕捉了一個詞在一個特定句子中的特殊含義。 對于一個具有 n 種含義的給定單詞,他們制作一個最近鄰分類器,其中每個鄰居都是訓(xùn)練集中給定單詞含義的基于 BERT 的嵌入的質(zhì)心。為了對一個新單詞進行分類,他們會找到這些質(zhì)心中最近的一個,如果這個單詞在訓(xùn)練數(shù)據(jù)中沒有出現(xiàn),則默認為最常用的詞義。簡單最近鄰分類器的 F1 得分為 71.1,高于目前的技術(shù)水平,其準確率在層間單調(diào)遞增。這是一個強烈的信號,即上下文嵌入表示了詞意信息。 新的位置編碼,使能樹型結(jié)構(gòu)的 transformers https:///pdf?id=SJerEhR5Km transformer 可以很好地完成順序建模任務(wù)。但是在某些情況下,使用純面向序列的方法可能會導(dǎo)致丟失有價值的結(jié)構(gòu)信息,例如,當(dāng)我們想要表示層次結(jié)構(gòu)時。這項工作為樹結(jié)構(gòu)數(shù)據(jù)引入了新的位置編碼。這可能會將 transformer 從自然語言解析樹擴展到到程序抽象語法樹中。 這種方法有兩種評估方法:合成翻譯任務(wù)和生成的 CoffeeScript 和 JavaScript 代碼之間的翻譯。實驗表明,在面向樹的任務(wù)中,采用這種編碼的模型的性能優(yōu)于序列轉(zhuǎn)換器。 用于語言建模的張量化 Transformerhttp:///abs/1906.09777 我認為這是最有趣的工作。也許不是通過結(jié)果,而是通過使用張量分解來降低模型的復(fù)雜度。 正如你所知道的,考慮如何減少內(nèi)存和計算 Transformer 的需求量是非常重要的。現(xiàn)有的模型壓縮方法主要分為參數(shù)剪枝和共享、低秩近似、知識轉(zhuǎn)移、轉(zhuǎn)移卷積濾波器和張量分解方法。 在本文中,作者基于參數(shù)共享的思想,重點研究了 Transformer 多頭注意力的壓縮問題。同時,還結(jié)合了低秩近似方法來降低參數(shù)和計算復(fù)雜度。提出了一種新的自我注意力方法——多線性注意力機制。 |
|
來自: 西北望msm66g9f > 《編程》