一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

NeurIPS 2019中的Transformers

 西北望msm66g9f 2020-01-20



作者:Pavel Gladkov

編譯:ronghuaiyang

來源:AI公園

導(dǎo)讀

NeurIPS 2019上和Transformer有關(guān)的論文的主要內(nèi)容解讀。

在我之前關(guān)于 BERT 在 EMNLP 2019 的報道之后,如果不在 NeurIPS 2019 年大會上簡要回顧一下關(guān)于 transformers 的論文,那將是一種犯罪。神經(jīng)信息處理系統(tǒng)研討會于 12 月 8 日至 14 日在溫哥華舉行。像往常一樣,有很多令人驚嘆的想法和先進的研究。以下是其中的一些。

ViLBERT:視覺和語言任務(wù)的預(yù)訓(xùn)練任務(wù)的視覺語言表示

http:///abs/1908.02265

提出了一種新的方法來學(xué)習(xí)與任務(wù)無關(guān)的圖像內(nèi)容和自然語言的聯(lián)合表示。

ViLBERT(Vision-and-Language BERT)由兩個并行的 BERT 風(fēng)格的模型組成,它們在圖像區(qū)域和文本段上運行。每個流是一系列 transformer 塊和新的 co-attentional transformer 層,它們被引入以實現(xiàn)模式之間的信息交換。每個圖像通過從一個預(yù)訓(xùn)練的目標檢測網(wǎng)絡(luò)(Faster R-CNN)中提取邊界框及其視覺特征作為一組區(qū)域的特征表示。

ViLBERT模型由兩個并行的視覺(綠色)和語言(紫色)處理流組成,它們通過新的共注意transformer層相互作用。

預(yù)訓(xùn)練有兩項任務(wù):masked 多模態(tài)建模和多模態(tài)對齊預(yù)測。masked 多模態(tài)建模任務(wù)遵循標準 BERT 中的 masked 語言建模任務(wù) —— 掩蔽大約 15%的單詞和圖像區(qū)域作為輸入,并在給定剩余輸入的情況下對模式進行重構(gòu)。在多模態(tài)對齊任務(wù)中,模型提出了一個圖像 — 文本對,必須預(yù)測圖像和文本是否對齊,即文本是否描述圖像。

在許多已建立的視覺和語言任務(wù)中,ViLBERT 模型表現(xiàn)優(yōu)于最先進的模型:視覺問題回答、視覺常識推理、引用表達式和基于標題的圖像檢索。

將我們的ViLBERT模型的任務(wù)結(jié)果與現(xiàn)有的最先進和合理的結(jié)構(gòu)進行消融比較。

Ouroboros: 基于 Transformer 的語言模型的加速訓(xùn)練

http:///abs/1909.06695

毫無疑問,Transformers 在很多任務(wù)上都取得了巨大的成就,但是訓(xùn)練它們可能是一個漫長而昂貴的過程。解決這個問題的一種可能的方法是并行化。

當(dāng)模型太大而不能在單個設(shè)備中進行訓(xùn)練時,模型的并行化仍然是一個有待解決的問題。當(dāng)一個模型變得太大而不能適用于單個計算設(shè)備時,最簡單的解決方案是將模型層分布到多個設(shè)備上。

文章提出了一種新的模型并行算法來并行化基于 Transformers 的語言模型的訓(xùn)練。這種算法可以在不損失精度的情況下產(chǎn)生顯著的加速效果。

每個batch的計算時間的加速(在K個gpu上)

可視化和 BERT 幾何形狀的測量

http:///abs/1906.02715

本文試圖證明 transformer 具有一組語義和句法信息的中間表示。為了尋找句法信息,他們在注意力向量的頂部訓(xùn)練了線性模型。該模型必須預(yù)測兩個詞之間依賴關(guān)系的存在和類型。二分類預(yù)測的準確度為 85.8%,多分類預(yù)測的準確度為 71.9%。這個簡單線性預(yù)測的成功表明,句法信息被編碼在注意力向量中。

一個有序token對的模型范圍內(nèi)的注意力向量包含該token對在所有注意力頭和層中的標量注意力值。

第二部分是語義信息。很自然地,我們可以推測 transformer 捕捉了一個詞在一個特定句子中的特殊含義。

對于一個具有 n 種含義的給定單詞,他們制作一個最近鄰分類器,其中每個鄰居都是訓(xùn)練集中給定單詞含義的基于 BERT 的嵌入的質(zhì)心。為了對一個新單詞進行分類,他們會找到這些質(zhì)心中最近的一個,如果這個單詞在訓(xùn)練數(shù)據(jù)中沒有出現(xiàn),則默認為最常用的詞義。簡單最近鄰分類器的 F1 得分為 71.1,高于目前的技術(shù)水平,其準確率在層間單調(diào)遞增。這是一個強烈的信號,即上下文嵌入表示了詞意信息。

詞義消歧任務(wù)的F1得分

新的位置編碼,使能樹型結(jié)構(gòu)的 transformers

https:///pdf?id=SJerEhR5Km

transformer 可以很好地完成順序建模任務(wù)。但是在某些情況下,使用純面向序列的方法可能會導(dǎo)致丟失有價值的結(jié)構(gòu)信息,例如,當(dāng)我們想要表示層次結(jié)構(gòu)時。這項工作為樹結(jié)構(gòu)數(shù)據(jù)引入了新的位置編碼。這可能會將 transformer 從自然語言解析樹擴展到到程序抽象語法樹中。

這種方法有兩種評估方法:合成翻譯任務(wù)和生成的 CoffeeScript 和 JavaScript 代碼之間的翻譯。實驗表明,在面向樹的任務(wù)中,采用這種編碼的模型的性能優(yōu)于序列轉(zhuǎn)換器。

與tree2tree LSTMs比較,合成任務(wù)的整個程序錯誤率。

用于CoffeeScript-JavaScript翻譯任務(wù)的整個程序錯誤率數(shù)據(jù)

用于語言建模的張量化 Transformer

http:///abs/1906.09777

我認為這是最有趣的工作。也許不是通過結(jié)果,而是通過使用張量分解來降低模型的復(fù)雜度。

正如你所知道的,考慮如何減少內(nèi)存和計算 Transformer 的需求量是非常重要的。現(xiàn)有的模型壓縮方法主要分為參數(shù)剪枝和共享、低秩近似、知識轉(zhuǎn)移、轉(zhuǎn)移卷積濾波器和張量分解方法。

在本文中,作者基于參數(shù)共享的思想,重點研究了 Transformer 多頭注意力的壓縮問題。同時,還結(jié)合了低秩近似方法來降低參數(shù)和計算復(fù)雜度。提出了一種新的自我注意力方法——多線性注意力機制。

(左)單塊注意力使用Tucker分解。(右)基于塊項張量分解的多線性注意。在所有的實驗中,新架構(gòu)在參數(shù)較少的情況下取得了與SoTA相當(dāng)?shù)慕Y(jié)果。

結(jié)果(PPL)和模型參數(shù)在One-Billion的最新結(jié)果。

在PTB和WikiText-103上得到了最先進的結(jié)果和壓縮性能。

在WMT-16的英德翻譯上使用Transformer與壓縮的結(jié)果。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    免费在线播放不卡视频| 最新69国产精品视频| 国产一区二区三区精品免费| 激情综合网俺也狠狠地| 女人精品内射国产99| 欧美黑人精品一区二区在线| 日韩不卡一区二区视频| 日韩免费国产91在线| 国产成人av在线免播放观看av| 内射精品欧美一区二区三区久久久 | 国产精品亚洲综合色区韩国| 69久久精品亚洲一区二区| 最近日韩在线免费黄片| 99久久免费看国产精品| 日韩精品人妻少妇一区二区| 欧美韩国日本精品在线| 欧美一级黄片欧美精品| 麻豆看片麻豆免费视频| 国产免费成人激情视频| 真实国产乱子伦对白视频不卡| 午夜精品在线观看视频午夜| 国产欧美日韩精品一区二| 成人午夜爽爽爽免费视频| 国产精品国产亚洲区久久| 亚洲男人的天堂就去爱| 免费在线观看激情小视频| 91日韩欧美国产视频| 日韩国产亚洲欧美激情| 日韩精品一区二区一牛| 精品推荐久久久国产av| 深夜视频在线观看免费你懂| 麻豆亚州无矿码专区视频| 免费观看一级欧美大片| 五月婷婷六月丁香在线观看 | 久久91精品国产亚洲| 麻豆视传媒短视频免费观看| 国产情侣激情在线对白| 国产户外勾引精品露出一区| 欧美精品在线播放一区二区| 日韩一区二区三区观看| 在线观看欧美视频一区|