一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

預訓練無需注意力,擴展到4096個token不成問題,與BERT相當

 天承辦公室 2023-03-28 發(fā)布于江蘇
選自 arXiv

作者:Junxiong Wang、Jing Nathan Yan等

機器之心編譯

編輯:袁銘懌

本文提出了雙向門控 SSM(BiGS)模型,結合基于狀態(tài)空間模型(SSM)的 Routing 層和基于乘法門的模型架構,在不使用注意力的情況下能夠復制 BERT 預訓練結果,并可擴展到 4096 個 token 的長程預訓練,不需要近似。

Transformer 作為 NLP 預訓練模型架構,能夠有效的在大型未標記的數(shù)據(jù)上進行學習,研究已經(jīng)證明,Transformer 是自 BERT 以來 NLP 任務的核心架構。

最近的工作表明,狀態(tài)空間模型(SSM)是長范圍序列建模有利的競爭架構。SSM 在語音生成和 Long Range Arena 基準上取得了 SOTA 成果,甚至優(yōu)于 Transformer 架構。除了提高準確率之外,基于 SSM 的 routing 層也不會隨著序列長度的增長而呈現(xiàn)二次復雜性。

本文中,來自康奈爾大學、 DeepMind 等機構的研究者提出了雙向門控 SSM (BiGS),用于無需注意力的預訓練,其主要是將 SSM routing 與基于乘法門控(multiplicative gating)的架構相結合。該研究發(fā)現(xiàn) SSM 本身在 NLP 的預訓練中表現(xiàn)不佳,但集成到乘法門控架構中后,下游準確率便會提高。

實驗表明,在受控設置下對相同數(shù)據(jù)進行訓練,BiGS 能夠與 BERT 模型的性能相匹配。通過在更長的實例上進行額外預訓練,在將輸入序列擴展到 4096 時,模型還能保持線性時間。分析表明,乘法門控是必要的,它修復了 SSM 模型在變長文本輸入上的一些特定問題。

圖片

論文地址:https:///pdf/2212.10544.pdf

方法介紹

SSM 通過以下微分方程將連續(xù)輸入 u (t) 與輸出 y (t) 聯(lián)系起來:

圖片

對于離散序列,SSM 參數(shù)被離散化,其過程可以近似為:

圖片

這個方程可以解釋為一個線性 RNN,其中 x_k 是一個隱藏狀態(tài)。y 也可以用卷積計算:

圖片

Gu 等人展示了一種在神經(jīng)網(wǎng)絡中使用 SSM 的有效方法,他們開發(fā)了參數(shù)化 A 的方法,稱為 HiPPO,其產(chǎn)生了一個穩(wěn)定而高效的架構,稱為 S4。這保留了 SSM 對長期序列建模的能力,同時比 RNN 訓練更有效。最近,研究人員提出了 S4 的簡化對角化版本,它通過對原始參數(shù)更簡單的近似實現(xiàn)了類似的結果。在高層次上,基于 SSM 的 routing 為神經(jīng)網(wǎng)絡中的序列建模提供了一種替代方法,而無需二次計算的注意力成本。

預訓練模型架構

SSM 能取代預訓練中的注意力嗎?為了回答這個問題,該研究考慮了兩種不同的架構,如圖 1 所示的堆疊架構(STACK)和乘法門控架構(GATED)。

具有自注意力的堆疊架構相當于 BERT /transformer 模型,門控架構是門控單元的雙向改編,最近也被用于單向 SSM。帶有乘法門控的 2 個序列塊(即前向和后向 SSM)夾在前饋層中。為了進行公平比較,門控架構的大小保持與堆疊架構相當。

圖片

圖 1:模型變量。STACK 是標準 transformer 架構,GATED 為基于門控單元。對于 Routing 組件(虛線),該研究同時考慮雙向 SSM(如圖所示)和標準自注意力。門控(X)表示逐元素乘法。

實驗結果 

預訓練

表 1 顯示了 GLUE 基準測試中不同預訓練模型的主要結果。BiGS 在 token 擴展上復制了 BERT 的準確率。這一結果表明,在這樣的計算預算下,SSM 可以復制預訓練 transformer 模型的準確率。這些結果明顯優(yōu)于其他基于非注意力的預訓練模型。想要達到這個準確率,乘法門控是必要的。在沒有門控的情況下,堆疊 SSM 的結果明顯更差。為了檢查這種優(yōu)勢是否主要來自于門控的使用,本文使用 GATE 架構訓練了一個基于注意力的模型;然而,結果顯示該模型的效果實際上低于 BERT。

圖片

表 1:GLUE 結果。(Top)在控制設置下,不同架構和 routing 的比較。參見圖 2 了解詳細信息。(Bottom) 報告了基于 CNN、LSTM 和 FNet 的其他非注意力預訓練模型的可比結果。

Long-Form 任務

表 2 結果顯示,可以將 SSM 與 Longformer EncoderDecoder (LED) 和 BART 進行比較,但是,結果顯示它在遠程任務中表現(xiàn)得也不錯,甚至更勝一籌。與其他兩種方法相比,SSM 的預訓練數(shù)據(jù)要少得多。即使 SSM 不需要在這些長度上進行近似,長格式也依舊很重要。

圖片

表 2:SCROLLS Encoder 測試結果?;€模型都是編碼器 —— 解碼器模型,一個基于 Longformer (LED),另一個基于 BART。輸入的長度有截斷。

更多內容請查看原論文。

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    国产日韩综合一区在线观看| 一二区中文字幕在线观看| 国产成人精品一区在线观看| 久久精品伊人一区二区| 在线观看视频成人午夜| 日本不卡一区视频欧美| 大香伊蕉欧美一区二区三区| 色播五月激情五月婷婷| 亚洲国产婷婷六月丁香| 亚洲国产精品久久精品成人| 黄片美女在线免费观看| 日本一区不卡在线观看| 中文字幕日韩欧美一区| 久久午夜福利精品日韩| 91精品国产综合久久精品| 欧美偷拍一区二区三区四区| 亚洲中文字幕在线乱码av| 日本精品免费在线观看| 99久久精品久久免费| 国产视频一区二区三区四区| 日本91在线观看视频| 色鬼综合久久鬼色88| 亚洲欧美天堂精品在线| 国产人妻精品区一区二区三区| 日本少妇三级三级三级| 欧美一区二区三区99| 国产精品人妻熟女毛片av久| 国产韩国日本精品视频| 国产爆操白丝美女在线观看| 一二区不卡不卡在线观看| 狠色婷婷久久一区二区三区| 亚洲天堂久久精品成人| 亚洲视频偷拍福利来袭| 国产成人精品一区二区在线看| 欧洲日本亚洲一区二区| 麻豆国产精品一区二区| 欧美成人黄色一区二区三区| 日韩精品中文在线观看| 色偷偷偷拍视频在线观看| 国产亚洲精品一二三区| 99久久国产亚洲综合精品|