預訓練無需注意力，擴展到4096個token不成問題，與BERT相當

天承辦公室 2023-03-28 發(fā)布于江蘇

展開全文

選自 arXiv

作者：Junxiong Wang、Jing Nathan Yan等

機器之心編譯

編輯：袁銘懌

本文提出了雙向門控 SSM（BiGS）模型，結合基于狀態(tài)空間模型（SSM）的 Routing 層和基于乘法門的模型架構，在不使用注意力的情況下能夠復制 BERT 預訓練結果，并可擴展到 4096 個 token 的長程預訓練，不需要近似。

Transformer 作為 NLP 預訓練模型架構，能夠有效的在大型未標記的數(shù)據(jù)上進行學習，研究已經(jīng)證明，Transformer 是自 BERT 以來 NLP 任務的核心架構。

最近的工作表明，狀態(tài)空間模型（SSM）是長范圍序列建模有利的競爭架構。SSM 在語音生成和 Long Range Arena 基準上取得了 SOTA 成果，甚至優(yōu)于 Transformer 架構。除了提高準確率之外，基于 SSM 的 routing 層也不會隨著序列長度的增長而呈現(xiàn)二次復雜性。

本文中，來自康奈爾大學、 DeepMind 等機構的研究者提出了雙向門控 SSM （BiGS），用于無需注意力的預訓練，其主要是將 SSM routing 與基于乘法門控（multiplicative gating）的架構相結合。該研究發(fā)現(xiàn) SSM 本身在 NLP 的預訓練中表現(xiàn)不佳，但集成到乘法門控架構中后，下游準確率便會提高。

實驗表明，在受控設置下對相同數(shù)據(jù)進行訓練，BiGS 能夠與 BERT 模型的性能相匹配。通過在更長的實例上進行額外預訓練，在將輸入序列擴展到 4096 時，模型還能保持線性時間。分析表明，乘法門控是必要的，它修復了 SSM 模型在變長文本輸入上的一些特定問題。

論文地址：https:///pdf/2212.10544.pdf

方法介紹

SSM 通過以下微分方程將連續(xù)輸入 u (t) 與輸出 y (t) 聯(lián)系起來：

對于離散序列，SSM 參數(shù)被離散化，其過程可以近似為：

這個方程可以解釋為一個線性 RNN，其中 x_k 是一個隱藏狀態(tài)。y 也可以用卷積計算：

Gu 等人展示了一種在神經(jīng)網(wǎng)絡中使用 SSM 的有效方法，他們開發(fā)了參數(shù)化 A 的方法，稱為 HiPPO，其產(chǎn)生了一個穩(wěn)定而高效的架構，稱為 S4。這保留了 SSM 對長期序列建模的能力，同時比 RNN 訓練更有效。最近，研究人員提出了 S4 的簡化對角化版本，它通過對原始參數(shù)更簡單的近似實現(xiàn)了類似的結果。在高層次上，基于 SSM 的 routing 為神經(jīng)網(wǎng)絡中的序列建模提供了一種替代方法，而無需二次計算的注意力成本。

預訓練模型架構

SSM 能取代預訓練中的注意力嗎？為了回答這個問題，該研究考慮了兩種不同的架構，如圖 1 所示的堆疊架構（STACK）和乘法門控架構（GATED）。

具有自注意力的堆疊架構相當于 BERT /transformer 模型，門控架構是門控單元的雙向改編，最近也被用于單向 SSM。帶有乘法門控的 2 個序列塊（即前向和后向 SSM）夾在前饋層中。為了進行公平比較，門控架構的大小保持與堆疊架構相當。

圖 1：模型變量。STACK 是標準 transformer 架構，GATED 為基于門控單元。對于 Routing 組件（虛線），該研究同時考慮雙向 SSM（如圖所示）和標準自注意力。門控（X）表示逐元素乘法。

實驗結果

預訓練

表 1 顯示了 GLUE 基準測試中不同預訓練模型的主要結果。BiGS 在 token 擴展上復制了 BERT 的準確率。這一結果表明，在這樣的計算預算下，SSM 可以復制預訓練 transformer 模型的準確率。這些結果明顯優(yōu)于其他基于非注意力的預訓練模型。想要達到這個準確率，乘法門控是必要的。在沒有門控的情況下，堆疊 SSM 的結果明顯更差。為了檢查這種優(yōu)勢是否主要來自于門控的使用，本文使用 GATE 架構訓練了一個基于注意力的模型；然而，結果顯示該模型的效果實際上低于 BERT。

表 1：GLUE 結果。（Top）在控制設置下，不同架構和 routing 的比較。參見圖 2 了解詳細信息。（Bottom) 報告了基于 CNN、LSTM 和 FNet 的其他非注意力預訓練模型的可比結果。

Long-Form 任務

表 2 結果顯示，可以將 SSM 與 Longformer EncoderDecoder (LED) 和 BART 進行比較，但是，結果顯示它在遠程任務中表現(xiàn)得也不錯，甚至更勝一籌。與其他兩種方法相比，SSM 的預訓練數(shù)據(jù)要少得多。即使 SSM 不需要在這些長度上進行近似，長格式也依舊很重要。