作者:Junxiong Wang、Jing Nathan Yan等 機器之心編譯 編輯:袁銘懌
Transformer 作為 NLP 預訓練模型架構,能夠有效的在大型未標記的數(shù)據(jù)上進行學習,研究已經(jīng)證明,Transformer 是自 BERT 以來 NLP 任務的核心架構。 最近的工作表明,狀態(tài)空間模型(SSM)是長范圍序列建模有利的競爭架構。SSM 在語音生成和 Long Range Arena 基準上取得了 SOTA 成果,甚至優(yōu)于 Transformer 架構。除了提高準確率之外,基于 SSM 的 routing 層也不會隨著序列長度的增長而呈現(xiàn)二次復雜性。 本文中,來自康奈爾大學、 DeepMind 等機構的研究者提出了雙向門控 SSM (BiGS),用于無需注意力的預訓練,其主要是將 SSM routing 與基于乘法門控(multiplicative gating)的架構相結合。該研究發(fā)現(xiàn) SSM 本身在 NLP 的預訓練中表現(xiàn)不佳,但集成到乘法門控架構中后,下游準確率便會提高。 實驗表明,在受控設置下對相同數(shù)據(jù)進行訓練,BiGS 能夠與 BERT 模型的性能相匹配。通過在更長的實例上進行額外預訓練,在將輸入序列擴展到 4096 時,模型還能保持線性時間。分析表明,乘法門控是必要的,它修復了 SSM 模型在變長文本輸入上的一些特定問題。 論文地址:https:///pdf/2212.10544.pdf 方法介紹 SSM 通過以下微分方程將連續(xù)輸入 u (t) 與輸出 y (t) 聯(lián)系起來: 對于離散序列,SSM 參數(shù)被離散化,其過程可以近似為: 這個方程可以解釋為一個線性 RNN,其中 x_k 是一個隱藏狀態(tài)。y 也可以用卷積計算: Gu 等人展示了一種在神經(jīng)網(wǎng)絡中使用 SSM 的有效方法,他們開發(fā)了參數(shù)化 A 的方法,稱為 HiPPO,其產(chǎn)生了一個穩(wěn)定而高效的架構,稱為 S4。這保留了 SSM 對長期序列建模的能力,同時比 RNN 訓練更有效。最近,研究人員提出了 S4 的簡化對角化版本,它通過對原始參數(shù)更簡單的近似實現(xiàn)了類似的結果。在高層次上,基于 SSM 的 routing 為神經(jīng)網(wǎng)絡中的序列建模提供了一種替代方法,而無需二次計算的注意力成本。 預訓練模型架構 SSM 能取代預訓練中的注意力嗎?為了回答這個問題,該研究考慮了兩種不同的架構,如圖 1 所示的堆疊架構(STACK)和乘法門控架構(GATED)。 具有自注意力的堆疊架構相當于 BERT /transformer 模型,門控架構是門控單元的雙向改編,最近也被用于單向 SSM。帶有乘法門控的 2 個序列塊(即前向和后向 SSM)夾在前饋層中。為了進行公平比較,門控架構的大小保持與堆疊架構相當。 圖 1:模型變量。STACK 是標準 transformer 架構,GATED 為基于門控單元。對于 Routing 組件(虛線),該研究同時考慮雙向 SSM(如圖所示)和標準自注意力。門控(X)表示逐元素乘法。 實驗結果 預訓練 表 1 顯示了 GLUE 基準測試中不同預訓練模型的主要結果。BiGS 在 token 擴展上復制了 BERT 的準確率。這一結果表明,在這樣的計算預算下,SSM 可以復制預訓練 transformer 模型的準確率。這些結果明顯優(yōu)于其他基于非注意力的預訓練模型。想要達到這個準確率,乘法門控是必要的。在沒有門控的情況下,堆疊 SSM 的結果明顯更差。為了檢查這種優(yōu)勢是否主要來自于門控的使用,本文使用 GATE 架構訓練了一個基于注意力的模型;然而,結果顯示該模型的效果實際上低于 BERT。 表 1:GLUE 結果。(Top)在控制設置下,不同架構和 routing 的比較。參見圖 2 了解詳細信息。(Bottom) 報告了基于 CNN、LSTM 和 FNet 的其他非注意力預訓練模型的可比結果。 Long-Form 任務 表 2 結果顯示,可以將 SSM 與 Longformer EncoderDecoder (LED) 和 BART 進行比較,但是,結果顯示它在遠程任務中表現(xiàn)得也不錯,甚至更勝一籌。與其他兩種方法相比,SSM 的預訓練數(shù)據(jù)要少得多。即使 SSM 不需要在這些長度上進行近似,長格式也依舊很重要。 表 2:SCROLLS Encoder 測試結果?;€模型都是編碼器 —— 解碼器模型,一個基于 Longformer (LED),另一個基于 BART。輸入的長度有截斷。 更多內容請查看原論文。 |
|