近年來,深度學(xué)習(xí)大獲成功,尤其是卷積神經(jīng)網(wǎng)絡(luò)(CNN)在圖像識別任務(wù)上的突出表現(xiàn)。然而,由于黑箱的存在,這種成功一度讓機器學(xué)習(xí)理論學(xué)家頗感不解。本文的目的正是要揭示深度學(xué)習(xí)成功的奧秘。通過圍繞著深度學(xué)習(xí)的三個核心要素——架構(gòu)、正則化技術(shù)和優(yōu)化算法,并回顧近期研究,作者為深層網(wǎng)絡(luò)的若干屬性,如全局最優(yōu)性、幾何穩(wěn)定性、學(xué)習(xí)表征不變性,提供了一個數(shù)學(xué)證明。 論文:Mathematics of Deep Learning 論文鏈接:https:///abs/1712.04741 摘要:近期深度架構(gòu)用于表征學(xué)習(xí)和分類之后,識別系統(tǒng)的性能獲得了巨大提升。然而,這一成功的數(shù)學(xué)原因依然不得而知。本文將回顧近期研究,為深層網(wǎng)絡(luò)的若干屬性,如全局最優(yōu)性、幾何穩(wěn)定性、學(xué)習(xí)表征不變性,提供一個數(shù)學(xué)證明。 1. 引言 深層網(wǎng)絡(luò) [1] 是在輸入數(shù)據(jù)上執(zhí)行序列操作的參數(shù)模型。通俗講,每個這樣的操作被稱為「層」,每個層包括一個線性變換(比如其輸入的卷積)和一個逐點非線性「激活函數(shù)」(比如 Sigmoid)。近期在語音、自然語言處理、計算機視覺的不同應(yīng)用中,深層網(wǎng)絡(luò)實現(xiàn)了分類性能的巨大提升。深層網(wǎng)絡(luò)取得成功的關(guān)鍵原因是其較于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)有著大量的層;但也有其他架構(gòu)調(diào)整,比如 ReLU [2] 和殘差「捷徑」連接(residual shortcut connections)[3]。成功的其他主要因素還包括海量數(shù)據(jù)集的可用性,比如 ImageNet 等數(shù)據(jù)集中的數(shù)百萬張圖像,以及用于解決由此產(chǎn)生的高維優(yōu)化問題的高效 GPU 計算硬件(可能具備高達 1 億個參數(shù))。 深度學(xué)習(xí)的成功,尤其是 CNN 在圖像任務(wù)上的成功,給理論學(xué)家?guī)砹撕芏嗬Щ?。如果我們打算揭開其成功的奧秘,那么深度學(xué)習(xí)的三個核心因素——架構(gòu)、正則化技術(shù)和優(yōu)化算法,對訓(xùn)練優(yōu)秀性能的深層網(wǎng)絡(luò)、理解其必然性和互動尤其關(guān)鍵。 A. 近似值、深度、寬度、不變性 神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計的一個重要屬性是可以近似輸入的任意函數(shù)。但是這個能力如何依賴于架構(gòu)的參數(shù),比如其深度和寬度?早期研究表明,具有單一隱藏層和 Sigmoid 激活函數(shù)的神經(jīng)網(wǎng)絡(luò)是通用函數(shù)近似器 [5] [6] [7] [8]。但是,寬的淺層網(wǎng)絡(luò)的容量可被深層網(wǎng)絡(luò)復(fù)制,且性能出現(xiàn)顯著提升。一個可能的解釋是深層架構(gòu)相較于淺層架構(gòu)可以更好地捕獲數(shù)據(jù)的不變性。比如在計算機視覺中,物體的類別不會隨著視角、照明等的變化而變化。對于為什么深層網(wǎng)絡(luò)能夠捕獲此類不變性的數(shù)學(xué)分析仍然不得而知,但近期進展已經(jīng)為深層網(wǎng)絡(luò)的特定子類別提供了一些解釋。特別是,散射網(wǎng)絡(luò) [9] 是一種深層網(wǎng)絡(luò),其卷積濾波器組由復(fù)雜的多分辨率小波族群給出。正由于這種額外結(jié)構(gòu),它們被證明是穩(wěn)定和局部不變的信號表征,并揭示了幾何和穩(wěn)定性的基本作用,這是現(xiàn)代深度卷積網(wǎng)絡(luò)架構(gòu)泛化性能的基礎(chǔ)(詳見第四章)。 B. 泛化和正則化 神經(jīng)網(wǎng)絡(luò)架構(gòu)的另一個重要屬性是可以利用少量訓(xùn)練樣本進行泛化。統(tǒng)計學(xué)習(xí)理論的傳統(tǒng)結(jié)果 [10] 表明,實現(xiàn)良好泛化所需的訓(xùn)練樣本數(shù)隨網(wǎng)絡(luò)大小呈現(xiàn)多項式增長。然而,在實踐中,深層網(wǎng)絡(luò)訓(xùn)練所需的參數(shù)數(shù)量要遠大于數(shù)據(jù)量(N D regime),而使用非常簡單的(看似相反)正則化技術(shù)可以防止過擬合,如 Dropout 在每次迭代中通過簡單凍結(jié)參數(shù)的隨機子集即可防止過擬合。 一個可能的解釋是,更深層的架構(gòu)產(chǎn)生輸入數(shù)據(jù)的嵌入,近似地保留同一類中數(shù)據(jù)點之間的距離,同時增加類別之間的分離。本文將概述 [12] 的近期研究工作,它使用壓縮感知和字典學(xué)習(xí)工具證明具有隨機高斯權(quán)重的深層網(wǎng)絡(luò)可以執(zhí)行保留數(shù)據(jù)點距離的嵌入,其中相似輸入可能具有相似輸出。這些結(jié)果有助于理解網(wǎng)絡(luò)的度量學(xué)習(xí)屬性,并引出由輸入數(shù)據(jù)的結(jié)構(gòu)決定的泛化誤差的范圍。 C. 信息論屬性 網(wǎng)絡(luò)架構(gòu)的另一個關(guān)鍵屬性是產(chǎn)生良好「數(shù)據(jù)表征」的能力。簡單說,表征是對一個任務(wù)有用的輸入數(shù)據(jù)的任意函數(shù)。比如,最佳表征是由信息論、復(fù)雜性或不變性標(biāo)準(zhǔn) [13] 量化出的「最有用」的一個表征。這類似于系統(tǒng)的「狀態(tài)」,智能體將其存儲在內(nèi)存中以代替數(shù)據(jù)來預(yù)測未來的觀察結(jié)果。例如,卡爾曼濾波器的狀態(tài)是用于預(yù)測由具有高斯噪聲的線性動態(tài)系統(tǒng)生成數(shù)據(jù)的最佳表征;即用于預(yù)測的最小充分統(tǒng)計量。對于數(shù)據(jù)可能被不包含任務(wù)信息的「麻煩」所破壞的復(fù)雜任務(wù),人們也可能希望這種表征對這種麻煩具有「不變性」,以免影響未來的預(yù)測。通常來說,任務(wù)的最佳表征可被定義為最小充分統(tǒng)計量,并且對影響未來(「測試」)數(shù)據(jù)的各種變化保持不變性 [14]。盡管研究者對表征學(xué)習(xí)有著強烈興趣,但是解釋深層網(wǎng)絡(luò)作為構(gòu)建最優(yōu)表征的性能的綜合理論尚不存在。事實上,即使是充分性和不變性這樣的基本概念也得到了不同的對待 [9] [14] [15]。 近期研究 [16]、[17]、[18] 已經(jīng)開始為深層網(wǎng)絡(luò)學(xué)習(xí)的表征建立信息論基礎(chǔ),包括觀察到信息瓶頸損失 [13](它定義了最小充分性的寬松概念)可被用于計算最佳表征。信息瓶頸損失可重寫為交叉熵項的總和,這正是深度學(xué)習(xí)中最常用的損失,帶有一個額外的正則化項。后者可通過在學(xué)習(xí)表征中引入類似自適應(yīng) dropout 噪聲的噪聲來實現(xiàn) [17]。由此產(chǎn)生的正則化形式在 [17] 中被稱為信息 dropout,表明在資源受限的條件下學(xué)習(xí)可以得到改善,并可導(dǎo)致「最大分離式」表征(「maximally disentangled」representation),即表征的組成部分之間的(總)相關(guān)性是最小的,使得數(shù)據(jù)具有獨立特征的特征指標(biāo)。此外,類似技術(shù)表明針對對抗擾動的魯棒性有所改善 [18]。因此,研究者期望信息論在形式化和分析深層表征的屬性以及提出新型正則化項方面起到關(guān)鍵作用。 D. 優(yōu)化 訓(xùn)練神經(jīng)網(wǎng)絡(luò)的經(jīng)典方法是使用反向傳播最小化(正則化)損失 [19],它是一種專門用于神經(jīng)網(wǎng)絡(luò)的梯度下降方法。反向傳播的現(xiàn)代版本依靠隨機梯度下降(SGD)來高效近似海量數(shù)據(jù)集的梯度。雖然 SGD 僅用于嚴格分析凸損失函數(shù) [20],但在深度學(xué)習(xí)中,損失函數(shù)是網(wǎng)絡(luò)參數(shù)的非凸函數(shù),因此無法保證 SGD 能夠找到全局最小值。 圖 1:神經(jīng)網(wǎng)絡(luò)圖示,其中 D = d_1 = 4 個輸入,d_2 = 5 個隱藏層,C = d_3 = 2 個輸出。輸出可寫為 y = (y_1, y_2) = ψ_2(ψ_1(xW^1 )W^2 ),其中 x = (x_1, . . . , x_4) 是輸入,W^1 ∈ R^4×5 是從輸入層到隱藏層的權(quán)重矩陣,W^2 ∈ R^5×2 是從隱藏層到輸出層的權(quán)重矩陣,ψ_1 和 ψ_2 是激活函數(shù)。 實踐中有大量證據(jù)表明 SGD 為深層網(wǎng)絡(luò)提供良好的解決方案。最近關(guān)于理解訓(xùn)練質(zhì)量的研究認為,臨界點更可能是鞍點而不是假的局部極小值 [21],局部極小值集中在全局最優(yōu)值附近 [22]。近期研究還揭示了 SGD 發(fā)現(xiàn)的局部極小值帶來參數(shù)空間非常平坦區(qū)域的良好泛化誤差 [23]。這激勵了 Entropy-SGD 等專用于尋找此類區(qū)域的算法,并從統(tǒng)計物理學(xué)中的二進制感知機分析中得出相似的結(jié)果 [24]。它們已被證明在深層網(wǎng)絡(luò)上表現(xiàn)良好 [25]。令人驚訝的是,這些統(tǒng)計物理學(xué)技術(shù)與偏微分方程(PDE)的正則化屬性密切相關(guān) [26]。例如,局部熵——Entropy-SGD 最小化的損失,是 HamiltonJacobi-Bellman 偏微分方程的解,因此可寫成一個懲罰貪婪梯度下降的隨機最優(yōu)控制問題。這個方向進一步導(dǎo)致具備良好經(jīng)驗性能的 SGD 變體和凸優(yōu)化標(biāo)準(zhǔn)方法(如 infconvolutions 和近端方法(proximal methods)。研究人員現(xiàn)在才剛剛開始從拓撲方面闡釋深層網(wǎng)絡(luò)的損失函數(shù),拓撲決定了優(yōu)化的復(fù)雜性,而它們的幾何結(jié)構(gòu)似乎與分類器的泛化屬性有關(guān) [27] [28] [29]。 本文將概述近期的研究論文,展示深度學(xué)習(xí)等高維非凸優(yōu)化問題的誤差曲面具有一些良性屬性。例如,[30]、[31] 的工作表明,對于某些類型的神經(jīng)網(wǎng)絡(luò),其損失函數(shù)和正則化項都是相同程度的正齊次函數(shù)的和,多個分量為零或逼近為零的局部最優(yōu)解也將是或逼近全局最優(yōu)解。這些結(jié)果也將為正齊次函數(shù) RELU 的成功提供一個可能的解釋。除了深度學(xué)習(xí),這個框架的特殊情況還包括矩陣分解和張量分解 [32]。 E. 論文大綱 本論文的其余部分安排如下。第二章介紹深層網(wǎng)絡(luò)的輸入輸出圖。第三章研究深層網(wǎng)絡(luò)的訓(xùn)練問題,并為全局最優(yōu)性建立條件。第四章研究散射網(wǎng)絡(luò)的不變性和穩(wěn)定性。第五章研究深層網(wǎng)絡(luò)的結(jié)構(gòu)屬性,如嵌入的度量屬性以及泛化誤差的界限。第六章研究深度表征的信息論屬性。 2. 預(yù)備工作 3. 深度學(xué)習(xí)中的全局最優(yōu)性 本章研究從 N 個訓(xùn)練樣本 (X, Y ) 中學(xué)習(xí)深層網(wǎng)絡(luò)的參數(shù)。在分類設(shè)置中,X ∈ R^N×D 的每一行代表 R^D 中的一個數(shù)據(jù)點,Y ∈ {0, 1} ^ N×C 的每一行代表每個數(shù)據(jù)點與 C 類別的從屬關(guān)系,即如果 X 的第 j 行屬于類 c ∈ {1, . . . , C},則 Y_jc = 1,反之,則 Y_jc = 0。在回歸設(shè)置中,Y ∈ R^N×C 代表 X 行的因變量(dependent variable)。學(xué)習(xí)網(wǎng)絡(luò)權(quán)重 W 的問題可以表述為以下優(yōu)化問題: 其中是損失函數(shù),用于評估真正輸出 Y 和預(yù)測輸出 Φ(X, W)(公式 (1))之間的一致程度;Θ 是正則化函數(shù),用于防止過擬合,如通過正則化執(zhí)行的權(quán)重衰減;λ>0 是平衡參數(shù)。 A. 神經(jīng)網(wǎng)絡(luò)訓(xùn)練的非凸挑戰(zhàn) 神經(jīng)網(wǎng)絡(luò)訓(xùn)練的重要挑戰(zhàn)是(2)中的優(yōu)化問題是非凸的,即使損失函數(shù)通常是 Φ 的凸函數(shù),如平方損失;Φ(X, W) 通常是 W 的非凸函數(shù),因其是(1)中 W_k 變量和非線性函數(shù) ψ_k 的積。這對現(xiàn)有優(yōu)化算法來說是一個巨大的挑戰(zhàn),如梯度下降、隨機梯度下降、交替最小化、塊坐標(biāo)下降、反向傳播、擬牛頓法等,這些優(yōu)化算法通常只能確保收斂至目標(biāo)函數(shù)的臨界點 [33] [34] [35] [36]。 但是,對于非凸問題,臨界點集不僅包括全局最小值,還包括局部極小值、局部極大值、鞍點和鞍點 plateaus,如圖 2 所示。因此,非凸問題使該模型呈現(xiàn)一定的不適定性,因其不僅是重要的模型公式也是實現(xiàn)細節(jié),如模型如何初始化以及優(yōu)化算法的細節(jié),這對模型性能產(chǎn)生很大影響。 圖 2. 非凸函數(shù)的臨界點示例(紅色)。(a,c) plateaus;(b,d) 全局最小值;(e,g) 局部極大值;(f,h) 局部極小值。 B. 使用單個隱藏層的神經(jīng)網(wǎng)絡(luò)最優(yōu)性 關(guān)于神經(jīng)網(wǎng)絡(luò)全局最優(yōu)性的早期研究 [41] 展示了:使用線性激活函數(shù)和單個隱藏層的網(wǎng)絡(luò)的平方損失有一個全局最小值,其他臨界點均為鞍點。但是,[42] 中的網(wǎng)絡(luò)示例證明,當(dāng)激活函數(shù)非線性時,即使使用可分數(shù)據(jù),網(wǎng)絡(luò)中的反向傳播算法 [19] 依然失敗了。不過,這些網(wǎng)絡(luò)示例不通用,[43]、[44] 展示了使用線性可分數(shù)據(jù)時,反向傳播通??梢哉业饺肿钚↑c。 C. 使用隨機輸入和權(quán)重的神經(jīng)網(wǎng)絡(luò)最優(yōu)性 近期多個研究利用隨機矩陣理論和統(tǒng)計物理學(xué)工具分析了多層神經(jīng)網(wǎng)絡(luò)的誤差曲面。例如,[21] 的作者認為,在特定假設(shè)條件下,高維優(yōu)化問題的臨界點更有可能是鞍點而非局部極小點。 D. 正齊次性網(wǎng)絡(luò)(positively homogeneous network)的全局最優(yōu)性 近期研究 [30]、[31] 很大程度上沿用了上述論文的想法,但是使用的方法存在顯著區(qū)別。具體來說,[30]、[31] 利用純粹確定性方法分析了(2)中的優(yōu)化問題,該方法不對輸入數(shù)據(jù)分布、網(wǎng)絡(luò)權(quán)重參數(shù)數(shù)據(jù)或網(wǎng)絡(luò)初始化做任何假設(shè)。[30]、[31] 使用該方法證明只有鞍點和 plateaus 才是我們需要關(guān)心的臨界點,因為對于足夠規(guī)模的網(wǎng)絡(luò),不存在需要攀爬目標(biāo)曲面再擺脫局部極小值(如圖 2 中的 (f)、(h))。 4. 深度學(xué)習(xí)中的幾何穩(wěn)定性 理解深度學(xué)習(xí)模型的重要問題是從數(shù)學(xué)角度定義其歸納偏置(inductive bias),即定義回歸/分類任務(wù)的類別,這樣它們可以實現(xiàn)優(yōu)秀的性能,或至少比傳統(tǒng)方法要好。 在計算機視覺任務(wù)中,卷積架構(gòu)為最成功的深度學(xué)習(xí)視覺模型提供基礎(chǔ)的歸納偏置。幾何穩(wěn)定性有助于我們理解其成功。 5. 深度學(xué)習(xí)基于結(jié)構(gòu)的理論 A. 神經(jīng)網(wǎng)絡(luò)中的數(shù)據(jù)結(jié)構(gòu) 理解深度學(xué)習(xí)的一個重要方面就是理解數(shù)據(jù)結(jié)構(gòu)和深層網(wǎng)絡(luò)之間的關(guān)系。對于正式分析來說,假設(shè)一個網(wǎng)絡(luò)具備隨機獨立同分布高斯權(quán)重,這是深層網(wǎng)絡(luò)訓(xùn)練中的常見初始化設(shè)置。近期研究 [56] 顯示此類具備隨機權(quán)重的網(wǎng)絡(luò)將數(shù)據(jù)的度量結(jié)構(gòu)沿層傳播,實現(xiàn)網(wǎng)絡(luò)計算特征的原始數(shù)據(jù)的穩(wěn)定恢復(fù),該特性經(jīng)常會在一般深層網(wǎng)絡(luò)中遇到 [57] [58]。 B. 泛化誤差 上文說明數(shù)據(jù)結(jié)構(gòu)和訓(xùn)練過程中獲取的網(wǎng)絡(luò)誤差之間存在關(guān)系,這引發(fā)對深層網(wǎng)絡(luò)的泛化誤差與數(shù)據(jù)結(jié)構(gòu)之間關(guān)系的研究。泛化誤差——經(jīng)驗誤差和期望誤差之差,是統(tǒng)計學(xué)習(xí)理論中的基礎(chǔ)概念。泛化誤差有可能為利用訓(xùn)練樣本學(xué)習(xí)的原因提供見解。 |
|