原文:https:///huggingface/from-zero-to-research-an-introduction-to-meta-learning-8e16e677f78ahttps://blog.csdn.net/weixin_39653948/article/details/109279826僅用于學(xué)術(shù)分享,若侵權(quán)請聯(lián)系刪除
元學(xué)習(xí)(Meta-learning)是機器學(xué)習(xí)領(lǐng)域一個令人興奮的研究趨勢,它解決了學(xué)會學(xué)習(xí)(learning to learn)的問題。機器學(xué)習(xí)研究的傳統(tǒng)模式是獲取特定任務(wù)的龐大數(shù)據(jù)集,并利用該數(shù)據(jù)集從頭開始訓(xùn)練模型。顯然,這與人類如何利用過去的經(jīng)驗快速學(xué)習(xí)新任務(wù)相去甚遠。那是因為人類 學(xué)會了學(xué)習(xí)(learn to learn)。
What’s learning in the first place?看一下當(dāng)訓(xùn)練一個簡單的神經(jīng)網(wǎng)絡(luò)對狗和貓的圖像進行分類時會發(fā)生什么。假設(shè)有一個單獨的貓的訓(xùn)練圖像以及貓的標(biāo)簽。
Single step of the training process of a neural network. The neural net is trained to classify an image as representing a dog or a cat反向傳播(backprop)是訓(xùn)練神經(jīng)網(wǎng)絡(luò)的關(guān)鍵步驟。由于神經(jīng)網(wǎng)絡(luò)執(zhí)行的計算和損失是可微函數(shù)[3],可以計算應(yīng)該應(yīng)用于神經(jīng)網(wǎng)絡(luò)的每個參數(shù)的梯度,以減少神經(jīng)網(wǎng)絡(luò)當(dāng)前預(yù)測的標(biāo)記和真實/目標(biāo)標(biāo)記之間的差異(該差異由損失函數(shù)測量)。反向傳播之后是優(yōu)化器,它為模型計算更新的參數(shù)。這就是為什么訓(xùn)練神經(jīng)網(wǎng)絡(luò)更像是一門藝術(shù)而不是一門科學(xué),因為有太多可能的優(yōu)化器和優(yōu)化設(shè)置(超參數(shù))。
訓(xùn)練圖像現(xiàn)在是一只貓,指示圖片代表貓的標(biāo)簽是紅色三角形。大的三角形是神經(jīng)網(wǎng)絡(luò),有■(正方形)個參數(shù)和梯度。損失函數(shù)是標(biāo)有L的梯形,優(yōu)化器是標(biāo)有O的梯形。然后,學(xué)習(xí)過程只是重復(fù)應(yīng)用優(yōu)化步驟,直到收斂到神經(jīng)網(wǎng)絡(luò)的良好參數(shù)為止。
Let’s turn to meta-learning元學(xué)習(xí)的思想是學(xué)習(xí)學(xué)習(xí)過程(learn the learning process)。 有幾種方法可以實現(xiàn)元學(xué)習(xí)[4],但我想在這里描述的兩種方法是關(guān)于學(xué)習(xí)一個類似于我們剛剛看到的學(xué)習(xí)過程。 在我們的訓(xùn)練過程中,特別需要學(xué)習(xí)兩件事:
我將描述這兩種情況的組合,但是每種情況本身也非常有趣,可以導(dǎo)致簡化、加速和合理的理論結(jié)果。現(xiàn)在,我們有兩個要訓(xùn)練的模塊:模型(M)的模型是我們以前的神經(jīng)網(wǎng)絡(luò)。現(xiàn)在可以將其視為低級別的網(wǎng)絡(luò)(low-level network)。有時稱為優(yōu)化器( optimizee)或?qū)W習(xí)器(learner)。模型的權(quán)重為圖中的■。 優(yōu)化器(O)或元學(xué)習(xí)器(meta-learner)是一個更高級別的模型(higher-level model),它正在更新較低級別網(wǎng)絡(luò)(模型)的權(quán)重。優(yōu)化器的權(quán)重為上圖中的★。
How do we learn these meta-parameters?事實證明,我們可以沿著訓(xùn)練過程本身反向傳播元損失梯度,回到模型的初始權(quán)重和/或優(yōu)化器的參數(shù)。 我們現(xiàn)在有兩個嵌套的訓(xùn)練過程:優(yōu)化器/元學(xué)習(xí)器的元訓(xùn)練過程,其中(元)向前傳遞包括模型的幾個訓(xùn)練步驟(前面已經(jīng)看到了向前、向后和優(yōu)化步驟)。 A meta-training step (training the optimizer O) comprising with 3 steps of training the model M)這里,元訓(xùn)練過程的單個步驟被水平表示。它包括模型訓(xùn)練過程的兩個步驟(縱向圖的元前向傳播和元后向傳播)。模型的訓(xùn)練過程和我們剛才看到的訓(xùn)練過程一模一樣。 如我們所見,元前向傳播(meta-forward)過程的輸入是在模型訓(xùn)練過程中連續(xù)使用的示例/標(biāo)簽列表(或批次列表)。
The input of a meta-training step is a list of examples (??, ??) with associated labels (??,??)可以用什么元損失來訓(xùn)練元學(xué)習(xí)器?在模型訓(xùn)練時,可以簡單地將模型預(yù)測與目標(biāo)標(biāo)簽進行比較,以獲得誤差信號。對于元學(xué)習(xí)器,我們想要一個元損失,該損失表明元學(xué)習(xí)器執(zhí)行任務(wù)的能力:訓(xùn)練模型。一種可能性是在一些訓(xùn)練數(shù)據(jù)上計算模型的損失,損失越小,訓(xùn)練效果越好。我們可以在最后計算出元損失,甚至可以將訓(xùn)練期間已經(jīng)計算出的模型損失相結(jié)合(例如將它們相加)。我們還需要一個元優(yōu)化器來更新優(yōu)化器的權(quán)重。在這里,它開始變得非常元化,因為我們可以使用另一個元學(xué)習(xí)器來優(yōu)化元學(xué)習(xí)器,依此類推,但最終,我們將需要一個手動定義的優(yōu)化器,例如SGD或ADAM(不能將所有下降)。關(guān)于實現(xiàn)的一些重要說明,我們現(xiàn)在也可以討論: 二階導(dǎo)數(shù)(Second-order derivatives):通過模型的梯度反向傳播元損失涉及計算導(dǎo)數(shù)的導(dǎo)數(shù),即二階導(dǎo)數(shù)(當(dāng)綠色▲經(jīng)過我們上一個動畫的元后向傳遞時的綠色■時)。我們可以在Tensorflow或PyTorch等現(xiàn)代框架中進行計算,但實際上,我們通常會丟棄二階導(dǎo)數(shù),并且僅通過模型權(quán)重(元后向傳遞的黃色■)進行反向傳播以降低復(fù)雜性。 坐標(biāo)共享(Coordinate sharing):最近的深度學(xué)習(xí)模型可以包含大量參數(shù)(在NLP中大約為30-200百萬)。使用當(dāng)前的GPU內(nèi)存,不可能有如此多的參數(shù)作為優(yōu)化器的單獨輸入。我們通常做的稱為坐標(biāo)共享,這意味著我們?yōu)槟P偷膯蝹€參數(shù)設(shè)計優(yōu)化器,并為所有參數(shù)復(fù)制優(yōu)化器(即,沿與模型參數(shù)相關(guān)聯(lián)的輸入維度分配權(quán)重)。這樣,元學(xué)習(xí)器的參數(shù)數(shù)量與模型的參數(shù)數(shù)量無關(guān)。當(dāng)元學(xué)習(xí)器是一個具有像RNN那樣的記憶的網(wǎng)絡(luò)時,我們?nèi)匀豢梢栽试S每個模型參數(shù)具有單獨的隱藏狀態(tài),以保持每個模型參數(shù)的演化的單獨記憶。
Meta-learning in PyTorch讓我們嘗試一些代碼,看看實際情況如何。 因此,我們有一個帶有權(quán)重的模型,我們希望對其進行訓(xùn)練并將其用于兩個任務(wù): 在PyTorch中,最簡單的方法是有兩個代表模型的重復(fù)模塊,每個任務(wù)一個。讓我們調(diào)用前向模型負責(zé)存儲元前向傳遞期間使用的模型梯度的模塊,以及后向模型負責(zé)將參數(shù)作為元后向傳遞期間反向傳播優(yōu)化器梯度的連續(xù)路徑的模塊。這兩個模塊將共享其張量,以避免重復(fù)存儲(張量是內(nèi)存中的真實內(nèi)容),但將保留單獨的變量,以完全分隔模型的梯度和用于元學(xué)習(xí)器的梯度。A simple meta-learner class in PyTorch在PyTorch中共享張量非常簡單:只需要更新Variable類中的指針以指向相同的張量即可。當(dāng)模型已經(jīng)是內(nèi)存優(yōu)化模型,例如具有共享張量(輸入和輸出嵌入)的AWD-LSTM或AWD-QRNN模型時,就會遇到一個難題。然后,當(dāng)我們更新兩個模塊的模型參數(shù)時,需要注意保持正確的指針。def get_params(module, memo=None, pointers=None): ''' Returns an iterator over PyTorch module parameters that allows to update parameters (and not only the data). ! Side effect: update shared parameters to point to the first yield instance (i.e. you can update shared parameters and keep them shared) Yields: (Module, string, Parameter): Tuple containing the parameter's module, name and pointer ''' if memo is None: memo = set() pointers = {} for name, p in module._parameters.items(): if p not in memo: memo.add(p) pointers[p] = (module, name) yield module, name, p elif p is not None: prev_module, prev_name = pointers[p] module._parameters[name] = prev_module._parameters[prev_name] # update shared parameter pointer for child_module in module.children(): for m, n, p in get_params(child_module, memo, pointers): yield m, n, p
使用此函數(shù),我們可以直接插入任何模型并在元學(xué)習(xí)器中循環(huán)遍歷模型參數(shù)[8]。現(xiàn)在,讓我們編寫一個簡單的元學(xué)習(xí)器類。我們的優(yōu)化程序是一個模塊,該模塊將在正向傳播過程中作為輸入,正向模型(帶有漸變)和后向模型將循環(huán)其參數(shù),以允許元梯度向后傳播的方式更新向后模型參數(shù)(通過更新參數(shù)指針而不僅僅是張量)。class MetaLearner(nn.Module): ''' Bare Meta-learner class Should be added: intialization, hidden states, more control over everything ''' def __init__(self, model): super(MetaLearner, self).__init__() self.weights = Parameter(torch.Tensor(1, 2))
def forward(self, forward_model, backward_model): ''' Forward optimizer with a simple linear neural net Inputs: forward_model: PyTorch module with parameters gradient populated backward_model: PyTorch module identical to forward_model (but without gradients) updated at the Parameter level to keep track of the computation graph for meta-backward pass ''' f_model_iter = get_params(forward_model) b_model_iter = get_params(backward_model) for f_param_tuple, b_param_tuple in zip(f_model_iter, b_model_iter): # loop over parameters # Prepare the inputs, we detach the inputs to avoid computing 2nd derivatives (re-pack in new Variable) (module_f, name_f, param_f) = f_param_tuple (module_b, name_b, param_b) = b_param_tuple inputs = Variable(torch.stack([param_f.grad.data, param_f.data], dim=-1)) # Optimization step: compute new model parameters, here we apply a simple linear function dW = F.linear(inputs, self.weights).squeeze() param_b = param_b + dW # Update backward_model (meta-gradients can flow) and forward_model (no need for meta-gradients). module_b._parameters[name_b] = param_b param_f.data = param_b.data
現(xiàn)在,我們可以像在第一部分中看到的那樣訓(xùn)練該優(yōu)化器。這是一個簡單的要點,說明了我們已經(jīng)描述的元訓(xùn)練過程:def train(forward_model, backward_model, optimizer, meta_optimizer, train_data, meta_epochs): ''' Train a meta-learner Inputs: forward_model, backward_model: Two identical PyTorch modules (can have shared Tensors) optimizer: a neural net to be used as optimizer (an instance of the MetaLearner class) meta_optimizer: an optimizer for the optimizer neural net, e.g. ADAM train_data: an iterator over an epoch of training data meta_epochs: meta-training steps To be added: intialization, early stopping, checkpointing, more control over everything ''' for meta_epoch in range(meta_epochs): # Meta-training loop (train the optimizer) optimizer.zero_grad() losses = [] for inputs, labels in train_data: # Meta-forward pass (train the model) forward_model.zero_grad() # Forward pass inputs = Variable(inputs) labels = Variable(labels) output = forward_model(inputs) loss = loss_func(output, labels) # Compute loss losses.append(loss) loss.backward() # Backward pass to add gradients to the forward_model optimizer(forward_model, # Optimizer step (update the models) backward_model) meta_loss = sum(losses) # Compute a simple meta-loss meta_loss.backward() # Meta-backward pass meta_optimizer.step() # Meta-optimizer step
Avoid memory blow-up — Hidden State Memorization有時我們想學(xué)習(xí)一個優(yōu)化器,該優(yōu)化器可以在具有數(shù)千萬參數(shù)的超大型模型上運行,同時我們想通過大量步驟來展開元訓(xùn)練,以獲得高質(zhì)量的梯度,例如我們在工作中做到了。實際上,這意味著我們要在元前傳過程中包括很長的訓(xùn)練過程,其中包含許多時間步長,并且我們必須將參數(shù)保留在內(nèi)存中(黃色■)和漸變(綠色■)的數(shù)據(jù)用于元后向傳遞。在不消耗GPU內(nèi)存的情況下,我們該怎么做?一種方法是通過使用梯度檢查點,也稱為隱藏狀態(tài)記憶,來交換一些內(nèi)存進行計算[10]。在我們的例子中,梯度檢查點包括將元前向和元后向路徑分割成我們連續(xù)計算的片段。OpenAI 的 Yaroslav Bulatov 的博客文章很好地介紹了梯度檢查點(gradient checkpointing)。如果你對此感興趣,可以點此查看。這篇文章已經(jīng)很長了,所以我不會包含梯度檢查點代碼的全部要點。我更愿意介紹TSHadley的PyTorch實現(xiàn),以及當(dāng)前在PyTorch中包含梯度檢查點的工作。
Other approaches in Meta-learning ??我還沒有時間來探討元學(xué)習(xí)方面的其他兩個研究趨勢,但它們也非常有希望。我只給一些指示,以便在了解一般思路后可以自己檢查一下: 遞歸網(wǎng)絡(luò)(Recurrent networks):我們已經(jīng)建立了神經(jīng)網(wǎng)絡(luò)的標(biāo)準(zhǔn)訓(xùn)練過程。另一種方法是將任務(wù)序列視為一系列連續(xù)的輸入,并構(gòu)建一個循環(huán)模型,該模型可以為新任務(wù)攝取并構(gòu)建該序列的表示。在這種情況下,我們通常有一個帶有記憶或注意力的循環(huán)網(wǎng)絡(luò)的單一訓(xùn)練過程。這種方法也給出了很好的結(jié)果,特別是當(dāng)嵌入是為任務(wù)充分設(shè)計的時候。一個很好的例子是最近的 SNAIL paper。 強化學(xué)習(xí)(Reinforcement learning):優(yōu)化器在元轉(zhuǎn)發(fā)過程中進行的計算非常類似于遞歸網(wǎng)絡(luò)的計算:對一系列輸入(學(xué)習(xí)過程中模型的連續(xù)權(quán)重和梯度)重復(fù)應(yīng)用相同的參數(shù)。在實踐中,這意味著我們遇到了一個關(guān)于遞歸網(wǎng)絡(luò)的常見問題:模型在出錯時很難回到安全路徑,因為它們沒有被訓(xùn)練來從訓(xùn)練錯誤中恢復(fù),并且模型很難推廣到比元訓(xùn)練期間使用的序列更長的序列。為了解決這些問題,可以求助于強化學(xué)習(xí)方法,其中模型學(xué)習(xí)與當(dāng)前培訓(xùn)狀態(tài)相關(guān)聯(lián)的行動策略。
Meta-learning in Natural Language Processing ??元學(xué)習(xí)和自然語言處理(NLP)中使用的神經(jīng)網(wǎng)絡(luò)模型之間有一個有趣的相似之處,如我們在上一段中剛剛提到的遞歸神經(jīng)網(wǎng)絡(luò)(RNN):元學(xué)習(xí)器優(yōu)化神經(jīng)網(wǎng)絡(luò)模型的行為類似于遞歸神經(jīng)網(wǎng)絡(luò)。像RNN一樣,元學(xué)習(xí)器在訓(xùn)練過程中吸收模型的一系列參數(shù)和梯度作為輸入序列,并根據(jù)該輸入序列計算順序輸出(更新模型參數(shù)的系列)。我們在論文中發(fā)展了這一類比,并研究了元學(xué)習(xí)器如何在神經(jīng)網(wǎng)絡(luò)語言模型中實現(xiàn)中期記憶:元學(xué)習(xí)器學(xué)習(xí)用標(biāo)準(zhǔn)RNN(如LSTM)的權(quán)重對中期記憶進行編碼(除了短期記憶在LSTM的隱藏狀態(tài)下的傳統(tǒng)編碼方式)。
我們的元學(xué)習(xí)語言模型有三個層次的記憶,從下到上:一個標(biāo)準(zhǔn)的LSTM,一個元學(xué)習(xí)器更新LSTM的權(quán)重來存儲中期記憶和長期靜態(tài)記憶。 我們發(fā)現(xiàn),元學(xué)習(xí)語言模型可以被訓(xùn)練成對最近輸入的記憶進行編碼,比如維基百科文章的開頭,這將有助于預(yù)測文章的結(jié)尾。 曲線表明該模型在預(yù)測 Wikipedia 文章開頭的單詞方面有多好(A、...、H 是連續(xù)的 Wikipedia 文章),彩色單詞表示單個單詞相同,藍色更好,紅色更差。當(dāng)模型通讀一篇文章時,它會從頭開始學(xué)習(xí)并更好地預(yù)測結(jié)尾。若覺得還不錯的話,請點個 “贊” 或 “在看” 吧
|