元學(xué)習(xí)（Meta-learning）基本概述

新用戶0118F7lQ 2022-11-07 發(fā)布于山東

展開全文

【技術(shù)文檔】《從零搭建pytorch模型教程》122頁PDF下載
QQ交流群：444129970。群內(nèi)有大佬負責(zé)解答大家的日常學(xué)習(xí)、科研、代碼問題，群文件里也有很多計算機視覺入門的電子版資料，想要領(lǐng)取的朋友請加群自行下載。

作者：Thomas Wolf

原文：https:///huggingface/from-zero-to-research-an-introduction-to-meta-learning-8e16e677f78a

轉(zhuǎn)載自：

https://blog.csdn.net/weixin_39653948/article/details/109279826

僅用于學(xué)術(shù)分享，若侵權(quán)請聯(lián)系刪除

元學(xué)習(xí)（Meta-learning）是機器學(xué)習(xí)領(lǐng)域一個令人興奮的研究趨勢，它解決了學(xué)會學(xué)習(xí)（learning to learn）的問題。

機器學(xué)習(xí)研究的傳統(tǒng)模式是獲取特定任務(wù)的龐大數(shù)據(jù)集，并利用該數(shù)據(jù)集從頭開始訓(xùn)練模型。顯然，這與人類如何利用過去的經(jīng)驗快速學(xué)習(xí)新任務(wù)相去甚遠。那是因為人類學(xué)會了學(xué)習(xí)（learn to learn）。

What’s learning in the first place?

看一下當(dāng)訓(xùn)練一個簡單的神經(jīng)網(wǎng)絡(luò)對狗和貓的圖像進行分類時會發(fā)生什么。假設(shè)有一個單獨的貓的訓(xùn)練圖像以及貓的標(biāo)簽。

Single step of the training process of a neural network. The neural net is trained to classify an image as representing a dog or a cat

反向傳播（backprop）是訓(xùn)練神經(jīng)網(wǎng)絡(luò)的關(guān)鍵步驟。由于神經(jīng)網(wǎng)絡(luò)執(zhí)行的計算和損失是可微函數(shù)[3]，可以計算應(yīng)該應(yīng)用于神經(jīng)網(wǎng)絡(luò)的每個參數(shù)的梯度，以減少神經(jīng)網(wǎng)絡(luò)當(dāng)前預(yù)測的標(biāo)記和真實/目標(biāo)標(biāo)記之間的差異(該差異由損失函數(shù)測量)。反向傳播之后是優(yōu)化器，它為模型計算更新的參數(shù)。這就是為什么訓(xùn)練神經(jīng)網(wǎng)絡(luò)更像是一門藝術(shù)而不是一門科學(xué)，因為有太多可能的優(yōu)化器和優(yōu)化設(shè)置(超參數(shù))。

讓我們以更緊湊的方式表示單個訓(xùn)練步驟：

訓(xùn)練圖像現(xiàn)在是一只貓，指示圖片代表貓的標(biāo)簽是紅色三角形。大的三角形是神經(jīng)網(wǎng)絡(luò)，有■（正方形）個參數(shù)和梯度。損失函數(shù)是標(biāo)有L的梯形，優(yōu)化器是標(biāo)有O的梯形。然后，學(xué)習(xí)過程只是重復(fù)應(yīng)用優(yōu)化步驟，直到收斂到神經(jīng)網(wǎng)絡(luò)的良好參數(shù)為止。

Let’s turn to meta-learning

元學(xué)習(xí)的思想是學(xué)習(xí)學(xué)習(xí)過程（learn the learning process）。

有幾種方法可以實現(xiàn)元學(xué)習(xí)[4]，但我想在這里描述的兩種方法是關(guān)于學(xué)習(xí)一個類似于我們剛剛看到的學(xué)習(xí)過程。

在我們的訓(xùn)練過程中，特別需要學(xué)習(xí)兩件事：

神經(jīng)網(wǎng)絡(luò)的初始參數(shù)（藍色■）
優(yōu)化程序的參數(shù)（粉紅色★）

我將描述這兩種情況的組合，但是每種情況本身也非常有趣，可以導(dǎo)致簡化、加速和合理的理論結(jié)果。

現(xiàn)在，我們有兩個要訓(xùn)練的模塊：

模型（M）的模型是我們以前的神經(jīng)網(wǎng)絡(luò)。現(xiàn)在可以將其視為低級別的網(wǎng)絡(luò)（low-level network）。有時稱為優(yōu)化器（ optimizee）或?qū)W習(xí)器（learner）。模型的權(quán)重為圖中的■。
優(yōu)化器（O）或元學(xué)習(xí)器（meta-learner）是一個更高級別的模型（higher-level model），它正在更新較低級別網(wǎng)絡(luò)（模型）的權(quán)重。優(yōu)化器的權(quán)重為上圖中的★。

How do we learn these meta-parameters?

事實證明，我們可以沿著訓(xùn)練過程本身反向傳播元損失梯度，回到模型的初始權(quán)重和/或優(yōu)化器的參數(shù)。

我們現(xiàn)在有兩個嵌套的訓(xùn)練過程：優(yōu)化器/元學(xué)習(xí)器的元訓(xùn)練過程，其中(元)向前傳遞包括模型的幾個訓(xùn)練步驟(前面已經(jīng)看到了向前、向后和優(yōu)化步驟)。

讓我們看一下元訓(xùn)練步驟：

A meta-training step (training the optimizer O) comprising with 3 steps of training the model M)

這里，元訓(xùn)練過程的單個步驟被水平表示。它包括模型訓(xùn)練過程的兩個步驟(縱向圖的元前向傳播和元后向傳播)。模型的訓(xùn)練過程和我們剛才看到的訓(xùn)練過程一模一樣。

如我們所見，元前向傳播（meta-forward）過程的輸入是在模型訓(xùn)練過程中連續(xù)使用的示例/標(biāo)簽列表(或批次列表)。

The input of a meta-training step is a list of examples (??, ??) with associated labels (??,??)

可以用什么元損失來訓(xùn)練元學(xué)習(xí)器？在模型訓(xùn)練時，可以簡單地將模型預(yù)測與目標(biāo)標(biāo)簽進行比較，以獲得誤差信號。對于元學(xué)習(xí)器，我們想要一個元損失，該損失表明元學(xué)習(xí)器執(zhí)行任務(wù)的能力：訓(xùn)練模型。

一種可能性是在一些訓(xùn)練數(shù)據(jù)上計算模型的損失，損失越小，訓(xùn)練效果越好。我們可以在最后計算出元損失，甚至可以將訓(xùn)練期間已經(jīng)計算出的模型損失相結(jié)合（例如將它們相加）。

我們還需要一個元優(yōu)化器來更新優(yōu)化器的權(quán)重。在這里，它開始變得非常元化，因為我們可以使用另一個元學(xué)習(xí)器來優(yōu)化元學(xué)習(xí)器，依此類推，但最終，我們將需要一個手動定義的優(yōu)化器，例如SGD或ADAM（不能將所有下降）。

關(guān)于實現(xiàn)的一些重要說明，我們現(xiàn)在也可以討論：

二階導(dǎo)數(shù)（Second-order derivatives）：通過模型的梯度反向傳播元損失涉及計算導(dǎo)數(shù)的導(dǎo)數(shù)，即二階導(dǎo)數(shù)（當(dāng)綠色▲經(jīng)過我們上一個動畫的元后向傳遞時的綠色■時）。我們可以在Tensorflow或PyTorch等現(xiàn)代框架中進行計算，但實際上，我們通常會丟棄二階導(dǎo)數(shù)，并且僅通過模型權(quán)重（元后向傳遞的黃色■）進行反向傳播以降低復(fù)雜性。
坐標(biāo)共享（Coordinate sharing）：最近的深度學(xué)習(xí)模型可以包含大量參數(shù)（在NLP中大約為30-200百萬）。使用當(dāng)前的GPU內(nèi)存，不可能有如此多的參數(shù)作為優(yōu)化器的單獨輸入。我們通常做的稱為坐標(biāo)共享，這意味著我們?yōu)槟Ｐ偷膯蝹€參數(shù)設(shè)計優(yōu)化器，并為所有參數(shù)復(fù)制優(yōu)化器（即，沿與模型參數(shù)相關(guān)聯(lián)的輸入維度分配權(quán)重）。這樣，元學(xué)習(xí)器的參數(shù)數(shù)量與模型的參數(shù)數(shù)量無關(guān)。當(dāng)元學(xué)習(xí)器是一個具有像RNN那樣的記憶的網(wǎng)絡(luò)時，我們?nèi)匀豢梢栽试S每個模型參數(shù)具有單獨的隱藏狀態(tài)，以保持每個模型參數(shù)的演化的單獨記憶。

Meta-learning in PyTorch

讓我們嘗試一些代碼，看看實際情況如何。

因此，我們有一個帶有權(quán)重的模型，我們希望對其進行訓(xùn)練并將其用于兩個任務(wù)：

在元前向傳播過程中：使用模型來計算梯度（從損失中得出），這些梯度將作為優(yōu)化器的輸入，以更新模型參數(shù)；
在元反向傳播過程中：使用模型作為反向傳播優(yōu)化器參數(shù)梯度的路徑（根據(jù)元損失計算）。

在PyTorch中，最簡單的方法是有兩個代表模型的重復(fù)模塊，每個任務(wù)一個。讓我們調(diào)用前向模型負責(zé)存儲元前向傳遞期間使用的模型梯度的模塊，以及后向模型負責(zé)將參數(shù)作為元后向傳遞期間反向傳播優(yōu)化器梯度的連續(xù)路徑的模塊。

這兩個模塊將共享其張量，以避免重復(fù)存儲（張量是內(nèi)存中的真實內(nèi)容），但將保留單獨的變量，以完全分隔模型的梯度和用于元學(xué)習(xí)器的梯度。

A simple meta-learner class in PyTorch

在PyTorch中共享張量非常簡單：只需要更新Variable類中的指針以指向相同的張量即可。當(dāng)模型已經(jīng)是內(nèi)存優(yōu)化模型，例如具有共享張量（輸入和輸出嵌入）的AWD-LSTM或AWD-QRNN模型時，就會遇到一個難題。然后，當(dāng)我們更新兩個模塊的模型參數(shù)時，需要注意保持正確的指針。

def get_params(module, memo=None, pointers=None):
    ''' Returns an iterator over PyTorch module parameters that allows to update parameters
        (and not only the data).
    ! Side effect: update shared parameters to point to the first yield instance
        (i.e. you can update shared parameters and keep them shared)
    Yields:
        (Module, string, Parameter): Tuple containing the parameter's module, name and pointer
    '''
    if memo is None:
        memo = set()
        pointers = {}
    for name, p in module._parameters.items():
        if p not in memo:
            memo.add(p)
            pointers[p] = (module, name)
            yield module, name, p
        elif p is not None:
            prev_module, prev_name = pointers[p]
            module._parameters[name] = prev_module._parameters[prev_name] # update shared parameter pointer
    for child_module in module.children():
        for m, n, p in get_params(child_module, memo, pointers):
            yield m, n, p

使用此函數(shù)，我們可以直接插入任何模型并在元學(xué)習(xí)器中循環(huán)遍歷模型參數(shù)[8]。

現(xiàn)在，讓我們編寫一個簡單的元學(xué)習(xí)器類。我們的優(yōu)化程序是一個模塊，該模塊將在正向傳播過程中作為輸入，正向模型（帶有漸變）和后向模型將循環(huán)其參數(shù)，以允許元梯度向后傳播的方式更新向后模型參數(shù)（通過更新參數(shù)指針而不僅僅是張量）。

class MetaLearner(nn.Module):
    ''' Bare Meta-learner class
        Should be added: intialization, hidden states, more control over everything
    '''
    def __init__(self, model):
        super(MetaLearner, self).__init__()
        self.weights = Parameter(torch.Tensor(1, 2))

    def forward(self, forward_model, backward_model):
        ''' Forward optimizer with a simple linear neural net
        Inputs:
            forward_model: PyTorch module with parameters gradient populated
            backward_model: PyTorch module identical to forward_model (but without gradients)
              updated at the Parameter level to keep track of the computation graph for meta-backward pass
        '''
        f_model_iter = get_params(forward_model)
        b_model_iter = get_params(backward_model)
        for f_param_tuple, b_param_tuple in zip(f_model_iter, b_model_iter): # loop over parameters
            # Prepare the inputs, we detach the inputs to avoid computing 2nd derivatives (re-pack in new Variable)
            (module_f, name_f, param_f) = f_param_tuple
            (module_b, name_b, param_b) = b_param_tuple
            inputs = Variable(torch.stack([param_f.grad.data, param_f.data], dim=-1))
            # Optimization step: compute new model parameters, here we apply a simple linear function
            dW = F.linear(inputs, self.weights).squeeze()
            param_b = param_b + dW
            # Update backward_model (meta-gradients can flow) and forward_model (no need for meta-gradients).
            module_b._parameters[name_b] = param_b
            param_f.data = param_b.data

現(xiàn)在，我們可以像在第一部分中看到的那樣訓(xùn)練該優(yōu)化器。這是一個簡單的要點，說明了我們已經(jīng)描述的元訓(xùn)練過程：

def train(forward_model, backward_model, optimizer, meta_optimizer, train_data, meta_epochs):
  ''' Train a meta-learner
  Inputs:
    forward_model, backward_model: Two identical PyTorch modules (can have shared Tensors)
    optimizer: a neural net to be used as optimizer (an instance of the MetaLearner class)
    meta_optimizer: an optimizer for the optimizer neural net, e.g. ADAM
    train_data: an iterator over an epoch of training data
    meta_epochs: meta-training steps
  To be added: intialization, early stopping, checkpointing, more control over everything
  '''
  for meta_epoch in range(meta_epochs): # Meta-training loop (train the optimizer)
    optimizer.zero_grad()
    losses = []
    for inputs, labels in train_data:   # Meta-forward pass (train the model)
      forward_model.zero_grad()         # Forward pass
      inputs = Variable(inputs)
      labels = Variable(labels)
      output = forward_model(inputs)
      loss = loss_func(output, labels)  # Compute loss
      losses.append(loss)
      loss.backward()                   # Backward pass to add gradients to the forward_model
      optimizer(forward_model,          # Optimizer step (update the models)
                backward_model)
    meta_loss = sum(losses)             # Compute a simple meta-loss
    meta_loss.backward()                # Meta-backward pass
    meta_optimizer.step()               # Meta-optimizer step

Avoid memory blow-up — Hidden State Memorization

有時我們想學(xué)習(xí)一個優(yōu)化器，該優(yōu)化器可以在具有數(shù)千萬參數(shù)的超大型模型上運行，同時我們想通過大量步驟來展開元訓(xùn)練，以獲得高質(zhì)量的梯度，例如我們在工作中做到了。

實際上，這意味著我們要在元前傳過程中包括很長的訓(xùn)練過程，其中包含許多時間步長，并且我們必須將參數(shù)保留在內(nèi)存中（黃色■）和漸變（綠色■）的數(shù)據(jù)用于元后向傳遞。

在不消耗GPU內(nèi)存的情況下，我們該怎么做？

一種方法是通過使用梯度檢查點，也稱為隱藏狀態(tài)記憶，來交換一些內(nèi)存進行計算[10]。在我們的例子中，梯度檢查點包括將元前向和元后向路徑分割成我們連續(xù)計算的片段。

OpenAI 的 Yaroslav Bulatov 的博客文章很好地介紹了梯度檢查點（gradient checkpointing）。如果你對此感興趣，可以點此查看。

這篇文章已經(jīng)很長了，所以我不會包含梯度檢查點代碼的全部要點。我更愿意介紹TSHadley的PyTorch實現(xiàn)，以及當(dāng)前在PyTorch中包含梯度檢查點的工作。

Other approaches in Meta-learning ??

我還沒有時間來探討元學(xué)習(xí)方面的其他兩個研究趨勢，但它們也非常有希望。我只給一些指示，以便在了解一般思路后可以自己檢查一下：

遞歸網(wǎng)絡(luò)（Recurrent networks）：我們已經(jīng)建立了神經(jīng)網(wǎng)絡(luò)的標(biāo)準(zhǔn)訓(xùn)練過程。另一種方法是將任務(wù)序列視為一系列連續(xù)的輸入，并構(gòu)建一個循環(huán)模型，該模型可以為新任務(wù)攝取并構(gòu)建該序列的表示。在這種情況下，我們通常有一個帶有記憶或注意力的循環(huán)網(wǎng)絡(luò)的單一訓(xùn)練過程。這種方法也給出了很好的結(jié)果，特別是當(dāng)嵌入是為任務(wù)充分設(shè)計的時候。一個很好的例子是最近的 SNAIL paper。
強化學(xué)習(xí)（Reinforcement learning）：優(yōu)化器在元轉(zhuǎn)發(fā)過程中進行的計算非常類似于遞歸網(wǎng)絡(luò)的計算:對一系列輸入(學(xué)習(xí)過程中模型的連續(xù)權(quán)重和梯度)重復(fù)應(yīng)用相同的參數(shù)。在實踐中，這意味著我們遇到了一個關(guān)于遞歸網(wǎng)絡(luò)的常見問題:模型在出錯時很難回到安全路徑，因為它們沒有被訓(xùn)練來從訓(xùn)練錯誤中恢復(fù)，并且模型很難推廣到比元訓(xùn)練期間使用的序列更長的序列。為了解決這些問題，可以求助于強化學(xué)習(xí)方法，其中模型學(xué)習(xí)與當(dāng)前培訓(xùn)狀態(tài)相關(guān)聯(lián)的行動策略。

Meta-learning in Natural Language Processing ??

元學(xué)習(xí)和自然語言處理(NLP)中使用的神經(jīng)網(wǎng)絡(luò)模型之間有一個有趣的相似之處，如我們在上一段中剛剛提到的遞歸神經(jīng)網(wǎng)絡(luò)(RNN)：元學(xué)習(xí)器優(yōu)化神經(jīng)網(wǎng)絡(luò)模型的行為類似于遞歸神經(jīng)網(wǎng)絡(luò)。

像RNN一樣，元學(xué)習(xí)器在訓(xùn)練過程中吸收模型的一系列參數(shù)和梯度作為輸入序列，并根據(jù)該輸入序列計算順序輸出(更新模型參數(shù)的系列)。

我們在論文中發(fā)展了這一類比，并研究了元學(xué)習(xí)器如何在神經(jīng)網(wǎng)絡(luò)語言模型中實現(xiàn)中期記憶：元學(xué)習(xí)器學(xué)習(xí)用標(biāo)準(zhǔn)RNN(如LSTM)的權(quán)重對中期記憶進行編碼(除了短期記憶在LSTM的隱藏狀態(tài)下的傳統(tǒng)編碼方式)。