一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

元學(xué)習(xí)(Meta-learning)基本概述

 新用戶0118F7lQ 2022-11-07 發(fā)布于山東

【技術(shù)文檔】《從零搭建pytorch模型教程》122頁PDF下載

QQ交流群:444129970。群內(nèi)有大佬負責(zé)解答大家的日常學(xué)習(xí)、科研、代碼問題,群文件里也有很多計算機視覺入門的電子版資料,想要領(lǐng)取的朋友請加群自行下載。

作者Thomas Wolf
原文:https:///huggingface/from-zero-to-research-an-introduction-to-meta-learning-8e16e677f78a
轉(zhuǎn)載自:
https://blog.csdn.net/weixin_39653948/article/details/109279826
僅用于學(xué)術(shù)分享,若侵權(quán)請聯(lián)系刪除

Image


元學(xué)習(xí)(Meta-learning)是機器學(xué)習(xí)領(lǐng)域一個令人興奮的研究趨勢,它解決了學(xué)會學(xué)習(xí)(learning to learn)的問題。

機器學(xué)習(xí)研究的傳統(tǒng)模式是獲取特定任務(wù)的龐大數(shù)據(jù)集,并利用該數(shù)據(jù)集從頭開始訓(xùn)練模型。顯然,這與人類如何利用過去的經(jīng)驗快速學(xué)習(xí)新任務(wù)相去甚遠。那是因為人類 學(xué)會了學(xué)習(xí)(learn to learn)。


What’s learning in the first place?

看一下當(dāng)訓(xùn)練一個簡單的神經(jīng)網(wǎng)絡(luò)對狗和貓的圖像進行分類時會發(fā)生什么。假設(shè)有一個單獨的貓的訓(xùn)練圖像以及貓的標(biāo)簽。

Image

Single step of the training process of a neural network. The neural net is trained to classify an image as representing a dog or a cat

反向傳播(backprop)是訓(xùn)練神經(jīng)網(wǎng)絡(luò)的關(guān)鍵步驟。由于神經(jīng)網(wǎng)絡(luò)執(zhí)行的計算和損失是可微函數(shù)[3],可以計算應(yīng)該應(yīng)用于神經(jīng)網(wǎng)絡(luò)的每個參數(shù)的梯度,以減少神經(jīng)網(wǎng)絡(luò)當(dāng)前預(yù)測的標(biāo)記和真實/目標(biāo)標(biāo)記之間的差異(該差異由損失函數(shù)測量)。反向傳播之后是優(yōu)化器,它為模型計算更新的參數(shù)。這就是為什么訓(xùn)練神經(jīng)網(wǎng)絡(luò)更像是一門藝術(shù)而不是一門科學(xué),因為有太多可能的優(yōu)化器和優(yōu)化設(shè)置(超參數(shù))。

讓我們以更緊湊的方式表示單個訓(xùn)練步驟:

Image


訓(xùn)練圖像現(xiàn)在是一只貓,指示圖片代表貓的標(biāo)簽是紅色三角形。大的三角形是神經(jīng)網(wǎng)絡(luò),有■(正方形)個參數(shù)和梯度。損失函數(shù)是標(biāo)有L的梯形,優(yōu)化器是標(biāo)有O的梯形。然后,學(xué)習(xí)過程只是重復(fù)應(yīng)用優(yōu)化步驟,直到收斂到神經(jīng)網(wǎng)絡(luò)的良好參數(shù)為止。

Image


Let’s turn to meta-learning

元學(xué)習(xí)的思想是學(xué)習(xí)學(xué)習(xí)過程(learn the learning process)。

有幾種方法可以實現(xiàn)元學(xué)習(xí)[4],但我想在這里描述的兩種方法是關(guān)于學(xué)習(xí)一個類似于我們剛剛看到的學(xué)習(xí)過程。

在我們的訓(xùn)練過程中,特別需要學(xué)習(xí)兩件事:
Image

  • 神經(jīng)網(wǎng)絡(luò)的初始參數(shù)(藍色■)

  • 優(yōu)化程序的參數(shù)(粉紅色★)

我將描述這兩種情況的組合,但是每種情況本身也非常有趣,可以導(dǎo)致簡化、加速和合理的理論結(jié)果。
現(xiàn)在,我們有兩個要訓(xùn)練的模塊:
  • 模型(M)的模型是我們以前的神經(jīng)網(wǎng)絡(luò)。現(xiàn)在可以將其視為低級別的網(wǎng)絡(luò)(low-level network)。有時稱為優(yōu)化器( optimizee)或?qū)W習(xí)器(learner)。模型的權(quán)重為圖中的■。

  • 優(yōu)化器(O)或元學(xué)習(xí)器(meta-learner)是一個更高級別的模型(higher-level model),它正在更新較低級別網(wǎng)絡(luò)(模型)的權(quán)重。優(yōu)化器的權(quán)重為上圖中的★。


How do we learn these meta-parameters?

事實證明,我們可以沿著訓(xùn)練過程本身反向傳播元損失梯度,回到模型的初始權(quán)重和/或優(yōu)化器的參數(shù)。

我們現(xiàn)在有兩個嵌套的訓(xùn)練過程:優(yōu)化器/元學(xué)習(xí)器的元訓(xùn)練過程,其中(元)向前傳遞包括模型的幾個訓(xùn)練步驟(前面已經(jīng)看到了向前、向后和優(yōu)化步驟)。

讓我們看一下元訓(xùn)練步驟:

Image

A meta-training step (training the optimizer O) comprising with 3 steps of training the model M)

這里,元訓(xùn)練過程的單個步驟被水平表示。它包括模型訓(xùn)練過程的兩個步驟(縱向圖的元前向傳播和元后向傳播)。模型的訓(xùn)練過程和我們剛才看到的訓(xùn)練過程一模一樣。

如我們所見,元前向傳播(meta-forward)過程的輸入是在模型訓(xùn)練過程中連續(xù)使用的示例/標(biāo)簽列表(或批次列表)。
Image

The input of a meta-training step is a list of examples (??, ??) with associated labels (??,??)
可以用什么元損失來訓(xùn)練元學(xué)習(xí)器?在模型訓(xùn)練時,可以簡單地將模型預(yù)測與目標(biāo)標(biāo)簽進行比較,以獲得誤差信號。對于元學(xué)習(xí)器,我們想要一個元損失,該損失表明元學(xué)習(xí)器執(zhí)行任務(wù)的能力:訓(xùn)練模型。
一種可能性是在一些訓(xùn)練數(shù)據(jù)上計算模型的損失,損失越小,訓(xùn)練效果越好。我們可以在最后計算出元損失,甚至可以將訓(xùn)練期間已經(jīng)計算出的模型損失相結(jié)合(例如將它們相加)。
我們還需要一個元優(yōu)化器來更新優(yōu)化器的權(quán)重。在這里,它開始變得非常元化,因為我們可以使用另一個元學(xué)習(xí)器來優(yōu)化元學(xué)習(xí)器,依此類推,但最終,我們將需要一個手動定義的優(yōu)化器,例如SGD或ADAM(不能將所有下降)。

關(guān)于實現(xiàn)的一些重要說明,我們現(xiàn)在也可以討論:

  • 二階導(dǎo)數(shù)(Second-order derivatives):通過模型的梯度反向傳播元損失涉及計算導(dǎo)數(shù)的導(dǎo)數(shù),即二階導(dǎo)數(shù)(當(dāng)綠色▲經(jīng)過我們上一個動畫的元后向傳遞時的綠色■時)。我們可以在Tensorflow或PyTorch等現(xiàn)代框架中進行計算,但實際上,我們通常會丟棄二階導(dǎo)數(shù),并且僅通過模型權(quán)重(元后向傳遞的黃色■)進行反向傳播以降低復(fù)雜性。

  • 坐標(biāo)共享(Coordinate sharing):最近的深度學(xué)習(xí)模型可以包含大量參數(shù)(在NLP中大約為30-200百萬)。使用當(dāng)前的GPU內(nèi)存,不可能有如此多的參數(shù)作為優(yōu)化器的單獨輸入。我們通常做的稱為坐標(biāo)共享,這意味著我們?yōu)槟P偷膯蝹€參數(shù)設(shè)計優(yōu)化器,并為所有參數(shù)復(fù)制優(yōu)化器(即,沿與模型參數(shù)相關(guān)聯(lián)的輸入維度分配權(quán)重)。這樣,元學(xué)習(xí)器的參數(shù)數(shù)量與模型的參數(shù)數(shù)量無關(guān)。當(dāng)元學(xué)習(xí)器是一個具有像RNN那樣的記憶的網(wǎng)絡(luò)時,我們?nèi)匀豢梢栽试S每個模型參數(shù)具有單獨的隱藏狀態(tài),以保持每個模型參數(shù)的演化的單獨記憶。


Meta-learning in PyTorch

讓我們嘗試一些代碼,看看實際情況如何。

因此,我們有一個帶有權(quán)重的模型,我們希望對其進行訓(xùn)練并將其用于兩個任務(wù):

  • 在元前向傳播過程中:使用模型來計算梯度(從損失中得出),這些梯度將作為優(yōu)化器的輸入,以更新模型參數(shù);

  • 在元反向傳播過程中:使用模型作為反向傳播優(yōu)化器參數(shù)梯度的路徑(根據(jù)元損失計算)。

在PyTorch中,最簡單的方法是有兩個代表模型的重復(fù)模塊,每個任務(wù)一個。讓我們調(diào)用前向模型負責(zé)存儲元前向傳遞期間使用的模型梯度的模塊,以及后向模型負責(zé)將參數(shù)作為元后向傳遞期間反向傳播優(yōu)化器梯度的連續(xù)路徑的模塊。
這兩個模塊將共享其張量,以避免重復(fù)存儲(張量是內(nèi)存中的真實內(nèi)容),但將保留單獨的變量,以完全分隔模型的梯度和用于元學(xué)習(xí)器的梯度。

A simple meta-learner class in PyTorch

在PyTorch中共享張量非常簡單:只需要更新Variable類中的指針以指向相同的張量即可。當(dāng)模型已經(jīng)是內(nèi)存優(yōu)化模型,例如具有共享張量(輸入和輸出嵌入)的AWD-LSTM或AWD-QRNN模型時,就會遇到一個難題。然后,當(dāng)我們更新兩個模塊的模型參數(shù)時,需要注意保持正確的指針。
def get_params(module, memo=None, pointers=None):
    ''' Returns an iterator over PyTorch module parameters that allows to update parameters
        (and not only the data).
    ! Side effect: update shared parameters to point to the first yield instance
        (i.e. you can update shared parameters and keep them shared)
    Yields:
        (Module, string, Parameter): Tuple containing the parameter's module, name and pointer
    '''

    if memo is None:
        memo = set()
        pointers = {}
    for name, p in module._parameters.items():
        if p not in memo:
            memo.add(p)
            pointers[p] = (module, name)
            yield module, name, p
        elif p is not None:
            prev_module, prev_name = pointers[p]
            module._parameters[name] = prev_module._parameters[prev_name] # update shared parameter pointer
    for child_module in module.children():
        for m, n, p in get_params(child_module, memo, pointers):
            yield m, n, p
使用此函數(shù),我們可以直接插入任何模型并在元學(xué)習(xí)器中循環(huán)遍歷模型參數(shù)[8]。
現(xiàn)在,讓我們編寫一個簡單的元學(xué)習(xí)器類。我們的優(yōu)化程序是一個模塊,該模塊將在正向傳播過程中作為輸入,正向模型(帶有漸變)和后向模型將循環(huán)其參數(shù),以允許元梯度向后傳播的方式更新向后模型參數(shù)(通過更新參數(shù)指針而不僅僅是張量)。
class MetaLearner(nn.Module):
    ''' Bare Meta-learner class
        Should be added: intialization, hidden states, more control over everything
    '''

    def __init__(self, model):
        super(MetaLearner, self).__init__()
        self.weights = Parameter(torch.Tensor(12))

    def forward(self, forward_model, backward_model):
        ''' Forward optimizer with a simple linear neural net
        Inputs:
            forward_model: PyTorch module with parameters gradient populated
            backward_model: PyTorch module identical to forward_model (but without gradients)
              updated at the Parameter level to keep track of the computation graph for meta-backward pass
        '''

        f_model_iter = get_params(forward_model)
        b_model_iter = get_params(backward_model)
        for f_param_tuple, b_param_tuple in zip(f_model_iter, b_model_iter): # loop over parameters
            # Prepare the inputs, we detach the inputs to avoid computing 2nd derivatives (re-pack in new Variable)
            (module_f, name_f, param_f) = f_param_tuple
            (module_b, name_b, param_b) = b_param_tuple
            inputs = Variable(torch.stack([param_f.grad.data, param_f.data], dim=-1))
            # Optimization step: compute new model parameters, here we apply a simple linear function
            dW = F.linear(inputs, self.weights).squeeze()
            param_b = param_b + dW
            # Update backward_model (meta-gradients can flow) and forward_model (no need for meta-gradients).
            module_b._parameters[name_b] = param_b
            param_f.data = param_b.data

現(xiàn)在,我們可以像在第一部分中看到的那樣訓(xùn)練該優(yōu)化器。這是一個簡單的要點,說明了我們已經(jīng)描述的元訓(xùn)練過程:
def train(forward_model, backward_model, optimizer, meta_optimizer, train_data, meta_epochs):
  ''' Train a meta-learner
  Inputs:
    forward_model, backward_model: Two identical PyTorch modules (can have shared Tensors)
    optimizer: a neural net to be used as optimizer (an instance of the MetaLearner class)
    meta_optimizer: an optimizer for the optimizer neural net, e.g. ADAM
    train_data: an iterator over an epoch of training data
    meta_epochs: meta-training steps
  To be added: intialization, early stopping, checkpointing, more control over everything
  '''

  for meta_epoch in range(meta_epochs): # Meta-training loop (train the optimizer)
    optimizer.zero_grad()
    losses = []
    for inputs, labels in train_data:   # Meta-forward pass (train the model)
      forward_model.zero_grad()         # Forward pass
      inputs = Variable(inputs)
      labels = Variable(labels)
      output = forward_model(inputs)
      loss = loss_func(output, labels)  # Compute loss
      losses.append(loss)
      loss.backward()                   # Backward pass to add gradients to the forward_model
      optimizer(forward_model,          # Optimizer step (update the models)
                backward_model)
    meta_loss = sum(losses)             # Compute a simple meta-loss
    meta_loss.backward()                # Meta-backward pass
    meta_optimizer.step()               # Meta-optimizer step

Avoid memory blow-up — Hidden State Memorization

有時我們想學(xué)習(xí)一個優(yōu)化器,該優(yōu)化器可以在具有數(shù)千萬參數(shù)的超大型模型上運行,同時我們想通過大量步驟來展開元訓(xùn)練,以獲得高質(zhì)量的梯度,例如我們在工作中做到了。
實際上,這意味著我們要在元前傳過程中包括很長的訓(xùn)練過程,其中包含許多時間步長,并且我們必須將參數(shù)保留在內(nèi)存中(黃色■)和漸變(綠色■)的數(shù)據(jù)用于元后向傳遞。
在不消耗GPU內(nèi)存的情況下,我們該怎么做?
一種方法是通過使用梯度檢查點,也稱為隱藏狀態(tài)記憶,來交換一些內(nèi)存進行計算[10]。在我們的例子中,梯度檢查點包括將元前向和元后向路徑分割成我們連續(xù)計算的片段。
OpenAI 的 Yaroslav Bulatov 的博客文章很好地介紹了梯度檢查點(gradient checkpointing)。如果你對此感興趣,可以點此查看。
這篇文章已經(jīng)很長了,所以我不會包含梯度檢查點代碼的全部要點。我更愿意介紹TSHadley的PyTorch實現(xiàn),以及當(dāng)前在PyTorch中包含梯度檢查點的工作。


Other approaches in Meta-learning ??

我還沒有時間來探討元學(xué)習(xí)方面的其他兩個研究趨勢,但它們也非常有希望。我只給一些指示,以便在了解一般思路后可以自己檢查一下:

  • 遞歸網(wǎng)絡(luò)(Recurrent networks):我們已經(jīng)建立了神經(jīng)網(wǎng)絡(luò)的標(biāo)準(zhǔn)訓(xùn)練過程。另一種方法是將任務(wù)序列視為一系列連續(xù)的輸入,并構(gòu)建一個循環(huán)模型,該模型可以為新任務(wù)攝取并構(gòu)建該序列的表示。在這種情況下,我們通常有一個帶有記憶或注意力的循環(huán)網(wǎng)絡(luò)的單一訓(xùn)練過程。這種方法也給出了很好的結(jié)果,特別是當(dāng)嵌入是為任務(wù)充分設(shè)計的時候。一個很好的例子是最近的 SNAIL paper。

  • 強化學(xué)習(xí)(Reinforcement learning):優(yōu)化器在元轉(zhuǎn)發(fā)過程中進行的計算非常類似于遞歸網(wǎng)絡(luò)的計算:對一系列輸入(學(xué)習(xí)過程中模型的連續(xù)權(quán)重和梯度)重復(fù)應(yīng)用相同的參數(shù)。在實踐中,這意味著我們遇到了一個關(guān)于遞歸網(wǎng)絡(luò)的常見問題:模型在出錯時很難回到安全路徑,因為它們沒有被訓(xùn)練來從訓(xùn)練錯誤中恢復(fù),并且模型很難推廣到比元訓(xùn)練期間使用的序列更長的序列。為了解決這些問題,可以求助于強化學(xué)習(xí)方法,其中模型學(xué)習(xí)與當(dāng)前培訓(xùn)狀態(tài)相關(guān)聯(lián)的行動策略。

Meta-learning in Natural Language Processing ??

元學(xué)習(xí)和自然語言處理(NLP)中使用的神經(jīng)網(wǎng)絡(luò)模型之間有一個有趣的相似之處,如我們在上一段中剛剛提到的遞歸神經(jīng)網(wǎng)絡(luò)(RNN):元學(xué)習(xí)器優(yōu)化神經(jīng)網(wǎng)絡(luò)模型的行為類似于遞歸神經(jīng)網(wǎng)絡(luò)。
像RNN一樣,元學(xué)習(xí)器在訓(xùn)練過程中吸收模型的一系列參數(shù)和梯度作為輸入序列,并根據(jù)該輸入序列計算順序輸出(更新模型參數(shù)的系列)。
我們在論文中發(fā)展了這一類比,并研究了元學(xué)習(xí)器如何在神經(jīng)網(wǎng)絡(luò)語言模型中實現(xiàn)中期記憶:元學(xué)習(xí)器學(xué)習(xí)用標(biāo)準(zhǔn)RNN(如LSTM)的權(quán)重對中期記憶進行編碼(除了短期記憶在LSTM的隱藏狀態(tài)下的傳統(tǒng)編碼方式)。

Image


我們的元學(xué)習(xí)語言模型有三個層次的記憶,從下到上:一個標(biāo)準(zhǔn)的LSTM,一個元學(xué)習(xí)器更新LSTM的權(quán)重來存儲中期記憶和長期靜態(tài)記憶。

我們發(fā)現(xiàn),元學(xué)習(xí)語言模型可以被訓(xùn)練成對最近輸入的記憶進行編碼,比如維基百科文章的開頭,這將有助于預(yù)測文章的結(jié)尾。

Image

曲線表明該模型在預(yù)測 Wikipedia 文章開頭的單詞方面有多好(A、...、H 是連續(xù)的 Wikipedia 文章),彩色單詞表示單個單詞相同,藍色更好,紅色更差。當(dāng)模型通讀一篇文章時,它會從頭開始學(xué)習(xí)并更好地預(yù)測結(jié)尾。

若覺得還不錯的話,請點個 “贊” 或 “在看” 吧

其它文章

YOLO內(nèi)卷時期該如何選模型?

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    久久国产青偷人人妻潘金莲| 亚洲欧美精品伊人久久| 日韩欧美在线看一卡一卡| 亚洲欧洲一区二区中文字幕| 欧美日韩三区在线观看| 久草视频这里只是精品| 人人爽夜夜爽夜夜爽精品视频| 国产精品推荐在线一区| 好吊视频有精品永久免费| 国产成人精品视频一二区| 日韩在线一区中文字幕| 日本不卡一本二本三区| 国产成人精品99在线观看| 精品丝袜一区二区三区性色| 国内女人精品一区二区三区| 日韩一级免费中文字幕视频| 日本人妻熟女一区二区三区| 亚洲少妇一区二区三区懂色| 高清国产日韩欧美熟女| 亚洲一区二区三区日韩91| 欧美精品久久一二三区| 久久福利视频这里有精品| 丰满少妇被猛烈插入在线观看| 在线欧洲免费无线码二区免费| 午夜亚洲精品理论片在线观看| 亚洲一区二区亚洲日本 | 日韩欧美国产三级在线观看| 欧美有码黄片免费在线视频| 我的性感妹妹在线观看| 国产免费一区二区三区av大片| 日本精品中文字幕在线视频| 99久久精品视频一区二区| 久久精品亚洲情色欧美| 伊人久久青草地综合婷婷| 粉嫩国产美女国产av| a久久天堂国产毛片精品| 有坂深雪中文字幕亚洲中文 | 成人日韩视频中文字幕| 亚洲三级视频在线观看免费| 日韩中文字幕狠狠人妻| 日本女人亚洲国产性高潮视频|