一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

tokens危機(jī)到來(lái)怎么辦?新國(guó)立最新研究:為什么當(dāng)前的大語(yǔ)言模型的訓(xùn)練都是1次epoch?多epochs是否會(huì)降低大模型性能?

 黃爸爸好 2023-06-02 發(fā)布于上海

epoch是一個(gè)重要的深度學(xué)習(xí)概念,它指的是模型訓(xùn)練過(guò)程中完成的一次全體訓(xùn)練樣本的全部訓(xùn)練迭代。在傳統(tǒng)的深度學(xué)習(xí)模型訓(xùn)練中,epoch的設(shè)置可以類似于傳統(tǒng)機(jī)器學(xué)習(xí)模型訓(xùn)練的迭代次數(shù),一般認(rèn)為越多的epoch會(huì)讓模型擬合得越好。

然而,在LLM時(shí)代,很多模型的epoch只有1次或者幾次。例如,2022年谷歌的PaLM模型,其訓(xùn)練的epoch數(shù)量只有1。而MetaAI訓(xùn)練的LLaMA模型,在不同數(shù)據(jù)集上訓(xùn)練的epoch設(shè)置都是1-2。這似乎與我們之前理解的模型訓(xùn)練充分有不一致。那么,為什么這些大語(yǔ)言模型的epoch次數(shù)都很少。如果我們自己訓(xùn)練大語(yǔ)言模型,那么epoch次數(shù)設(shè)置為1是否足夠,我們是否需要更多的訓(xùn)練?上周,新加坡國(guó)立大學(xué)的研究人員發(fā)布了一篇全新的論文《To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis》,研究了大語(yǔ)言模型的epoch次數(shù)設(shè)置問(wèn)題。

  • 為什么要考慮在重復(fù)的數(shù)據(jù)集上做多次訓(xùn)練?

  • 預(yù)訓(xùn)練數(shù)據(jù)集重復(fù)的影響是什么?

    • 1、模型參數(shù)規(guī)模與tokens數(shù)量需要匹配

    • 2、多輪epoch的訓(xùn)練會(huì)降低模型性能

  • 影響多次Epochs訓(xùn)練效果下降的原因是什么?

    • 3、更大規(guī)模的數(shù)據(jù)集會(huì)緩解重復(fù)epochs對(duì)模型性能下降的影響

    • 4、提高數(shù)據(jù)集的質(zhì)量也無(wú)法挽救重復(fù)訓(xùn)練帶來(lái)的過(guò)擬合

    • 5、參數(shù)數(shù)量和FLOPs在重復(fù)訓(xùn)練上的影響

    • 6、小計(jì)算量模型的過(guò)擬合趨勢(shì)與大計(jì)算量的差不多

    • 7、多樣的訓(xùn)練目標(biāo)可以減輕多Epoch下降嗎?

  • 正則化可以降低多epochs的影響嗎

    • 8、Dropout是一個(gè)被大語(yǔ)言模型忽視的正則技術(shù),雖然慢,但是可以降低多epochs的影響

    • 9、在訓(xùn)練過(guò)程中逐漸使用dropout是有效的策略

    • 10、dropout對(duì)不同規(guī)模模型的影響不同

    • 11、通過(guò)MoE掃描確定稠密模型的最佳超參數(shù)

  • 多epochs訓(xùn)練對(duì)大語(yǔ)言模型性能影響的總結(jié)

    為什么要考慮在重復(fù)的數(shù)據(jù)集上做多次訓(xùn)練?

    在此前的研究中,大家發(fā)現(xiàn)大語(yǔ)言模型的規(guī)模和訓(xùn)練數(shù)據(jù)集中tokens的數(shù)量對(duì)模型的性能有很大的影響。大模型擴(kuò)展定律都認(rèn)為模型的規(guī)模與訓(xùn)練數(shù)據(jù)的規(guī)模必須同時(shí)擴(kuò)大才能讓模型產(chǎn)生更好的性能。但是,tokens數(shù)量似乎并不是很足夠,如下圖所示是作者研究的模型參數(shù)規(guī)模增長(zhǎng)和目前互聯(lián)網(wǎng)是可用的數(shù)據(jù)集tokens數(shù)量增長(zhǎng)情況:

    圖片

    在這幅圖中,藍(lán)色的虛線是互聯(lián)網(wǎng)上數(shù)據(jù)集中tokens數(shù)量預(yù)估結(jié)果,高質(zhì)量文本中tokens數(shù)量每年增長(zhǎng)只有4%-5%,與世界經(jīng)濟(jì)增長(zhǎng)率差不多,但是顯著慢于模型規(guī)模的增長(zhǎng)。例如,MetaAI訓(xùn)練的LLaMA-65B模型用了1.4萬(wàn)億tokens,而2023年全球的tokens估計(jì)只有9萬(wàn)億!按照目前模型規(guī)模的發(fā)展情況,在2023年-2027年幾年的時(shí)間里,我們的模型將把全球所有數(shù)據(jù)集的tokens都訓(xùn)練完成,此后,我們很可能陷入缺少tokens訓(xùn)練的地步,這被作者稱為tokens危機(jī)。

    這就很自然的讓大家想到,我們是否可以通過(guò)增加訓(xùn)練的epochs來(lái)做重復(fù)的訓(xùn)練,以提高模型的效果?在如Vision Transformers這樣的模型中,模型訓(xùn)練的epochs高達(dá)300次,而大語(yǔ)言模型的訓(xùn)練epochs通常都是1-2次,多的也都是個(gè)位數(shù)。2022年,Hoffmann的論文中提出用重復(fù)的tokens訓(xùn)練大語(yǔ)言模型會(huì)讓模型降低性能,而Taylor在訓(xùn)練Galactica模型時(shí)候發(fā)現(xiàn)epochs次數(shù)達(dá)到4次也可以提升模型效果。顯然,在重復(fù)數(shù)據(jù)集上訓(xùn)練多次對(duì)模型的影響目前還沒(méi)有一個(gè)相對(duì)完善的研究。但是這個(gè)問(wèn)題很重要!

    因此,新加坡國(guó)立大學(xué)的研究人員做了這項(xiàng)研究,系統(tǒng)性分析了大語(yǔ)言模型epochs的設(shè)置影響,從3個(gè)方面得出了11個(gè)結(jié)論!本文將主要總結(jié)一下這些結(jié)論。

    作者使用了開(kāi)源的數(shù)據(jù)集和模型做了很多測(cè)試,對(duì)于實(shí)驗(yàn)設(shè)置我們不再描述。

    預(yù)訓(xùn)練數(shù)據(jù)集重復(fù)的影響是什么?

    1、模型參數(shù)規(guī)模與tokens數(shù)量需要匹配

    首先是模型參數(shù)規(guī)模的增長(zhǎng)與模型需要的tokens數(shù)量基本是呈線性的。

    圖片

    這意味如果你要充分訓(xùn)練一個(gè)LLM,需要根據(jù)它的參數(shù)數(shù)量來(lái)收集足夠的tokens。

    2、多輪epoch的訓(xùn)練會(huì)降低模型性能

    作者分別使用C4數(shù)據(jù)集的子集,然后只是用了其中一部分?jǐn)?shù)據(jù)集,并通過(guò)設(shè)置多次epochs來(lái)讓模型總的訓(xùn)練過(guò)的tokens差不多水平,觀察模型的性能。

    如下圖所示,可以看到,數(shù)據(jù)集重復(fù)的次數(shù)越多,模型的性能越差:

    圖片

    此外,如果tokens數(shù)量不夠,模型參數(shù)規(guī)模越大,越容易出現(xiàn)過(guò)擬合的現(xiàn)象!

    盡管重復(fù)數(shù)據(jù)上的訓(xùn)練會(huì)降低預(yù)訓(xùn)練模型的效果,但是這種方式對(duì)于下游任務(wù)的影響也沒(méi)有人探測(cè)過(guò)。因此,作者也繼續(xù)做了這方面的研究,得到的結(jié)論是在下游任務(wù)上也會(huì)出現(xiàn),即如果預(yù)訓(xùn)練模型在重復(fù)數(shù)據(jù)上進(jìn)行,盡管訓(xùn)練的總的tokens數(shù)量可能一致,但是,其下游任務(wù)的效果也是更差!

    影響多次Epochs訓(xùn)練效果下降的原因是什么?

    3、更大規(guī)模的數(shù)據(jù)集會(huì)緩解重復(fù)epochs對(duì)模型性能下降的影響

    在這個(gè)實(shí)驗(yàn)中,作者將重復(fù)的次數(shù)固定,然后看模型在不同規(guī)模數(shù)據(jù)集上重復(fù)訓(xùn)練的性能影響。如下圖所示:

    圖片

    可以看到,當(dāng)在個(gè)tokens和個(gè)tokens上重復(fù)訓(xùn)練次之后發(fā)現(xiàn),前者更容易出現(xiàn)過(guò)擬合,而tokens的數(shù)據(jù)集上重復(fù)訓(xùn)練,模型性能下降不明顯。

    4、提高數(shù)據(jù)集的質(zhì)量也無(wú)法挽救重復(fù)訓(xùn)練帶來(lái)的過(guò)擬合

    Taylor在訓(xùn)練Galactica模型時(shí)候認(rèn)為他之所以用4epochs能提高訓(xùn)練效果可能是因?yàn)樗臄?shù)據(jù)集質(zhì)量更好。然而,本文的作者發(fā)現(xiàn),相對(duì)更高質(zhì)量的數(shù)據(jù)集并不能降低重復(fù)訓(xùn)練帶來(lái)的影響。

    圖片

    作者用相同的重復(fù)策略在C4數(shù)據(jù)集和Wikipedia數(shù)據(jù)集上分別訓(xùn)練模型,發(fā)現(xiàn)二者都會(huì)因?yàn)橹貜?fù)訓(xùn)練帶來(lái)模型性能的下降。這里的Wikipedia數(shù)據(jù)集質(zhì)量相對(duì)C4更好一點(diǎn)。說(shuō)明相對(duì)提高數(shù)據(jù)集質(zhì)量可能不會(huì)影響重復(fù)訓(xùn)練的負(fù)面效應(yīng)。

    5、參數(shù)數(shù)量和FLOPs在重復(fù)訓(xùn)練上的影響

    模型規(guī)模的增長(zhǎng)其實(shí)表現(xiàn)在2個(gè)方面,一個(gè)是模型參數(shù),一個(gè)是模型所需要的計(jì)算量。模型參數(shù)相同的情況下,采用不同的模型架構(gòu)所需要的FLOPs是不同的。作者對(duì)比了MoE架構(gòu),并采用ParamShare方法降低相同參數(shù)模型的FLOPs。

    圖片

    經(jīng)過(guò)測(cè)試發(fā)現(xiàn),F(xiàn)LOPs較大的模型性能會(huì)更好一點(diǎn),但是依然無(wú)法有效降低重復(fù)訓(xùn)練帶來(lái)的模型損失。

    6、小計(jì)算量模型的過(guò)擬合趨勢(shì)與大計(jì)算量的差不多

    這是一個(gè)有趣的發(fā)現(xiàn),盡管在前面的實(shí)驗(yàn)中,相同參數(shù)規(guī)模不同計(jì)算量的模型都會(huì)受到重復(fù)數(shù)據(jù)集訓(xùn)練的影響。但是二者在模型性能表現(xiàn)的趨勢(shì)上類似。

    這意味著我們可以利用較低計(jì)算量的模型預(yù)估大模型的訓(xùn)練結(jié)果。在大語(yǔ)言模型的訓(xùn)練中,訓(xùn)練成本很高。采用類似的模型,但是更低的計(jì)算量來(lái)預(yù)估模型的表現(xiàn)將十分有價(jià)值!

    7、多樣的訓(xùn)練目標(biāo)可以減輕多Epoch下降嗎?

    目前大語(yǔ)言模型的訓(xùn)練目標(biāo)有很多,例如預(yù)測(cè)下一個(gè)單詞是神什么的生成式目標(biāo),也有把單詞masked之后用來(lái)判斷是什么單詞的判別式目標(biāo)。如果語(yǔ)言模型的訓(xùn)練目標(biāo)多樣化,那么實(shí)際上更加可能受到多epoch帶來(lái)的性能損失。

    例如,UL2這種模型就不適合多Epoch的訓(xùn)練,MLM這種模型受到的影響反而更小。

    正則化可以降低多epochs的影響嗎

    正則技術(shù),如dropout、droppath、weight decay等都是常用的防止過(guò)擬合的技術(shù)。而多Epochs的負(fù)面影響也都是過(guò)擬合。因此,作者研究了這些正則技術(shù)是否可以降低多epochs的影響。

    8、Dropout是一個(gè)被大語(yǔ)言模型忽視的正則技術(shù),雖然慢,但是可以降低多epochs的影響

    在目前超過(guò)100億參數(shù)規(guī)模的大語(yǔ)言模型中,如GPT-3、PaLM、LLaMA等,都沒(méi)有使用dropout(可能是因?yàn)樘耍?。而前面說(shuō)的Galactica訓(xùn)練使用了,這是Galactica能夠訓(xùn)練4Epochs提升性能的最重要的原因。

    圖片
    9、在訓(xùn)練過(guò)程中逐漸使用dropout是有效的策略

    在前面的討論中,作者已經(jīng)發(fā)現(xiàn)dropout可以降低多epochs的影響,但是dropout會(huì)降低模型的性能。因此,作者考慮不在全部訓(xùn)練中使用dropout,而是逐漸引入。

    最終發(fā)現(xiàn),如果前期訓(xùn)練不用dropout,在后續(xù)的迭代中使用dropout也是有效的!

    10、dropout對(duì)不同規(guī)模模型的影響不同

    盡管前面已經(jīng)證明dropout使用可以降低多epochs的影響,但是在不同規(guī)模模型下是不同的。對(duì)于規(guī)模較大的模型,dropout不能有效降低多epochs帶來(lái)的壞處!

    11、通過(guò)MoE掃描確定稠密模型的最佳超參數(shù)

    最后一個(gè)結(jié)論其實(shí)與epoch關(guān)系不大,作者強(qiáng)調(diào)的是MoE的模型表現(xiàn)與大模型真正的訓(xùn)練有類似的趨勢(shì),因此用MoE去提前預(yù)估大模型的性能,做參數(shù)調(diào)優(yōu)是一個(gè)非常好的思路。

    多epochs訓(xùn)練對(duì)大語(yǔ)言模型性能影響的總結(jié)

    根據(jù)前面的實(shí)驗(yàn)我們知道,如果在tokens數(shù)量一定的數(shù)據(jù)集上做多epochs的模型訓(xùn)練,會(huì)影響模型的性能,降低模型的效果。這在預(yù)訓(xùn)練和下游任務(wù)都會(huì)產(chǎn)生影響。但是,隨著模型的發(fā)展,高質(zhì)量數(shù)據(jù)集的tokens數(shù)將很快用完。而采用正則技術(shù)雖然會(huì)影響模型訓(xùn)練效率,但是會(huì)降低這種影響。

    所有的一切表明,在不久的將來(lái),我們會(huì)面臨tokens訓(xùn)練完的危機(jī),這時(shí)候多epochs顯然不是好的方向,這意味著我們應(yīng)該尋找新的大語(yǔ)言模型的方向,或者說(shuō)可能很快我們也會(huì)達(dá)到現(xiàn)有LLM的天花板!

      本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
      轉(zhuǎn)藏 分享 獻(xiàn)花(0

      0條評(píng)論

      發(fā)表

      請(qǐng)遵守用戶 評(píng)論公約

      類似文章 更多

      国产91麻豆精品成人区| 欧美成人精品一区二区久久| 九九久久精品久久久精品| 99少妇偷拍视频在线| 欧美日韩在线视频一区| 小黄片大全欧美一区二区| 国产精品十八禁亚洲黄污免费观看| 肥白女人日韩中文视频| 91蜜臀精品一区二区三区| 欧美韩日在线观看一区| 91超精品碰国产在线观看| 高清一区二区三区四区五区| 日本精品中文字幕在线视频 | 国产精品视频久久一区| 高清一区二区三区不卡免费| 国产亚洲神马午夜福利| 欧美一区二区不卡专区| 丝袜破了有美女肉体免费观看| 麻豆视传媒短视频在线看| 四季精品人妻av一区二区三区| 欧美一级不卡视频在线观看| 99久久人妻精品免费一区| 国内精品美女福利av在线| 久久精品亚洲精品国产欧美| 国产目拍亚洲精品区一区| 日韩三级黄色大片免费观看| 日本久久中文字幕免费| 日本精品最新字幕视频播放 | 欧美日韩黑人免费观看| 91精品视频免费播放| 好吊日在线观看免费视频| 91人妻人人澡人人人人精品| 中文字幕无线码一区欧美| 九九热九九热九九热九九热| 精品少妇一区二区视频| 亚洲中文字幕剧情在线播放| 欧美日韩亚洲国产精品| 日韩不卡一区二区在线| 国产精品一区二区三区日韩av | 在线免费观看一二区视频| 国产精品日本女优在线观看|