一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

一張圖總結(jié)大語言模型的技術(shù)分類、現(xiàn)狀和開源情況

 mrjiangkai 2023-06-03 發(fā)布于上海

4月26日,亞馬遜聯(lián)合其它高??蒲腥藛T發(fā)表了一篇關(guān)于如何使用ChatGPT完成下游論文。里面使用了一個(gè)非常直觀明了的大語言模型進(jìn)化圖總結(jié)了目前當(dāng)前大語言模型的技術(shù)架構(gòu)分類和開源現(xiàn)狀,十分受歡迎。因此,4月30日,作者再次更新這幅圖,增加了更多的大語言模型。本文來自DataLearner官方博客:一張圖總結(jié)大語言模型的技術(shù)分類、現(xiàn)狀和開源情況 | 數(shù)據(jù)學(xué)習(xí)者官方網(wǎng)站(Datalearner)

文章圖片1

本文將根據(jù)這份圖簡單介紹一下當(dāng)前大語言模型的技術(shù)分類、現(xiàn)狀和開源情況。

  • 大語言模型技術(shù)概述
  • 大語言模型技術(shù)分類總結(jié)
  • 大語言模型技術(shù)現(xiàn)狀總結(jié)
  • 大語言模型使用的三類數(shù)據(jù)總結(jié)預(yù)訓(xùn)練數(shù)據(jù)微調(diào)數(shù)據(jù)

大語言模型技術(shù)概述

近幾年,大語言模型的發(fā)展十分迅速。尤其是ChatGPT發(fā)布之后,大家發(fā)現(xiàn)大語言模型的能力已經(jīng)超出傳統(tǒng)意義的算法能力。然而,即使是GPT-4這樣的模型,也不是突然出現(xiàn)的。它也屬于當(dāng)前大語言模型中的一類,也是一種transformer架構(gòu)的語言模型。

本輪大語言模型的技術(shù)起點(diǎn)可以從Google發(fā)布的BERT開始算起。此前,最好的語言模型屬于RNN一類,但是,由于RNN模型需要按次序處理輸入數(shù)據(jù),因此并行能力不夠,計(jì)算成本很高。盡管在翻譯領(lǐng)域效果很好,但是RNN也沒有取得更好的突破。

BERT是一種Transformer類的模型,它的出現(xiàn),讓語言模型突破了原有的限制,可以以更快的速度運(yùn)行,并且可以記住更長久的輸入數(shù)據(jù)。

RNN模型和Transformer模型都是神經(jīng)網(wǎng)絡(luò)中的序列模型,用于處理序列數(shù)據(jù),比如自然語言。但是它們在結(jié)構(gòu)和原理上有很大的不同。主要區(qū)別如下:

  1. 結(jié)構(gòu)不同:RNN是循環(huán)神經(jīng)網(wǎng)絡(luò),通過循環(huán)連接實(shí)現(xiàn)序列建模,信息是按時(shí)間步串行通過的。Transformer是Encoder-Decoder結(jié)構(gòu)的Attention模型,完全基于Attention機(jī)制建模序列,信息是通過Attention并行傳遞的。
  2. 依賴范圍不同:RNN的循環(huán)結(jié)構(gòu)決定了其只能捕獲較短序列的依賴關(guān)系,較長依賴比較難建模。而Transformer的Attention可以學(xué)習(xí)更長距離的依賴關(guān)系。
  3. 計(jì)算復(fù)雜度不同:RNN的序列運(yùn)算是線性的,計(jì)算復(fù)雜度較低。而Transformer的Attention機(jī)制是二次的,計(jì)算復(fù)雜度較高,這使得Transformer模型比較難以訓(xùn)練。
  4. 信息流動(dòng)不同:在RNN中,信息總是按時(shí)間步順序流動(dòng)。而在Transformer中,信息是通過Attention矩陣并行傳播的。
  5. 訓(xùn)練方法不同:RNN通常采用 Truncated BPTT方法訓(xùn)練,而Transformer可以采用標(biāo)準(zhǔn)的反向傳播算法訓(xùn)練。

總的來說,RNN和Transformer都屬于序列建模模型,但在模型結(jié)構(gòu)、序列依賴建模、信息流動(dòng)方式以及訓(xùn)練方法等方面都存在很大差異。

Transformer相比RNN具有更長依賴建模的能力和更高的計(jì)算復(fù)雜度。在許多任務(wù)中,Transformer已經(jīng)取代RNN成為主流的序列建模方法,特別是在機(jī)器翻譯、語言模型和文本生成等領(lǐng)域。但在其他一些任務(wù)中,RNN仍具有優(yōu)勢,如音頻和時(shí)間序列建模。

但是,BERT屬于一種Encoder-Decoder類架構(gòu)的Transformer模型,雖然它出現(xiàn)很早,但是當(dāng)前領(lǐng)域以GPT系列為代表的模型則是Decoder-Only架構(gòu)。類似BERT這種架構(gòu)的技術(shù)已經(jīng)基本消失。而本文主要總結(jié)不同類型的Transformer架構(gòu)的區(qū)別。

大語言模型技術(shù)分類總結(jié)

首先,我們可以將LLM分成2類:Encoder-Decoder(或者Encoder-Only)和Decoder-Only。它們的技術(shù)特點(diǎn)和模型代表如下:

模型架構(gòu)

訓(xùn)練方式

模型類型

預(yù)訓(xùn)練任務(wù)

代表性模型

Encoder-Decoder或者 Encoder-Only(BERT樣式)

Masked語言模型

判別式(Discriminative)

預(yù)測masked單詞

ELMo, BERT, RoBERTa, DistilBERT, BioBERT, XLM, Xlnet, ALBERT, ELECTRA, T5, XLM-E, ST-MoE, AlexaTM

Decoder-Only (GPT樣式)

自回歸語言模型

生成式(Generative)

預(yù)測下一個(gè)單詞

GPT-3, OPT,PaLM, BLOOM, GLM, MT-NLG, GLaM,Gopher, chinchilla, LaMDA, GPT-J, LLaMA, GPT-4, BloombergGPT

顯然自回歸語言模型在最近發(fā)布的模型中都是十分流行的。前面的圖中對這幾類模型做了很好的總結(jié),我們再看一眼這個(gè)圖:

文章圖片2

首先紅色的分支是指Encoder-Only技術(shù),最早是BERT模型,顯然,到了2020年之后,這類技術(shù)基本已經(jīng)不再發(fā)展。中間綠色部分是Encoder-Decoder類型,近幾年似乎也就是Google堅(jiān)持這類路線的模型較多。

Encoder-Decoder模型相比Encoder-Only模型,通常具有更強(qiáng)的序列學(xué)習(xí)和生成能力,尤其擅長實(shí)現(xiàn)輸入序列到輸出序列的結(jié)構(gòu)映射,所以在機(jī)器翻譯、文摘生成和聊天機(jī)器人等任務(wù)上有更好的應(yīng)用前景。但Encoder-Only的模型結(jié)構(gòu)簡單, training 和inference 速度更快,在一些簡單分類或標(biāo)注任務(wù)上也具有優(yōu)勢。

最后一類是Decoder-Only類型,也是最繁榮發(fā)展的一類transformer模型。最早是GPT-1提出,此后包括MetaAI、百度、Google、OpenAI、EleutherAI等公司都提出了這種架構(gòu)的模型。

Decoder-only模型僅具有解碼器部分,沒有編碼器部分。Decoder-only模型相比Encoder-Decoder模型有以下主要優(yōu)勢:

  1. 結(jié)構(gòu)簡單,訓(xùn)練和推理速度快。由于沒有Encoder部分,整個(gè)模型的參數(shù)和運(yùn)算量都減少了一半以上,這使得Decoder-only模型訓(xùn)練和部署起來更加高效。
  2. 適用于純生成任務(wù)。Decoder-only模型專注于生成輸出序列,而不需要考慮編碼輸入信息的問題,所以更適用于如文本生成、情節(jié)生成和對話生成等純生成任務(wù)。
  3. 避免了Encoder-Decoder訓(xùn)練中的一些難點(diǎn)。僅訓(xùn)練一個(gè)Decoder可以避免諸如不同權(quán)重初始化、信息瓶頸等 Encoder-Decoder訓(xùn)練過程中的一些難題。
  4. Decoder自我監(jiān)督。在Decoder-only模型的訓(xùn)練中,上一步生成的輸出作為下一步的輸入,這實(shí)現(xiàn)了Decoder部分的自我監(jiān)督,有利于生成更為連貫和結(jié)構(gòu)性的輸出序列。

大語言模型技術(shù)現(xiàn)狀總結(jié)

根據(jù)上圖,原論文也給出了一些大語言模型技術(shù)的總結(jié):

  • Decoder-Only模型已經(jīng)逐漸主導(dǎo)了LLM的發(fā)展。在LLM開發(fā)的早期階段,Decoder-Only模型不如Encoder-Decoder(或者Encoder-Only)型流行。然而,2021年后,隨著GPT-3的發(fā)布,Decoder-Only模型經(jīng)歷了一次顯著的繁榮。與此同時(shí),在BERT帶來的最初爆炸性增長之后,Encoder-Only的模型逐漸開始消失。
  • OpenAI持續(xù)保持其在LLM領(lǐng)域的領(lǐng)導(dǎo)地位,無論是目前還是未來。其他公司和機(jī)構(gòu)正在努力追趕OpenAI,開發(fā)與GPT-3和當(dāng)前GPT-4相當(dāng)?shù)哪P汀?/span>
  • Meta為開源LLM做出了重大貢獻(xiàn),并促進(jìn)了LLM的研究。當(dāng)考慮對開源社區(qū)的貢獻(xiàn),特別是與LLM相關(guān)的貢獻(xiàn)時(shí),Meta是最慷慨的商業(yè)公司之一,因?yàn)镸eta開發(fā)的所有LLM都是開源的
  • LLM呈現(xiàn)出越來越封閉的趨勢。在LLM開發(fā)的早期階段(2020年之前),大多數(shù)模型都是開源的。然而,隨著GPT-3的推出,公司越來越多地選擇關(guān)閉其模型的來源,如PaLM、LaMDA和GPT-4。因此,學(xué)術(shù)研究人員對LLM訓(xùn)練進(jìn)行實(shí)驗(yàn)變得更加困難。因此,基于API的研究可能成為學(xué)術(shù)界的主導(dǎo)方法。
  • Encoder-Decoder模型仍然很有前景,因?yàn)檫@種類型的架構(gòu)仍在積極探索中,而且大多數(shù)都是開源的。谷歌在開源Encoder-Decoder架構(gòu)方面做出了巨大貢獻(xiàn)。然而,Encoder-Only模型的靈活性和多功能性可能不夠,似乎使谷歌在這一方向上的堅(jiān)持不那么有希望。

大語言模型使用的三類數(shù)據(jù)總結(jié)

除了上述幾類不同的transformer架構(gòu)外,大語言模型使用的數(shù)據(jù)也大致可以分為三類:預(yù)訓(xùn)練數(shù)據(jù)、微調(diào)數(shù)據(jù)和測試(用戶)數(shù)據(jù)。最后一種就是實(shí)際應(yīng)用的數(shù)據(jù)了。

預(yù)訓(xùn)練數(shù)據(jù)

預(yù)訓(xùn)練數(shù)據(jù)在大型語言模型的開發(fā)中起著關(guān)鍵作用。作為LLM卓越能力的基礎(chǔ),預(yù)訓(xùn)練數(shù)據(jù)的質(zhì)量、數(shù)量和多樣性顯著影響LLM的性能。常用的預(yù)訓(xùn)練數(shù)據(jù)由無數(shù)的文本源組成,包括書籍、文章和網(wǎng)站。這些數(shù)據(jù)經(jīng)過精心策劃,以確保全面反映人類知識(shí)、語言細(xì)微差別和文化觀點(diǎn)。預(yù)訓(xùn)練數(shù)據(jù)通常是大規(guī)模的數(shù)據(jù)集,包含豐富的特征和樣本。

預(yù)訓(xùn)練數(shù)據(jù)的重要性在于它能夠?yàn)檎Z言模型提供對單詞知識(shí)、語法、語法和語義的豐富理解,以及識(shí)別上下文和生成連貫響應(yīng)的能力。預(yù)訓(xùn)練數(shù)據(jù)的多樣性在塑造模型性能方面也起著至關(guān)重要的作用,LLM的選擇在很大程度上取決于預(yù)訓(xùn)練數(shù)據(jù)中的成分。例如,PaLM和BLOOM擅長多語言任務(wù)和機(jī)器翻譯,擁有豐富的多語言預(yù)訓(xùn)練數(shù)據(jù)。此外,通過結(jié)合大量的社交媒體對話和圖書語料庫,PaLM在問答任務(wù)中的表現(xiàn)得到了增強(qiáng)。同樣,GPT-3.5(code-davinci-002)的代碼執(zhí)行和代碼完成能力也通過在其預(yù)訓(xùn)練數(shù)據(jù)集中集成代碼數(shù)據(jù)而得到增強(qiáng)。

預(yù)訓(xùn)練數(shù)據(jù)目前有很多,下表給了2個(gè)最常見的大規(guī)模的預(yù)訓(xùn)練數(shù)據(jù)集:

數(shù)據(jù)集名稱

數(shù)據(jù)大小

數(shù)據(jù)集簡介

數(shù)據(jù)集鏈接

RedPajama

1.2萬億tokens

TOGETHER最新開源的數(shù)據(jù),用以復(fù)現(xiàn)LLaMA模型用

https://github.com/togethercomputer/RedPajama-Data

The Pile

800 GB

2020年發(fā)布的22個(gè)不同的高質(zhì)量數(shù)據(jù)集

https:///abs/2101.00027

微調(diào)數(shù)據(jù)

微調(diào)數(shù)據(jù)則是與下游任務(wù)更相關(guān)的數(shù)據(jù)集,樣本規(guī)模較小。為下游任務(wù)部署時(shí),通常需要考慮三個(gè)場景:zero-shot微調(diào)、few-shot微調(diào)和豐富數(shù)據(jù)的微調(diào)。主要是指是否包含下游任務(wù)數(shù)據(jù)的標(biāo)注結(jié)果。如果沒有標(biāo)注數(shù)據(jù),那么就是zero-shot微調(diào),如果有少量的標(biāo)注數(shù)據(jù),則是few-shot微調(diào)。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請遵守用戶 評(píng)論公約

    類似文章 更多

    国产精品免费自拍视频| 人妻人妻人人妻人人澡| 日本精品视频一二三区| 福利视频一区二区三区| 国产伦精品一一区二区三区高清版 | 国产精品视频一区二区秋霞 | 91精品国产品国语在线不卡| 亚洲熟女熟妇乱色一区| 日韩精品中文字幕亚洲| 国产一区二区三区免费福利| 精品欧美日韩一区二区三区| 一区二区三区日本高清| 日本妇女高清一区二区三区| 中文字幕亚洲精品人妻| 五月婷婷六月丁香亚洲| 亚洲一区二区亚洲日本| 亚洲精品蜜桃在线观看| 久久99青青精品免费观看| 国产一区二区三区四区中文| 欧美精品亚洲精品日韩专区| 久久亚洲国产视频三级黄| 国产一级一片内射视频在线| 欧美日韩一级aa大片| 国产无摭挡又爽又色又刺激| 中文字幕亚洲精品乱码加勒比 | 欧美多人疯狂性战派对| 久草精品视频精品视频精品| 九九热精彩视频在线播放| 欧美六区视频在线观看| 日韩在线中文字幕不卡| 尤物天堂av一区二区| 亚洲熟妇熟女久久精品| 亚洲淫片一区二区三区| 老富婆找帅哥按摩抠逼视频| 精品丝袜一区二区三区性色| 亚洲一区二区欧美激情| 国产色第一区不卡高清| 加勒比东京热拍拍一区二区| 91久久精品国产成人| 激情视频在线视频在线视频| 欧美日韩中黄片免费看|