4月26日,亞馬遜聯(lián)合其它高??蒲腥藛T發(fā)表了一篇關(guān)于如何使用ChatGPT完成下游論文。里面使用了一個(gè)非常直觀明了的大語言模型進(jìn)化圖總結(jié)了目前當(dāng)前大語言模型的技術(shù)架構(gòu)分類和開源現(xiàn)狀,十分受歡迎。因此,4月30日,作者再次更新這幅圖,增加了更多的大語言模型。本文來自DataLearner官方博客:一張圖總結(jié)大語言模型的技術(shù)分類、現(xiàn)狀和開源情況 | 數(shù)據(jù)學(xué)習(xí)者官方網(wǎng)站(Datalearner) 本文將根據(jù)這份圖簡單介紹一下當(dāng)前大語言模型的技術(shù)分類、現(xiàn)狀和開源情況。
大語言模型技術(shù)概述近幾年,大語言模型的發(fā)展十分迅速。尤其是ChatGPT發(fā)布之后,大家發(fā)現(xiàn)大語言模型的能力已經(jīng)超出傳統(tǒng)意義的算法能力。然而,即使是GPT-4這樣的模型,也不是突然出現(xiàn)的。它也屬于當(dāng)前大語言模型中的一類,也是一種transformer架構(gòu)的語言模型。 本輪大語言模型的技術(shù)起點(diǎn)可以從Google發(fā)布的BERT開始算起。此前,最好的語言模型屬于RNN一類,但是,由于RNN模型需要按次序處理輸入數(shù)據(jù),因此并行能力不夠,計(jì)算成本很高。盡管在翻譯領(lǐng)域效果很好,但是RNN也沒有取得更好的突破。 BERT是一種Transformer類的模型,它的出現(xiàn),讓語言模型突破了原有的限制,可以以更快的速度運(yùn)行,并且可以記住更長久的輸入數(shù)據(jù)。 RNN模型和Transformer模型都是神經(jīng)網(wǎng)絡(luò)中的序列模型,用于處理序列數(shù)據(jù),比如自然語言。但是它們在結(jié)構(gòu)和原理上有很大的不同。主要區(qū)別如下:
總的來說,RNN和Transformer都屬于序列建模模型,但在模型結(jié)構(gòu)、序列依賴建模、信息流動(dòng)方式以及訓(xùn)練方法等方面都存在很大差異。 Transformer相比RNN具有更長依賴建模的能力和更高的計(jì)算復(fù)雜度。在許多任務(wù)中,Transformer已經(jīng)取代RNN成為主流的序列建模方法,特別是在機(jī)器翻譯、語言模型和文本生成等領(lǐng)域。但在其他一些任務(wù)中,RNN仍具有優(yōu)勢,如音頻和時(shí)間序列建模。 但是,BERT屬于一種Encoder-Decoder類架構(gòu)的Transformer模型,雖然它出現(xiàn)很早,但是當(dāng)前領(lǐng)域以GPT系列為代表的模型則是Decoder-Only架構(gòu)。類似BERT這種架構(gòu)的技術(shù)已經(jīng)基本消失。而本文主要總結(jié)不同類型的Transformer架構(gòu)的區(qū)別。 大語言模型技術(shù)分類總結(jié)首先,我們可以將LLM分成2類:Encoder-Decoder(或者Encoder-Only)和Decoder-Only。它們的技術(shù)特點(diǎn)和模型代表如下:
顯然自回歸語言模型在最近發(fā)布的模型中都是十分流行的。前面的圖中對這幾類模型做了很好的總結(jié),我們再看一眼這個(gè)圖: 首先紅色的分支是指Encoder-Only技術(shù),最早是BERT模型,顯然,到了2020年之后,這類技術(shù)基本已經(jīng)不再發(fā)展。中間綠色部分是Encoder-Decoder類型,近幾年似乎也就是Google堅(jiān)持這類路線的模型較多。 Encoder-Decoder模型相比Encoder-Only模型,通常具有更強(qiáng)的序列學(xué)習(xí)和生成能力,尤其擅長實(shí)現(xiàn)輸入序列到輸出序列的結(jié)構(gòu)映射,所以在機(jī)器翻譯、文摘生成和聊天機(jī)器人等任務(wù)上有更好的應(yīng)用前景。但Encoder-Only的模型結(jié)構(gòu)簡單, training 和inference 速度更快,在一些簡單分類或標(biāo)注任務(wù)上也具有優(yōu)勢。 最后一類是Decoder-Only類型,也是最繁榮發(fā)展的一類transformer模型。最早是GPT-1提出,此后包括MetaAI、百度、Google、OpenAI、EleutherAI等公司都提出了這種架構(gòu)的模型。 Decoder-only模型僅具有解碼器部分,沒有編碼器部分。Decoder-only模型相比Encoder-Decoder模型有以下主要優(yōu)勢:
大語言模型技術(shù)現(xiàn)狀總結(jié)根據(jù)上圖,原論文也給出了一些大語言模型技術(shù)的總結(jié):
大語言模型使用的三類數(shù)據(jù)總結(jié)除了上述幾類不同的transformer架構(gòu)外,大語言模型使用的數(shù)據(jù)也大致可以分為三類:預(yù)訓(xùn)練數(shù)據(jù)、微調(diào)數(shù)據(jù)和測試(用戶)數(shù)據(jù)。最后一種就是實(shí)際應(yīng)用的數(shù)據(jù)了。 預(yù)訓(xùn)練數(shù)據(jù)預(yù)訓(xùn)練數(shù)據(jù)在大型語言模型的開發(fā)中起著關(guān)鍵作用。作為LLM卓越能力的基礎(chǔ),預(yù)訓(xùn)練數(shù)據(jù)的質(zhì)量、數(shù)量和多樣性顯著影響LLM的性能。常用的預(yù)訓(xùn)練數(shù)據(jù)由無數(shù)的文本源組成,包括書籍、文章和網(wǎng)站。這些數(shù)據(jù)經(jīng)過精心策劃,以確保全面反映人類知識(shí)、語言細(xì)微差別和文化觀點(diǎn)。預(yù)訓(xùn)練數(shù)據(jù)通常是大規(guī)模的數(shù)據(jù)集,包含豐富的特征和樣本。 預(yù)訓(xùn)練數(shù)據(jù)的重要性在于它能夠?yàn)檎Z言模型提供對單詞知識(shí)、語法、語法和語義的豐富理解,以及識(shí)別上下文和生成連貫響應(yīng)的能力。預(yù)訓(xùn)練數(shù)據(jù)的多樣性在塑造模型性能方面也起著至關(guān)重要的作用,LLM的選擇在很大程度上取決于預(yù)訓(xùn)練數(shù)據(jù)中的成分。例如,PaLM和BLOOM擅長多語言任務(wù)和機(jī)器翻譯,擁有豐富的多語言預(yù)訓(xùn)練數(shù)據(jù)。此外,通過結(jié)合大量的社交媒體對話和圖書語料庫,PaLM在問答任務(wù)中的表現(xiàn)得到了增強(qiáng)。同樣,GPT-3.5(code-davinci-002)的代碼執(zhí)行和代碼完成能力也通過在其預(yù)訓(xùn)練數(shù)據(jù)集中集成代碼數(shù)據(jù)而得到增強(qiáng)。 預(yù)訓(xùn)練數(shù)據(jù)目前有很多,下表給了2個(gè)最常見的大規(guī)模的預(yù)訓(xùn)練數(shù)據(jù)集:
微調(diào)數(shù)據(jù)微調(diào)數(shù)據(jù)則是與下游任務(wù)更相關(guān)的數(shù)據(jù)集,樣本規(guī)模較小。為下游任務(wù)部署時(shí),通常需要考慮三個(gè)場景:zero-shot微調(diào)、few-shot微調(diào)和豐富數(shù)據(jù)的微調(diào)。主要是指是否包含下游任務(wù)數(shù)據(jù)的標(biāo)注結(jié)果。如果沒有標(biāo)注數(shù)據(jù),那么就是zero-shot微調(diào),如果有少量的標(biāo)注數(shù)據(jù),則是few-shot微調(diào)。 |
|