預(yù)訓(xùn)練基礎(chǔ)模型(PFMs)被視為具有不同數(shù)據(jù)模態(tài)的各種下游任務(wù)的基礎(chǔ)。預(yù)訓(xùn)練的基礎(chǔ)模型,如BERT、GPT-3、MAE、DALLE-E和ChatGPT,在大規(guī)模數(shù)據(jù)上進(jìn)行訓(xùn)練,為廣泛的下游應(yīng)用提供了合理的參數(shù)初始化。PFMs背后的預(yù)訓(xùn)練思想在大型模型的應(yīng)用中起著重要的作用。作為一種遷移學(xué)習(xí)范式,預(yù)訓(xùn)練通過(guò)凍結(jié)和微調(diào)技術(shù)應(yīng)用于計(jì)算機(jī)視覺,顯示出良好的性能。詞向量在自然語(yǔ)言處理中也可以看作是修飾詞的一種,但它存在多義詞等問(wèn)題。與之前應(yīng)用卷積和循環(huán)模塊進(jìn)行特征提取的方法不同,生成預(yù)訓(xùn)練(GPT)方法應(yīng)用Transformer作為特征提取器,并以自回歸范式在大型數(shù)據(jù)集上進(jìn)行訓(xùn)練。類似地,BERT應(yīng)用transformer在大型數(shù)據(jù)集上作為上下文語(yǔ)言模型進(jìn)行訓(xùn)練。最近,ChatGPT在大型語(yǔ)言模型上顯示出可喜的成功,它應(yīng)用了零樣本或很少提示的自回歸語(yǔ)言模型。隨著PFMs的非凡成功,人工智能在過(guò)去幾年中在各種領(lǐng)域掀起了浪潮。文獻(xiàn)中提出了相當(dāng)多的方法,數(shù)據(jù)集和評(píng)估指標(biāo),需要更新的綜述。 ChatGPT是PFM應(yīng)用的一個(gè)很好的例子。ChatGPT是對(duì)生成式預(yù)訓(xùn)練transformer GPT-3.5進(jìn)行微調(diào)的,它是在文本和代碼的混合上進(jìn)行訓(xùn)練的[15,16]。ChatGPT應(yīng)用了來(lái)自人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)[17,18],這已經(jīng)成為將大型語(yǔ)言模型與人類意圖[19]相結(jié)合的一種有希望的方法。ChatGPT令人驚訝的優(yōu)越性能可能會(huì)導(dǎo)致每種類型PFM訓(xùn)練范式的轉(zhuǎn)變——應(yīng)用指令對(duì)齊技術(shù),如強(qiáng)化學(xué)習(xí)(RL)、提示調(diào)整[20,21,22]和思維鏈[23,24],向人工通用智能發(fā)展。重點(diǎn)介紹了文本、圖像和圖形的PFMs,這是一個(gè)比較成熟的研究分類。對(duì)于文本,它是一個(gè)多用途的語(yǔ)言模型,用于預(yù)測(cè)序列中的下一個(gè)單詞或字符。例如,PFMs可用于機(jī)器翻譯、問(wèn)答系統(tǒng)、主題建模、情感分析等。對(duì)于圖像,它類似于文本上的PFMs,使用巨大的數(shù)據(jù)集來(lái)訓(xùn)練一個(gè)適用于許多CV任務(wù)的大模型。對(duì)于圖,類似的預(yù)訓(xùn)練思想也被應(yīng)用于獲得pfm,用于許多下游任務(wù)。除了特定數(shù)據(jù)域的PFMs,還回顧和介紹了其他一些先進(jìn)的PFMs,如語(yǔ)音、視頻和跨領(lǐng)域數(shù)據(jù)的PFMs,以及多模態(tài)PFMs。此外,還出現(xiàn)了一種處理多模態(tài)的PFMs大收斂,即所謂的統(tǒng)一PFMs。首先定義了統(tǒng)一PFMs的概念,然后回顧了近年來(lái)SOTA統(tǒng)一PFMs的最新研究進(jìn)展(如OFA[25]、UNIFIED-IO [26]、FLAVA[27]、BEiT-3[28]等)。 根據(jù)現(xiàn)有PFMs在這三個(gè)領(lǐng)域的特點(diǎn),我們得出PFMs具有以下兩個(gè)主要優(yōu)勢(shì)。首先,需要輕微的微調(diào)來(lái)增強(qiáng)模型在下游任務(wù)上的性能。第二,PFMs已經(jīng)在質(zhì)量方面進(jìn)行了綜述。我們可以將PFMs應(yīng)用于與任務(wù)相關(guān)的數(shù)據(jù)集,而不是從頭開始構(gòu)建模型來(lái)解決類似的問(wèn)題。PFMs的巨大前景激發(fā)了大量相關(guān)工作,以關(guān)注模型效率、[29]、安全性[30,31,32]和壓縮[33,34]等。 有一些綜述研究[35,8,5,6,7,1]回顧了一些特定領(lǐng)域的預(yù)訓(xùn)練模型,如文本生成[6],視覺transformer[7],目標(biāo)檢測(cè)[8]。Bommasani出版社。[1]總結(jié)了基礎(chǔ)模型的機(jī)會(huì)和風(fēng)險(xiǎn)。然而,現(xiàn)有工作沒有在預(yù)訓(xùn)練任務(wù)、效率、功效和隱私等不同方面對(duì)不同領(lǐng)域(如CV、NLP、GL、語(yǔ)音、視頻)的PFMs進(jìn)行全面的回顧。在本次調(diào)查中,我們專門跟蹤了NLP領(lǐng)域的PFMs的演變,以及預(yù)訓(xùn)練是如何轉(zhuǎn)移到CV和GL并被采用的。與其他調(diào)查相比,我們沒有對(duì)這三個(gè)領(lǐng)域現(xiàn)有的PFMs進(jìn)行全面介紹和分析。與以往預(yù)訓(xùn)練模型的綜述不同,本文總結(jié)了現(xiàn)有的模型,從傳統(tǒng)模型到pfm,以及這三個(gè)領(lǐng)域的最新工作。傳統(tǒng)模型強(qiáng)調(diào)靜態(tài)特征學(xué)習(xí)。動(dòng)態(tài)PFMs介紹了結(jié)構(gòu),這是目前的主流研究。進(jìn)一步介紹了一些針對(duì)PFMs的其他研究,包括其他先進(jìn)和統(tǒng)一的PFMs、模型效率和壓縮、安全性和隱私。最后,總結(jié)了不同領(lǐng)域未來(lái)的研究挑戰(zhàn)和開放問(wèn)題。全面介紹了附錄F和附錄g中的相關(guān)評(píng)價(jià)指標(biāo)和數(shù)據(jù)集??偨Y(jié)而言,本文的主要貢獻(xiàn)如下:
專知便捷查看 |
|