背景:ChatGPT,或許是2022年末最熱的新詞。這個詞匯如熱浪一般席卷大街小巷,充斥朋友圈和各大網(wǎng)站,它的爆火程度簡直讓人瞠目結(jié)舌。ChatGPT的炙手可熱點燃了全球AI的狂潮,讓曾經(jīng)有些冷清的AI領(lǐng)域重新燃起了昂揚的風(fēng)帆。ChatGPT的驚世之舉,讓大家見識到通用人工智能的輝煌崛起,也讓AI在文本創(chuàng)作、摘要提煉、多輪對話甚至代碼生成等領(lǐng)域邁向了一個質(zhì)的飛躍。 AI大模型概念現(xiàn)階段大家討論的AI大模型一般都是圍繞著“自然語言”方面的基礎(chǔ)大模型。大模型通過海量數(shù)據(jù)和超高數(shù)量的參數(shù),實現(xiàn)面向復(fù)雜問題的“預(yù)測”能力。 大家可能也有聽到一些相關(guān)名詞或術(shù)語如“大模型”、”LLM大型語言模型”、”GPT”、”ChatGPT”和”AIGC”,這些名詞之間有什么區(qū)別或聯(lián)系? 簡而言之,'大模型'是具有大量參數(shù)(通常指在10億以上)和卓越性能的Transformer結(jié)構(gòu)模型,而'LLM大型語言模型'則是指針對自然語言處理的大型模型,目前在LLM人類自然語言領(lǐng)域取得巨大突破,主要代表為GPT(OpanAI研發(fā)的“LLM” 大模型),并且通過針對性的“再訓(xùn)練與微調(diào)”實現(xiàn)在人類對話領(lǐng)域的爆炸性效果(ChatGPT),ChatGPT則是AIGC在聊天對話場景的一個具體應(yīng)用。最后,AIGC是AI大模型自動創(chuàng)作生成的內(nèi)容,是AI大模型的一種重要應(yīng)用。 大模型 具有大規(guī)模參數(shù)和計算能力的機器學(xué)習(xí)模型。這些模型通常由深度神經(jīng)網(wǎng)絡(luò)構(gòu)建而成,擁有數(shù)十億甚至數(shù)千億個參數(shù)。 LLM大型語言模型(Large Language Model) 通常是具有大規(guī)模參數(shù)和計算能力的自然語言處理模型,例如 OpenAI 的 GPT-3 模型。這些模型可以通過大量的數(shù)據(jù)和參數(shù)進行訓(xùn)練,以生成人類類似的文本或回答自然語言的問題。 GPT(Generative Pre-trained Transformer)和ChatGPT 都是基于Transformer架構(gòu)的語言模型,但它們在設(shè)計和應(yīng)用上存在一些區(qū)別。GPT模型旨在生成自然語言文本并處理各種自然語言處理任務(wù),如文本生成、翻譯、摘要等。ChatGPT則專注于對話和交互式對話。它經(jīng)過特定的訓(xùn)練,以更好地處理多輪對話和上下文理解。 AIGC( AI Generated Content) 是由AI自動創(chuàng)作生成的內(nèi)容,即AI接收到人下達(dá)的任務(wù)指令,通過處理人的自然語言,自動生成圖片、視頻、音頻等。 AI大模型歷史ChatGPT的底層技術(shù)框架源于2017年Google推出的Transformer,這個模型采用了Attention機制,徹底顛覆了傳統(tǒng)深度學(xué)習(xí)中的循環(huán)和卷積結(jié)構(gòu),直接呈現(xiàn)了實現(xiàn)“大一統(tǒng)模型”的雄心壯志。2018年6月,openAI發(fā)布了第一代GPT(Generative Pre-Training),基于Transformer Decoder的改進,有效地證明了在自然語言處理領(lǐng)域使用預(yù)訓(xùn)練+微調(diào)方法的有效性。緊接著,同年10月,Google推出了基于Transformer Encoder的Bert,在相同的參數(shù)規(guī)模下,其效果一度超越了GPT1,成為自然語言處理領(lǐng)域的佼佼者。 然而,openAI并不滿足于此,僅僅依靠增加模型大小和訓(xùn)練數(shù)據(jù)集來達(dá)到與Bert相媲美的效果顯然不夠高明。于是,他們在GPT2中引入了zero-shot技術(shù),并成功地證明了其有效性。此后,openAI在LLM(大型語言模型)的道路上義無反顧地前行,在2020年6月推出了龐大的GPT3,擁有高達(dá)1750億的參數(shù)量,各種實驗效果達(dá)到巔峰水平。傳聞一次訓(xùn)練的費用高達(dá)1200萬美元,這使得GPT系列成為普通工業(yè)界踏足的一座高山,但也因其高昂的代價成為一個不可忽視的挑戰(zhàn)。 2022年11月推出的ChatGPT被戲稱為AI界的“iPhone時刻”,以它為代表的生成式AI使每個人都能像命令手機一樣指揮計算機來解決問題。無論是生產(chǎn)工具、對話引擎,還是個人助手等各種應(yīng)用,它都扮演著協(xié)助、服務(wù),甚至超越人類的角色。這一革命性突破讓ChatGPT在搜索引擎和各種工具軟件中掀起了應(yīng)用的熱潮,吸引了廣大用戶對ChatGPT相關(guān)技術(shù)的極大興趣和學(xué)習(xí)熱情。 AI大模型精選概念術(shù)語AI大模型領(lǐng)域有許多常用術(shù)語,了解這些術(shù)語對于理解和探索這一領(lǐng)域非常重要,以下是建議大家需了解的常用術(shù)語: 人工智能(AI)是研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。人工智能是計算機科學(xué)的一個分支,它致力于理解智能的本質(zhì),并生產(chǎn)出一種能夠以人類智能相似的方式做出反應(yīng)的智能機器。 AGI(Artificial General Intelligence)是指通用人工智能,專注于研制像人一樣思考、像人一樣從事多種用途的機器。它與一般的特定領(lǐng)域智能(如機器視覺、語音識別等)相區(qū)分。 生成式AI(AI-Generated Content)是基于人工智能技術(shù),通過已有數(shù)據(jù)尋找規(guī)律,并通過適當(dāng)?shù)姆夯芰ι上嚓P(guān)內(nèi)容的技術(shù)。它可以生成圖像、文本、音頻、視頻等內(nèi)容。 LLM(Large Language Model)是大型語言模型,用深度學(xué)習(xí)算法處理和理解自然語言的基礎(chǔ)機器學(xué)習(xí)模型。它可以根據(jù)從海量數(shù)據(jù)集中獲得的知識來識別、總結(jié)、翻譯、預(yù)測和生成文本和其他內(nèi)容。 NLP(Natural Language Processing)是計算機科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個重要方向。它研究能實現(xiàn)人與計算機之間用自然語言進行有效通信的各種理論和方法,主要應(yīng)用于機器翻譯、文本分類、語音識別等方面。 Transformer模型是一種深度學(xué)習(xí)模型架構(gòu),廣泛應(yīng)用于自然語言處理任務(wù)。Transformer模型以自注意力機制為基礎(chǔ),已成為眾多AI大模型的核心架構(gòu)。 注意力機制(Attention Mechanism)是一種用于處理序列數(shù)據(jù)的機制,允許模型在處理輸入序列時對不同位置的信息分配不同的注意力權(quán)重。這對于理解長文本和建立語境非常有幫助。 參數(shù)量(Model Parameters)是指的是神經(jīng)網(wǎng)絡(luò)模型中的可調(diào)整參數(shù)數(shù)量。AI大模型通常有數(shù)億到數(shù)千億的參數(shù),這些參數(shù)用于存儲和學(xué)習(xí)模型的知識。B是Billion/十億的意思,常見6B模型是60億參數(shù)量的大模型。 精調(diào)微調(diào)(FineTuning)是針對大量數(shù)據(jù)訓(xùn)練出來的預(yù)訓(xùn)練模型,后期采用業(yè)務(wù)相關(guān)數(shù)據(jù)進一步訓(xùn)練原先模型的相關(guān)部分,得到準(zhǔn)確度更高的模型,或者更好的泛化。 指令微調(diào)(Instruction FineTuning)是針對已經(jīng)存在的預(yù)訓(xùn)練模型,給出額外的指令或者標(biāo)注數(shù)據(jù)集來提升模型的性能。 強化學(xué)習(xí)(Reinforcement Learning)是一種機器學(xué)習(xí)方法,其中模型通過與環(huán)境的互動來學(xué)習(xí)決策策略,以最大化某種獎勵信號。在某些應(yīng)用中,AI大模型使用強化學(xué)習(xí)進行決策。 RLHF(Reinforcement Learning from Human Feedback)是一種涉及多個模型和不同訓(xùn)練階段的復(fù)雜概念,用于優(yōu)化語言模型的強化學(xué)習(xí)方式,依據(jù)人類反饋來進行訓(xùn)練。 涌現(xiàn)(Emergence)或稱創(chuàng)發(fā)、突現(xiàn)、呈展、演生,是一種現(xiàn)象。許多小實體相互作用后產(chǎn)生了大實體,而這個大實體展現(xiàn)了組成它的小實體所不具有的特性。研究發(fā)現(xiàn),模型規(guī)模達(dá)到一定閾值以上后,會在多步算術(shù)、大學(xué)考試、單詞釋義等場景的準(zhǔn)確性顯著提升,稱為涌現(xiàn)。 泛化(Generalization)模型泛化是指一些模型可以應(yīng)用(泛化)到其他場景,通常為采用遷移學(xué)習(xí)、微調(diào)等手段實現(xiàn)泛化。 思維鏈CoT(Chain-of-Thought)是通過讓大語言模型(LLM)將一個問題拆解為多個步驟,一步一步分析,逐步得出正確答案。需指出,針對復(fù)雜問題,LLM直接給出錯誤答案的概率比較高。思維鏈可以看成是一種指令微調(diào)。 本文是“從零開始了解AI大模型”系列的啟蒙概念篇,計劃陸續(xù)推出以下后續(xù)篇章,歡迎大家關(guān)注本號
通過這些篇章,希望能夠為讀者提供全面的了解,幫助更深入地掌握AI大模型的知識。請繼續(xù)關(guān)注我們的號,以獲取更多有關(guān)AI大模型的有趣信息和深入見解。 |
|