AI:大力出奇跡?Bigger is better?AI下一代浪潮?—人工智能的大語(yǔ)言模型(LLMs)的簡(jiǎn)介、發(fā)展以及未來(lái)趨勢(shì) 目錄 人工智能的大語(yǔ)言模型(LLMs)—AI下一代浪潮?Bigger is better?大力出奇跡? 單體模型VS混合模型 大模型的意義 大模型的局限性 大模型的四個(gè)障礙 未來(lái)的AI藍(lán)圖要擁抱綠色低碳 2017年以來(lái),大規(guī)模語(yǔ)言模型發(fā)展史 未來(lái)趨勢(shì)
人工智能的大語(yǔ)言模型(LLMs)—AI下一代浪潮?Bigger is better?大力出奇跡? 大型語(yǔ)言模型(LLMs)是在包含巨大數(shù)據(jù)量的大規(guī)模數(shù)據(jù)集上訓(xùn)練的。中國(guó)工程院院士王恩東表示:“人工智能如何發(fā)展出像人類(lèi)具備邏輯、意識(shí)和推理的認(rèn)知能力,是人工智能研究一直探索的方向。目前來(lái)看,通過(guò)大規(guī)模數(shù)據(jù)訓(xùn)練超大參數(shù)量的巨量模型,被認(rèn)為是非常有希望實(shí)現(xiàn)通用人工智能的一個(gè)重要方向?!彪S著巨量模型的興起,巨量化已成為未來(lái)人工智能發(fā)展非常重要的一個(gè)趨勢(shì)。而巨量化的一個(gè)核心特征就是模型參數(shù)多、訓(xùn)練數(shù)據(jù)量大。 2018 年谷歌發(fā)布BERT,從此,預(yù)訓(xùn)練模型(Pre-trained Models, PTMs)逐漸成為自然語(yǔ)言處理領(lǐng)域的主流。當(dāng)然,預(yù)訓(xùn)練模型如今已經(jīng)成為深度學(xué)習(xí)研究中的一種主流范式。 2020年,GPT-3 橫空出世,這個(gè)具有 1750 億參數(shù)規(guī)模的預(yù)訓(xùn)練模型所表現(xiàn)出來(lái)的零樣本與小樣本學(xué)習(xí)能力刷新了人們的認(rèn)知。作為一個(gè)語(yǔ)言生成模型,GPT-3 不僅能夠生成流暢自然的文本,還能完成問(wèn)答、翻譯、創(chuàng)作小說(shuō)等一系列 NLP 任務(wù),甚至進(jìn)行簡(jiǎn)單的算術(shù)運(yùn)算,并且其性能在很多任務(wù)上都超越相關(guān)領(lǐng)域的專(zhuān)有模型,達(dá)到 SOTA 水平。從此,OpenAI開(kāi)始引爆了 2021 年 AI 大模型研究的熱潮,大模型成為幾乎所有全球頭部AI公司的追逐目標(biāo)。 在大模型的賽道上,算力公司、算法公司、數(shù)據(jù)公司,研究機(jī)構(gòu)正在展開(kāi)新一輪競(jìng)賽。 國(guó)內(nèi)外AI頭部公司,包括谷歌、微軟、英偉達(dá)、智源人工智能研究院、阿里、百度、華為、騰訊、浪潮等國(guó)內(nèi)外科技巨頭和機(jī)構(gòu)紛紛展開(kāi)大模型研究和探索。 2021年,人工智能正式邁向“煉大模型”階段,開(kāi)展了超大規(guī)模預(yù)訓(xùn)練模型的“軍備競(jìng)賽”。通過(guò)設(shè)計(jì)先進(jìn)的算法、整合盡可能多的數(shù)據(jù)、匯聚大量算力、集約化地訓(xùn)練大模型,供大量企業(yè)使用。2021年,也被很多業(yè)界同行稱(chēng)為超大規(guī)模預(yù)訓(xùn)練模型的“爆發(fā)之年”。自去年 OpenAI 發(fā)布英文領(lǐng)域超大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型 GPT-3 后,中文領(lǐng)域同類(lèi)模型的訓(xùn)練進(jìn)程備受關(guān)注。 2021年1月,Google 推出的 Switch Transformer 模型以高達(dá) 1.6 萬(wàn)億的參數(shù)量打破了 GPT-3 作為最大 AI 模型的統(tǒng)治地位,成為史上首個(gè)萬(wàn)億級(jí)語(yǔ)言模型。 2021年6月20日,舉辦的 2021 深度學(xué)習(xí)開(kāi)發(fā)者峰會(huì) WAVE SUMMIT 上,依托飛槳核心框架,百度文心 ERNIE 最新開(kāi)源四大預(yù)訓(xùn)練模型:多粒度語(yǔ)言知識(shí)增強(qiáng)模型 ERNIE-Gram、長(zhǎng)文本理解模型 ERNIE-Doc、融合場(chǎng)景圖知識(shí)的跨模態(tài)理解模型 ERNIE-ViL、語(yǔ)言與視覺(jué)一體的模型 ERNIE-UNIMO。針對(duì)傳統(tǒng)預(yù)訓(xùn)練技術(shù)現(xiàn)存的難點(diǎn)痛點(diǎn),此次文心ERNIE開(kāi)源的四大預(yù)訓(xùn)練模型不僅在文本語(yǔ)義理解、長(zhǎng)文本建模和跨模態(tài)理解三大領(lǐng)域取得突破,效果上超越谷歌、微軟等業(yè)界模型,還擁有廣泛的應(yīng)用場(chǎng)景和前景,進(jìn)一步助力產(chǎn)業(yè)智能化升級(jí)。 2021年6月,第三屆北京智源大會(huì)上,北京智源人工智能研究院發(fā)布了超大規(guī)模智能模型“悟道 2.0”,達(dá)到1.75 萬(wàn)億參數(shù),超過(guò) Switch Transformer 成為全球最大的預(yù)訓(xùn)練模型。 隨著處理能力和數(shù)據(jù)源的增長(zhǎng),深度學(xué)習(xí)中曾經(jīng)的趨勢(shì)已經(jīng)成為一個(gè)原則:越大越好。近年來(lái),語(yǔ)言模型的規(guī)模越來(lái)越大,只有像Google、Microsoft、NVIDIA等大公司才可以玩轉(zhuǎn)千億/萬(wàn)億級(jí)的大模型,而且事實(shí)證明以大模型為基礎(chǔ)探索通用智能的道路也遠(yuǎn)遠(yuǎn)沒(méi)有到盡頭,國(guó)內(nèi)產(chǎn)業(yè)和學(xué)術(shù)界在對(duì)大模型的探索上也亦步亦趨,大規(guī)模的AI設(shè)備集群和通用性的軟硬件生態(tài)協(xié)同越來(lái)越成為信息時(shí)代急需的基礎(chǔ)設(shè)施,未來(lái)制約人工智能發(fā)展的不僅僅是對(duì)人才的競(jìng)爭(zhēng),大科學(xué)裝置和對(duì)多場(chǎng)景應(yīng)用的通用全棧式技術(shù)生態(tài)的不斷發(fā)展進(jìn)化,也越來(lái)越重要。 2021年底總結(jié)的時(shí)候,Jeff說(shuō)到,這些大模型通常使用自監(jiān)督學(xué)習(xí)方法,這個(gè)趨勢(shì)令人興奮。一方面可以大大減少工作量,另一方面在長(zhǎng)尾任務(wù)中也能取得更好表現(xiàn)。 單體模型VS混合模型 現(xiàn)在業(yè)界提高模型參數(shù)量有兩種技術(shù)路線(xiàn),產(chǎn)生兩種不同的模型結(jié)構(gòu),一種是單體模型,一種是混合模型。如華為的盤(pán)古大模型、百度的文心大模型、英偉達(dá)聯(lián)合微軟發(fā)布的自然語(yǔ)言生成模型 MT-NLG 、浪潮的源大模型等走的都是單體模型路線(xiàn);而智源的悟道模型、阿里 M6 等走的是混合模型路線(xiàn)。 大模型的意義大模型被大多數(shù)專(zhuān)家認(rèn)為是走向AGI的重要途徑之一。超大規(guī)模預(yù)訓(xùn)練模型是從弱人工智能向通用人工智能的突破性探索,解決了傳統(tǒng)深度學(xué)習(xí)的應(yīng)用碎片化難題,引發(fā)科研機(jī)構(gòu)和企業(yè)重點(diǎn)投入。 大模型泛化能力強(qiáng)可減少數(shù)據(jù)標(biāo)注依賴(lài)??梢?span style="margin: 0px;padding: 0px;border: 0px;outline-style: initial;outline-width: 0px;vertical-align: baseline;background: 0px 0px;overflow-wrap: break-word;color: rgb(254, 44, 36);">吸收海量知識(shí),從里面提高模型的泛化能力,可以減少對(duì)領(lǐng)域數(shù)據(jù)標(biāo)注的依賴(lài)。 大模型的預(yù)先學(xué)習(xí)可減輕特定領(lǐng)域的數(shù)據(jù)量。超大規(guī)模預(yù)訓(xùn)練模型在海量通用數(shù)據(jù)上進(jìn)行預(yù)先學(xué)習(xí)和訓(xùn)練,能有效緩解AI領(lǐng)域通用數(shù)據(jù)的激增與專(zhuān)用數(shù)據(jù)匱乏的矛盾,具備通用智能的雛形。 大模型具有強(qiáng)通用性和少樣本學(xué)習(xí)能力。預(yù)訓(xùn)練大模型普適性強(qiáng),可滿(mǎn)足垂直行業(yè)的共性需求。預(yù)訓(xùn)練大模型遷移性好,可滿(mǎn)足典型產(chǎn)品的技術(shù)要求。GPT-3凸顯了一種小樣本學(xué)習(xí)以及泛化能力,而且兩個(gè)層面的能力都非常優(yōu)秀。 大模型提高了模型使用效率。業(yè)內(nèi)普遍認(rèn)為“一次開(kāi)發(fā),終身使用”。擁有更通識(shí)的大模型將為細(xì)分任務(wù)奠定基礎(chǔ),后續(xù)應(yīng)用無(wú)需投入大量標(biāo)注數(shù)據(jù)及從頭訓(xùn)練調(diào)參,效率明顯提升。 大模型承上啟下,深刻影響底層技術(shù)和上層應(yīng)用的發(fā)展;向下驅(qū)動(dòng)數(shù)據(jù)技術(shù)和計(jì)算架構(gòu)能力的提升,支撐模型訓(xùn)練、部署和優(yōu)化,向上支撐上層應(yīng)用的服務(wù)轉(zhuǎn)型。 模型的參數(shù)規(guī)模越大,優(yōu)勢(shì)越明顯。 AIGC(AI生成內(nèi)容)就是大模型落地的一個(gè)重要方向(內(nèi)容消費(fèi)/創(chuàng)意設(shè)計(jì))。
AIGC(AI Generated Content,人工智能創(chuàng)造內(nèi)容/虛擬內(nèi)容/虛擬人),借助大模型的跨模態(tài)綜合技術(shù)能力,可以激發(fā)創(chuàng)意,提升內(nèi)容多樣性,降低制作成本,將會(huì)實(shí)現(xiàn)大規(guī)模應(yīng)用。隨著深度學(xué)習(xí)的發(fā)展,AI生成虛擬內(nèi)容AIGC正滲透在圖像、視頻、CG、AI訓(xùn)練數(shù)據(jù)等各類(lèi)領(lǐng)域,甚至同時(shí)覆蓋多模態(tài)的虛擬人技術(shù)。其中虛擬數(shù)字人,指存在于非物理世界中,由圖形渲染、動(dòng)作捕捉、語(yǔ)音合成等計(jì)算機(jī)手段創(chuàng)造及使用,并具有多重人類(lèi)特征的綜合產(chǎn)物。目前分為「CG建模+真人驅(qū)動(dòng)」和「深度合成+計(jì)算驅(qū)動(dòng)」兩類(lèi)。 大模型的局限性資本門(mén)檻:大模型的訓(xùn)練,以GPT-3為例,訓(xùn)練一次的成本是1200萬(wàn)美金; 技術(shù)門(mén)檻:AI框架的深度優(yōu)化和并行能力要求很高。 跨領(lǐng)域門(mén)檻:大模型多方向問(wèn)題亟待解決,生態(tài)建設(shè)不容小覷。未來(lái)預(yù)訓(xùn)練大模型將重點(diǎn)解決應(yīng)用、可信、跨學(xué)科合作、資源不平衡和開(kāi)放共享等問(wèn)題。
大模型的四個(gè)障礙 Andrew NG 認(rèn)為,構(gòu)建越來(lái)越大的模型的努力帶來(lái)了自己的挑戰(zhàn)。龐大模型的開(kāi)發(fā)人員必須克服四個(gè)巨大的障礙。 數(shù)據(jù):大型模型需要大量數(shù)據(jù),但網(wǎng)絡(luò)和數(shù)字圖書(shū)館等大型來(lái)源可能缺乏高質(zhì)量數(shù)據(jù)。例如,研究人員發(fā)現(xiàn) BookCorpus 是一個(gè)包含 11,000 本電子書(shū)的集合,已被用于訓(xùn)練 30 多個(gè)大型語(yǔ)言模型,可能會(huì)傳播對(duì)某些宗教的偏見(jiàn),因?yàn)樗狈τ懻摶浇毯鸵了固m教以外信仰的文本。 AI 社區(qū)越來(lái)越意識(shí)到數(shù)據(jù)質(zhì)量至關(guān)重要,但尚未就編譯大規(guī)模、高質(zhì)量數(shù)據(jù)集的有效方法達(dá)成共識(shí)。 速度:今天的硬件難以處理龐大的模型,當(dāng)位反復(fù)進(jìn)出內(nèi)存時(shí),這些模型可能會(huì)陷入困境。為了減少延遲,Switch Transformer 背后的 Google 團(tuán)隊(duì)開(kāi)發(fā)了一種方法,可以為每個(gè)令牌處理模型層的選定子集。他們最好的模型的預(yù)測(cè)速度比參數(shù)數(shù)量只有其 1/30 的模型快 66%。同時(shí),微軟開(kāi)發(fā)了 DeepSpeed 庫(kù),它并行處理數(shù)據(jù)、單個(gè)層和層組,并通過(guò)在 CPU 和 GPU 之間劃分任務(wù)來(lái)減少冗余處理。 能源:訓(xùn)練如此龐大的網(wǎng)絡(luò)會(huì)消耗大量的電能。 2019 年的一項(xiàng)研究發(fā)現(xiàn),使用化石燃料,在 8 個(gè) Nvidia P100 GPU 上訓(xùn)練一個(gè) 2 億參數(shù)的變壓器模型,在五年的駕駛過(guò)程中排放的二氧化碳幾乎與一輛普通汽車(chē)一樣多。新一代有望加速人工智能的芯片,如 Cerebras 的 WSE-2 和谷歌最新的 TPU,可能有助于減少排放,同時(shí)風(fēng)能、太陽(yáng)能和其他清潔能源增加以滿(mǎn)足需求。 交付:這些龐大的模型太大而無(wú)法在消費(fèi)者或邊緣設(shè)備上運(yùn)行,因此大規(guī)模部署它們需要互聯(lián)網(wǎng)訪(fǎng)問(wèn)(較慢)或精簡(jiǎn)實(shí)施(能力較弱)。
未來(lái)的AI藍(lán)圖要擁抱綠色低碳—綠色AI 眾所周知,全球變暖是人類(lèi)的行為造成地球氣候變化的后果。2020年9月,中國(guó)提出努力爭(zhēng)取在2060年前實(shí)現(xiàn)碳中和。為了能夠早日實(shí)現(xiàn)我國(guó)關(guān)于“碳中和”以及“碳達(dá)峰”的戰(zhàn)略目標(biāo),在今后的40年當(dāng)中,中國(guó)在產(chǎn)業(yè)、消費(fèi)、能源以及區(qū)域結(jié)構(gòu)等方面都會(huì)做出重大整頓。 隨著“碳中和”逐步被提高到國(guó)家戰(zhàn)略的高度之上,人工智能行業(yè),包括機(jī)器學(xué)習(xí)模型當(dāng)然也要倡導(dǎo)追求碳中和。不可否認(rèn),數(shù)據(jù)集和模型規(guī)模的增長(zhǎng),帶來(lái)了多種語(yǔ)言任務(wù)上準(zhǔn)確率的顯著提升,并通過(guò)NLP 基準(zhǔn)任務(wù)上的全面改進(jìn)證明了這一點(diǎn),但是不應(yīng)該把模型性能當(dāng)作唯一標(biāo)準(zhǔn)。未來(lái)的AI藍(lán)圖要擁抱綠色低碳,助力實(shí)現(xiàn)碳達(dá)峰碳中和目標(biāo)。 隨著AI技術(shù)加速與各行各業(yè)融合創(chuàng)新,數(shù)據(jù)中心和大規(guī)模AI計(jì)算實(shí)現(xiàn)了重要的經(jīng)濟(jì)和社會(huì)價(jià)值,但其能耗和對(duì)環(huán)境的影響不容忽視,亟需發(fā)展對(duì)環(huán)境更友好的“綠色AI”技術(shù),降低模型訓(xùn)練和使用的能耗。 針對(duì)該問(wèn)題,來(lái)自谷歌和美國(guó)加州大學(xué)伯克利分校的研究人員最近聯(lián)合發(fā)表一項(xiàng)研究論文,著重評(píng)估并比較了 5 個(gè)大型自然語(yǔ)言處理(NLP)模型的能耗和碳排放量,其中包括 T5、Meena、GShard、Switch Transformer 和 GPT-3。該論文提出,如果推出同時(shí)考量模型準(zhǔn)確性和碳排放的標(biāo)準(zhǔn),我們就可以想象一個(gè)良性循環(huán),通過(guò)加速算法、系統(tǒng)、硬件、數(shù)據(jù)中心以及碳中和在效率和成本方面的創(chuàng)新,即可減緩機(jī)器學(xué)習(xí)任務(wù)碳足跡的日益增長(zhǎng)。 未來(lái)幾年,“綠色AI”相關(guān)技術(shù)將持續(xù)蓬勃發(fā)展,圍繞高能效的架構(gòu)設(shè)計(jì)、訓(xùn)練和推理策略、數(shù)據(jù)利用等構(gòu)建體系,形成兼顧性能和能耗的評(píng)價(jià)標(biāo)準(zhǔn)。算力更高、能耗較低的AI芯片將不斷涌現(xiàn);領(lǐng)軍AI企業(yè)構(gòu)建集約化的大算力和大模型,改善下游性能,降低整體能耗成本。 相關(guān)文章: 《Carbon Emissions and Large Neural Network Training》 http:///abs/2104.10350v2 2017年以來(lái),大規(guī)模語(yǔ)言模型發(fā)展史發(fā)布時(shí)間 | 大模型 | 參數(shù)量 | 訓(xùn)練數(shù)據(jù) | 多模態(tài) | 功能 | 機(jī)構(gòu) | 2017年 | GPT-1 | 1.1億 |
| 文本 |
| OpenAI | 2018年 10月 | Bert | 3.4億 |
| 文本 |
| Google | 2019年 08月 | GPT-2 | 15億 |
| 文本 |
| OpenAI | 2019年 08月 | MegatronLM | 83億 |
| 文本 |
| NVIDIA | 2020年01月 | Turing-NLG | 170 億 |
| 文本 |
| Microsoft | 2020年05月 | GPT-3 | 1750 億 | 45TB | 文本 | NLU,文本生成 | OpenAI | 2020年06月 | GShard | 6190 億 | 比擁有 1750 億參數(shù)的 GPT-3 消耗的能源少約 53 倍,凈碳排放量少約 127 倍,這主要得益于 GShard 在算法+硬件上的多重優(yōu)化。 |
|
| Google | 2021 年 01月 | Switch Transformer | 1.6萬(wàn)億 |
|
|
| Google | 2021年03月 | CPM-1 (悟道2.0,文源) | 26億 |
| 文本 | NLU,文本生成 | 智源研究院 | 2021年04月 | PLUG | 270億 | >1.1TB high-quality | 文本 | NLU,文本生成 | 阿里達(dá)摩院 | 2021年04月 | 盤(pán)古-α | 2000億 | 1.1TB high-quality 80TB raw | 文本 | NLU,文本生成 | 華為&循環(huán)智能 | 2021年04月 | 孟子(BERT, T5,Oscar) | 10億 | 300GB | 文本,圖像 | NLU,文本生成 圖像生成文本 | 瀾舟科技 | 2021年06月 | M6 | 1000億 | 1.9TB images 292GB texts | 文本,圖像 | NLU,文本生成 圖像生成文本文本生成圖像 | 阿里達(dá)摩院 | 2021年06月 | CPM-2 (悟道2.0) CPM-MoE | 總共1.75萬(wàn)億 其中110億中文模型 110億中英模型 1980億中英MoE模型 | 2.3TB Chinese 300GB English | 文本 | NLU,文本生成 | 智源研究院 | 2021年06月 | CogView(悟道-文匯) | 40億 | 30 million high-quality (Chinese) text-image pairs | 文本,圖像 | 文本生成圖像 圖像生成文本 | 智源研究院 | 2021年07月 | ERNIE3.0 | 100億 | 4TB text and KG | 文本 | NLU,文本生成 | 百度 | 2021年09月 | 源1.0 | 2457億 | 5TB high-quality | 文本 | NLU,文本生成 | 浪潮 | 2021年10月 | Megatron Turing-NLG 威震天-圖靈 | 5300億 |
| 文本 | NLU | Microsoft+NVIDIA | 2021年10月 | 神農(nóng) | 10億 | 數(shù)百GB | 文本 | NLU,文本生成 | 騰訊 | 2021年12月 | Gopher | 2800億 | 10.5TB 的MassiveText語(yǔ)料庫(kù) | 文本 | Gopher在 124 項(xiàng)評(píng)估任務(wù)中的 100 項(xiàng)中優(yōu)于當(dāng)前最先進(jìn)的技術(shù)。 | DeepMind | 2021年12月 | ERNIE3.0 Titan | 2600億 |
|
|
| 百度 | 2021年12月 | GLaM | 1.2 萬(wàn)億 | 通用稀疏語(yǔ)言模型 |
| 7 項(xiàng)小樣本學(xué)習(xí)領(lǐng)域的性能超過(guò) GPT-3 | Google |
注:該表將持續(xù)更新 未來(lái)趨勢(shì) 清華大學(xué)教授、智源大模型技術(shù)委員會(huì)成員劉知遠(yuǎn)說(shuō): “大規(guī)模預(yù)訓(xùn)練模型是人工智能的最新技術(shù)高地,是對(duì)海量數(shù)據(jù)、高性能計(jì)算和學(xué)習(xí)理論原始創(chuàng)新的全方位考驗(yàn)”。 大小模型協(xié)同進(jìn)化。大模型參數(shù)競(jìng)賽,在未來(lái)某個(gè)時(shí)刻,會(huì)進(jìn)入冷靜期,大小模型將在云邊端協(xié)同進(jìn)化。達(dá)摩院認(rèn)為,因性能與能耗提升不成比例,受效率問(wèn)題的限制,大模型參數(shù)競(jìng)賽將進(jìn)入冷靜期,大小模型云邊端協(xié)同進(jìn)化會(huì)是未來(lái)趨勢(shì)。 大模型向邊、端的小模型輸出模型能力,小模型負(fù)責(zé)實(shí)際的推理與執(zhí)行,同時(shí)小模型再向大模型反饋算法與執(zhí)行成效,讓大模型的能力持續(xù)強(qiáng)化,形成有機(jī)循環(huán)的智能體系。 相關(guān)文章 NLP之PLUG:阿里達(dá)摩院發(fā)布最大中文預(yù)訓(xùn)練語(yǔ)言模型PLUG的簡(jiǎn)介、架構(gòu)組成、模型訓(xùn)練、使用方法之詳細(xì)攻略_一個(gè)處女座的程序猿-CSDN博客
Top AI Stories of 2021: Transformers Take Over, Models Balloon, Multimodal AI Takes Off, Governments Crack Down - The Batch | DeepLearning.AI
|