https://www.toutiao.com/article/7275265907189350953/?log_from=12a8c57818a5c_1694052830713 文/Rob Toews 如果說(shuō)現(xiàn)代人工智能有一份創(chuàng)始文件或者一篇圣典,那一定就是谷歌2017年發(fā)布的研究論文《你需要的只是Attention》(Attention Is All You Need)。 這篇論文介紹了一種被稱為“transformer"的新型深度學(xué)習(xí)架構(gòu),并在過(guò)去五年里徹底改變了人工智能領(lǐng)域。 Transformer是當(dāng)今占主導(dǎo)地位的人工智能架構(gòu),它與2016年科幻電影《降臨》(Arrival)中的外星語(yǔ)言有著有趣的相似之處。圖片來(lái)源:PARAMOUNT PICTURES 目前席卷全球的人工智能熱潮都可以直接追溯到transformer的發(fā)明。今天出現(xiàn)在頭條新聞中的每個(gè)主要AI模型和產(chǎn)品——ChatGPT、GPT-4、Midjourney、Stable Diffusion、GitHub Copilot等等——都是使用transformer構(gòu)建的。 Transformer具有顯著的通用性:雖然它們最初是專為語(yǔ)言翻譯而開(kāi)發(fā)的,但它們現(xiàn)在也在推動(dòng)計(jì)算機(jī)視覺(jué)、機(jī)器人學(xué)、計(jì)算生物學(xué)等領(lǐng)域的技術(shù)發(fā)展。 簡(jiǎn)而言之,transformer代表了當(dāng)今人工智能技術(shù)無(wú)可爭(zhēng)議的黃金標(biāo)準(zhǔn)。 但沒(méi)有一種技術(shù)能永遠(yuǎn)占據(jù)主導(dǎo)地位。 在transformer的影響力達(dá)到頂峰之際,思考接下來(lái)會(huì)發(fā)生什么似乎有些奇怪。但是,在瞬息萬(wàn)變的人工智能世界里,在未來(lái)變得顯而易見(jiàn)之前,設(shè)法“洞察先機(jī)”并一窺究竟,既令人著迷,又大有裨益。 本著這種精神,讓我們斗膽一問(wèn): 什么會(huì)取代transformer? Transformer 101為了探討這個(gè)問(wèn)題,我們必須首先更深入地了解transformer。 現(xiàn)已成為經(jīng)典的那篇關(guān)于transformer論文是由八位研究人員于2017年在谷歌共同完成的:他們是艾丹·戈麥斯(Aidan Gomez)、利昂·瓊斯(Llion Jones)、盧卡斯·凱澤(Lukasz Kaiser)、尼基·帕馬爾(Niki Parmar)、伊利亞·波羅蘇欣(Illia Polosukhin)、諾姆·沙澤爾(Noam Shazeer)、雅各布·烏斯科雷特(Jakob Uszkoreit)和阿希什·瓦斯瓦尼(Ashish Vaswani)。 關(guān)于這篇論文,一個(gè)經(jīng)常被忽視的事實(shí)是,所有8位作者都被列為共同撰稿人,排名不分先后,也就是說(shuō),他們的名字出現(xiàn)在論文上的順序是隨機(jī)決定的,沒(méi)有任何意義。話雖如此,人們普遍認(rèn)為烏斯科雷特為transformer這個(gè)概念提供了最初的智力引擎,而瓦斯瓦尼和沙澤爾則是自始至終最深入?yún)⑴c這項(xiàng)工作各個(gè)方面的兩位作者。 這8位作者都因?yàn)樗麄儗?duì)這篇論文的參與而成為了人工智能領(lǐng)域的杰出人物。如今,他們都不在谷歌工作了,但他們后來(lái)各自或共同創(chuàng)辦了許多當(dāng)今最重要的人工智能初創(chuàng)公司,包括Cohere、Character.ai、Adept、Inceptive、Essential AI 和 Sakana AI。 Transformer究竟為何能帶來(lái)如此巨大的突破? 在《你需要的只是Attention》這篇論文發(fā)表之前,語(yǔ)言人工智能領(lǐng)域最先進(jìn)的技術(shù)是一種被稱為遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的深度學(xué)習(xí)架構(gòu)。 顧名思義,RNN是按順序處理數(shù)據(jù)的,即按照單詞出現(xiàn)的順序一次處理一個(gè)單詞。 但重要的關(guān)系往往存在于單詞之間,即使它們?cè)谝粋€(gè)序列中不是緊挨著出現(xiàn)。為了使RNN能夠更好地解釋詞與詞之間的這些遠(yuǎn)距離依賴關(guān)系,一種被稱為“Attention”的機(jī)制變得流行起來(lái)。(Attention機(jī)制的發(fā)明通常被認(rèn)為歸功于深度學(xué)習(xí)先驅(qū)約書亞·本吉奧(Yoshua Bengio)在2014年發(fā)表的一篇論文。) “Attention”使模型能夠考慮單詞之間的關(guān)系,而不管它們相距多遠(yuǎn),并確定段落中哪些單詞和短語(yǔ)最值得"關(guān)注"。 在transformer論文發(fā)表之前,研究人員只將Attention作為RNN架構(gòu)的附加組件。谷歌團(tuán)隊(duì)的一大飛躍是完全摒棄了RNN,完全依靠Attention來(lái)進(jìn)行語(yǔ)言建模,這就是那篇文章的標(biāo)題為什么叫《你需要的只是Attention》。 (關(guān)于這篇論文,有一個(gè)迷人但鮮為人知的事實(shí):據(jù)合著者利昂·瓊斯說(shuō),它的標(biāo)題是對(duì)披頭士樂(lè)隊(duì)的歌曲《你需要的只是愛(ài)》(All You Need is Love)的致敬。) 發(fā)明transformer的八位科學(xué)家。圖片來(lái)源:金融時(shí)報(bào) Attention機(jī)制使transformer的根本創(chuàng)新成為可能,它實(shí)現(xiàn)了語(yǔ)言處理的并行化,即同時(shí)分析特定文本中的所有單詞,而不是按順序分析。 作為一個(gè)有趣的類比,論文合著者之一伊利亞·波洛蘇欣將transformer的結(jié)構(gòu)與2016年科幻電影《降臨》(Arrival)中虛構(gòu)的外星語(yǔ)言進(jìn)行了比較。影片中的外星人并沒(méi)有像人類那樣,按順序生成一串字符來(lái)組成單詞和句子,而是一次生成一個(gè)復(fù)雜的符號(hào),所有的符號(hào)都傳達(dá)了一個(gè)詳細(xì)的含義,人類必須將其作為一個(gè)整體來(lái)解讀。 Transformer的并行化使它們對(duì)所讀和所寫的文本有了更全面、更準(zhǔn)確的理解。這也使它們與RNN相比具有更高的計(jì)算效率和可擴(kuò)展性。Transformer可以在更大的數(shù)據(jù)集上進(jìn)行訓(xùn)練,并且可以使用比以前的架構(gòu)更多的參數(shù)來(lái)構(gòu)建,從而使其功能更加強(qiáng)大,更具通用性。事實(shí)上,當(dāng)今基于transformer的領(lǐng)先模型的一大特點(diǎn)就是其規(guī)模。 Transformer的并行架構(gòu)與GPU硬件的興起不謀而合,這是一種互惠互利、相互促進(jìn)的歷史巧合。GPU是一種計(jì)算機(jī)芯片,它本身具有大規(guī)模并行性,因此非常適合支持基于transformer的計(jì)算工作負(fù)載。(全球領(lǐng)先的GPU生產(chǎn)商英偉可能是當(dāng)今人工智能熱潮的最大受益者,由于市場(chǎng)對(duì)其芯片的需求驚人,該公司最近的市值超過(guò)了1萬(wàn)億美元。) 剩下的,就像人們常說(shuō)的那樣,就是歷史了。得益于這些巨大優(yōu)勢(shì),自發(fā)明以來(lái)的六年里,transformer席卷了世界,開(kāi)創(chuàng)了生成式人工智能的時(shí)代。 今天流行的所有“聊天機(jī)器人”——OpenAI的ChatGPT、谷歌的Bard、微軟的Bing Chat、Anthropic的Claude、Inflection的Pi等等——都是基于transformer。從Midjourney到Stable Diffusion再到Runway的每一個(gè)生成圖像或視頻的人工智能工具也是如此。(從文本到圖像和從文本到視頻技的術(shù)是由擴(kuò)散模型驅(qū)動(dòng)的,而擴(kuò)散模型又使用了transformer。) Transformer的影響遠(yuǎn)不止文字和圖片。當(dāng)今最先進(jìn)的機(jī)器人研究都依賴于transformer。事實(shí)上,谷歌最新的機(jī)器人研究成果被命名為RT-2,其中的“T”代表的就是“transformer”。同樣,在自動(dòng)駕駛汽車領(lǐng)域最有前途的新研究途徑之一是使用視覺(jué)transformer?;趖ransformer的模型開(kāi)啟了生物學(xué)中令人驚嘆的新可能性,包括設(shè)計(jì)出自然界從未出現(xiàn)過(guò)的定制蛋白質(zhì)和核酸的能力。 Transformer的聯(lián)合發(fā)明人阿希什·瓦斯瓦尼總結(jié)得很好:“transformer是一種快速捕捉任何輸入內(nèi)如的不同部分之間相互作用的方法。這是一種通用的方法,可以捕捉各個(gè)部分之間的相互作用,例如句子中的片段、音樂(lè)中的音符,圖像中的像素、蛋白質(zhì)的部分等等。它可以用于任何任務(wù)?!?/p> 天下沒(méi)有不散的筵席?然而,盡管具有令人難以置信的優(yōu)勢(shì),transformer也并非沒(méi)有缺點(diǎn)。這些缺點(diǎn)為可能出現(xiàn)的新的和改進(jìn)的體系結(jié)構(gòu)打開(kāi)了大門。 Transformer的主要缺點(diǎn)是其驚人的計(jì)算成本。 任何熟悉人工智能世界的人都知道,當(dāng)今人工智能模型的一個(gè)決定性特征是它們永不滿足的算力需求。今天,訓(xùn)練一個(gè)尖端的大型語(yǔ)言模型需要連續(xù)幾個(gè)月不停地運(yùn)行數(shù)千個(gè)GPU。例如,OpenAI今年早些時(shí)候籌集了令人瞠目的100億美元,其原因是為了支付構(gòu)建先進(jìn)人工智能模型所需的大量算力資源的費(fèi)用。另一個(gè)例子是,成立僅18個(gè)月的初創(chuàng)公司Inflection最近籌集了超過(guò)10億美元的風(fēng)險(xiǎn)投資,用于構(gòu)建一個(gè)大型GPU集群來(lái)訓(xùn)練其語(yǔ)言模型。 事實(shí)上,基于transformer的模型對(duì)算力的需求如此之大,以至于當(dāng)前的人工智能熱潮引發(fā)了全球供應(yīng)短缺,硬件制造商無(wú)法以足夠快的速度生產(chǎn)人工智能芯片,以滿足需求。 為什么transformer對(duì)算力的要求如此之高? 一個(gè)基本的答案是,transformer的強(qiáng)大之處同時(shí)也是它的弱點(diǎn):因?yàn)樗鼈儽纫郧暗募軜?gòu)更能有效地?cái)U(kuò)展,transformer使構(gòu)建比以前存在的大幾個(gè)數(shù)量級(jí)的模型不僅成為了可能,而且是不可避免。如此龐大的模型相應(yīng)地需要龐大的計(jì)算能力。 但是transformer的算力成本有一個(gè)更具體的原因:transformer的架構(gòu)與序列長(zhǎng)度成二次方關(guān)系。簡(jiǎn)單地說(shuō),這意味著當(dāng)transformer處理的序列長(zhǎng)度(例如,段落中的單詞數(shù)量或圖像的大?。┰黾咏o定數(shù)量時(shí),所需的算力就會(huì)按該數(shù)量的平方增加,從而迅速變得巨大。 這種按照平方放大的縮放是有直觀原因的,也是transformer設(shè)計(jì)的固有特點(diǎn)。 回想一下,Attention使理解單詞之間的關(guān)系成為可能,而不管它們?cè)谛蛄兄邢嗑喽噙h(yuǎn)。它是如何做到這一點(diǎn)的呢?通過(guò)將序列中的每個(gè)單詞與該序列中的每個(gè)其他單詞進(jìn)行比較。這種兩兩比較的結(jié)果是,隨著序列長(zhǎng)度的增加,所需的計(jì)算步驟數(shù)量將呈二次方增長(zhǎng),而不是線性增長(zhǎng)。舉個(gè)具體的例子,將序列長(zhǎng)度從32個(gè)詞組增加一倍到64個(gè)詞組,transformer的計(jì)算成本就不僅僅是增加了一倍,而是增加了四倍。 這種二次方縮放導(dǎo)致了一個(gè)相關(guān)的缺點(diǎn):transformer很難處理很長(zhǎng)的序列。 隨著序列長(zhǎng)度的增長(zhǎng),將它們送入transformer最終會(huì)變得棘手,因?yàn)閮?nèi)存和計(jì)算需求會(huì)以二次方的速度激增。例如,想一想整本教科書(包含數(shù)百萬(wàn)個(gè)詞元)或整個(gè)基因組(包含數(shù)十億個(gè)詞元)的處理。 增加模型一次可以輸入的最大序列長(zhǎng)度,即所謂的模型的“上下文窗口”,是當(dāng)今大型語(yǔ)言模型研究的一個(gè)活躍領(lǐng)域。GPT-4模型的上下文窗口的容量是8000個(gè)詞元。幾個(gè)月前,OpenAI發(fā)布了一個(gè)增強(qiáng)版的GPT-4,擁有可容納32,000個(gè)詞元的上下文窗口。OpenAI的競(jìng)爭(zhēng)對(duì)手Anthropic隨后加大了賭注,最近宣布推出了一個(gè)新模型,其上下文窗口可以容納10萬(wàn)個(gè)詞元。 毫無(wú)疑問(wèn),這場(chǎng)軍備競(jìng)賽還將繼續(xù)下去。然而,如果OpenAI、Anthropic或任何其他公司堅(jiān)持使用transformer架構(gòu),那么它們制作模型上下文窗口的能力都是有限的。 人們已經(jīng)做出了各種嘗試,來(lái)構(gòu)建transformer的改進(jìn)版本,它們?nèi)匀皇褂肁ttention,但能更好地處理長(zhǎng)序列。然而,這些被修改過(guò)的transformer架構(gòu)——如Longformer、Reformer、Performer、Linformer和Big bird——通常會(huì)犧牲性能,因此未能得到廣泛應(yīng)用。 王位的挑戰(zhàn)者 這就把我們帶進(jìn)了可能是當(dāng)今研究領(lǐng)域最豐富的領(lǐng)域,即努力創(chuàng)造transformer的替代品。這一研究流派的指導(dǎo)原則是用一種亞二次方擴(kuò)展的新函數(shù)來(lái)取代Attention。亞二次方縮放將開(kāi)啟新的AI模型,這些模型(1)計(jì)算密集度更低,(2)與transformer相比,能夠更好地處理長(zhǎng)序列。當(dāng)然,挑戰(zhàn)在于,在實(shí)現(xiàn)這一目標(biāo)的同時(shí),還要與transformer的整體性能相匹配。 2021年,斯坦福大學(xué)的克里斯·雷(Chris Ré)實(shí)驗(yàn)室的一項(xiàng)名為S4的研究為這一研究途徑奠定了基礎(chǔ)。隨后,基于 S4 的一系列前景看好的亞二次方架構(gòu)相繼問(wèn)世。 S4家族中最有趣的新架構(gòu)之一是Hyena,幾個(gè)月前由包括克里斯·雷本人和約書亞·本吉奧在內(nèi)的強(qiáng)大團(tuán)隊(duì)發(fā)布。 為了代替Attention,Hyena使用了另外兩個(gè)操作:長(zhǎng)卷積和矩陣逐元素乘法。 卷積是機(jī)器學(xué)習(xí)領(lǐng)域最古老的方法之一,最早是由Yann LeCun在20世紀(jì)80年代提出的。Hyena在這個(gè)古老的架構(gòu)上的新做法是根據(jù)序列長(zhǎng)度拉伸和改變卷積過(guò)濾器的大小,以提高計(jì)算效率。 Hyena的初步結(jié)果令人欣喜。對(duì)于非Attention語(yǔ)言模型而言,該模型達(dá)到了最新的性能水平。在某些情況下,它可以與transformer的性能相媲美,同時(shí)大大減少了計(jì)算量。重要的是,隨著序列長(zhǎng)度的增加,Hyena相對(duì)于transformer的效率提高會(huì)變得更加顯著,這凸顯了它們?cè)诔L(zhǎng)輸入中的優(yōu)勢(shì):在8000個(gè)詞元序列長(zhǎng)度下,Hyena運(yùn)算符的速度是Attention的兩倍,而在64000個(gè)詞元長(zhǎng)度下,Hyena運(yùn)算符的速度是Attention的100倍。 正如Hyena的作者所說(shuō):“打破二次方的障礙是邁向深度學(xué)習(xí)新可能性的關(guān)鍵一步,例如使用整本教科書作為上下文,生成長(zhǎng)篇音樂(lè)或處理千兆像素級(jí)別的圖像?!?/p> 至少帶著一絲嘲諷,作者補(bǔ)充道:“我們?cè)趤喪畠|參數(shù)尺度上取得的可喜成果表明,Attention 可能不是我們所需要的全部?!?/p> Hyena架構(gòu)的一個(gè)引人注目的早期應(yīng)用是HyenaDNA,這是斯坦福大學(xué)推出的一種新的基因組學(xué)基礎(chǔ)模型。利用 Hyena 處理長(zhǎng)序列的卓越能力,HyenaDNA 擁有高達(dá) 100 萬(wàn)個(gè)詞元的上下文窗口。人類基因組是現(xiàn)存最長(zhǎng)(更不用說(shuō)最重要)的數(shù)據(jù)集之一:每個(gè)人的DNA包含32億個(gè)核苷酸。這使得它成為像 Hyena 這樣擅長(zhǎng)捕捉長(zhǎng)距離依賴關(guān)系的模型架構(gòu)的理想用例。 HyenaDNA的作者為這項(xiàng)技術(shù)未來(lái)的發(fā)展提供了一個(gè)誘人的暗示:“想象一下,能夠用整個(gè)人類基因組來(lái)向ChatGPT提問(wèn)——問(wèn)一些關(guān)于可能的疾病的問(wèn)題,預(yù)測(cè)藥物反應(yīng),或者根據(jù)你的特定遺傳密碼指導(dǎo)治療方案,這不是很方便嗎?” 這里需要注意的一點(diǎn)是,Hyena最初的工作是在相對(duì)較小的規(guī)模上開(kāi)展的。最大的Hyena模型有13億個(gè)參數(shù),而GPT-3有1750億個(gè)參數(shù),GPT-4(傳聞)有1.8萬(wàn)億個(gè)參數(shù)。Hyena架構(gòu)的一個(gè)關(guān)鍵考驗(yàn)是,當(dāng)它的規(guī)模被放大到當(dāng)今transformer模型的大小時(shí),它是否能繼續(xù)展示出強(qiáng)大的性能和效率提升。 該系列中的其他新型深度學(xué)習(xí)架構(gòu)包括 Monarch Mixer(也來(lái)自斯坦福大學(xué)克里斯·雷的實(shí)驗(yàn)室)、BiGS(來(lái)自康奈爾大學(xué)和DeepMind)和 MEGA(來(lái)自 Meta)。 像Hyena一樣,所有這些模型都具有亞二次方縮放特征,這意味著它們比transformer更具計(jì)算效率,更適合處理長(zhǎng)序列。和Hyena一樣,它們都很有前途,但尚未得到證實(shí):它們中是否有任何一種能夠在當(dāng)今transformer模型運(yùn)行的規(guī)模下保持強(qiáng)勁的性能,還有待觀察。 退一步說(shuō),計(jì)算效率和遠(yuǎn)程依賴關(guān)系并不是新架構(gòu)旨在改進(jìn)的transformer的唯二兩個(gè)弱點(diǎn)。 Transformer模型的另一個(gè)限制是它們不能持續(xù)學(xué)習(xí)。今天的transformer模型有靜態(tài)參數(shù)。當(dāng)一個(gè)模型被訓(xùn)練時(shí),它的權(quán)重(神經(jīng)元之間連接的強(qiáng)度)是被設(shè)置好的;這些權(quán)重不會(huì)根據(jù)模型在現(xiàn)實(shí)世界中部署時(shí)遇到的新信息進(jìn)行更新。 另一個(gè)常被提及的限制是transformer缺乏可解釋性?;趖ransformer的模型都是“黑匣子”:它們的內(nèi)部運(yùn)作過(guò)于復(fù)雜和不透明,以至于人類無(wú)法準(zhǔn)確理解它們的行為方式。對(duì)于安全關(guān)鍵型或高度受監(jiān)管的應(yīng)用(如醫(yī)療保健領(lǐng)域)來(lái)說(shuō),這可能是一個(gè)真正的問(wèn)題。 液體神經(jīng)網(wǎng)絡(luò)(Liquid neural networks)是另一個(gè)試圖挑戰(zhàn)transformer的熱門AI新架構(gòu),它聲稱可以解決這兩個(gè)缺點(diǎn)。 由拉明·哈桑尼(Ramin Hasani)和丹妮拉·魯斯(Daniela Rus)領(lǐng)導(dǎo)的研究小組在麻省理工學(xué)院創(chuàng)建了液體神經(jīng)網(wǎng)絡(luò),其靈感來(lái)自生物學(xué),特別是秀麗隱桿線蟲(Caenorhabditis elegans)的大腦的工作方式。其名稱中的“液體”指的是這樣一個(gè)事實(shí),即模型的權(quán)重是概率性的,而不是恒定的,因此可以根據(jù)模型所接觸的輸入而變化。 液體神經(jīng)網(wǎng)絡(luò)也比現(xiàn)在的transformer模型小得多。在最近的一次概念驗(yàn)證中,麻省理工學(xué)院的團(tuán)隊(duì)建立了一個(gè)自動(dòng)駕駛汽車系統(tǒng),該系統(tǒng)僅用19個(gè)神經(jīng)元和253個(gè)參數(shù)就能成功地在公共道路上行駛。 “每個(gè)人都在談?wù)摂U(kuò)大他們的網(wǎng)絡(luò),”哈桑尼說(shuō)?!拔覀儏s希望縮小規(guī)模,擁有更少但更豐富的節(jié)點(diǎn)?!?/p> 除了計(jì)算效率之外,這種更小的架構(gòu)意味著液體神經(jīng)網(wǎng)絡(luò)比transformer更透明,更易于人類閱讀。畢竟,對(duì)于人類觀察者來(lái)說(shuō),解讀一個(gè)擁有253個(gè)連接的網(wǎng)絡(luò)中發(fā)生的事情,要比解讀一個(gè)擁有 1750 億個(gè)連接的網(wǎng)絡(luò)中發(fā)生的事情更加切實(shí)可行。 魯斯是世界領(lǐng)先的機(jī)器人專家之一,而液體神經(jīng)網(wǎng)絡(luò)似乎也特別適合機(jī)器人應(yīng)用,包括自動(dòng)駕駛汽車和無(wú)人機(jī)。它們只能處理時(shí)間序列數(shù)據(jù)(即具有時(shí)間維度的數(shù)據(jù)),這意味著它們不能應(yīng)用于圖像或其他靜態(tài)數(shù)據(jù)模式。 值得一提的還有為打造“transformer之后的東西”所做的最后一項(xiàng)努力?!赌阈枰闹皇茿ttention》這篇論文的八位合著者之一的利昂·瓊斯最近離開(kāi)了谷歌,與前Stability AI)研究主管大衛(wèi)·哈(David Ha)一起創(chuàng)辦了一家名為Sakana AI的新公司。 Sakana的任務(wù)是用一種基于進(jìn)化原理的自然啟發(fā)的智能方法來(lái)改進(jìn)transformer。團(tuán)隊(duì)愿景的關(guān)鍵是集體或群體智能的概念,即由許多小模型組成的系統(tǒng)協(xié)同行動(dòng),而不是一個(gè)單一的模型。 “學(xué)習(xí)永遠(yuǎn)是贏家,”瓊斯說(shuō)。“人工智能的歷史反映了這樣一個(gè)現(xiàn)實(shí),即讓一個(gè)模型自己學(xué)習(xí)一些東西總是比人工設(shè)計(jì)它更好。深度學(xué)習(xí)革命本身就是一個(gè)例子,畢竟我們已經(jīng)從手工構(gòu)建特征檢測(cè)器進(jìn)化到讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)自己的特征。這將成為我們Sakana AI的核心理念,我們將從自然中汲取包括進(jìn)化在內(nèi)的想法來(lái)探索這個(gè)領(lǐng)域?!?/p> 遙遠(yuǎn)的地平線必須要說(shuō),Transformer是一個(gè)非常強(qiáng)大的AI架構(gòu)。 它已經(jīng)成為現(xiàn)代人工智能的基礎(chǔ)。幾乎所有先進(jìn)的AI系統(tǒng)都是基于transformer;每個(gè)人工智能研究人員都已經(jīng)習(xí)慣于使用transformer。在過(guò)去幾年里,成千上萬(wàn)的研究人員在彼此的工作基礎(chǔ)上對(duì)transformer進(jìn)行了優(yōu)化。 這為它們提供了強(qiáng)大的在位優(yōu)勢(shì),使其難以被取代。 然而,在聚光燈和人工智能炒作的回音室之外,開(kāi)發(fā)下一代人工智能架構(gòu)的工作正在如火如荼地進(jìn)行,這些架構(gòu)在不同方面都優(yōu)于transformer。 雖然這些工作仍處于早期階段,尚未得到證實(shí),這些新架構(gòu)是否能成功取代transformer也還遠(yuǎn)未確定,但如果他們做到了,對(duì)人工智能世界的影響將是巨大的。 在transformer時(shí)代之前,不同的AI架構(gòu)在不同的用例中各自占主導(dǎo)地位:遞歸神經(jīng)網(wǎng)絡(luò)用于語(yǔ)言領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)用于計(jì)算機(jī)視覺(jué)領(lǐng)域,強(qiáng)化學(xué)習(xí)用于游戲領(lǐng)域,等等。 近年來(lái),隨著transformer在一個(gè)又一個(gè)領(lǐng)域證明了自己是最先進(jìn)的,從語(yǔ)言到視覺(jué)到機(jī)器人再到生物學(xué),人工智能方法論的逐步統(tǒng)一令人矚目。 然而,這種走向統(tǒng)一的趨勢(shì)——“一個(gè)人工智能架構(gòu)來(lái)統(tǒng)治所有的人工智能”的趨勢(shì)——并不會(huì)無(wú)限期地持續(xù)下去。 可以想象,未來(lái)會(huì)出現(xiàn)另一種情況:隨著未來(lái)幾年人工智能研究前沿的發(fā)展,新的架構(gòu)會(huì)被開(kāi)發(fā)出來(lái),并被證明它們更適合特定領(lǐng)域。舉例來(lái)說(shuō),也許transformer在語(yǔ)言處理領(lǐng)域仍將占據(jù)主導(dǎo)地位,但新型架構(gòu)很快就會(huì)取代transformer,成為機(jī)器人領(lǐng)域的最先進(jìn)架構(gòu)。 又或許,一種新的人工智能方法會(huì)被開(kāi)發(fā)出來(lái),它的性能會(huì)超越transformer,并迅速取而代之。 只有一件事是肯定的:今天的人工智能領(lǐng)域發(fā)展如此之快,如此充滿活力,以至于我們應(yīng)該預(yù)料到變化會(huì)來(lái)得快到讓人不舒服。我們不應(yīng)該把任何事情視作理所當(dāng)然,而應(yīng)該為未來(lái)所帶來(lái)的驚喜做好準(zhǔn)備。 本文作者是風(fēng)投機(jī)構(gòu)Radical Ventures的合伙人,也是福布斯撰稿人,文章內(nèi)容僅代表作者本人觀點(diǎn)。譯自 |
|
來(lái)自: 山峰云繞 > 《人工智能信息科學(xué)仿生等新奇技術(shù)》