Transformer徹底改變了人工智能那什么將取代transformer

山峰云繞 2023-09-07 發(fā)布于貴州

展開(kāi)全文

https://www.toutiao.com/article/7275265907189350953/?log_from=12a8c57818a5c_1694052830713

文/Rob Toews

如果說(shuō)現(xiàn)代人工智能有一份創(chuàng)始文件或者一篇圣典，那一定就是谷歌2017年發(fā)布的研究論文《你需要的只是Attention》（Attention Is All You Need）。

這篇論文介紹了一種被稱為“transformer"的新型深度學(xué)習(xí)架構(gòu)，并在過(guò)去五年里徹底改變了人工智能領(lǐng)域。

Transformer是當(dāng)今占主導(dǎo)地位的人工智能架構(gòu)，它與2016年科幻電影《降臨》（Arrival）中的外星語(yǔ)言有著有趣的相似之處。圖片來(lái)源：PARAMOUNT PICTURES

目前席卷全球的人工智能熱潮都可以直接追溯到transformer的發(fā)明。今天出現(xiàn)在頭條新聞中的每個(gè)主要AI模型和產(chǎn)品——ChatGPT、GPT-4、Midjourney、Stable Diffusion、GitHub Copilot等等——都是使用transformer構(gòu)建的。

Transformer具有顯著的通用性：雖然它們最初是專為語(yǔ)言翻譯而開(kāi)發(fā)的，但它們現(xiàn)在也在推動(dòng)計(jì)算機(jī)視覺(jué)、機(jī)器人學(xué)、計(jì)算生物學(xué)等領(lǐng)域的技術(shù)發(fā)展。

簡(jiǎn)而言之，transformer代表了當(dāng)今人工智能技術(shù)無(wú)可爭(zhēng)議的黃金標(biāo)準(zhǔn)。

但沒(méi)有一種技術(shù)能永遠(yuǎn)占據(jù)主導(dǎo)地位。

在transformer的影響力達(dá)到頂峰之際，思考接下來(lái)會(huì)發(fā)生什么似乎有些奇怪。但是，在瞬息萬(wàn)變的人工智能世界里，在未來(lái)變得顯而易見(jiàn)之前，設(shè)法“洞察先機(jī)”并一窺究竟，既令人著迷，又大有裨益。

本著這種精神，讓我們斗膽一問(wèn)：

什么會(huì)取代transformer？

Transformer 101

為了探討這個(gè)問(wèn)題，我們必須首先更深入地了解transformer。

現(xiàn)已成為經(jīng)典的那篇關(guān)于transformer論文是由八位研究人員于2017年在谷歌共同完成的：他們是艾丹·戈麥斯（Aidan Gomez）、利昂·瓊斯（Llion Jones）、盧卡斯·凱澤（Lukasz Kaiser）、尼基·帕馬爾（Niki Parmar）、伊利亞·波羅蘇欣（Illia Polosukhin）、諾姆·沙澤爾（Noam Shazeer）、雅各布·烏斯科雷特（Jakob Uszkoreit）和阿希什·瓦斯瓦尼（Ashish Vaswani）。

關(guān)于這篇論文，一個(gè)經(jīng)常被忽視的事實(shí)是，所有8位作者都被列為共同撰稿人，排名不分先后，也就是說(shuō)，他們的名字出現(xiàn)在論文上的順序是隨機(jī)決定的，沒(méi)有任何意義。話雖如此，人們普遍認(rèn)為烏斯科雷特為transformer這個(gè)概念提供了最初的智力引擎，而瓦斯瓦尼和沙澤爾則是自始至終最深入?yún)⑴c這項(xiàng)工作各個(gè)方面的兩位作者。

這8位作者都因?yàn)樗麄儗?duì)這篇論文的參與而成為了人工智能領(lǐng)域的杰出人物。如今，他們都不在谷歌工作了，但他們后來(lái)各自或共同創(chuàng)辦了許多當(dāng)今最重要的人工智能初創(chuàng)公司，包括Cohere、Character.ai、Adept、Inceptive、Essential AI 和 Sakana AI。

Transformer究竟為何能帶來(lái)如此巨大的突破？

在《你需要的只是Attention》這篇論文發(fā)表之前，語(yǔ)言人工智能領(lǐng)域最先進(jìn)的技術(shù)是一種被稱為遞歸神經(jīng)網(wǎng)絡(luò)（RNN）的深度學(xué)習(xí)架構(gòu)。

顧名思義，RNN是按順序處理數(shù)據(jù)的，即按照單詞出現(xiàn)的順序一次處理一個(gè)單詞。

但重要的關(guān)系往往存在于單詞之間，即使它們?cè)谝粋€(gè)序列中不是緊挨著出現(xiàn)。為了使RNN能夠更好地解釋詞與詞之間的這些遠(yuǎn)距離依賴關(guān)系，一種被稱為“Attention”的機(jī)制變得流行起來(lái)。（Attention機(jī)制的發(fā)明通常被認(rèn)為歸功于深度學(xué)習(xí)先驅(qū)約書亞·本吉奧（Yoshua Bengio）在2014年發(fā)表的一篇論文。）

“Attention”使模型能夠考慮單詞之間的關(guān)系，而不管它們相距多遠(yuǎn)，并確定段落中哪些單詞和短語(yǔ)最值得"關(guān)注"。

在transformer論文發(fā)表之前，研究人員只將Attention作為RNN架構(gòu)的附加組件。谷歌團(tuán)隊(duì)的一大飛躍是完全摒棄了RNN，完全依靠Attention來(lái)進(jìn)行語(yǔ)言建模，這就是那篇文章的標(biāo)題為什么叫《你需要的只是Attention》。

（關(guān)于這篇論文，有一個(gè)迷人但鮮為人知的事實(shí)：據(jù)合著者利昂·瓊斯說(shuō)，它的標(biāo)題是對(duì)披頭士樂(lè)隊(duì)的歌曲《你需要的只是愛(ài)》（All You Need is Love）的致敬。）

發(fā)明transformer的八位科學(xué)家。圖片來(lái)源：金融時(shí)報(bào)

Attention機(jī)制使transformer的根本創(chuàng)新成為可能，它實(shí)現(xiàn)了語(yǔ)言處理的并行化，即同時(shí)分析特定文本中的所有單詞，而不是按順序分析。

作為一個(gè)有趣的類比，論文合著者之一伊利亞·波洛蘇欣將transformer的結(jié)構(gòu)與2016年科幻電影《降臨》（Arrival）中虛構(gòu)的外星語(yǔ)言進(jìn)行了比較。影片中的外星人并沒(méi)有像人類那樣，按順序生成一串字符來(lái)組成單詞和句子，而是一次生成一個(gè)復(fù)雜的符號(hào)，所有的符號(hào)都傳達(dá)了一個(gè)詳細(xì)的含義，人類必須將其作為一個(gè)整體來(lái)解讀。

Transformer的并行化使它們對(duì)所讀和所寫的文本有了更全面、更準(zhǔn)確的理解。這也使它們與RNN相比具有更高的計(jì)算效率和可擴(kuò)展性。Transformer可以在更大的數(shù)據(jù)集上進(jìn)行訓(xùn)練，并且可以使用比以前的架構(gòu)更多的參數(shù)來(lái)構(gòu)建，從而使其功能更加強(qiáng)大，更具通用性。事實(shí)上，當(dāng)今基于transformer的領(lǐng)先模型的一大特點(diǎn)就是其規(guī)模。

Transformer的并行架構(gòu)與GPU硬件的興起不謀而合，這是一種互惠互利、相互促進(jìn)的歷史巧合。GPU是一種計(jì)算機(jī)芯片，它本身具有大規(guī)模并行性，因此非常適合支持基于transformer的計(jì)算工作負(fù)載。（全球領(lǐng)先的GPU生產(chǎn)商英偉可能是當(dāng)今人工智能熱潮的最大受益者，由于市場(chǎng)對(duì)其芯片的需求驚人，該公司最近的市值超過(guò)了1萬(wàn)億美元。）

剩下的，就像人們常說(shuō)的那樣，就是歷史了。得益于這些巨大優(yōu)勢(shì)，自發(fā)明以來(lái)的六年里，transformer席卷了世界，開(kāi)創(chuàng)了生成式人工智能的時(shí)代。

今天流行的所有“聊天機(jī)器人”——OpenAI的ChatGPT、谷歌的Bard、微軟的Bing Chat、Anthropic的Claude、Inflection的Pi等等——都是基于transformer。從Midjourney到Stable Diffusion再到Runway的每一個(gè)生成圖像或視頻的人工智能工具也是如此。（從文本到圖像和從文本到視頻技的術(shù)是由擴(kuò)散模型驅(qū)動(dòng)的，而擴(kuò)散模型又使用了transformer。）

Transformer的影響遠(yuǎn)不止文字和圖片。當(dāng)今最先進(jìn)的機(jī)器人研究都依賴于transformer。事實(shí)上，谷歌最新的機(jī)器人研究成果被命名為RT-2，其中的“T”代表的就是“transformer”。同樣，在自動(dòng)駕駛汽車領(lǐng)域最有前途的新研究途徑之一是使用視覺(jué)transformer?；趖ransformer的模型開(kāi)啟了生物學(xué)中令人驚嘆的新可能性，包括設(shè)計(jì)出自然界從未出現(xiàn)過(guò)的定制蛋白質(zhì)和核酸的能力。

Transformer的聯(lián)合發(fā)明人阿希什·瓦斯瓦尼總結(jié)得很好：“transformer是一種快速捕捉任何輸入內(nèi)如的不同部分之間相互作用的方法。這是一種通用的方法，可以捕捉各個(gè)部分之間的相互作用，例如句子中的片段、音樂(lè)中的音符，圖像中的像素、蛋白質(zhì)的部分等等。它可以用于任何任務(wù)?！?/p>

天下沒(méi)有不散的筵席？

然而，盡管具有令人難以置信的優(yōu)勢(shì)，transformer也并非沒(méi)有缺點(diǎn)。這些缺點(diǎn)為可能出現(xiàn)的新的和改進(jìn)的體系結(jié)構(gòu)打開(kāi)了大門。

Transformer的主要缺點(diǎn)是其驚人的計(jì)算成本。

任何熟悉人工智能世界的人都知道，當(dāng)今人工智能模型的一個(gè)決定性特征是它們永不滿足的算力需求。今天，訓(xùn)練一個(gè)尖端的大型語(yǔ)言模型需要連續(xù)幾個(gè)月不停地運(yùn)行數(shù)千個(gè)GPU。例如，OpenAI今年早些時(shí)候籌集了令人瞠目的100億美元，其原因是為了支付構(gòu)建先進(jìn)人工智能模型所需的大量算力資源的費(fèi)用。另一個(gè)例子是，成立僅18個(gè)月的初創(chuàng)公司Inflection最近籌集了超過(guò)10億美元的風(fēng)險(xiǎn)投資，用于構(gòu)建一個(gè)大型GPU集群來(lái)訓(xùn)練其語(yǔ)言模型。

事實(shí)上，基于transformer的模型對(duì)算力的需求如此之大，以至于當(dāng)前的人工智能熱潮引發(fā)了全球供應(yīng)短缺，硬件制造商無(wú)法以足夠快的速度生產(chǎn)人工智能芯片，以滿足需求。

為什么transformer對(duì)算力的要求如此之高？

一個(gè)基本的答案是，transformer的強(qiáng)大之處同時(shí)也是它的弱點(diǎn)：因?yàn)樗鼈儽纫郧暗募軜?gòu)更能有效地?cái)U(kuò)展，transformer使構(gòu)建比以前存在的大幾個(gè)數(shù)量級(jí)的模型不僅成為了可能，而且是不可避免。如此龐大的模型相應(yīng)地需要龐大的計(jì)算能力。

但是transformer的算力成本有一個(gè)更具體的原因：transformer的架構(gòu)與序列長(zhǎng)度成二次方關(guān)系。簡(jiǎn)單地說(shuō)，這意味著當(dāng)transformer處理的序列長(zhǎng)度（例如，段落中的單詞數(shù)量或圖像的大?。┰黾咏o定數(shù)量時(shí)，所需的算力就會(huì)按該數(shù)量的平方增加，從而迅速變得巨大。

這種按照平方放大的縮放是有直觀原因的，也是transformer設(shè)計(jì)的固有特點(diǎn)。

回想一下，Attention使理解單詞之間的關(guān)系成為可能，而不管它們?cè)谛蛄兄邢嗑喽噙h(yuǎn)。它是如何做到這一點(diǎn)的呢？通過(guò)將序列中的每個(gè)單詞與該序列中的每個(gè)其他單詞進(jìn)行比較。這種兩兩比較的結(jié)果是，隨著序列長(zhǎng)度的增加，所需的計(jì)算步驟數(shù)量將呈二次方增長(zhǎng)，而不是線性增長(zhǎng)。舉個(gè)具體的例子，將序列長(zhǎng)度從32個(gè)詞組增加一倍到64個(gè)詞組，transformer的計(jì)算成本就不僅僅是增加了一倍，而是增加了四倍。

這種二次方縮放導(dǎo)致了一個(gè)相關(guān)的缺點(diǎn)：transformer很難處理很長(zhǎng)的序列。

隨著序列長(zhǎng)度的增長(zhǎng)，將它們送入transformer最終會(huì)變得棘手，因?yàn)閮?nèi)存和計(jì)算需求會(huì)以二次方的速度激增。例如，想一想整本教科書（包含數(shù)百萬(wàn)個(gè)詞元）或整個(gè)基因組（包含數(shù)十億個(gè)詞元）的處理。

增加模型一次可以輸入的最大序列長(zhǎng)度，即所謂的模型的“上下文窗口”，是當(dāng)今大型語(yǔ)言模型研究的一個(gè)活躍領(lǐng)域。GPT-4模型的上下文窗口的容量是8000個(gè)詞元。幾個(gè)月前，OpenAI發(fā)布了一個(gè)增強(qiáng)版的GPT-4，擁有可容納32,000個(gè)詞元的上下文窗口。OpenAI的競(jìng)爭(zhēng)對(duì)手Anthropic隨后加大了賭注，最近宣布推出了一個(gè)新模型，其上下文窗口可以容納10萬(wàn)個(gè)詞元。

毫無(wú)疑問(wèn)，這場(chǎng)軍備競(jìng)賽還將繼續(xù)下去。然而，如果OpenAI、Anthropic或任何其他公司堅(jiān)持使用transformer架構(gòu)，那么它們制作模型上下文窗口的能力都是有限的。

人們已經(jīng)做出了各種嘗試，來(lái)構(gòu)建transformer的改進(jìn)版本，它們?nèi)匀皇褂肁ttention，但能更好地處理長(zhǎng)序列。然而，這些被修改過(guò)的transformer架構(gòu)——如Longformer、Reformer、Performer、Linformer和Big bird——通常會(huì)犧牲性能，因此未能得到廣泛應(yīng)用。

王位的挑戰(zhàn)者

這就把我們帶進(jìn)了可能是當(dāng)今研究領(lǐng)域最豐富的領(lǐng)域，即努力創(chuàng)造transformer的替代品。這一研究流派的指導(dǎo)原則是用一種亞二次方擴(kuò)展的新函數(shù)來(lái)取代Attention。亞二次方縮放將開(kāi)啟新的AI模型，這些模型（1）計(jì)算密集度更低，（2）與transformer相比，能夠更好地處理長(zhǎng)序列。當(dāng)然，挑戰(zhàn)在于，在實(shí)現(xiàn)這一目標(biāo)的同時(shí)，還要與transformer的整體性能相匹配。

2021年，斯坦福大學(xué)的克里斯·雷（Chris Ré）實(shí)驗(yàn)室的一項(xiàng)名為S4的研究為這一研究途徑奠定了基礎(chǔ)。隨后，基于 S4 的一系列前景看好的亞二次方架構(gòu)相繼問(wèn)世。

S4家族中最有趣的新架構(gòu)之一是Hyena，幾個(gè)月前由包括克里斯·雷本人和約書亞·本吉奧在內(nèi)的強(qiáng)大團(tuán)隊(duì)發(fā)布。

為了代替Attention，Hyena使用了另外兩個(gè)操作：長(zhǎng)卷積和矩陣逐元素乘法。

卷積是機(jī)器學(xué)習(xí)領(lǐng)域最古老的方法之一，最早是由Yann LeCun在20世紀(jì)80年代提出的。Hyena在這個(gè)古老的架構(gòu)上的新做法是根據(jù)序列長(zhǎng)度拉伸和改變卷積過(guò)濾器的大小，以提高計(jì)算效率。

Hyena的初步結(jié)果令人欣喜。對(duì)于非Attention語(yǔ)言模型而言，該模型達(dá)到了最新的性能水平。在某些情況下，它可以與transformer的性能相媲美，同時(shí)大大減少了計(jì)算量。重要的是，隨著序列長(zhǎng)度的增加，Hyena相對(duì)于transformer的效率提高會(huì)變得更加顯著，這凸顯了它們?cè)诔L(zhǎng)輸入中的優(yōu)勢(shì)：在8000個(gè)詞元序列長(zhǎng)度下，Hyena運(yùn)算符的速度是Attention的兩倍，而在64000個(gè)詞元長(zhǎng)度下，Hyena運(yùn)算符的速度是Attention的100倍。

正如Hyena的作者所說(shuō)：“打破二次方的障礙是邁向深度學(xué)習(xí)新可能性的關(guān)鍵一步，例如使用整本教科書作為上下文，生成長(zhǎng)篇音樂(lè)或處理千兆像素級(jí)別的圖像?！?/p>

至少帶著一絲嘲諷，作者補(bǔ)充道：“我們?cè)趤喪畠|參數(shù)尺度上取得的可喜成果表明，Attention 可能不是我們所需要的全部?！?/p>

Hyena架構(gòu)的一個(gè)引人注目的早期應(yīng)用是HyenaDNA，這是斯坦福大學(xué)推出的一種新的基因組學(xué)基礎(chǔ)模型。利用 Hyena 處理長(zhǎng)序列的卓越能力，HyenaDNA 擁有高達(dá) 100 萬(wàn)個(gè)詞元的上下文窗口。人類基因組是現(xiàn)存最長(zhǎng)（更不用說(shuō)最重要）的數(shù)據(jù)集之一：每個(gè)人的DNA包含32億個(gè)核苷酸。這使得它成為像 Hyena 這樣擅長(zhǎng)捕捉長(zhǎng)距離依賴關(guān)系的模型架構(gòu)的理想用例。

HyenaDNA的作者為這項(xiàng)技術(shù)未來(lái)的發(fā)展提供了一個(gè)誘人的暗示：“想象一下，能夠用整個(gè)人類基因組來(lái)向ChatGPT提問(wèn)——問(wèn)一些關(guān)于可能的疾病的問(wèn)題，預(yù)測(cè)藥物反應(yīng)，或者根據(jù)你的特定遺傳密碼指導(dǎo)治療方案，這不是很方便嗎？”

這里需要注意的一點(diǎn)是，Hyena最初的工作是在相對(duì)較小的規(guī)模上開(kāi)展的。最大的Hyena模型有13億個(gè)參數(shù)，而GPT-3有1750億個(gè)參數(shù)，GPT-4（傳聞）有1.8萬(wàn)億個(gè)參數(shù)。Hyena架構(gòu)的一個(gè)關(guān)鍵考驗(yàn)是，當(dāng)它的規(guī)模被放大到當(dāng)今transformer模型的大小時(shí)，它是否能繼續(xù)展示出強(qiáng)大的性能和效率提升。

該系列中的其他新型深度學(xué)習(xí)架構(gòu)包括 Monarch Mixer（也來(lái)自斯坦福大學(xué)克里斯·雷的實(shí)驗(yàn)室）、BiGS（來(lái)自康奈爾大學(xué)和DeepMind）和 MEGA（來(lái)自 Meta）。

像Hyena一樣，所有這些模型都具有亞二次方縮放特征，這意味著它們比transformer更具計(jì)算效率，更適合處理長(zhǎng)序列。和Hyena一樣，它們都很有前途，但尚未得到證實(shí)：它們中是否有任何一種能夠在當(dāng)今transformer模型運(yùn)行的規(guī)模下保持強(qiáng)勁的性能，還有待觀察。

退一步說(shuō)，計(jì)算效率和遠(yuǎn)程依賴關(guān)系并不是新架構(gòu)旨在改進(jìn)的transformer的唯二兩個(gè)弱點(diǎn)。

Transformer模型的另一個(gè)限制是它們不能持續(xù)學(xué)習(xí)。今天的transformer模型有靜態(tài)參數(shù)。當(dāng)一個(gè)模型被訓(xùn)練時(shí)，它的權(quán)重（神經(jīng)元之間連接的強(qiáng)度）是被設(shè)置好的；這些權(quán)重不會(huì)根據(jù)模型在現(xiàn)實(shí)世界中部署時(shí)遇到的新信息進(jìn)行更新。

另一個(gè)常被提及的限制是transformer缺乏可解釋性?；趖ransformer的模型都是“黑匣子”：它們的內(nèi)部運(yùn)作過(guò)于復(fù)雜和不透明，以至于人類無(wú)法準(zhǔn)確理解它們的行為方式。對(duì)于安全關(guān)鍵型或高度受監(jiān)管的應(yīng)用（如醫(yī)療保健領(lǐng)域）來(lái)說(shuō)，這可能是一個(gè)真正的問(wèn)題。

液體神經(jīng)網(wǎng)絡(luò)（Liquid neural networks）是另一個(gè)試圖挑戰(zhàn)transformer的熱門AI新架構(gòu)，它聲稱可以解決這兩個(gè)缺點(diǎn)。

由拉明·哈桑尼（Ramin Hasani）和丹妮拉·魯斯（Daniela Rus）領(lǐng)導(dǎo)的研究小組在麻省理工學(xué)院創(chuàng)建了液體神經(jīng)網(wǎng)絡(luò)，其靈感來(lái)自生物學(xué)，特別是秀麗隱桿線蟲（Caenorhabditis elegans）的大腦的工作方式。其名稱中的“液體”指的是這樣一個(gè)事實(shí)，即模型的權(quán)重是概率性的，而不是恒定的，因此可以根據(jù)模型所接觸的輸入而變化。

液體神經(jīng)網(wǎng)絡(luò)也比現(xiàn)在的transformer模型小得多。在最近的一次概念驗(yàn)證中，麻省理工學(xué)院的團(tuán)隊(duì)建立了一個(gè)自動(dòng)駕駛汽車系統(tǒng)，該系統(tǒng)僅用19個(gè)神經(jīng)元和253個(gè)參數(shù)就能成功地在公共道路上行駛。

“每個(gè)人都在談?wù)摂U(kuò)大他們的網(wǎng)絡(luò)，”哈桑尼說(shuō)?！拔覀儏s希望縮小規(guī)模，擁有更少但更豐富的節(jié)點(diǎn)?！?/p>

除了計(jì)算效率之外，這種更小的架構(gòu)意味著液體神經(jīng)網(wǎng)絡(luò)比transformer更透明，更易于人類閱讀。畢竟，對(duì)于人類觀察者來(lái)說(shuō)，解讀一個(gè)擁有253個(gè)連接的網(wǎng)絡(luò)中發(fā)生的事情，要比解讀一個(gè)擁有 1750 億個(gè)連接的網(wǎng)絡(luò)中發(fā)生的事情更加切實(shí)可行。

魯斯是世界領(lǐng)先的機(jī)器人專家之一，而液體神經(jīng)網(wǎng)絡(luò)似乎也特別適合機(jī)器人應(yīng)用，包括自動(dòng)駕駛汽車和無(wú)人機(jī)。它們只能處理時(shí)間序列數(shù)據(jù)（即具有時(shí)間維度的數(shù)據(jù)），這意味著它們不能應(yīng)用于圖像或其他靜態(tài)數(shù)據(jù)模式。

值得一提的還有為打造“transformer之后的東西”所做的最后一項(xiàng)努力?！赌阈枰闹皇茿ttention》這篇論文的八位合著者之一的利昂·瓊斯最近離開(kāi)了谷歌，與前Stability AI）研究主管大衛(wèi)·哈（David Ha）一起創(chuàng)辦了一家名為Sakana AI的新公司。

Sakana的任務(wù)是用一種基于進(jìn)化原理的自然啟發(fā)的智能方法來(lái)改進(jìn)transformer。團(tuán)隊(duì)愿景的關(guān)鍵是集體或群體智能的概念，即由許多小模型組成的系統(tǒng)協(xié)同行動(dòng)，而不是一個(gè)單一的模型。

“學(xué)習(xí)永遠(yuǎn)是贏家，”瓊斯說(shuō)。“人工智能的歷史反映了這樣一個(gè)現(xiàn)實(shí)，即讓一個(gè)模型自己學(xué)習(xí)一些東西總是比人工設(shè)計(jì)它更好。深度學(xué)習(xí)革命本身就是一個(gè)例子，畢竟我們已經(jīng)從手工構(gòu)建特征檢測(cè)器進(jìn)化到讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)自己的特征。這將成為我們Sakana AI的核心理念，我們將從自然中汲取包括進(jìn)化在內(nèi)的想法來(lái)探索這個(gè)領(lǐng)域?！?/p>

遙遠(yuǎn)的地平線

必須要說(shuō)，Transformer是一個(gè)非常強(qiáng)大的AI架構(gòu)。

它已經(jīng)成為現(xiàn)代人工智能的基礎(chǔ)。幾乎所有先進(jìn)的AI系統(tǒng)都是基于transformer；每個(gè)人工智能研究人員都已經(jīng)習(xí)慣于使用transformer。在過(guò)去幾年里，成千上萬(wàn)的研究人員在彼此的工作基礎(chǔ)上對(duì)transformer進(jìn)行了優(yōu)化。

這為它們提供了強(qiáng)大的在位優(yōu)勢(shì)，使其難以被取代。

然而，在聚光燈和人工智能炒作的回音室之外，開(kāi)發(fā)下一代人工智能架構(gòu)的工作正在如火如荼地進(jìn)行，這些架構(gòu)在不同方面都優(yōu)于transformer。

雖然這些工作仍處于早期階段，尚未得到證實(shí)，這些新架構(gòu)是否能成功取代transformer也還遠(yuǎn)未確定，但如果他們做到了，對(duì)人工智能世界的影響將是巨大的。

在transformer時(shí)代之前，不同的AI架構(gòu)在不同的用例中各自占主導(dǎo)地位：遞歸神經(jīng)網(wǎng)絡(luò)用于語(yǔ)言領(lǐng)域，卷積神經(jīng)網(wǎng)絡(luò)用于計(jì)算機(jī)視覺(jué)領(lǐng)域，強(qiáng)化學(xué)習(xí)用于游戲領(lǐng)域，等等。

近年來(lái)，隨著transformer在一個(gè)又一個(gè)領(lǐng)域證明了自己是最先進(jìn)的，從語(yǔ)言到視覺(jué)到機(jī)器人再到生物學(xué)，人工智能方法論的逐步統(tǒng)一令人矚目。

然而，這種走向統(tǒng)一的趨勢(shì)——“一個(gè)人工智能架構(gòu)來(lái)統(tǒng)治所有的人工智能”的趨勢(shì)——并不會(huì)無(wú)限期地持續(xù)下去。

可以想象，未來(lái)會(huì)出現(xiàn)另一種情況：隨著未來(lái)幾年人工智能研究前沿的發(fā)展，新的架構(gòu)會(huì)被開(kāi)發(fā)出來(lái)，并被證明它們更適合特定領(lǐng)域。舉例來(lái)說(shuō)，也許transformer在語(yǔ)言處理領(lǐng)域仍將占據(jù)主導(dǎo)地位，但新型架構(gòu)很快就會(huì)取代transformer，成為機(jī)器人領(lǐng)域的最先進(jìn)架構(gòu)。

又或許，一種新的人工智能方法會(huì)被開(kāi)發(fā)出來(lái)，它的性能會(huì)超越transformer，并迅速取而代之。

只有一件事是肯定的：今天的人工智能領(lǐng)域發(fā)展如此之快，如此充滿活力，以至于我們應(yīng)該預(yù)料到變化會(huì)來(lái)得快到讓人不舒服。我們不應(yīng)該把任何事情視作理所當(dāng)然，而應(yīng)該為未來(lái)所帶來(lái)的驚喜做好準(zhǔn)備。

本文作者是風(fēng)投機(jī)構(gòu)Radical Ventures的合伙人，也是福布斯撰稿人，文章內(nèi)容僅代表作者本人觀點(diǎn)。譯自
https://www./sites/robtoews/2023/09/03/transformers-revolutionized-ai-what-will-replace-them/？sh=580627fe9c1f

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：山峰云繞 > 《人工智能信息科學(xué)仿生等新奇技術(shù)》

舉報(bào)/認(rèn)領(lǐng)