作者|Jean de Dieu Nyandwi
來(lái)源|機(jī)器之心 1 1958 年:感知機(jī)的興起 1958 年,弗蘭克 · 羅森布拉特發(fā)明了感知機(jī),這是一種非常簡(jiǎn)單的機(jī)器模型,后來(lái)成為當(dāng)今智能機(jī)器的核心和起源。 感知機(jī)是一個(gè)非常簡(jiǎn)單的二元分類器,可以確定給定的輸入圖像是否屬于給定的類。為了實(shí)現(xiàn)這一點(diǎn),它使用了單位階躍激活函數(shù)。使用單位階躍激活函數(shù),如果輸入大于 0,則輸出為 1,否則為 0。 下圖是感知機(jī)的算法。 感知機(jī)
Frank 的意圖不是將感知機(jī)構(gòu)建為算法,而是構(gòu)建成一種機(jī)器。感知機(jī)是在名為 Mark I 感知機(jī)的硬件中實(shí)現(xiàn)的。Mark I 感知機(jī)是一臺(tái)純電動(dòng)機(jī)器。它有 400 個(gè)光電管(或光電探測(cè)器),其權(quán)重被編碼到電位器中,權(quán)重更新(發(fā)生在反向傳播中)由電動(dòng)機(jī)執(zhí)行。下圖是 Mark I 感知機(jī)。 Mark I 感知機(jī)。圖片來(lái)自美國(guó)國(guó)家歷史博物館
就像你今天在新聞中看到的關(guān)于神經(jīng)網(wǎng)絡(luò)的內(nèi)容一樣,感知機(jī)也是當(dāng)時(shí)的頭條新聞?!都~約時(shí)報(bào)》報(bào)道說(shuō),“[海軍] 期望電子計(jì)算機(jī)的初步模型能夠行走、說(shuō)話、觀察、書寫、自我復(fù)制并意識(shí)到它的存在”。今天,我們都知道機(jī)器仍然難以行走、說(shuō)話、觀察、書寫、復(fù)制自己,而意識(shí)則是另一回事。 Mark I 感知機(jī)的目標(biāo)僅僅是識(shí)別圖像,而當(dāng)時(shí)它只能識(shí)別兩個(gè)類別。人們花了一些時(shí)間才知道添加更多層(感知機(jī)是單層神經(jīng)網(wǎng)絡(luò))可以使網(wǎng)絡(luò)具有學(xué)習(xí)復(fù)雜功能的能力。這進(jìn)一步產(chǎn)生了多層感知機(jī) (MLP)。 2 1982-1986 : 循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN) 在多層感知機(jī)顯示出解決圖像識(shí)別問(wèn)題的潛力之后,人們開(kāi)始思考如何對(duì)文本等序列數(shù)據(jù)進(jìn)行建模。 循環(huán)神經(jīng)網(wǎng)絡(luò)是一類旨在處理序列的神經(jīng)網(wǎng)絡(luò)。與多層感知機(jī) (MLP) 等前饋網(wǎng)絡(luò)不同,RNN 有一個(gè)內(nèi)部反饋回路,負(fù)責(zé)記住每個(gè)時(shí)間步長(zhǎng)的信息狀態(tài)。 前饋網(wǎng)絡(luò)與循環(huán)神經(jīng)網(wǎng)絡(luò)
第一種 RNN 單元在 1982 年到 1986 年之間被發(fā)現(xiàn),但它并沒(méi)有引起人們的注意,因?yàn)楹?jiǎn)單的 RNN 單元在用于長(zhǎng)序列時(shí)會(huì)受到很大影響,主要是存在記憶力短和梯度不穩(wěn)定的問(wèn)題。 3
1998:LeNet-5,第一個(gè)CNN架構(gòu) LeNet-5 是最早的卷積網(wǎng)絡(luò)架構(gòu)之一,于 1998 年用于文檔識(shí)別。LeNet-5 由 3 個(gè)部分組成:2 個(gè)卷積層、2 個(gè)子采樣或池化層和 3 個(gè)全連接層。卷積層中沒(méi)有激活函數(shù)。 正如論文所說(shuō),LeNet-5 已進(jìn)行商業(yè)化應(yīng)用,每天讀取數(shù)百萬(wàn)張支票。下面是 LeNet-5 的架構(gòu)。該圖像取自其原始論文。 LeNet-5 在當(dāng)時(shí)確實(shí)是一個(gè)有影響力的研究,但它(常規(guī)的卷積網(wǎng)絡(luò))直到 20 年后才受到關(guān)注!LeNet-5 建立在早期工作的基礎(chǔ)上,例如福島邦彥提出的第一個(gè)卷積神經(jīng)網(wǎng)絡(luò)、反向傳播(Hinton 等人,1986 年)和應(yīng)用于手寫郵政編碼識(shí)別的反向傳播(LeCun 等人,1989 年)。
4 1998:長(zhǎng)短期記憶(LSTM) 由于梯度不穩(wěn)定的問(wèn)題,簡(jiǎn)單 RNN 單元無(wú)法處理長(zhǎng)序列問(wèn)題。LSTM 是可用于處理長(zhǎng)序列的 RNN 版本。LSTM 基本上是 RNN 單元的極端情況。 LSTM 單元的一個(gè)特殊設(shè)計(jì)差異是它有一個(gè)門機(jī)制,這是它可以控制多個(gè)時(shí)間步長(zhǎng)的信息流的基礎(chǔ)。 簡(jiǎn)而言之,LSTM 使用門來(lái)控制從當(dāng)前時(shí)間步長(zhǎng)到下一個(gè)時(shí)間步長(zhǎng)的信息流,有以下 4 種方式: - 遺忘門去掉輸入序列中包含的所有不相關(guān)信息,并將相關(guān)信息存儲(chǔ)在長(zhǎng)期記憶中。
- LTSM 單元更新“更新單元“的狀態(tài)值。
- 輸出門控制必須發(fā)送到下一個(gè)時(shí)間步長(zhǎng)的信息。
LSTM 架構(gòu)。圖片取自 MIT 的課程《6.S191 Introduction to Deep Learning》
LSTM 處理長(zhǎng)序列的能力使其成為適合各種序列任務(wù)的神經(jīng)網(wǎng)絡(luò)架構(gòu),例如文本分類、情感分析、語(yǔ)音識(shí)別、圖像標(biāo)題生成和機(jī)器翻譯。
LSTM 是一種強(qiáng)大的架構(gòu),但它的計(jì)算成本很高。2014 年推出的 GRU(Gated Recurrent Unit)可以解決這個(gè)問(wèn)題。與 LSTM 相比,GRU的參數(shù)更少,效果也很好。 5 2012 年:ImageNet 挑戰(zhàn)賽、AlexNet 和 ConvNet 的興起 如果跳過(guò) ImageNet 大規(guī)模視覺(jué)識(shí)別挑戰(zhàn)賽 (ILSVRC) 和 AlexNet,就幾乎不可能討論神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的歷史。 ImageNet 挑戰(zhàn)賽的唯一目標(biāo)是評(píng)估大型數(shù)據(jù)集上的圖像分類和對(duì)象分類架構(gòu)。它帶來(lái)了許多新的、強(qiáng)大的、有趣的視覺(jué)架構(gòu)。 挑戰(zhàn)賽始于 2010 年,但在 2012 年發(fā)生了變化,AlexNet 以 15.3% 的 Top 5 低錯(cuò)誤率贏得了比賽,這幾乎是此前獲勝者錯(cuò)誤率的一半。AlexNet 由 5 個(gè)卷積層、隨后的最大池化層、3 個(gè)全連接層和一個(gè) Softmax 層組成。AlexNet 提出了深度卷積神經(jīng)網(wǎng)絡(luò)可以很好地處理視覺(jué)識(shí)別任務(wù)的想法。但當(dāng)時(shí),這個(gè)觀點(diǎn)還沒(méi)有深入到其他應(yīng)用上! 在隨后的幾年里,ConvNets 架構(gòu)不斷變得更大并且工作得更好。例如,有 19 層的 VGG 以 7.3% 的錯(cuò)誤率贏得了挑戰(zhàn)。GoogLeNet(Inception-v1)更進(jìn)一步,將錯(cuò)誤率降低到 6.7%。2015 年,ResNet(Deep Residual Networks)擴(kuò)展了這一點(diǎn),并將錯(cuò)誤率降低到 3.6%,并表明通過(guò)殘差連接,我們可以訓(xùn)練更深的網(wǎng)絡(luò)(超過(guò) 100 層),在此之前,訓(xùn)練如此深的網(wǎng)絡(luò)是不可能的。人們發(fā)現(xiàn)更深層次的網(wǎng)絡(luò)做得更好,這導(dǎo)致產(chǎn)生了其他新架構(gòu),如 ResNeXt、Inception-ResNet、DenseNet、Xception 等。 讀者可以在這里找到這些架構(gòu)和其他現(xiàn)代架構(gòu)的總結(jié)和實(shí)現(xiàn):https://github.com/Nyandwi/ModernConvNets ModernConvNets 庫(kù)
ImageNet 挑戰(zhàn)賽。圖片來(lái)自課程《 CS231n》 6 2014 年 : 深度生成網(wǎng)絡(luò) 生成網(wǎng)絡(luò)用于從訓(xùn)練數(shù)據(jù)中生成或合成新的數(shù)據(jù)樣本,例如圖像和音樂(lè)。 生成網(wǎng)絡(luò)有很多種類型,但最流行的是由 Ian Goodfellow 在 2014 年創(chuàng)建的生成對(duì)抗網(wǎng)絡(luò) (GAN)。GAN 由兩個(gè)主要組件組成:生成假樣本的生成器,以及區(qū)分真實(shí)樣本和生成器生成樣本的判別器。生成器和鑒別器可以說(shuō)是互相競(jìng)爭(zhēng)的關(guān)系。他們都是獨(dú)立訓(xùn)練的,在訓(xùn)練過(guò)程中,他們玩的是零和游戲。生成器不斷生成欺騙判別器的假樣本,而判別器則努力發(fā)現(xiàn)那些假樣本(參考真實(shí)樣本)。在每次訓(xùn)練迭代中,生成器在生成接近真實(shí)的假樣本方面做得更好,判別器必須提高標(biāo)準(zhǔn)來(lái)區(qū)分不真實(shí)的樣本和真實(shí)樣本。 GAN 一直是深度學(xué)習(xí)社區(qū)中最熱門的研究之一,該社區(qū)以生成偽造的圖像和 Deepfake 視頻而聞名。如果讀者對(duì) GAN 的最新進(jìn)展感興趣,可以閱讀 StyleGAN2、DualStyleGAN、ArcaneGAN 和 AnimeGANv2 的簡(jiǎn)介。如需 GAN 資源的完整列表:https://github.com/nashory/gans-awesome-applications。下圖說(shuō)明了 GAN 的模型架構(gòu)。 生成對(duì)抗網(wǎng)絡(luò)(GAN)
GAN 是生成模型的一種。其他流行的生成模型類型還有 Variation Autoencoder (變分自編碼器,VAE)、AutoEncoder (自編碼器)和擴(kuò)散模型等。 7 2017 年:Transformers 和注意力機(jī)制 時(shí)間來(lái)到 2017 年。ImageNet 挑戰(zhàn)賽結(jié)束了。新的卷積網(wǎng)絡(luò)架構(gòu)也被制作出來(lái)。計(jì)算機(jī)視覺(jué)社區(qū)的每個(gè)人都對(duì)當(dāng)前的進(jìn)展感到高興。核心計(jì)算機(jī)視覺(jué)任務(wù)(圖像分類、目標(biāo)檢測(cè)、圖像分割)不再像以前那樣復(fù)雜。人們可以使用 GAN 生成逼真的圖像。 NLP 似乎落后了。但是隨后出現(xiàn)了一些事情,并且在整個(gè)網(wǎng)絡(luò)上都成為了頭條新聞:一種完全基于注意力機(jī)制的新神經(jīng)網(wǎng)絡(luò)架構(gòu)橫空出世。并且 NLP 再次受到啟發(fā),在隨后的幾年,注意力機(jī)制繼續(xù)主導(dǎo)其他方向(最顯著的是視覺(jué))。該架構(gòu)被稱為 Transformer 。 在此之后的 5 年,也就是現(xiàn)在,我們?cè)谶@里談?wù)撘幌逻@個(gè)最大的創(chuàng)新成果。Transformer 是一類純粹基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)算法。Transformer 不使用循環(huán)網(wǎng)絡(luò)或卷積。它由多頭注意力、殘差連接、層歸一化、全連接層和位置編碼組成,用于保留數(shù)據(jù)中的序列順序。下圖說(shuō)明了 Transformer 架構(gòu)。 圖片來(lái)自于《Attention Is All You Need》
Transformer 徹底改變了 NLP,目前它也在改變著計(jì)算機(jī)視覺(jué)領(lǐng)域。在 NLP 領(lǐng)域,它被用于機(jī)器翻譯、文本摘要、語(yǔ)音識(shí)別、文本補(bǔ)全、文檔搜索等。 讀者可以在其論文 《Attention is All You Need》 中了解有關(guān) Transformer 的更多信息。 8 2018 年至今 自 2017 年以來(lái),深度學(xué)習(xí)算法、應(yīng)用和技術(shù)突飛猛進(jìn)。為了清楚起見(jiàn),后來(lái)的介紹是按類別劃分。在每個(gè)類別中,我們都會(huì)重新審視主要趨勢(shì)和一些最重要的突破。 Vision Transformers Transformer 在 NLP 中表現(xiàn)出優(yōu)異的性能后不久,一些勇于創(chuàng)新的人就迫不及待地將注意力機(jī)制用到了圖像領(lǐng)域。在論文《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》中,谷歌的幾位研究人員表明,對(duì)直接在圖像塊序列上運(yùn)行的正常 Transformer 進(jìn)行輕微修改,就可以在圖像分類數(shù)據(jù)集上產(chǎn)生實(shí)質(zhì)性的結(jié)果。他們將這種架構(gòu)稱為 Vision Transformer (ViT),它在大多數(shù)計(jì)算機(jī)視覺(jué)基準(zhǔn)測(cè)試中都有不錯(cuò)表現(xiàn)(在作者撰寫本文時(shí),ViT 是 Cifar-10 上最先進(jìn)的分類模型)。 ViT 設(shè)計(jì)師并不是第一個(gè)嘗試在識(shí)別任務(wù)中使用注意力機(jī)制的人。我們可以在論文 Attention Augmented Convolutional Networks 中找到第一個(gè)使用注意力機(jī)制的記錄,這篇論文試圖結(jié)合自注意力機(jī)制和卷積(擺脫卷積主要是由于 CNN 引入的空間歸納偏置)。 另一個(gè)例子見(jiàn)于論文《Visual Transformers: Token-based Image Representation and Processing for Computer Vision,這篇論文在基于濾波器的 token 或視覺(jué) token 上運(yùn)行 Transformer。 這兩篇論文和許多其他未在此處列出的論文突破了一些基線架構(gòu)(主要是 ResNet)的界限,但當(dāng)時(shí)并沒(méi)有超越當(dāng)前的基準(zhǔn)。ViT 確實(shí)是最偉大的論文之一。這篇論文最重要的見(jiàn)解之一是 ViT 設(shè)計(jì)師實(shí)際上使用圖像 patch 作為輸入表示。他們對(duì) Transformer 架構(gòu)沒(méi)有太大的改變。 Vision Transformer(ViT)
除了使用圖像 patch 之外,使 Vision Transformer 成為強(qiáng)大架構(gòu)的結(jié)構(gòu)是 Transformer 的超強(qiáng)并行性及其縮放行為。但就像生活中的一切一樣,沒(méi)有什么是完美的。一開(kāi)始,ViT 在視覺(jué)下游任務(wù)(目標(biāo)檢測(cè)和分割)上表現(xiàn)不佳。 在引入 Swin Transformers 之后,Vision Transformer 開(kāi)始被用作目標(biāo)檢測(cè)和圖像分割等視覺(jué)下游任務(wù)的骨干網(wǎng)絡(luò)。Swin Transformer 超強(qiáng)性能的核心亮點(diǎn)是由于在連續(xù)的自注意力層之間使用了移位窗口。下圖描述了 Swin Transformer 和 Vision Transformer (ViT) 在構(gòu)建分層特征圖方面的區(qū)別。 圖片來(lái)自 Swin Transformer 原文
Vision Transformer 一直是近來(lái)最令人興奮的研究領(lǐng)域之一。讀者可以在論文《Transformers in Vision: A Survey》中了解更多信息。其他最新視覺(jué) Transformer 還有 CrossViT、ConViT 和 SepViT 等。 視覺(jué)和語(yǔ)言模型 視覺(jué)和語(yǔ)言模型通常被稱為多模態(tài)。它們是涉及視覺(jué)和語(yǔ)言的模型,例如文本到圖像生成(給定文本,生成與文本描述匹配的圖像)、圖像字幕(給定圖像,生成其描述)和視覺(jué)問(wèn)答(給定一個(gè)圖像和關(guān)于圖像中內(nèi)容的問(wèn)題,生成答案)。很大程度上,Transformer 在視覺(jué)和語(yǔ)言領(lǐng)域的成功促成了多模型作為一個(gè)單一的統(tǒng)一網(wǎng)絡(luò)。 實(shí)際上,所有視覺(jué)和語(yǔ)言任務(wù)都利用了預(yù)訓(xùn)練技術(shù)。在計(jì)算機(jī)視覺(jué)中,預(yù)訓(xùn)練需要對(duì)在大型數(shù)據(jù)集(通常是 ImageNet)上訓(xùn)練的網(wǎng)絡(luò)進(jìn)行微調(diào),而在 NLP 中,往往是對(duì)預(yù)訓(xùn)練的 BERT 進(jìn)行微調(diào)。要了解有關(guān) V-L 任務(wù)中預(yù)訓(xùn)練的更多信息,請(qǐng)閱讀論文《A Survey of Vision-Language Pre-Trained Models》。有關(guān)視覺(jué)和語(yǔ)言任務(wù)、數(shù)據(jù)集的一般概述,請(qǐng)查看論文《Trends in Integration of Vision and Language Research: A Survey of Tasks, Datasets, and Methods》。 前段時(shí)間,OpenAI 發(fā)布了 DALL·E 2(改進(jìn)后的 DALL·E),這是一種可以根據(jù)文本生成逼真圖像的視覺(jué)語(yǔ)言模型?,F(xiàn)有的文本轉(zhuǎn)圖像模型有很多,但 DALL·E 2 的分辨率、圖像標(biāo)題匹配度和真實(shí)感都相當(dāng)出色。 DALL·E 2 尚未對(duì)公眾開(kāi)放,以下是 DALL·E 2 創(chuàng)建的一些圖像示例。 上面呈現(xiàn)的 DALL·E 2 生成的圖像取自一些 OpenAI 員工,例如 @sama、@ilyasut、@model_mechanic 和 openaidalle。 大規(guī)模語(yǔ)言模型 (LLM) 語(yǔ)言模型有多種用途。它們可用于預(yù)測(cè)句子中的下一個(gè)單詞或字符、總結(jié)一段文檔、將給定文本從一種語(yǔ)言翻譯成另一種語(yǔ)言、識(shí)別語(yǔ)音或?qū)⒁欢挝谋巨D(zhuǎn)換為語(yǔ)音。 開(kāi)玩笑地說(shuō),發(fā)明 Transformers 的人必須為語(yǔ)言模型在朝著大規(guī)模參數(shù)化方向前進(jìn)而受到指責(zé)(但實(shí)際上沒(méi)有人應(yīng)該受到責(zé)備,Transformers 是過(guò)去十年中最偉大的發(fā)明之一,大模型令人震驚的地方在于:如果給定足夠的數(shù)據(jù)和計(jì)算,它總能更好地工作)。在過(guò)去的 5 年中,語(yǔ)言模型的大小一直在不斷增長(zhǎng)。 在引入論文《Attention is all you need》一年后,大規(guī)模語(yǔ)言模型開(kāi)始出現(xiàn)。2018 年,OpenAI 發(fā)布了 GPT(Generative Pre-trained Transformer),這是當(dāng)時(shí)最大的語(yǔ)言模型之一。一年后,OpenAI 發(fā)布了 GPT-2,一個(gè)擁有 15 億個(gè)參數(shù)的模型。又一年后,他們發(fā)布了 GPT-3,它有 1750 億個(gè)參數(shù),用了 570GB 的 文本來(lái)訓(xùn)練。這個(gè)模型有 175B 的參數(shù),模型有 700GB。根據(jù) lambdalabs 的說(shuō)法,如果使用在市場(chǎng)上價(jià)格最低的 GPU 云訓(xùn)練GPT-3,需要 366 年,花費(fèi) 460 萬(wàn)美元! GPT-n 系列型號(hào)僅僅是個(gè)開(kāi)始。還有其他更大的模型接近甚至比 GPT-3 更大。如:NVIDIA Megatron-LM 有 8.3B 參數(shù);最新的 DeepMind Gopher 有 280B 參數(shù)。2022 年 4 月 12 日,DeepMind 發(fā)布了另一個(gè)名為 Chinchilla 的 70B 語(yǔ)言模型,盡管比 Gopher、GPT-3 和 Megatron-Turing NLG(530B 參數(shù))小,但它的性能優(yōu)于許多語(yǔ)言模型。Chinchilla 的論文表明,現(xiàn)有的語(yǔ)言模型是訓(xùn)練不足的,具體來(lái)說(shuō),它表明通過(guò)將模型的大小加倍,數(shù)據(jù)也應(yīng)該加倍。但是,幾乎在同一周內(nèi)又出現(xiàn)了具有 5400 億個(gè)參數(shù)的 Google Pathways 語(yǔ)言模型(PaLM)! Chinchilla 語(yǔ)言模型
代碼生成模型
代碼生成是一項(xiàng)涉及補(bǔ)全給定代碼或根據(jù)自然語(yǔ)言或文本生成代碼的任務(wù),或者簡(jiǎn)單地說(shuō),它是可以編寫計(jì)算機(jī)程序的人工智能系統(tǒng)??梢圆碌剑F(xiàn)代代碼生成器是基于 Transformer 的。 可以確定地說(shuō),人們已經(jīng)開(kāi)始考慮讓計(jì)算機(jī)編寫自己的程序了(就像我們夢(mèng)想教計(jì)算機(jī)做的所有其他事情一樣),不過(guò)代碼生成器是在 OpenAI 發(fā)布 Codex 后受到關(guān)注。 Codex 是在 GitHub 公共倉(cāng)庫(kù)和其他公共源代碼上微調(diào)的 GPT-3。OpenAI 表示:“OpenAI Codex 是一種通用編程模型,這意味著它基本上可以應(yīng)用于任何編程任務(wù)(盡管結(jié)果可能會(huì)有所不同)。我們已經(jīng)成功地將它用于編譯、解釋代碼和重構(gòu)代碼。但我們知道,我們只觸及了可以做的事情的皮毛。” 目前,由 Codex 支持的 GitHub Copilot 扮演著結(jié)對(duì)程序員的角色。 在我使用 Copilot 后,我對(duì)它的功能感到非常驚訝。作為不編寫 Java 程序的人,我用它來(lái)準(zhǔn)備我的移動(dòng)應(yīng)用程序(使用 Java)考試。人工智能幫助我準(zhǔn)備學(xué)術(shù)考試真是太酷了!
在 OpenAI 發(fā)布 Codex 幾個(gè)月后,DeepMind 發(fā)布了 AlphaCode,這是一種基于 Transformer 的語(yǔ)言模型,可以解決編程競(jìng)賽問(wèn)題。AlphaCode 發(fā)布的博文稱:“AlphaCode 通過(guò)解決需要結(jié)合批判性思維、邏輯、算法、編碼和自然語(yǔ)言理解的新問(wèn)題,在編程競(jìng)賽的參與者中估計(jì)排名前 54%?!?解決編程問(wèn)題(或一般的競(jìng)爭(zhēng)性編程)非常困難(每個(gè)做過(guò)技術(shù)面試的人都同意這一點(diǎn)),正如 Dzmitry 所說(shuō),擊敗 “人類水平仍然遙遙無(wú)期”。 前不久,來(lái)自 Meta AI 的科學(xué)家發(fā)布了 InCoder,這是一種可以生成和編輯程序的生成模型。更多關(guān)于代碼生成的論文和模型可以在這里找到: https:///task/code-generation/codeless 再次回到感知機(jī) 在卷積神經(jīng)網(wǎng)絡(luò)和 Transformer 興起之前的很長(zhǎng)一段時(shí)間里,深度學(xué)習(xí)都圍繞著感知機(jī)展開(kāi)。ConvNets 在取代 MLP 的各種識(shí)別任務(wù)中表現(xiàn)出優(yōu)異的性能。視覺(jué) Transformer 目前也展示出似乎是一個(gè)很有前途的架構(gòu)。但是感知機(jī)完全死了嗎?答案可能不是。 在 2021 年 7 月,研究人員發(fā)表了兩篇基于感知機(jī)的論文。一個(gè)是 MLP-Mixer: An all-MLP Architecture for Vision,另一個(gè)是 Pay Attention to MLPs(gMLP). MLP-Mixer 聲稱卷積和注意力都不是必需的。這篇論文僅使用多層感知機(jī) (MLP),就在圖像分類數(shù)據(jù)集上取得了很高的準(zhǔn)確性。MLP-Mixer 的一個(gè)重要亮點(diǎn)是,它包含兩個(gè)主要的 MLP 層:一個(gè)獨(dú)立應(yīng)用于圖像塊(通道混合),另一個(gè)是層跨塊應(yīng)用(空間混合)。 gMLP 還表明,通過(guò)避免使用自注意和卷積(當(dāng)前 NLP 和 CV 的實(shí)際使用的方式),可以在不同的圖像識(shí)別和 NLP 任務(wù)中實(shí)現(xiàn)很高的準(zhǔn)確性。 讀者顯然不會(huì)使用 MLP 去獲得最先進(jìn)的性能,但它們與最先進(jìn)的深度網(wǎng)絡(luò)的可比性卻是令人著迷的。
再次使用卷積網(wǎng)絡(luò):2020 年代的卷積網(wǎng)絡(luò) 自 Vision Transformer(2020 年)推出以來(lái),計(jì)算機(jī)視覺(jué)的研究圍繞著 Transformer 展開(kāi)(在 NLP 領(lǐng)域,Transformer 已經(jīng)是一種規(guī)范)。Vision Transformer (ViT) 在圖像分類方面取得了最先進(jìn)的結(jié)果,但在視覺(jué)下游任務(wù)(對(duì)象檢測(cè)和分割)中效果不佳。隨著 Swin Transformers 的推出,使得Vision Transformer 很快也接管了視覺(jué)下游任務(wù)。 很多人(包括我自己)都喜歡卷積神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)確實(shí)能起效,而且放棄已經(jīng)被證明有效的東西是很難的。這種對(duì)深度網(wǎng)絡(luò)模型結(jié)構(gòu)的熱愛(ài)讓一些杰出的科學(xué)家回到過(guò)去,研究如何使卷積神經(jīng)網(wǎng)絡(luò)(準(zhǔn)確地說(shuō)是 ResNet)現(xiàn)代化,使其具有和 Vision Transformer 同樣的吸引人的特征。特別是,他們探討了「Transformers 中的設(shè)計(jì)決策如何影響卷積神經(jīng)網(wǎng)絡(luò)的性能?」這個(gè)問(wèn)題。他們想把那些塑造了 Transformer 的秘訣應(yīng)用到 ResNet 上。 Meta AI 的 Saining Xie 和他的同事們采用了他們?cè)谡撐闹忻鞔_陳述的路線圖,最終形成了一個(gè)名為 ConvNeXt 的 ConvNet 架構(gòu)。ConvNeXt 在不同的基準(zhǔn)測(cè)試中取得了可與 Swin Transformer 相媲美的結(jié)果。讀者可以通過(guò) ModernConvNets 庫(kù)(現(xiàn)代 CNN 架構(gòu)的總結(jié)和實(shí)現(xiàn))了解更多關(guān)于他們采用的路線圖。 9 結(jié)論 深度學(xué)習(xí)是一個(gè)非常有活力、非常寬廣的領(lǐng)域,很難概括其中所發(fā)生的一切。作者只觸及了表面,論文多到一個(gè)人讀不完,很難跟蹤所有內(nèi)容。例如,我們沒(méi)有討論強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)算法,如 AlphaGo、蛋白質(zhì)折疊 AlphaFold(這是最大的科學(xué)突破之一)、深度學(xué)習(xí)框架的演變(如 TensorFlow 和 PyTorch),以及深度學(xué)習(xí)硬件?;蛟S,還有其他重要的事情構(gòu)成了我們沒(méi)有討論過(guò)的深度學(xué)習(xí)歷史、算法和應(yīng)用程序的很大一部分。
|