一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

黃仁勛對(duì)話 ChatGPT 之父:改變世界的 AI 是如何誕生的

 learnmachine 2023-04-01 發(fā)布于上海

OpenAI 如何找到 ChatGPT 的路徑?

GTC 主題演講日后,黃仁勛接受了包括極客公園在內(nèi)的媒體采訪,并回顧了這十年來(lái) AI 繁榮的幾個(gè)篇章——深度學(xué)習(xí)、計(jì)算機(jī)視覺(jué)、生成式 AI。這也是英偉達(dá)與 OpenAI 相遇在這場(chǎng)浪潮之巔的故事。

他說(shuō):「2016 年,我把世界上第一臺(tái)英偉達(dá) DGX 超級(jí)計(jì)算機(jī)送到 OpenAI,是因?yàn)槲覍?duì)團(tuán)隊(duì)有太多的信心。這是一個(gè)非凡的團(tuán)隊(duì)。Ilya 在那里,Greg 在那里,Sam 在那里,這是一支世界級(jí)的團(tuán)隊(duì)?!?/span>

GTC 上,老黃也通過(guò)一場(chǎng)和老朋友 OpenAI 聯(lián)合創(chuàng)始人 Ilya Sutskever 的爐邊談話,讓這十年 AI 領(lǐng)域大事件最重要的親歷者,回顧了深度學(xué)習(xí)、ChatGPT、GPT4、多模態(tài)的整個(gè)演化路徑。

最關(guān)鍵地是,兩位老朋友的交談回顧了一個(gè)更重要的問(wèn)題——那時(shí)那景,這群人是怎么找到一個(gè)又一個(gè)「事后看是正確的」路徑的?

對(duì)談的尾聲,Ilya Sutskever 也分享了關(guān)于大語(yǔ)言模型的下一步,他看到的路徑是什么樣的?

以下為黃仁勛和 Ilya Sutskever 對(duì)話全文,由極客公園編譯整理。

01

起點(diǎn):AlexNet

神經(jīng)網(wǎng)絡(luò)的出現(xiàn)

黃仁勛:Ilya,難以置信,今天居然是 GPT-4 發(fā)布后的第二天。很高興在這里見(jiàn)到你,一起聊聊。

我們認(rèn)識(shí)很久了,真是人生的一段旅程。從我認(rèn)識(shí)你以來(lái),你做了很多開(kāi)創(chuàng)性的工作,從多倫多大學(xué)就開(kāi)始了。你與 Alex (Krizhevsky)和 Jeff Hinton 一起共同發(fā)明了 AlexNet,這帶來(lái)了現(xiàn)代 AI 的大爆炸。

你的職業(yè)生涯也把你帶到了美國(guó)灣區(qū),OpenAI 的創(chuàng)立,GPT-1、2、3。當(dāng)然了,還有讓 AI 風(fēng)靡全世界的 ChatGPT,真是卓越的履歷,讓整個(gè)行業(yè)都對(duì)你的成就由衷的敬佩。

我先來(lái)問(wèn)問(wèn)關(guān)于深度學(xué)習(xí)的一些問(wèn)題,你對(duì)深度學(xué)習(xí)的第一直覺(jué)是什么?為什么你知道它會(huì)發(fā)揮作用?你心中就一定認(rèn)為深度學(xué)習(xí)會(huì)取得如此成就嗎?

Ilya Sutskever:首先,非常感謝你的盛贊。確實(shí),深度學(xué)習(xí)的強(qiáng)大能力改變了世界。我對(duì) AI 感興趣的原因有很多,我的出發(fā)點(diǎn)在于對(duì) AI 會(huì)產(chǎn)生巨大影響力的直覺(jué)理解。同時(shí),我也對(duì)「究竟什么是意識(shí)」、「究竟什么是人類體驗(yàn)」這樣的問(wèn)題充滿了好奇,我覺(jué)得 AI 的發(fā)展能幫我去理解這些。

接下來(lái),在 2002 年 到 2003 年的那個(gè)時(shí)候,學(xué)習(xí)是一件只有人類能做的事情,但是計(jì)算機(jī)還不會(huì)學(xué)習(xí)任何東西,甚至在理論上是否可行都不太清楚。所以我想如果能在智能學(xué)習(xí)或者機(jī)器學(xué)習(xí)方面做出一些成果,將很有可能成為 AI 領(lǐng)域的最大進(jìn)步。

所以從那時(shí)開(kāi)始,我開(kāi)始在這個(gè)領(lǐng)域做一些探索。一開(kāi)始還沒(méi)有那么樂(lè)觀,但幸運(yùn)的是,Jeff Hinton 是我所在大學(xué)的一名教授,我找到了他。他的工作方向就是神經(jīng)網(wǎng)絡(luò),這就是我想要的。因?yàn)樯窠?jīng)網(wǎng)絡(luò)的特性就在于能夠?qū)W習(xí),可以自動(dòng)編程并行計(jì)算機(jī)。

那個(gè)時(shí)候,并行計(jì)算機(jī)還很小,但是希望在于如果你弄明白學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的工作原理,那你就可以從數(shù)據(jù)中去編程小的并行計(jì)算機(jī),而它與大腦的工作原理是相似的。所以,就好像有了幾個(gè)理由可以支撐我繼續(xù)向前探索,盡管還不太清楚這些是如何起作用的,然而基于已有的東西,似乎表明它的前景是最光明的。

黃仁勛:你首次開(kāi)始使用深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的那個(gè)時(shí)候,網(wǎng)絡(luò)的規(guī)模是多少?計(jì)算規(guī)模是多少?

Ilya Sutskever:有意思的是,在當(dāng)時(shí)沒(méi)有人意識(shí)到規(guī)模的重要性,所以人們訓(xùn)練的神經(jīng)網(wǎng)絡(luò)只有 50 個(gè)或 100 個(gè),幾百個(gè)神經(jīng)元已經(jīng)是大的神經(jīng)網(wǎng)絡(luò)了,一百萬(wàn)的參數(shù)會(huì)被認(rèn)為很龐大。我們一般在沒(méi)有優(yōu)化過(guò)的 CPU 代碼上跑我們的模型,我們有一群人研發(fā),但我們不懂 BLAS,我們用 Matlab,優(yōu)化過(guò)的 Matlab。

我們做了一些實(shí)驗(yàn),提出各種不同的問(wèn)題,來(lái)獲得有趣的觀察。Jeff Hinton 當(dāng)時(shí)對(duì)訓(xùn)練神經(jīng)網(wǎng)絡(luò)用于生成小的數(shù)字感到很興奮。一方面是對(duì)分類任務(wù),同時(shí)他對(duì)于如何生成那些數(shù)字也很感興趣,所以生成模型的源頭就從那里開(kāi)始。但是問(wèn)題在于你做的那些很酷的東西都很零散,什么才是能真正推動(dòng)技術(shù)進(jìn)步的牽引力?當(dāng)時(shí)并不明確這就是對(duì)的問(wèn)題。但事后看來(lái),恰恰對(duì)了。

黃仁勛:AlexNet 是在 2012 年誕生的,在那之前你和 Alex 研究 AlexNet 有一段時(shí)間了。你具體是在哪個(gè)節(jié)點(diǎn)上想明白要構(gòu)建面向計(jì)算機(jī)視覺(jué)的神經(jīng)網(wǎng)絡(luò)?想明白 Imagenet 才是那個(gè)合適的數(shù)據(jù)集,來(lái)參加計(jì)算機(jī)視覺(jué)的競(jìng)賽?

Ilya Sutskever:那我先介紹一些背景。大概是在我發(fā)現(xiàn)「監(jiān)督學(xué)習(xí)」才是我們前進(jìn)的方向的兩年前。這不僅是直覺(jué),我來(lái)詳細(xì)解釋一下。如果你的神經(jīng)網(wǎng)絡(luò)非常深并且很大,那就可以用它去解決一項(xiàng)有難度的任務(wù)。所以關(guān)鍵詞就是,「深」和「大」。

那個(gè)時(shí)候人們還沒(méi)有去關(guān)注大的神經(jīng)網(wǎng)絡(luò),人們可能正在研究神經(jīng)網(wǎng)絡(luò)的深度,但是大部分機(jī)器學(xué)習(xí)的領(lǐng)域根本沒(méi)有去研究神經(jīng)網(wǎng)絡(luò),他們正在研究各種貝葉斯的模型和內(nèi)核方法。這些方法雖然有優(yōu)雅的理論基礎(chǔ),但并不表示就是一個(gè)好的解決方案,無(wú)論你怎么配置它們。相比之下,大型的深度神經(jīng)網(wǎng)絡(luò)卻能在面對(duì)問(wèn)題求解時(shí),給出一個(gè)好的答案。

為了找到一個(gè)好的解決方案,你需要一個(gè)合適的大數(shù)據(jù)集以及大量的計(jì)算來(lái)完成這項(xiàng)工作。我們也做了一些優(yōu)化工作,但很明顯,優(yōu)化依舊是一個(gè)瓶頸。這時(shí),在 Jeff Hinton 實(shí)驗(yàn)室的另一位研究生 James Martens 取得了突破,他提出了一種與我們做的不同的優(yōu)化方法,他使用了一些二階方法。但是關(guān)鍵在于,事實(shí)證明我們可以訓(xùn)練這些神經(jīng)元,因?yàn)橹拔覀兌疾恢滥芊裼?xùn)練它們,所以如果證明了你能訓(xùn)練神經(jīng)網(wǎng)絡(luò),只需要把它變大一些,然后去找一些數(shù)據(jù),這樣就能可以成功。

所以接下來(lái)的問(wèn)題是去找什么樣的數(shù)據(jù)?答案就是 ImageNet。在當(dāng)時(shí)看來(lái),ImageNet 是一個(gè)難度很高的數(shù)據(jù)集,但很明顯,如果你要在此數(shù)據(jù)集上訓(xùn)練一個(gè)大的卷積神經(jīng)網(wǎng)絡(luò),它一定會(huì)成功,只要你有足夠的算力。

黃仁勛:恰在當(dāng)時(shí),你和我的路徑相遇。你洞察到:GPU 對(duì)于訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型是非常有幫助的,而我們當(dāng)時(shí)開(kāi)發(fā)了幾個(gè)版本的 CUDA GPU,應(yīng)該是 GTX 580。你怎么能發(fā)現(xiàn) GPU 能起作用?那一天到底怎么開(kāi)始的?

Ilya Sutskever:GPU 出現(xiàn)在我們多倫多的實(shí)驗(yàn)室這件事,應(yīng)該感謝 Jeff,他說(shuō)我們應(yīng)該試試 GPU。我們開(kāi)始嘗試和試驗(yàn)它們。這個(gè)過(guò)程很有意思,但是我們也沒(méi)有完全搞懂,它們真正的用途在哪里?你怎么樣才能把它們發(fā)揮作用?

但是接下來(lái)我們就發(fā)現(xiàn),隨著 ImageNet 數(shù)據(jù)集的出現(xiàn),卷積神經(jīng)網(wǎng)絡(luò)是非常適配 GPU 的模型,所以有可能把它變得非???,因此就能做規(guī)模遠(yuǎn)超以前的訓(xùn)練。非常幸運(yùn)的是,Alex Krizhevsky 真的很喜歡 GPU 編程。他能夠去編程開(kāi)發(fā)非常快的卷積核函數(shù),然后用 ImageNet 數(shù)據(jù)集,去訓(xùn)練神經(jīng)網(wǎng)絡(luò),并且最終得到了結(jié)果。

文章圖片1

「AI 的大爆炸」時(shí)刻——從左至右依次為 Ilya Sutskever, Alex Krizhevsky, Geoffrey Hinton,三位創(chuàng)建的 AlexNet 卷積神經(jīng)網(wǎng)絡(luò)在 2012 年 ImageNet 大賽上一舉奪魁。

黃仁勛:這個(gè)結(jié)果震驚了世界,大幅打破了計(jì)算機(jī)視覺(jué)的紀(jì)錄,很明顯這里存在非連續(xù)性的突破。

Ilya Sutskever:對(duì),它并不是之前方法的延續(xù),并不是像常規(guī)那樣的打破紀(jì)錄。關(guān)鍵點(diǎn)在于這個(gè)數(shù)據(jù)集其實(shí)很難的,而且它是超出一般的范圍的。其他人是會(huì)用經(jīng)典的方法取得一點(diǎn)進(jìn)展,做出點(diǎn)東西。但這是不夠的,當(dāng)時(shí)這個(gè)比賽不是一個(gè)普通的比賽,明顯很困難,很遙不可及,很明顯,如果你做得很好,那將是驚人的 AI 大爆炸。

02

兩個(gè)好點(diǎn)子,

讓 OpenAI 走到了現(xiàn)在

黃仁勛:快進(jìn)到現(xiàn)在,你來(lái)到了硅谷,你和一些朋友一起創(chuàng)辦了 OpenAI,你是首席科學(xué)家。關(guān)于 OpenAI 的工作,你最初的想法是什么?你們做過(guò)一些發(fā)明和既往工作,帶來(lái)了 ChatGPT 時(shí)刻。所以,你們最初的靈感來(lái)源于什么?你們是如何走到現(xiàn)在的?

Ilya Sutskever:顯然當(dāng)我們開(kāi)始的時(shí)候,并不是 100%清楚如何推動(dòng)。而且這個(gè)領(lǐng)域與現(xiàn)在非常不同。

當(dāng)然我們現(xiàn)在習(xí)慣了這些驚人的神器、驚人的神經(jīng)網(wǎng)絡(luò)來(lái)做很棒的事情,每個(gè)人都很興奮。但是回到 2016 年初,當(dāng)我們開(kāi)始創(chuàng)業(yè)時(shí),整個(gè)事情看起來(lái)都很瘋狂。研究人員要少得多,可能比現(xiàn)在少 100-1000 倍。

在那時(shí)我們只有 100 個(gè)人,他們中的大多數(shù)人在 Google 或者 DeepMind 工作。然后有人開(kāi)始學(xué)習(xí)這些技能,但仍然非常稀缺。在 OpenAI 開(kāi)始的時(shí)候,我們有兩個(gè)偉大的初步想法。這些想法一直伴隨著我們到今天。

第一個(gè)偉大想法,也是我很早的想法,是通過(guò)壓縮進(jìn)行「無(wú)監(jiān)督學(xué)習(xí)」。今天,我們想當(dāng)然地認(rèn)為無(wú)監(jiān)督學(xué)習(xí)易如反掌,你只需對(duì)所有事情進(jìn)行預(yù)先訓(xùn)練,而且一切都完全按照你的預(yù)期進(jìn)行。但在 2016 年,無(wú)監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)中一個(gè)尚未解決的問(wèn)題,沒(méi)有人有任何線索知道該怎么去做。Yann LeCun 到處演講說(shuō)無(wú)監(jiān)督學(xué)習(xí)是個(gè)巨大的挑戰(zhàn),而我真的相信,好的數(shù)據(jù)壓縮將產(chǎn)生無(wú)監(jiān)督學(xué)習(xí)。

當(dāng)然,壓縮并不是通常所談的事情,直到最近。突然之間,很多人了解這些 GPT 實(shí)際上壓縮了訓(xùn)練數(shù)據(jù),你可能還記得 Ted Chiang 在《紐約時(shí)報(bào)》上的文章也提到這一點(diǎn)。但是從數(shù)學(xué)意義上講,訓(xùn)練這些自回歸生成模型可以壓縮數(shù)據(jù),并且直觀上,你可以看到它們?yōu)槭裁雌鹱饔谩?/span>

如果你將數(shù)據(jù)壓縮得非常好,你一定能夠提取其中存在的所有隱藏信息,所以這就是關(guān)鍵。這就是讓我們興奮的第一個(gè)想法,這導(dǎo)致了 OpenAI 把相當(dāng)比例的工作量投入到了情緒神經(jīng)元。這項(xiàng)工作在機(jī)器學(xué)習(xí)領(lǐng)域不太被很多人關(guān)注。但實(shí)際上,它很有影響力,特別是在我們的思路里。

這項(xiàng)工作的結(jié)果是,當(dāng)你訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)時(shí)(但它并不是 Transformer,而是在 Transformer 之前的模型,很多人記得,是一個(gè)小型循環(huán)神經(jīng)網(wǎng)絡(luò)叫 LSTM——長(zhǎng)短期記憶網(wǎng)絡(luò)),我們用相同的 LSTM 稍微調(diào)整一下來(lái)預(yù)測(cè) Amazon 評(píng)論的下一個(gè)字符,我們發(fā)現(xiàn):如果可以足夠好地預(yù)測(cè)下一個(gè)字符,就會(huì)有一個(gè)神經(jīng)元在 LSTM 內(nèi)回應(yīng)它的情緒。所以這真的很酷,因?yàn)樗故玖藷o(wú)監(jiān)督學(xué)習(xí)的一些效果,并驗(yàn)證了一個(gè)想法:足夠好的字符預(yù)測(cè)或其他任何預(yù)測(cè),具有發(fā)現(xiàn)數(shù)據(jù)中的秘密的特性,這就是我們?cè)谶@些 GPT 模型中看到的。

黃仁勛:這個(gè)觀察對(duì)我來(lái)說(shuō),直接打開(kāi)了下面這個(gè)問(wèn)題的新世界:我要從哪里獲得無(wú)監(jiān)督學(xué)習(xí)的數(shù)據(jù)?因?yàn)槲掖_實(shí)有很多數(shù)據(jù),如果我能預(yù)測(cè)下一個(gè)字符,我知道真實(shí)結(jié)果,我知道答案是什么,我可以用它們訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,所以這個(gè)觀察和屏蔽(masking)以及其他技術(shù)、其他方法,廣開(kāi)思路,以幫助我看到哪里可以獲取所有無(wú)監(jiān)督學(xué)習(xí)的數(shù)據(jù)。

Ilya Sutskever:我換一種說(shuō)法陳述。我會(huì)說(shuō)在無(wú)監(jiān)督學(xué)習(xí)中,困難的部分不在于從哪里獲取數(shù)據(jù),盡管現(xiàn)在也有這個(gè)問(wèn)題,但更多的是關(guān)于為什么要這樣做?為什么要費(fèi)心做?困難的部分是:意識(shí)到訓(xùn)練這些神經(jīng)網(wǎng)絡(luò)以預(yù)測(cè)下一個(gè) token 是一個(gè)值得追求的目標(biāo)。

黃仁勛:這樣它會(huì)學(xué)習(xí)到一個(gè)可以理解的表征。

Ilya Sutskever:這是正確的,但實(shí)際上它并不那么明顯,所以人們沒(méi)有這樣做,但情感神經(jīng)元是起作用的。在這里,Alec Radford 是真正推動(dòng)了許多進(jìn)步的人,這里的情感,是 GPT-1 的前身,它對(duì)我們的思維有很大的影響。

然后,Transformer 來(lái)了。我們立即想到:哦,天啊,就是它了。我們訓(xùn)練了 GPT-1。

黃仁勛:在這個(gè)過(guò)程中,你一直相信,擴(kuò)大規(guī)模會(huì)改善這些模型的性能嗎?更大的網(wǎng)絡(luò)、更深的網(wǎng)絡(luò)、更多的訓(xùn)練數(shù)據(jù)將使其擴(kuò)展。OpenAI 寫了一篇非常重要的論文,討論了 Scaling Law(模型能力隨著模型體量的上升而增強(qiáng)),模型大小與數(shù)據(jù)集數(shù)量之間的關(guān)系。

當(dāng) Transformer 出現(xiàn)時(shí),它給了我們合理的時(shí)間內(nèi)訓(xùn)練非常大的模型的機(jī)會(huì),但對(duì)于模型大小和數(shù)據(jù)之間的規(guī)律的直覺(jué),相對(duì)于 GPT-1、2、3 的誕生,哪個(gè)先出現(xiàn)?你先看到 GPT-1 到 3 的發(fā)展路徑嗎?還是先有 Scaling Law 的直覺(jué)?

文章圖片2

所有類型的任務(wù)上,更深更大的模型,性能更好。2020 OpenAI 提出了 Scaling Law,該定律已被用于指導(dǎo)大型模型的訓(xùn)練。

Ilya Sutskever:直覺(jué)。我有一個(gè)很強(qiáng)烈的信念,更大意味著更好。在 OpenAI,我們的一個(gè)目標(biāo)是弄清楚使用 Scaling Law 的正確途徑。OpenAI 一開(kāi)始就對(duì)擴(kuò)展規(guī)模抱有很多信念,問(wèn)題是如何準(zhǔn)確地使用它,因?yàn)槲椰F(xiàn)在提到的是 GPT,但是還有另外一條非常重要的工作路線,我還沒(méi)有提到。

第二個(gè)偉大的好主意,那就是強(qiáng)化學(xué)習(xí)。這顯然也很重要。你用它做什么?

在 OpenAI 中完成的第一個(gè)真正的大型項(xiàng)目是我們解決了一個(gè)實(shí)時(shí)策略游戲。實(shí)時(shí)策略游戲就像是一項(xiàng)競(jìng)技運(yùn)動(dòng)。你需要聰明,你需要更快,你需要快速反應(yīng),有團(tuán)隊(duì)合作。你正在與另一個(gè)團(tuán)隊(duì)競(jìng)爭(zhēng),這是非常、非常復(fù)雜的。并且這個(gè)游戲有一個(gè)完整的競(jìng)爭(zhēng)聯(lián)賽,這個(gè)游戲叫做 Dota 2。所以我們訓(xùn)練了一個(gè)強(qiáng)化學(xué)習(xí) agent 來(lái)與自己對(duì)抗,目標(biāo)是達(dá)到一定水平,以便可以與世界上最好的玩家競(jìng)爭(zhēng),這也是一個(gè)重大的項(xiàng)目。它是一個(gè)非常不同的工作方向——強(qiáng)化學(xué)習(xí)。

黃仁勛:是的,我記得你們宣布這項(xiàng)工作。OpenAI 做了大量的工作有些看起來(lái)像是走了彎路,但事實(shí)上,正如你現(xiàn)在解釋的那樣,它們可能是彎路,看起來(lái)像是彎路,但它們真正導(dǎo)致了我們現(xiàn)在討論的一些重要工作——ChatGPT。

Ilya Sutskever:是的,我的意思是已經(jīng)有了真正意義上的交匯:一方面,GPT 產(chǎn)出了技術(shù)基礎(chǔ)設(shè)施;另一方面,從 Dota 的強(qiáng)化學(xué)習(xí)轉(zhuǎn)變?yōu)榛谌祟惙答伒膹?qiáng)化學(xué)習(xí)(RLHF)。這種組合給了我們 ChatGPT。

03

ChatGPT 的引擎系統(tǒng)

黃仁勛:有一個(gè)誤解是:認(rèn)為 ChatGPT 本身只是一個(gè)巨大的大型語(yǔ)言模型。但,事實(shí)上圍繞著它有一個(gè)相當(dāng)復(fù)雜的系統(tǒng)。你能簡(jiǎn)單解釋一下嗎?關(guān)于它的微調(diào)、強(qiáng)化學(xué)習(xí)以及各種周圍的系統(tǒng),才能讓 ChatGPT 運(yùn)作起來(lái),讓它提供知識(shí)等等。

Ilya Sutskever:當(dāng)我們訓(xùn)練一個(gè)大型神經(jīng)網(wǎng)絡(luò)來(lái)準(zhǔn)確預(yù)測(cè)互聯(lián)網(wǎng)上許多不同文本中的下一個(gè)詞時(shí),我們正在做的其實(shí)是——正在學(xué)習(xí)一個(gè)關(guān)于世界的模型。表面上看起來(lái),我們只是在學(xué)習(xí)文本中的統(tǒng)計(jì)相關(guān)性,但實(shí)際上,是通過(guò)學(xué)習(xí)文本中的統(tǒng)計(jì)相關(guān)性,從而把這些知識(shí)很好地壓縮。

神經(jīng)網(wǎng)絡(luò)所學(xué)習(xí)的是生成文本的過(guò)程中的一些表述,這個(gè)文本實(shí)際上是這個(gè)世界的一個(gè)映射,世界在這些文字上映射出來(lái)。因此,神經(jīng)網(wǎng)絡(luò)正在學(xué)習(xí)從越來(lái)越多的角度去看待這個(gè)世界,看待人類和社會(huì),看人們的希望、夢(mèng)想、動(dòng)機(jī)、交互和所處情境?;诖?,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)一個(gè)壓縮的、抽象的、可用的表述。這就是從準(zhǔn)確預(yù)測(cè)下一個(gè)詞的任務(wù)中,正在學(xué)習(xí)的東西。更進(jìn)一步,你對(duì)下一個(gè)詞的預(yù)測(cè)越準(zhǔn)確、還原度越高,在這個(gè)過(guò)程中你得到的世界的分辨率就越高,所以這就是預(yù)訓(xùn)練階段的作用。

但是這并不能讓神經(jīng)網(wǎng)絡(luò)表現(xiàn)出我們希望它能夠表現(xiàn)出的行為。你看一個(gè)語(yǔ)言模型,它真正要做的是回答以下問(wèn)題:如果我在互聯(lián)網(wǎng)上有一些隨機(jī)的文本,它以一些前綴、一些提示開(kāi)始,它將補(bǔ)全什么內(nèi)容呢?可能只是隨機(jī)地用互聯(lián)網(wǎng)上的一些文本來(lái)補(bǔ)全它。

這和我想擁有一個(gè)助手是不同的。一個(gè)真實(shí)的、有幫助的,遵循某些規(guī)則的助手是需要額外的訓(xùn)練的。這就是微調(diào)和來(lái)自于人類老師的強(qiáng)化學(xué)習(xí)以及其他形式的人工智能協(xié)助可以發(fā)揮作用的地方。不僅僅是來(lái)自人類老師的強(qiáng)化學(xué)習(xí),也是來(lái)自人類和 AI 合作的強(qiáng)化學(xué)習(xí)。人類老師與 AI 一起合作去教導(dǎo)我們的 AI 模型,但不是教它新的知識(shí),而是與它交流和它傳達(dá):我們希望它成為什么樣,而這個(gè)過(guò)程,第二階段,也是極其重要的。

第二階段做得越好,這個(gè)神經(jīng)網(wǎng)絡(luò)就越有用,越可靠,所以第二階段也是極其重要的。第一階段學(xué)習(xí)一切,盡可能多地從世界的映射——文本中了解這個(gè)世界。

黃仁勛:你可以對(duì)它進(jìn)行微調(diào),你可以指示它執(zhí)行特定任務(wù)。但你能不能指示它不要做一些事兒,方便你給它設(shè)置一些安全護(hù)欄、給它一些邊界,去避免這一類型的行為?

Ilya Sutskever:可以的。第二階段的訓(xùn)練是我們向神經(jīng)網(wǎng)絡(luò)傳達(dá)我們想要的任何東西,其中包括邊界。我們的訓(xùn)練做得越好,我們傳達(dá)的這個(gè)邊界的保真度就越高。因此,通過(guò)不斷的研究和創(chuàng)新,我們能夠提高這種保真度,從而使它在遵循預(yù)期指令的方式上變得越來(lái)越可靠和精確。

04

GPT-4 的進(jìn)步——

預(yù)測(cè)下一個(gè)詞的準(zhǔn)確性

黃仁勛:ChatGPT 在幾個(gè)月前就出來(lái)了,它是人類歷史上增長(zhǎng)最快的應(yīng)用。關(guān)于它的原理已經(jīng)有了很多解釋。這是為每個(gè)人創(chuàng)建的最易用的應(yīng)用。它所執(zhí)行的任務(wù)、做的事情超出人們的期望。任何人都可以使用它。沒(méi)有使用說(shuō)明,也無(wú)所謂使用錯(cuò)誤的方法。你用就行了,你只需使用它。如果你的指令提示不明確,對(duì)話就繼續(xù)、消除歧義,直到你的意圖被AI應(yīng)用所理解。

這帶來(lái)的影響非常顯著。昨天是 GPT-4 發(fā)布后的第一天。GPT-4 在許多領(lǐng)域的表現(xiàn)令人震驚,在 SAT,GRE,律師資格(Bar)考試,分?jǐn)?shù)很高。一次,再一次,表現(xiàn)都很優(yōu)異。很多項(xiàng)測(cè)試它都到達(dá)了人類的領(lǐng)先水平。太震撼了。所以,什么是ChatGPT 和 GPT-4 之間的主要區(qū)別?什么導(dǎo)致 GPT-4 在這些領(lǐng)域的改進(jìn)?

文章圖片3

GPT4 在多項(xiàng)專業(yè)考試中的表現(xiàn)最佳

Ilya Sutskever:GPT-4 相比 ChatGPT,在許多維度上做了相當(dāng)大的改進(jìn)。我們訓(xùn)練了 GPT-4,我記得是在六個(gè)多月以前,也許八個(gè)月前。我不記得確切時(shí)間了。

GPT 是第一個(gè) ChatGPT 和 GPT- 4 之間的區(qū)別,這也許是最重要的區(qū)別。

在 GPT-4 的基礎(chǔ)上構(gòu)建,預(yù)測(cè)下一個(gè)單詞具有更高的準(zhǔn)確度,這是非常重要的。因?yàn)樯窠?jīng)網(wǎng)絡(luò)越能預(yù)測(cè)文本中的下一個(gè)詞,它就越能理解文本。這種說(shuō)法現(xiàn)在也許已經(jīng)被很多人接受了。但它可能仍然不直觀,或者說(shuō)(人們)不知道為什么會(huì)這樣。我想繞個(gè)小彎,舉個(gè)例子類比一下,來(lái)說(shuō)明為什么對(duì)下一個(gè)詞的更準(zhǔn)確預(yù)測(cè)會(huì)導(dǎo)致更多的理解,真正的理解。

讓我們舉個(gè)例子,假設(shè)你讀了一本偵探小說(shuō),里面有復(fù)雜的故事情節(jié)、不同的人物、許多事件、神秘的線索,但是現(xiàn)在還不清楚。然后在書的最后一頁(yè),偵探收集了所有的線索,召集了所有的人,并說(shuō)好吧,我將揭示誰(shuí)犯了罪,那個(gè)人的名字是?——請(qǐng)預(yù)測(cè)那個(gè)詞。

這里會(huì)有許多不同的詞,但是通過(guò)越來(lái)越好地預(yù)測(cè)這些詞,模型對(duì)文本的理解不斷增加,GPT-4 預(yù)測(cè)下一個(gè)詞的能力也變得更好。

黃仁勛:人們說(shuō),深度學(xué)習(xí)不會(huì)帶來(lái)邏輯推理。但是為了預(yù)測(cè)下一個(gè)詞,從所有可選的角色里面或從他們的意圖和背景中,找出優(yōu)勢(shì)或弱點(diǎn),并能夠預(yù)測(cè)這個(gè)詞,誰(shuí)是兇手?這需要一定量的推理,相當(dāng)多的推理。因此,它是如何學(xué)會(huì)推理的呢?

如果它學(xué)會(huì)了推理,我將要問(wèn)的就是做了哪些測(cè)試?在所有的在 ChatGPT 和 GPT-4 之間的測(cè)試中,有一些測(cè)試是 ChatGPT 已經(jīng)非常擅長(zhǎng)的,有一些測(cè)試是 GPT-3 或 ChatGPT 不擅長(zhǎng)的,而 GPT-4 則要好得多。還有一些測(cè)試是兩者都不擅長(zhǎng)的,而且其中一些似乎與推理有關(guān)。在微積分中,它無(wú)法將問(wèn)題分解成合理的步驟并解決它。但是在某些領(lǐng)域,它似乎展示了推理技能。在預(yù)測(cè)下一個(gè)詞的時(shí)候,它是否在學(xué)習(xí)推理?GPT-4 將進(jìn)一步提高其推理能力,現(xiàn)在的限制在哪里?

Ilya Sutskever:推理并不是一個(gè)很好定義的概念,但無(wú)論如何,我們可以嘗試去定義它。這就是,當(dāng)你能夠進(jìn)一步以某種方式思考一下,因?yàn)槟愕耐评矶玫揭粋€(gè)更好的答案。

我想說(shuō),我們的神經(jīng)網(wǎng)絡(luò)也許有一些限制可以被解決,通過(guò)比方說(shuō),要求神經(jīng)網(wǎng)絡(luò)把它的想法脫口而出(think out loud)這樣的任務(wù)。這已被證明對(duì)推理極為有效。

但我認(rèn)為,基本的神經(jīng)網(wǎng)絡(luò)能走多遠(yuǎn),也還有待觀察,我認(rèn)為我們還沒(méi)有充分挖掘它的潛力。在某種意義上,推理肯定還沒(méi)有達(dá)到那個(gè)水平,像神經(jīng)網(wǎng)絡(luò)具備的其它一些能力一樣的水平。我們希望神經(jīng)網(wǎng)絡(luò)的推理能力要很高,甚至更高。我認(rèn)為商業(yè)使用很有可能將提高神經(jīng)網(wǎng)絡(luò)的推理能力。

黃仁勛:對(duì),當(dāng)你要問(wèn) ChatGPT 問(wèn)題、在它回答問(wèn)題前,你跟它說(shuō):首先,告訴我,你知道些什么,然后再讓它回答這個(gè)問(wèn)題。通常人們回答一個(gè)問(wèn)題前,如果告知他具備哪些基礎(chǔ)知識(shí),或者是回答問(wèn)題前做的一些基本假設(shè),這會(huì)讓我更相信他的回答,這也在展示某種程度上的推理水平。所以在我看來(lái),ChatGPT 內(nèi)嵌了這種能力。

Ilya Sutskever:某種程度上,理解現(xiàn)狀的一種方式是,這些神經(jīng)網(wǎng)絡(luò)具備很多這類能力,只是它們還不太可靠。事實(shí)上,你可以說(shuō)目前可靠性是讓這些模型有用、或者說(shuō)是真正有用的最大阻礙。有時(shí)會(huì)存在一些情況,這些神經(jīng)網(wǎng)絡(luò)會(huì)產(chǎn)生幻想,或者可能會(huì)犯意想不到的錯(cuò)誤,而人不會(huì)犯這些錯(cuò)誤。正是這種不可靠性,使得它們的用處大大降低。

但我想,或許通過(guò)更多的研究和當(dāng)前的一些想法,或者一些遠(yuǎn)大的研究計(jì)劃,我們一定能實(shí)現(xiàn)更高的可靠性,這樣模型才會(huì)真的有用。并且能讓我們能設(shè)定非常精確的護(hù)欄界限。這也會(huì)使得模型學(xué)會(huì)解釋清楚,哪里是它不確定的地方或者它壓根不知道的知識(shí)。當(dāng)模型學(xué)會(huì)后,它不知道的問(wèn)題不會(huì)回答,回答的答案也會(huì)非常可信。

所以我要說(shuō),這是當(dāng)前模型的一些瓶頸。這不僅僅是模型是否具備特定的能力,準(zhǔn)確地說(shuō),這是具備多少、在多大程度上具備的能力。

黃仁勛:提到事實(shí)性和真實(shí)性,還有幻想,我之前看過(guò)一個(gè)視頻,它展示了 GPT-4 中從維基百科頁(yè)面做檢索的能力。GPT-4 真的包含檢索能力嗎?它是否能夠從事實(shí)中檢索信息以加強(qiáng)對(duì)你的響應(yīng)?

Ilya Sutskever:當(dāng)前 GPT-4 發(fā)布時(shí),并沒(méi)有內(nèi)置的檢索功能,它只是個(gè)非常好地預(yù)測(cè)下一個(gè)詞的工具。它還可以處理圖像,一些高質(zhì)量的圖片通過(guò)數(shù)據(jù)和強(qiáng)化學(xué)習(xí)的變量進(jìn)行微調(diào),以特定方式表現(xiàn)出來(lái)。的確有人會(huì)要求 GPT-4 做一些查詢,然后把查詢結(jié)果代入到上下文中,而因?yàn)?GPT-4 的上下文持續(xù)時(shí)間相當(dāng)長(zhǎng),所以結(jié)果不會(huì)讓我感到驚訝。

總結(jié)來(lái)說(shuō),雖然 GPT-4 沒(méi)有支持信息檢索,但它完全具備這個(gè)能力。它也將通過(guò)檢索變得更好。

05

多模態(tài)的意義

黃仁勛:多模態(tài)的 GPT-4 具備從文本和圖像中學(xué)習(xí)、并能對(duì)以文本和圖像作為輸入的請(qǐng)求做響應(yīng)的能力。首先,多模態(tài)學(xué)習(xí)的基礎(chǔ),Transformer 使得我們可以從多個(gè)模態(tài)中學(xué)習(xí),例如把文本和圖像 token 化。在這個(gè)基礎(chǔ)上,(你可以)幫助我們理解多模態(tài)是如何增強(qiáng)對(duì)世界的理解的嗎?

我的理解是,當(dāng)你在用多模態(tài)學(xué)習(xí)時(shí),甚至僅僅使用文本提示詞本身,就可以提升文本理解。從基礎(chǔ)層來(lái)看,多模態(tài)為什么如此重要,重大突破是什么,以及由此產(chǎn)生的特征差異是什么?

文章圖片4

Ilya Sutskever:多模態(tài)有兩個(gè)維度,或是說(shuō)兩個(gè)原因讓它如此有趣。第一個(gè)原因有點(diǎn)謙虛。多模態(tài)是有用的,它對(duì)神經(jīng)網(wǎng)絡(luò)很有用,尤其是視覺(jué),因?yàn)檫@個(gè)世界是非常視覺(jué)化的。人類是視覺(jué)動(dòng)物,人類大腦皮層的三分之一都用于視覺(jué),我相信由于沒(méi)有視覺(jué),神經(jīng)網(wǎng)絡(luò)的用處雖然相當(dāng)大,但并沒(méi)有達(dá)到它應(yīng)有的那么大,所以這是一個(gè)非常簡(jiǎn)單的有用的論點(diǎn)。很顯然,GPT-4 可以「看」得很好。

第二個(gè)原因是,除了從文本學(xué)習(xí)外,我們還可以從圖像中學(xué)習(xí)這個(gè)世界,這也是很強(qiáng)的論點(diǎn),盡管它像看上去沒(méi)有那么明確。舉個(gè)例子,人類一輩子會(huì)聽(tīng)到十億個(gè)詞。

黃仁勛:這非??鋸?。

Ilya Sutskever:這不是很多。真的,不是很多。因?yàn)槭畠|秒是 30 年,所以像我們一秒只能看到幾個(gè)字,并且我們有一半的時(shí)間都在睡覺(jué)。所以幾十億個(gè)詞是我們一生中得到的總數(shù)。那么有盡可能多的信息來(lái)源非常重要,并且我們絕對(duì)可以通過(guò)視覺(jué)學(xué)到很多。

同樣的論點(diǎn)也適用于我們的神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)除了可以從相當(dāng)多的詞中學(xué)習(xí),(如果有了「視覺(jué)」),從文本中的幾十億文字認(rèn)識(shí)世界或許會(huì)變得更容易,甚至可以從數(shù)萬(wàn)億的詞語(yǔ)中學(xué)習(xí)。

舉個(gè)例子,比如顏色,人需要看到顏色才能理解顏色,但是神經(jīng)網(wǎng)絡(luò)在「一生中」從沒(méi)有「看」過(guò)一張照片,如果你問(wèn)它們什么顏色更接近,它知道紅色比藍(lán)色更接近橙色,它也知道藍(lán)色比黃色更接近紫色,這是怎么實(shí)現(xiàn)的?一個(gè)答案是這個(gè)世界的信息,甚至是視覺(jué)的信息會(huì)慢慢通過(guò)文本傳播出去,但是它非常緩慢。但當(dāng)你有很多文本時(shí),你仍然可以學(xué)習(xí)到很多東西。

當(dāng)然,當(dāng)你加入視覺(jué)信息并從視覺(jué)中學(xué)習(xí)知識(shí),你就會(huì)學(xué)到額外的知識(shí)。這些知識(shí)是無(wú)法通過(guò)文本獲得的。但我不會(huì)說(shuō),它是一個(gè)二進(jìn)制文件,有些東西無(wú)法從文本中學(xué)習(xí)到。我認(rèn)為這更像是一種交換頻率的問(wèn)題。特別是當(dāng)你想學(xué)習(xí),你想像人一樣從十億個(gè)單詞或一億個(gè)單詞中學(xué)習(xí),那么,有其他形態(tài)的信息來(lái)源變得重要得多。

黃仁勛:是的,你可以從圖像中學(xué)習(xí)。是否有一種感覺(jué)表明,如果我們也想了解世界的構(gòu)造,比方說(shuō)我的手臂連接著我的肩膀,再通過(guò)連接我的手肘就能移動(dòng)這個(gè)世界,像這樣的物理法則,如果我也想學(xué)習(xí),我可以只看視頻就能學(xué)習(xí)嗎?

Ilya Sutskever:是的。

黃仁勛:如果我想增強(qiáng)(效果)。比方說(shuō),「?jìng)ゴ螅╣reat)」的意思,有些場(chǎng)合下「?jìng)ゴ蟆故侵S刺意味的,另一些場(chǎng)合下「?jìng)ゴ蟆箍赡苁菬岢酪馕兜?,還有很多很多這樣的詞,(它的意思)取決于人們?nèi)绾伪硎觥?/span>

所以音頻對(duì)于模型學(xué)習(xí)也會(huì)有幫助嗎?我們會(huì)很快讓它派上用場(chǎng)嗎?

Ilya Sutskever:是的,我認(rèn)為肯定是這樣的。那么,關(guān)于音頻,它很有用,它是另一個(gè)額外(形式)的信息來(lái)源,可能不如視頻圖像那么多。但是,音頻無(wú)論是在識(shí)別方面和生成方面,都是有必要的。

黃仁勛:當(dāng)你談到前面所說(shuō)的分?jǐn)?shù)時(shí),真正有趣的是你們發(fā)布出來(lái)的數(shù)據(jù)。哪些個(gè)測(cè)試 GPT -3 表現(xiàn)良好?哪些個(gè)測(cè)試 GPT-4 表現(xiàn)得更好?你認(rèn)為多模態(tài)在這些測(cè)試中起了多少作用?

Ilya Sutskever:坦白說(shuō),每當(dāng)有測(cè)試,你可以看看圖表。比如,一些數(shù)學(xué)競(jìng)賽,比如高中生的數(shù)學(xué)比賽 AMC12 中,有很多圖表的題。GPT-3.5 在測(cè)試中表現(xiàn)得相當(dāng)差。只有文字模態(tài)的 GPT-4,我想我不太記得了,但它可能有 2% 到 20% 的準(zhǔn)確率。但當(dāng)你添加視覺(jué)模態(tài)時(shí),它會(huì)提升至 40% 的成功率,所以視覺(jué)真的做了很多事情。

視覺(jué)模態(tài)的加入是非常棒的。能夠在視覺(jué)層面進(jìn)行推理和在視覺(jué)上進(jìn)行溝通,我們也將變得非常強(qiáng)大、非常棒。視覺(jué)從僅僅對(duì)幾個(gè)事物的了解,發(fā)展到你可以了解整個(gè)世界,然后你可以把這個(gè)世界做視覺(jué)化推理、視覺(jué)化的溝通。未來(lái),如果你問(wèn)神經(jīng)網(wǎng)絡(luò),嘿,回答我一下。神經(jīng)網(wǎng)絡(luò)不僅會(huì)用四個(gè)段落來(lái)回答,還會(huì)生成一個(gè)小圖表,清楚告訴你。

06

AI 的未來(lái)

黃仁勛:這真是不可思議。你之前還說(shuō)過(guò)的一件事是,關(guān)于用 AI 生成測(cè)試來(lái)訓(xùn)練另一個(gè) AI 的事。有一篇論文是寫的這個(gè)主題,我不完全確定它是不是屬實(shí)。但是它是說(shuō)全世界大概有 4 萬(wàn)億到 20 萬(wàn)億這么多數(shù)量的語(yǔ)言 tokens 可以被用于訓(xùn)練模型,所以說(shuō)可以用來(lái)訓(xùn)練的 token 會(huì)慢慢消耗殆盡。

首先,我不知道你是否有同樣的感覺(jué);第二,AI 是否會(huì)用自己生成的數(shù)據(jù)來(lái)訓(xùn)練自己?你也可以反駁這個(gè)循環(huán),但我們(人類)無(wú)時(shí)無(wú)刻不在用生成的數(shù)據(jù),比如通過(guò)自我反省的方式訓(xùn)練我們的大腦,并在腦海里思考某一個(gè)問(wèn)題。我猜,神經(jīng)科學(xué)家會(huì)說(shuō),保持充足睡眠可以幫助建設(shè)我們的神經(jīng)元。

你如何看待合成數(shù)據(jù)生成領(lǐng)域?這是否會(huì)成為未來(lái)AI 訓(xùn)練重要的一部分?AI 能否自己訓(xùn)練自己?

Ilya Sutskever:我認(rèn)為我不會(huì)低估現(xiàn)有的數(shù)據(jù)。我認(rèn)為可能有比人們意識(shí)到的更多的數(shù)據(jù)。至于你的第二個(gè)問(wèn)題,這種可能性仍有待觀察。

文章圖片5

黃仁勛:未來(lái)的某些時(shí)候,當(dāng)我們不使用 AI 時(shí),它也許會(huì)生成對(duì)抗性的內(nèi)容來(lái)學(xué)習(xí)或想象著它需要解決的問(wèn)題來(lái)不斷提升自己。告訴我們,現(xiàn)在處于哪里,以及未來(lái)我們將會(huì)在哪里?不預(yù)測(cè)非常遙遠(yuǎn)的未來(lái),而是可見(jiàn)的一兩年。你認(rèn)為語(yǔ)言模型領(lǐng)域會(huì)去向何處?哪些是令你最興奮的地方?

Ilya Sutskever:預(yù)測(cè)是困難的,尤其是對(duì)于太具體的事情。

我們有理由認(rèn)為這個(gè)領(lǐng)域會(huì)持續(xù)進(jìn)步,我們將繼續(xù)看到 AI 系統(tǒng)在它的能力邊界繼續(xù)震驚人類。

目前的邊界是由 AI 的可靠性決定的。如果它不能完全理解,它也會(huì)通過(guò)提問(wèn)來(lái)弄清楚,它會(huì)告訴你不知道,但同時(shí)會(huì)說(shuō)它需要更多的信息。如果這些取得進(jìn)展,我認(rèn)為會(huì)對(duì) AI 的可用性帶來(lái)最大的影響。因?yàn)楝F(xiàn)在,我們就面臨著一個(gè)挑戰(zhàn)。你想讓一個(gè)神經(jīng)網(wǎng)絡(luò)去總結(jié)長(zhǎng)的文檔、獲取摘要。挑戰(zhàn)就是,能確定重要的細(xì)節(jié)沒(méi)被忽略嗎?

(現(xiàn)在,)它依舊是一個(gè)有用的總結(jié)。但是當(dāng)你知道,所有的要點(diǎn)都被涵蓋了,那就是另一回事了。一些要點(diǎn)總結(jié)得模棱兩可還好,但如果一些重要到所有人都覺(jué)得重要的要點(diǎn),也被神經(jīng)網(wǎng)絡(luò)總結(jié)了,那么我們就會(huì)承認(rèn)神經(jīng)網(wǎng)絡(luò)總結(jié)內(nèi)容是很可靠的。

對(duì)于內(nèi)容護(hù)欄也一樣,它是否清楚地遵循用戶的意圖(也會(huì)成為衡量可靠性的標(biāo)準(zhǔn))。未來(lái)兩年,我們會(huì)看到很多這樣的技術(shù)。

黃仁勛:是的,這太棒了。這兩個(gè)領(lǐng)域的進(jìn)步將使這項(xiàng)技術(shù)變得值得信賴,并使人們能夠應(yīng)用在這么多的事情上。這本應(yīng)該是最后一個(gè)問(wèn)題,但我真的還想再問(wèn)一個(gè)問(wèn)題。從 ChatGPT 到 GPT-4,你是什么時(shí)候第一次開(kāi)始使用它的?它表現(xiàn)出來(lái)什么樣的技能連你都為之驚訝?

Ilya Sutskever:它展示了許多很酷的東西,很酷也很令人驚訝,非常棒。我要提到兩點(diǎn)。簡(jiǎn)短的回答是,它的可靠性水平令人驚訝。

在此之前的神經(jīng)網(wǎng)絡(luò),如果你問(wèn)它一個(gè)問(wèn)題,它可能會(huì)以一種近乎愚蠢的方式誤解。然而 GPT-4 不會(huì)讓這種事發(fā)生。它解決數(shù)學(xué)問(wèn)題的能力變得更強(qiáng)大,你真的可以認(rèn)為它進(jìn)行了推導(dǎo)(derivation),長(zhǎng)篇且復(fù)雜的推導(dǎo),并且還轉(zhuǎn)換了單位等等。這真的很酷。就像許多人一樣,它是通過(guò)一步步的證明來(lái)工作的,這真的很神奇。盡管不是所有的證明都那么自然,但起碼有很大一部分是的。另一個(gè)例子在于,許多人注意到的寫詩(shī)能力。它可以用同一個(gè)字母開(kāi)頭的單詞寫詩(shī),每個(gè)單詞都很清晰地遵循著指令。雖然仍不完美,但是已經(jīng)非常好了。

在視覺(jué)方面,我真的很喜歡它如何解釋笑話的,它可以解釋網(wǎng)絡(luò)梗。你給他看一個(gè)梗并詢問(wèn)它這個(gè)為什么好笑,它會(huì)告訴你原因并且它說(shuō)的還是對(duì)的。我認(rèn)為,在視覺(jué)部分,它就像真的可以看到那些圖。當(dāng)你用一些復(fù)雜的圖像或圖表來(lái)追問(wèn)它問(wèn)題,并得到一個(gè)解釋時(shí),這真的太棒了。

退一步講,我已經(jīng)從事這項(xiàng)工作很長(zhǎng)時(shí)間了,實(shí)際上幾乎整整 20 年了。最讓我感到驚訝的是——它是真的有效。它似乎一直以來(lái)(對(duì)人們來(lái)說(shuō))都是個(gè)小事兒,但它現(xiàn)在不再渺小,變得更重要、更強(qiáng)烈。它還是那個(gè)神經(jīng)網(wǎng)絡(luò),只是變得更大,在更大的數(shù)據(jù)集上,以不同的方式訓(xùn)練,但訓(xùn)練的基礎(chǔ)算法都是一樣的,這是最令我驚訝的!每當(dāng)我后退一步,我就會(huì)想,這些想法、這些概念性想法怎么可能呢?

大腦有神經(jīng)元,所以也許人工神經(jīng)元也一樣好,所以也許我們只需要用一些學(xué)習(xí)算法以某種方式來(lái)訓(xùn)練這些神經(jīng)元,來(lái)將它們的參數(shù)調(diào)節(jié)到如此難以置信地正確,這本身將是最大的驚喜。

黃仁勛:在我們相識(shí)的十年里,關(guān)于訓(xùn)練過(guò)的模型和數(shù)據(jù)量,從你從事的 AlexNet 訓(xùn)練到現(xiàn)在已經(jīng)擴(kuò)大到 100 萬(wàn)倍。在計(jì)算機(jī)科學(xué)界,沒(méi)有人會(huì)相信在這十年間,計(jì)算量會(huì)擴(kuò)大到 100 萬(wàn)倍,并且你的整個(gè)職業(yè)生涯都致力于此。你也是這兩個(gè)開(kāi)創(chuàng)性的成就——早年間 AlexNet 和現(xiàn)在從 OpenAI誕生 GPT,這些成就真的了不起,很高興能再次與你進(jìn)行思想上的碰撞,我的朋友 Ilya。這是一個(gè)相當(dāng)美妙的時(shí)刻,今天的對(duì)話。您將問(wèn)題抽絲剝繭,逐一解釋,這是最好的 PHD 之一。除了 PHD,還有領(lǐng)域最前沿的大語(yǔ)言模型的描述,我真的很感激。很高興見(jiàn)到你。祝賀你!

Ilya Sutskever:謝謝。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多

    日韩一区二区三区18| 国产韩国日本精品视频| 国产又猛又大又长又粗| 国产内射一级二级三级| 欧美日韩国产午夜福利| 在线中文字幕亚洲欧美一区 | 久七久精品视频黄色的| 欧美日韩精品一区免费 | 欧美精品久久99九九| 少妇福利视频一区二区| 日韩精品一区二区亚洲| 中文字幕精品少妇人妻| 色婷婷亚洲精品综合网| 精品高清美女精品国产区| 婷婷色国产精品视频一区| 国产欧美高清精品一区| 国产一区二区熟女精品免费| 一本色道久久综合狠狠躁| 久久99精品国产麻豆婷婷洗澡| 中国少妇精品偷拍视频| 老司机精品视频免费入口| 亚洲欧美日韩色图七区| 久久re6热在线视频| 青青免费操手机在线视频| 微拍一区二区三区福利| 99视频精品免费视频播放| 黑丝袜美女老师的小逼逼| 国产日韩中文视频一区| 91偷拍与自偷拍精品| 日韩18一区二区三区| 欧美日韩亚洲精品内裤| 欧美高潮喷吹一区二区| 在线观看国产成人av天堂野外| 日本午夜一本久久久综合| 国产一区二区三区四区免费| 国产又大又猛又粗又长又爽| 亚洲一区二区欧美在线| 夜夜嗨激情五月天精品| 日本和亚洲的香蕉视频| 亚洲国产精品肉丝袜久久| 国产午夜免费在线视频|