即將舉辦的2023中國綠公司論壇將通過“開啟AI普及應(yīng)用時代”、“人工智能與產(chǎn)業(yè)機遇”、“人工智能的應(yīng)用式創(chuàng)新”、“AI機器人及產(chǎn)業(yè)互聯(lián)網(wǎng)”等議題,開放企業(yè)家和學研界人士研討人工智能的發(fā)展趨勢、業(yè)界困局和解決方案。所有走出實驗室,投身產(chǎn)業(yè)界的科學家們,都夢想過用鉆研多年的科學技術(shù)改變世界的那一天。就像OpenAI 首席科學家伊爾亞·蘇茨克維這樣。主場的黃仁勛,比起身價千億的商業(yè)巨子,更像是一個謙遜的學生。面對面前這位比他年輕二十多歲的科學家,他提問、請教,為一些共同的記憶面露欣喜。伊爾亞本人也是一樣,回顧技術(shù)迭代的歷史,他像翻開了家譜,細說自己在Hinton門下的收獲,三言兩語帶出一長串為深度學習做出貢獻的前輩和同僚們。這是一場值得每一個關(guān)注當下這場 AI 革命的人都認真閱讀的訪談,以下是訪談內(nèi)容:英偉達 CEO 黃仁勛采訪 OpenAI 首席科學家:談人工智能的未來 完整視頻 | 來源:騰訊視頻黃仁勛:從我認識你以來,你做了很多開創(chuàng)性的工作。從多倫多大學開始,你與 Alex (Krizhevsky)和 Jeff Hinton 一起共同發(fā)明了 AlexNet,這帶來了現(xiàn)代 AI 的大爆炸。你的職業(yè)生涯也把你帶到了美國灣區(qū),完成了OpenAI 的創(chuàng)立,創(chuàng)造了GPT-1,2,3。當然了,還有讓 AI 風靡全世界的 ChatGPT。 真是青年科學家的卓越履歷,讓整個行業(yè)都對你的成就由衷地敬佩。 我還是追溯一下吧,來問問你,關(guān)于深度學習的一些問題。你對深度學習是什么認識?為什么你知道它會發(fā)揮作用?你心中就一定認為深度學習會取得如此成就嗎? 伊爾亞:我個人對人工智能的興趣有很多原因,出發(fā)點就是對 AI 巨大影響力的直覺性認識。同時,我也對究竟什么是意識充滿了好奇,究竟什么是人類的體驗?我覺得 AI 的發(fā)展能幫著我去理解這些。 2002 - 2003 年,那個時候「學習」是一件只有人類,或普通人就能做的事情,計算機完全辦不到。那時,計算機還不會學習任何東西,甚至在理論上是否可行都不太清楚。所以我想如果能在智能學習或者機器學習方面做出一些成果,將很有可能成為 AI 領(lǐng)域的最大進步。 我開始在這個領(lǐng)域做一些探索,一開始還沒有那么樂觀。但幸運的是,Jeff Hinton 在我念書的大學任教,我得以聯(lián)系到他。他的研究方向就是神經(jīng)網(wǎng)絡(luò),這就是我想要的。因為神經(jīng)網(wǎng)絡(luò)能夠締造一種可以學習、可以自動編程的并行計算機。那個時候并行計算機還很小,但是希望在于,如果你弄明白學習和神經(jīng)網(wǎng)絡(luò)的工作原理,那你就可以從數(shù)據(jù)中去編程小的并行計算機,而它與大腦的工作原理是相似的。 所以,就好像有了幾個理由可以支撐你繼續(xù)走下去,但是還不太清楚如何讓它起作用。然而基于已有的所有東西,似乎表明它的前景是最光明的。 黃仁勛:你們是怎么發(fā)現(xiàn) GPU 對你訓練的神經(jīng)網(wǎng)絡(luò)模型很有幫助的? 伊爾亞:這件事應(yīng)該感謝 Jeff(Hinton)。他說我們應(yīng)該試試 GPU,(于是)我們開始嘗試它們。這個過程很有意思,但我們也沒有完全搞懂它們真正的用途在哪里、怎么樣才能讓它們發(fā)揮作用。 可是接下來我們就發(fā)現(xiàn),隨著 ImageNet* 數(shù)據(jù)集的出現(xiàn),卷積神經(jīng)網(wǎng)絡(luò)非常適合 GPU 的模型,有可能把它變得非??欤茏鲆?guī)模遠超以前的訓練。事情就這么發(fā)生了。 非常幸運的是亞歷克斯 · 克里熱夫斯基(Alex Krizhevsky)真的很喜歡 GPU 編程,他能夠去編程開發(fā)非常快的卷積核函數(shù),然后去訓練神經(jīng)網(wǎng)絡(luò),用的是 ImageNet 數(shù)據(jù)集,并最終得到了結(jié)果。 黃仁勛:結(jié)果就是震驚了世界,大幅打破了計算機視覺的紀錄,這是非常明顯的突破性進展。 伊爾亞:對,它并不是之前方法的延續(xù),并不是像常規(guī)比賽那樣的打破紀錄。關(guān)鍵點在于這個數(shù)據(jù)集是超級難的,是遠遠超出一般范圍的。其他人可以用經(jīng)典的方法取得一點進展,但是這件事在數(shù)據(jù)集上要好多了。如果能做好,那將是驚人的 AI 大爆炸。 *ImageNet:一個大型的可視化數(shù)據(jù)庫,設(shè)計用于視覺對象識別軟件的研究,由華人 AI 研究員李飛飛構(gòu)建。伊爾亞和克里熱夫斯基主導設(shè)計的 AlexNet 卷積神經(jīng)網(wǎng)絡(luò)獲得了 2015 年 ImageNet 大賽冠軍。 黃仁勛:AI 技術(shù)大爆炸,快進到今天,你來到硅谷,和朋友們一起創(chuàng)辦了 OpenAI,擔任首席科學家的角色。最開始做 OpenAI 的想法是什么?你們做過很多事,我們能看到,那些早期的工作最終為我們帶來了 ChatGPT 的時刻。那么最早創(chuàng)立 OpenAI 的源動力是什么? 伊爾亞:是的,顯然當我們開始的時候,并不是 100%清楚如何推動。而且這個領(lǐng)域與現(xiàn)在非常不同,當然我們現(xiàn)在習慣了用這些驚人的神經(jīng)網(wǎng)絡(luò)來做很棒的事情,每個人都很興奮。 但是回到 2015 年-2016 年,當我們開始創(chuàng)業(yè)時,看起來很瘋狂。研究人員要少得多,可能比現(xiàn)在少 100-1000 倍。 在那時我們只有 100 個人,他們中的大多數(shù)人在 Google / DeepMind 工作。 然后有人開始學習這些技能,但仍然非常稀缺。在 OpenAI 開始的時候,我們有兩個關(guān)鍵的最初想法,這些想法一直推動我們到今天。 一個是通過壓縮進行無監(jiān)督學習。今天,我們想當然地認為無監(jiān)督學習易如反掌,你只需對所有事情進行預(yù)先訓練,而且一切都完全按照你的預(yù)期進行。但在 2016 年,無監(jiān)督學習是機器學習中一個尚未解決的問題,沒有人知道該怎么做。Yann LeCun* 到處演講,說監(jiān)督學習是個巨大的挑戰(zhàn),我真的相信好的數(shù)據(jù)壓縮將產(chǎn)生無監(jiān)督學習。 當然,直到最近,突然之間,很多人了解 GPT 實際上壓縮了訓練數(shù)據(jù),特德·姜* 在《紐約客》上的文章也提到這一點。但是從數(shù)學意義上講,訓練這些自回歸生成模型可以壓縮數(shù)據(jù),并且直觀上,你可以看到它們?yōu)槭裁磻?yīng)該起作用。如果你將數(shù)據(jù)壓縮得非常好,你就必須能夠提取其中存在的所有隱藏信息,所以這才是關(guān)鍵。 接著就要說到 OpenAI 在情緒神經(jīng)元領(lǐng)域的研究。 這項研究在機器學習領(lǐng)域不被太多人關(guān)注,但實際上,它很有影響力,特別是我們的思路。這項工作的結(jié)果是神經(jīng)網(wǎng)絡(luò)。但它并不是 Transformer*,而是在 Transformer 之前的模型——小型循環(huán)神經(jīng)網(wǎng)絡(luò) LSTM,完成一些序列到序列的工作。 我們用相同的 LSTM 稍微調(diào)整一下,來預(yù)測 Amazon 上評論的下一個字符。我們發(fā)現(xiàn),如果你預(yù)測下一個字符足夠好,就會有一個神經(jīng)元在 LSTM 內(nèi)對應(yīng)于它的情緒。 這是一件很酷的事。因為它展示了無監(jiān)督學習的一些效果,并驗證了良好的下一個字符預(yù)測、下一個預(yù)測的想法,壓縮具有發(fā)現(xiàn)數(shù)據(jù)中的秘密的特性,這就是我們在 GPT 模型中看到的。 *Yann LeCun,楊立昆:法國計算機科學家,卷積神經(jīng)網(wǎng)絡(luò)的創(chuàng)始人之一,于 2018 年獲圖靈獎。 *特德·姜:華裔美國科幻小說作家,《降臨》原著作者,曾獲得四項星云獎、四項雨果獎。 *Transformer:由谷歌在 2017 年推出的采用自注意力機制的深度學習模型,可以按輸入數(shù)據(jù)各部分重要性的不同而分配不同的權(quán)重,現(xiàn)已逐步取代 LSTM 等 RNN 模型成為了 NLP 問題的首選模型。 伊爾亞:OpenAI 完成的第一個真正的大型項目是讓 AI 體驗一款實時戰(zhàn)略游戲。實時戰(zhàn)略游戲本質(zhì)是一項競技運動,你需要聰明,需要更快,需要快速反應(yīng)和團隊合作。因為你正在與另一個團隊競爭,這是非常、非常復雜的。這個游戲有一個完整的聯(lián)賽,這個游戲就是 Dota 2。 我們訓練了一個強化學習 agent 來與自己對抗,目標是達到一定水平,可以與世界上最好的玩家競爭。這是一個重大的項目,它是一個非常不同的工作方向——強化學習。 黃仁勛:很多人覺得 OpenAI 做了很多類似這樣的工作,有些看起來像是走了彎路,但事實上,它們可能真正導致了我們現(xiàn)在正在討論的事情——ChatGPT的誕生。 伊爾亞:是的,它們已經(jīng)真正開始閉環(huán)了。GPT 產(chǎn)生了技術(shù)基座,從 Dota 的強化學習轉(zhuǎn)變到人類反饋的強化學習,這種組合又產(chǎn)生了 ChatGPT。 黃仁勛:有一種誤解,認為 ChatGPT 只是一個巨大的語言模型,但事實上圍繞著它有一個相當復雜的系統(tǒng)。你能為我們簡單解釋一下嗎? 伊爾亞:當我們訓練一個大型神經(jīng)網(wǎng)絡(luò)來預(yù)測互聯(lián)網(wǎng)上許多不同文本中的下一個詞時,我們所做的是學習一個「世界的模型」。表面上看起來我們只是在學習文本中的統(tǒng)計相關(guān)性,但實際上只是去學習文本中的統(tǒng)計相關(guān)性就可以把這些知識壓縮得非常好。 神經(jīng)網(wǎng)絡(luò)所真正學習的,是生成文本的過程中的一些表述——文本實際上是這個世界的一個映射。因此,神經(jīng)網(wǎng)絡(luò)正在學習從越來越多的角度去看待這個世界,看待人類和社會,看人們的希望、夢想、動機、交互和所處情境。此外,你對下一個詞的預(yù)測越準確,還原度越高,在這個過程中你得到的世界的分辨率就越高。 這就是預(yù)訓練階段的作用。 但是這并不能讓神經(jīng)網(wǎng)絡(luò)表現(xiàn)出我們希望它能夠表現(xiàn)出的行為。一個語言模型真正要做的是回答以下問題:如果我在互聯(lián)網(wǎng)上有一些隨機的文本,以一些前綴、一些提示開始,它將補全什么內(nèi)容呢?可能(AI)只是隨機地用互聯(lián)網(wǎng)上的一些文本來補全它。 但一個真實的、有幫助的,遵循某些規(guī)則的助手,是需要額外的訓練的。這就是微調(diào)和來自于人類老師的強化學習以及其他形式的人工智能協(xié)助可以發(fā)揮作用的地方。人類老師與 AI 一起合作去教導我們的 AI 模型,但不是教它新的知識,而是與它交流和傳達:我們希望它成為什么樣。 這就是第二階段(強化學習)。這個過程做得越好,神經(jīng)網(wǎng)絡(luò)就越有用、越可靠,所以第二階段也是極其重要的。 ChatGPT 和 GPT-4 之間的主要區(qū)別是什么?伊爾亞:兩者之間最重要的區(qū)別,就是 GPT-4預(yù)測下一個單詞具有更高的準確度。 這是非常重要的,因為神經(jīng)網(wǎng)絡(luò)越能預(yù)測文本中的下一個詞,它就越能理解它。這種說法現(xiàn)在也許已經(jīng)被很多人接受了,但它可能仍然不直觀,或者說不完全直觀。我舉個例子。假設(shè)你讀了一本偵探小說,有復雜的故事情節(jié)、不同的人物、許多事件、還不清楚的神秘線索……然后在書的最后一頁,偵探收集了所有的線索,召集了所有人,說:「我將揭示誰犯了罪,那個罪犯的名字是——」 這就是預(yù)測下一個詞。 現(xiàn)在有許多不同的詞,但是通過預(yù)測這些詞可以讓模型越來越好地理解文本。隨著對文本的理解不斷增加,GPT-4 預(yù)測下一個詞的能力也變得更好。 GPT-4 沒有內(nèi)置檢索功能,但是它可以請輸入標題黃仁勛:GPT-4 有檢索能力嗎? 伊爾亞:我肯定有人會嘗試使用 GPT-4 做查詢,并把回答代入到上下文中。 但 GPT-4 并沒有內(nèi)置檢索功能,它只是一個非常好的預(yù)測下一個詞的工具。 但它具備這個能力,(在未來)它也將通過檢索變得更好。
黃仁勛:GPT-4 表現(xiàn)出的哪個能力連你都很驚訝? 伊爾亞:簡短的回答是,它的可靠性令人驚訝。如果你問之前的神經(jīng)網(wǎng)絡(luò)一個問題,它可能會以一種近乎愚蠢的方式回答。然而 GPT-4 不會讓這種事發(fā)生。 它解決數(shù)學問題的能力變得更強大,你可以認為它真的進行了推導——長篇且負責的推導,并且還轉(zhuǎn)換了單位等等。 就像許多人類一樣,它是通過一步步的證明來工作的。雖然不是所有的證明都是那么自然的,但起碼有很大一部分是。就像許多人注意到它可以用同一個字母開頭的單詞寫詩,每個單詞都很清晰地遵循著指令。雖然仍不完美,但是已經(jīng)非常好了。 在視覺方面,我真的很喜歡它對網(wǎng)絡(luò)梗圖的解釋。你給它看一個梗圖并詢問它這個為什么好笑,它會告訴你原因并且它說的還是對的,就像它真的可以看到那些圖。 當你能用一些復雜的圖像或圖表來追問它問題并得到得到一個解釋時,這真的太棒了。 GPT-4 識別出了這張圖:這張圖片中的幽默來自將過時的大型 VGA 連接器插入小型現(xiàn)代智能手機充電端口的荒謬做法。| 來源:GPT-4 發(fā)布會 黃仁勛:多模態(tài)*為什么如此重要,重大突破是什么,以及由此產(chǎn)生的特征差異是什么? 伊爾亞:多模態(tài)有兩個維度讓它如此有趣。 第一個原因有點謙虛——多模態(tài)是有用的,它對神經(jīng)網(wǎng)絡(luò)很有用,尤其是視覺。因為這個世界是非常視覺化的,人類是視覺動物,人類大腦皮層的三分之一都用于視覺。由于沒有視覺,神經(jīng)網(wǎng)絡(luò)的用處雖然相當大,但并沒有達到預(yù)期。而 GPT-4 可以「看」得很好。 第二個原因,除了從文本學習外,我們還可以從圖像中學習這個世界的知識。 神經(jīng)網(wǎng)絡(luò)原本要從幾十億的文本中認知世界,現(xiàn)在這會變得更容易,甚至從數(shù)萬億的文本中學習就可以了。舉個例子,比如顏色。人需要看到顏色才能理解顏色,但是神經(jīng)網(wǎng)絡(luò)在「一生中」從沒有「看」過一張照片。如果你問它們哪些顏色更接近,它知道紅色比藍色更接近橙色,它也知道藍色比黃色更接近紫色。這是怎么實現(xiàn)的? 答案是,這個世界的信息,甚至是視覺的信息會慢慢通過文本傳播出去,但是非常緩慢。當你加入視覺信息并從視覺中學習知識,你就會額外學到這些無法通過文本獲得的知識。 黃仁勛:從你們的數(shù)據(jù)來看,有哪些測試 GPT-3 表現(xiàn)得更好,哪些測試 GPT-4 表現(xiàn)得更好?多模態(tài)在這些測試中起了多少作用? 伊爾亞:一些數(shù)學競賽中有很多圖表,GPT-3.5 在測試中表現(xiàn)得相當差,只有文字模態(tài)的 GPT-4 大概是 2%-20% 的準確率,但當你添加視覺模態(tài)時,它會提升到 40% 的準確率。 *多模態(tài):每一種信息的來源或者形式,都可以成為一種模態(tài)。例如人的聽覺、視覺、嗅覺;信息的媒介,語音、視頻、文字等。 黃仁勛:你認為大語言模型領(lǐng)域最終會去向何處? 伊爾亞:預(yù)測是困難的,尤其是對于太具體的事情,但我們有理由認為這個領(lǐng)域會持續(xù)進步,我們將繼續(xù)看到 AI 在它的能力邊界內(nèi)繼續(xù)震驚人類。 此外,AI 的可靠性是由是否可以被信任決定的,未來肯定會達到可被完全信賴的程度。如果它不能完全理解(問題),它也會通過提問來弄清楚。它會告訴你自己不知道,但同時會說它需要更多的信息。我認為這些是目前 AI 可用性影響最大的領(lǐng)域,也是未來會有最大的進步的領(lǐng)域。 因為現(xiàn)在,我們就面臨著一個挑戰(zhàn):你想讓一個神經(jīng)網(wǎng)絡(luò)去總結(jié)長的文檔,獲取摘要,挑戰(zhàn)就是,能確定重要的細節(jié)沒被忽略嗎? 但是當你知道,所有的要點都被涵蓋了,尤其是所有人都認為很重要的點被涵蓋的時候,我們就會承認神經(jīng)網(wǎng)絡(luò)總結(jié)內(nèi)容是很可靠的。對于內(nèi)容生產(chǎn)也一樣,它是否清楚地遵循用戶的意圖(這也會成為衡量可靠性的標準)。 未來兩年,我們會看到很多這樣的技術(shù)。 伊爾亞:我已經(jīng)從事這項工作很長時間了,實際上幾乎整整 20 年了。最讓我感到驚訝的是它是真的有效,它似乎一直以來(對人們來說)都是個小事兒,但它現(xiàn)在不再渺小,變得更重要、更強烈。 它還是那個神經(jīng)網(wǎng)絡(luò),只是變得更大,在更大的數(shù)據(jù)集上以不同的方式訓練,但訓練的基礎(chǔ)算法都是一樣的,這是最令我驚訝的! 每當我后退一步,我就會想,這些想法,這些概念性想法怎么可能呢?大腦有神經(jīng)元,所以也許人工神經(jīng)元也一樣好,所以也許我們只需要用一些學習算法以某種方式來訓練這些神經(jīng)元,來將它們的參數(shù)調(diào)節(jié)到如此難以置信的正確,這本身就會是最大的驚喜。
版權(quán)聲明:文章來源于公眾號“founder park”。本微信號所提供的信息僅供參考之用,如果您認為此文涉及侵權(quán)或標注與事實不符,請告知我們。
|