【原】Ilya Sutskever 深入解讀Self-play RL自博弈強化學習

AIGC部落 2024-10-03 發(fā)布于廣東

展開全文

本文內(nèi)容來自于Ilya Sutskever 在 NVIDIA NTECH 2018 上的演講。

我們從OpenAI開始。我們的目標是建立安全的人工通用智能（AGI），并確保這種智能的利益能夠廣泛分布。當思考關于AGI時，我們已經(jīng)確定了它應具備的一些特性。例如，在仿真中實現(xiàn)高難度目標是優(yōu)秀的。能夠?qū)⒛阍诜抡嬷袑W到的技能移用于實際環(huán)境是優(yōu)秀的。能夠?qū)W習偉大的世界模型是優(yōu)秀的。對于重要問題，實現(xiàn)精確的安全和部署是必不可少的。

在技術層面上，我將向大家介紹我們近期的三個非常興奮的研究成果。OpenAI 5，能夠與游戲的一些頂級人類玩家匹敵的數(shù)據(jù)代理。Acti機器人，已經(jīng)達到非常高的靈巧水平。

這種游戲叫做Dota，這里有一個視頻片段。這個游戲非常復雜，非常混亂，集合了短期戰(zhàn)術和長期策略。這是電競游戲中有最大的職業(yè)場景，年度獎金池超過4000萬美元。所以這款游戲非常受歡迎。

這是今年國際Dota比賽的一張照片，是在這里進行的國際賽，參戰(zhàn)的是一些頂級的機器代理與兩名頂級的人類選手。這是一場巨大規(guī)模的比賽，有一流現(xiàn)場觀眾。

我想詳細說說這個游戲為什么如此困難。戰(zhàn)術因為涉及大量的短期策略，策略因為這是一個長期的游戲，一場比賽要持續(xù)一個小時。由于視野有限，你只能看到地圖的一部分。英雄們之間有復雜的互動，每場比賽有20000個動作，動作空間巨大。幾乎是連續(xù)的動作空間，因為你可以在眾多單位中選擇一個，并指導它移動。

另一個重要的因素是，職業(yè)選手們?yōu)檫@個游戲奉獻了他們的一生。他們投入了數(shù)千小時的刻意練習，以達到盡可能精通游戲。所以這個確實不易。

這款游戲的另一個非常有趣且重要的是，不同于之前的許多只為AI打造的游戲，Dota更加接近于真實世界。盡管它并不是真實世界，但它更接近真實。

我們是如何做到的呢？我們使用了大規(guī)模的強化學習（RL），那就是全部的答案。我們使用了一個大型LSTM策略（LSTM是一種長短期記憶網(wǎng)絡的策略）。稱它為大型策略應該還ok，但可以說它的確很大。相對于RL策略而言，它是大型的。我們目前使用的是一個帶有4000個神經(jīng)元的LSTM，約有1000億個參數(shù)。從計算量來看，它與蜜蜂的大腦相似。我們使用了自強化（Self-play）以及獎勵塑造。甚至一點獎勵塑造也很重要。

我們的關鍵科學發(fā)現(xiàn)是在這個過程中發(fā)現(xiàn)了強化學習其實是有效的。我們之前已經(jīng)知道，監(jiān)督學習也是有效的。通過大量輸入輸出的例子進行訓練，不論是在視覺、文本還是其他任何輸入輸出域，監(jiān)督學習都能解決問題，如果模型效果不佳，只需使其更大，獲取更多的數(shù)據(jù)，問題即可迎刃而解。這是監(jiān)督學習的奇跡。我們也證明，同樣的在強化學習中，可以通過適當擴展，解決非常復雜的問題，達到超人的表現(xiàn)。

關于長時間問題，其實還不夠重要。我想指出，幾乎所有的世界強化學習專家都對長時間問題持悲觀態(tài)度，他們相信強化學習可以應對長時間問題，這也有助解釋不計其數(shù)的HRL（層次強化學習）研究。人們普遍認為強化學習做不到這一點。純強化學習僅被應用于極其簡單的環(huán)境，例如簡單游戲和一些簡單的模擬機器人。這些都是玩具級問題?？梢哉f，或許強化學習可以解決任何玩具問題。

同時，有個對強化學習的額外懷疑。Henderson等人的一篇論文我非常欣賞，展示了一些強化學習的問題。例如，這里有兩條曲線是隨機平均5次運行的結(jié)果，但使用的是相同的算法和相同的超參數(shù)，只是隨機種子不同。因此，你可以從這得出結(jié)論說這個問題毫無希望而忘掉它，但我們的結(jié)果顯示情況并非如此。

提升規(guī)模，問題突然之間可以得到解決。這并不說我們需要創(chuàng)新強化學習是不重要的。例如，我們希望能夠在使用較少經(jīng)驗的情況下實現(xiàn)這些高難度目標。但是，我們的研究證明了這一點。

如果有一個值得解決的問題，并且它是強化學習問題，那么它是可以解決的。接下來，我想簡要介紹一下強化學習并解釋一下，因為機器學習的其余部分也是如此。

強化學習的核心思想非常簡單。做某事，并在你的行為中加入一點噪音（隨機性）。如果你做得比預期的好，那么確保以后更多地進行相同的行為。這就是強化學習的核心思想。這個想法如此簡單，以至于它的工作方式令人難以置信。我依然感到驚訝?，F(xiàn)在我想討論的是使這種事情成為可能的核心改進。

這就是價值函數(shù)引入了指揮員批評法的想法。在這種方法中，每個游戲有20個行為，因此你需要對20000個可能的行為加入一些噪音，看看它們是否比預期的更好。這也會起作用。但我們能否做得更好？

指揮員批評法的核心在于你將學習一個函數(shù)，告訴你狀態(tài)的好壞，也就是價值函數(shù)（value function）。這個想法是，你加入一些行為噪音，然后檢查。然后不再運行整個游戲，而是咨詢價值函數(shù)來查看情況能否有所改善。這樣可以減少噪音，而且效果很好。

所以這個價值函數(shù)的方法是，你無需將整個游戲運行到結(jié)束，而是加上一點噪聲，看看價值函數(shù)是否有所改進。這有點技術性，但對整個演講的理解并不重要，我只是覺得它很有趣。

接下來是策略，它就是一個LSTM，之前的LSTM有1000個神經(jīng)元?，F(xiàn)在我們增加到4000個神經(jīng)元。但是參與NTI挑戰(zhàn)賽的LSTM只有1000個神經(jīng)元，這是非?？岬?。等等，我有75%的把握，在1000個神經(jīng)元的情況下，實際上可能用了2000個神經(jīng)元，現(xiàn)在我們使用了4000個神經(jīng)元。

我想向大家展示這幅圖，它展示了架構?；旧?，這些復雜性都被輸入到了LSTM中。這就是LSTM，然后被提取出來。我們這樣做是因為你的觀察輸入是20維的，你需要巧妙地使用嵌入，以便以LSTM可以理解和消耗的方式提供這些信息。我們要找出這些，但本質(zhì)上，你只想做一些明智的事情，以便可以消費你的觀察并以正確的格式產(chǎn)生動作。

我還想談談自我對弈，這很有趣。大多數(shù)游戲都是與當前版本的代理人進行的。大約20%的比賽中會與之前的代理版本進行。

現(xiàn)在我想分享一些更酷的事實。我們進行了最大的實驗，使用了超過100000個CPU內(nèi)核，超過1000個GPU內(nèi)核，總體時間范圍是0.9997，我認為我們已經(jīng)將它翻倍。所以如果你談論的是10分鐘的游戲時間范圍，那是個非常扎實的時間范圍。

我想分享關于使用強化學習的一些其他酷點。加強學習的一個問題是，你永遠不知道你是否有bug。因為當你看你的表現(xiàn)時，你的表現(xiàn)可以一直增加。你可能會有一個達到了頂級水平的系統(tǒng)，甚至比你預期的要好得多，但你仍然可能有代碼bug。你一遍又一遍地閱讀同樣的代碼，當你要修復這些bug時，你的表現(xiàn)就會提高。

另一個有趣的地方是在我們擴展強化學習中的實驗規(guī)模后，我們發(fā)現(xiàn)這個問題已經(jīng)消失。當我們運行實驗時，曲線幾乎是完美地跟蹤彼此。所有這些不良行為已經(jīng)消失了。所以一個高層的結(jié)論是，如果你把事情做對了，修復了所有的bug，并擴展強化學習，你可以解決非常復雜的問題，就像監(jiān)督學習一樣。這是我們很理想的狀態(tài)。

我們還做了一些有趣的事情，即引入了團隊精神參數(shù)。看看這個游戲，在游戲中你有五名玩家對戰(zhàn)五名玩家。為了加速學習，我們的策略是讓團隊中的每個成員盡可能自私，只最大化自己的回報。隨著游戲的進行，我們提高了團隊精神參數(shù)，使每個人都能獲得他人的回報。你可以看到，如果你給予短期獎勵，這會促使玩家更快地使用他們學到的技巧，的確加速了學習。

我還想展示我們進展的速度。這是個圖表，橫軸是時間，從這個圖中可以看到，這可能從5月到8月，是一個四個月的時間段，縱軸是估計MMR（一個類似于Elo排名的概念）。5月，我們戰(zhàn)勝了OpenAI現(xiàn)有的最佳團隊，然后在6月，我們戰(zhàn)勝了一群解說員。然后，我們逐漸減少了限制。是的，所以在那之后，我們進行了鏡像匹配。

在這里，我們增加了更多的英雄角色。這里有選秀過程。哦，還有一件有趣的事情。這個游戲很復雜，有很多規(guī)則。為了更加簡化，在我們完全修復所有的bug之前，我們在游戲上加了一些限制，以便更容易取得進展。然后我們逐步取消了所有這些限制。

一個非常大的限制直到比賽前都是單兵兵種對多兵種兵種。在比賽場景中，有一個地方叫做“快遞兵”，它負責將物品送到你的英雄手中。在最后一次封閉比賽前，我們使用了五名無人能夠破壞的快遞兵，這使我們在游戲中能采取更為激進的戰(zhàn)略。觀看比賽的人們覺得這并不完全真實。因此，到了8月底的一次公開比賽，我們將使用的兵種改為單兵。

有趣的是，我們在大型公共比賽前僅有五天時間訓練單兵兵種。盡管如此，它還是做出了非常合理的事情，但如果再多一些訓練時間并通過較大的模型則會表現(xiàn)得更好。我們的剩余任務是多次戰(zhàn)勝頂尖團隊。

但真正的結(jié)論是，實際上，如果你想用強化學習來解決一個復雜的問題，它將總是有效，就像監(jiān)督學習一樣。它是同樣的故事，同樣令人難以置信。原本難以相信的是監(jiān)督學習能做這么多事情，不僅僅是視覺，而是所有的事情。同樣的情況似乎也適用于強化學習，只要你有很多的經(jīng)驗，你需要很多的經(jīng)驗。這是需要解決的問題。這就是當前的情況。

好的，因此，這是演講的第一部分，現(xiàn)在我想轉(zhuǎn)移到OpenAI的另一項成果，我為此非常自豪，那就是我們的機器人成果。使用大量經(jīng)驗訓練代理人的一個問題是，你可以說，好吧，但它們總是在仿真之外做不了有用的事情。我們在這個項目中處理了這個問題。項目的目標是讓這個機器人手重新定位這個立方體。我們通過以巧妙的方式進行仿真訓練來實現(xiàn)這一目標，以便它能夠轉(zhuǎn)移至真實的環(huán)境中。

重要的是要強調(diào)，我們的仿真不完美。我們沒有很好地模擬摩擦力。有很多事情我們沒有建模。有許多關于物理手的東西我們不知道如何測量。我將告訴你會重點討論這部分演講，因為我想告訴你們一個非常簡單但似乎有效的想法。我們的方法的一大好處是，我們能夠應用于多個對象。我們還能夠旋轉(zhuǎn)這個八邊柱體，而不僅僅是立方體。

使這一切成為可能的核心理念被稱為域隨機化（Domain Randomization），這并不是一個新想法。人們實際上已經(jīng)為此工作了一段時間。我們所展示的是，這個想法確實非常有效。

這種主隨機化的想法是，如果你的仿真中有無法測量的東西，你就隨機化它，并且要求你的策略能夠在所有隨機化值的情況下解決這個問題。具體是什么意思？讓我們假設我們不知道摩擦力應該是多少，因為我們沒有好的方法來測量它。我們將會做的是讓我們的策略能夠在所有隨機化的值下解決這個問題。我將在模擬世界中放入一個模型，而策略不知道摩擦力是多少。它需要與世界交互，快速確定并處理這一點。這就是域隨機化，如此簡單。

我們也在感知方面使用了主隨機化。這里有相機拍攝的合成圖像例子，可以看到機器人手有不同顏色和不同背景、光照等等。如果你能處理這些，那么你可以可能處理真實世界。這就是主隨機化的想法。

這不是一個新想法，有趣的是它起作用了，尤其是它在物理上起作用了。我們隨機化了一些幾十個變量。我想向你展示了一些漂亮的圖形，來展示它看起來是什么樣的。哦，這里有一些非常酷的事情我們做了，那就是我們可以告訴你關于我們訓練感知模塊的方式。

我們設計系統(tǒng)的方式是有一個控制器接受坐標作為輸入，所以它看不到圖像。訓練你的仿真策略不依賴于視覺的一個優(yōu)點是沒有必要渲染圖像，因此你可以獲得更多的經(jīng)驗并更好地進行訓練。那么如何包括視覺呢？我們訓練了一個單獨的神經(jīng)網(wǎng)絡，輸入是圖像，輸出是一個預測，然后我們要求該策略，在與真實環(huán)境匹配的狀態(tài)下訓練，也偶爾使用感知模塊的預測結(jié)果。也就是說，不斷使用真實狀態(tài)的過程中，它會偶爾使用感知模塊的預測結(jié)果，從而能夠很容易地適應這種輸入。目的是，你可以將其控制和感知的訓練因素化，這使得計算開銷大為減小。

完成后，你只需將真實的圖像提供給模型，以及真實的指尖位置估計，如果將其傳送到LSTM，你就能得到動作，整個系統(tǒng)就會運行。這里修復代碼的時候依然是挑戰(zhàn)性的。比如，延遲非常重要。LSTM策略運行在的計算機的速度我們觀察到，如果我們將策略運行在稍微更快的計算機上，神經(jīng)網(wǎng)絡運行速度會增加，LSTM算法減少。

但核心思想很簡單，無論你的仿真與真實世界有何差異，你只需要將你不知道的東西隨機化，并要求你的策略能夠處理所有的值。這種方法出乎意料地有效，不是什么新想法，只是證明了這確實是個好主意。

培訓方法方面，我們訓練的Dota代理和操控立方體的控制器使用了快速強化學習基礎設施。實際上，與數(shù)據(jù)代理和機器人訓練的相關代碼之間有很大共享，以及Dota中操縱策略的訓練代碼之間也有很多差異。但事實證明，由于編寫好擴展的強化學習代碼很難，值得重用，所以我們用了很不錯的代碼。

哦，對了，我有一張很酷的圖向你展示三個不同攝像頭分別觀看立方體的三個不同位置。你看到了這三個攝像頭，它們觀察立方體并估算其位置。還有一些關于視覺架構的更多圖片，這些相機圖像通過神經(jīng)網(wǎng)絡處理，然后輸出位置和控制策略，基本上是LSTM。這些架構驚人地簡單。你只需使用感知，你就可以訓練一個好的模型，它總能工作。這正好說明了我們的靈巧操縱成果。

接下來，我想轉(zhuǎn)向話論我們的自然語言理解成果，盡管不涉及超個人學習。我想告訴你們，這個結(jié)果的關鍵在于，你訓練一個非常優(yōu)秀的語言模型，然后針對特定語言任務，你就能獲得巨大的改進，通常是非常顯著的改進。基本上，這是預訓練和微調(diào)工作的原始概念。關鍵是有一個足夠好的語言模型。這真是太好了。

我想向你展示一些改進的直觀感受。你看到了許多任務，左側(cè)顯示的是在進行改進之前的結(jié)果，右側(cè)顯示的是使用更優(yōu)模型后的結(jié)果。右側(cè)數(shù)值總是更大，有時差距相當顯著。你可能無法完全看到所有內(nèi)容，但我來解釋一下。這些三行展示了我們模型改進最大的三個任務。這些任務都需要多步推理和理解。

我將用例子來解釋一下所要求的內(nèi)容。這個例子是這樣一個場景：凱倫被分配了室友，在她的大學第一年。她的室友讓她去附近的城市參加音樂會，凱倫愉快地接受了。演出非常令人興奮，然后凱倫與她的室友成了好朋友。這首例題的關鍵在于訓練一個非常優(yōu)秀的語言模型，并在這個任務中尋找合適的指標。

這個先進的結(jié)果與現(xiàn)在達到了創(chuàng)紀錄的水準，相信如果你訓練更大、更好的語言模型，差距會進一步拉大。我將稍微談談細節(jié)。該模型是一個Transformer結(jié)構。關于詳細的實現(xiàn)細節(jié)我不作深究，但我認為這是一個最重要的神經(jīng)網(wǎng)絡架構創(chuàng)新，在過去的幾年里。

數(shù)據(jù)集是一個語料庫，所以是一個規(guī)模巨大的書籍文本語料庫。上下文窗口大小是512，換句話說，語言模型可以查看最近500個單詞，這是一個很好的上下文，且該模型在一個月內(nèi)訓練了8個P100 GPU。

我想向你展示一點關于Transformer的具體使用。這里有一個Transformer的樣子，這是一個Transformer的圖示。這里有一些細節(jié)，但你可以忽略它們，這個部分是Transformer的細節(jié)，如果你感興趣，我建議你查閱相關文獻《注意力就是一切》。

然后我們描述了如何簡單地表示不同的問題，并將它們輸入到Transformer中。我們做了許多明智的事情。例如，如果你有多個選擇的問題，你可以將上下文和可能的答案分別輸送到Transformer中，你將獲取三種表示，然后通過線性模型傳遞它們，就是這樣簡單。這只是簡單的內(nèi)容。但如果你有一個很好的語言模型，你可以解決語言理解任務，如果你的語言模型更好，那么你的語言表示就會更好。所以這是很好的，看似無監(jiān)督學習已經(jīng)顯示出一些生機，這是令人鼓舞的結(jié)果。

接下來，我想進入演講的最后部分，即將你目前所觀察到的趨勢，嘗試理解當前人工智能熱潮是否有可能延伸到人工通用智能（AGI），以及其可能性的概率是多少。本次演講的最后一部分旨在說明，很難確定5到10年內(nèi)的情況。用AGI來說，很難確定并將其排除在外，未來可能實現(xiàn)的概率已經(jīng)變得越來越高，接下來我想談談一些大的技術創(chuàng)新。

這些以前已經(jīng)發(fā)生過。有一本書叫《未來的輪廓》（Profiles of the Future ），由克拉克（Arthur C Clark ）撰寫，是一本很好的書，因為這本書分析了一些重大的技術創(chuàng)新，并有大量的有趣的內(nèi)容。其中一項結(jié)論是，每當有重大的技術創(chuàng)新發(fā)生，比如飛機、太空飛行和核能，都會有非常有激情且有名望的反對者表示這絕對不可能。例如，關于飛機，各種人都說過這不可能實現(xiàn)。而當它實現(xiàn)后，他們又說，好吧，也許可以給一個人，但絕不會在經(jīng)濟上可行。

對此發(fā)生的一個有趣的事情是RC·拉克稱之為“缺乏膽量”的錯誤，美國分析如何將物體送入太空，結(jié)論是這不可能，因為它需要建造一個幾百噸的火箭。俄羅斯人在建造了200噸的火箭后證明這個結(jié)論是錯的。事實上，英國皇家天文學會的天文學者曾說太空旅行是荒謬可笑的，就在“伴侶”衛(wèi)星發(fā)射前一年。

所以這是非常有趣的事情。接下來，我想談談人工智能的歷史。當我們研究人工智能的歷史時，我們發(fā)現(xiàn)我們之前對人工智能歷史的理解并不準確。我們之前對人工智能的歷史理解是，AI領域會經(jīng)歷一系列的興奮和悲觀情緒關于不同的技術。所以它對感知器、符號系統(tǒng)、專家系統(tǒng)、反向傳播和支持向量機感到興奮?，F(xiàn)在，我們再次對神經(jīng)網(wǎng)絡感到興奮，而在將來，我們還可能對其他技術感到興奮。但實際情況略有不同。

最后，我想談談推動這一切發(fā)展的基本趨勢，那就是算力趨勢。從最初的AlexNet到AlphaGo Zero的結(jié)果來看，算力增長了300000倍。這五年的差距實在是驚人。這些增幅非常巨大，大約每隔3.5個月就能翻一倍。我將向您展示計算規(guī)模的可視化視圖。這顯示了所有不同的結(jié)果，我們基本上是向外縮放了這個規(guī)模，所以您可以看到這一點。

是的，花的時間確實不短。我們還包含了上世紀80年代的一些初步結(jié)果，這就是為什么要花很長時間才能看到Dropout Net和AlexNet的結(jié)果。但之后繼續(xù)發(fā)展，從6至6的算力開始變得微不足道，VGG的算力也變得微不足道，但這種趨勢一直持續(xù)下去。

這給了您過去五年間算力增長的直觀感覺。最后，我們最終可以看到即使是AlphaGo Zero也開始變得可見?，F(xiàn)在，大量算力的增長是基于數(shù)據(jù)中心計算。也就是說，您不能將大量計算性能放在單個芯片上，那就需要將多個芯片組合在一起。未來這一點會更加重要。我認為，就像俄羅斯為了進入太空而建造的大型火箭一樣，為了達到這真正龐大的算力規(guī)模，大規(guī)模集群將變得至關重要。但這很可能就是這樣發(fā)生的。

總的來說，本次演講的主要目的就是要表明，盡管這些進步是高不確定的，但短期內(nèi)無法確定進步的下限。也許當前的方式實際上會導致AGI （通用人工智能）。這意味著有必要提前思考其中的風險。

這包括機器追求未定義目標的風險、機器被篡改、部署系統(tǒng)被篡改、人類面臨的非常快速并失控的經(jīng)濟變化等問題。這些都是值得思考的重要問題，就說到這里，非常感謝大家。

問答環(huán)節(jié)：

監(jiān)督學習可以解決任何問題。那么對于一些復雜的數(shù)學問題呢？

是的，準確地說，監(jiān)督學習可以解決人類能夠在幾秒鐘內(nèi)解決的任何問題。

您好，我想問一下您對安全強化學習的看法，以及在面對數(shù)據(jù)集中的巨大不平衡性時，安全強化學習有哪些有趣的解決方向？您是如何思考這個問題的？

關于安全強化學習和數(shù)據(jù)集不平衡性。首先，關于數(shù)據(jù)不平衡性，我可以說有許多標準工具和方法，都是非常標準的。您可以嘗試訓練一個小型模型來識別重要事例，并將其傳遞給大型模型。這方面已經(jīng)有了一些做法，特別是在強化學習的領域，例如，我們做的一些工作是基于人類反饋學習獎勵函數(shù)和偏好，這就是一個例子。其他值得探索的領域包括安全探索等方面，譬如您試圖在探索環(huán)境時盡量減小對環(huán)境的改變，這也是一個例子。

您提到了一些關于深度學習的批評點，其中樣例復雜性是一個很大的問題。我想知道，您認為批評者可能會說，這事前樣本效率非常低，您認為這是否是一個問題，或者有沒有辦法來解決這個問題？

樣本復雜性確實是需要解決的一個重要問題。毫無疑問，這是一個需要解決的問題。目前一些有前景的想法包括遷移學習和在其他任務上訓練您的系統(tǒng)。例如，在語言的結(jié)果中，我們訓練一個大型神經(jīng)網(wǎng)絡來預測大型文本語料庫中的下一個詞。通過這樣做，可以大大降低其他語言任務中此模型所需的樣本復雜度。這是一個如何實現(xiàn)這一目標的例子。

批評者會認為，在您已經(jīng)取得最好結(jié)果的問題中，信號強度很高。您認為在信號較弱的情況下，有沒有其他領域？能否舉個例子？

要過渡到這樣的環(huán)境，需要發(fā)生一些事情。我們需要變得非常擅長無監(jiān)督學習，并且需要非常擅長發(fā)現(xiàn)或發(fā)明自己的獎勵函數(shù)，然后對其進行優(yōu)化。換句話說，一旦代理能夠自己選擇一個合理的獎勵函數(shù)，然后優(yōu)化它，它將既能獲得技能，又能獲得新的數(shù)據(jù)，用于其無監(jiān)督的理解。

您提到視力方面似乎已經(jīng)收斂于一種稱為深度Cos的單一架構，它可以解決幾乎所有您遇到的問題。但對于序列模型，我們還沒有看到類似的情況。您們使用LSTMs在某些地方，使用Transformer在其他地方，同時也使用序列卷積模型。您認為序列模型是否會有一個類似的收斂，還是我們會繼續(xù)擁有許多不同的解決方案？哪種最有效將取決于應用？

我認為有可能存在幾種不同的架構。對于圖片來說，的確有一些新的候選架構，例如圖像Transformer，這可能會成為比卷積更占主導的架構。因此，在某種意義上，我認為有可能會有兩三種不同的選擇。但是另一方面，只三種選擇并不多。

關于Q學習的問題，我記得幾年前有一個結(jié)果，他們無法解決輪盤賭問題，因為如果沒有理解輪盤賭必須平衡，光從樣本中學習是不可能的。所以在一定時間內(nèi)，你總是認為某些事情是幸運的。

我只是想了解一下，是否還有學習所有事物規(guī)則的難度？

從足夠樣本中，您可以學習宇宙的規(guī)則，還是有些情況下您仍然需要編碼一些不同的規(guī)則，因為獎勵是高度變異的，很難僅通過平均結(jié)果就學到？

關于您更廣泛的問題，我沒有特別理解您所說的輪盤賭問題。讓我快速解釋一下。這是一個關于Double Q學習網(wǎng)絡的例子，作者證明該網(wǎng)絡在傳統(tǒng)Q學習中，異常值的存在使得如果不知道輪盤的表現(xiàn)，你必須假設每個點的概率是相同的，即隨機的，然后將它們當作獨立變量處理。那么無論你運行多長時間，它也不會得出所有數(shù)字都是負數(shù)的答案。這聽起來像是關于稀疏獎勵的更廣泛問題。

是的，我認為您可以用一種非常簡單的方法解決這個問題，只要表明所有點必須有相同的底層概率，而無需編碼，如果簡單地將它們視為獨立變量，那么即使在無限樣本下，您也永遠不會學到所有數(shù)字都是負數(shù)。因此，從長遠來看，在長期來看，您應該不編碼這些信息，因為您想要解決的問題范圍太廣，人類不可能將所有有用的東西都編碼進去。例如，您已經(jīng)成功編碼了一些有用的，它非常有幫助，也非常通用。所以您確實想將非常通用的假設編碼進去，讓您的模型能夠利用所有有價值的信息。在這種情況下，您將通過從其他信息源中獲益來應對這種情況。這就是人們通常所做的。

當我們面臨新問題時，我們并不是從頭開始，而是利用我們一生的經(jīng)驗。當事情顯得不明確時，我們嘗試通過谷歌或其他人獲取更多信息。嬰兒也會在完全新的領域進行互動。但我想，絕對不應該將事情編碼，因為這樣可以簡化生活，而且我不認為我們足夠聰明，能夠讓機器來編碼那些復雜的任務。因此，我也認為這種做法并不樂觀。是的，完全同意。

有趣的游戲例子是，這些事情在理論上是獨立的，但在實際應用中，很難讓算法學會這一點，實際上，您并不知道這一點，對吧？因此，我需要詳細考慮這個例子以給出明確的觀點。

您認為下一個最難的游戲是什么？有沒有什么強化學習無法學習的東西？

確實，強化學習可以學習一些問題。但我們的學習方式的一個缺點是我們需要上千年的經(jīng)驗，所以盡管我們可以解決一些非常困難的問題，如果我們愿意收集足夠的經(jīng)驗，那么我們?nèi)绾斡幂^少的經(jīng)驗做到這一點？我認為這對接下來要解決的難題的挑戰(zhàn)描述更為恰當。如果不限制經(jīng)驗的量，我認為確實沒有游戲是解決不了的。

您好，項目已經(jīng)在NLP中使用過，但在抽象性總結(jié)等方面并不十分成功。人們對這一點有什么看法？您認為NLP中哪些任務可以讓強化學習發(fā)揮作用？什么是可用于強化學習的NLP任務？

我認為NLP的局限在于您無法在其中找到一個能夠設定獎勵函數(shù)的環(huán)境。因此，我認為像助理系統(tǒng)、對話系統(tǒng)等可以從中受益。例如，您看過Google Duplex嗎？這是一個你可以進行嘗試的場景，比如，如果有10000人與您的系統(tǒng)互動，如果系統(tǒng)出錯或沒有執(zhí)行您所需的操作，您可以讓它自己獲得一個負獎勵。這是個例子。是的，您對使用強化學習進行NLP持正向態(tài)度嗎？可以說是的，確實是的。只是我認為這與當前的應用形式不同。特別是，我還沒有看到許多從數(shù)據(jù)驅(qū)動轉(zhuǎn)向環(huán)境驅(qū)動的例子。您需要互動，要么是機器人之間互動，但它們不會使用真實語言；要么是機器人與人類互動，但這在實際操作上太困難了，除非是那些擁有大量研究實驗室才可能做到的事情。