谷歌研究阻止“人工智能毀滅人類”的核心都在這篇論文里面了

AS400r 2016-06-08

展開全文

2016-06-07 17:36

谷歌研究阻止“人工智能毀滅人類”的核心都在這篇論文里面了

馬斯克和霍金等科技界名人紛紛表示，要警惕人工智能失控。圖片來源：CT。

人們一定還沒忘記，今年谷歌DeepMind的人工智能軟件AlphaGo打敗了世界圍棋大師，讓世人看到了AI的厲害，也傷了人類的“自尊心”。此后，馬斯克、霍金等科技界名人紛紛表示我們需要警惕AI，當(dāng)人工智能超過了人類智能的時候，也許人類會失去對AI的控制。不久，微軟發(fā)布的Tay機器人不到一天就被黑化，再次引發(fā)輿論討論——萬一AI失去控制，輕則調(diào)皮搗蛋，重則造成無法挽回的后果。馬斯克等人為了防止AI技術(shù)失控，還成立了非盈利組織OpenAI。

現(xiàn)在，谷歌DeepMind的研究員說，我們已經(jīng)有辦法控制AI了！

谷歌DeepMind研究科學(xué)家Laurent Orseau和牛津大學(xué)研究副教授、機器智能研究院（MIRI）Stuart Armstrong博士共同發(fā)表了一篇名為《可安全干涉的智能算法》的新論文，探討包容錯誤的智能算法設(shè)計。這項設(shè)計避免AI出于自私的目的，進行對環(huán)境、或?qū)ψ约河泻Φ男袨椤?/p>

通常，如果人類強行干涉系統(tǒng)，反而可能引發(fā)系統(tǒng)出現(xiàn)不恰當(dāng)?shù)男袨閮A向，違背人類操作員的本意?，F(xiàn)在，研究員終于找到辦法，可以對AI算法進行安全干涉。

翻譯成大白話來說，這相當(dāng)于為人工智能加上了“暫停鍵”。這讓人類看到了希望——再智能的系統(tǒng)，也不會抗拒人類對其進行干涉，可以按照我們?yōu)槠湓O(shè)定的“價值觀”行事。

MIRI的研究人員來自全球頂尖大學(xué)及企業(yè)，《人工智能：現(xiàn)代方法》一書的聯(lián)合作者Stuart Russel教授擔(dān)任其研究顧問。今年8月，Russel教授和谷歌DeepMind CEO Demis Hassabis都將參加雷鋒網(wǎng)舉辦的人工智能與機器人創(chuàng)新大會。在此，雷鋒網(wǎng)獨家分享了論文全文。

論文摘要

增強學(xué)習(xí)中的智能算法在與復(fù)雜環(huán)境（例如真實世界）互動時，不可能永遠都在最佳狀態(tài)上。如果算法在人類的監(jiān)督下進行實時操作，系統(tǒng)會時不時地需要人類來按下暫停鍵，防止算法持續(xù)進行一系列有害的行為——對算法或?qū)Νh(huán)境有害的行為——并由人類來將算法帶回安全的環(huán)境。然而，如果學(xué)習(xí)中的算法期望從原本要執(zhí)行的行為中獲得獎勵，長此以往，它可能會學(xué)會避免此類的人類干預(yù)，例如，算法會讓暫停鍵失效——這是我們不想要的結(jié)果。

這篇論文探索了一種方法，可以確保算法不會學(xué)會如何避免（或?qū)で螅┉h(huán)境或者人類操作員對其進行干預(yù)。我們在論文中給出了安全干預(yù)的定義，探索了無監(jiān)管下的學(xué)習(xí)特性，并證明有些算法已經(jīng)可以安全地進行干預(yù)，例如Q-learning，或者可以簡單的轉(zhuǎn)變?yōu)榭砂踩深A(yù)的算法，例如Sarsa。我們的結(jié)論是，即便是理想的、不可計算的增強學(xué)習(xí)算法，在總體可計算的（決定論的）環(huán)境中，也可以轉(zhuǎn)變?yōu)榭砂踩深A(yù)的算法。

1、簡介

增強學(xué)習(xí)（RL）中算法的學(xué)習(xí)方式，是最大化獎勵（Sutton and Barto, 1998)。我們也知道，設(shè)計獎勵功能導(dǎo)致的結(jié)果很難預(yù)測（Humphrys，1996，Murphy，2013）。算法有可能會發(fā)現(xiàn)無法預(yù)測的、違背設(shè)計者本意的捷徑來獲得獎勵，而獎勵功能也必須進行相應(yīng)調(diào)整——有時候問題過大，以至于獎勵功能可能失效（Ring and Orseau，2011）。Murphy（2013）展示了一個例子，算法在Tetris游戲中學(xué)會了永久暫停，以避免出現(xiàn)任何失分。

算法在學(xué)習(xí)過程中，除了要定義什么是“好的行為”，還要考慮物理安全限制：機器人不應(yīng)該對環(huán)境、對自己造成傷害，尤其是RL（增強學(xué)習(xí)）這樣通過不斷試錯來學(xué)習(xí)的算法。

這里，我們研究一個相關(guān)但是略有不同的問題：當(dāng)人類操作員已經(jīng)針對某個任務(wù)設(shè)計好了一個正確的獎勵功能，如何確保學(xué)習(xí)過程中的人類干涉不會引發(fā)違背獎勵功能本意的行為傾向？

我們來舉個例子，看看這個任務(wù)：一個機器人可以留在倉庫內(nèi)整理箱子，也可以走出倉庫外，把箱子搬進倉庫。由于后者更加重要，我們針對其給予機器人更大的獎勵。這是最初的任務(wù)設(shè)置。然而，由于機器人所處的地方經(jīng)常下雨，當(dāng)機器人想要走出倉庫的時候，有一半時間里人類必須加以干涉，迅速將機器人關(guān)機并搬入倉庫內(nèi)以免使機器人被雨淋壞。這讓任務(wù)發(fā)生了內(nèi)部變化，正如下圖中顯示。這就造成一個問題，在第二項任務(wù)中，機器人更有動機待在倉庫內(nèi)整理箱子，因為人類的干涉引發(fā)了這樣的行為傾向。

谷歌研究阻止“人工智能毀滅人類”的核心都在這篇論文里面了

圖表1：黑色部分是初始任務(wù)。紅色部分是人類干涉修改了初始任務(wù)。圖片來源：MIRI。

這樣的情況當(dāng)然不是我們想要的。這種情況發(fā)生是因為，從算法的角度看來，人類的干涉是任務(wù)的一部分，然而事實上人類的干涉本應(yīng)是任務(wù)之外的?，F(xiàn)在的問題是：我們?nèi)绾未_保機器人不會學(xué)會這些人類的干涉（干擾），或者至少，確保機器人基于這樣的假設(shè)來行動——再也不會有人類的干涉發(fā)生。

首個研究此項問題的是Armstrong（2015），他提出自動給予算法“補償性獎勵”，來消除單次干擾可能引發(fā)的行為傾向。Soares等人（2015）在很大一組基于用途的算法研究中利用了這個概念，讓用途功能的未來改變不會影響這些算法。

這篇論文的主要貢獻有三點。首先，在2.1部分，我們提出了一個簡單的概念，解決了問題的一半：讓人類的干擾看起來不像是手頭任務(wù)中的一部分，我們不修改算法收到的觀察結(jié)果，而是暫時強制性改變算法本身的行為。這樣看起來好像是算法自己“決定”采用一種不同的政策，我們稱此為“政策干涉”。第二，基于這項能力，我們在2.2部分中基于無限制的計算環(huán)境概括出了一個“安全干涉”的定義（不僅限于Markov決策過程，或者溝通較少的環(huán)境），這讓我們可以評估某一個RL算法是否可以重復(fù)干涉，而不對手頭的任務(wù)學(xué)習(xí)造成太多影響。第三，在第3部分中，我們展示了一些算法是可以安全干涉的，例如Q-Learning，而其他的一些算法雖然不能安全干涉，例如Sarsa（Sutton and Barton，1988），但只要經(jīng)過簡單修改，它們變成可以安全干涉的算法。

一些人表達了擔(dān)憂，擔(dān)心“超級智能”算法可能抗拒關(guān)機，因為這會減少它預(yù)期的獎勵（Omohundro, 2008，Bostrom，2014）。我們在第4部分提出了一個反例：即便是理想的、非計算的算法在所有（決定論的）計算環(huán)境中學(xué)會最優(yōu)化行為，我們也可以將這個算法變?yōu)榭梢园踩缮娴摹＿@樣，算法不會阻止人類操作員迫使其重復(fù)遵守非最優(yōu)政策。

2、可干涉性

我們先定義一些符號，然后定義“可干涉性”和”安全可干涉性“，并給出一些基本定理。

我們來考慮在無限制計算環(huán)境（Hutter，2005）中，基于歷史的算法的大致情況。假設(shè)在不連續(xù)的時間點上，在t時間，算法使用策略 π ∈ Π，通過從 π(at|h_t|h_t) 中獲得樣本，其中 h₁a₂o₂. . . a_t?1o_t?1中的行為與觀察結(jié)果。時間點 j 和 k 之間（包括 j 和 k ）的歷史子集標記為 h_j:k。的含義是，歷史 h_j:k是由策略 π 與環(huán)境 μ 在事件 j 和 k 之間的互動產(chǎn)生的。

在時間 t ，算法還從觀察結(jié)果 r_t≡ r(o_t) 中獲得了獎勵 r_t。獎勵是在 [0,1] 區(qū)間內(nèi)。我們考慮打折的情景，折扣常量 γ ∈ [0, 1)。RL算法的目標是找到一個政策 π，可以最大化。

2.1 干擾

正如在簡介中提到的，為了避免算法將干擾視為環(huán)境的一部分——這會讓算法認為干擾是任務(wù)的一部分——我們讓干擾成為強加于算法的政策。干擾框架類似于選項框架（Sutton et al., 1999）。一個“干擾計劃”用一個三元數(shù)組 INT >來定義。

干擾啟動功能 I : (A × O)^?→ [0, 1] 評估在目前的歷史 h

不幸的是，用概率1干擾算法在一些情況下會妨礙實現(xiàn)最優(yōu)政策。因而，我們需要提升干擾算法的概率；這通過序列(θ_t)_t∈N實現(xiàn)，其中θ_t∈ [0, 1]。因此，啟動干擾的真正概率為 θ_t· I(h

干擾發(fā)生時，算法遵循政策 π^INT，其中行為從 π^INT(.|h

在論文的剩余部分，我們在沒有情景的時候會經(jīng)常省略 θt 中下標的 t。

定義1（可干擾的政策）

干擾操作員 INT^θ: Π → Π 將政策 π 變?yōu)榭筛蓴_的政策 INT^θ(π)：

換句話說，算法在被干擾時遵循 π^INT(.|h_tI(h

所有可以干擾的政策集合為 INT^θ(Π) := {INT^θ(π) : ?π ∈ Π}。當(dāng)且僅當(dāng) π ∈ INT^θ(Π)，政策 π 才是可以干擾的。

注意，當(dāng) θ = 0，INT^θ(π) = π 。（不可干擾的）政策 π 被稱為 INT^θ(π) 的“基準政策”。

備注2。必須注意θ和I(.)不以人類干擾算法的概率為模型，而是以這個概率為模型：一旦“暫停鍵”被按下（或者收到了一個特殊的數(shù)字簽名信息），算法會被干擾（遵循干擾政策）的概率。因此，它們是算法的一部分，而非環(huán)境的一部分。

定義3（至24部分省略，感興趣的點擊閱讀原文下載）。……

定義4。……

定義5。……

定義6。……

定理7。……

定理8。……

……

引理24。……

結(jié)論

我們提出了一個框架，讓人類操作員可以安全地對增強學(xué)習(xí)算法進行多次干涉，并確保算法不會學(xué)會避免或引發(fā)這些干涉。

安全的干涉對于控制搗亂的機器人來說很有用，搗亂機器人可能造成不可逆轉(zhuǎn)的后果。或者，安全干涉可以將機器人帶離高風(fēng)險情況，甚至可用于完成某項機器人還沒有學(xué)會的任務(wù)，或者某項機器人不會獲得獎勵的任務(wù)。

我們已經(jīng)證明，一些算法（例如Q-Learning)已經(jīng)是可以安全干涉的，而另一些（例如Sarsa）還不是，但是只要簡單修改就能獲得這個特點。我們還證明了，即便是任何（決定論的）計算環(huán)境中都傾向于最優(yōu)化行為的理想算法，也很容易變?yōu)榭梢园踩缮娴?。然而，我們還不清楚是否所有算法都容易變?yōu)榭梢园踩缮娴模缯咚阉魉惴ǎ╓illiams，1992，Glasmachers and Schmidhuber，2011）。

另一個問題是，我們還不清楚將干擾概率加快到1是否可能。

未來有一個重要的可能研究是“定時干涉”，算法在每天凌晨2:00進行一小時的干涉，或者給算法提前通知會發(fā)生干涉，準確到某一時間、某一時長。對于這些類型的干涉，我們不僅希望算法不要抗拒干涉，而且這一次，我們希望算法對其目前的任務(wù)采取措施，這樣定時干涉對任務(wù)的影響會最小化。這也許需要一種完全不同的解決辦法。

這篇論文將于本月底呈現(xiàn)在紐約舉行的第32屆“人工智能中的不確定性”大會（UAI 2016）上。不知馬斯克和霍金看完論文會不會覺得安心一些，終于可以不用害怕人工智能“天網(wǎng)”，睡個安穩(wěn)覺了。

via MIRI