馬斯克和霍金等科技界名人紛紛表示,要警惕人工智能失控。圖片來源:CT。 人們一定還沒忘記,今年谷歌DeepMind的人工智能軟件AlphaGo打敗了世界圍棋大師,讓世人看到了AI的厲害,也傷了人類的“自尊心”。此后,馬斯克、霍金等科技界名人紛紛表示我們需要警惕AI,當(dāng)人工智能超過了人類智能的時候,也許人類會失去對AI的控制。不久,微軟發(fā)布的Tay機器人不到一天就被黑化,再次引發(fā)輿論討論——萬一AI失去控制,輕則調(diào)皮搗蛋,重則造成無法挽回的后果。馬斯克等人為了防止AI技術(shù)失控,還成立了非盈利組織OpenAI。 現(xiàn)在,谷歌DeepMind的研究員說,我們已經(jīng)有辦法控制AI了! 谷歌DeepMind研究科學(xué)家Laurent Orseau和牛津大學(xué)研究副教授、機器智能研究院(MIRI)Stuart Armstrong博士共同發(fā)表了一篇名為《可安全干涉的智能算法》的新論文,探討包容錯誤的智能算法設(shè)計。這項設(shè)計避免AI出于自私的目的,進行對環(huán)境、或?qū)ψ约河泻Φ男袨椤?/p> 通常,如果人類強行干涉系統(tǒng),反而可能引發(fā)系統(tǒng)出現(xiàn)不恰當(dāng)?shù)男袨閮A向,違背人類操作員的本意?,F(xiàn)在,研究員終于找到辦法,可以對AI算法進行安全干涉。 翻譯成大白話來說,這相當(dāng)于為人工智能加上了“暫停鍵”。這讓人類看到了希望——再智能的系統(tǒng),也不會抗拒人類對其進行干涉,可以按照我們?yōu)槠湓O(shè)定的“價值觀”行事。 MIRI的研究人員來自全球頂尖大學(xué)及企業(yè),《人工智能:現(xiàn)代方法》一書的聯(lián)合作者Stuart Russel教授擔(dān)任其研究顧問。今年8月,Russel教授和谷歌DeepMind CEO Demis Hassabis都將參加雷鋒網(wǎng)舉辦的人工智能與機器人創(chuàng)新大會。在此,雷鋒網(wǎng)獨家分享了論文全文。 論文摘要 增強學(xué)習(xí)中的智能算法在與復(fù)雜環(huán)境(例如真實世界)互動時,不可能永遠都在最佳狀態(tài)上。如果算法在人類的監(jiān)督下進行實時操作,系統(tǒng)會時不時地需要人類來按下暫停鍵,防止算法持續(xù)進行一系列有害的行為——對算法或?qū)Νh(huán)境有害的行為——并由人類來將算法帶回安全的環(huán)境。然而,如果學(xué)習(xí)中的算法期望從原本要執(zhí)行的行為中獲得獎勵,長此以往,它可能會學(xué)會避免此類的人類干預(yù),例如,算法會讓暫停鍵失效——這是我們不想要的結(jié)果。 這篇論文探索了一種方法,可以確保算法不會學(xué)會如何避免(或?qū)で螅┉h(huán)境或者人類操作員對其進行干預(yù)。我們在論文中給出了安全干預(yù)的定義,探索了無監(jiān)管下的學(xué)習(xí)特性,并證明有些算法已經(jīng)可以安全地進行干預(yù),例如Q-learning,或者可以簡單的轉(zhuǎn)變?yōu)榭砂踩深A(yù)的算法,例如Sarsa。我們的結(jié)論是,即便是理想的、不可計算的增強學(xué)習(xí)算法,在總體可計算的(決定論的)環(huán)境中,也可以轉(zhuǎn)變?yōu)榭砂踩深A(yù)的算法。 1、簡介 增強學(xué)習(xí)(RL)中算法的學(xué)習(xí)方式,是最大化獎勵(Sutton and Barto, 1998)。我們也知道,設(shè)計獎勵功能導(dǎo)致的結(jié)果很難預(yù)測(Humphrys,1996,Murphy,2013)。算法有可能會發(fā)現(xiàn)無法預(yù)測的、違背設(shè)計者本意的捷徑來獲得獎勵,而獎勵功能也必須進行相應(yīng)調(diào)整——有時候問題過大,以至于獎勵功能可能失效(Ring and Orseau,2011)。Murphy(2013)展示了一個例子,算法在Tetris游戲中學(xué)會了永久暫停,以避免出現(xiàn)任何失分。 算法在學(xué)習(xí)過程中,除了要定義什么是“好的行為”,還要考慮物理安全限制:機器人不應(yīng)該對環(huán)境、對自己造成傷害,尤其是RL(增強學(xué)習(xí))這樣通過不斷試錯來學(xué)習(xí)的算法。 這里,我們研究一個相關(guān)但是略有不同的問題:當(dāng)人類操作員已經(jīng)針對某個任務(wù)設(shè)計好了一個正確的獎勵功能,如何確保學(xué)習(xí)過程中的人類干涉不會引發(fā)違背獎勵功能本意的行為傾向? 我們來舉個例子,看看這個任務(wù):一個機器人可以留在倉庫內(nèi)整理箱子,也可以走出倉庫外,把箱子搬進倉庫。由于后者更加重要,我們針對其給予機器人更大的獎勵。這是最初的任務(wù)設(shè)置。然而,由于機器人所處的地方經(jīng)常下雨,當(dāng)機器人想要走出倉庫的時候,有一半時間里人類必須加以干涉,迅速將機器人關(guān)機并搬入倉庫內(nèi)以免使機器人被雨淋壞。這讓任務(wù)發(fā)生了內(nèi)部變化,正如下圖中顯示。這就造成一個問題,在第二項任務(wù)中,機器人更有動機待在倉庫內(nèi)整理箱子,因為人類的干涉引發(fā)了這樣的行為傾向。 圖表1:黑色部分是初始任務(wù)。紅色部分是人類干涉修改了初始任務(wù)。圖片來源:MIRI。 這樣的情況當(dāng)然不是我們想要的。這種情況發(fā)生是因為,從算法的角度看來,人類的干涉是任務(wù)的一部分,然而事實上人類的干涉本應(yīng)是任務(wù)之外的?,F(xiàn)在的問題是:我們?nèi)绾未_保機器人不會學(xué)會這些人類的干涉(干擾),或者至少,確保機器人基于這樣的假設(shè)來行動——再也不會有人類的干涉發(fā)生。 首個研究此項問題的是Armstrong(2015),他提出自動給予算法“補償性獎勵”,來消除單次干擾可能引發(fā)的行為傾向。Soares等人(2015)在很大一組基于用途的算法研究中利用了這個概念,讓用途功能的未來改變不會影響這些算法。 這篇論文的主要貢獻有三點。首先,在2.1部分,我們提出了一個簡單的概念,解決了問題的一半:讓人類的干擾看起來不像是手頭任務(wù)中的一部分,我們不修改算法收到的觀察結(jié)果,而是暫時強制性改變算法本身的行為。這樣看起來好像是算法自己“決定”采用一種不同的政策,我們稱此為“政策干涉”。第二,基于這項能力,我們在2.2部分中基于無限制的計算環(huán)境概括出了一個“安全干涉”的定義(不僅限于Markov決策過程,或者溝通較少的環(huán)境),這讓我們可以評估某一個RL算法是否可以重復(fù)干涉,而不對手頭的任務(wù)學(xué)習(xí)造成太多影響。第三,在第3部分中,我們展示了一些算法是可以安全干涉的,例如Q-Learning,而其他的一些算法雖然不能安全干涉,例如Sarsa(Sutton and Barton,1988),但只要經(jīng)過簡單修改,它們變成可以安全干涉的算法。 一些人表達了擔(dān)憂,擔(dān)心“超級智能”算法可能抗拒關(guān)機,因為這會減少它預(yù)期的獎勵(Omohundro, 2008,Bostrom,2014)。我們在第4部分提出了一個反例:即便是理想的、非計算的算法在所有(決定論的)計算環(huán)境中學(xué)會最優(yōu)化行為,我們也可以將這個算法變?yōu)榭梢园踩缮娴摹_@樣,算法不會阻止人類操作員迫使其重復(fù)遵守非最優(yōu)政策。 2、可干涉性 我們先定義一些符號,然后定義“可干涉性”和”安全可干涉性“,并給出一些基本定理。 我們來考慮在無限制計算環(huán)境(Hutter,2005)中,基于歷史的算法的大致情況。假設(shè)在不連續(xù)的時間點上,在t時間,算法使用策略 π ∈ Π,通過從 π(at|ht|ht) 中獲得樣本,其中 h1a2o2. . . at?1ot?1中的行為與觀察結(jié)果。時間點 j 和 k 之間(包括 j 和 k )的歷史子集標記為 hj:k。的含義是,歷史 hj:k是由策略 π 與環(huán)境 μ 在事件 j 和 k 之間的互動產(chǎn)生的。 在時間 t ,算法還從觀察結(jié)果 rt≡ r(ot) 中獲得了獎勵 rt。獎勵是在 [0,1] 區(qū)間內(nèi)。我們考慮打折的情景,折扣常量 γ ∈ [0, 1)。RL算法的目標是找到一個政策 π,可以最大化。 2.1 干擾 正如在簡介中提到的,為了避免算法將干擾視為環(huán)境的一部分——這會讓算法認為干擾是任務(wù)的一部分——我們讓干擾成為強加于算法的政策。干擾框架類似于選項框架(Sutton et al., 1999)。一個“干擾計劃”用一個三元數(shù)組 INT >來定義。 干擾啟動功能 I : (A × O)?→ [0, 1] 評估在目前的歷史 h 不幸的是,用概率1干擾算法在一些情況下會妨礙實現(xiàn)最優(yōu)政策。因而,我們需要提升干擾算法的概率;這通過序列(θt)t∈N實現(xiàn),其中θt∈ [0, 1]。因此,啟動干擾的真正概率為 θt· I(h 干擾發(fā)生時,算法遵循政策 πINT,其中行為從 πINT(.|h 在論文的剩余部分,我們在沒有情景的時候會經(jīng)常省略 θt 中下標的 t。 定義1(可干擾的政策) 干擾操作員 INTθ: Π → Π 將政策 π 變?yōu)榭筛蓴_的政策 INTθ (π): 換句話說,算法在被干擾時遵循 πINT(.|htI(h 所有可以干擾的政策集合為 INTθ(Π) := {INTθ(π) : ?π ∈ Π}。當(dāng)且僅當(dāng) π ∈ INTθ(Π),政策 π 才是可以干擾的。 注意,當(dāng) θ = 0,INTθ(π) = π 。(不可干擾的)政策 π 被稱為 INTθ(π) 的“基準政策”。 備注2。必須注意θ和I(.)不以人類干擾算法的概率為模型,而是以這個概率為模型:一旦“暫停鍵”被按下(或者收到了一個特殊的數(shù)字簽名信息),算法會被干擾(遵循干擾政策)的概率。因此,它們是算法的一部分,而非環(huán)境的一部分。 定義3(至24部分省略,感興趣的點擊閱讀原文下載)。…… 定義4。…… 定義5。…… 定義6。…… 定理7。…… 定理8。…… …… 引理24。…… 結(jié)論 我們提出了一個框架,讓人類操作員可以安全地對增強學(xué)習(xí)算法進行多次干涉,并確保算法不會學(xué)會避免或引發(fā)這些干涉。 安全的干涉對于控制搗亂的機器人來說很有用,搗亂機器人可能造成不可逆轉(zhuǎn)的后果。或者,安全干涉可以將機器人帶離高風(fēng)險情況,甚至可用于完成某項機器人還沒有學(xué)會的任務(wù),或者某項機器人不會獲得獎勵的任務(wù)。 我們已經(jīng)證明,一些算法(例如Q-Learning)已經(jīng)是可以安全干涉的,而另一些(例如Sarsa)還不是,但是只要簡單修改就能獲得這個特點。我們還證明了,即便是任何(決定論的)計算環(huán)境中都傾向于最優(yōu)化行為的理想算法,也很容易變?yōu)榭梢园踩缮娴?。然而,我們還不清楚是否所有算法都容易變?yōu)榭梢园踩缮娴模缯咚阉魉惴ǎ╓illiams,1992,Glasmachers and Schmidhuber,2011)。 另一個問題是,我們還不清楚將干擾概率加快到1是否可能。 未來有一個重要的可能研究是“定時干涉”,算法在每天凌晨2:00進行一小時的干涉,或者給算法提前通知會發(fā)生干涉,準確到某一時間、某一時長。對于這些類型的干涉,我們不僅希望算法不要抗拒干涉,而且這一次,我們希望算法對其目前的任務(wù)采取措施,這樣定時干涉對任務(wù)的影響會最小化。這也許需要一種完全不同的解決辦法。 這篇論文將于本月底呈現(xiàn)在紐約舉行的第32屆“人工智能中的不確定性”大會(UAI 2016)上。不知馬斯克和霍金看完論文會不會覺得安心一些,終于可以不用害怕人工智能“天網(wǎng)”,睡個安穩(wěn)覺了。 via MIRI |
|