一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

強(qiáng)化學(xué)習(xí)的線性代數(shù)

 taotao_2016 2020-07-06

線性代數(shù)的基本原理如何支持深度強(qiáng)化學(xué)習(xí)?答案是解決了馬爾可夫決策過(guò)程時(shí)的迭代更新。

強(qiáng)化學(xué)習(xí)(RL)是一系列用于迭代性學(xué)習(xí)任務(wù)的智能方法。由于計(jì)算機(jī)科學(xué)是一個(gè)計(jì)算領(lǐng)域,這種學(xué)習(xí)發(fā)生在狀態(tài)向量、動(dòng)作等以及轉(zhuǎn)移矩陣上。狀態(tài)和向量可以采用不同的形式。當(dāng)我們考慮通過(guò)某個(gè)線性系統(tǒng)傳遞一個(gè)向量變量,并得到一個(gè)類似的輸出時(shí),應(yīng)該想到特征值。

強(qiáng)化學(xué)習(xí)的線性代數(shù)
強(qiáng)化學(xué)習(xí)的線性代數(shù)

本文將指導(dǎo)你理解在RL環(huán)境中解決任務(wù)的迭代方法(收斂到最優(yōu)策略)。這個(gè)基礎(chǔ)將反映一個(gè)系統(tǒng)的特征向量和特征值。

回顧馬爾科夫決策過(guò)程

馬爾可夫決策過(guò)程(MDPs)是支持強(qiáng)化學(xué)習(xí)(RL)的隨機(jī)模型。如果你熟悉,你可以跳過(guò)這一部分。

定義

  • 狀態(tài)集$s\in S。狀態(tài)是代理程序所有可能的位置。
  • 一組動(dòng)作。動(dòng)作是代理可以采取的所有可能動(dòng)作的集合。
  • 轉(zhuǎn)移函數(shù)T(s,a,s')。T(s,a,s')保持MDP的不確定性。給定當(dāng)前位置和給定動(dòng)作,T決定下一個(gè)狀態(tài)出現(xiàn)的頻率。
  • 獎(jiǎng)勵(lì)函數(shù)R(s,a,s')。最大化報(bào)酬總額是任何代理的目標(biāo)。此函數(shù)說(shuō)明每個(gè)步驟可獲得多少獎(jiǎng)勵(lì)。通常,為鼓勵(lì)快速解決方案,每個(gè)步驟都會(huì)有少量的負(fù)獎(jiǎng)勵(lì)(成本),而在最終狀態(tài)下會(huì)有較大的正面(成功的任務(wù))或負(fù)面(失敗的任務(wù))獎(jiǎng)勵(lì)。
  • 開(kāi)始狀態(tài)s0,也許是結(jié)束狀態(tài)。

重要的屬性

MDP有兩個(gè)重要的屬性,狀態(tài)的 「值」 和隨機(jī)節(jié)點(diǎn)的 「q值」

  • 狀態(tài)值:狀態(tài)值是從狀態(tài)開(kāi)始的獎(jiǎng)勵(lì)的最優(yōu)遞歸和。如果機(jī)器人在火坑里,在寶石旁邊,或者在沙發(fā)上,狀態(tài)值會(huì)有很大的不同。
  • 「狀態(tài)-動(dòng)作對(duì)」(state- action pair)的q值:q值是與狀態(tài)-動(dòng)作對(duì)相關(guān)的折扣獎(jiǎng)勵(lì)的最優(yōu)和。一個(gè)狀態(tài)的q值是由一個(gè)動(dòng)作決定的,所以如果方向指向火坑的內(nèi)部或外部,q值會(huì)有很大的變化!

這兩個(gè)值通過(guò)通過(guò)相互遞歸和Bellman更新相關(guān)聯(lián)。

Bellman 更新

Richard E. Bellman是一位數(shù)學(xué)家,奠定了現(xiàn)代控制和優(yōu)化理論的基礎(chǔ)。通過(guò)recursive one-step方程、Bellman更新方程,可以有效地求解大型優(yōu)化問(wèn)題。通過(guò)遞歸Bellman更新,可以用動(dòng)態(tài)規(guī)劃建立優(yōu)化或控制問(wèn)題,這是一個(gè)創(chuàng)建更小、更易于計(jì)算處理的問(wèn)題的過(guò)程。這個(gè)過(guò)程遞歸地從終點(diǎn)開(kāi)始。

強(qiáng)化學(xué)習(xí)的線性代數(shù)
  1. 「Bellman方程」:用動(dòng)態(tài)規(guī)劃公式化。
  2. 「動(dòng)態(tài)規(guī)劃」:通過(guò)將優(yōu)化問(wèn)題分解成最優(yōu)子結(jié)構(gòu)來(lái)簡(jiǎn)化優(yōu)化問(wèn)題的過(guò)程。

在強(qiáng)化學(xué)習(xí)中,我們使用Bellman更新過(guò)程來(lái)求解狀態(tài)-動(dòng)作空間的最優(yōu)值和q值。這是從一個(gè)從給定的位置最終形成的預(yù)期未來(lái)獎(jiǎng)勵(lì)總和。

在這里,我們可以看到的所有公式。符號(hào)(*)表示最優(yōu)的。公式有最佳動(dòng)作決定的狀態(tài)值,和一個(gè)q狀態(tài)。求和平衡了訪問(wèn)T(s,a,s')中的任何狀態(tài)轉(zhuǎn)移的概率和任何轉(zhuǎn)移R(s,a,s')的獎(jiǎng)勵(lì),從而為狀態(tài)操作空間的值創(chuàng)建一個(gè)全局映射。

強(qiáng)化學(xué)習(xí)的線性代數(shù)

這里的關(guān)鍵點(diǎn)是我們用矩陣(R, T)乘以向量(V,U)來(lái)迭代地求出。這些值將從任何初始狀態(tài)收斂,因?yàn)橐粋€(gè)狀態(tài)的值是由它們的近鄰s決定的(馬爾科夫)。

與強(qiáng)化學(xué)習(xí)的關(guān)系

以上這都是強(qiáng)化學(xué)習(xí)的內(nèi)容,我斷言理解算法所基于的假設(shè)和模型將比僅僅復(fù)制OpenAI中的python教程為你提供更好的基礎(chǔ)。我指導(dǎo)過(guò)很多學(xué)生在RL工作,那些做得更多的人總是那些知道正在發(fā)生什么,然后知道如何應(yīng)用它的人。

也就是說(shuō),這離在線q-learning只有一步之遙,在在線q-learning中,我們用T和R的樣本來(lái)進(jìn)行Bellman更新,而不是顯式地在方程中使用它們。Q-learning是在2015年解決Atari游戲等問(wèn)題的著名算法。

線性代數(shù)

特征值

回想一下,系統(tǒng)A的一個(gè)特征值-特征向量對(duì)(λ,u)是一個(gè)標(biāo)量和向量,公式如下

強(qiáng)化學(xué)習(xí)的線性代數(shù)

特征值和特征向量的好處在于,每個(gè)向量都可以寫(xiě)成其他特征向量的組合。然后,在離散系統(tǒng)中特征向量控制從無(wú)論什么初始狀態(tài)的演化,因?yàn)槿魏纬跏枷蛄靠梢越M合成特征向量的線性組合。

隨機(jī)矩陣和馬爾可夫鏈

MDPs與馬爾科夫鏈非常接近,但在結(jié)構(gòu)上與馬爾科夫鏈并不相同。馬爾可夫鏈?zhǔn)怯赊D(zhuǎn)移矩陣P決定的。概率矩陣的作用類似于對(duì)動(dòng)作求和的轉(zhuǎn)移矩陣T(s,a,s')。在馬爾可夫鏈中,下一個(gè)狀態(tài)由:

強(qiáng)化學(xué)習(xí)的線性代數(shù)

這個(gè)矩陣P有一些特殊的值,你可以看到,這是一個(gè)特征值等于1的特征值方程。為了得到一個(gè)特征值等于1的矩陣,所有的列之和必須等于1。

我們現(xiàn)在在RL中尋找的是,我們的解的演化如何與概率分布的收斂相關(guān)?我們通過(guò)為V 和Q 制定線性算子(矩陣)的迭代運(yùn)算符B。我們使用的值和q值的向量而不是特征向量,他們會(huì)收斂于特征向量,所以可以看出特征向量實(shí)際控制了整個(gè)系統(tǒng)。

強(qiáng)化學(xué)習(xí)的線性代數(shù)

B,像一個(gè)線性變換的特征向量,特征值λ= 1。

強(qiáng)化學(xué)習(xí)的線性代數(shù)
強(qiáng)化學(xué)習(xí)的線性代數(shù)
強(qiáng)化學(xué)習(xí)的線性代數(shù)

任何初值分布都收斂于特征空間的形狀。這個(gè)例子并沒(méi)有顯示Bellman更新的確切特征值,但是當(dāng)這些值遞歸更新時(shí),圖片顯示了空間的形狀是如何演變的。一開(kāi)始,這些值是完全未知的,但是隨著學(xué)習(xí)的出現(xiàn),這些已知的值會(huì)逐漸收斂,以與系統(tǒng)完全匹配。

Bellman更新

到目前為止,我們知道如果我們可以用更簡(jiǎn)單的形式表示Bellman更新,那么將會(huì)出現(xiàn)一個(gè)方便的結(jié)構(gòu)。我們?nèi)绾螌的更新表示為一個(gè)簡(jiǎn)單的更新方程?我們從一個(gè)q迭代方程開(kāi)始。

MDP的Q-迭代.

要實(shí)現(xiàn)這種轉(zhuǎn)變,需要幾個(gè)小步驟。

強(qiáng)化學(xué)習(xí)的線性代數(shù)

這樣就將我們的系統(tǒng)移向一個(gè)線性算子(矩陣)

i)讓我們把一些術(shù)語(yǔ)重新表述為一般形式

更新的前半部分,R和T的總和,是一個(gè)明確的獎(jiǎng)勵(lì)數(shù)字;我們稱之為R(s),接下來(lái),我們將轉(zhuǎn)換的總和轉(zhuǎn)換為一個(gè)概率矩陣(和一個(gè)馬爾可夫矩陣匹配,非常方便)。此外,這將導(dǎo)致下一步,U的生成。

強(qiáng)化學(xué)習(xí)的線性代數(shù)

ii)讓我們把它變成一個(gè)向量方程。

我們最感興趣的是MDP的U是如何繼續(xù)演進(jìn)的。U隱含著值或q值。我們可以簡(jiǎn)單地把Q改寫(xiě)成U,而不需要做太多改變,但這意味著我們假設(shè)的策略是固定的。

強(qiáng)化學(xué)習(xí)的線性代數(shù)

重要的是要記住,即使對(duì)于一個(gè)多維的物理系統(tǒng)——如果我們將所有測(cè)量到的狀態(tài)疊加成一個(gè)長(zhǎng)數(shù)組,狀態(tài)的U也是一個(gè)向量。一個(gè)固定的策略不會(huì)改變收斂性,它只是意味著我們必須重新訪問(wèn)它來(lái)學(xué)習(xí)如何迭代地獲得一個(gè)策略。

iii)假設(shè)策略是固定的

如果你假設(shè)一個(gè)固定的策略,那么a的最大值就消失了。最大化算符明顯是非線性的,但是在線性代數(shù)中有一些形式是特征向量加上一個(gè)額外的向量(廣義特征向量)。

強(qiáng)化學(xué)習(xí)的線性代數(shù)

上面的這個(gè)等式是關(guān)于U的Bellman更新的一般形式。我們想要一個(gè)線性算子B,然后我們可以看到這是一個(gè)特征值演化方程。它看起來(lái)有點(diǎn)不同,但這是我們最終想要的形式,減去幾個(gè)線性代數(shù)斷言,所以我們有了Bellman更新。

強(qiáng)化學(xué)習(xí)的線性代數(shù)

?

在計(jì)算上,我們可以得到我們想要的特征向量,因?yàn)樵谶@個(gè)過(guò)程中所做的假設(shè),所以在分析上這樣做是有挑戰(zhàn)性的,

?

強(qiáng)化學(xué)習(xí)的線性代數(shù)

結(jié)尾

線性算子向你展示了某些離散的線性系統(tǒng)是如何推導(dǎo)的——而我們?cè)趶?qiáng)化學(xué)習(xí)中使用的環(huán)境就是遵循這種結(jié)構(gòu)。

我們收集的數(shù)據(jù)的特征值和特征向量可以表示一個(gè)RL問(wèn)題的潛在值空間。

變量替換、線性變換、在線q-learning(而不是這里的q-iteration)中的擬合,以及更多的細(xì)節(jié)將在以后的文章中討論。

作者 | Nathan Lambert

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多

    久久少妇诱惑免费视频| 韩国日本欧美国产三级| 男女激情视频在线免费观看| 精品少妇人妻av免费看| 久久精视频免费视频观看| 99久久精品午夜一区| 99久久国产精品免费| 成人国产一区二区三区精品麻豆| 在线视频免费看你懂的| 视频在线播放你懂的一区| 91精品国产av一区二区| 国产精品欧美在线观看| 蜜桃臀欧美日韩国产精品| 色婷婷丁香激情五月天| 中国美女草逼一级黄片视频| 日韩精品亚洲精品国产精品| 九九热视频经典在线观看| 成人午夜视频在线播放| 日本一本在线免费福利| 午夜精品在线视频一区| 日韩精品免费一区二区三区| 国产又猛又大又长又粗| 中日韩美女黄色一级片| 中文字幕一区二区免费| 欧美成人免费夜夜黄啪啪| 日本人妻的诱惑在线观看| 在线欧美精品二区三区| 中文字幕亚洲精品乱码加勒比| 中文字日产幕码三区国产| 亚洲欧美中文字幕精品| 亚洲综合色在线视频香蕉视频| 国产成人国产精品国产三级| 国内精品一区二区欧美| 国产午夜精品久久福利| 国产在线一区二区免费| 98精品永久免费视频| 久久黄片免费播放大全 | 丰满少妇被猛烈插入在线观看| 午夜精品麻豆视频91| 在线懂色一区二区三区精品| 国产又粗又长又大的视频|