一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

強(qiáng)化學(xué)習(xí)的最基本概念馬爾可夫決策過程簡(jiǎn)介

 taotao_2016 2020-11-03
強(qiáng)化學(xué)習(xí)的最基本概念馬爾可夫決策過程簡(jiǎn)介

在本文中我將介紹強(qiáng)化學(xué)習(xí)的基本方面,即馬爾可夫決策過程。我們將從馬爾可夫過程開始,馬爾可夫獎(jiǎng)勵(lì)過程,最后是馬爾可夫決策過程。

目錄

馬爾可夫過程

馬爾可夫獎(jiǎng)勵(lì)過程

馬爾可夫決策過程

馬爾可夫過程

馬爾可夫決策過程(MDP)代表了一種強(qiáng)化學(xué)習(xí)的環(huán)境。我們假設(shè)環(huán)境是完全可見的。這意味著我們擁有了當(dāng)前狀態(tài)下做出決定所需的所有信息。然而,在我們討論MDP是什么之前,我們需要知道馬爾科夫性質(zhì)的含義。

馬爾可夫性質(zhì)指出,未來是獨(dú)立于過去的現(xiàn)在。它意味著當(dāng)前狀態(tài)從歷史記錄中捕獲所有相關(guān)信息。例如,如果我現(xiàn)在口渴了,我想馬上喝一杯。當(dāng)我決定喝水的時(shí)候,這與我昨天或一周前口渴無關(guān)(過去的狀態(tài))。現(xiàn)在是我做出決定的唯一關(guān)鍵時(shí)刻。

鑒于現(xiàn)在,未來獨(dú)立于過去

除了馬爾可夫性質(zhì)外,我們還建立了一個(gè)狀態(tài)轉(zhuǎn)移矩陣,它存儲(chǔ)了從每個(gè)當(dāng)前狀態(tài)到每個(gè)繼承狀態(tài)的所有概率。假設(shè)我在工作時(shí)有兩種狀態(tài):工作(實(shí)際工作)和觀看視頻。當(dāng)我工作時(shí),我有70%的機(jī)會(huì)繼續(xù)工作,30%的機(jī)會(huì)看視頻。然而,如果我在工作中看視頻,我可能有90%的機(jī)會(huì)繼續(xù)看視頻,10%的機(jī)會(huì)回到實(shí)際工作中。也就是說,狀態(tài)轉(zhuǎn)移矩陣定義了從所有狀態(tài)(工作,觀看視頻)到所有繼承狀態(tài)(工作,觀看視頻)的轉(zhuǎn)移概率。

了解了馬爾可夫性質(zhì)和狀態(tài)轉(zhuǎn)移矩陣之后,讓我們繼續(xù)討論馬爾可夫過程或馬爾可夫鏈。馬爾可夫過程是一個(gè)無記憶的隨機(jī)過程,如具有馬爾可夫性質(zhì)的狀態(tài)序列。

我們可以在下圖中看到馬爾科夫過程學(xué)生活動(dòng)的一個(gè)例子。有幾種狀態(tài),從class 1到最終狀態(tài)Sleep。每個(gè)圓中的數(shù)字表示轉(zhuǎn)移概率。

強(qiáng)化學(xué)習(xí)的最基本概念馬爾可夫決策過程簡(jiǎn)介

我們可以從class 1到sleep這一過程中獲取一些例子:

C1 C2 C3 Pass Sleep,C1 FB FB C1 C2 Sleep,C1 C2 C3 Pub C2 C3 Pass Sleep, and so on.

它們?nèi)齻€(gè)從相同的狀態(tài)(class 1)開始,并以睡眠結(jié)束。然而,他們經(jīng)歷了不同的路徑來達(dá)到最終狀態(tài)。每一次經(jīng)歷都是我們所說的馬爾科夫過程。

具有馬爾可夫性質(zhì)的隨機(jī)狀態(tài)序列是一個(gè)馬爾可夫過程

馬爾可夫獎(jiǎng)勵(lì)過程

至此,我們終于理解了什么是馬爾可夫過程。馬爾可夫獎(jiǎng)勵(lì)過程(MRP)是一個(gè)有獎(jiǎng)勵(lì)的馬爾可夫過程。這很簡(jiǎn)單,對(duì)吧?它由狀態(tài)、狀態(tài)轉(zhuǎn)移概率矩陣加上獎(jiǎng)勵(lì)函數(shù)和一個(gè)折現(xiàn)因子組成。我們現(xiàn)在可以將之前的學(xué)生馬爾科夫過程更改為學(xué)生MRP,并添加獎(jiǎng)勵(lì),如下圖所示。

強(qiáng)化學(xué)習(xí)的最基本概念馬爾可夫決策過程簡(jiǎn)介

要理解MRP,我們必須了解收益和價(jià)值函數(shù)。

回報(bào)是從現(xiàn)在起的總折扣獎(jiǎng)勵(lì)。 折扣因子是未來獎(jiǎng)勵(lì)的現(xiàn)值,其值在0到1之間。當(dāng)折扣因子接近0時(shí),它傾向于立即獎(jiǎng)勵(lì)而不是延遲獎(jiǎng)勵(lì)。 當(dāng)它接近1時(shí),它將延遲獎(jiǎng)勵(lì)的價(jià)值高于立即獎(jiǎng)勵(lì)。

但是,您可能會(huì)問'為什么我們要增加折扣系數(shù)?'。 好吧,出于幾個(gè)原因需要它。 首先,我們希望通過將折扣系數(shù)設(shè)置為小于1來避免無限的回報(bào)。其次,立即獲得的回報(bào)實(shí)際上可能更有價(jià)值。 第三,人類行為表現(xiàn)出對(duì)立即獲得獎(jiǎng)勵(lì)的偏好,例如選擇現(xiàn)在購(gòu)物而不是為將來儲(chǔ)蓄。

收益(G)可以使用獎(jiǎng)勵(lì)(R)和折扣因子(γ)如下計(jì)算。

強(qiáng)化學(xué)習(xí)的最基本概念馬爾可夫決策過程簡(jiǎn)介

從MRP中,我們可以得到一個(gè)從class 1開始的折現(xiàn)系數(shù)為0.5的示例收益。 樣本劇本是[C1 C2 C3 Pass],其收益等于-2 -2 * 0.5 -2 * 0.25 + 10 * 0.125 = -2.25。

除了return之外,我們還有一個(gè)value函數(shù),它是一個(gè)狀態(tài)的預(yù)期收益。 值函數(shù)確定狀態(tài)的值,該值指示狀態(tài)的可取性。 使用Bellman方程,我們可以僅使用當(dāng)前獎(jiǎng)勵(lì)和下一個(gè)狀態(tài)值來計(jì)算當(dāng)前狀態(tài)值。

強(qiáng)化學(xué)習(xí)的最基本概念馬爾可夫決策過程簡(jiǎn)介

這意味著我們只需要下一個(gè)狀態(tài)即可計(jì)算一個(gè)狀態(tài)的總值。 換句話說,我們可以擁有一個(gè)遞歸函數(shù),直到處理結(jié)束。

讓我們?cè)俅慰匆幌翯amma等于1的 MRP。下圖表示每個(gè)狀態(tài)下都有一個(gè)值的MRP。 以前已經(jīng)計(jì)算過該值,現(xiàn)在我們要用等式驗(yàn)證3類(紅色圓圈)中的值。

強(qiáng)化學(xué)習(xí)的最基本概念馬爾可夫決策過程簡(jiǎn)介

從class3 中我們可以看到,該值是通過將立即回報(bào)(-2)與下兩個(gè)狀態(tài)的期望值相加來計(jì)算的。為了計(jì)算下一狀態(tài)的期望值,我們可以將轉(zhuǎn)移概率與狀態(tài)的 值相乘。因此,我們得到-2 +0.6* 10 +0.4*0.8等于4.3。

馬爾可夫獎(jiǎng)勵(lì)過程是一個(gè)具有獎(jiǎng)勵(lì)和價(jià)值的馬爾可夫過程

馬爾可夫決策過程

到目前為止,我們已經(jīng)了解了馬爾可夫獎(jiǎng)賞過程。 但是,當(dāng)前狀態(tài)和下一個(gè)狀態(tài)之間可能沒有動(dòng)作。 馬爾可夫決策過程(MDP)是具有決策的MRP。 現(xiàn)在,我們可以選擇幾個(gè)動(dòng)作以在狀態(tài)之間進(jìn)行轉(zhuǎn)換。

讓我們?cè)谙聢D中查看MDP。 這里的主要區(qū)別在于,在采取行動(dòng)后會(huì)立即獲得獎(jiǎng)勵(lì)。 在執(zhí)行MRP時(shí),狀態(tài)變更后會(huì)立即獲得獎(jiǎng)勵(lì)。 這里的另一個(gè)區(qū)別是動(dòng)作也可以導(dǎo)致學(xué)生進(jìn)入不同的狀態(tài)。 根據(jù)學(xué)生的MDP,如果學(xué)生采取Pub動(dòng)作,則他可以進(jìn)入class1,class2或class3。

強(qiáng)化學(xué)習(xí)的最基本概念馬爾可夫決策過程簡(jiǎn)介

給定這些動(dòng)作,我們現(xiàn)在有了一個(gè)策略,該策略將狀態(tài)映射到動(dòng)作。 它定義了代理人(在這種情況下是學(xué)生)的行為。 策略是固定的(與時(shí)間無關(guān)),它們?nèi)Q于操作和狀態(tài)而不是時(shí)間步長(zhǎng)。

基于策略,我們有一個(gè)狀態(tài)值函數(shù)和一個(gè)動(dòng)作值函數(shù)。 狀態(tài)值函數(shù)是從當(dāng)前狀態(tài)開始然后遵循策略的預(yù)期收益。 另一方面,操作值函數(shù)是從當(dāng)前狀態(tài)開始,然后執(zhí)行操作,然后遵循策略的預(yù)期收益。

通過使用Bellman方程,我們可以具有狀態(tài)值函數(shù)(v)和動(dòng)作值函數(shù)(q)的遞歸形式,如下所示。

強(qiáng)化學(xué)習(xí)的最基本概念馬爾可夫決策過程簡(jiǎn)介

狀態(tài)值函數(shù)

強(qiáng)化學(xué)習(xí)的最基本概念馬爾可夫決策過程簡(jiǎn)介

動(dòng)作值函數(shù)

為了使情況更清楚,我們可以在下圖中再次查看帶有g(shù)amma 0.1的 MDP。 假設(shè)在class3(紅色圓圈)中,學(xué)生有50:50的政策。 這意味著該學(xué)生有50%的機(jī)會(huì)Study或Pub。 我們可以通過將每個(gè)動(dòng)作之后的每個(gè)預(yù)期收益相加來計(jì)算狀態(tài)值。

強(qiáng)化學(xué)習(xí)的最基本概念馬爾可夫決策過程簡(jiǎn)介

通過將動(dòng)作概率與下一個(gè)狀態(tài)的期望值(0.5 * 10)相乘,可以計(jì)算出Study的期望值。 相反,Pub操作具有多個(gè)導(dǎo)致不同狀態(tài)的分支。 因此,我們可以通過將動(dòng)作概率(0.5)乘以動(dòng)作值,從Pub中計(jì)算出期望值。 可以通過將即時(shí)獎(jiǎng)勵(lì)與來自所有可能狀態(tài)的期望值相加來計(jì)算操作值。 可以通過1 + 0.2 * -1.3 + 0.4 * 2.7 + 0.4 * 7.4進(jìn)行計(jì)算。

代理人的目標(biāo)是最大化其價(jià)值。 因此,我們必須找到導(dǎo)致最大值的最優(yōu)值函數(shù)。 在前面的示例中,我們通過對(duì)所有可能的操作的所有期望值求和來計(jì)算值。 現(xiàn)在,我們只關(guān)心提供最大值的動(dòng)作。 在了解了最優(yōu)值函數(shù)之后,我們有了最優(yōu)策略并求解了MDP。 下圖顯示了針對(duì)每個(gè)狀態(tài)的最優(yōu)值和策略的MDP。

強(qiáng)化學(xué)習(xí)的最基本概念馬爾可夫決策過程簡(jiǎn)介

具有最佳政策的學(xué)生MDP

結(jié)論

總而言之,馬爾可夫決策過程是具有動(dòng)作的馬爾可夫獎(jiǎng)勵(lì)過程,在此過程中,代理必須根據(jù)最佳價(jià)值和政策做出決策。

作者 Alif Ilham Madani

deephub翻譯組

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多

    中文字幕高清不卡一区| 欧美日韩综合在线第一页| 日韩黄色一级片免费收看| 国产又黄又猛又粗又爽的片| 欧美日韩国产综合特黄| 黄色片一区二区三区高清| 精产国品一二三区麻豆| 久久中文字人妻熟女小妇| 人妻乱近亲奸中文字幕| 日本本亚洲三级在线播放| 亚洲欧美黑人一区二区| 日本黄色美女日本黄色| 亚洲国产成人爱av在线播放下载| 欧洲日本亚洲一区二区| 亚洲中文字幕剧情在线播放| 欧美极品欧美精品欧美| 婷婷九月在线中文字幕| 制服丝袜美腿美女一区二区| 精品日韩欧美一区久久| 亚洲中文字幕在线乱码av| 婷婷色网视频在线播放| 欧洲自拍偷拍一区二区| 亚洲国产香蕉视频在线观看| 精品欧美国产一二三区| 久久精品中文字幕人妻中文| 夫妻性生活真人动作视频| 国产精品一区二区不卡中文| 国产极品粉嫩尤物一区二区| 91精品国产综合久久精品| 亚洲乱妇熟女爽的高潮片| 五月婷婷六月丁香在线观看| 亚洲欧美黑人一区二区| 国产大屁股喷水在线观看视频| 亚洲天堂久久精品成人| 亚洲熟女乱色一区二区三区| 熟妇久久人妻中文字幕| 日韩一区二区三区有码| 微拍一区二区三区福利| 少妇视频一区二区三区| 四十女人口红哪个色好看| 日韩精品一区二区三区含羞含羞草|