強(qiáng)化學(xué)習(xí)的最基本概念馬爾可夫決策過程簡(jiǎn)介

taotao_2016 2020-11-03

展開全文

強(qiáng)化學(xué)習(xí)的最基本概念馬爾可夫決策過程簡(jiǎn)介

在本文中我將介紹強(qiáng)化學(xué)習(xí)的基本方面，即馬爾可夫決策過程。我們將從馬爾可夫過程開始，馬爾可夫獎(jiǎng)勵(lì)過程，最后是馬爾可夫決策過程。

馬爾可夫過程

馬爾可夫決策過程(MDP)代表了一種強(qiáng)化學(xué)習(xí)的環(huán)境。我們假設(shè)環(huán)境是完全可見的。這意味著我們擁有了當(dāng)前狀態(tài)下做出決定所需的所有信息。然而，在我們討論MDP是什么之前，我們需要知道馬爾科夫性質(zhì)的含義。

馬爾可夫性質(zhì)指出，未來是獨(dú)立于過去的現(xiàn)在。它意味著當(dāng)前狀態(tài)從歷史記錄中捕獲所有相關(guān)信息。例如，如果我現(xiàn)在口渴了，我想馬上喝一杯。當(dāng)我決定喝水的時(shí)候，這與我昨天或一周前口渴無關(guān)(過去的狀態(tài))。現(xiàn)在是我做出決定的唯一關(guān)鍵時(shí)刻。

鑒于現(xiàn)在，未來獨(dú)立于過去

除了馬爾可夫性質(zhì)外，我們還建立了一個(gè)狀態(tài)轉(zhuǎn)移矩陣，它存儲(chǔ)了從每個(gè)當(dāng)前狀態(tài)到每個(gè)繼承狀態(tài)的所有概率。假設(shè)我在工作時(shí)有兩種狀態(tài):工作(實(shí)際工作)和觀看視頻。當(dāng)我工作時(shí)，我有70%的機(jī)會(huì)繼續(xù)工作，30%的機(jī)會(huì)看視頻。然而，如果我在工作中看視頻，我可能有90%的機(jī)會(huì)繼續(xù)看視頻，10%的機(jī)會(huì)回到實(shí)際工作中。也就是說，狀態(tài)轉(zhuǎn)移矩陣定義了從所有狀態(tài)(工作，觀看視頻)到所有繼承狀態(tài)(工作，觀看視頻)的轉(zhuǎn)移概率。

了解了馬爾可夫性質(zhì)和狀態(tài)轉(zhuǎn)移矩陣之后，讓我們繼續(xù)討論馬爾可夫過程或馬爾可夫鏈。馬爾可夫過程是一個(gè)無記憶的隨機(jī)過程，如具有馬爾可夫性質(zhì)的狀態(tài)序列。

我們可以在下圖中看到馬爾科夫過程學(xué)生活動(dòng)的一個(gè)例子。有幾種狀態(tài)，從class 1到最終狀態(tài)Sleep。每個(gè)圓中的數(shù)字表示轉(zhuǎn)移概率。

我們可以從class 1到sleep這一過程中獲取一些例子:

C1 C2 C3 Pass Sleep,C1 FB FB C1 C2 Sleep,C1 C2 C3 Pub C2 C3 Pass Sleep, and so on.

它們?nèi)齻€(gè)從相同的狀態(tài)(class 1)開始，并以睡眠結(jié)束。然而，他們經(jīng)歷了不同的路徑來達(dá)到最終狀態(tài)。每一次經(jīng)歷都是我們所說的馬爾科夫過程。

具有馬爾可夫性質(zhì)的隨機(jī)狀態(tài)序列是一個(gè)馬爾可夫過程

馬爾可夫獎(jiǎng)勵(lì)過程

至此，我們終于理解了什么是馬爾可夫過程。馬爾可夫獎(jiǎng)勵(lì)過程(MRP)是一個(gè)有獎(jiǎng)勵(lì)的馬爾可夫過程。這很簡(jiǎn)單，對(duì)吧?它由狀態(tài)、狀態(tài)轉(zhuǎn)移概率矩陣加上獎(jiǎng)勵(lì)函數(shù)和一個(gè)折現(xiàn)因子組成。我們現(xiàn)在可以將之前的學(xué)生馬爾科夫過程更改為學(xué)生MRP，并添加獎(jiǎng)勵(lì)，如下圖所示。

要理解MRP，我們必須了解收益和價(jià)值函數(shù)。

回報(bào)是從現(xiàn)在起的總折扣獎(jiǎng)勵(lì)。折扣因子是未來獎(jiǎng)勵(lì)的現(xiàn)值，其值在0到1之間。當(dāng)折扣因子接近0時(shí)，它傾向于立即獎(jiǎng)勵(lì)而不是延遲獎(jiǎng)勵(lì)。當(dāng)它接近1時(shí)，它將延遲獎(jiǎng)勵(lì)的價(jià)值高于立即獎(jiǎng)勵(lì)。

但是，您可能會(huì)問'為什么我們要增加折扣系數(shù)？'。好吧，出于幾個(gè)原因需要它。首先，我們希望通過將折扣系數(shù)設(shè)置為小于1來避免無限的回報(bào)。其次，立即獲得的回報(bào)實(shí)際上可能更有價(jià)值。第三，人類行為表現(xiàn)出對(duì)立即獲得獎(jiǎng)勵(lì)的偏好，例如選擇現(xiàn)在購(gòu)物而不是為將來儲(chǔ)蓄。

收益（G）可以使用獎(jiǎng)勵(lì)（R）和折扣因子（γ）如下計(jì)算。

從MRP中，我們可以得到一個(gè)從class 1開始的折現(xiàn)系數(shù)為0.5的示例收益。樣本劇本是[C1 C2 C3 Pass]，其收益等于-2 -2 * 0.5 -2 * 0.25 + 10 * 0.125 = -2.25。

除了return之外，我們還有一個(gè)value函數(shù)，它是一個(gè)狀態(tài)的預(yù)期收益。值函數(shù)確定狀態(tài)的值，該值指示狀態(tài)的可取性。使用Bellman方程，我們可以僅使用當(dāng)前獎(jiǎng)勵(lì)和下一個(gè)狀態(tài)值來計(jì)算當(dāng)前狀態(tài)值。

這意味著我們只需要下一個(gè)狀態(tài)即可計(jì)算一個(gè)狀態(tài)的總值。換句話說，我們可以擁有一個(gè)遞歸函數(shù)，直到處理結(jié)束。

讓我們?cè)俅慰匆幌翯amma等于1的 MRP。下圖表示每個(gè)狀態(tài)下都有一個(gè)值的MRP。以前已經(jīng)計(jì)算過該值，現(xiàn)在我們要用等式驗(yàn)證3類（紅色圓圈）中的值。

從class3 中我們可以看到，該值是通過將立即回報(bào)（-2）與下兩個(gè)狀態(tài)的期望值相加來計(jì)算的。為了計(jì)算下一狀態(tài)的期望值，我們可以將轉(zhuǎn)移概率與狀態(tài)的值相乘。因此，我們得到-2 +0.6* 10 +0.4*0.8等于4.3。

馬爾可夫獎(jiǎng)勵(lì)過程是一個(gè)具有獎(jiǎng)勵(lì)和價(jià)值的馬爾可夫過程

馬爾可夫決策過程

到目前為止，我們已經(jīng)了解了馬爾可夫獎(jiǎng)賞過程。但是，當(dāng)前狀態(tài)和下一個(gè)狀態(tài)之間可能沒有動(dòng)作。馬爾可夫決策過程（MDP）是具有決策的MRP。現(xiàn)在，我們可以選擇幾個(gè)動(dòng)作以在狀態(tài)之間進(jìn)行轉(zhuǎn)換。

讓我們?cè)谙聢D中查看MDP。這里的主要區(qū)別在于，在采取行動(dòng)后會(huì)立即獲得獎(jiǎng)勵(lì)。在執(zhí)行MRP時(shí)，狀態(tài)變更后會(huì)立即獲得獎(jiǎng)勵(lì)。這里的另一個(gè)區(qū)別是動(dòng)作也可以導(dǎo)致學(xué)生進(jìn)入不同的狀態(tài)。根據(jù)學(xué)生的MDP，如果學(xué)生采取Pub動(dòng)作，則他可以進(jìn)入class1，class2或class3。

給定這些動(dòng)作，我們現(xiàn)在有了一個(gè)策略，該策略將狀態(tài)映射到動(dòng)作。它定義了代理人（在這種情況下是學(xué)生）的行為。策略是固定的（與時(shí)間無關(guān)），它們?nèi)Q于操作和狀態(tài)而不是時(shí)間步長(zhǎng)。

基于策略，我們有一個(gè)狀態(tài)值函數(shù)和一個(gè)動(dòng)作值函數(shù)。狀態(tài)值函數(shù)是從當(dāng)前狀態(tài)開始然后遵循策略的預(yù)期收益。另一方面，操作值函數(shù)是從當(dāng)前狀態(tài)開始，然后執(zhí)行操作，然后遵循策略的預(yù)期收益。

通過使用Bellman方程，我們可以具有狀態(tài)值函數(shù)（v）和動(dòng)作值函數(shù)（q）的遞歸形式，如下所示。

狀態(tài)值函數(shù)

動(dòng)作值函數(shù)

為了使情況更清楚，我們可以在下圖中再次查看帶有g(shù)amma 0.1的 MDP。假設(shè)在class3（紅色圓圈）中，學(xué)生有50:50的政策。這意味著該學(xué)生有50％的機(jī)會(huì)Study或Pub。我們可以通過將每個(gè)動(dòng)作之后的每個(gè)預(yù)期收益相加來計(jì)算狀態(tài)值。

通過將動(dòng)作概率與下一個(gè)狀態(tài)的期望值（0.5 * 10）相乘，可以計(jì)算出Study的期望值。相反，Pub操作具有多個(gè)導(dǎo)致不同狀態(tài)的分支。因此，我們可以通過將動(dòng)作概率（0.5）乘以動(dòng)作值，從Pub中計(jì)算出期望值。可以通過將即時(shí)獎(jiǎng)勵(lì)與來自所有可能狀態(tài)的期望值相加來計(jì)算操作值。可以通過1 + 0.2 * -1.3 + 0.4 * 2.7 + 0.4 * 7.4進(jìn)行計(jì)算。

代理人的目標(biāo)是最大化其價(jià)值。因此，我們必須找到導(dǎo)致最大值的最優(yōu)值函數(shù)。在前面的示例中，我們通過對(duì)所有可能的操作的所有期望值求和來計(jì)算值。現(xiàn)在，我們只關(guān)心提供最大值的動(dòng)作。在了解了最優(yōu)值函數(shù)之后，我們有了最優(yōu)策略并求解了MDP。下圖顯示了針對(duì)每個(gè)狀態(tài)的最優(yōu)值和策略的MDP。

具有最佳政策的學(xué)生MDP

結(jié)論

總而言之，馬爾可夫決策過程是具有動(dòng)作的馬爾可夫獎(jiǎng)勵(lì)過程，在此過程中，代理必須根據(jù)最佳價(jià)值和政策做出決策。

作者 Alif Ilham Madani

deephub翻譯組

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： taotao_2016 > 《概率》

舉報(bào)/認(rèn)領(lǐng)