在本文中我將介紹強(qiáng)化學(xué)習(xí)的基本方面,即馬爾可夫決策過程。我們將從馬爾可夫過程開始,馬爾可夫獎(jiǎng)勵(lì)過程,最后是馬爾可夫決策過程。 目錄馬爾可夫過程 馬爾可夫獎(jiǎng)勵(lì)過程 馬爾可夫決策過程 馬爾可夫過程馬爾可夫決策過程(MDP)代表了一種強(qiáng)化學(xué)習(xí)的環(huán)境。我們假設(shè)環(huán)境是完全可見的。這意味著我們擁有了當(dāng)前狀態(tài)下做出決定所需的所有信息。然而,在我們討論MDP是什么之前,我們需要知道馬爾科夫性質(zhì)的含義。 馬爾可夫性質(zhì)指出,未來是獨(dú)立于過去的現(xiàn)在。它意味著當(dāng)前狀態(tài)從歷史記錄中捕獲所有相關(guān)信息。例如,如果我現(xiàn)在口渴了,我想馬上喝一杯。當(dāng)我決定喝水的時(shí)候,這與我昨天或一周前口渴無關(guān)(過去的狀態(tài))。現(xiàn)在是我做出決定的唯一關(guān)鍵時(shí)刻。 鑒于現(xiàn)在,未來獨(dú)立于過去 除了馬爾可夫性質(zhì)外,我們還建立了一個(gè)狀態(tài)轉(zhuǎn)移矩陣,它存儲(chǔ)了從每個(gè)當(dāng)前狀態(tài)到每個(gè)繼承狀態(tài)的所有概率。假設(shè)我在工作時(shí)有兩種狀態(tài):工作(實(shí)際工作)和觀看視頻。當(dāng)我工作時(shí),我有70%的機(jī)會(huì)繼續(xù)工作,30%的機(jī)會(huì)看視頻。然而,如果我在工作中看視頻,我可能有90%的機(jī)會(huì)繼續(xù)看視頻,10%的機(jī)會(huì)回到實(shí)際工作中。也就是說,狀態(tài)轉(zhuǎn)移矩陣定義了從所有狀態(tài)(工作,觀看視頻)到所有繼承狀態(tài)(工作,觀看視頻)的轉(zhuǎn)移概率。 了解了馬爾可夫性質(zhì)和狀態(tài)轉(zhuǎn)移矩陣之后,讓我們繼續(xù)討論馬爾可夫過程或馬爾可夫鏈。馬爾可夫過程是一個(gè)無記憶的隨機(jī)過程,如具有馬爾可夫性質(zhì)的狀態(tài)序列。 我們可以在下圖中看到馬爾科夫過程學(xué)生活動(dòng)的一個(gè)例子。有幾種狀態(tài),從class 1到最終狀態(tài)Sleep。每個(gè)圓中的數(shù)字表示轉(zhuǎn)移概率。 我們可以從class 1到sleep這一過程中獲取一些例子: C1 C2 C3 Pass Sleep,C1 FB FB C1 C2 Sleep,C1 C2 C3 Pub C2 C3 Pass Sleep, and so on. 它們?nèi)齻€(gè)從相同的狀態(tài)(class 1)開始,并以睡眠結(jié)束。然而,他們經(jīng)歷了不同的路徑來達(dá)到最終狀態(tài)。每一次經(jīng)歷都是我們所說的馬爾科夫過程。 具有馬爾可夫性質(zhì)的隨機(jī)狀態(tài)序列是一個(gè)馬爾可夫過程 馬爾可夫獎(jiǎng)勵(lì)過程至此,我們終于理解了什么是馬爾可夫過程。馬爾可夫獎(jiǎng)勵(lì)過程(MRP)是一個(gè)有獎(jiǎng)勵(lì)的馬爾可夫過程。這很簡(jiǎn)單,對(duì)吧?它由狀態(tài)、狀態(tài)轉(zhuǎn)移概率矩陣加上獎(jiǎng)勵(lì)函數(shù)和一個(gè)折現(xiàn)因子組成。我們現(xiàn)在可以將之前的學(xué)生馬爾科夫過程更改為學(xué)生MRP,并添加獎(jiǎng)勵(lì),如下圖所示。 要理解MRP,我們必須了解收益和價(jià)值函數(shù)。 回報(bào)是從現(xiàn)在起的總折扣獎(jiǎng)勵(lì)。 折扣因子是未來獎(jiǎng)勵(lì)的現(xiàn)值,其值在0到1之間。當(dāng)折扣因子接近0時(shí),它傾向于立即獎(jiǎng)勵(lì)而不是延遲獎(jiǎng)勵(lì)。 當(dāng)它接近1時(shí),它將延遲獎(jiǎng)勵(lì)的價(jià)值高于立即獎(jiǎng)勵(lì)。 但是,您可能會(huì)問'為什么我們要增加折扣系數(shù)?'。 好吧,出于幾個(gè)原因需要它。 首先,我們希望通過將折扣系數(shù)設(shè)置為小于1來避免無限的回報(bào)。其次,立即獲得的回報(bào)實(shí)際上可能更有價(jià)值。 第三,人類行為表現(xiàn)出對(duì)立即獲得獎(jiǎng)勵(lì)的偏好,例如選擇現(xiàn)在購(gòu)物而不是為將來儲(chǔ)蓄。 收益(G)可以使用獎(jiǎng)勵(lì)(R)和折扣因子(γ)如下計(jì)算。 從MRP中,我們可以得到一個(gè)從class 1開始的折現(xiàn)系數(shù)為0.5的示例收益。 樣本劇本是[C1 C2 C3 Pass],其收益等于-2 -2 * 0.5 -2 * 0.25 + 10 * 0.125 = -2.25。 除了return之外,我們還有一個(gè)value函數(shù),它是一個(gè)狀態(tài)的預(yù)期收益。 值函數(shù)確定狀態(tài)的值,該值指示狀態(tài)的可取性。 使用Bellman方程,我們可以僅使用當(dāng)前獎(jiǎng)勵(lì)和下一個(gè)狀態(tài)值來計(jì)算當(dāng)前狀態(tài)值。 這意味著我們只需要下一個(gè)狀態(tài)即可計(jì)算一個(gè)狀態(tài)的總值。 換句話說,我們可以擁有一個(gè)遞歸函數(shù),直到處理結(jié)束。 讓我們?cè)俅慰匆幌翯amma等于1的 MRP。下圖表示每個(gè)狀態(tài)下都有一個(gè)值的MRP。 以前已經(jīng)計(jì)算過該值,現(xiàn)在我們要用等式驗(yàn)證3類(紅色圓圈)中的值。 從class3 中我們可以看到,該值是通過將立即回報(bào)(-2)與下兩個(gè)狀態(tài)的期望值相加來計(jì)算的。為了計(jì)算下一狀態(tài)的期望值,我們可以將轉(zhuǎn)移概率與狀態(tài)的 值相乘。因此,我們得到-2 +0.6* 10 +0.4*0.8等于4.3。 馬爾可夫獎(jiǎng)勵(lì)過程是一個(gè)具有獎(jiǎng)勵(lì)和價(jià)值的馬爾可夫過程 馬爾可夫決策過程到目前為止,我們已經(jīng)了解了馬爾可夫獎(jiǎng)賞過程。 但是,當(dāng)前狀態(tài)和下一個(gè)狀態(tài)之間可能沒有動(dòng)作。 馬爾可夫決策過程(MDP)是具有決策的MRP。 現(xiàn)在,我們可以選擇幾個(gè)動(dòng)作以在狀態(tài)之間進(jìn)行轉(zhuǎn)換。 讓我們?cè)谙聢D中查看MDP。 這里的主要區(qū)別在于,在采取行動(dòng)后會(huì)立即獲得獎(jiǎng)勵(lì)。 在執(zhí)行MRP時(shí),狀態(tài)變更后會(huì)立即獲得獎(jiǎng)勵(lì)。 這里的另一個(gè)區(qū)別是動(dòng)作也可以導(dǎo)致學(xué)生進(jìn)入不同的狀態(tài)。 根據(jù)學(xué)生的MDP,如果學(xué)生采取Pub動(dòng)作,則他可以進(jìn)入class1,class2或class3。 給定這些動(dòng)作,我們現(xiàn)在有了一個(gè)策略,該策略將狀態(tài)映射到動(dòng)作。 它定義了代理人(在這種情況下是學(xué)生)的行為。 策略是固定的(與時(shí)間無關(guān)),它們?nèi)Q于操作和狀態(tài)而不是時(shí)間步長(zhǎng)。 基于策略,我們有一個(gè)狀態(tài)值函數(shù)和一個(gè)動(dòng)作值函數(shù)。 狀態(tài)值函數(shù)是從當(dāng)前狀態(tài)開始然后遵循策略的預(yù)期收益。 另一方面,操作值函數(shù)是從當(dāng)前狀態(tài)開始,然后執(zhí)行操作,然后遵循策略的預(yù)期收益。 通過使用Bellman方程,我們可以具有狀態(tài)值函數(shù)(v)和動(dòng)作值函數(shù)(q)的遞歸形式,如下所示。 狀態(tài)值函數(shù) 動(dòng)作值函數(shù) 為了使情況更清楚,我們可以在下圖中再次查看帶有g(shù)amma 0.1的 MDP。 假設(shè)在class3(紅色圓圈)中,學(xué)生有50:50的政策。 這意味著該學(xué)生有50%的機(jī)會(huì)Study或Pub。 我們可以通過將每個(gè)動(dòng)作之后的每個(gè)預(yù)期收益相加來計(jì)算狀態(tài)值。 通過將動(dòng)作概率與下一個(gè)狀態(tài)的期望值(0.5 * 10)相乘,可以計(jì)算出Study的期望值。 相反,Pub操作具有多個(gè)導(dǎo)致不同狀態(tài)的分支。 因此,我們可以通過將動(dòng)作概率(0.5)乘以動(dòng)作值,從Pub中計(jì)算出期望值。 可以通過將即時(shí)獎(jiǎng)勵(lì)與來自所有可能狀態(tài)的期望值相加來計(jì)算操作值。 可以通過1 + 0.2 * -1.3 + 0.4 * 2.7 + 0.4 * 7.4進(jìn)行計(jì)算。 代理人的目標(biāo)是最大化其價(jià)值。 因此,我們必須找到導(dǎo)致最大值的最優(yōu)值函數(shù)。 在前面的示例中,我們通過對(duì)所有可能的操作的所有期望值求和來計(jì)算值。 現(xiàn)在,我們只關(guān)心提供最大值的動(dòng)作。 在了解了最優(yōu)值函數(shù)之后,我們有了最優(yōu)策略并求解了MDP。 下圖顯示了針對(duì)每個(gè)狀態(tài)的最優(yōu)值和策略的MDP。 具有最佳政策的學(xué)生MDP 結(jié)論總而言之,馬爾可夫決策過程是具有動(dòng)作的馬爾可夫獎(jiǎng)勵(lì)過程,在此過程中,代理必須根據(jù)最佳價(jià)值和政策做出決策。 作者 Alif Ilham Madani deephub翻譯組 |
|