馬爾可夫決策過程（一）

精誠至_金石開 2017-04-27

展開全文

馬爾可夫決策過程（一）

最近學(xué)習(xí)了MDP，查看一些資料，本文翻譯了維基百科http://en./wiki/Markov_decision_process。有許多地方翻譯的不好，有翻譯錯(cuò)的地方請(qǐng)多多諒解！歡迎給我留下意見，我會(huì)盡快更改！

定義

一個(gè)很簡(jiǎn)單的只有3個(gè)狀態(tài)和2個(gè)動(dòng)作的MDP例子。

一個(gè)馬爾可夫決策過程是一個(gè)4 - 元組，其中

S是狀態(tài)的有限集合，

A是動(dòng)作的有限集合（或者，As是處于狀態(tài)s下可用的一組動(dòng)作的有限集合），

表示 t時(shí)刻的動(dòng)作 a 將導(dǎo)致馬爾可夫過程由狀態(tài) s 在t 1 時(shí)刻轉(zhuǎn)變到狀態(tài) s' 的概率。

Ra(s,s') 表示以概率Pa(s,s')從狀態(tài) s 轉(zhuǎn)變到狀態(tài) s' 后收到的即時(shí)獎(jiǎng)勵(lì)（或預(yù)計(jì)即時(shí)獎(jiǎng)勵(lì)）。

（馬爾可夫決策過程理論實(shí)際上并不需要 S 或 A 這兩個(gè)集合是有限的，但下面的基本算法假定它們是有限的。）

馬爾可夫決策過程（MDPs）以安德烈馬爾可夫的名字命名，針對(duì)一些決策的輸出結(jié)果部分隨機(jī)而又部分可控的情況，給決策者提供一個(gè)決策制定的數(shù)學(xué)建?？蚣?。MDPs對(duì)通過動(dòng)態(tài)規(guī)劃和強(qiáng)化學(xué)習(xí)來求解的廣泛的優(yōu)化問題是非常有用的。MDPs至少早在20世紀(jì)50年代就被大家熟知（參見貝爾曼1957年）。大部分MDPs領(lǐng)域的研究產(chǎn)生于羅納德.A.霍華德1960年出版的《動(dòng)態(tài)規(guī)劃與馬爾可夫過程》。今天，它們被應(yīng)用在各種領(lǐng)域，包括機(jī)器人技術(shù)，自動(dòng)化控制，經(jīng)濟(jì)和制造業(yè)領(lǐng)域。

更確切地說，一個(gè)馬爾可夫決策過程是一個(gè)離散時(shí)間隨機(jī)控制的過程。在每一個(gè)時(shí)階（each time step），此決策過程處于某種狀態(tài) s ，決策者可以選擇在狀態(tài) s 下可用的任何動(dòng)作 a。該過程在下一個(gè)時(shí)階做出反應(yīng)隨機(jī)移動(dòng)到一個(gè)新的狀態(tài) s'，并給予決策者相應(yīng)的獎(jiǎng)勵(lì) Ra(s,s')。

此過程選擇 s'作為其新狀態(tài)的概率又受到所選擇動(dòng)作的影響。具體來說，此概率由狀態(tài)轉(zhuǎn)變函數(shù) Pa(s,s')來規(guī)定。因此，下一個(gè)狀態(tài) s' 取決于當(dāng)前狀態(tài) s 和決策者的動(dòng)作 a 。但是考慮到狀態(tài) s 和動(dòng)作 a，不依賴以往所有的狀態(tài)和動(dòng)作是有條件的，換句話說，一個(gè)的MDP狀態(tài)轉(zhuǎn)換具有馬爾可夫特性。

馬爾可夫決策過程是一個(gè)馬爾可夫鏈的擴(kuò)展；區(qū)別是動(dòng)作（允許選擇）和獎(jiǎng)勵(lì)（給予激勵(lì)）的加入。相反，如果忽視獎(jiǎng)勵(lì)，即使每一狀態(tài)只有一個(gè)動(dòng)作存在，那么馬爾可夫決策過程即簡(jiǎn)化為一個(gè)馬爾可夫鏈。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：精誠至_金石開 > 《文教與培訓(xùn)》

舉報(bào)/認(rèn)領(lǐng)