馬爾可夫決策過程(一)
最近學(xué)習(xí)了MDP,查看一些資料,本文翻譯了維基百科http://en./wiki/Markov_decision_process。有許多地方翻譯的不好,有翻譯錯(cuò)的地方請(qǐng)多多諒解!歡迎給我留下意見,我會(huì)盡快更改!
定義
一個(gè)很簡(jiǎn)單的只有3個(gè)狀態(tài)和2個(gè)動(dòng)作的MDP例子。
一個(gè)馬爾可夫決策過程是一個(gè)4 - 元組 ,其中 S是狀態(tài)的有限集合, A是動(dòng)作的有限集合(或者,As是處于狀態(tài)s下可用的一組動(dòng)作的有限集合), 表示 t時(shí)刻的動(dòng)作 a 將導(dǎo)致馬爾可夫過程由狀態(tài) s 在t 1 時(shí)刻轉(zhuǎn)變到狀態(tài) s' 的概率 。 Ra(s,s') 表示以概率Pa(s,s')從狀態(tài) s 轉(zhuǎn)變到狀態(tài) s' 后收到的即時(shí)獎(jiǎng)勵(lì)(或預(yù)計(jì)即時(shí)獎(jiǎng)勵(lì))。 (馬爾可夫決策過程理論實(shí)際上并不需要 S 或 A 這兩個(gè)集合是有限的,但下面的基本算法假定它們是有限的。)
馬爾可夫決策過程(MDPs)以安德烈馬爾可夫的名字命名 ,針對(duì)一些決策的輸出結(jié)果部分隨機(jī)而又部分可控的情況,給決策者提供一個(gè)決策制定的數(shù)學(xué)建??蚣?。MDPs對(duì)通過動(dòng)態(tài)規(guī)劃和強(qiáng)化學(xué)習(xí)來求解的廣泛的優(yōu)化問題是非常有用的。MDPs至少早在20世紀(jì)50年代就被大家熟知(參見貝爾曼1957年)。大部分MDPs領(lǐng)域的研究產(chǎn)生于羅納德.A.霍華德1960年出版的《動(dòng)態(tài)規(guī)劃與馬爾可夫過程》。今天,它們被應(yīng)用在各種領(lǐng)域,包括機(jī)器人技術(shù),自動(dòng)化控制,經(jīng)濟(jì)和制造業(yè)領(lǐng)域。 更確切地說,一個(gè)馬爾可夫決策過程是一個(gè)離散時(shí)間隨機(jī)控制的過程。在每一個(gè)時(shí)階(each time step),此決策過程處于某種狀態(tài) s ,決策者可以選擇在狀態(tài) s 下可用的任何動(dòng)作 a。該過程在下一個(gè)時(shí)階做出反應(yīng)隨機(jī)移動(dòng)到一個(gè)新的狀態(tài) s',并給予決策者相應(yīng)的獎(jiǎng)勵(lì) Ra(s,s')。 此過程選擇 s'作為其新狀態(tài)的概率又受到所選擇動(dòng)作的影響。具體來說,此概率由狀態(tài)轉(zhuǎn)變函數(shù) Pa(s,s')來規(guī)定。因此,下一個(gè)狀態(tài) s' 取決于當(dāng)前狀態(tài) s 和決策者的動(dòng)作 a 。但是考慮到狀態(tài) s 和動(dòng)作 a,不依賴以往所有的狀態(tài)和動(dòng)作是有條件的,換句話說,一個(gè)的MDP狀態(tài)轉(zhuǎn)換具有馬爾可夫特性。 馬爾可夫決策過程是一個(gè)馬爾可夫鏈的擴(kuò)展;區(qū)別是動(dòng)作(允許選擇)和獎(jiǎng)勵(lì)(給予激勵(lì))的加入。相反,如果忽視獎(jiǎng)勵(lì),即使每一狀態(tài)只有一個(gè)動(dòng)作存在,那么馬爾可夫決策過程即簡(jiǎn)化為一個(gè)馬爾可夫鏈。 |
|