一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

馬爾可夫決策過程(一)

 精誠至_金石開 2017-04-27

 

馬爾可夫決策過程(一)

 

 

最近學(xué)習(xí)了MDP,查看一些資料,本文翻譯了維基百科http://en./wiki/Markov_decision_process。有許多地方翻譯的不好,有翻譯錯(cuò)的地方請(qǐng)多多諒解!歡迎給我留下意見,我會(huì)盡快更改!

 

 

 

 

 

定義

一個(gè)很簡(jiǎn)單的只有3個(gè)狀態(tài)和2個(gè)動(dòng)作的MDP例子。

 

一個(gè)馬爾可夫決策過程是一個(gè)4 - 元組 ,其中

                      S是狀態(tài)的有限集合,

                      A是動(dòng)作的有限集合(或者,As是處于狀態(tài)s下可用的一組動(dòng)作的有限集合),

                     表示 t時(shí)刻的動(dòng)作 a 將導(dǎo)致馬爾可夫過程由狀態(tài) s t 1 時(shí)刻轉(zhuǎn)變到狀態(tài) s' 的概率 。

                      Ra(s,s') 表示以概率Pa(s,s')從狀態(tài) s 轉(zhuǎn)變到狀態(tài) s' 后收到的即時(shí)獎(jiǎng)勵(lì)(或預(yù)計(jì)即時(shí)獎(jiǎng)勵(lì))。

(馬爾可夫決策過程理論實(shí)際上并不需要 S A 這兩個(gè)集合是有限的,但下面的基本算法假定它們是有限的。)

 

 

馬爾可夫決策過程(MDPs)以安德烈馬爾可夫的名字命名 ,針對(duì)一些決策的輸出結(jié)果部分隨機(jī)而又部分可控的情況,給決策者提供一個(gè)決策制定的數(shù)學(xué)建??蚣?。MDPs對(duì)通過動(dòng)態(tài)規(guī)劃和強(qiáng)化學(xué)習(xí)來求解的廣泛的優(yōu)化問題是非常有用的。MDPs至少早在20世紀(jì)50年代就被大家熟知(參見貝爾曼1957年)。大部分MDPs領(lǐng)域的研究產(chǎn)生于羅納德.A.霍華德1960年出版的《動(dòng)態(tài)規(guī)劃與馬爾可夫過程》。今天,它們被應(yīng)用在各種領(lǐng)域,包括機(jī)器人技術(shù),自動(dòng)化控制,經(jīng)濟(jì)和制造業(yè)領(lǐng)域。

更確切地說,一個(gè)馬爾可夫決策過程是一個(gè)離散時(shí)間隨機(jī)控制的過程。在每一個(gè)時(shí)階(each time step),此決策過程處于某種狀態(tài) s ,決策者可以選擇在狀態(tài) s 下可用的任何動(dòng)作 a。該過程在下一個(gè)時(shí)階做出反應(yīng)隨機(jī)移動(dòng)到一個(gè)新的狀態(tài) s',并給予決策者相應(yīng)的獎(jiǎng)勵(lì) Ra(s,s')。

此過程選擇 s'作為其新狀態(tài)的概率又受到所選擇動(dòng)作的影響。具體來說,此概率由狀態(tài)轉(zhuǎn)變函數(shù) Pa(s,s')來規(guī)定。因此,下一個(gè)狀態(tài) s' 取決于當(dāng)前狀態(tài) s 和決策者的動(dòng)作 a 。但是考慮到狀態(tài) s 和動(dòng)作 a,不依賴以往所有的狀態(tài)和動(dòng)作是有條件的,換句話說,一個(gè)的MDP狀態(tài)轉(zhuǎn)換具有馬爾可夫特性。

馬爾可夫決策過程是一個(gè)馬爾可夫鏈的擴(kuò)展;區(qū)別是動(dòng)作(允許選擇)和獎(jiǎng)勵(lì)(給予激勵(lì))的加入。相反,如果忽視獎(jiǎng)勵(lì),即使每一狀態(tài)只有一個(gè)動(dòng)作存在,那么馬爾可夫決策過程即簡(jiǎn)化為一個(gè)馬爾可夫鏈。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多

    大香伊蕉欧美一区二区三区| 国产精品午夜一区二区三区| 亚洲国产精品一区二区| 最新午夜福利视频偷拍| 日韩中文字幕有码午夜美女| 老司机精品视频在线免费| 手机在线不卡国产视频| 亚洲av日韩av高潮无打码| 日韩人妻毛片中文字幕| 丝袜破了有美女肉体免费观看 | 亚洲国产精品国自产拍社区| 99精品人妻少妇一区二区人人妻| 亚洲一区二区三区三州| 日韩成人高清免费在线| 日本深夜福利视频在线| 国产在线观看不卡一区二区| 欧美一区二区三区99| 国产av精品高清一区二区三区 | 欧美中文字幕一区在线| 人妻内射在线二区一区| 亚洲第一视频少妇人妻系列 | 国产又爽又猛又粗又色对黄| 亚洲清纯一区二区三区| 国产肥女老熟女激情视频一区| 色哟哟在线免费一区二区三区| 日本 一区二区 在线| 日韩精品一区二区毛片| 污污黄黄的成年亚洲毛片| 亚洲精品蜜桃在线观看| 亚洲一区二区三区福利视频| 亚洲一区二区三区国产| 自拍偷拍福利视频在线观看| 免费福利午夜在线观看| 国产日本欧美韩国在线| 国产一区二区三区精品免费| 国产永久免费高清在线精品| 国产精品久久三级精品| 婷婷基地五月激情五月| 日韩aa一区二区三区| 91欧美一区二区三区成人| 精品女同在线一区二区|