




下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、摘要強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)重要分支,它是一種以環(huán)境反應(yīng)作為輸入的,特殊的、適應(yīng)環(huán)境的學(xué)習(xí).它將環(huán)境抽象成假設(shè)干狀態(tài),通過(guò)不斷試錯(cuò)強(qiáng)化而產(chǎn)生狀態(tài)到行為的最優(yōu)化映射.然而實(shí)際環(huán)境的狀態(tài)數(shù)無(wú)限或連續(xù)或狀態(tài)不完全可知,因此很難以用數(shù)學(xué)模型精確定義系統(tǒng).加上強(qiáng)化學(xué)習(xí)算法的收斂性較慢,因此如何能夠優(yōu)化的建立環(huán)境模型,如何提升算法效率就成為強(qiáng)化學(xué)習(xí)面臨的主要問(wèn)題.本次課題首先介紹強(qiáng)化學(xué)習(xí)的概念、建立系統(tǒng)模型,再介紹幾種經(jīng)典的強(qiáng)化學(xué)習(xí)算法,接著介紹目前解決假設(shè)干問(wèn)題而提出的POMDP模型,PSR模型、HRL模型,最后就PSR模型進(jìn)行算法改良.關(guān)鍵詞:強(qiáng)化學(xué)習(xí);蒙特卡諾法;TD算法;Q學(xué)習(xí);Sasar學(xué)習(xí);P
2、OMDP模型;PSR模型;HRL模型強(qiáng)化學(xué)習(xí)技術(shù)是從限制理論、統(tǒng)計(jì)學(xué)、心理學(xué)等相關(guān)學(xué)科開(kāi)展而來(lái)的,在人工智能、機(jī)器學(xué)習(xí)和自動(dòng)限制等領(lǐng)域中得到廣泛的研究和應(yīng)用,并被認(rèn)為是設(shè)計(jì)智能系統(tǒng)的核心技術(shù)之"o一.強(qiáng)化學(xué)習(xí)的理論根底:1 .強(qiáng)化學(xué)習(xí)問(wèn)題的框架:我們將有智能的學(xué)習(xí)體稱為agent,將系統(tǒng)分成假設(shè)干個(gè)狀態(tài),每個(gè)狀態(tài)S可以有不同的動(dòng)作選擇,對(duì)應(yīng)的每個(gè)選擇也就有一個(gè)值函數(shù)Qs,a.Agent選擇一個(gè)動(dòng)作a作用于環(huán)境,環(huán)境接收該動(dòng)作后狀態(tài)發(fā)生變化S',同時(shí)產(chǎn)生一個(gè)強(qiáng)化信號(hào)r獎(jiǎng)賞給agent,agent根據(jù)這個(gè)獎(jiǎng)賞評(píng)價(jià)剛剛的動(dòng)作的好壞進(jìn)而修改該動(dòng)作值,并選擇下一動(dòng)作a'.對(duì)于一
3、個(gè)強(qiáng)化學(xué)習(xí)系統(tǒng)來(lái)講,其目標(biāo)是學(xué)習(xí)一個(gè)行為策略:兀:S->A,使系統(tǒng)選擇的動(dòng)作能夠獲得環(huán)境獎(jiǎng)賞的累計(jì)值2r最大.當(dāng)一個(gè)動(dòng)作導(dǎo)致環(huán)境給正的獎(jiǎng)賞時(shí)這種動(dòng)作的趨勢(shì)就被增強(qiáng),反之那么減弱.強(qiáng)化學(xué)習(xí)的目的就是要學(xué)習(xí)從狀態(tài)到動(dòng)作的最正確映射,以便使獎(jiǎng)勵(lì)信號(hào)最大化.10,11強(qiáng)化學(xué)習(xí)的框架如圖:2 .環(huán)境的描述:通常,我們從五個(gè)角度對(duì)環(huán)境進(jìn)行分析:【4】角度一:離散狀態(tài)vs連續(xù)狀態(tài)角度二:狀態(tài)完全可感知vs狀態(tài)局部可感知角度三:插曲式vs非插曲式角度四:確定性vs不確定性角度五:靜態(tài)vs動(dòng)態(tài)在強(qiáng)化學(xué)習(xí)中,我們首先考慮最簡(jiǎn)單的環(huán)境模型隨機(jī)、離散狀態(tài)、離散時(shí)間對(duì)其數(shù)學(xué)建模.我們通常用馬爾科夫模型:馬爾科夫狀
4、態(tài):一個(gè)狀態(tài)信號(hào)保存了所有的相關(guān)信息,那么就是馬兒科夫的.馬兒科夫決策過(guò)程(MDP)2】:MDP的本質(zhì)是:當(dāng)狀態(tài)向下一狀態(tài)轉(zhuǎn)移的概率和獎(jiǎng)賞值只取決于當(dāng)前狀態(tài)和選擇的動(dòng)作,而與歷史狀態(tài)和動(dòng)作無(wú)關(guān).強(qiáng)化學(xué)習(xí)主要研究在P和R函數(shù)未知的情況下系統(tǒng)如何學(xué)習(xí)最優(yōu)的行為策略.用rt+i表示t時(shí)刻的即時(shí)獎(jiǎng)賞【7】,用Rt表示t時(shí)刻的累計(jì)獎(jiǎng)賞,那么Rt為t時(shí)刻開(kāi)始到最后的所有獎(jiǎng)賞和,而越后續(xù)的動(dòng)作對(duì)當(dāng)前影響要比t時(shí)刻獎(jiǎng)賞逐漸減小,因此越往后的獎(jiǎng)賞加上了一個(gè)折扣丫,這樣,t時(shí)刻的獎(jiǎng)賞總和就是2-Rt=rt+i+rrt+2+丫rt+3+=rt+i+丫Rt+i(1)兀t時(shí)刻狀態(tài)s的狀態(tài)值(表示狀態(tài)s如何優(yōu)秀)用V(s
5、)表示,它用t時(shí)刻選擇各個(gè)動(dòng)作的獎(jiǎng)賞的數(shù)學(xué)期望來(lái)表示.兀兀V=ERt|st=s兀=Ert+i+丫V(st+i)|st=s兀=£Ms,a)ZPs:,R;s,+丫V(s)(2)as'注意到這里兩式都是一個(gè)遞推式,稱為Bellman等式,寫(xiě)成這種形式非常便于從狀態(tài)s轉(zhuǎn)換到s'時(shí)計(jì)算狀態(tài)值.強(qiáng)化學(xué)習(xí)問(wèn)題是要尋求一個(gè)最優(yōu)的策略九*,在上面的等式中表現(xiàn)為尋求狀態(tài)值的最優(yōu)值,在不斷學(xué)習(xí)強(qiáng)化的過(guò)程中對(duì)狀態(tài)s獲得一個(gè)最優(yōu)值V*(s),它表示在狀態(tài)s下選取最優(yōu)的那個(gè)動(dòng)作而獲得的最大的累計(jì)獎(jiǎng)賞回報(bào).因此在最優(yōu)策略冗*下,狀態(tài)s的最優(yōu)值定義為:V(s)=maxErt+i+丫V(st+i)|s
6、t=sa:-A(s)兀=蟹£,葭同+丫V(s')(3)各種算法的最終目的便是計(jì)算各狀態(tài)的最優(yōu)值,并根據(jù)最優(yōu)值去指導(dǎo)動(dòng)作.經(jīng)典的強(qiáng)化學(xué)習(xí)算法回憶:動(dòng)態(tài)規(guī)劃算法【i】:動(dòng)態(tài)規(guī)劃的思想,根據(jù)2式去不斷由V(s')估方tV(s)的值估計(jì)完成后下一次可以繼續(xù)選擇最優(yōu)的動(dòng)作,這樣迭代到一定程度后算法收斂,每個(gè)V(s)都會(huì)收斂到一個(gè)穩(wěn)定值,從而學(xué)習(xí)到一個(gè)最優(yōu)的策略.用公式表不為:兀Vk+1(s)=ERt|st=s兀=Ert+i+丫V(st+i)|st=s=ZMs,a)ZPs;R:s,+YVk(s')(4)as'2.蒙特卡諾算法:在強(qiáng)化學(xué)習(xí)中,P和R開(kāi)始都是未知的,系
7、統(tǒng)無(wú)法直接通過(guò)(4)式進(jìn)行值函數(shù)的估計(jì),因此常常是是在完整的學(xué)習(xí)一次后才將學(xué)習(xí)中各步的獎(jiǎng)賞累計(jì)用于計(jì)算經(jīng)過(guò)的狀態(tài)的值函數(shù)估計(jì).稱為蒙特卡諾方法.如式(5),保持兀策略不變,在每次學(xué)習(xí)循環(huán)中重復(fù)的使用(5)式,將(5)式逼近于(3)式.V(st)<-V(st)+aRt-V(st)(5)3. TD算法:【13】結(jié)合動(dòng)態(tài)規(guī)劃和蒙特卡諾算法,Sutton提出基于時(shí)間差分的TD算法,它在每一步的學(xué)習(xí)中利用下式更新?tīng)顟B(tài)值:V(st)<-V(st)+art+1+丫V(st+1)-V(st)(6)TD法是一類(lèi)專門(mén)用于預(yù)測(cè)問(wèn)題的漸進(jìn)學(xué)習(xí)過(guò)程,傳統(tǒng)的學(xué)習(xí)預(yù)測(cè)方法是由預(yù)測(cè)值和實(shí)際值之間的誤差來(lái)修正參數(shù)的
8、,而TD法是由相繼預(yù)測(cè)間的誤差值來(lái)完成的,當(dāng)隨著時(shí)間的推移預(yù)測(cè)有變化時(shí)就進(jìn)行學(xué)習(xí).三.強(qiáng)化學(xué)習(xí)面臨的主要問(wèn)題我們上面討論的強(qiáng)化學(xué)習(xí)模型是最簡(jiǎn)單的有限狀態(tài)、離散狀態(tài)、離散時(shí)間模型,而實(shí)際應(yīng)用中環(huán)境比這種模型復(fù)雜得多,尤其在狀態(tài)數(shù)增多后經(jīng)典的強(qiáng)化學(xué)習(xí)算法便會(huì)面臨維數(shù)災(zāi)難112】,另外馬爾科夫模型是假設(shè)所有狀態(tài)都已經(jīng)知道,而實(shí)際上在學(xué)習(xí)過(guò)程中會(huì)出現(xiàn)新的未知狀態(tài),這時(shí)為非馬爾科夫模型【6這些問(wèn)題用經(jīng)典的數(shù)學(xué)模型狀態(tài)將無(wú)法實(shí)現(xiàn).目前強(qiáng)化學(xué)習(xí)的主要問(wèn)題就是如何尋找新的數(shù)學(xué)模型,來(lái)實(shí)現(xiàn)環(huán)境狀態(tài)的未知和維數(shù)爆炸等問(wèn)題.四.當(dāng)前強(qiáng)化學(xué)習(xí)研究動(dòng)態(tài)目前強(qiáng)化學(xué)習(xí)的研究主要集中在解決非馬爾科夫模型和解決維數(shù)爆炸問(wèn)題等.
9、本文著重介紹POMDP模型、HRL模型以及由POMDP模型衍生的PSR模型等.1 .局部感知狀態(tài)馬爾科夫模型(POMDP解決非馬爾科夫環(huán)境問(wèn)題:在經(jīng)典馬爾科夫模型上增加狀態(tài)預(yù)測(cè),并對(duì)每個(gè)狀態(tài)設(shè)置一個(gè)信度b,用于表示該狀態(tài)的可信度,在決定動(dòng)作時(shí)使用b作為依據(jù),同時(shí)根據(jù)觀察值進(jìn)行狀態(tài)預(yù)測(cè),這樣很好的解決一些非馬爾科夫模型.2.分層強(qiáng)化學(xué)習(xí)模型(HRL解決維數(shù)爆炸問(wèn)題:目前解決“維數(shù)災(zāi)難問(wèn)題方法大致有四種:狀態(tài)聚類(lèi)法【14】、有限策略空間搜索法【15】、值函數(shù)近似法【16】、和分層強(qiáng)化學(xué)習(xí)【12】分層強(qiáng)化學(xué)習(xí)是通過(guò)在強(qiáng)化學(xué)習(xí)的根底上增加“抽象機(jī)制,把整體任務(wù)分解為不同層次上的子任務(wù),使每個(gè)子任務(wù)在規(guī)
10、模較小的子空間中求解,并且求得的子任務(wù)策略可以復(fù)用,從而加快問(wèn)題的求解速度.五.我的觀點(diǎn)無(wú)論是傳統(tǒng)的馬爾科夫模型還是最新的POMDP、HRL理論,并沒(méi)有哪一個(gè)算法可以適用于所有場(chǎng)合,它們都只是在某個(gè)特定的環(huán)境中有其特長(zhǎng).為此,我們的工作就是分析每個(gè)算法的優(yōu)缺點(diǎn),通過(guò)比擬了解各個(gè)算法的使用場(chǎng)合.六.參考文獻(xiàn):1 R.S.SuttonandA.G.Barto.ReinforcementLearningM.London:MITpress,1998.2 KaelblingLP,LittmanML,MooreAW.ReinforcementLearning:Asurvey.JournalofArtifi
11、cialIntelligenceResearch,1996,4:2372853 SuttonRS,BartoAG.ReinforcementLearning,Cambridge,MA:TheMITPress,19984 GerhardWeiss.MultiagentSystems:AModernApproachtoDistributedArtificialIntelligence.Cambridge,MA:TheMITPress,19995 TsitsiklisJN.AsynchronousstochasticapproximationandQ-learning.MachineLearning
12、,1994,16(3):1852026 LovejoyWS.AsurveyofalgotithmicmethodsforpartiallyobservedMarkovdecisionprocesss.AnnalsofOperationsResearch,1991,28:4765【7】王桂,周志華,周傲英.機(jī)器學(xué)習(xí)及其應(yīng)用.北京:清華大學(xué)出版社,20068 McCullochW,PittsW.Alogicalcalculusoftheideasimmanentinnervousactivity.BulletinofMathematicalBiophysics,1943,5【9】洪家榮.機(jī)器學(xué)習(xí)一
13、一回憶與展望.計(jì)算機(jī)科學(xué),1991,(02):1-8【10】張汝波.強(qiáng)化學(xué)習(xí)理論及應(yīng)用.哈爾濱:哈爾濱工程大學(xué)出版社,2001【11】高陽(yáng),陳世福,陸鑫.強(qiáng)化學(xué)習(xí)研究綜述.自動(dòng)化學(xué)報(bào).2004,30(1):86-10012BartoAG,MahadevanS.RecentAdvancesinHierarchicalReinforcementLearning.DiscreteEventDynamicSystems:TheoryandApplications,2003,13(4):41-77【13】KlopfAH.Aneuronalmodelofclassicalconditioning.Psyc
14、hobiology,1988,16(2):85-12514SinghSP,JaakolaT,JordanMI.ReinforcementLearningwithSoftStateAggregation.NeuralInformationProcessingSystem7,Cambridge,Massachusetts:MITPress,1995:361-36815MoriartyD,SchultzA,GrefenstetteJ.EvolutionaryAlgotithmsforReinformentLearning.JournalofArtificialIntelligenceResearch
15、,1999,11(1):241-27616BertsekasDP,TsitsiklisJN.Neuro-dynamicProgrammingBelmont:AthenaScientific,1996本課題要研究或解決的問(wèn)題和擬采用的研究手段途徑:本課題主要有三大任務(wù):一是學(xué)習(xí)強(qiáng)化學(xué)習(xí)的各種經(jīng)典算法,比擬各個(gè)算法的特征和使用場(chǎng)合.二是學(xué)習(xí)POMDP、PSR、HRL幾個(gè)新的數(shù)學(xué)模型.三是提出創(chuàng)新,對(duì)于PSR模型提出算法創(chuàng)新.對(duì)于第一個(gè)任務(wù),主要是查閱文獻(xiàn),學(xué)習(xí)幾種經(jīng)典算法,并編程對(duì)算法進(jìn)行比擬.進(jìn)行算法比擬時(shí),主要考慮以下幾方面:1 .算法的收斂速度2 .算法收斂后的穩(wěn)定性3 .算法在規(guī)模擴(kuò)大后的
16、泛化水平4 .算法在不同環(huán)境下的適應(yīng)水平5 .改變算法的參數(shù),考察參數(shù)對(duì)算法性能的影響.采用的研究手段主要是進(jìn)行橫向比擬和縱向比擬1 .縱向比擬:對(duì)于同一個(gè)問(wèn)題,使用不同的算法,比擬各算法的性能2 .橫向比擬:對(duì)于同一個(gè)問(wèn)題同一個(gè)算法,改變算法的參數(shù)或問(wèn)題規(guī)?;颦h(huán)境特征,比擬參數(shù)對(duì)算法的影響.第二個(gè)任務(wù),對(duì)于POMDP、PSR、HRL的模型學(xué)習(xí),主要以閱讀文獻(xiàn)為主,通過(guò)查閱各種資料總結(jié)幾種模型的定義、根本框架.最后在論文中加以歸納.第三個(gè)任務(wù)著重于創(chuàng)新性要求,本課題主要是針對(duì)PSR模型下算法的創(chuàng)新.通過(guò)學(xué)習(xí)PSR下的各種算法,對(duì)算法提出改良點(diǎn),并能驗(yàn)證改良的算法性能.一1.承租人擅自將房屋轉(zhuǎn)租、L;轉(zhuǎn)讓或轉(zhuǎn)借的租賃期共年同、收回房屋:房屋租賃合同出租方甲方:XXX,男/女,XXXX年XX月XX日出生,身份證號(hào)XXXXXXXX承租方乙方:XXX,男/女,XXXX年XX月XX日出生,身份證號(hào)XXXXXXXX甲、乙雙方就房屋租賃事宜,達(dá)成如下協(xié)議:一、甲方將位于XX市XX街道XX小區(qū)X號(hào)|ifXXXX號(hào)的房屋出租給乙方居住使用,租賃期限自XX年XX月XX日至XX年XX月XX日,計(jì)X
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 安全生產(chǎn)責(zé)任制度管理
- 安全管理相關(guān)規(guī)定
- 天津安全生產(chǎn)許可證辦理
- 安全生產(chǎn)責(zé)任制資料怎么做
- 防盜設(shè)備云平臺(tái)運(yùn)維策略-洞察及研究
- 【A炊具公司發(fā)展戰(zhàn)略的制定分析案例8400字】
- 【中小學(xué)科學(xué)教育中建立規(guī)律類(lèi)調(diào)查類(lèi)實(shí)踐活動(dòng)案例設(shè)計(jì)3200字】
- 股東對(duì)公司項(xiàng)目資金借款及風(fēng)險(xiǎn)控制協(xié)議
- 2025至2030中國(guó)男士美容SPA行業(yè)市場(chǎng)發(fā)展分析及競(jìng)爭(zhēng)形勢(shì)與投資發(fā)展報(bào)告
- 2025至2030中國(guó)瓶子橡膠塞蓋行業(yè)產(chǎn)業(yè)運(yùn)行態(tài)勢(shì)及投資規(guī)劃深度研究報(bào)告
- 2025屆遼寧省大連市高新園區(qū)七年級(jí)數(shù)學(xué)第二學(xué)期期末考試試題含解析
- 2025+NCCN非小細(xì)胞肺癌診療指南解讀
- ECMO治療暴發(fā)性心肌炎
- 2025CSCO乳腺癌診療指南解讀課件
- 社會(huì)單位消防安全評(píng)估導(dǎo)則
- 衛(wèi)生系列高級(jí)職稱申報(bào)工作量統(tǒng)計(jì)表(醫(yī)療類(lèi))
- 寵物店聘用合同協(xié)議
- 食堂外人出入管理制度
- 大數(shù)據(jù)驅(qū)動(dòng)設(shè)備優(yōu)化設(shè)計(jì)-全面剖析
- 晉升環(huán)境主管述職報(bào)告
- 管理學(xué)基礎(chǔ)(第三版) 課件 徐洪燦 第1-5章 管理概述-組織與組織設(shè)計(jì)
評(píng)論
0/150
提交評(píng)論