決策理論與方法教學(xué)作者羅黨第四章(2)_第1頁
決策理論與方法教學(xué)作者羅黨第四章(2)_第2頁
決策理論與方法教學(xué)作者羅黨第四章(2)_第3頁
決策理論與方法教學(xué)作者羅黨第四章(2)_第4頁
決策理論與方法教學(xué)作者羅黨第四章(2)_第5頁
已閱讀5頁,還剩42頁未讀, 繼續(xù)免費閱讀

付費下載

VIP免費下載

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、(Decision Making Theory and Methods)教育部高等學(xué)校管理科學(xué)與工程類學(xué)科專業(yè)教學(xué)指導(dǎo)委員會教育部高等學(xué)校管理科學(xué)與工程類學(xué)科專業(yè)教學(xué)指導(dǎo)委員會推薦教材推薦教材決策理論與方法決策理論與方法第 2 頁第 2 頁決策理論與方法決策理論與方法第 3 頁第 3 頁學(xué)習(xí)目的學(xué)習(xí)目的了解多階段決策、序貫決策的概念及特點;了解多階段決策、序貫決策的概念及特點;掌握動態(tài)規(guī)劃與決策樹方法及其在多階段決策、掌握動態(tài)規(guī)劃與決策樹方法及其在多階段決策、序貫決策中的應(yīng)用。序貫決策中的應(yīng)用。決策理論與方法決策理論與方法第 4 頁第 4 頁本講內(nèi)容本講內(nèi)容4.3序貫決策序貫決策 4.3.1序

2、貫決策的基本概念序貫決策的基本概念 4.3.2序貫決策的決策方法序貫決策的決策方法決策理論與方法決策理論與方法第 5 頁第 5 頁4.3 序貫決策序貫決策4.3.1 序貫決策的基本概念序貫決策的基本概念 上面的多階段決策,階段數(shù)是確定的。除這種決上面的多階段決策,階段數(shù)是確定的。除這種決策外,還有一些決策的階段數(shù)不是事先確定的,它依策外,還有一些決策的階段數(shù)不是事先確定的,它依賴于執(zhí)行決策過程中出現(xiàn)的情況。這種決策問題稱為賴于執(zhí)行決策過程中出現(xiàn)的情況。這種決策問題稱為序貫決策(序貫決策(sequential decision problem)。)。 序列決策在進(jìn)行決策后又產(chǎn)生一些新的情況,需序

3、列決策在進(jìn)行決策后又產(chǎn)生一些新的情況,需要進(jìn)行新的決策,接著又有一些新的情況,又需要進(jìn)要進(jìn)行新的決策,接著又有一些新的情況,又需要進(jìn)行新的決策。這樣決策、情況、決策行新的決策。這樣決策、情況、決策,這就構(gòu)成,這就構(gòu)成一個序列。一個序列。 決策理論與方法決策理論與方法第 6 頁第 6 頁4.3 序貫決策序貫決策4.3.1 序貫決策的基本概念序貫決策的基本概念 序貫決策是用于隨機性或不確態(tài)定性動態(tài)系統(tǒng)最序貫決策是用于隨機性或不確態(tài)定性動態(tài)系統(tǒng)最優(yōu)化的決策方法。它的特點是:優(yōu)化的決策方法。它的特點是: 1)所研究的系統(tǒng)是動態(tài)的,即系統(tǒng)所處的狀態(tài))所研究的系統(tǒng)是動態(tài)的,即系統(tǒng)所處的狀態(tài)與時間有關(guān),可周

4、期(或連續(xù))地對它觀察;與時間有關(guān),可周期(或連續(xù))地對它觀察; 2)決策是序貫地進(jìn)行的,即每個時刻根據(jù)所觀)決策是序貫地進(jìn)行的,即每個時刻根據(jù)所觀察到的狀態(tài)和以前狀態(tài)的記錄,從一組可行方案中選察到的狀態(tài)和以前狀態(tài)的記錄,從一組可行方案中選用一個最優(yōu)方案(即作最優(yōu)決策),使取決于狀態(tài)的用一個最優(yōu)方案(即作最優(yōu)決策),使取決于狀態(tài)的某個目標(biāo)函數(shù)取最優(yōu)值(極大或極小值);某個目標(biāo)函數(shù)取最優(yōu)值(極大或極小值); 3)系統(tǒng)下一步)系統(tǒng)下一步(或未來或未來)可能出現(xiàn)的狀態(tài)是隨機的可能出現(xiàn)的狀態(tài)是隨機的或不確定的。或不確定的。決策理論與方法決策理論與方法第 7 頁第 7 頁4.3 序貫決策序貫決策4.3.

5、1 序貫決策的基本概念序貫決策的基本概念 系統(tǒng)在每次作出決策后下一步可能出現(xiàn)的狀態(tài)系統(tǒng)在每次作出決策后下一步可能出現(xiàn)的狀態(tài)是不能確切預(yù)知的,存在兩種情況:是不能確切預(yù)知的,存在兩種情況: 1)系統(tǒng)下一步可能出現(xiàn)的狀態(tài)的概率分布是已)系統(tǒng)下一步可能出現(xiàn)的狀態(tài)的概率分布是已知的,可用客觀概率的條件分布來描述。對于這類系知的,可用客觀概率的條件分布來描述。對于這類系統(tǒng)的序貫決策研究得較完滿的是狀態(tài)轉(zhuǎn)移律具有無后統(tǒng)的序貫決策研究得較完滿的是狀態(tài)轉(zhuǎn)移律具有無后效性的系統(tǒng),相應(yīng)的序貫決策稱為馬爾可夫決策過程效性的系統(tǒng),相應(yīng)的序貫決策稱為馬爾可夫決策過程,它是將馬爾可夫過程理論與決定性動態(tài)規(guī)劃相結(jié)合,它是將

6、馬爾可夫過程理論與決定性動態(tài)規(guī)劃相結(jié)合的產(chǎn)物。的產(chǎn)物。 2)系統(tǒng)下一步可能出現(xiàn)的狀態(tài)的概率分布不知)系統(tǒng)下一步可能出現(xiàn)的狀態(tài)的概率分布不知道,只能用主觀概率的條件分布來描述。用于這類系道,只能用主觀概率的條件分布來描述。用于這類系統(tǒng)的序貫決策屬于決策分析的內(nèi)容。統(tǒng)的序貫決策屬于決策分析的內(nèi)容。22,r a Ef E22,r a Ef E22,r a Ef E決策理論與方法決策理論與方法第 8 頁第 8 頁4.3 序貫決策序貫決策4.3.2 序貫決策的決策方法序貫決策的決策方法 序貫決策的過程是:從初始狀態(tài)開始,每個時序貫決策的過程是:從初始狀態(tài)開始,每個時刻做出最優(yōu)決策后,接著觀察下一步實際出

7、現(xiàn)的狀態(tài)刻做出最優(yōu)決策后,接著觀察下一步實際出現(xiàn)的狀態(tài),即收集新的信息,然后再做出新的最優(yōu)決策,反復(fù),即收集新的信息,然后再做出新的最優(yōu)決策,反復(fù)進(jìn)行直至最后。進(jìn)行直至最后。 解決序貫決策問題的有效辦法仍然是決策樹,解解決序貫決策問題的有效辦法仍然是決策樹,解決序貫決策的關(guān)鍵是確定一個決策序列終止的原則。決序貫決策的關(guān)鍵是確定一個決策序列終止的原則。在下例中,這個原則就是:不管到?jīng)Q策的哪個階段,在下例中,這個原則就是:不管到?jīng)Q策的哪個階段,只要有一個非經(jīng)抽樣的后悔期望值小于進(jìn)行一次抽樣只要有一個非經(jīng)抽樣的后悔期望值小于進(jìn)行一次抽樣的費用,決策序列便可終止。的費用,決策序列便可終止。22,r a

8、 Ef E22,r a Ef E22,r a Ef E決策理論與方法決策理論與方法第 9 頁第 9 頁4.3 序貫決策序貫決策4.3.2 序貫決策的決策方法序貫決策的決策方法 例例4-3-1 某工廠的產(chǎn)品每某工廠的產(chǎn)品每1000件裝成一箱出售。件裝成一箱出售。每箱中產(chǎn)品的次品率有每箱中產(chǎn)品的次品率有0.01,0.40,0.90三種可能,三種可能,其概率分別為其概率分別為0.2,0.6,0.2。現(xiàn)在的問題是:出廠前?,F(xiàn)在的問題是:出廠前是否要對產(chǎn)品進(jìn)行嚴(yán)格檢驗,將次品挑出??梢赃x擇是否要對產(chǎn)品進(jìn)行嚴(yán)格檢驗,將次品挑出??梢赃x擇的行動有兩個:的行動有兩個: 整箱檢驗整箱檢驗(a1) ,檢驗費,檢驗

9、費 為每箱為每箱100元;整箱不檢驗元;整箱不檢驗(a) ,但如果顧客在使用中發(fā)現(xiàn)次,但如果顧客在使用中發(fā)現(xiàn)次品,每件次品除條換為合格品外還要賠償品,每件次品除條換為合格品外還要賠償0.25元損失元損失費。費。決策理論與方法決策理論與方法第 10 頁第 10 頁4.3 序貫決策序貫決策為了更好地做出決定可以先從一箱中隨機抽取為了更好地做出決定可以先從一箱中隨機抽取1件作件作為樣本檢驗它,然后根據(jù)這件產(chǎn)品是都次品再決定為樣本檢驗它,然后根據(jù)這件產(chǎn)品是都次品再決定該箱是否要檢驗,抽樣成本為該箱是否要檢驗,抽樣成本為4.2元。進(jìn)行第一次抽元。進(jìn)行第一次抽樣后,除選擇檢驗還是不檢驗外,還可以根據(jù)前面樣

10、后,除選擇檢驗還是不檢驗外,還可以根據(jù)前面抽樣的結(jié)果,考慮再進(jìn)行一次抽樣檢驗如此形成一抽樣的結(jié)果,考慮再進(jìn)行一次抽樣檢驗如此形成一個決策序列。個決策序列。試試進(jìn)行序列決策:進(jìn)行序列決策:(1)是否需要抽樣?(若需要,抽樣幾次?)是否需要抽樣?(若需要,抽樣幾次?)(2)在抽樣或不抽樣的前提下,采用何種方案進(jìn)行)在抽樣或不抽樣的前提下,采用何種方案進(jìn)行檢驗?檢驗?決策理論與方法決策理論與方法第 11 頁第 11 頁【例例8.2】 解:解: 1,2,3分別表示產(chǎn)品次品率為分別表示產(chǎn)品次品率為 0.01 ,0.4,0.9三種狀態(tài)。對于抽樣檢驗一件產(chǎn)品,三種狀態(tài)。對于抽樣檢驗一件產(chǎn)品,X=1和和X=0

11、分分別表示樣品為次品和合格品兩個結(jié)果。結(jié)果值均用期別表示樣品為次品和合格品兩個結(jié)果。結(jié)果值均用期望損失值表示。望損失值表示。序列決策樹圖不能夠一次繪制成功,而是隨著決策過序列決策樹圖不能夠一次繪制成功,而是隨著決策過程序列的延伸和終止依次進(jìn)行。為了簡化圖形,行動程序列的延伸和終止依次進(jìn)行。為了簡化圖形,行動方案方案al和和a2可能出現(xiàn)的狀態(tài)及其對應(yīng)的損失值均在圖可能出現(xiàn)的狀態(tài)及其對應(yīng)的損失值均在圖中略去,僅在方案枝末端標(biāo)注上期望損失值。中略去,僅在方案枝末端標(biāo)注上期望損失值。決策理論與方法決策理論與方法第 12 頁第 12 頁4532867抽樣抽樣繼續(xù)抽樣繼續(xù)抽樣a1a2A1A2A3A4不抽樣

12、不抽樣X1=0X1=1停止抽樣停止抽樣9X2=0X2=1a1a2繼續(xù)抽樣繼續(xù)抽樣停止抽樣停止抽樣(略)(略)決策理論與方法決策理論與方法第 13 頁第 13 頁相應(yīng)的損失矩陣為相應(yīng)的損失矩陣為 12500005 .97)(32ijrR先進(jìn)行第一次抽樣的后驗概率計算先進(jìn)行第一次抽樣的后驗概率計算 3111)()|0()0(jjjpxpXP 2 . 010. 06 . 060. 02 . 099. 0 578. 0 2251001001005 . 2100)(32ijqQ該問題的費該問題的費用矩陣為:用矩陣為:決策理論與方法決策理論與方法第 14 頁第 14 頁3426. 0578. 02 . 0

13、99. 0)0()()|0()0|(111111 XPPXpXP 6228. 0578. 06 . 060. 0)0()()|0()0|(122112 XPPXPXP 0346. 0578. 02 . 010. 0)0()()|0()0|(133113 XPPXPXP 3111)()|1()1(jjjPXPXP 2 .090.06 .040.02 .001.0 422.0 決策理論與方法決策理論與方法第 15 頁第 15 頁【例例8.2】0047. 0422. 02 . 001. 0)1()()|1()1|(111111 XPPXPXP 5687. 0422. 06 . 040. 0)1()(

14、)|1()1|(122112 XPPXPXP 4265. 0422. 02 . 090. 0)1()()|1()1|(133113 XPPXPXP 第一次抽樣的后驗概率矩陣為第一次抽樣的后驗概率矩陣為 4265.05687.00047.00346.06228.03426.0)|(3211 XP01 X11 X決策理論與方法決策理論與方法第 16 頁第 16 頁后驗行動方案的期望損失值矩陣為后驗行動方案的期望損失值矩陣為)|()|(11XPRXaR 4265. 05687. 00047. 00346. 06228. 03426. 012500005 .97 31.53325. 44582. 04

15、0.3321aa01 X11 X一次抽樣后最滿一次抽樣后最滿意方案分別為:意方案分別為:11)1(aXa 21)0(aXa 決策理論與方法決策理論與方法第 17 頁第 17 頁6.894.3250.458219.52.6933.404.3250.458253.3119.525抽樣抽樣a1a2a1a2a1a2A1A2A3A4S1S2不抽樣不抽樣X1=0X1=10.5780.4220.34260.62280.03460.34260.56870.42650.00470.56870.42650.20.60.20.00470.56870.42650.20.20.697.5000012597.500001

16、2597.50000125期望損失值(包含抽樣費用)4.20 若為正品,則無須檢若為正品,則無須檢驗整箱產(chǎn)品;驗整箱產(chǎn)品; 若為次品,則整箱檢若為次品,則整箱檢驗。驗。最滿意方案是,應(yīng)抽取一件產(chǎn)品作樣品檢驗。最滿意方案是,應(yīng)抽取一件產(chǎn)品作樣品檢驗。決策理論與方法決策理論與方法第 18 頁第 18 頁在在A2上上X1=1的決策點處,由于行動方案的決策點處,由于行動方案a1的期望損失的期望損失值值0.4582已小于抽樣費用已小于抽樣費用4.20,所以第二次抽樣分支,所以第二次抽樣分支S2在此處被截斷,決策序列在該分支上終止。在此處被截斷,決策序列在該分支上終止。而在而在Xl0的決策點處,由于行動方

17、案的決策點處,由于行動方案al,a2。的期望。的期望損失值分別為損失值分別為33.40和和4.324,均大于抽樣費用,均大于抽樣費用4.20,因此,在此分支上,可進(jìn)行第二次抽樣,抽樣結(jié)果用因此,在此分支上,可進(jìn)行第二次抽樣,抽樣結(jié)果用X2表示。表示。X20和和X2=1分別表示第二次抽樣抽取一個樣品為正分別表示第二次抽樣抽取一個樣品為正品和次品。品和次品。 決策理論與方法決策理論與方法第 19 頁第 19 頁第二次抽樣的后驗概率計算如下第二次抽樣的后驗概率計算如下: 311212)0|()|0()0|0(jjjXPXPXXP 0346. 010. 06228. 06 . 03426. 099.

18、0 7163. 0 4735. 07163. 03426. 099. 0)0|(21 XP 5217. 07163. 06228. 060. 0)0|(22 XP 0048. 07163. 00346. 010. 0)0|(23 XP 決策理論與方法決策理論與方法第 20 頁第 20 頁 311212)0|()|1()0|1(jjjXPXPXXP 0346. 090. 06228. 040. 03426. 001. 0 2837.0 0121. 02837. 03426. 001. 0)1|(21 XP 8781. 02837. 06228. 040. 0) 1|(22 XP 1098. 02

19、837. 00346. 090. 0) 1|(23 XP 決策理論與方法決策理論與方法第 21 頁第 21 頁第二次抽樣的第二次抽樣的后驗概率矩陣為后驗概率矩陣為 1098. 08781. 00121. 00048. 05217. 04735. 0)|(3212 XP02 X12 X后驗行動方案的期望損失值矩陣為后驗行動方案的期望損失值矩陣為 )|()|(22XPRXaR 1098. 00048. 08781. 05217. 00121. 04735. 012500005 .97 73.136038. 01778. 117.4621aa02 X12 X二次抽樣后最滿二次抽樣后最滿意方案分別為:

20、意方案分別為:12)1(aXa 22)0(aXa 決策理論與方法決策理論與方法第 22 頁第 22 頁由于由于X2=0在的決策點處,方案在的決策點處,方案a2的期望損失值的期望損失值0.6038已小于抽樣費用已小于抽樣費用4.20,則序列決策的這,則序列決策的這一分支應(yīng)該終止。同樣,對于一分支應(yīng)該終止。同樣,對于X2=1決策點處,決策點處,由于方案由于方案a1的期望損失值的期望損失值1.1778也小于抽樣費也小于抽樣費用,則這一分枝也應(yīng)終止。于是,到此決策用,則這一分枝也應(yīng)終止。于是,到此決策序列全部終止。序列全部終止。 決策理論與方法決策理論與方法第 23 頁第 23 頁4.20a1a2s1

21、a1a2s2X1=02533.44.3254.2019.50.578a1a2s3X2=046.170.60384.200.7163a1a2s3X1=113.734.200.28371.1778a1a2s2X1=113.734.200.4220.4582A1A2A3S1S26.892.694.3250.45820.76664.3251.1778決策理論與方法決策理論與方法第 24 頁第 24 頁在在A3上上 X2=0的決策點處,最滿意行動方案的決策點處,最滿意行動方案為為a2 ,截去,截去a1和和 s3;在在 X2=1的決策點處,最滿意行動方案為的決策點處,最滿意行動方案為 a1,截去截去 a2

22、和和 s3。在在 s2狀態(tài)點處,期望損失值為:狀態(tài)點處,期望損失值為: )(7666. 02837. 01778. 17163. 06038. 0元元 決策理論與方法決策理論與方法第 25 頁第 25 頁在在A2上上 X1=0的決策點處,最滿意行動方案為的決策點處,最滿意行動方案為a2 ,截去,截去a1和和 s2;在在 X1=1的決策點處,最滿意行動方案為的決策點處,最滿意行動方案為 a1,截去,截去 a2和和 s2。在在 s1狀態(tài)點處,期望損失值為:狀態(tài)點處,期望損失值為: (元元)69. 2422. 04582. 0578. 0325. 4 在在A1決策點處,最滿意方案的期望損失值為:決策

23、點處,最滿意方案的期望損失值為: )(89. 62 . 469. 2元元 所以截去所以截去a1和和a2。 決策理論與方法決策理論與方法第 26 頁第 26 頁綜上所述,決策是:應(yīng)該進(jìn)行一次抽樣檢驗。綜上所述,決策是:應(yīng)該進(jìn)行一次抽樣檢驗。若為正品,則采取行動方案若為正品,則采取行動方案a2,即整箱產(chǎn)品不予檢,即整箱產(chǎn)品不予檢驗;驗;若為次品,則采取行動方案若為次品,則采取行動方案a1,即整箱產(chǎn)品予以檢,即整箱產(chǎn)品予以檢驗,序列決策過程也可以用簡化決策樹圖表示。驗,序列決策過程也可以用簡化決策樹圖表示。6.892.694.204.3250.4582s10.5780.422a1a24.3250.4

24、621決策理論與方法決策理論與方法第 27 頁第 27 頁4.4馬爾可夫決策馬爾可夫決策研究這樣的一類決策問題:研究這樣的一類決策問題:采取的行動已經(jīng)確定,但將這個行動付諸實踐的采取的行動已經(jīng)確定,但將這個行動付諸實踐的過程又分為幾個時期。在不同的時期,系統(tǒng)可以過程又分為幾個時期。在不同的時期,系統(tǒng)可以處在不同的狀態(tài),而這些狀態(tài)發(fā)生的概率又可受處在不同的狀態(tài),而這些狀態(tài)發(fā)生的概率又可受前面時期實際所處狀態(tài)的影響。前面時期實際所處狀態(tài)的影響。其中一種最簡單、最基本的情形,是每一時期狀其中一種最簡單、最基本的情形,是每一時期狀態(tài)參數(shù)的概率分布只與這一時期的前一時期實際態(tài)參數(shù)的概率分布只與這一時期的

25、前一時期實際所處的狀態(tài)有關(guān),而與更早的狀態(tài)無關(guān),這就是所處的狀態(tài)有關(guān),而與更早的狀態(tài)無關(guān),這就是所謂的馬爾可夫鏈。所謂的馬爾可夫鏈。決策理論與方法決策理論與方法第 28 頁第 28 頁4.4馬爾可夫決策馬爾可夫決策4.4.1馬爾可夫決策問題馬爾可夫決策問題馬氏過程馬氏過程馬爾科夫(馬爾科夫( M . A . Markov )提出一種描述系統(tǒng)狀)提出一種描述系統(tǒng)狀態(tài)轉(zhuǎn)移的數(shù)學(xué)模型,稱為馬爾科夫過程,簡稱馬態(tài)轉(zhuǎn)移的數(shù)學(xué)模型,稱為馬爾科夫過程,簡稱馬氏過程。氏過程。馬氏決策馬氏決策利用馬氏過程分析系統(tǒng)當(dāng)前狀態(tài)并預(yù)測未來狀態(tài)利用馬氏過程分析系統(tǒng)當(dāng)前狀態(tài)并預(yù)測未來狀態(tài)的決策方法,稱為馬爾科夫決策,簡稱馬

26、氏決策。的決策方法,稱為馬爾科夫決策,簡稱馬氏決策。決策理論與方法決策理論與方法第 29 頁第 29 頁4.4馬爾可夫決策馬爾可夫決策4.4.2馬爾可夫鏈與轉(zhuǎn)移概率矩陣馬爾可夫鏈與轉(zhuǎn)移概率矩陣 若隨機過程若隨機過程X(t), tT,對于任意的,對于任意的t1t2tn,tiT都有都有Px(tn)y | x(tn-1)=xn-1, , x(t1)=x1=Px(tn)y | x(tn-1)=xn-1則稱則稱X(t), tT具有馬爾可夫性。具有馬爾可夫性。含義:含義:x(tn)的將來只是通過現(xiàn)在與過去發(fā)生聯(lián)系,一的將來只是通過現(xiàn)在與過去發(fā)生聯(lián)系,一旦現(xiàn)在已知,則將來與過去無關(guān)。旦現(xiàn)在已知,則將來與過去

27、無關(guān)。決策理論與方法決策理論與方法第 30 頁第 30 頁4.4.2馬爾可夫鏈與轉(zhuǎn)移概率矩陣馬爾可夫鏈與轉(zhuǎn)移概率矩陣 條件概率條件概率Pxn=j | xn-1=i 稱為轉(zhuǎn)移概率,表示系統(tǒng)稱為轉(zhuǎn)移概率,表示系統(tǒng)在在n-1步狀態(tài)為步狀態(tài)為i時,第時,第n步狀態(tài)為步狀態(tài)為j的概率的概率一一步轉(zhuǎn)步轉(zhuǎn)移概率移概率。若一步轉(zhuǎn)移概率不隨時間變化若一步轉(zhuǎn)移概率不隨時間變化(具有穩(wěn)定性具有穩(wěn)定性),記記 pijPxn=j | xn-1=i ,稱矩陣,稱矩陣P(pij )為轉(zhuǎn)移概率矩陣。為轉(zhuǎn)移概率矩陣。其中:其中:)(對所有(對所有)(對所有(對所有jipipijjij,01 決策理論與方法決策理論與方法第 31

28、 頁第 31 頁4.4.2馬爾可夫鏈與轉(zhuǎn)移概率矩陣馬爾可夫鏈與轉(zhuǎn)移概率矩陣馬爾可夫鏈定義馬爾可夫鏈定義如果隨機過程如果隨機過程Xt, t=1,2, ,滿足下述性質(zhì),則稱,滿足下述性質(zhì),則稱Xt是一個有限狀態(tài)的馬爾可夫(是一個有限狀態(tài)的馬爾可夫(Markov)鏈。)鏈。(1)具有有限種狀態(tài);)具有有限種狀態(tài);(2)具有馬爾可夫性;)具有馬爾可夫性;(3)轉(zhuǎn)移概率具有平穩(wěn)性。)轉(zhuǎn)移概率具有平穩(wěn)性。決策理論與方法決策理論與方法第 32 頁第 32 頁4.4馬爾可夫決策馬爾可夫決策例:例: 某企業(yè)為使技術(shù)人員具有多方面經(jīng)驗,實行技某企業(yè)為使技術(shù)人員具有多方面經(jīng)驗,實行技術(shù)人員在技術(shù)部門、生產(chǎn)部門和銷售

29、部門的輪換術(shù)人員在技術(shù)部門、生產(chǎn)部門和銷售部門的輪換工作制度。輪換辦法采取隨機形式,每半年輪換工作制度。輪換辦法采取隨機形式,每半年輪換一次。初始狀態(tài),即技術(shù)人員開始是在某部門工一次。初始狀態(tài),即技術(shù)人員開始是在某部門工作的概率用作的概率用Pj(0)表示,表示,j1,2,3;pij表示處于第表示處于第i個部門的技術(shù)人員在半年后轉(zhuǎn)移到第個部門的技術(shù)人員在半年后轉(zhuǎn)移到第j個部門的概個部門的概率。率。決策理論與方法決策理論與方法第 33 頁第 33 頁4.4馬爾可夫決策馬爾可夫決策已知:已知: 025. 075. 05 . 05 . 0005 . 05 . 0333231232221131211pp

30、pppppppP 31,31,31,)0(3)0(2)0(1)0(PPPP問某人開始在第問某人開始在第 部門工作,一年后在第部門工作,一年后在第 部門部門工作的概率是多少?一年后,技術(shù)人員在工作的概率是多少?一年后,技術(shù)人員在3個個部門工作的概率各為多少?部門工作的概率各為多少?決策理論與方法決策理論與方法第 34 頁第 34 頁4.4馬爾可夫決策馬爾可夫決策解:解:由狀態(tài)由狀態(tài)1經(jīng)過兩次轉(zhuǎn)移到狀態(tài)經(jīng)過兩次轉(zhuǎn)移到狀態(tài)2的所有途徑為的所有途徑為112,122,132記由狀態(tài)記由狀態(tài)i經(jīng)兩步轉(zhuǎn)移到狀態(tài)經(jīng)兩步轉(zhuǎn)移到狀態(tài)j的概率為的概率為 ,則:,則:)2(ijp5 . 025. 005 . 05 .

31、 05 . 05 . 0321322121211)2(12 ppppppp若某人開始在第一部門工作,則一年后在第二若某人開始在第一部門工作,則一年后在第二部門工作的概率是部門工作的概率是50%。決策理論與方法決策理論與方法第 35 頁第 35 頁4.4馬爾可夫決策馬爾可夫決策解:解:記一年后技術(shù)人員在第記一年后技術(shù)人員在第j個部門工作的概率為個部門工作的概率為Pj(2),則:則: 245,2411,31125. 05 . 0375. 025. 0375. 0375. 025. 05 . 025. 031,31,31025. 075. 05 . 05 . 0005 . 05 . 031,31,3

32、1,22)0()2(3)2(2)2(1)2(PPPPPP一年后,技術(shù)一年后,技術(shù)人員在人員在3個部個部門工作的概率門工作的概率決策理論與方法決策理論與方法第 36 頁第 36 頁4.4馬爾可夫決策馬爾可夫決策由上例可看出由上例可看出312321221121)2(21331323121311)2(13321322121211)2(12311321121111)2(11pppppppppppppppppppppppppppp 從而有從而有 2)2(PPPpij 一般地,有一般地,有 nnijPp )(決策理論與方法決策理論與方法第 37 頁第 37 頁4.4馬爾可夫決策馬爾可夫決策4.4.3穩(wěn)態(tài)概

33、率穩(wěn)態(tài)概率 為穩(wěn)態(tài)概率。為穩(wěn)態(tài)概率。 jxPPnnnjnj limlim)( jnnnnjxPixjxP lim|lim0由于初始狀態(tài)對由于初始狀態(tài)對n步轉(zhuǎn)移后所處狀態(tài)的影響隨步轉(zhuǎn)移后所處狀態(tài)的影響隨n增大而減少,故:增大而減少,故:因此我們可以從因此我們可以從n步轉(zhuǎn)移矩陣的步轉(zhuǎn)移矩陣的 極限取極限取得穩(wěn)態(tài)概率分布得穩(wěn)態(tài)概率分布 nPPPnn1 PPPnnnn1)(limlim 稱稱決策理論與方法決策理論與方法第 38 頁第 38 頁4.4馬爾可夫決策馬爾可夫決策得得 kkk 111Pkkk 111且且 k 21 P 11 kii 此方程組稱為穩(wěn)態(tài)方程。此方程組稱為穩(wěn)態(tài)方程。記記則則決策理論與

34、方法決策理論與方法第 39 頁第 39 頁4.4.4 馬爾可夫應(yīng)用實例馬爾可夫應(yīng)用實例例例1 某生產(chǎn)商標(biāo)為某生產(chǎn)商標(biāo)為A的產(chǎn)品的廠商為了與另外兩個的產(chǎn)品的廠商為了與另外兩個生產(chǎn)同類產(chǎn)品生產(chǎn)同類產(chǎn)品B和和C的廠家競爭,有三種可供選擇的的廠家競爭,有三種可供選擇的措施:措施:( (1) )發(fā)放有獎債券;發(fā)放有獎債券;( (2) )開展廣告宣傳;開展廣告宣傳;( (3) )優(yōu)優(yōu)質(zhì)售后服務(wù)。三種方案分別實施以后,經(jīng)統(tǒng)計調(diào)查質(zhì)售后服務(wù)。三種方案分別實施以后,經(jīng)統(tǒng)計調(diào)查可知,該類商品的市場占有率的轉(zhuǎn)移矩陣分別是可知,該類商品的市場占有率的轉(zhuǎn)移矩陣分別是 75. 015. 010. 010. 080. 01

35、0. 0025. 0025. 095. 01P 75. 015. 010. 010. 075. 015. 005. 005. 090. 02P 70. 015. 015. 010. 080. 010. 005. 005. 090. 03P決策理論與方法決策理論與方法第 40 頁第 40 頁 75. 015. 010. 010. 08 . 010. 0025. 0025. 095. 0)1(3)1(2)1(1)1(3)1(2)1(1 該類商品的月總銷售量為該類商品的月總銷售量為1000萬件,每件可獲利萬件,每件可獲利1元。元。另外,三種措施的成本費分別為另外,三種措施的成本費分別為150萬,萬,

36、40萬,萬,30萬。萬。為長遠(yuǎn)利益考慮,生產(chǎn)商標(biāo)為為長遠(yuǎn)利益考慮,生產(chǎn)商標(biāo)為A的產(chǎn)品的廠商應(yīng)該的產(chǎn)品的廠商應(yīng)該采取何種措施?采取何種措施?解:解:采取第一種措施的穩(wěn)態(tài)概率采取第一種措施的穩(wěn)態(tài)概率解得:解得:7121432)1(3)1(2)1(1 且且 11 kii 決策理論與方法決策理論與方法第 41 頁第 41 頁112113116)3(3)3(2)3(1 解:解:同理可解出采取第二、第三種措施的穩(wěn)同理可解出采取第二、第三種措施的穩(wěn)態(tài)概率分別為:態(tài)概率分別為:3471743419)2(3)2(2)2(1 計算計算生產(chǎn)生產(chǎn)A的廠商采取三種方案的期望利潤如的廠商采取三種方案的期望利潤如下:下:因此因此生產(chǎn)生產(chǎn)A的廠商應(yīng)采取的長期策略為方案的廠商應(yīng)采取的長期策略為方案(2)。決策理論與方法決策理論與方法第 42 頁第 42 頁 例例2 我國出口某種設(shè)備,在國際市場上的銷售狀況有兩我國出口某種設(shè)備,在國際市場上的銷售狀況有兩種:暢銷和滯銷。暢銷每年可以獲利種:暢銷和滯銷。暢銷每年可以獲利100萬元,滯萬元,滯銷時每年僅獲利銷時每年僅獲利30萬元。以一年為一個時期,如果萬元。以一年為一個時期,如果不采用廣告推

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論