第 6 章 博弈論基礎(chǔ)_第1頁(yè)
第 6 章 博弈論基礎(chǔ)_第2頁(yè)
第 6 章 博弈論基礎(chǔ)_第3頁(yè)
第 6 章 博弈論基礎(chǔ)_第4頁(yè)
第 6 章 博弈論基礎(chǔ)_第5頁(yè)
已閱讀5頁(yè),還剩50頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、博弈論基礎(chǔ) (對(duì)應(yīng)教材第6章) 現(xiàn)代博弈論開(kāi)始于1928年馮諾伊曼的工作 本章學(xué)習(xí)要點(diǎn) ? 理解博弈論的基本概念 ?參與人,策略,收益(收益矩陣)?最佳應(yīng)對(duì),占優(yōu)策略?納什均衡 ?混合策略,混合策略均衡?帕累托最優(yōu),社會(huì)最優(yōu) ? 幾種典型博弈的類型 ? 體會(huì)“情景博弈求解”過(guò)程中的思想 博弈從一個(gè)例子開(kāi)始? “復(fù)習(xí)考試”還是“準(zhǔn)備報(bào)告”? ?假設(shè)在截止日期前一天,你有兩件要做的事情:一是復(fù)習(xí)(為了參加考試),二是準(zhǔn)備(給一個(gè)報(bào)告)。你只能選擇做一項(xiàng)。 ?考試成績(jī)可以預(yù)計(jì) ? 如果復(fù)習(xí),則考試成績(jī)92分,沒(méi)復(fù)習(xí),則80分 ?報(bào)告需要你和你的拍檔合作完成 ? 如果你和拍檔都準(zhǔn)備報(bào)告,則每人都是10

2、0分 ? 如果只有一人準(zhǔn)備報(bào)告,則每人都是92分 ? 如果兩人都沒(méi)準(zhǔn)備報(bào)告,則每人都是84分 ?那么你該選擇做什么呢?(假設(shè)你和拍檔各自獨(dú)立考慮這個(gè)問(wèn)題) 例子:“考試-報(bào)告”博弈? 設(shè)你們都追求平均成績(jī)的最大化: ?你和搭檔都準(zhǔn)備報(bào)告,則平均成績(jī)均為(80+100)/2 = 90分 ?你和搭檔都準(zhǔn)備?考試成績(jī)可以預(yù)期: ? 如果復(fù)習(xí),則考試成績(jī)92分 ? 如果沒(méi)復(fù)習(xí),則考試成績(jī)80分 ?報(bào)告是你和你的拍檔合作完成的: ? 如果你和拍檔都準(zhǔn)備報(bào)告,則每人100分 ? 如果只有一人準(zhǔn)備報(bào)告,則每人92分 ? 如果兩人都沒(méi)準(zhǔn)備報(bào)告,則每人84分 考試,則平均成 ? 若一方復(fù)習(xí)考試,另一方準(zhǔn)備報(bào)告:

3、? 準(zhǔn)備報(bào)告一方的得:(80+92)/2 =86分 (92+84)/2 = 88分 ? 復(fù)習(xí)的一方得:(9292)/2 = 92分收益矩陣(表達(dá)收益的一種直觀方式)你的拍檔準(zhǔn)備報(bào)告復(fù)習(xí)考試你準(zhǔn)備報(bào)告復(fù)習(xí)考試90, 9092, 8686, 9288, 88?其中第一個(gè)數(shù)字是“你”的收益,第二個(gè)是“拍檔”的 收益(也稱“回報(bào)”,payoff)博弈的基本要素? 一般情況下,博弈具有三個(gè)要素:?(1) 參與者(至少兩個(gè));?(2) 策略集:每個(gè)參與者都有一組關(guān)于如何行為的備選項(xiàng),此處備選項(xiàng)指參與者的可能策略。?(3)收益(回報(bào)):每個(gè)策略行為的選擇,都會(huì)使參與人得到一個(gè)收益。 ? 這個(gè)收益結(jié)果還受互動(dòng)

4、中他人策略選擇的影響。 ? 同一組策略,不同參與人的收益可能不同 通常,收益的記號(hào):P1(S,T), P2(S,T) 博弈行為推理的幾點(diǎn)基本假設(shè)? 每個(gè)參與人對(duì)博弈結(jié)構(gòu)(收益矩陣)有充分了解。 ? 參與人都是理性的(ra:onal) ?追求自己的收益最大化(盡量大) ?也知道其他參與人也是如此 ? 決策的獨(dú)立性 ?不商量 ? 嚴(yán)格占優(yōu)策略(strictly dominant strategy):對(duì)一個(gè)參與人(A)來(lái)說(shuō),若存在一個(gè)策略,無(wú)論另一個(gè)參與人(B)選擇何種行為策略,該策略都是最佳選擇,則這個(gè)策略就稱為是A的嚴(yán)格占優(yōu)策略。 ? 這個(gè)例子中,“復(fù)習(xí)考試”對(duì)雙方都是嚴(yán)格占優(yōu)策略。 “考試-報(bào)

5、告”博弈中的行為推理你的拍檔準(zhǔn)備報(bào)告復(fù)習(xí)考試你準(zhǔn)備報(bào)告復(fù)習(xí)考試90, 9092, 8686, 9288, 88“囚徒困境”? 假設(shè)有兩個(gè)疑犯被警察抓住。并且被分開(kāi)關(guān)押在不同的囚室。 ? 警察強(qiáng)烈懷疑他們和一場(chǎng)搶劫案有關(guān)。但是,沒(méi)有充足的證據(jù)。然而,他們都拒捕的事實(shí)也是可判刑的。 ? 兩個(gè)疑犯都被告知以下結(jié)果: ? “如果你坦白,而另外一人抵賴,則你馬上釋放;另外一人將承擔(dān)全部罪行,將會(huì)被 判刑10年 ? 如果你們都坦白,你們的罪行將被證實(shí)。但由于你們有認(rèn)罪的表現(xiàn)判刑4年。 ? 如果你們都不坦白,那么沒(méi)有證據(jù)證明你們的搶劫罪,我們將以拒捕罪控告你們判刑1年。 ? 另外一方也正在接受這樣的審訊。你

6、是坦白還是抵賴?”? 疑犯1和疑犯2的嚴(yán)格占優(yōu)策略都是“坦白” ? 盡管如果兩人都抵賴會(huì)都判得少些 ?刻畫(huà)了“有關(guān)個(gè)體私利前,建立合作是十分困難”的模型。 “囚徒困境”的收益矩陣疑犯2抵賴坦白疑犯1抵賴坦白-1, -10, -10-10, 0-4, -4 ? 這種類型通常稱為軍備競(jìng)賽。競(jìng)爭(zhēng)雙方為保持彼此實(shí)力相當(dāng),都會(huì)選擇生產(chǎn)更具危險(xiǎn)性的武器,盡管對(duì)自己內(nèi)部會(huì)有傷害 ?運(yùn)動(dòng)員傷害身體,國(guó)家影響民生?!芭d奮劑”博弈運(yùn)動(dòng)員2沒(méi)服用服用運(yùn)動(dòng)員1沒(méi)服用服用3, 34, 11, 42, 2關(guān)于“收益”的討論(收益決定選擇)? “考試-報(bào)告”博弈,如果降低考試難度:只要復(fù)習(xí)了,就會(huì)得到100分;否則,也可得

7、到96分。 你的拍檔準(zhǔn)備報(bào)告復(fù)習(xí)考試你準(zhǔn)備報(bào)告復(fù)習(xí)考試98, 9896, 9494, 9692, 92囚徒困境類似,如果改變收益矩陣,情況也可不一樣最佳應(yīng)對(duì)與占優(yōu)策略? 設(shè)S是參與人甲的一個(gè)選擇策略,T是參與人乙的一個(gè)選擇策略。在收益矩陣中的某個(gè)單元格對(duì)應(yīng)這策略組(S,T)。 ?P1(S,T):表示參與人甲從這組決策獲得的收益 ?P2(S,T):表示參與人乙從這組決策獲得的收益 ? 最佳應(yīng)對(duì):針對(duì)參與人乙的策略T,若參與人甲采用策略S產(chǎn)生的收益大于或等于自己的任何其他策略,則稱參與人甲的策略S是參與人乙的策略T的最佳應(yīng)對(duì)。 P1(S,T) P1(S,T), 其中, S是參與人甲除S外的任何其他

8、策略。嚴(yán)格最佳應(yīng)對(duì)? 嚴(yán)格最佳應(yīng)對(duì):若S會(huì)產(chǎn)生比任何應(yīng)對(duì)策略T的其他策略都更高的收益,則稱參與人甲的策略S是對(duì)于參與人乙的策略T的嚴(yán)格最佳應(yīng)對(duì)。 P1(S,T) P1(S,T) 其中,S是參與人甲的所有其他策略。 ? 注:最佳應(yīng)對(duì)的概念是針對(duì)對(duì)方的某一個(gè)策略(T),相對(duì)于自己的所有策略而言的 ? 對(duì)于同一個(gè)T,最多只可能有一個(gè)嚴(yán)格最佳應(yīng)對(duì) ? 對(duì)于不同的T,最佳應(yīng)對(duì)可能相同,也可能不同 占優(yōu)策略與嚴(yán)格占優(yōu)策略? 定義:(從最佳應(yīng)對(duì)角度給出) ?參與人甲的占優(yōu)策略S,是指該策略對(duì)于參與人乙的每一策略都是最佳應(yīng)對(duì)。 ?參與人甲的嚴(yán)格占優(yōu)策略S,是指該占優(yōu)策略對(duì)于參與人乙的每一策略都是嚴(yán)格最佳應(yīng)對(duì)。

9、 ? 如果參與人有嚴(yán)格占優(yōu)策略,則可預(yù)期他會(huì)采取該策略(與基本假設(shè)的一致性)。 ? 注:占優(yōu)策略的概念是相對(duì)于對(duì)方所有策略而言的。 并不是每人總有嚴(yán)格占優(yōu)策略? 例子:“營(yíng)銷戰(zhàn)略”博弈 ?假設(shè)有兩家公司,分別要規(guī)劃生產(chǎn)并銷售同一種新產(chǎn)品。該產(chǎn)品有兩款可能的規(guī)格:廉價(jià)(低檔)或高檔。如何決策? ?設(shè)顧客總體被分成兩個(gè)市場(chǎng):一部分消費(fèi)群體(60%)只購(gòu)買廉價(jià)商品,另一部分消費(fèi)群體(40%)只購(gòu)買高檔次商品。 ?每家公司從廉價(jià)或高檔次商品所得利潤(rùn)是等同的(因此利潤(rùn)僅取決于市場(chǎng)占有率)。 ?每家公司都追求利潤(rùn)最大化?!盃I(yíng)銷戰(zhàn)略”博弈? 假設(shè) ? 若兩家公司分別定位生產(chǎn)不同類型的產(chǎn)品,則每家公司都會(huì)得到

10、該商品市場(chǎng)的全部份額。 ? 公司1品牌形象更佳。因此,若這兩家公司在同一市場(chǎng)(廉價(jià)或高檔次)中競(jìng)爭(zhēng),則公司1可以得到80%的市場(chǎng)銷售量,公司2只能得到20的市場(chǎng)。 公司2廉價(jià)高檔次公司1廉價(jià)高檔次0.48, 0.120.4, 0.60.6, 0.4 0.32, 0.08? 可以預(yù)測(cè)此博弈的發(fā)展趨向。即公司1將會(huì)采取廉價(jià)策略,公司2將會(huì)采取高檔次策略。博弈的行為推理? 如果參與人都有嚴(yán)格占優(yōu)策略,則可以預(yù)計(jì)他們均會(huì)采取嚴(yán)格占優(yōu)策略; ? 如果只有一個(gè)參與人有嚴(yán)格占優(yōu)策略,則這個(gè)參與人會(huì)采取嚴(yán)格占優(yōu)策略,而另一方會(huì)采取此策略的最佳應(yīng)對(duì)。 ? 如果兩個(gè)參與人都沒(méi)有嚴(yán)格占優(yōu)策略呢?無(wú)占優(yōu)策略例子(三客

11、戶博弈)? 假設(shè)有兩家公司,都希望和A、B、C三個(gè)大客戶之一洽談生意。每家公司都有三種可能的策略:是否找客戶A、B或C。 ? 他們決策的條件如下所示:? 若兩家公司都找同一個(gè)客戶,則該客戶會(huì)給每個(gè)公司一半的業(yè)務(wù)。? 公司1規(guī)模太小,以至于不能靠自身找到客戶源。所以,只要它和公司2分別尋找不同的客戶洽談生意,則公司1獲得的收益將會(huì)是0(生意做不成)。? 假設(shè)公司2單獨(dú)尋找客戶B或C洽談生意,則會(huì)得到客戶B或C的全部業(yè)務(wù)。但是A 是一個(gè)大客戶。尋找客戶A洽談生意時(shí),必須和其它公司合作才能接下業(yè)務(wù)。 ? 因?yàn)锳是一個(gè)大客戶,和它做生意的收益是8(假設(shè)兩家公司合作,則每家公司會(huì)得到收益4)。但是,和B

12、或C做生意的收益價(jià)值是2(合作的話,每個(gè)公司收益是1)“三客戶”博弈的推理? 收益矩陣 公司2ABCA公司1 BC4, 40,00,00, 21, 10, 20, 20, 21, 1? 兩家公司都沒(méi)有嚴(yán)格占優(yōu)策略 納什均衡? 假定參與人甲選擇策略S,參與人乙選擇策略T。若S是T的最佳應(yīng)對(duì),且T也是S的最佳應(yīng)對(duì),則稱策略組(S ,T)是一個(gè)納什均衡。 ?在均衡狀態(tài),任何參與人都沒(méi)有動(dòng)機(jī)(理性的理由)去換一種策略。 ?納什均衡可以被看成是一種信念上的均衡 ? 互為最佳應(yīng)對(duì),誰(shuí)也不可能通過(guò)單方面改變策略而得到額外好處,盡管如果兩人都改變可能都會(huì)更好(相比都不改變而言) ? 存在納什均衡:(A,A)

13、? 尋找納什均衡的兩種途徑: ?一是,檢查每一個(gè)策略組,看它們中的每一項(xiàng)是否是彼此間策略的最佳應(yīng)對(duì)策略。 ?二是,找出每個(gè)參與人對(duì)于對(duì)方每個(gè)策略的最佳應(yīng)對(duì),然后發(fā)現(xiàn)互為最佳應(yīng)對(duì)的策略組。“三客戶”博弈的納什均衡公司2ABCA公司1 BC4, 40,00,00, 21, 10, 20, 20, 21, 1多重均衡:協(xié)調(diào)博弈? 多重均衡存在多個(gè)均衡 ? 例子:協(xié)調(diào)博弈 ?假設(shè)你和你拍檔都為一個(gè)合作項(xiàng)目準(zhǔn)備幻燈片簡(jiǎn)報(bào)(雙方不能通過(guò)電話等方式聯(lián)系商量)。 ?你必須決定是用微軟的PPT或是用蘋果的Keynote軟件來(lái)制作你負(fù)責(zé)的半份幻燈片。 ?假設(shè)你們使用同樣的軟件來(lái)設(shè)計(jì),那就比較容易合并你們的幻燈片。

14、? 存在兩個(gè)納什均衡:(PPT,PPT),(Keynote,Keynote)。 ? 如何預(yù)測(cè)協(xié)調(diào)博弈中參與人的行為? ? 托馬斯 謝林(獲得2005年諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng))提出一種聚點(diǎn)的想法,利用一些其他外部因素,例如社會(huì)習(xí)俗。協(xié)調(diào)博弈的推理你的拍檔PPTKeynote你PPTKeynote1, 10,00,01,1? 謝林的聚點(diǎn)理論表明,可以預(yù)測(cè)到參與人會(huì)精選策略,傾向于收益情況更好的均衡。 不對(duì)等協(xié)調(diào)博弈? 假設(shè)你和項(xiàng)目拍檔都更喜歡使用蘋果軟件。 你的拍檔PPTKeynote你PPTKeynote1, 10,00,02,2? 此時(shí)很難預(yù)測(cè)具體哪種均衡會(huì)被采取。 ? 可以通過(guò)了解他們之間平常發(fā)生沖

15、突時(shí)解決的慣例來(lái)預(yù)測(cè)。兩人的喜好不同呢? 假設(shè)你和你的拍檔喜歡的軟件不同。 你的拍檔PPTKeynote你PPTKeynote1, 20,00,02,1 ? 選擇何種均衡?要在高收益和由于另一方不合作而造成損失之間進(jìn)行權(quán)衡。 獵鹿博弈? 假設(shè)兩獵人外出獵物。若他們合作,則可以獵到鹿(這可以給獵者帶來(lái)最高的收益)。 ? 獵人若分開(kāi)單干,都能獵到兔。 ? 若一方想單獨(dú)獵鹿,則收益是0。另一方依然能獵到兔。 獵人2獵鹿獵兔獵人1獵鹿4,40,3獵兔3,03,3多重均衡:鷹鴿博弈? 假設(shè)兩只動(dòng)物要決定一塊食物在彼此之間何如分配。 ? 每種動(dòng)物都可以選擇爭(zhēng)奪行為(鷹派策略)或分享行為(鴿派策略)。 ?若

16、兩種動(dòng)物都選擇分享行為,他們將會(huì)均勻的分配食物,各自的收益是3。 ?若一方行為表現(xiàn)為爭(zhēng)奪,另一方行為表現(xiàn)是分享,則爭(zhēng)奪方會(huì)得到大多數(shù)食物,獲得收益是5,分享方只能得到收益為1。 ?當(dāng)兩只動(dòng)物都表現(xiàn)為爭(zhēng)奪行為,由于在爭(zhēng)奪中踐踏了食物,則它們得到的收益將為0。? 很難預(yù)測(cè)參與者的行為 ? 納什均衡概念能有助于縮小合理的預(yù)測(cè)范圍,但它并不能給出唯一的預(yù)測(cè)。鷹鴿博弈推理動(dòng)物2鴿派鷹派動(dòng)物1鴿派鷹派3, 35,11,50,0幾種典型多均衡博弈類型對(duì)比動(dòng)物2鴿派鷹派鴿派鷹派3,35,11,50,0你的拍檔PPTKeynotePPTKeynote1,10,00,02,2你的拍檔PPTKeynotePPTKe

17、ynote1,20,00,02,1獵人2獵鹿獵兔獵鹿獵兔4,43,00,33,3簡(jiǎn)單博弈的推理思路? 如果雙方都有嚴(yán)格占優(yōu)策略,則都會(huì)采用之 ? 如果只有一方有嚴(yán)格占優(yōu)策略,則可以預(yù)測(cè)另一方會(huì)采用此策略的最佳應(yīng)對(duì) ? 如果不存在嚴(yán)格占優(yōu)策略,則尋找納什均衡 ?存在一個(gè)納什均衡,該均衡對(duì)應(yīng)合理結(jié)果 ?存在多個(gè)納什均衡(需要額外信息輔助決策) ? 協(xié)調(diào)博弈,鷹鴿博弈 ?均衡有助于縮小考慮范圍,但不保證有效預(yù)測(cè) ? 如果不存在納什均衡,該怎么辦? ? 此時(shí),不存在一組互為最佳應(yīng)對(duì)(納什均衡)混合策略? 例子:硬幣配對(duì)“零和博弈”(zero sum game) ? 兩個(gè)參與人各持一枚硬幣,同時(shí)選擇手中

18、硬幣的正反面。 ? 若他們硬幣的朝向相同,參與人乙將贏得參與人甲的硬幣。反之,則參與人甲將贏得參與人乙的硬幣。 參與人乙正面H反面T參與人甲正面H反面T-1,+1 +1,-1+1,-1-1,+1混合策略的引入? 引入隨機(jī)性,考慮參與人將以一定的概率分布在不同策略間進(jìn)行選擇,一種分布對(duì)應(yīng)一個(gè)“混合策略”(此時(shí),選擇策略就是選擇分布)? 對(duì)于雙策略(H和T)博弈,混合策略則可簡(jiǎn)略表示為一個(gè)概率。純策略就是概率為(0,1)的混合策略。? 通常,我們說(shuō)? 參與人1的策略是概率p,是指參與人1以概率p執(zhí)行H;以概率1-p執(zhí)行T? 參與人2的策略是概率q,是指參與人2以概率q執(zhí)行H,以概率1-q執(zhí)行T混合

19、策略的收益? 采用收益期望作為策略的回報(bào)測(cè)度 ? 設(shè)參與人1采用概率p執(zhí)行H,1-p執(zhí)行T,則: ? 若參與人2采用H,則其收益期望是 ? 若參與人2采用T,則其收益期望是 類似地,可討論參與人2采用概率混合策略的情形 P 2(p,H)= p!P 2(H,H)+(1 p)!P 2(T,H)P 2(p,T)= p!P 2(H,T)+(1 p)!P 2(T,T)混合策略的均衡? 混合策略的納什均衡:它是一對(duì)混合策略,彼此都是對(duì)方的最佳應(yīng)對(duì)(期望收益)? 納什的奠基性貢獻(xiàn):證明了具有有限參與者和有限純策略集的博弈一定存在納什均衡(包括混合策略均衡) ? 一般來(lái)說(shuō),找到混合策略的納什均衡是很困難的,但

20、在某些特定條件下可能有系統(tǒng)的方法。 雙人雙策略、沒(méi)有含純策略均衡的博弈中的混合策略納什均衡求解? 給定H,T:基本純策略。按照納什定理,存在一個(gè)混合策略的納什均衡(p,q),即p是q的最佳應(yīng)對(duì),q也是p的最佳應(yīng)對(duì)。如何求p和q? ? “沒(méi)有含純策略的均衡”的前提意味著p,q都是嚴(yán)格在0和1之間。 ? 確定參與人2采用的q的方法(確定p的方法對(duì)稱) ? 基于q和收益矩陣中的值,分別寫出參與人1采用H和采用T的收益期望(q的函數(shù)),即P1(H,q)和P1(T,q),也就是相當(dāng)于P1(1,q)和P1(0,q) ? 下面的關(guān)鍵是要認(rèn)識(shí)到此時(shí)必定有:P1(1,q)P1(0,q),從而可以借助這等式求出q

21、 P1(1,q)P1(0,q):在兩個(gè)端點(diǎn)“無(wú)差異”原理? 推理的思路是 ? 若等式不成立,例如 P1(1,q) P1(0,q),則將導(dǎo)致H(即p=1)是參與人1的最佳應(yīng)對(duì)的結(jié)論,即(H,q)是一個(gè)納什均衡,這與“不含純策略納什均衡”的前提矛盾 ? 直觀上,若 P1(T,q) P1(H,q),參與人1在應(yīng)對(duì)q的時(shí)候采用H就是最好,將任何機(jī)會(huì)(概率)分給T都只會(huì)導(dǎo)致較低收益 ?數(shù)學(xué)上就是 P1(p,q) = pP1(H,q)+(1-p)P1(T,q) P1(H,q), for p1/3,則損失會(huì)比較大 ? 為什么進(jìn)攻方在均衡的拋球概率只有p=1/3,但防守方還要更多的防守拋球? ? 由于拋球?qū)M(jìn)

22、攻方更有利,需要加大防守力度 防守方進(jìn)攻方拋球(1/3)持球(2/3)防守拋球(2/3)0,0 5,-5攔斷持球 (1/3)10,-100,0例子:罰點(diǎn)球博弈? 2002年,有人做了一項(xiàng)有關(guān)罰點(diǎn)球研究 ?射手要決定從球門的左側(cè)或是右側(cè)進(jìn)球。 ?守門員則是要決定是撲向左側(cè)或是右側(cè)攔斷進(jìn)球。 ?兩人需要同時(shí)做選擇。 守門員LR射球方LR0.58,-0.58 0.93,-0.930.95,-0.950.70,-0.70統(tǒng)計(jì)數(shù)據(jù)??梢钥吹?,罰球方總是有贏頭(符合實(shí)際)。? 計(jì)算得到的均衡: 0.58q+0.95(1-q)=0.93q+0.70(1-q),q=0.42 -0.58p-0.93(1-p)=

23、-0.95p-0.70(1-p),p=0.39 ? 實(shí)戰(zhàn)統(tǒng)計(jì)得到的數(shù)據(jù):q=0.42, p=0.40混合策略均衡守門員L(q)R射球方L(p)R0.58,-0.58 0.93,-0.930.95,-0.950.70,-0.70? 除了兩個(gè)純策略均衡(PPT,PPT)和(Keynote,Keynote)外,還存在一個(gè)混合策略均衡:q=2(1-q), q=2/3;p=2(1-p), p=2/3 兼具純策略和混合策略均衡的博弈? 例子:不平衡的協(xié)調(diào)博弈 你的拍檔PPT(q)Keynote你PPT(p)Keynote1,10,00,02,2關(guān)于混合策略均衡的一般性推理? 若雙人雙策略博弈存在混合策略均

24、衡(p,q),0 p, q 收益期望(p,q) ,即沒(méi)有q1是p的最佳應(yīng)對(duì),從而與存在上述混合策略均衡矛盾 ? 于是可利用這無(wú)差異原則,試求p;類似地,求q。(注意,并不保證總能求出在(0,1)上的p和q) ? 若分別求得了(0,1)區(qū)間中的p和q,則說(shuō)明 ? 對(duì)于甲的策略p,乙采用0,1上的任何策略都是一樣的,即都是最佳應(yīng)對(duì),后來(lái)求出的q當(dāng)然也是。對(duì)于p也有對(duì)稱的認(rèn)識(shí),亦即p和q互為最佳應(yīng)對(duì)想想混合策略組:(p,q+q)? q+q 依然是p的最佳應(yīng)對(duì),但p卻不是q+q 的最佳應(yīng)對(duì)了! ? q+q 的最佳應(yīng)對(duì)會(huì)是甲的某一個(gè)純策略!P 2(p,H)= p!P 2(H,H)+(1 p)!P 2(T,H)P 2(p,T)= p!P 2(H,T)+(1 p)!P 2(T,T)Set P 2(p,H)= P 2(p,T) to solve pP 2(q, p)= q!P 2(p,H)+(1q)!P 2(p,T)對(duì)任何q都無(wú)差異!乙在兩個(gè)純策略上的收益期望? P1(1,q)=q*90+(1-q)*86; P1(0,q)=q*92+(1-q)*88 ? 容易檢查,不存在q,使 P1(1,q) = P1(0,q

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論