第 6 章博弈論基礎(chǔ)

上傳人：5*** IP屬地：湖北上傳時(shí)間：2022-03-07 格式：PPT 頁(yè)數(shù)：55 大?。?44.50KB 積分：30 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩50頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、博弈論基礎(chǔ) （對(duì)應(yīng)教材第6章）現(xiàn)代博弈論開(kāi)始于1928年馮諾伊曼的工作本章學(xué)習(xí)要點(diǎn) ? 理解博弈論的基本概念 ?參與人，策略，收益（收益矩陣）?最佳應(yīng)對(duì)，占優(yōu)策略?納什均衡 ?混合策略，混合策略均衡?帕累托最優(yōu)，社會(huì)最優(yōu) ? 幾種典型博弈的類型 ? 體會(huì)“情景博弈求解”過(guò)程中的思想博弈從一個(gè)例子開(kāi)始? “復(fù)習(xí)考試”還是“準(zhǔn)備報(bào)告”？ ?假設(shè)在截止日期前一天，你有兩件要做的事情：一是復(fù)習(xí)（為了參加考試），二是準(zhǔn)備（給一個(gè)報(bào)告）。你只能選擇做一項(xiàng)。 ?考試成績(jī)可以預(yù)計(jì) ? 如果復(fù)習(xí)，則考試成績(jī)92分，沒(méi)復(fù)習(xí)，則80分 ?報(bào)告需要你和你的拍檔合作完成 ? 如果你和拍檔都準(zhǔn)備報(bào)告，則每人都是10

2、0分 ? 如果只有一人準(zhǔn)備報(bào)告，則每人都是92分 ? 如果兩人都沒(méi)準(zhǔn)備報(bào)告，則每人都是84分 ?那么你該選擇做什么呢？（假設(shè)你和拍檔各自獨(dú)立考慮這個(gè)問(wèn)題）例子：“考試-報(bào)告”博弈? 設(shè)你們都追求平均成績(jī)的最大化： ?你和搭檔都準(zhǔn)備報(bào)告，則平均成績(jī)均為(80+100)/2 = 90分 ?你和搭檔都準(zhǔn)備?考試成績(jī)可以預(yù)期： ? 如果復(fù)習(xí)，則考試成績(jī)92分 ? 如果沒(méi)復(fù)習(xí)，則考試成績(jī)80分 ?報(bào)告是你和你的拍檔合作完成的： ? 如果你和拍檔都準(zhǔn)備報(bào)告，則每人100分 ? 如果只有一人準(zhǔn)備報(bào)告，則每人92分 ? 如果兩人都沒(méi)準(zhǔn)備報(bào)告，則每人84分考試，則平均成 ? 若一方復(fù)習(xí)考試，另一方準(zhǔn)備報(bào)告：

3、? 準(zhǔn)備報(bào)告一方的得：(80+92)/2 =86分 (92+84)/2 = 88分 ? 復(fù)習(xí)的一方得：(9292)/2 = 92分收益矩陣（表達(dá)收益的一種直觀方式）你的拍檔準(zhǔn)備報(bào)告復(fù)習(xí)考試你準(zhǔn)備報(bào)告復(fù)習(xí)考試90, 9092, 8686, 9288, 88?其中第一個(gè)數(shù)字是“你”的收益，第二個(gè)是“拍檔”的收益（也稱“回報(bào)”，payoff）博弈的基本要素? 一般情況下，博弈具有三個(gè)要素：?（1）參與者（至少兩個(gè)）；?（2）策略集：每個(gè)參與者都有一組關(guān)于如何行為的備選項(xiàng)，此處備選項(xiàng)指參與者的可能策略。?（3）收益（回報(bào)）：每個(gè)策略行為的選擇，都會(huì)使參與人得到一個(gè)收益。 ? 這個(gè)收益結(jié)果還受互動(dòng)

4、中他人策略選擇的影響。 ? 同一組策略，不同參與人的收益可能不同通常，收益的記號(hào)：P1(S,T), P2(S,T) 博弈行為推理的幾點(diǎn)基本假設(shè)? 每個(gè)參與人對(duì)博弈結(jié)構(gòu)（收益矩陣）有充分了解。 ? 參與人都是理性的（ra:onal） ?追求自己的收益最大化（盡量大） ?也知道其他參與人也是如此 ? 決策的獨(dú)立性 ?不商量 ? 嚴(yán)格占優(yōu)策略（strictly dominant strategy）：對(duì)一個(gè)參與人（A）來(lái)說(shuō)，若存在一個(gè)策略，無(wú)論另一個(gè)參與人（B）選擇何種行為策略，該策略都是最佳選擇，則這個(gè)策略就稱為是A的嚴(yán)格占優(yōu)策略。 ? 這個(gè)例子中，“復(fù)習(xí)考試”對(duì)雙方都是嚴(yán)格占優(yōu)策略。 “考試-報(bào)

5、告”博弈中的行為推理你的拍檔準(zhǔn)備報(bào)告復(fù)習(xí)考試你準(zhǔn)備報(bào)告復(fù)習(xí)考試90, 9092, 8686, 9288, 88“囚徒困境”? 假設(shè)有兩個(gè)疑犯被警察抓住。并且被分開(kāi)關(guān)押在不同的囚室。 ? 警察強(qiáng)烈懷疑他們和一場(chǎng)搶劫案有關(guān)。但是，沒(méi)有充足的證據(jù)。然而，他們都拒捕的事實(shí)也是可判刑的。 ? 兩個(gè)疑犯都被告知以下結(jié)果： ? “如果你坦白，而另外一人抵賴，則你馬上釋放；另外一人將承擔(dān)全部罪行，將會(huì)被判刑10年 ? 如果你們都坦白，你們的罪行將被證實(shí)。但由于你們有認(rèn)罪的表現(xiàn)判刑4年。 ? 如果你們都不坦白，那么沒(méi)有證據(jù)證明你們的搶劫罪，我們將以拒捕罪控告你們判刑1年。 ? 另外一方也正在接受這樣的審訊。你

6、是坦白還是抵賴？”? 疑犯1和疑犯2的嚴(yán)格占優(yōu)策略都是“坦白” ? 盡管如果兩人都抵賴會(huì)都判得少些 ?刻畫(huà)了“有關(guān)個(gè)體私利前，建立合作是十分困難”的模型。 “囚徒困境”的收益矩陣疑犯2抵賴坦白疑犯1抵賴坦白-1, -10, -10-10, 0-4, -4 ? 這種類型通常稱為軍備競(jìng)賽。競(jìng)爭(zhēng)雙方為保持彼此實(shí)力相當(dāng)，都會(huì)選擇生產(chǎn)更具危險(xiǎn)性的武器，盡管對(duì)自己內(nèi)部會(huì)有傷害 ?運(yùn)動(dòng)員傷害身體，國(guó)家影響民生?！芭d奮劑”博弈運(yùn)動(dòng)員2沒(méi)服用服用運(yùn)動(dòng)員1沒(méi)服用服用3, 34, 11, 42, 2關(guān)于“收益”的討論（收益決定選擇）? “考試-報(bào)告”博弈，如果降低考試難度：只要復(fù)習(xí)了，就會(huì)得到100分；否則，也可得

7、到96分。你的拍檔準(zhǔn)備報(bào)告復(fù)習(xí)考試你準(zhǔn)備報(bào)告復(fù)習(xí)考試98, 9896, 9494, 9692, 92囚徒困境類似，如果改變收益矩陣，情況也可不一樣最佳應(yīng)對(duì)與占優(yōu)策略? 設(shè)S是參與人甲的一個(gè)選擇策略，T是參與人乙的一個(gè)選擇策略。在收益矩陣中的某個(gè)單元格對(duì)應(yīng)這策略組（S，T）。 ?P1(S，T)：表示參與人甲從這組決策獲得的收益 ?P2(S，T)：表示參與人乙從這組決策獲得的收益 ? 最佳應(yīng)對(duì)：針對(duì)參與人乙的策略T，若參與人甲采用策略S產(chǎn)生的收益大于或等于自己的任何其他策略，則稱參與人甲的策略S是參與人乙的策略T的最佳應(yīng)對(duì)。 P1(S，T) P1(S，T), 其中， S是參與人甲除S外的任何其他

8、策略。嚴(yán)格最佳應(yīng)對(duì)? 嚴(yán)格最佳應(yīng)對(duì)：若S會(huì)產(chǎn)生比任何應(yīng)對(duì)策略T的其他策略都更高的收益，則稱參與人甲的策略S是對(duì)于參與人乙的策略T的嚴(yán)格最佳應(yīng)對(duì)。 P1（S，T） P1（S，T）其中，S是參與人甲的所有其他策略。 ? 注：最佳應(yīng)對(duì)的概念是針對(duì)對(duì)方的某一個(gè)策略（T），相對(duì)于自己的所有策略而言的 ? 對(duì)于同一個(gè)T，最多只可能有一個(gè)嚴(yán)格最佳應(yīng)對(duì) ? 對(duì)于不同的T，最佳應(yīng)對(duì)可能相同，也可能不同占優(yōu)策略與嚴(yán)格占優(yōu)策略? 定義：（從最佳應(yīng)對(duì)角度給出） ?參與人甲的占優(yōu)策略S，是指該策略對(duì)于參與人乙的每一策略都是最佳應(yīng)對(duì)。 ?參與人甲的嚴(yán)格占優(yōu)策略S，是指該占優(yōu)策略對(duì)于參與人乙的每一策略都是嚴(yán)格最佳應(yīng)對(duì)。

9、 ? 如果參與人有嚴(yán)格占優(yōu)策略，則可預(yù)期他會(huì)采取該策略（與基本假設(shè)的一致性）。 ? 注：占優(yōu)策略的概念是相對(duì)于對(duì)方所有策略而言的。并不是每人總有嚴(yán)格占優(yōu)策略? 例子：“營(yíng)銷戰(zhàn)略”博弈 ?假設(shè)有兩家公司，分別要規(guī)劃生產(chǎn)并銷售同一種新產(chǎn)品。該產(chǎn)品有兩款可能的規(guī)格：廉價(jià)（低檔）或高檔。如何決策？ ?設(shè)顧客總體被分成兩個(gè)市場(chǎng)：一部分消費(fèi)群體（60%）只購(gòu)買廉價(jià)商品，另一部分消費(fèi)群體（40%）只購(gòu)買高檔次商品。 ?每家公司從廉價(jià)或高檔次商品所得利潤(rùn)是等同的（因此利潤(rùn)僅取決于市場(chǎng)占有率）。 ?每家公司都追求利潤(rùn)最大化?！盃I(yíng)銷戰(zhàn)略”博弈? 假設(shè) ? 若兩家公司分別定位生產(chǎn)不同類型的產(chǎn)品，則每家公司都會(huì)得到

10、該商品市場(chǎng)的全部份額。 ? 公司1品牌形象更佳。因此，若這兩家公司在同一市場(chǎng)（廉價(jià)或高檔次）中競(jìng)爭(zhēng)，則公司1可以得到80%的市場(chǎng)銷售量，公司2只能得到20的市場(chǎng)。公司2廉價(jià)高檔次公司1廉價(jià)高檔次0.48, 0.120.4, 0.60.6, 0.4 0.32, 0.08? 可以預(yù)測(cè)此博弈的發(fā)展趨向。即公司1將會(huì)采取廉價(jià)策略，公司2將會(huì)采取高檔次策略。博弈的行為推理? 如果參與人都有嚴(yán)格占優(yōu)策略，則可以預(yù)計(jì)他們均會(huì)采取嚴(yán)格占優(yōu)策略； ? 如果只有一個(gè)參與人有嚴(yán)格占優(yōu)策略，則這個(gè)參與人會(huì)采取嚴(yán)格占優(yōu)策略，而另一方會(huì)采取此策略的最佳應(yīng)對(duì)。 ? 如果兩個(gè)參與人都沒(méi)有嚴(yán)格占優(yōu)策略呢？無(wú)占優(yōu)策略例子（三客

11、戶博弈）? 假設(shè)有兩家公司，都希望和A、B、C三個(gè)大客戶之一洽談生意。每家公司都有三種可能的策略：是否找客戶A、B或C。 ? 他們決策的條件如下所示：? 若兩家公司都找同一個(gè)客戶，則該客戶會(huì)給每個(gè)公司一半的業(yè)務(wù)。? 公司1規(guī)模太小，以至于不能靠自身找到客戶源。所以，只要它和公司2分別尋找不同的客戶洽談生意，則公司1獲得的收益將會(huì)是0（生意做不成）。? 假設(shè)公司2單獨(dú)尋找客戶B或C洽談生意，則會(huì)得到客戶B或C的全部業(yè)務(wù)。但是A 是一個(gè)大客戶。尋找客戶A洽談生意時(shí)，必須和其它公司合作才能接下業(yè)務(wù)。 ? 因?yàn)锳是一個(gè)大客戶，和它做生意的收益是8（假設(shè)兩家公司合作，則每家公司會(huì)得到收益4）。但是，和B

12、或C做生意的收益價(jià)值是2（合作的話，每個(gè)公司收益是1）“三客戶”博弈的推理? 收益矩陣公司2ABCA公司1 BC4, 40，00，00, 21, 10, 20, 20, 21, 1? 兩家公司都沒(méi)有嚴(yán)格占優(yōu)策略納什均衡? 假定參與人甲選擇策略S，參與人乙選擇策略T。若S是T的最佳應(yīng)對(duì)，且T也是S的最佳應(yīng)對(duì)，則稱策略組（S ，T）是一個(gè)納什均衡。 ?在均衡狀態(tài)，任何參與人都沒(méi)有動(dòng)機(jī)（理性的理由）去換一種策略。 ?納什均衡可以被看成是一種信念上的均衡 ? 互為最佳應(yīng)對(duì)，誰(shuí)也不可能通過(guò)單方面改變策略而得到額外好處，盡管如果兩人都改變可能都會(huì)更好（相比都不改變而言） ? 存在納什均衡：(A，A)

13、? 尋找納什均衡的兩種途徑： ?一是，檢查每一個(gè)策略組，看它們中的每一項(xiàng)是否是彼此間策略的最佳應(yīng)對(duì)策略。 ?二是，找出每個(gè)參與人對(duì)于對(duì)方每個(gè)策略的最佳應(yīng)對(duì)，然后發(fā)現(xiàn)互為最佳應(yīng)對(duì)的策略組。“三客戶”博弈的納什均衡公司2ABCA公司1 BC4, 40，00，00, 21, 10, 20, 20, 21, 1多重均衡：協(xié)調(diào)博弈? 多重均衡存在多個(gè)均衡 ? 例子：協(xié)調(diào)博弈 ?假設(shè)你和你拍檔都為一個(gè)合作項(xiàng)目準(zhǔn)備幻燈片簡(jiǎn)報(bào)（雙方不能通過(guò)電話等方式聯(lián)系商量）。 ?你必須決定是用微軟的PPT或是用蘋果的Keynote軟件來(lái)制作你負(fù)責(zé)的半份幻燈片。 ?假設(shè)你們使用同樣的軟件來(lái)設(shè)計(jì)，那就比較容易合并你們的幻燈片。

14、? 存在兩個(gè)納什均衡：（PPT，PPT），（Keynote，Keynote）。 ? 如何預(yù)測(cè)協(xié)調(diào)博弈中參與人的行為？ ? 托馬斯謝林（獲得2005年諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)）提出一種聚點(diǎn)的想法，利用一些其他外部因素，例如社會(huì)習(xí)俗。協(xié)調(diào)博弈的推理你的拍檔PPTKeynote你PPTKeynote1, 10，00，01，1? 謝林的聚點(diǎn)理論表明，可以預(yù)測(cè)到參與人會(huì)精選策略，傾向于收益情況更好的均衡。不對(duì)等協(xié)調(diào)博弈? 假設(shè)你和項(xiàng)目拍檔都更喜歡使用蘋果軟件。你的拍檔PPTKeynote你PPTKeynote1, 10，00，02，2? 此時(shí)很難預(yù)測(cè)具體哪種均衡會(huì)被采取。 ? 可以通過(guò)了解他們之間平常發(fā)生沖

15、突時(shí)解決的慣例來(lái)預(yù)測(cè)。兩人的喜好不同呢? 假設(shè)你和你的拍檔喜歡的軟件不同。你的拍檔PPTKeynote你PPTKeynote1, 20，00，02，1 ? 選擇何種均衡？要在高收益和由于另一方不合作而造成損失之間進(jìn)行權(quán)衡。獵鹿博弈? 假設(shè)兩獵人外出獵物。若他們合作，則可以獵到鹿（這可以給獵者帶來(lái)最高的收益）。 ? 獵人若分開(kāi)單干，都能獵到兔。 ? 若一方想單獨(dú)獵鹿，則收益是0。另一方依然能獵到兔。獵人2獵鹿獵兔獵人1獵鹿4，40，3獵兔3，03，3多重均衡：鷹鴿博弈? 假設(shè)兩只動(dòng)物要決定一塊食物在彼此之間何如分配。 ? 每種動(dòng)物都可以選擇爭(zhēng)奪行為（鷹派策略）或分享行為（鴿派策略）。 ?若

16、兩種動(dòng)物都選擇分享行為，他們將會(huì)均勻的分配食物，各自的收益是3。 ?若一方行為表現(xiàn)為爭(zhēng)奪，另一方行為表現(xiàn)是分享，則爭(zhēng)奪方會(huì)得到大多數(shù)食物，獲得收益是5，分享方只能得到收益為1。 ?當(dāng)兩只動(dòng)物都表現(xiàn)為爭(zhēng)奪行為，由于在爭(zhēng)奪中踐踏了食物，則它們得到的收益將為0。? 很難預(yù)測(cè)參與者的行為 ? 納什均衡概念能有助于縮小合理的預(yù)測(cè)范圍，但它并不能給出唯一的預(yù)測(cè)。鷹鴿博弈推理動(dòng)物2鴿派鷹派動(dòng)物1鴿派鷹派3, 35，11，50，0幾種典型多均衡博弈類型對(duì)比動(dòng)物2鴿派鷹派鴿派鷹派3，35，11，50，0你的拍檔PPTKeynotePPTKeynote1，10，00，02，2你的拍檔PPTKeynotePPTKe

17、ynote1，20，00，02，1獵人2獵鹿獵兔獵鹿獵兔4，43，00，33，3簡(jiǎn)單博弈的推理思路? 如果雙方都有嚴(yán)格占優(yōu)策略，則都會(huì)采用之 ? 如果只有一方有嚴(yán)格占優(yōu)策略，則可以預(yù)測(cè)另一方會(huì)采用此策略的最佳應(yīng)對(duì) ? 如果不存在嚴(yán)格占優(yōu)策略，則尋找納什均衡 ?存在一個(gè)納什均衡，該均衡對(duì)應(yīng)合理結(jié)果 ?存在多個(gè)納什均衡（需要額外信息輔助決策） ? 協(xié)調(diào)博弈，鷹鴿博弈 ?均衡有助于縮小考慮范圍，但不保證有效預(yù)測(cè) ? 如果不存在納什均衡，該怎么辦？ ? 此時(shí)，不存在一組互為最佳應(yīng)對(duì)（納什均衡）混合策略? 例子：硬幣配對(duì)“零和博弈”（zero sum game） ? 兩個(gè)參與人各持一枚硬幣，同時(shí)選擇手中

18、硬幣的正反面。 ? 若他們硬幣的朝向相同，參與人乙將贏得參與人甲的硬幣。反之，則參與人甲將贏得參與人乙的硬幣。參與人乙正面H反面T參與人甲正面H反面T-1，+1 +1，-1+1，-1-1，+1混合策略的引入? 引入隨機(jī)性，考慮參與人將以一定的概率分布在不同策略間進(jìn)行選擇，一種分布對(duì)應(yīng)一個(gè)“混合策略”（此時(shí)，選擇策略就是選擇分布）? 對(duì)于雙策略（H和T）博弈，混合策略則可簡(jiǎn)略表示為一個(gè)概率。純策略就是概率為（0,1）的混合策略。? 通常，我們說(shuō)? 參與人1的策略是概率p，是指參與人1以概率p執(zhí)行H；以概率1-p執(zhí)行T? 參與人2的策略是概率q，是指參與人2以概率q執(zhí)行H，以概率1-q執(zhí)行T混合

19、策略的收益? 采用收益期望作為策略的回報(bào)測(cè)度 ? 設(shè)參與人1采用概率p執(zhí)行H，1-p執(zhí)行T，則： ? 若參與人2采用H，則其收益期望是 ? 若參與人2采用T，則其收益期望是類似地，可討論參與人2采用概率混合策略的情形 P 2(p,H)= p!P 2(H,H)+(1 p)!P 2(T,H)P 2(p,T)= p!P 2(H,T)+(1 p)!P 2(T,T)混合策略的均衡? 混合策略的納什均衡：它是一對(duì)混合策略，彼此都是對(duì)方的最佳應(yīng)對(duì)（期望收益）? 納什的奠基性貢獻(xiàn)：證明了具有有限參與者和有限純策略集的博弈一定存在納什均衡（包括混合策略均衡） ? 一般來(lái)說(shuō)，找到混合策略的納什均衡是很困難的，但

20、在某些特定條件下可能有系統(tǒng)的方法。雙人雙策略、沒(méi)有含純策略均衡的博弈中的混合策略納什均衡求解? 給定H，T：基本純策略。按照納什定理，存在一個(gè)混合策略的納什均衡（p,q），即p是q的最佳應(yīng)對(duì)，q也是p的最佳應(yīng)對(duì)。如何求p和q？ ? “沒(méi)有含純策略的均衡”的前提意味著p，q都是嚴(yán)格在0和1之間。 ? 確定參與人2采用的q的方法（確定p的方法對(duì)稱） ? 基于q和收益矩陣中的值，分別寫出參與人1采用H和采用T的收益期望（q的函數(shù)），即P1(H,q)和P1(T,q)，也就是相當(dāng)于P1(1,q)和P1(0,q) ? 下面的關(guān)鍵是要認(rèn)識(shí)到此時(shí)必定有：P1(1,q)P1(0,q)，從而可以借助這等式求出q

21、 P1(1,q)P1(0,q)：在兩個(gè)端點(diǎn)“無(wú)差異”原理? 推理的思路是 ? 若等式不成立，例如 P1(1,q) P1(0,q)，則將導(dǎo)致H（即p=1）是參與人1的最佳應(yīng)對(duì)的結(jié)論，即（H,q）是一個(gè)納什均衡，這與“不含純策略納什均衡”的前提矛盾 ? 直觀上，若 P1(T,q) P1(H,q)，參與人1在應(yīng)對(duì)q的時(shí)候采用H就是最好，將任何機(jī)會(huì)（概率）分給T都只會(huì)導(dǎo)致較低收益 ?數(shù)學(xué)上就是 P1(p,q) = pP1(H,q)+(1-p)P1(T,q) P1(H,q), for p1/3，則損失會(huì)比較大 ? 為什么進(jìn)攻方在均衡的拋球概率只有p=1/3，但防守方還要更多的防守拋球？ ? 由于拋球?qū)M(jìn)

22、攻方更有利，需要加大防守力度防守方進(jìn)攻方拋球(1/3)持球(2/3)防守拋球(2/3)0，0 5，-5攔斷持球 (1/3)10，-100，0例子：罰點(diǎn)球博弈? 2002年，有人做了一項(xiàng)有關(guān)罰點(diǎn)球研究 ?射手要決定從球門的左側(cè)或是右側(cè)進(jìn)球。 ?守門員則是要決定是撲向左側(cè)或是右側(cè)攔斷進(jìn)球。 ?兩人需要同時(shí)做選擇。守門員LR射球方LR0.58，-0.58 0.93，-0.930.95，-0.950.70，-0.70統(tǒng)計(jì)數(shù)據(jù)?？梢钥吹?，罰球方總是有贏頭（符合實(shí)際）。? 計(jì)算得到的均衡： 0.58q+0.95(1-q)=0.93q+0.70(1-q)，q=0.42 -0.58p-0.93(1-p)=

23、-0.95p-0.70(1-p)，p=0.39 ? 實(shí)戰(zhàn)統(tǒng)計(jì)得到的數(shù)據(jù)：q=0.42, p=0.40混合策略均衡守門員L(q)R射球方L(p)R0.58，-0.58 0.93，-0.930.95，-0.950.70，-0.70? 除了兩個(gè)純策略均衡（PPT,PPT）和（Keynote,Keynote）外，還存在一個(gè)混合策略均衡：q=2(1-q), q=2/3；p=2(1-p), p=2/3 兼具純策略和混合策略均衡的博弈? 例子：不平衡的協(xié)調(diào)博弈你的拍檔PPT(q)Keynote你PPT(p)Keynote1，10，00，02，2關(guān)于混合策略均衡的一般性推理? 若雙人雙策略博弈存在混合策略均

24、衡（p,q），0 p, q 收益期望(p,q) ，即沒(méi)有q1是p的最佳應(yīng)對(duì)，從而與存在上述混合策略均衡矛盾 ? 于是可利用這無(wú)差異原則，試求p；類似地，求q。（注意，并不保證總能求出在（0,1）上的p和q） ? 若分別求得了（0,1）區(qū)間中的p和q，則說(shuō)明 ? 對(duì)于甲的策略p，乙采用0,1上的任何策略都是一樣的，即都是最佳應(yīng)對(duì)，后來(lái)求出的q當(dāng)然也是。對(duì)于p也有對(duì)稱的認(rèn)識(shí)，亦即p和q互為最佳應(yīng)對(duì)想想混合策略組：(p,q+q)? q+q 依然是p的最佳應(yīng)對(duì)，但p卻不是q+q 的最佳應(yīng)對(duì)了！ ? q+q 的最佳應(yīng)對(duì)會(huì)是甲的某一個(gè)純策略！P 2(p,H)= p!P 2(H,H)+(1 p)!P 2(T,H)P 2(p,T)= p!P 2(H,T)+(1 p)!P 2(T,T)Set P 2(p,H)= P 2(p,T) to solve pP 2(q, p)= q!P 2(p,H)+(1q)!P 2(p,T)對(duì)任何q都無(wú)差異！乙在兩個(gè)純策略上的收益期望? P1(1,q)=q*90+(1-q)*86; P1(0,q)=q*92+(1-q)*88 ? 容易檢查，不存在q，使 P1(1,q) = P1(0,q

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

第 6 章博弈論基礎(chǔ)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

第 6 章 博弈論基礎(chǔ)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

第 6 章博弈論基礎(chǔ)