




已閱讀5頁,還剩97頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
.,貝葉斯統(tǒng)計(jì),基本教材:茆詩松編,貝葉斯統(tǒng)計(jì)中國統(tǒng)計(jì)出版社,2012年.,.,總評成績:平時(shí)成績40%:作業(yè)+小測試期末成績60%,已修課程:概率論與數(shù)理統(tǒng)計(jì),.,參考教材:1.貝葉斯統(tǒng)計(jì).韋來生.高等教育出版社19982.現(xiàn)代貝葉斯統(tǒng)計(jì)KotzS,吳喜之中國統(tǒng)計(jì)出版社19993.貝葉斯統(tǒng)計(jì)推斷張堯庭、陳漢峰科學(xué)出版社1991,.,目錄,第一章先驗(yàn)分布與后驗(yàn)分布,第二章貝葉斯推斷,第三章先驗(yàn)分布的確定,第四章決策中的收益、損失與效用,第五章貝葉斯決策,第六章統(tǒng)計(jì)決策理論,第七章貝葉斯計(jì)算,.,本書共七章,可分三部分。前三章圍繞先驗(yàn)分布介紹貝葉斯推斷方法。后三章圍繞損失函數(shù)介紹貝葉斯決策方法。第七章為貝葉斯計(jì)算閱讀這些內(nèi)容僅需要概率統(tǒng)計(jì)基本知識就夠了。,Byaes統(tǒng)計(jì)學(xué)派與經(jīng)典統(tǒng)計(jì)學(xué)派雖然有很大區(qū)別,但是它們各有優(yōu)缺點(diǎn),各有其適用的范圍,作為研究者一定要博采眾長,以獲得一種更適合解決實(shí)際問題的方法。而且,在不少情況下,二者得出的結(jié)論在形式上是相同的。,.,課堂上講過的習(xí)題、練習(xí)題和作業(yè)的題目都要會.,.,.,(Bayes,Thomas)(17021761)貝葉斯是英國數(shù)學(xué)家.1702年生于倫敦;1761年4月17日卒于坦布里奇韋爾斯.貝葉斯是一位自學(xué)成才的數(shù)學(xué)家.曾助理宗教事務(wù),后來長期擔(dān)任坦布里奇韋爾斯地方教堂的牧師.1742年,貝葉斯被選為英國皇家學(xué)會會員.如今在概率、數(shù)理統(tǒng)計(jì)學(xué)中以貝葉斯姓氏命名的有貝葉斯公式、貝葉斯風(fēng)險(xiǎn)、貝葉斯決策函數(shù)、貝葉斯決策規(guī)則、貝葉斯估計(jì)量、貝葉斯方法、貝葉斯統(tǒng)計(jì)等等.,.,9,貝葉斯公式:,.,統(tǒng)計(jì)學(xué)有兩個(gè)主要學(xué)派:頻率學(xué)派與貝葉斯學(xué)派.它們之間有異同,貝葉斯統(tǒng)計(jì)是在與經(jīng)典統(tǒng)計(jì)的爭論中發(fā)展起來,主要的爭論有:1.未知參數(shù)可否作為隨機(jī)變量?2.事件的概率是否一定的頻率解釋?3.概率是否可用經(jīng)驗(yàn)來確定?.,.,發(fā)展歷史,1763年,論文“機(jī)遇理論中一個(gè)問題的解”發(fā)表,首次提出貝葉斯公式。隨后,Laplace等人重新闡述了貝葉斯公式,并導(dǎo)出些有意義的結(jié)果。二戰(zhàn)后,wald提出統(tǒng)計(jì)決策函數(shù)論引起人們對貝葉斯方法的興趣。如今,貝葉斯學(xué)派已發(fā)展成一個(gè)有影響力的統(tǒng)計(jì)學(xué)派。,.,貝葉斯方法是基于貝葉斯定理而發(fā)展起來用于系統(tǒng)地闡述和解決統(tǒng)計(jì)問題的方法(SamuelKotz和吳喜之,2000)。貝葉斯推斷的基本方法是將關(guān)于未知參數(shù)的先驗(yàn)信息與樣本信息綜合,再根據(jù)貝葉斯定理,得出后驗(yàn)信息,然后根據(jù)后驗(yàn)信息去推斷未知參數(shù)(茆詩松和王靜龍等,1998年)?!柏惾~斯提出了一種歸納推理的理論(貝葉斯定理),以后被一些統(tǒng)計(jì)學(xué)者發(fā)展為一種系統(tǒng)的統(tǒng)計(jì)推斷方法,稱為貝葉斯方法.”摘自中國大百科全書(數(shù)學(xué)卷),.,13,一、統(tǒng)計(jì)推斷中可用的三種信息二、貝葉斯公式三、共軛先驗(yàn)分布四、超參數(shù)及其確定五、多參數(shù)模型六、充分統(tǒng)計(jì)量,第一章先驗(yàn)分布與后驗(yàn)分布,.,第一章先驗(yàn)分布與后驗(yàn)分布,統(tǒng)計(jì)學(xué)中有兩個(gè)主要學(xué)派:頻率學(xué)派與貝葉斯學(xué)派。下面從統(tǒng)計(jì)推斷的三種信息來說明他們之間的區(qū)別與聯(lián)系。,.,經(jīng)典學(xué)派的觀點(diǎn):統(tǒng)計(jì)推斷是根據(jù)樣本信息對總體分布或總體的特征數(shù)進(jìn)行推斷,這里用到兩種信息:總體信息和樣本信息;貝葉斯學(xué)派的觀點(diǎn):除了上述兩種信息以外,統(tǒng)計(jì)推斷還應(yīng)該使用第三種信息:先驗(yàn)信息。,.,1.1三種信息,一、總體信息,即總體分布或總體所屬分布給我們的信息。例如,“總體是正態(tài)分布”就給我們帶來很多信息:它的密度函數(shù)是一條鐘形曲線;它的一切一階矩都存在;有關(guān)正態(tài)變量(服從正態(tài)分布隨機(jī)變量)的一些事件的概率可以計(jì)算;由正態(tài)分布可以導(dǎo)出卡方分布,t分布和F分布等重要分布,還有許多成熟的點(diǎn)估計(jì)、區(qū)間估計(jì)和假設(shè)檢驗(yàn)方法可供我們選用。說明:總體信息是很重要的信息,為了獲取此種信息往往耗資巨大。,.,二、樣本信息,即從總體抽取的樣本給我們的信息這是最“新鮮”的信息,并且愈多愈好。人們希望通過對樣本的加工和處理對總體的某些特征做出較為精確的統(tǒng)計(jì)推斷。例:。均值、方差等沒有樣本就沒有統(tǒng)計(jì)學(xué)可言。,.,經(jīng)典統(tǒng)計(jì)學(xué):基于以上兩種信息進(jìn)行的統(tǒng)計(jì)推斷被稱為經(jīng)典統(tǒng)計(jì)學(xué)。說明:它的基本觀點(diǎn)是把數(shù)據(jù)(樣本)看成是來自具有一定概率分布的總體,所研究對象是這個(gè)總體而不局限于數(shù)據(jù)本身。這方面最早的工作是高斯(Gauss,C.F.17771855)和勒讓德(Legendre,A.M.17521833)的誤差分析,正態(tài)分布和最小二乘法。從十九世紀(jì)末到二十世紀(jì)上半葉,經(jīng)皮爾遜(Pearson,K.18571936)、費(fèi)歇(Fisher,R.A.18901962)奈曼(Neyman.J.)等人的杰出工作創(chuàng)立了經(jīng)典統(tǒng)計(jì)學(xué)。隨著經(jīng)典統(tǒng)計(jì)學(xué)的持續(xù)發(fā)展與廣泛應(yīng)用,它本身的缺陷也逐漸暴露出來了。,.,貝葉斯學(xué)派的觀點(diǎn):除了上述兩種信息以外,統(tǒng)計(jì)推斷還應(yīng)該使用第三種信息:先驗(yàn)信息。,三、先驗(yàn)信息,即是抽樣(試驗(yàn))之前有關(guān)統(tǒng)計(jì)問題的一些信息。一般說來,先驗(yàn)信息來源于經(jīng)驗(yàn)和歷史資料。先驗(yàn)信息在日常生活和工作中是很重要的。,.,例1.1英國統(tǒng)計(jì)學(xué)家Savage曾考察如下2個(gè)統(tǒng)計(jì)實(shí)驗(yàn):A。(品茶試驗(yàn))一位常飲牛奶加茶的婦女聲稱,她能辨別先倒進(jìn)杯子里的是茶還是牛奶。對此做了10次試驗(yàn),她都正確地說出了。B。一位音樂家聲稱,他能從一頁樂譜辨別出是海頓還是莫扎特的作品。在10次這樣的試驗(yàn)中,他都能正確辨別。在這兩個(gè)統(tǒng)計(jì)試驗(yàn)中,假如認(rèn)為被試驗(yàn)者是在猜測,每次成功的概率為0.5,那么10次都猜中的概率為2-10=0.0009766,這是一個(gè)很小的概率,是幾乎不可能發(fā)生的,所以“每次成功概率為0.5”的假設(shè)應(yīng)該被拒絕。被試驗(yàn)者每次成功的概率要比0.5大得多。這不是猜測,而是他們的經(jīng)驗(yàn)在幫了他們的忙。,.,例1.2“免檢產(chǎn)品”是怎樣決定的?某廠的產(chǎn)品每天都要抽驗(yàn)幾件,獲得不合格品率的估計(jì)。在經(jīng)過一段時(shí)間后就積累大量的資料,根據(jù)這些歷史資料(先驗(yàn)信息的一種)對過去產(chǎn)品的不合格品率可構(gòu)造一個(gè)分布:,這個(gè)對先驗(yàn)信息進(jìn)行加工獲得的分布今后稱為先驗(yàn)分布。這個(gè)先驗(yàn)分布是綜合了該廠過去產(chǎn)品的質(zhì)量情況。如果這個(gè)分布的概率大部分集中在=0附近,那么該產(chǎn)品可認(rèn)為是“信得過產(chǎn)品”。假如以后的多次抽檢結(jié)果與歷史資料提供的先驗(yàn)分布是一致的。使用單位就可以對它做出“免檢產(chǎn)品”的決定,或者每月抽檢一、二次就足夠了,這就省去了大量的人力和物力??梢姎v史資料在統(tǒng)計(jì)推斷中應(yīng)加以利用,.,貝葉斯統(tǒng)計(jì)與經(jīng)典統(tǒng)計(jì)學(xué)的差別:是否利用先驗(yàn)信息。貝葉斯統(tǒng)計(jì)在重視使用總體信息和樣本信息的同時(shí),還注意先驗(yàn)信息的收集、挖掘和加工,使它數(shù)量化,形成先驗(yàn)分布,參加到統(tǒng)計(jì)推斷中來,以提高統(tǒng)計(jì)推斷的質(zhì)量。在使用樣本信息上也是有差異的.貝葉斯學(xué)派重視已出現(xiàn)的樣本觀察值,而對尚未發(fā)生的樣本觀察值不予考慮.,.,貝葉斯學(xué)派的基本觀點(diǎn):任一未知量都可看作一個(gè)隨機(jī)變量,應(yīng)該用一個(gè)概率分布去描述,這個(gè)分布稱為先驗(yàn)分布;在獲得樣本之后,總體分布、樣本與先驗(yàn)分布通過貝葉斯公式結(jié)合起來得到一個(gè)關(guān)于未知量新的分布后驗(yàn)分布;任何關(guān)于的統(tǒng)計(jì)推斷都應(yīng)該基于的后驗(yàn)分布進(jìn)行。,因?yàn)槿我晃粗慷加胁淮_定性,而在表述不確定性程度時(shí),概率與概率分布是最好的語言。例1.2中產(chǎn)品的不合格品率是未知量,但每天都有一些變化,把它看做一個(gè)隨機(jī)變量是合適的,用一個(gè)概率分布去描述它也是很恰當(dāng)?shù)摹?.,例1.3學(xué)生估計(jì)一新教師的年齡。依據(jù)學(xué)生們的生活經(jīng)歷,在看了新教師的照片后會立即有反應(yīng):“新教師的年齡在30歲到50歲之間,極有可能在40歲左右?!币晃唤y(tǒng)計(jì)學(xué)家把學(xué)生們對新教師的年齡(未知量)的認(rèn)識(先驗(yàn)信息)可綜合為圖1.1所示的概率分布,這也是學(xué)生們對未知量(新教師的年齡)的概率表述。,.,第一,按圖1.1所示的概率分布我們可談?wù)撐粗课挥谀硞€(gè)區(qū)間的概率。例位于37到43歲間的概率為0.9??蛇@個(gè)陳述在經(jīng)典統(tǒng)計(jì)中是不允許的。在實(shí)際中類似的說法經(jīng)常聽到。,.,第二,按圖1.1中的概率不是在大量重復(fù)試驗(yàn)中獲得的,而是學(xué)生們根據(jù)自己的生活經(jīng)歷的積累對該事件發(fā)生可能性所給出的信念,這樣給出的概率在貝葉斯統(tǒng)計(jì)中是允許的,并稱為主觀概率。(它也符合概率的三條公理)。這一點(diǎn)頻率學(xué)派是頻率學(xué)派難以接受的,他們認(rèn)為經(jīng)典統(tǒng)計(jì)學(xué)使用大量重復(fù)試驗(yàn)的頻率來確定概率,是“客觀的”,因此符合科學(xué)的要求,而認(rèn)為貝葉斯統(tǒng)計(jì)是“主觀的”,因而(至多)只對個(gè)人決策有用。這是當(dāng)前對貝葉斯統(tǒng)計(jì)的主要批評。兩學(xué)派在一些問題上的爭論將在后面逐步介紹。,.,總結(jié):Byaes學(xué)派與經(jīng)典統(tǒng)計(jì)學(xué)派最根本的分歧是:第一,是否利用先驗(yàn)信息。由于產(chǎn)品的設(shè)計(jì)、生產(chǎn)都有一定的繼承性,這樣就存在許多相關(guān)產(chǎn)品的信息以及先驗(yàn)信息可以利用,Byaes統(tǒng)計(jì)學(xué)派認(rèn)為利用這些先驗(yàn)信息不僅可以減少樣本容量,而且在很多情況還可以提高統(tǒng)計(jì)精度;而經(jīng)典統(tǒng)計(jì)學(xué)派忽略了這些信息。第二,是否將參數(shù)看成隨機(jī)變量。Byaes統(tǒng)計(jì)學(xué)派的最基本的觀點(diǎn)是:任一未知量都可以看成隨機(jī)變量,可以用一個(gè)概率分布去描述,這個(gè)分布就是先驗(yàn)分布。因?yàn)槿我晃粗慷季哂胁淮_定性,而在表述不確定性時(shí),概率與概率分布是最好的語言;相反,經(jīng)典統(tǒng)計(jì)學(xué)派卻把未知量就簡單看成一個(gè)未知參數(shù),來對它進(jìn)行統(tǒng)計(jì)推斷。,.,經(jīng)典統(tǒng)計(jì)學(xué)派對貝葉斯統(tǒng)計(jì)的批評,貝葉斯方法受到了經(jīng)典統(tǒng)計(jì)學(xué)派中一些人的批評,批評的理由主要集中在以下三點(diǎn):(1)貝葉斯方法具有很強(qiáng)的主觀性而研究的問題需要更客觀的工具。經(jīng)典統(tǒng)計(jì)學(xué)是“客觀的”,因此符合科學(xué)的要求。而貝葉斯統(tǒng)計(jì)學(xué)是“主觀的”,因而(至多)只對個(gè)人決策有用。(2)應(yīng)用的局限性,特別是貝葉斯方法有許多封閉型的分析解法,不能廣泛地使用。(3)先驗(yàn)分布的誤用。,.,總結(jié),理解貝葉斯統(tǒng)計(jì)學(xué)與經(jīng)典統(tǒng)計(jì)學(xué)的主要差別。貝葉斯統(tǒng)計(jì)學(xué)派的最基本的觀點(diǎn)。,.,伽瑪函數(shù),函數(shù),伽瑪函數(shù)的性質(zhì):,.,伽瑪分布,.,.,伽瑪分布的兩個(gè)特例,1.當(dāng)=1時(shí),伽瑪分布就是指數(shù)分布:,倒伽瑪分布,.,則X的密度函數(shù)為,.,貝塔函數(shù),函數(shù),貝塔函數(shù)的性質(zhì):,.,貝塔分布,.,貝塔分布的數(shù)學(xué)期望和方差,.,38,初等概率論中的貝葉斯公式是用事件的概率形式給出的。可在貝葉斯統(tǒng)計(jì)學(xué)中應(yīng)用更多的是貝葉斯公式的密度函數(shù)形式。1.貝葉斯公式的事件形式:假定是互不相容的事件,它們之和包含事件B,即,則有:,.,1.2貝葉斯公式,一、貝葉斯公式的密度函數(shù)形式,1.總體指標(biāo)X依賴于參數(shù)的概率函數(shù)記為P(x|),它表示在隨機(jī)變量給定某個(gè)值時(shí)總體指標(biāo)X的條件分布;2.根據(jù)參數(shù)的先驗(yàn)信息可確定先驗(yàn)分布();3.從貝葉斯觀點(diǎn)看,樣本x=(x1,x2,xn)的產(chǎn)生分兩步進(jìn)行:首先從先驗(yàn)分布()產(chǎn)生一個(gè)樣本0,然后從P(x|0)中產(chǎn)生一個(gè)樣本x=(x1,x2,xn)。這時(shí)樣本的聯(lián)合條件密度函數(shù)為,這個(gè)分布綜合了總體信息和樣本信息,常稱為似然函數(shù)。,.,4.0是未知的,它是按先驗(yàn)分布()產(chǎn)生的。為把先驗(yàn)信息綜合進(jìn)去,不能只考慮0,對的其它值發(fā)生的可能性也要加以考慮,故要用()進(jìn)行綜合。這樣一來,樣本x=(x1,xn)和參數(shù)的聯(lián)合分布為:h(x,)=p(x)(),這個(gè)聯(lián)合分布把總體信息、樣本信息和先驗(yàn)信息三種可用信息都綜合進(jìn)去了。,.,5.參數(shù)的后驗(yàn)分布(貝葉斯公式的密度函數(shù)形式)是x=(x1,x2,xn)的邊際概率函數(shù),它與無關(guān),不含的任何信息。,.,6.二、貝葉斯公式的離散形式:在是離散型隨機(jī)變量時(shí),先驗(yàn)分布可用先驗(yàn)分布列(i),i=1,2,,表示。這時(shí)后驗(yàn)分布也是離散形式,假如總體X也是離散的,只要把(1.1)或(1.2)中的密度函數(shù)p(x)作為概率函數(shù)p(X=x)即可。,.,二、后驗(yàn)分布是三種信息的綜合,一般說來,先驗(yàn)分布()是反映人們抽樣前對的的認(rèn)識,后驗(yàn)分布(x)是反映人們在抽樣后對的認(rèn)識。它們之間的差異是由于樣本x出現(xiàn)后人們對認(rèn)識的一種調(diào)整。所以后驗(yàn)分布(x)可以看做是人們用總體信息和樣本信息(綜合稱為抽樣信息)對()作調(diào)整的結(jié)果。,.,例1.2.1設(shè)某事件A在一次試驗(yàn)中發(fā)生的概率為,為估計(jì),對試驗(yàn)進(jìn)行了n次獨(dú)立觀測,其中事件A發(fā)生了X次,顯然Xb(n,),假若我們在試驗(yàn)前對事件A沒有什么了解,使用區(qū)間(0,1)上的均勻分布U(0,1)作為的先驗(yàn)分布,求參數(shù)的后驗(yàn)分布。,.,.,例Laplace在1786年研究了巴黎的男嬰出生的比率,他希望檢驗(yàn)?zāi)袐氤錾母怕适欠翊笥?.5.為此,他收集到17451770年在巴黎出生的嬰兒數(shù)據(jù).其中,男嬰251527個(gè),女嬰241945個(gè),他選用U(0,1)作為的先驗(yàn)分布,則的后驗(yàn)分布服從分布:,推斷:男嬰出生的概率大于0.5,.,.,例1.2.2.為了提高某產(chǎn)品的質(zhì)量,公司經(jīng)理考慮增加投資來改進(jìn)生產(chǎn)設(shè)備,預(yù)計(jì)需投資90萬元,但從投資效果看,下屬部門有2種意見:1:改進(jìn)設(shè)備后,高質(zhì)量產(chǎn)品可占902:改進(jìn)設(shè)備后,高質(zhì)量產(chǎn)品可占70但根據(jù)下屬兩個(gè)部門過去建議被采納的情況,經(jīng)理認(rèn)為,1的可信程度只有40,2的可信程度是60。即,這都是經(jīng)理的主觀概率。經(jīng)理不想僅用過去的經(jīng)驗(yàn)來決策,想慎重一些,通過小規(guī)模試驗(yàn)后觀其結(jié)果再定。為此做了一項(xiàng)試驗(yàn),實(shí)驗(yàn)結(jié)果(記為A)如下:,A:試制5個(gè)產(chǎn)品,全是高質(zhì)量產(chǎn)品,經(jīng)理希望用此試驗(yàn)結(jié)果來修改他原來對1和2的看法,即要求后驗(yàn)概率(1A)和(2A)。,.,所以,經(jīng)理根據(jù)試驗(yàn)A的信息把對1和2的可信程度由0.4和0.6調(diào)整到0.7和0.3.后者是綜合了經(jīng)理的主觀概率和試驗(yàn)結(jié)果而獲得的,要比主觀概率更貼近當(dāng)今的實(shí)際,這就是貝葉斯公式的應(yīng)用,.,所以,經(jīng)理看到經(jīng)過兩次試驗(yàn),1(高質(zhì)量產(chǎn)品可占90)的可信程度由0.4調(diào)整到0.883,他能以88.3的把握保證此項(xiàng)投資能取得較大經(jīng)濟(jì)效益。,試驗(yàn)B:試制10個(gè)產(chǎn)品,有9個(gè)是高質(zhì)量產(chǎn)品,.,總結(jié),利用貝葉斯公式會由先驗(yàn)分布求后驗(yàn)分布。,.,1.3共軛先驗(yàn)分布,一、共軛先驗(yàn)分布,例1.4中Xb(n,),先驗(yàn)分布為U(0,1),即Be(1,1)后驗(yàn)分布Be(x+1,n-x+1),其中x為n次獨(dú)立試驗(yàn)中成功出現(xiàn)的次數(shù).,Be(,),Be(+x,+n-x),定義1.1設(shè)是總體分布中的參數(shù)(或參數(shù)向量),()是的先驗(yàn)密度函數(shù),假如由抽樣信息算得的后驗(yàn)密度函數(shù)與()有相同的函數(shù)形式,則稱()是的共軛先驗(yàn)分布。,注意:共軛先驗(yàn)分布是對某一分布中的參數(shù)而言的。如正態(tài)均值、正態(tài)方差、泊松均值等。離開指定參數(shù)及其所在的分布去談?wù)摴曹椣闰?yàn)分布是沒有意義的.,.,例1.6正態(tài)均值(方差已知)的共軛先驗(yàn)分布是正態(tài)分布.,設(shè)x1,x2,xn是來自正態(tài)分布N(,2)的一個(gè)樣本觀察值。其中2已知。,取另一正態(tài)分布N(,2)作為正態(tài)均值的先驗(yàn)分布,即,其中,2為已知。,參數(shù)的后驗(yàn)分布為,.,正態(tài)均值(方差已知)的共軛先驗(yàn)分布是正態(tài)分布,.,.,.,二、后驗(yàn)分布的計(jì)算,參數(shù)的后驗(yàn)分布為,由于m(x)不依賴于,在計(jì)算的后驗(yàn)分布中僅起到一個(gè)正則化因子的作用。,其中“”表示兩邊僅差一個(gè)不依賴于的常數(shù)因子。(1.9)式右端雖不是正常的密度函數(shù),但它是后驗(yàn)分布(x)的核,特別當(dāng)看出(x)的核就是某常用分布的核時(shí),不用計(jì)算m(x)就可很快恢復(fù)所缺常數(shù)因子。,注意:這在共軛先驗(yàn)分布和非共軛先驗(yàn)分布場合都可使用。,.,例1.6正態(tài)均值(方差已知)的共軛先驗(yàn)分布是正態(tài)分布.,這是參數(shù)為1,和2的正態(tài)分布的核,.,三、共軛先驗(yàn)分布的優(yōu)缺點(diǎn),共軛先驗(yàn)分布的有兩個(gè)優(yōu)點(diǎn)1.計(jì)算方便。2.共軛先驗(yàn)分布的一些參數(shù)可以得到很好的解釋。,例1.8“正態(tài)均值(方差已知)的共軛先驗(yàn)分布是正態(tài)分布”的例子中,其后驗(yàn)均值為,這表明后驗(yàn)均值是在先驗(yàn)均值與樣本均值間采取折衷方案。,.,在處理正態(tài)分布是,方差的倒數(shù)發(fā)揮著重要的作用,并稱其為精度。,.,注意:1.在貝葉斯統(tǒng)計(jì)中,先驗(yàn)分布的選擇應(yīng)以合理性作為首要原則,計(jì)算上的方便與先驗(yàn)的合理性相比還是第二位的。2.在考慮到先驗(yàn)的合理性之后,充分發(fā)揮共軛先驗(yàn)分布是常采用的策略。,.,例1.7二項(xiàng)分布中的成功概率的共軛先驗(yàn)分布是貝塔分布。,設(shè)總體中Xb(n,),先驗(yàn)分布Be(,),的后驗(yàn)分布,這是貝塔分布Be(+x,+n-x)的核.,的后驗(yàn)分布,.,例1.9在“二項(xiàng)分布中的成功概率的共軛先驗(yàn)分布是貝塔分布”的例1.7中,后驗(yàn)分布Be(+x,+n-x)的均值與方差為,當(dāng)n與x都較大,且x/n接近某個(gè)常數(shù)時(shí),有,.,P=x/n固定,隨著樣本量增大時(shí),后驗(yàn)分布越來越向p集中,先驗(yàn)信息對后驗(yàn)分布的影響變小。,.,常用分布的核,(1)二項(xiàng)分布b(n,)的核(2)泊松分布P()的核(3)貝塔分布Be(,)的核(4)伽瑪分布Ga(,)的核(5)倒伽瑪分布IGa(,)的核(6)正態(tài)分布N(,2)的核,熟悉后驗(yàn)分布的核可以簡化后驗(yàn)分布的計(jì)算。,.,四、常用的共軛先驗(yàn)分布,共軛先驗(yàn)分布的選取是由似然函數(shù)L()=p(x|)中所含的因式所決定的,即選與似然函數(shù)(的函數(shù))具有相同的核的分布作為先驗(yàn)分布。,例1.10設(shè)x1,x2,xn是來自正態(tài)分布N(,2)的一個(gè)樣本觀察值。其中已知,求方差2的共軛先驗(yàn)分布。,樣本的似然函數(shù)為:,.,設(shè)X服從伽瑪分布Ga(,),其中0為形狀參數(shù),0為尺度參數(shù),其密度函數(shù)為,Y=1/X的密度函數(shù)為,這個(gè)分布稱為倒伽瑪分布,記為IGa(,)。假如取倒伽瑪分布為2的先驗(yàn)分布,其中參數(shù),為已知,則其密度函數(shù)為,.,2的后驗(yàn)分布為,這個(gè)分布為倒伽瑪分布,.,若后驗(yàn)分布(x)與()屬于同一個(gè)分布族,則稱該分布族是的共軛先驗(yàn)分布(族)。二項(xiàng)分布b(n,)中的成功概率的共軛先驗(yàn)分布是貝塔分布Be(a,b);泊松分布P()中的均值的共軛先驗(yàn)分布是伽瑪分布Ga(,);指數(shù)分布中均值的倒數(shù)的共軛先驗(yàn)分布是伽瑪分布Ga(,);在方差已知時(shí),正態(tài)均值的共軛先驗(yàn)分布是正態(tài)分布N(,2);在均值已知時(shí),正態(tài)方差2的共軛先驗(yàn)分布是倒伽瑪分布IGa(,)。,.,.,總結(jié),1.利用貝葉斯公式會由先驗(yàn)分布求后驗(yàn)分布2.記住常見的共軛先驗(yàn)分布,.,分位數(shù),.,1.4超參數(shù)及其確定,定義:先驗(yàn)分布中所含的未知參數(shù)稱為超參數(shù)。,例成功概率的共軛先驗(yàn)分布為Be(,),它含有兩個(gè)超參數(shù).注意:一般來說,共軛先驗(yàn)分布含有超參數(shù),而無信息先驗(yàn)分布一般不含超參數(shù)。,共軛先驗(yàn)分布是一種有信息的先驗(yàn)分布,故其中所含的超參數(shù)應(yīng)充分利用各種先驗(yàn)信息來確定,下面結(jié)合具體的例子介紹一些確定超參數(shù)的方法。這些方法又稱為經(jīng)驗(yàn)方法。,.,例1.11在二項(xiàng)分布中的成功概率的共軛先驗(yàn)分布是貝塔分布Be(,),,是其兩個(gè)超參數(shù),一、利用先驗(yàn)矩,利用先驗(yàn)信息能獲得成功概率的若干個(gè)估計(jì)值,記為,1,2,k,一般它們是從歷史數(shù)據(jù)整理加工獲得的,由此可算得先驗(yàn)均值和先驗(yàn)方差S2,其中,然后令其分別等于貝塔分布Be(,)的期望與方差,.,解之,可得參數(shù)與的估計(jì)值,二、利用先驗(yàn)分位數(shù),假如根據(jù)先驗(yàn)信息可以確定貝塔分布的兩個(gè)分位數(shù),則可利用這兩個(gè)分位數(shù)來確定與的估計(jì)值。例如用兩個(gè)上下四分位數(shù)U和L來確定與,從這兩個(gè)方程解出與,.,三、利用先驗(yàn)矩和先驗(yàn)分位數(shù),假如根據(jù)先驗(yàn)信息可獲得先驗(yàn)均值和p分位數(shù)p,則可列出下列方程的,解之,可得參數(shù)與的估計(jì)值,四、其它方法,假如根據(jù)先驗(yàn)信息可獲得先驗(yàn)均值,令,再利用其它先驗(yàn)信息求出與的估計(jì)值。,.,總結(jié),1.了解超參數(shù)的確定方法2.掌握利用先驗(yàn)矩的方法,練習(xí)1.13作業(yè):1.15,.,1.5多參數(shù)模型,處理多參數(shù)的方法與處理單參數(shù)方法相似,先根據(jù)先驗(yàn)信息給出參數(shù)的先驗(yàn)分布,然后按貝葉斯公式算得后驗(yàn)分布。,設(shè)總體只含2個(gè)參數(shù)=(1,2),總體的密度函數(shù)為p(x|1,2),若從該總體抽取一個(gè)樣本并給出先驗(yàn)密度,則的后驗(yàn)密度為,在多參數(shù)問題中,人們關(guān)心的常常是其中一個(gè)或少數(shù)幾個(gè)參數(shù),這時(shí)其余參數(shù)常被稱為討厭參數(shù)或多余參數(shù)。在處理討厭參數(shù)上,貝葉斯方法要比經(jīng)典方法方便得多。,例如討厭參數(shù)2,,.,79,例1.12試求正態(tài)均值與正態(tài)方差的(聯(lián)合)共軛先驗(yàn)分布及后驗(yàn)分布。(P24),1.取先驗(yàn)分布為的情形2.關(guān)于指數(shù)分布族的若干結(jié)論3.取先驗(yàn)分布為共軛先驗(yàn)分布的情形,.,80,1.取先驗(yàn)分布為的情形,.,81,.,82,back,.,83,3.取先驗(yàn)分布為共軛先驗(yàn)分布的情形,(1)求的共軛先驗(yàn)密度(2)求的后驗(yàn)邊際密度(3)求給定后的條件后驗(yàn)密度函數(shù)例題,.,84,例有一實(shí)驗(yàn)站關(guān)于生長小麥的經(jīng)驗(yàn)為每塊樣地的均值和標(biāo)準(zhǔn)差分別為100及10的正態(tài)分布,現(xiàn)在他們研究施加激素的影響。在12塊地施加激素后所得產(chǎn)量如下(單位:千克):141,102,73,171,137,91,81,157,146,69,121,134關(guān)于方差的信息是均值、標(biāo)準(zhǔn)差分別約為300及160;關(guān)于均值的信息是均值約為110,約為15即相當(dāng)于觀測了15個(gè)觀測值。求:(1)的共軛先驗(yàn);(2)的后驗(yàn)密度函數(shù);(3)的邊際后驗(yàn);(4)對已知情況下的條件后驗(yàn)密度函數(shù)。,back,.,85,1.6充分統(tǒng)計(jì)量,一、經(jīng)典統(tǒng)計(jì)中充分統(tǒng)計(jì)量的回顧充分性是數(shù)理統(tǒng)計(jì)中最重要的概念之一,也是數(shù)理統(tǒng)計(jì)這一學(xué)科特有的基本概念之一。它是Fisher在1925年提出的。充分性的直觀定義:不損失信息的統(tǒng)計(jì)量。引例:研究某個(gè)運(yùn)動員的打靶命中率,我們對該運(yùn)動員進(jìn)行10次測試,發(fā)現(xiàn)除第三、六次沒有命中外,其余8次都命中,這樣的結(jié)果包含了哪些信息?(1)打靶10次命中8次;(2)2次不命中分別出現(xiàn)在第3次和第6次打靶上。概率分析:,.,86,定義:設(shè)是來自分布函數(shù)F(x|)的一個(gè)樣本,T=T(x)是統(tǒng)計(jì)量,假如在給定T(x)=t的條件下,x的條件分布與無關(guān)的話,則稱該統(tǒng)計(jì)量為的充分統(tǒng)計(jì)量。充分統(tǒng)計(jì)量的一個(gè)重要特性:當(dāng)?shù)玫匠浞纸y(tǒng)計(jì)量T的某個(gè)取值t之后,而失去原樣本的觀察值也沒有關(guān)系。因?yàn)槲覀兛梢愿鶕?jù)上述的條件分布來構(gòu)造某個(gè)隨機(jī)試驗(yàn),從中獲得來自總體的一個(gè)新樣本,這個(gè)新樣本雖不能完全恢復(fù)老樣本的原狀,但它與老樣本所含的有關(guān)參數(shù)的信息是一樣的。例題1設(shè)總體為二點(diǎn)分布b(1,),為樣本,令求在給定T的取值后,X的條件分布。,.,87,因子分解定理:一個(gè)統(tǒng)計(jì)量T(x)對參數(shù)是充分的充要條件是:存在一個(gè)t與的函數(shù)g(t,)和一個(gè)樣本x的函數(shù)h(x),使得對任一樣本x和任意,樣本的聯(lián)合密度p(x|)可表示為它們的乘積,即:p(x|)=g(T(x),)h(x),這個(gè)定理表明:假如存在充分統(tǒng)計(jì)量T(x),則樣本分布p(x|)一定可以分解為兩個(gè)因子的乘積:一個(gè)是與無關(guān),僅與樣本x有關(guān);另一個(gè)是可以與有關(guān),但與樣本x的關(guān)系僅僅通過充分統(tǒng)計(jì)量T(x)表現(xiàn)出來。,.,88,二、貝葉斯統(tǒng)計(jì)中充分統(tǒng)計(jì)量的有關(guān)結(jié)論及應(yīng)用,貝葉斯統(tǒng)計(jì)中充分統(tǒng)計(jì)量與經(jīng)典統(tǒng)計(jì)中充分統(tǒng)計(jì)量的概念是一致的。定理1.1設(shè)是來自密度函數(shù)p(x|)的一個(gè)樣本,T=T(x)是統(tǒng)計(jì)量,它的密度函數(shù)為p(t|),又設(shè)H=()是的某個(gè)先驗(yàn)分布族,則T(x)為的充分統(tǒng)計(jì)量的充要條件是對任一先驗(yàn)分布()H,有:(|T(x)=(|x)即用樣本分布p(x|)算得的后驗(yàn)分布與用統(tǒng)計(jì)量T(x)算得的后驗(yàn)分布是相同的。,.,1.6充分統(tǒng)計(jì)量,定義設(shè)x1,x2,xn是來自某個(gè)總體的樣本,總體分布函數(shù)為F(x|),統(tǒng)計(jì)量T=T(x1,x2,xn)稱為的充分統(tǒng)計(jì)量,如果在給定T的取值后,x1,x2,xn的條件分布與無關(guān).,充分性原則:在統(tǒng)計(jì)學(xué)中有一個(gè)基本原則-在充分統(tǒng)計(jì)量存在的場合,任何統(tǒng)計(jì)推斷都可以基于充分統(tǒng)計(jì)量進(jìn)行,這可以簡化統(tǒng)計(jì)推斷的程序。,.,因子分解定理,定理5.5.1設(shè)總體概率函數(shù)為p(x|),X1,Xn為樣本,則T=T(X1,Xn)為充分統(tǒng)計(jì)量的充分必要條件是:存在兩個(gè)函數(shù)g(t;)和h(x1,xn),使得對任意的和任一組觀測值x1,x2
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年山東道路客運(yùn)運(yùn)輸從業(yè)資格證模擬考試題
- 顧問銷售培訓(xùn)課件
- 培訓(xùn)服務(wù)課件
- 發(fā)送培訓(xùn)課件說明
- 臨床培訓(xùn)課件
- 重點(diǎn)科室院感培訓(xùn)課件
- 培訓(xùn)課件恢復(fù)下載
- 社區(qū)引流活動方案
- 華為光伏技能培訓(xùn)課件
- 小學(xué)語文實(shí)事題目及答案
- (2025)入黨積極分子培訓(xùn)考試試題及答案
- 2025年天津市河西區(qū)中考二模語文試題
- 2025屆高考化學(xué)復(fù)習(xí):必背化學(xué)方程式-有機(jī)化學(xué)
- DB31/ 638-2012鑄鋼件單位產(chǎn)品能源消耗限額
- 餐飲行業(yè)服務(wù)質(zhì)量保證措施
- 中國低軌衛(wèi)星行業(yè)市場發(fā)展現(xiàn)狀及前景趨勢與投資分析研究報(bào)告2025-2028版
- 2024年交通系統(tǒng)建模與仿真技術(shù)試題及答案
- 2025年中考《道德與法治》非選擇題答題要點(diǎn)匯編(全)
- 放射科質(zhì)控培訓(xùn)課件
- 北方華創(chuàng)招聘考試真題2024
- 2025春新版三年級下冊科學(xué)?必背知識點(diǎn)考點(diǎn)
評論
0/150
提交評論