計量經(jīng)濟學講義第三講假設檢驗_第1頁
計量經(jīng)濟學講義第三講假設檢驗_第2頁
計量經(jīng)濟學講義第三講假設檢驗_第3頁
計量經(jīng)濟學講義第三講假設檢驗_第4頁
計量經(jīng)濟學講義第三講假設檢驗_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第三講假設檢驗一、經(jīng)典線性模型假定對于模型 yi = b0 + b1xi +ei ,利用 OLS 有:b1 = b1+ å(xi - x)eiå(xi - x)2在高斯-馬爾科夫假定下,OLS 估計量的抽樣分布完全取決于誤差項的分布。在高斯-馬爾科夫假定中,我們要求誤差項是序列無關與同方差的,現(xiàn)在,我們施加更強的假定,即誤差項服從正態(tài)分布,即ei :N (0,d 2)。應該注意到,當誤差項服從正態(tài)分布時, 序列無關與獨立性是等價的。因此,我們可以把上述分布假設寫為: i.i.d 2ei : N (0,d ) ,即誤差項服從獨立同正態(tài)分布。為什么要施加更強的假定呢?這是為了進

2、行小樣本下的假設檢驗。ei : N (0,d 2) 與高斯-馬爾科夫假定一起,被稱為經(jīng)典線性模型假定。在經(jīng)典線性模型假定下,可以證明,OLS 估計量是方差最小的無偏估計量(注意!此時不需要把比較范圍限制在線性估計量之中)。筆記:1、假設誤差項服從正態(tài)分布的合理性在于,誤差項是由很多因素構成的,當這些因素是獨立同分布時,依照中心極限定理,那么這些因素之和應該近似服從正態(tài)分布。當然,這并不意味著用正態(tài)分布來近似誤差項的分布總是恰當?shù)?,例如,各因素或許并不同分布。另外,如果 y 是價格這樣的變量,那么假設誤差項服從正態(tài)分布是不合理的,因為價格不可能是負數(shù),不過我們可以進行變量變換,例如對價格取自然對

3、數(shù)或者考察價格的變化率,那么經(jīng)過變量變換之后,或許再假設誤差項服從正態(tài)分布就變得合理了。2、如果能夠對誤差項是否服從正態(tài)分布進行檢驗,那最好不過了。一種常用的檢驗方法是 Jarqe-Bera 檢驗,這可以參見相關的教科書。問題是,盡管我們能觀察到解釋變量、被解釋變量的取值,然而,由于對參數(shù)的真實取值無法確定,因此誤差是觀測不到的,我們或許不得不利用殘差來代替誤差以進行相關的檢驗。當然,一個前提是殘差確實是對誤差的良好近似,這進而要求,我們對參數(shù)的估計是合理的。3、根據(jù)公式:b = b+ å(xi - x)ei = b+ 1 · å(xi - x)ei11å

4、;(xi - x)211 å(x- x)2NN i考慮 x 非隨機這種簡單情況,顯然,當樣本容量很大時,只要誤差項是獨立同分布的(并不1需要要假定誤差項服從正態(tài)分布),那么根據(jù)中心極限定理, b應該近似服從正態(tài)分布。當然,為了保證誤差項的獨立性,抽樣的隨機性十分關鍵。二、利用標準正態(tài)分布作假設檢驗假定 yi = b0 + b1xi +ei 是真實模型,當然我們并不知道各參數(shù)的真實值是多少。但某一經(jīng)濟經(jīng)濟理論預言 b1 = w 。如果你手中掌握一樣本,一個問題是,你所掌握的樣本支持這個預言嗎?在 經(jīng) 典 線 性 模 型 假 定 下 ,b N (b ,d 2 )或 者111bb,12d

5、2(b - b ) / sd(b) N (0,1), 其 中d= å- x)111(xi 2d 2b11sd(b ) =。0練習:確定 b的分布。現(xiàn)在,假設經(jīng)濟理論的預言是正確的,那么針對特定的樣本你將得到標準正態(tài)分布圖橫坐標上的一個點: (b -w)/ sd(b ) 。11現(xiàn)在來考察標準正態(tài)分布。在該分布上,存在對稱的兩點: z0.025 與-z0.025 ,其中:Pr(Z³ z0.025 ) = Pr(Z£ -z0.025 ) = 0.025如果把概率為 5%的事件稱為小概率事件,那么,當(b -w)/ sd(b ) 的取值大于11z0.025 或者小于-z0

6、.025 時,我們認為小概率事件發(fā)生了!小概率事件一般是不容易發(fā)生定義z =(b - b ) / sd(b ),則 z 就是所謂的 z 統(tǒng)計量。估計量是111用來估計真實參數(shù)的,而統(tǒng)計量是用來做統(tǒng)計推斷(或者假設檢驗)的;統(tǒng)計量是隨機的,其分布也被稱為抽樣分布,針對特定樣本,我們得到統(tǒng)計量值,它是非隨機的。1在這里,該式是非隨機的,而特別應該注意的是,分子中的b 是估1計值,而分母中的b是估計量。估計值的標準差是零!。的,現(xiàn)在居然發(fā)生了,因此,我們應該懷疑上述經(jīng)濟理論所作出的預言。筆記:1另外一種直覺性的解釋:當 b1 = w 這個假設為真時,粗略看來,即使估計值 b 與1完全相等不太可能,但

7、估計值 b應該接近于。然而我們也要注意到,對 b1的估1計還存在精確性問題,這通過 b統(tǒng)計量的標準差體現(xiàn)出來。也就是說,在原假設為真時,即使估計值 b 與有一定的差異,然而如果 sd(b )較大,那么出現(xiàn) b與的較大111差異也許是正常的。不過總的來看,當原假設為真時,z 統(tǒng)計量值是應該接近于 0 的,這要么是因為 z =(b -w)/ sd(b ) 中的分子確實接近于 0,要么是因為盡管 b 與1111有一定的差異,但主要是由 sd(b )較大所引起的。當 z 統(tǒng)計量值與 0 具有較大差異時,那么 b1 = w 這個假設的真實性是值得懷疑的!假設檢驗的正式步驟是:(1)建立原假設與備擇假設:

8、筆記:H 0 : b1 = wH1 : b1 ¹ w原假設與備擇假設互斥;假設體系應該是完備的,即原假設與備擇假設兩者之一必為真,但兩者不能同時為真。(2)確定小概率標準 a。經(jīng)常我們把 1%、5%或者 10%作為小概率標準。對 a 更加正式的稱呼是“顯著水平”。(3)考察統(tǒng)計量值(b -w)/ sd(b ) 是否落在拒絕域:11(-¥, -za /2 Èza /2 , +¥) 之內。如果落在上述區(qū)間之內,那么在 a 顯著水平上,我們拒絕原假設,接受備擇假設;反之,我們不拒絕原假設,拒絕備擇假設。筆記:1、為什么當統(tǒng)計量值落在拒絕域(-¥, -

9、za /2 Èza / 2 , +¥) 之外時我們說“不拒絕原假設”而不是說“接受原假設”?其解釋是:我們可以作出很多的原假設,例如b1 = w1或者 b1 = w2 而我們所計算 出來的一 些統(tǒng)計量 值恰好都 落在 (-¥, -za /2 Èza / 2 , +¥)之外 ,難道我 們既接受 b1 = w1也接 受b1 = w2 ?顯然更恰當?shù)谋磉_方式是,即不拒絕 b1 = w1 也不拒絕 b1 = w2 。2、“接受原假設”沒有留有余地,而“不拒絕原假設”表明我們的結論是留有余地的,即,在另外的原假設下也可能不拒絕 b1 = w2 ?!敖邮軅?/p>

10、擇假設”留有余地嗎?應該注意到,備擇假設是 H1 : b1 ¹ w ,因此,即使說“接受備擇假設”,這也是留有余地的。3、設定 1%、5%或者 10%為顯著水平顯得有點隨意,為何不設 2%、6%、7%等為顯著水平呢?是否可以依據(jù)一個更一般的標準來進行假設檢驗?答案是肯定的,我們可以依據(jù)一個更一 般 的 標 準 來 進 行 假 設 檢 驗 ! 既 然 我 們 已 經(jīng) 計 算 出 統(tǒng) 計 量 值z =(b -w)/ sd (b ),如果 z 為正,那么根據(jù)正態(tài)分布表,我們就能夠確定11Pr(Z³ z È Z£ -z)的值(如果 z 值為負,那么我們能夠確定

11、Pr(Z³ -z È Z£ z) 的值),我們通常把這個概率值稱為伴隨概率,簡寫為 P 或者Prob.這個概率值很有用處!例如,假定 P 值是 0.062,那么,顯然,以任何小于 6.2%的概率為小概率標準,我們并不拒絕原假設;以任何大于 6.2%的概率為小概率標準,我們拒絕原假設。4、一個總結:在進行雙尾檢驗時,當 P 小于給定的顯著水平時,那么在給定的顯著水平下應該拒絕原假設;反之,則不拒絕原假設。上述檢驗都屬于雙尾檢驗,即(-¥, -za /2 Èza /2 , +¥) 是拒絕域。如果假設體系是:H0 : b1 = wH1 :

12、b1 > w那么在顯著水平 a 下,拒絕域應該是za , +¥),我們進行的是單側(尾)檢驗。為了理解單側檢驗,我們回答如下兩個問題:問題一:為什么拒絕域是za , +¥)?答案:當原假設為真時,那么 Z =(b -w)/ sd (b ) 應該在 0 左右不遠處;當備111擇假設為真時, b在真實參數(shù) b1 左右不遠處。因此,只要真實參數(shù)遠大于,則Z =(b -w)/ sd (b ) 遠大于 0 是非常可能的,而在這種情況下 Z 遠小于 0 則不11太可能的。因此,我們把拒絕域設定為za , +¥)。當實際計算出的 Z 值落在該區(qū)間內時,我們拒絕原假設,接受

13、被擇假設。問題二:為什么-¥, -za /2 ) 并不是拒絕域?答案:如果實際計算出的 Z 值落在該區(qū)間內時我們拒絕了原假設,那么我們更應該拒絕被擇假設。因為當備擇為真時,實際計算出的 Z 值落在該區(qū)間內的概率更小?;诩僭O體系的完備性,故我們不把-¥, -za /2 ) 設定為拒絕域。問題三:為何要設置這樣的假設體系?答案:這依賴于先驗的理論與判斷。例如,假定 b1 是某正常商品的消費收入彈性,那么 b1不可能為負。我們可以通過建立如下的假設體系:H0 : b1 = 0H1 : b1 > 0并基于樣本來判斷 b1 = 0 是否為真。思考題:在假設體系:H0 : b1

14、 = wH1 : b1 ¹ w下,計量軟件包計算出為正的統(tǒng)計量值 z,而且 P 值為 0.120【注:計量軟件包默認的 P 值是雙尾的概率,當 z 為正時,它計算的是Pr(Z³ z È Z£ -z) 】。問:在假設體系H 0 : b1 = wH1 : b1 > w下,以 10%為顯著水平,我們是否拒絕原假設?三、t 檢驗雖然在經(jīng)典線性模型假定下:(b - b ) / sd(b ) N (0,1)然而,在11d 2b1d 2å(xi - x)21sd(b ) =1之中,d 2經(jīng)常是未知的,需要我們估 計 。 在 第 二 講 時 , 我 們

15、已 知 道 , 在 高 斯 馬 爾 可 夫 假 定 下 ,d2= RSS =åe2是 對 d 2的 一 個 無 偏 估 計 。 我 們 記iN - k -1N - k -1d2 / å(xi - x)21se(b ) =,(注:the standard error,se;the standard deviation,sd)。可以證明, (b - b1)/ se(b ) 服從 t(N-2)分布。11證明:在經(jīng)典線性模型假定下有:11111(b - b ) / sd (b ) = (b - b ) /üd 2å(xi - x)2Þ N (0,1)&

16、#239;ýåd 2 (x - x )2iå ie2/ d2N - 2iåe2 / d 2 : c(2N - 2)ïþ(b- b ) /: (t N- 2)11化簡可得: (b1 - b1) / se(b1) : (t N筆記:- 2)1、關于隨機變量概率分布的知識點見本講附錄 1;2、在經(jīng)典線性模型假定下可證明iåe2/ d 2 :c(2N - k -1)具體可參見一些較為高級的教科書。另外,根據(jù)附錄 1 的知識點,一個服從卡方分布的隨i機變量其期望值等于自由度,故 E(åe2 / d 2 ) = N - k -

17、1。實際上在第二講i我們已經(jīng)表明 Eåe2 / (N - k -1) = d 2 ,這驗證了該知識點。接下來,檢驗步驟和應該注意的細節(jié)就和第二小節(jié)沒有差異了,除了所利用的是 t 分布而不是標準正態(tài)分布。筆記:隨著自由度趨于無窮大,t 分布漸進于與標準正態(tài)分布,見附錄 1 知識點 4。事實上,當自由度趨于無窮大時, se(b ) 在概率上收斂于 sd(b )【前者是對后者的一致估11計】,因此,隨著自由度趨于無窮大, (b - b ) / se(b )漸進服從于標準正態(tài)分布。111前面我們討論的是簡單線性回歸模型。事實上相關結論與檢驗完全可以被推廣到多元線性回歸模型:y = b0 +

18、b1x1 +. + b jxj +. + bk xk +e在該模型下, (bj - b j ) / se(bj ) tN -k-1思考題:一樣本其容量為 30,建立回歸模型:yi = b0 + b1x1i + b2x2i + b3x3i +eibt 等于-4,請判斷在顯著水平 1%、5%與 10%下是否拒絕原假設。0筆記:通過觀察 t 分布表可知,給定顯著水平,隨著自由度的增加,右側臨界值遞減。當自由度為 10 時,有:a = 10% = 2 Prt ³ t0.05 (10) = 2 Prt ³ 1.812;a = 5% = 2 Prt ³ t0.025 (10)

19、 = 2 Prt ³ 2.228;a = 1% = 2 Prt ³ t0.005 (10) = 2 Prt ³ 3.169.進行回歸分析時自由度一般都大于 10。如果情況確實如此,那么當你得到一具體的 t 值時,你應該能夠粗略地判斷在多大的顯著水平下是否拒絕原假設。在實踐中,我們經(jīng)常對 b1是否為零的假設感興趣,顯然在假設體系:H0 : b1 = 0H1 : b1 ¹ 0下,此時的 t 統(tǒng)計量是 b / se(b )。針對特定樣本,計量軟件一般會自動計算出對應111于上述假設體系的 t 值。如果原假設被拒絕,那么我們就說在某某顯著水平上 x 是統(tǒng)計上顯著

20、的;如果不能被拒絕,則就說 x 在某某顯著水平上是統(tǒng)計上不顯著的。應該注意:即使 b的絕對值很小很?。此^的變量 x 無經(jīng)濟顯著性或者實際顯著性( economic significance/practical significance),但在統(tǒng)計上,它可能顯著地與 0 不同。四、 置信區(qū)間在模型 yi = b0 + b1xi +ei 下,如果有:b - b / se(b ) t(n- k -1)則有:111Prb -tse(b ) £ b£ b+ tse(b ) =1- a1a/2111a/2 1(b - tse(b ), b + tse(b ) 被稱為 b 的區(qū)間估計

21、量,而 1-a 是置信水1a / 211a / 21 1平。應該注意,當樣本并未指定時,(b - tse(b ), b + tse(b) 是一個1a / 211a / 2 11隨機區(qū)間!我們可以說,該隨機區(qū)間包含真實參數(shù)的概率為 1-a。然而,當樣本給定后,b及其 se(b ) 通過計算已經(jīng)被獲得,那么(b - tse(b ), b + tse(b )11a / 211a / 2 1就不再是隨機區(qū)間了,該區(qū)間要么包含 b 的真實值要么不包含,故我們不能說,該確定性區(qū)間包含真實參數(shù)的概率為 1-a。然而,在重復抽樣的情景下,我們可以獲得無限多的確定性區(qū)間,在這些區(qū)間中,有百分之 100(1-a)

22、的區(qū)間將包含 b1 的真實值。當原假設 H0 : b1 = w 為真時,如果根據(jù)某一樣本所得到的置信區(qū)間并未包含,那么小概率事件發(fā)生了,因此,我們將拒絕 H0 : b1 = w 這個原假設。反之,則不拒絕原假設。如此看來,利用置信區(qū)間作假設檢驗本質上是與 t 檢驗等價的。與區(qū)間估計量有聯(lián)系的一個概念是所謂的區(qū)間預測,見附錄 2。思考題:對 于 模 型yi = b0 + b1xi +ei, 根 據(jù) 一 樣 本 , 我 們 得 到 :(b - tse(b ), b + tse(b ) = (-0.23.0.89)10.05110.051(1)試判斷變量 x 在 10%顯著水平下是否統(tǒng)計顯著。(2)

23、在假設體系:H0 : b1 = 4及H1 : b1 ¹ 4其 10%顯著水平下,我們是否拒絕原假設?五、F 檢驗現(xiàn)在我們把簡單線性回歸模型擴展為多元線性模型,例如模型是:yi = b0 + b1x1i + b2x2i + b3x3i +ei如果我們對原假設 H0 :b1 = w1;b2 = w2 是否成立感興趣,我們該怎么辦?。第一步:估計受約束模型:yi = b0 + w1x1i + w2x2i + b3x3i +ei ,或者yi - w1x1i - w2x2i = b0 + b3x3i +ei估計上述模型得到殘差平方和 RSSr;第二步:估計不受約束模型:yi = b0 + b1

24、x1i + b2x2i + b3x3i +ei得到殘差平方和 RSSur;第三步:定義 F 統(tǒng)計量:F = (RSSr - RSSur )/(dfr -dfur )RSSur / dfur在經(jīng)典線性模型假定假定下及其原假設下,該統(tǒng)計量服從 F(dfr - dfur ,dfur ) 分布。在這里,dfr 是估計受約束模型時所得到的殘差的自由度;dfur 是估計不受約束模型時(RSSr - RSSur ) / 2所得到的殘差的自由度。在我們的例子中, F =筆記:RSSur/ N - 4。OLS 要求殘差平方和最小,現(xiàn)在我們得到了兩個殘差平方和,即 RSSr 與 RSSur,顯然 RSSr 

25、79; RSSur,于是,上述對 F 的定義滿足 F ³ 0。回憶 F 分布的圖形,它是在第一象限被定義的。如果原假設為真,即我們所施加的約束是正確的,那么,盡管 RSSr ³ RSSur,但 RSSr與 RSSur 應該相差不多,因此,如果相差很大,那么我們就應該懷疑原假設了!由于 RSSr與 RSSur 與被解釋變量的測度單位有關,因此,我們把兩者的差距除以 RSSur,以使其“無單位化”。筆記:為什么除以 RSSur 而不是 RSSr?如果除以 RSSr,那么計算所得的 F 值會更小,從而更容Q RSSr / d 2 c 2 (N - 2); RSSur / d 2

26、c 2 (N - 4);(RSSr - RSSur ) / d 2 c 2 (2)(RSSr - RSSur ) / 2 / RSSur /( N - 4) F (2, N - 4)易不拒絕原假設,即犯第二類錯誤(取誤)的概率增加,因此,為提高檢驗的勢(降低犯第二類錯誤的概率),在此除以 RSSur 而不是 RSSr, 除以 RSSur 相當于“提供一個放大鏡,以使我們對原假設更加苛刻,不會輕易相信原假設所告訴的故事,這不正好體現(xiàn)了科學的懷疑精神嗎?”【注:犯第一類錯誤(棄真)的概率就是顯著水平,因此,顯著水平越小,則犯第一類錯誤的概率就越低】總而言之,一個直覺是當 F 值遠大于零時我們應該拒

27、絕原假設。多遠才算遠?設定臨界值 Fa(dfr - dfur,dfur), 當 我 們 依 據(jù) 樣 本 所 得 到 的 F值 落 在(Fa(dfr - dfur ,dfur ),+¥) 時,我們說“在 a 顯著水平下拒絕原假設”。筆記:在經(jīng)典線性模型假定及其原假設下,(RSSr - RSSur ) / d 2 與 RSSur / d 2 獨立嗎?只有兩者是獨立的,我們才能利用附錄 1 知識點 5。事實上,當原假設為真時,(RSSr - RSSur )趨于 0,這并不依賴于 RSSur 的取值,因此,直觀看來,(RSSr - RSSur ) / d 2 與 RSSur / d 2應該是

28、獨立的。Fsample同樣, 當我們依據(jù)樣本得到值時, 我們也能夠依據(jù) F 分布表計算Pr(F筆記:³ F sample ) ,計量軟件包在 F 值后所給出的 P 值正是這個概率。利用 R2 指標,F(xiàn) 統(tǒng)計量還被可以改寫為另外一種形式,即所謂的 R-平方型。R2 =1- RSSr ; R2=1- RSSur ;TSS= TSS,因此有:rTSSrurTSSurrurF = (RSSr - RSSur ) / (dfr - dfur )RSSur / dfur= (RSSr /TSS - RSSur / TSS)/ (dfr - dfur ) (RSSur / TSS)/ dfur(R

29、2 - R2)/(df- df)=urr(12rur- Rur) / dfur應該注意到 R2 ³ R2 ,一個直觀的理解是,不受約束的樣本回歸模型由于更具彈性因此urr應該擬合得更好。在實踐中,我們也許對原假設 H0 :b1 = b2 = b3 = 0最感興趣。如果這個假設被拒絕,那么我們就說 x1、x2、x3 在統(tǒng)計上是聯(lián)合顯著的;如果不能被拒絕,則就說 x1、x2、x3 在統(tǒng)計上是聯(lián)合不顯著的。針對特定樣本,計量軟件一般會自動計算出對應于上述假設的F 值。練習:1、估計模型 yi = b0 + b1x1i +.+ bk xki +ei 并獲得 R2,針對原假設H0 :b1 =

30、. = bk = 0R2 / k(1- R2)/(N - k -1) 。, 請 推 導 出 R- 平 方 型 的 F統(tǒng) 計 量 :2、如果利用 F 統(tǒng)計量檢驗原假設 H0 :b1 = b2 =.= bk = 0,證明有關系:- +R2 =1- N -1Nk1kF筆記:根據(jù)在原假設 H0 :b1 = . = bk = 0 下的 R-平方型 F 統(tǒng)計量表達式可知,此時的 F 檢驗實際上也是檢驗 R2 是否顯著不為 0。六、t 檢驗與 F 檢驗的聯(lián)系與區(qū)別(一)聯(lián)系對于模型:y = b0 + b1x1 +. + b jxj +. + bk xk +e現(xiàn)在我們對假設 b j = 0進行檢驗,首選檢驗方

31、法是 t 檢驗,不過 F 檢驗也是可行的??梢宰C明,此時t2bj= F 。為簡單計,考慮簡單模型 yi = b0 + b1xi +ei ,我們對 b1 是否為 0 感興趣。一方面可以進行 t 檢驗:RSSN - 2ur/(x - x)åi21t= b /b1另一方面也可以進行 F 檢驗:F = (RSSr - RSSur ) /(dfr - dfur ) = (TSS - RSSur ) /1 =ESSur0筆記:RSSur / dfurRSSur / N - 2RSSur / N - 2此時受約束模型是: yi= b0+ei,根據(jù)第一講相關知識點, b= y 。因此,rii iRS

32、S= å( y- y )2= å( y- y )2= TSSb接 下 來我們 闡 述證明 t2 = F1的 思路。 我 們實際 上 需要證 明 的是: b 2å(x - x)2 = ESSur 是否成立。由于 R2= ESSur,故需證明 1iurTSSb 2å(xi - x)2 = ESSur= R21TSSTSSur 是否成立。注意到:b 2å(x- x)2 =å(xi - x)( yi - y)2å(x- x)21iå(xi - x)2 i=å(xi - x)( yi - y)2å(xi

33、- x)2b 2å(xi - x)2 =å(xi - x)( yi - y)2因此,1,而TSSå(x - x)2å(y - y)2i ii iå(xi - x)( yi - y)2å(x- x)2å(y- y)2 是 x 與 y 的樣本相關系數(shù)的平方,按照第二講關于urR2 的相關結論,它與 R2相等。我們所證明的關系t2bj= F 是一個代數(shù)關系,問題是t2bj服從 F 分布嗎?根據(jù)附錄 1 知識點 4 與 5,一個服從 t(m)分布的隨機變量其平方一定服從 F(1,m)分布,進而有:bPrt 2³ ta/2

34、(m) È t b2£ ta/2 (m) = a = Prt2b2³ Fa (1, m)因此 F 檢驗與 t 檢驗將得到完全相同的檢驗結論。筆記:上述結論的一個應用。對于模型 yi = b0 + b1x1i +.+ bk xki +ei ,通過前面的 練習,我 們知道 R2 N -1=1-N - k -1+ kF。 現(xiàn)在考慮 簡單模型: yi = b0 + b1x1i +ei ,則根據(jù)前面的結論有: R2 =1- N N -1,顯然,如2i果 t> 1,則 R2 > 0 。注意到對模型: y1= b0+ei- 2 + t b1,其調整的判定系數(shù)等于 0

35、(作b為一個練習請證明)。yi = b0 + b1x1i +ei 與 yi = b0 +ei 相比較,前者增加了一b個解釋變量,因此,其判定系數(shù)將大于等于后者的判定系數(shù)。然而,只有當 t 1> 1時,前者的調整的判定系數(shù)才會大于后者的調整的判定系數(shù)。這個結論可以推廣:在初始的線性模型上增加解釋變量,只有所增加變量所對應的 t 值其絕對值大于 1 時(在計算該 t 值時所對應的原假設是真實系數(shù)為 0),調整的判定系數(shù)才會增加(應該注意到,t 值的絕對值大于 1并不意味著變量一定是顯著的)。(二)區(qū)別t 檢驗關注的單個參數(shù)的取值問題,如果需要同時關注多個參數(shù)的取值問題,那么此時我們應該利用

36、F 檢驗。對于模型:yi = b0 + b1x1i + b2x2i + b3x3i +ei在實踐中,我們一方面可能對 b j = 0是否成立感興趣,即關注單個解釋變量的顯著性,此時用到的是 t 檢驗;另一方面,我們也可能對 b1 = b2 = b3 = 0是否成立感興趣,即關注所有解釋變量的聯(lián)合顯著性,此時用到的是 F 檢驗。應該注意到,根據(jù)此時的 R-平方型 F 統(tǒng)計量表達式可知,我們實際上是在檢驗 R2 是否顯著不為 0,因此,關注所有解釋變量的聯(lián)合顯著性即關注整個模型的擬合程度。特別要注意的是,單個變量顯著并不意味著變量聯(lián)合顯著,反之亦然。筆記:與生活中的一種現(xiàn)象進行類比:一種藥品包含兩

37、種成份,其中任何一種成份單獨看來其藥性都很強,但聯(lián)合時使用時可能并無藥效;另外一種情況是,其中任何一種成份單獨看來其藥性都很弱,但聯(lián)合時使用時藥品的藥效可能很大。七、補充知識點:相關系數(shù)的假設檢驗(一)簡單相關系數(shù)的假設檢驗我們想判斷隨機變量 x 與 y 的簡單相關系數(shù) r 是否為零。按照 Fisher,在假設體系:H 0 : r = 0n - 2H1 : r ¹ 01 - r 2sample下,當原假設為真時, t =rsample: t(n - 2)【注: rsample 是樣本相關1系數(shù)】,現(xiàn)在我們考慮另外一種思路。建立回歸模型: y = b0 + b1x + e ,再考察 b

38、是否與 0 有顯著差異。bQ t21= F =R2n-2(1- R2)/(n-2)R2(1- R2)/(n-2)t=±=b1rsample1-r2sample上面最后一個等式之所以成立,首先是因為在簡單線性回歸模型中, R2等于 y 與 x 的樣1本簡單相關系數(shù)的平方,其次是因為當rsample 小于零時, b是負數(shù),因此 t 值為正數(shù);1當rsample 大于零時, b是正數(shù),因此 t 值為正數(shù)。總的來看,F(xiàn)isher 的方法與回歸檢驗方法等價。換句話說,如果你試圖依據(jù)樣本判斷隨機變量 x 與y 的簡單相關系數(shù) r 是否為零,你可以建立簡單線性回歸模型然后對斜率系數(shù)進1行 t 檢驗

39、,如果 b與 0 有顯著差異,則可以拒絕 r 為 0 的原假設。(二)偏相關系數(shù)的假設檢驗x1 與x2 的簡單相關可能是由于兩變量分別與 x3 相關造成的。在控制了 x3 之后,x1 與x21 2 3還具有相關性嗎?在控制了 x3 之后,x1 與 x2 的相關關系被稱為偏相關,記為rx x .x 。如x1x2.x3何計算樣本偏相關系數(shù)rsample ?步驟:第一步:把 x1對 x3 進行回歸有:x1i = b+ bx i + vi(1)02 3第二步:把 x2 對 x3 進行回歸,即有:x2i =j0 +j2x3i + wi(2)å(wi - w)2å(vi - v)2=第

40、 三 步 : 計 算 v與 w 的 樣 本 簡 單 相 關 系 數(shù) , 有 :rsample = rsample =åwi2åvi2å(wi - w)(vi - v)åwivix1x2.x3w v 當然我們還可以利用變量間的樣本簡單相關系數(shù)來計樣本偏相關系數(shù),這是因為存在關系:rsample- rsamplersample(1-rsample 2x1x3 )(1-rsample2x2x3)x1x2.x3rsample = x1x2x1x3x2x3 ,其證明見附錄 3。我們還能檢驗rsample 是否與0 有顯著差異。方法是對回歸模型:v=hw +ex1x

41、2.x3iii(注:不含截距,當然你可以包含截距,但你會發(fā)現(xiàn),截距的估計結果肯定為 0,這是因為 w 與v其均值都為零,而基于簡單線性回歸截距估計量的公式,這意味著截距估計量為 0),在原假設h =0下進行 t 檢驗。值得注意的是,此時自由度應該是(N-2)-1=N-3 而不是 N-1!這是因為 w 與v的自由度是 N-2。利用上述檢驗方法來檢驗 x1 與 x2 的偏相關關系顯得太復雜了,事實上基于回歸模型: x1i = a +b1x2i +b2x3i +ei ,在原假設 H0 :b1 = 0 下進行 t 檢驗即可檢驗 x1與 x2 的偏相關關系。為什么呢?因為 b1 就是控制了 x3 后 x

42、2 對 x1 的影響(在第六講,我們1將證明h =b )。(二)復相關系數(shù)的假設檢驗x1 與(x2,x3)的相關關系被稱為復相關,記為 R。如何計算樣本復相關系數(shù) Rsample ?基于回歸模型:x1i = a +b1x2i +b2x3i +ei ,計算 x1與 x1的樣本簡單相關系數(shù),并取絕對值,則得到 x1 與(x2,x3)的樣本復相關系數(shù)。根據(jù)第一講, x1與 x1的樣本簡單相關系數(shù)的平方就是上述回歸的判定系數(shù) R2。基于回歸模型: x1i = a +b1x2i +b2x3i +ei 在原假設 H0 :b1 =b2 = 0下進行 F 檢驗,則等價于檢驗原假設:復相關系數(shù) R=0 ?;貞浺?/p>

43、下,在原假設H :b = b= 0 下,F(xiàn) =R2 /2 R2=0012F=0。筆記:(1- R2)/(N -2-1) ,當判定系數(shù)時,對于回歸模型: x1i = a +b1x2i +b2x3i +ei ,在原假設 H0 :b1 = b2 = 0下進行 F 檢驗實際上是檢驗 x1 與(x2,x3)的復相關關系;在原假設 H0 :b1 = 0下進行 t檢驗實際上是檢驗 x1 與 x2 的偏相關關系(控制了 x3)。附錄 1:正態(tài)分布、卡方分布、t 分布與 F 分布1. X 是期望值為u ,標準差為d 的隨機變量,則 X 所服從分布的偏度與峰度分別被定義為E( X - u)3S =d 3; K =

44、E( X - u)4d 42. 如果 X N (u,d 2 ) ,則 S = 0, K = 3 。另外,當 j 是奇數(shù)時, E( X - u) j = 0i.i.dn3. z N (0,1) Þ å z2 c 2 (n) ,則i inni=1E(c 2 (n) = E(å z2 ) = å E(z2 ) = nVar(z ) = nii ii=1i=1nnniii iVar(c 2 (n) = Var(å z2 ) = åVar(z2 ) =å Ez2 - E(z2 )2i=1i=1i=1nniiiii i= å

45、Ez4 + E2 (z2 ) - 2z2E(z2 ) =å E(z4 +1- 2z2 i=1nni=1i i= å E(z4 ) + n - 2å E(z2 ) = 3n + n - 2n = 2nz y nz N (0,1)üi=1i=1þ4. y c 2 (n) ý Þ t = tnyy2n2yyQ E( ) = 1,Var( ) =, limVar( ) = 0, p lim= 1,當n ® ¥時t漸進分布于N (0,1)。12nnn2n n®¥nn5. y c 2 , y c

46、2, 且兩者獨立,則 F =y1 / n1 F (n , n )1n12n2y2 / n212z2z2 /1 2t = ()y / n= y / n F (1, n) 。另外,當 n2 ®¥ 時, n1F 漸進分布于 cn 。附錄 2: 區(qū)間預測假定真實模型是: y = b0 + b1x + e,模型滿足經(jīng)典線性模型假定。以 y f = b+ b x 作為對 yf 的預測。此時預測誤差是:e1 =01f0y f - y f = (b0 - b) + (b1 - b)xf+ e f1 1(x - x f )2顯然,E(e )=0,Var(e ) = +1d 2 (參見第二講補充11Nå(x - x)2i知識點 2),e1 服從正態(tài)分布。即e1 - E(e1 ) =e1= y f - y f N (0,1)Sd (e1)Sd (e1)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論