




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、二分類Logistic回歸模型在對(duì)資料進(jìn)行統(tǒng)計(jì)分析時(shí)常遇到反應(yīng)變量為分類變量的資料,那么,能否用類似于線 性回歸的模型來(lái)對(duì)這種資料進(jìn)行分析呢?答案是肯定的。本章將向大家介紹對(duì)二分類因變量進(jìn)行回歸建模的 Logistic 回歸模型。第一節(jié)模型簡(jiǎn)介一、模型入門(mén)在很多場(chǎng)合下都能碰到反應(yīng)變量為二分類的資料,如考察公司中總裁級(jí)的領(lǐng)導(dǎo)層中是否有女性職員、某一天是否下雨、某病患者結(jié)局是否痊愈、調(diào)查對(duì)象是否為某商品的潛在消費(fèi)者等。對(duì)于分類資料的分析,相信大家并不陌生,當(dāng)要考察的影響因素較少,且也為分類 變量時(shí),分析者常用列聯(lián)表 (contingency Table)的形式對(duì)這種資料進(jìn)行整理,并使用 72檢驗(yàn)來(lái)
2、進(jìn)行分析,漢存在分類的混雜因素時(shí),還可應(yīng)用Mantel-Haenszel?2檢驗(yàn)進(jìn)行統(tǒng)計(jì)學(xué)檢驗(yàn),這種方法可以很好地控制混雜因素的影響。但是這種經(jīng)典分析方法也存在局限性,首先,它雖然可以控制若干個(gè)因素的作用,但無(wú)法描述其作用大小及方向,更不能考察各因素間是否存在交互任用;其次,該方法對(duì)樣本含量的要求較大,當(dāng)控制的分層因素較多時(shí),單元格被劃分的越來(lái)越細(xì), 列聯(lián)表的格子中頻數(shù)可能很小甚至為0,將導(dǎo)致檢驗(yàn)結(jié)果的不可靠。最后,/2檢驗(yàn)無(wú)法對(duì)連續(xù)性自變量的影響進(jìn)行分析,而這將大大限制其應(yīng)用范圍,無(wú)疑是其致使的缺陷。那么,能否建立類似于線性回歸的模型,對(duì)這種數(shù)據(jù)加以分析?以最簡(jiǎn)單的二分類因變量為例來(lái)加以探討
3、,為了討論方便,常定義出現(xiàn)陽(yáng)性結(jié)果時(shí)反應(yīng)變量取值為1,反之則取值為0。例如當(dāng)領(lǐng)導(dǎo)層有女性職員、下雨、痊愈時(shí)反應(yīng)變量y = 1,而沒(méi)有女性職員、未下雨、未痊愈時(shí)反應(yīng)變量 y = 0。記出現(xiàn)陽(yáng)性結(jié)果的頻率為反應(yīng)變量P( y = 1)。首先,回顧一下標(biāo)準(zhǔn)的線性回歸模型:Y = :;為 |1| . 'Xm如果對(duì)分類變量直接擬合,則實(shí)質(zhì)上擬合的是發(fā)生概率,參照前面線性回歸方程,很自然地會(huì)想到是否可以建立下面形式的回歸模型:P = : ,件"HI - '-mXm顯然,該模型可以描述當(dāng)各自變量變化時(shí),因變量的發(fā)生概率會(huì)怎樣變化,可以滿足 分析的基本要求。實(shí)際上,統(tǒng)計(jì)學(xué)家們最早也在朝
4、這一方向努力,并考慮到最小二乘法擬合時(shí)遇到的各種問(wèn)題,對(duì)計(jì)算方法進(jìn)行了改進(jìn),最終提出了加權(quán)最小二乘法來(lái)對(duì)該模型進(jìn)行擬合,至今這種分析思路還偶有應(yīng)用。既然可以使用加權(quán)最小二乘法對(duì)模型加以估計(jì),為什么現(xiàn)在又放棄了這種做法呢?原 因在于有以下兩個(gè)問(wèn)題是這種分析思路所無(wú)法解決的:(1)取值區(qū)間:上述模型右側(cè)的取值范圍,或者說(shuō)應(yīng)用上述模型進(jìn)行預(yù)報(bào)的范圍為整個(gè)實(shí)數(shù)集(,f),而模型的左邊的取值范圍為 0 E P E1 ,二者并不相符。模型本身不能保證在自變量的各種組合下,因變量的估計(jì)值仍限制在01內(nèi),因此可能分析者會(huì)得到這種荒唐的結(jié)論:男性、30歲、病情較輕的患者被治愈的概率是 300%研究者當(dāng)然可以將此
5、 結(jié)果等價(jià)于100%可以治愈,但是從數(shù)理統(tǒng)計(jì)的角度講,這種模型顯然是極不嚴(yán)謹(jǐn)?shù)摹?2)曲線關(guān)聯(lián):根據(jù)大量的觀察,反應(yīng)變量P與自變量的關(guān)系通常不是直線關(guān)系,而是S型曲線關(guān)系。這里以收入水平和購(gòu)車(chē)概率的關(guān)系來(lái)加以說(shuō)明,當(dāng)收入非常低時(shí), 收入的增加對(duì)購(gòu)買(mǎi)概率影響很??; 但是在收入達(dá)到某一閾值時(shí),購(gòu)買(mǎi)概率會(huì)隨著收入的增加而迅速增加;在購(gòu)買(mǎi)概率達(dá)到一定水平,絕大部分在該收入水平的人都會(huì)購(gòu)車(chē)時(shí),收入增加的影響又會(huì)逐漸減弱。如果用圖形來(lái)表示, 則如圖1所示。顯然,線性關(guān)聯(lián)是線性回歸中至關(guān)重要 的一個(gè)前提假設(shè),而在上述模型中這一假設(shè)是明顯無(wú)法滿足的。圖1 S型曲線圖以上問(wèn)題促使統(tǒng)計(jì)學(xué)家們不得不尋求新的解決思路
6、,如同在曲線回歸中,往往采用變 量變換,使得曲線直線化,然后再進(jìn)行直線回歸方程的擬合。那么,能否考慮對(duì)所預(yù)測(cè)的因變量加以變換,以使得以上矛盾得以解決?基于這一思想,又有一大批統(tǒng)計(jì)學(xué)家在尋找合適的變換函數(shù)。終于,在 1970年,Cox引入了以前用于人口學(xué)領(lǐng)域的Logit變換(LogitTransformation),成功地解決了上述問(wèn)題。那么,什么是 Logit變換呢?通常的把出現(xiàn)某種結(jié)果的概率與不出現(xiàn)的概率之比稱為比值(odds ,國(guó)內(nèi)也譯為優(yōu)勢(shì)、 比數(shù)),即OdS =一,取其對(duì)數(shù) 九二ln( Odds) = ln一。1募1 -二這就是logit變換。下面來(lái)看一下該變換是如何解決上述兩個(gè)問(wèn)題的
7、,首先是因變量取值區(qū)間的變化,概率是以0.5為對(duì)稱點(diǎn),分布在01的范圍內(nèi)的,而相應(yīng)的logit(P)的大小為:冗=0 logit( n)=ln(0/1) =oo1=0.5logit(二)=ln(0.5/ 0.5) =0二二1 logit(二)=ln(1/ 0)= oo顯然,通過(guò)變換,Logit( n )的取值范圍就被擴(kuò)展為以0為對(duì)稱點(diǎn)的整個(gè)實(shí)數(shù)域,這使得在任何自變量取值下,對(duì) n值的預(yù)測(cè)均有實(shí)際意義。其次,大量實(shí)踐證明,Logit(n)往往和自變量呈線性關(guān)系,換言之,概率和自變量間關(guān)系的S形曲線往往就符合logit函數(shù)關(guān)系,從而可以通過(guò)該變換將曲線直線化。因此,只需要以 Logit(n)為因變
8、量,建立包含 p 個(gè)自變量的logistic回歸模型如下:logit( P),0:iX IHpxp以上即為logistic回歸模型。由上式可推得:exp( o -i HlpXp)1P=1 _ P _ 1 exp( 01XiHl-pXp)1exP(oixi111pxp)上面三個(gè)方程式相互等價(jià)。通過(guò)大量的分析實(shí)踐,發(fā)現(xiàn) logistic回歸模型可以很好地滿足對(duì)分類數(shù)據(jù)的建模需求,因此目前它已經(jīng)成為了分類因變量的標(biāo)準(zhǔn)建模方法。通過(guò)上面的討論,可以很容易地理解二分類logistic回歸模型對(duì)資料的要求是:(1)反應(yīng)變量為二分類的分類變量或是某事件的發(fā)生率。(2)自變量與Logit( n)之間為線性關(guān)系
9、。(3)殘差合計(jì)為0,且服從二項(xiàng)分布。(4)各觀測(cè)值間相互獨(dú)立。由于因變量為二分類,所以logistic回歸模型的誤差應(yīng)當(dāng)服從二項(xiàng)分布,而不是正態(tài)分布。因此,該模型實(shí)際上不應(yīng)當(dāng)使用以前的最小二乘法進(jìn)行參數(shù)估計(jì),上次均使用最大似然法來(lái)解決方程的估計(jì)和檢驗(yàn)問(wèn)題。二、一些基本概念由于使用了 logit變換,Logistic 模型中的參數(shù)含義略顯復(fù)雜,但有很好的實(shí)用價(jià)值,為此現(xiàn)對(duì)一些基本概念加以解釋。1 .優(yōu)勢(shì)比如前所述,人們常把出現(xiàn)某種結(jié)果的概率與不出現(xiàn)的概率之比稱為比值(odds),即Podds =。兩個(gè)比值之比稱為優(yōu)勢(shì)比(odds Ratio ,簡(jiǎn)稱OR。首先考察 OR的特性:1 -P,_PPc
10、右 P1 > P2 ,貝U odds1 =>= odds21 -P1 -P2若 P1 < P2 ,貝U odds1=P<P2= odds21 -P1 -P2若 P1 = P2 ,貝U odds1=P=P2= odds21 -P1 -P2顯然,O幅否大于1可以用作兩種情形下發(fā)生概率大小的比較。2. Logistic 回歸系數(shù)的意義從數(shù)學(xué)上講,P和多元回歸中系數(shù)的解釋并無(wú)不同,代表x改變一個(gè)單位時(shí)logit( P的平均改變量,但由于odds的自然對(duì)數(shù)即為logit變換,因此Logistic回歸模型中的系數(shù)和OR有著直接的變換關(guān)系,使得 Logistic回歸系數(shù)有更加貼近實(shí)際
11、的解釋,從而也使得該模型得到了廣泛的應(yīng)用。 下面用一個(gè)實(shí)例加以說(shuō)明:以4格表資料為例具體說(shuō)明各回歸系數(shù)的意義:表1 4格表資料治療方法(treat)治療結(jié)果(outcome)合計(jì)治愈率治愈(=1)未治愈(=0)新療法(=1)60 (a)21 (c)8174.07%傳統(tǒng)療法(=0)42 (b)27 (d)6960.87%合計(jì)1024813068.00%該資料如果擬合 Logistic 回歸模型,則結(jié)果如下(操作步驟詳見(jiàn)后述):Logit(P|outcome = 1)= 01 treat = -0.442 0.608 treat(1)常數(shù)項(xiàng):表示自變量取全為0 (稱基線狀態(tài))時(shí),比數(shù) (Y=1與Y
12、=0的概率之比)的自然對(duì)數(shù)值,本例中為 P0 =-0.442 = ln(42/69)/(27/69) = ln(42/27) = ln(b/d), 即傳統(tǒng)療法組的治愈率與未治愈率之比的自然對(duì)數(shù)值。在不同的研究設(shè)計(jì)中,常數(shù)項(xiàng)的具體含義可能不同,如基線狀態(tài)下個(gè)體患病率、基線個(gè)體發(fā)病率、基線狀態(tài)中病例所占比例等, 但這些數(shù)值的大小研究者一般并不關(guān)心。(2)各自變最的回歸系數(shù):Pj (i =1,| p)表示自變量X每改變一個(gè)單位,優(yōu)勢(shì)比的自然對(duì)數(shù)值改變量,而 exp©。即OR直,表示自變量 為每變化一個(gè)單位,陽(yáng)性結(jié)果出現(xiàn)概 率與不出現(xiàn)概率的比值是變化前的相應(yīng)比值的倍數(shù),即優(yōu)勢(shì)比(注意:不是出
13、現(xiàn)陽(yáng)性結(jié)果的概率為變化前的倍數(shù),即優(yōu)勢(shì)比并不等同于相對(duì)危險(xiǎn)度)。本例中自變量治療方法的回歸系數(shù)?1 =0.608,為兩組病人的治愈率與未治愈率之比的對(duì)數(shù)值之差,即 ln(60 /81)/(21/81) =ln(42 /69)/(27/69) = ln(ad/bc)。因此,對(duì)于四格表資料而言,所建立的Logistic 回歸模型也可以寫(xiě)成:logit( Poutcome =1) = ln(b/d) ln(ad / bc) treat =ln(b/d) ln(OR) treat由以上關(guān)系可知,exp(久)表示傳統(tǒng)療法組的治愈率與未治愈之比值。exp(B1)則表示治療方法增加一個(gè)單位,即將療法從傳統(tǒng)療
14、法改為新療法時(shí),新療法組病人治愈率與未治愈率之比值相對(duì)于傳統(tǒng)療法組病人的治愈率與未治愈率比值的倍數(shù)。而兩組病人的治愈率之比二 (60/81)/(42/69) =1.217 ,并不完全相同。但是,當(dāng)研究結(jié)果出現(xiàn)陽(yáng)性的概率較小時(shí)(一般認(rèn)為小于0.1 ,反之當(dāng)概率大于 0.9時(shí)亦可),OR直大小和發(fā)生概率之比非常接近,此時(shí)可以近似地說(shuō)一組研究對(duì)象的陽(yáng)性結(jié)果發(fā)生率是另一組研究對(duì)象發(fā)生率的OR直倍,即用OR值的大小來(lái)挖地表示相對(duì)危險(xiǎn)度的大小。三、簡(jiǎn)單分析實(shí)例SPSS中通過(guò)regression 模塊中的 Binary Logistic過(guò)程實(shí)現(xiàn)結(jié)果變量為二分類的Logistic回歸,下面通過(guò)一個(gè)實(shí)例分析,具
15、體講解相應(yīng)的操作和結(jié)果解釋。例1某醫(yī)師希望研究病人的年齡(歲)、性別(0為女性,1為男性)、心電圖檢驗(yàn)是否 異常(ST段壓低,0為正常、1為輕度異常、2為重度異常)與患冠心病是否有關(guān)。調(diào)用 SPSS中的 Binary Logistic 過(guò)程:圖2 Logistic回歸主對(duì)話框本例中涉及的對(duì)話框界面如圖9.2所示,注意對(duì)話框中部有一個(gè)以前未出現(xiàn)過(guò)的a*b按鈕、用于納入交互作用,只要先將相應(yīng)變量選中,然后單擊此按鈕,相應(yīng)的交互項(xiàng)就會(huì)被納入模型。本例因較為簡(jiǎn)單,未用到此功能。性別雖為分類變量,但僅有兩個(gè)取值水平,所 以可以直接引入模型,結(jié)果仍然可以被正常解釋。結(jié)果如下:首先輸出分析中使用的記錄數(shù)匯總
16、,此處略。表 2 Dependent Variable EncodingOriginal ValueInternal Value未患病0患病1表2為因變量的取值水平編碼,SPSS以合模型時(shí)默認(rèn)取值水平高的為陽(yáng)性結(jié)果,對(duì)于本例來(lái)講,擬合的模型是logit(P|y=患病)。隨后進(jìn)行模型擬合,首先給出的是模型不含任何自變量,而只有常數(shù)項(xiàng)(即無(wú)效模型)時(shí)的輸出結(jié)果,標(biāo)題為:" Block 0: Beginning Block "。此時(shí)的模型為:logit(p) =0.103, P 二;0黑、=0.52571 exp( 0) 1 exp(0.103)ObservedPredicted
17、是否患冠心病Percentagea,b表 3 Classification Table未患病患病CorrectStep 0 是否患冠心病未患病037.0患病041100.0Overall Percentage52.6a. Constant is included in the model.b. The cut value is .500表9.3輸出的是模型中僅含有常數(shù)項(xiàng)(見(jiàn)表4)時(shí)計(jì)算的預(yù)測(cè)分類結(jié)果,SPSS艮據(jù)p值是否大于0.5將觀察對(duì)象判斷為是否出現(xiàn)陽(yáng)性結(jié)果,即是否患冠心病。由于模型中僅含有常數(shù)項(xiàng),因此所有人的預(yù)測(cè)概率均為樣本率估計(jì)值P= 0.5257,將所有的觀察對(duì)象均判斷為冠心病。判斷
18、正確率為52.6%,實(shí)際上就是全部研究對(duì)象的患病率41、78=0.5256 (細(xì)小差別為四舍五入產(chǎn)生)。也就是說(shuō),由于當(dāng)前樣本中大部分人為患病,因此當(dāng)模型中不包含任何自變量時(shí),樣本中所有觀察對(duì)象皆被預(yù)測(cè)為患病,總的預(yù)測(cè)準(zhǔn)確率為52.6%。表 4 Variables in the EquationBS.E.WalddfSig.Exp(B)Step 0 Constant.103.227.2051.6511.108表4輸出結(jié)果中B為模型中未引入自變量時(shí)常數(shù)項(xiàng)的估計(jì)值,S.E為其標(biāo)準(zhǔn)誤,Wald為Wald /2 ,是對(duì)總體回歸系數(shù)是否為 0進(jìn)行統(tǒng)計(jì)學(xué)檢驗(yàn)。表格中df為其自由度,Sig.為相應(yīng)的P值。此
19、時(shí)的exp(B)為e的P0次方。其實(shí)際意義為總體研究對(duì)象患病率與未患病率的比值。即1.108 =0.5256/0.4744 。表 5 Variables not in the EquationScoredfSig.Step 0 Variables sex6.0211.014ecg7.1111.008age7.7341.005Overall Statistics18.5623.000表5輸出了當(dāng)前未引入模型的變量的比分檢驗(yàn)( Score Test )結(jié)果,其意義為向當(dāng)前模型中引入某變量(如sex時(shí)),該變量回歸系數(shù)是否等于0的比分檢驗(yàn)假設(shè)。對(duì)于取值水平為二分類的自變量來(lái)說(shuō),得分檢驗(yàn)的2值等于由該
20、自變量與反應(yīng)變量構(gòu)成的四格表的Pearson /2?;跓o(wú)效模型,現(xiàn)在開(kāi)始在分析中引入自變量。標(biāo)題為" Block 1:Method=Enter ” c表 6 Omnibus Tests of Model CoefficientsChi-squaredfSig.Step 1 Step21.1143.000Block21.1143.000Model21.1143.000由于此處尚未涉及變量篩選的問(wèn)題,模型中會(huì)同時(shí)引入三個(gè)自變量,自由度=3,此處的片值為似然比72值,等于上一步(模型中只含有常數(shù)項(xiàng)時(shí))的 -2log (似然比值)與當(dāng) 前模型的-2log (似然比值)的差值,參見(jiàn)表 6 。
21、本例*好=-86.8113(-107.9257) = 21.1144。表 7 Model SummaryStep-2 Log likelihoodCox & Snell RSquareNagelkerke R Square186.811 a.237.316a. Estimation terminated at iteration number 5 because parameter estimates changed by less than .001.表7輸出了當(dāng)前模型的-2log (似然比值)和兩個(gè)偽決定系數(shù)(“偽”,以示與線性回歸模型中的決定系數(shù)相區(qū)別)Cox & Sne
22、llR2和Nagelkerke R2。后兩者從不同角度反映了當(dāng)前模型中自戀量解釋了反應(yīng)變量的變異占反應(yīng)變量總變異的比例。但對(duì)于 Logistic回歸而 言,通常看到的模型偽決定系數(shù)的大小不像線性回歸模型中的決定系數(shù)那么大。表 8 Classification Table aObservedPredicted是否患冠心病PercentageCorrect未患病患病Step 1 是否患冠心病未患病患病Overall Percentage2510123167.675.671.8a. The cut value is .500這是應(yīng)用引入三個(gè)自變量后重新擬合的回歸模型進(jìn)行預(yù)測(cè)的分類表格,P>0.
23、5判斷為出現(xiàn)陽(yáng)性結(jié)果??梢?jiàn)已經(jīng)出現(xiàn)了被預(yù)測(cè)為未患病的研究對(duì)象,此處78例研究對(duì)象中共有56(25+31)例判斷正確,總正確率為56/78 =71.8%,如表8所示。表9輸出了模型中各自變量的偏回歸系數(shù)及其標(biāo)準(zhǔn)誤、Wald?2、自由度、P值,及。曲(即表格最右側(cè)的Exp(B)。由此可以得出結(jié)論,男性(sex=1)較女性更容易患冠心病、心電圖異常程度越高,越容易被診斷為冠心病,年齡越大的越容易患冠心病。由于年齡不可能為0 ,這也超出了樣本所觀察的自變量age取值范圍,因此這里的常數(shù)項(xiàng)無(wú)實(shí)際意義。表 9 Variables in the EquationBS.E.WalddfSig.Exp(B)St
24、ep 1 a sex1.356.5466.1621.0133.882ecg.873.3845.1621.0232.395age.093.0357.0001.0081.097Constant-5.6421.8069.7571.002.004a. Variable(s) entered on step 1: sex, ecg, age.到此為止,可建立如下 Logistic回歸方程:P( y =)=exp(-5.642 -1.356 sex-0.873 ecg-0.093 age)1exp(-5.642 -1.356 sex-0.873 ecg -0.093 age)或 Logit (P) = -
25、5.642 -1.356 sex-0.873 ecg -0.093 age第二節(jié) 分類自變量的定義與比較方法一、使用啞變量的必要性在回歸模型中,回歸系數(shù) b表示其他自變量不變,x每改變一個(gè)單位時(shí),所預(yù)測(cè)的 y的平 均變化量,當(dāng)x為連續(xù)性變量時(shí)這樣解釋沒(méi)有問(wèn)題,二分類變量由于只存在兩個(gè)類別間的比 較,也可以對(duì)系數(shù)得到很好的解釋,但是當(dāng)x為多分類變量時(shí)擬合一個(gè)回歸系數(shù)就不太合適了,此時(shí)需要使用啞變量(Dummy Variable )方式對(duì)模型加以定義,為說(shuō)明該問(wèn)題,先引 入下面的一個(gè)實(shí)例。例2 Hosmer和LemeshowF 1989年研究了低出生體重嬰兒的影響因素。結(jié)果變量為是否 娩出低出生體
26、重兒(變量名為L(zhǎng)OW 1為低出生體重,即嬰兒出生體重<2500g, 0為非低出生體重),考慮的影響(自變量)有:產(chǎn)婦妊娠前體重(1 wt,磅)、產(chǎn)婦年齡(age,歲)、產(chǎn)婦在妊娠期間是否吸煙(smoke, 0=未吸、1 =吸煙)、本次妊娠前早產(chǎn)次數(shù)(ptl ,次)、是 否患有高血壓(ht,0 =未患,1=患?。?、子宮對(duì)按摩、催產(chǎn)素等刺激引起收縮的應(yīng)激性(ui,0=無(wú)、1=有)、妊娠前三個(gè)月社區(qū)醫(yī)生隨訪次數(shù)( ftv ,次)、種族(race , 1 =白人,2= 黑人,3=其他民族)。本例包含的自變量種類齊全,有連續(xù)性變量、二分類、無(wú)序多分類變量。SPSSe認(rèn)將所有的自變量均視作連續(xù)性變量
27、,如本例,不同種族的變量賦值為1、2、3 ,但這僅是一個(gè)代碼而已,并不意味著白人、黑人、其他民族間存在大小次序的關(guān)系,即并非代表產(chǎn)婦娩出低 出生體重兒概率的logit(P)會(huì)按此順序線性增加或減少。即使是有序多分類變量,如家庭收 入分高、中、低三檔,各類別間的差距也是無(wú)法準(zhǔn)確衡量的,按編碼數(shù)值來(lái)分析實(shí)際上就是 強(qiáng)行規(guī)定為等距,這顯然可能引入更大的誤差。在以上情況時(shí),就必須將原始的多分類變量轉(zhuǎn)化為數(shù)個(gè)啞變量,每個(gè)啞變量只代表某兩個(gè)級(jí)別或若干個(gè)級(jí)別間的差異,這樣得到的回歸結(jié)果才能有明確而合理的實(shí)際意義。OKPasteHeJp|XCancelIIIJJM J J圖3 Categorical 子對(duì)話框
28、SPS醍供了 Categorical按鈕用于指定無(wú)序多分類自變量,如圖3所示,對(duì)于取值有n個(gè)水平的自變量X,默認(rèn)會(huì)產(chǎn)生n-1個(gè)啞變量X (1),,X (n-1 ),此時(shí)以第n個(gè)水平為參照水 平,SPS噲?jiān)诜诸愖兞烤幋a矩陣中輸出具體的賦值情況,矩陣中元素均為“0”的那一行表示以該自變量相對(duì)應(yīng)的取值水平作為參照水平。例如種族race有三個(gè)水平,則SPS噲產(chǎn)生兩個(gè)啞變量:表 10 Categorical Variables CodingsFrequencyParameter coding(1)(2)種族白人961.000.000黑人26.0001.000其他種族67.000.000在表10中可以看出
29、,相應(yīng)的兩個(gè)啞變量含義如下:race(1)=1,白人;0 ,非白人race(2)=1,黑人;0 ,非黑人由于兩個(gè)啞變量是同時(shí)使用的,而只有“其他種族”這一類在兩個(gè)啞變量中取值都為0,因此當(dāng)同時(shí)使用時(shí),實(shí)際上兩個(gè)啞變量都是以“其他種族”作為參照水平。分別對(duì)上述啞變量的系數(shù)進(jìn)行估計(jì),就可以分別得知白人、黑人和參照水平(其他種族)的差異,而這兩個(gè) 啞變量的參數(shù)估計(jì)值之差就反映了白人和黑人間的差異。例如在本例中如果只分析種族的作用,則最終的結(jié)果參見(jiàn)表 11.和其他種族相比,白人低出生體重的風(fēng)險(xiǎn)較低,而黑人則風(fēng)險(xiǎn)較高,但兩者均無(wú)統(tǒng)計(jì) 學(xué)意義。如果將白人和黑人相比,則相應(yīng)的系數(shù)為-0.636-0.209
30、=-0.845,其ORt為exp(-0.845)=0.43 ,白人的風(fēng)險(xiǎn)要比黑人小得多。顯然,這兩個(gè)類別之間有無(wú)這差異還需要進(jìn)行檢驗(yàn),而這在表11中是無(wú)法直接體現(xiàn)的。表 11 Variables in the EquationBS.E.WalddfSig.Exp(B)Step 1 a race4.9222.085race(1)-.636.3483.3451.067.529race(2).209.471.1971.6571.232Constant-.519.2534.2181.040.595a. Variable(s) entered on step 1: race.表11的輸出中兩個(gè)啞變量均無(wú)
31、統(tǒng)計(jì)學(xué)意義,如果同一分類變量的不同啞變量出現(xiàn)了有些有意義,有些無(wú)意義的情形,又該如何處理?首先,結(jié)果中會(huì)對(duì)分類變量先進(jìn)行一個(gè)總體的 檢驗(yàn),例如在本例中種族的檢驗(yàn)其P值為0.085,表明從總體上講,種族應(yīng)當(dāng)對(duì)因變量無(wú)影響,此時(shí)所有的啞變量都不用再納入分析了,總的檢驗(yàn)比分項(xiàng)的檢驗(yàn)更有權(quán)威性;如果總的檢驗(yàn)有差異,而有些啞變量無(wú)統(tǒng)計(jì)學(xué)意義,則由于啞變量應(yīng)當(dāng)同進(jìn)同出,原則上仍然應(yīng)當(dāng)在模型中納入所有的啞變量,以保證啞變量代表含義的正確性。否則,剔除部分啞變量將會(huì)導(dǎo)致參照水平的變化,從而啞變量的具體含義也會(huì)發(fā)生改變。二、SPS階預(yù)設(shè)的啞變量編碼方式除以上默認(rèn)的啞變量對(duì)比方式外,SPSSCategorical
32、子對(duì)話框中還提供了其余幾種對(duì)比方式:1 .Indicator :指示對(duì)比。用于指定某一分類變量的參照水平。這時(shí)計(jì)算出來(lái)的參數(shù),是以該變量的最后一個(gè)或第一個(gè)水平作為參照水平(取決于下面的Reference Category中選擇的是last還是first )。在本例中,Reference Category均為last 。變量race以"其他種族" 作為參照水平。2 .Simple :簡(jiǎn)單對(duì)比。可計(jì)算該分類變量的各水平與參照水平相比的Pj值。對(duì)于本例來(lái)說(shuō),Simple與Indicator 選項(xiàng)是一樣的,前提是下面的Reference Category 中所選擇的同是last(或
33、 first )。3 .Difference :差別對(duì)比。分類變量某個(gè)水平與其前面的所有水平平均值進(jìn)行比較。此法與Helmert法相反,因此也叫反 Helmert法。如2水平與1水平相比;3水平與1、2水平的平均值 相比,以此類推。如果在某水平處系數(shù)變小且無(wú)統(tǒng)計(jì)學(xué)意義(P>0.05),說(shuō)明該分類變量對(duì)風(fēng)險(xiǎn)率產(chǎn)生的影響在該水平處達(dá)到停滯狀態(tài)。此選擇項(xiàng)一般用于有序的分類變量。對(duì)無(wú)序多分類變量則無(wú)實(shí)際意義。4 . Helmert :赫爾默特對(duì)比。分類變量某水平與其后面各水平平均值進(jìn)行比較。如果在某水 平系數(shù)增大且有統(tǒng)計(jì)學(xué)意義,說(shuō)明該分類變量自該水平起開(kāi)始對(duì)風(fēng)險(xiǎn)率產(chǎn)生影響。同樣也適用于有序的分類
34、變量。5 .Repeated :重復(fù)對(duì)比。分類變量的各水平與其前面相鄰的水平相比較(第一水平除外),此時(shí)以“前一水平”為參照水平。6 .Polynomial :多項(xiàng)式對(duì)比。僅用于數(shù)字型的分類變量。無(wú)效假設(shè)是假設(shè)各水平是等距離的(可以是線性的關(guān)系,也可以是立方、四次方的關(guān)系)。例如年齡每增加5歲,娩出低出生體重兒的危險(xiǎn)增加幅度是一樣的,但實(shí)際情況常常與之相反,例如在20歲與30歲年齡段,年 齡都增加5歲,所增加的娩出低出生體重兒的危險(xiǎn)肯定是不一樣的,具體情況需要根據(jù)各人 的研究課題而定。7.Deviation :離差對(duì)比。除了所規(guī)定的參照水平外,其余每個(gè)水平均與總體水平相比。此 時(shí)每個(gè)水平的回歸
35、系數(shù)都是相對(duì)于總體水平而言的改變量。對(duì)于那個(gè)參照水平而言,它的回歸系數(shù)可以通過(guò)其他n-1個(gè)回歸系數(shù)算出來(lái),等于0減去其他幾個(gè)水平回歸系數(shù)的代數(shù)和。即些時(shí)n個(gè)水平的回歸系數(shù)的代數(shù)和為“ 0”。三、設(shè)置啞變量時(shí)要注意的問(wèn)題1 .參照水平最好要有實(shí)際意義,否則將會(huì)推動(dòng)比較的目標(biāo)。如果將一些難以分類的個(gè)體放到一起,然后美其名日“其他”,此時(shí)往往不知道已知的某個(gè)類別具體在與誰(shuí)進(jìn)行比較, 進(jìn)而導(dǎo)致啞變量的回歸系數(shù)難以解釋。因?yàn)椴煌芯繕颖局械摹捌渌蓖遣煌?,這樣研究結(jié)果之間難以相互進(jìn)行比較。2 .參照水平組應(yīng)有一定的頻數(shù)作保證。 如果參照水平頻數(shù)過(guò)少,將導(dǎo)致其他與之相對(duì)比 的水平參數(shù)估計(jì)的標(biāo)準(zhǔn)誤增大
36、, 進(jìn)而置信區(qū)間擴(kuò)大,精確度降低。 有學(xué)者認(rèn)為,參照水平組 的頻數(shù)應(yīng)不少于30例或50例。3 .如果不通過(guò)Categorical模型對(duì)分類自變量產(chǎn)生啞變量,而是自己通過(guò)Computed程產(chǎn)生,需要注意在逐步回歸篩選自變量時(shí),啞變量應(yīng)該同時(shí)進(jìn)入模型或者同時(shí)退出模型。4 .對(duì)有序自變量的分析。一是從專業(yè)出發(fā),如果認(rèn)為在不同等級(jí)對(duì)反應(yīng)變量的影響程度 是一致的,如文化程度每增加一個(gè)等級(jí),成為某項(xiàng)時(shí)尚消費(fèi)品潛在消費(fèi)者的比數(shù)(P/(1-P)的自然對(duì)數(shù)增加幅度也相同,這時(shí)可以將該變量作為連續(xù)性變量進(jìn)行處理,這樣得到的模型也更簡(jiǎn)潔,結(jié)果的解釋也更方便。 當(dāng)專業(yè)上不能給出以上假設(shè)時(shí),則需要先將該有序變量分別以啞
37、變量和連續(xù)性變量的方式引入模型,觀察各啞變量的回歸系數(shù)間是否存在等級(jí)關(guān)系,以及對(duì)兩個(gè)模型進(jìn)行似然比檢驗(yàn),似然比丁2值等于兩個(gè)模型的-2log(L)之差,自由度為兩個(gè)模型中自變量個(gè)數(shù)之差,如果似然比檢驗(yàn)無(wú)統(tǒng)計(jì)學(xué)意義,且各啞變量的回歸系數(shù)間存在等 級(jí)關(guān)系,可以將該自變量作為連續(xù)性變量引入模型, 否則最好還是采用啞變量的方式引入模 型。第三節(jié) 標(biāo)準(zhǔn)化回歸系數(shù)和回歸模型的擬合優(yōu)度一、標(biāo)準(zhǔn)化回歸系數(shù)與多重線性回歸類似,自變量量綱(單位)不同,非標(biāo)準(zhǔn)化的logistic回歸系數(shù)不能用于比較各自變量對(duì)事件發(fā)生概率的貢獻(xiàn)大小。欲研究logistic回歸中各變量的相對(duì)貢獻(xiàn),要么事先將各自變量標(biāo)準(zhǔn)化后再作回歸分析,要么對(duì)logistic回歸系數(shù)進(jìn)行標(biāo)準(zhǔn)化。我們可以用極大似然估計(jì)的回歸系數(shù)乘以該變量的樣本標(biāo)準(zhǔn)差求得logistic回歸的標(biāo)準(zhǔn)化回歸系數(shù)。b'=by(16)spss件可以提供回歸系數(shù)及其變量的樣本標(biāo)準(zhǔn)差,但不能直接得到標(biāo)準(zhǔn)化回歸系數(shù)。在標(biāo)準(zhǔn)化系數(shù)問(wèn)題上要謹(jǐn)慎,應(yīng)注意標(biāo)準(zhǔn)化的原意是消去不同量綱的影響,增加可比性。對(duì)于一些二分類的自變量, 不存在量綱問(wèn)題,則不宜作標(biāo)準(zhǔn)化。另外,一般不利用標(biāo)準(zhǔn)化回歸系數(shù)估計(jì)優(yōu)勢(shì)比,因?yàn)榘礃?biāo)準(zhǔn)化回歸系數(shù)所計(jì)算的優(yōu)勢(shì)比不是變化一個(gè)單位,而是變化一個(gè)標(biāo)準(zhǔn)差的優(yōu)勢(shì)比了。二、回歸模型的擬合優(yōu)度對(duì)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2026學(xué)年隴南地區(qū)武都區(qū)三上數(shù)學(xué)期末學(xué)業(yè)質(zhì)量監(jiān)測(cè)模擬試題含解析
- 2025-2026學(xué)年遼寧省葫蘆島市綏中縣數(shù)學(xué)三年級(jí)第一學(xué)期期末預(yù)測(cè)試題含解析
- 2025-2026學(xué)年甘孜藏族自治州道孚縣數(shù)學(xué)三年級(jí)第一學(xué)期期末達(dá)標(biāo)檢測(cè)模擬試題含解析
- 2025-2026學(xué)年保定市安新縣三上數(shù)學(xué)期末學(xué)業(yè)水平測(cè)試模擬試題含解析
- 2024年江蘇省揚(yáng)州市江都區(qū)大橋片數(shù)學(xué)三年級(jí)第一學(xué)期期末檢測(cè)試題含解析
- 七年級(jí)英語(yǔ)下冊(cè) Units 7-12 復(fù)習(xí)課件
- 八年級(jí)生物上冊(cè)-動(dòng)物行為的生理基礎(chǔ)-蘇教版課件
- 2025年衛(wèi)生資格考試切實(shí)可行的備考措施試題及答案
- 自考行政管理2025年細(xì)致準(zhǔn)備試題及答案歸納
- 時(shí)間安排與衛(wèi)生資格考試試題及答案
- 制冷空調(diào)管件的焊接與質(zhì)量控制
- 科技公司外部涉密信息導(dǎo)入涉密計(jì)算機(jī)審批表
- 年產(chǎn)12萬(wàn)噸甲烷氯化物可行性研究報(bào)告
- 臨床試驗(yàn)倫理委員會(huì)遠(yuǎn)程會(huì)議審查的標(biāo)準(zhǔn)操作規(guī)程
- DB31T 1187-2019 特種設(shè)備風(fēng)險(xiǎn)分級(jí)管控實(shí)施指南
- 三年級(jí)數(shù)學(xué)下冊(cè)《面積》練習(xí)試卷及答案
- 室內(nèi)裝飾醫(yī)療貝斯板技術(shù)交底
- 會(huì)計(jì)師事務(wù)所自查自糾報(bào)告范文3篇
- 信用評(píng)級(jí)ppt全套教學(xué)課件
- 2022年煙臺(tái)毓璜頂醫(yī)院醫(yī)護(hù)人員招聘考試筆試題庫(kù)及答案解析
- 現(xiàn)場(chǎng)跟蹤審計(jì)工作要點(diǎn)
評(píng)論
0/150
提交評(píng)論