用Excel計算相關(guān)系數(shù)和進行回歸分析_第1頁
用Excel計算相關(guān)系數(shù)和進行回歸分析_第2頁
用Excel計算相關(guān)系數(shù)和進行回歸分析_第3頁
用Excel計算相關(guān)系數(shù)和進行回歸分析_第4頁
用Excel計算相關(guān)系數(shù)和進行回歸分析_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第一節(jié)  回歸和相關(guān)的概念  前幾章的方法都只涉及一種變量,主要是比較它的各組值之間的差異。但生物學(xué)所涉及的問題是多種多樣的,對許多問題的研究需要考慮不只一個變量,例如生物的生長發(fā)育速度就與溫度,營養(yǎng),濕度 等許多因素有關(guān),我們常常需要研究類似的多個變量之間的關(guān)系。這種關(guān)系可分為兩大類,即相關(guān)關(guān)系與回歸關(guān)系。 相關(guān)關(guān)系 :兩變量 X , Y 均為隨機變量,任一變量的每一可能值都有另一變量的一個確定分布與之對應(yīng)。 回歸關(guān)系 : X 是非隨機變量或隨機變量, Y 是隨機變量,對 X 的每一確定值 x i 都有 Y 的一個確定分布與之對應(yīng)。 從上述定義可看出相關(guān)關(guān)系中的兩個變量地

2、位是對稱的,可以認為它們互為因果;而回歸關(guān)系中則不是這樣,我們常稱回歸關(guān)系中的 X 是自變量,而 Y 是因變量。即把 X 視為原因,而把 Y 視為結(jié)果。 這兩種關(guān)系盡管有意義上的不同,分析所用的數(shù)學(xué)概念與推導(dǎo)過程也有所不同,但如果我們使用共同的標準即使 y 的殘差平方和最?。ㄗ钚《朔?,詳見下述),則不管是回歸關(guān)系還是相關(guān)關(guān)系都可以得到相同的參數(shù)估計式。因此本章將集中討論數(shù)學(xué)處理較簡單的回歸關(guān)系,且 X 限定為非隨機變量。從這些討論中所得到的參數(shù)估計式也可用于 X 為隨機變量的情況,但我們不再討論 X 為隨機變量時的證明與推導(dǎo)。 另外,回歸分析和相關(guān)分析的目的也有所不同?;貧w分析研究的重點是建

3、立 X 與 Y 之間的數(shù)學(xué)關(guān)系式,這種關(guān)系式常常用于預(yù)測,即知道一個新的 X 取值,然后預(yù)測在此情況下的 Y 的取值;而相關(guān)分析的重點則放在研究 X 與 Y 兩個隨機變量之間的共同變化規(guī)律,例如當 X 增大時 Y 如何變化,以及這種共變關(guān)系的強弱。由于這種研究目的的不同,有時也會引起標準和方法上的不同,我們將在相關(guān)分析一節(jié)中作進一步介紹。 從兩個變量間相關(guān)(或回歸)的程度來看,可分為以下三種情況: ( 1 ) 完全相關(guān) 。此時一個變量的值確定后,另一個變量的值就可通過某種公式求出來;即一個變量的值可由另一個變量所完全決定。這種情況在生物學(xué)研究中是不太多見的。 ( 2 ) 不相關(guān) 。變量之間完全

4、沒有任何關(guān)系。此時知道一個變量的值不能提供有關(guān)另一個變量的任何信息。 ( 3 ) 統(tǒng)計相關(guān) (不完全相關(guān))。介于上述兩種情況之間。也就是說,知道一個變量的值通過某種公式就可以提供關(guān)于另一個變量一些信息,通常情況下是提供有關(guān)另一個變量的均值的信息。此時知道一個變量的取值并不能完全決定另一個變量的取值,但可或多或少地決定它的分布。這是科研中最常遇到的情況。本章討論主要針對這種情況進行。為簡化數(shù)學(xué)推導(dǎo),本章中如無特別說明,一律假設(shè) X 為非隨機變量,即 X 只是一般數(shù)字,并不包含有隨機誤差。但所得結(jié)果可以推廣到 X 為隨機變量的情況。 兩個變數(shù)資料的散點圖 將兩個變數(shù)的 n 對觀察值 ( x 1 ,

5、 y 1 ) 、 ( x 2 , y 2 ) 、 、 ( x n , y n ) 分別以坐標點 的形式標記于同一直角坐標平面上得到的圖,稱為散點圖 (scatter diagram) 。 第二節(jié)  直線回歸  前邊已經(jīng)說過,回歸關(guān)系就是對每一個 X的取值x i ,都有Y的一個分布與之對應(yīng)。在這種情況下,怎么建立X與Y的關(guān)系呢?一個比較直觀的想法就是建立X與Y的分布的參數(shù)間的關(guān)系,首先是與Y的均值的關(guān)系。這就是條件均值的概念,記為: 。它的意思是在X=x 1 的條件下,求Y的均值。更一般地,我們用 代表X取一切值時,Y的均值所構(gòu)成的集合。所謂一元線性回歸,就是假定X與 之間的

6、關(guān)系是線性關(guān)系,而且滿足: ( 9.1 ) 此時進行回歸分析的目標就是給出參數(shù) 和的估計值。 例 9.1 對大白鼠從出生第6天起,每三天稱一次體重,直到第18天。數(shù)據(jù)見表5.1。試計算日齡X與體重Y之間的回歸方程。 表 9.1 大白鼠6-18日齡的體重 序號 1 2 3 4 5 日齡 x i 6 9 12 15 18 體重 y i 11 16.5 22 26 29 首先,我們可以把數(shù)對( x i , y i )標在 X-Y 坐標系中,這種圖稱為散點圖。它的優(yōu)點是可以使我們對 X 、 Y 之間的關(guān)系有一個直觀的、整體上的印象,如它們是否有某種規(guī)律性,是接近一條直線還是一條曲線,等等。我們還可以畫

7、很多條接近這些點的直線或曲線,但這些線中的哪一條可以最好地代表 X, Y 之間的關(guān)系,就不是憑直觀印象可以做出判斷的了。例如對例 9.1 ,我們可畫出如下的散點圖: 圖 9.1 大白鼠日齡 體重關(guān)系圖 圖中的點看來是呈直線關(guān)系,但那條直線是否最好地反映了這種關(guān)系呢?或者換一種說法:該如何找到最好地反映這種關(guān)系的直線呢?這就是我們以下要討論的問題。 一元正態(tài)線性回歸統(tǒng)計模型 線性回歸意味著條件平均數(shù)與 X 之間的關(guān)系是線性函數(shù): ( 9.1 ) 對于每個 Y 的觀察值 y i 來說,由于條件均值由 (9.1) 式?jīng)Q定,觀察值就應(yīng)該是在條件均值的基礎(chǔ)上再加上一個隨機誤差,即: ( 9.2 ) 其中

8、 。正態(tài)線性回歸中 “ 正態(tài) ” 的意思是隨機誤差服從正態(tài)分布。 (9.2) 式就是一元正態(tài)線性回歸的統(tǒng)計模型。 9.2.2 參數(shù) 和的估計 統(tǒng)計模型中的和是總體參數(shù),一般是不知道的。由于只能得到有限的觀察數(shù)據(jù),我們無法算出準確的與的值,只能求出它們的估計值 a和b,并得到y(tǒng) i 的估計值為: (9.3) 那么,什么樣的 a和b是和最好的估計呢?換句話說,選取什么樣的a和b可以最好地反映X和Y之間的關(guān)系呢?一個合理的想法是使殘差 最小。為了避免使正負e i 互相抵消,同時又便于數(shù)學(xué)處理,我們定義使殘差平方和 達到最小的直線為回歸線,即令: ,且 得: 整理后,得 (9.4) 上式稱為正規(guī)方程。

9、解此方程,得: 這種方法稱為最小二乘法,它也適用于曲線回歸,只要將線性模型( 9.3)式換為非線性模型即可。但要注意非線性模型的正規(guī)方程一般比較復(fù)雜,有些情況下甚至沒有解析解。另一方面,不管X與Y間的真實關(guān)系是什么樣的,使用線性模型的最小二乘法的解總是存在的。因此正確選擇模型很重要,而且用最小二乘法得出的結(jié)果一般應(yīng)經(jīng)過檢驗。 記 ,稱為X的校正平方和; ,稱為Y的總校正平方和; ,稱為校正交叉乘積和, 則: (9.5) 在實際計算時,可采用以下公式: 現(xiàn)在回到例 9.1 。 例 9.1 對大白鼠從出生第6天起,每三天稱一次體重,直到第18天。數(shù)據(jù)見表9.1。試計算日齡X與體重Y之間的回歸方程。

10、 表 9.1 大白鼠6-18日齡的體重 序號 1 2 3 4 5 日齡 x i 6 9 12 15 18 體重 y i 11 16.5 22 26 29 解:把數(shù)據(jù)代入上述公式 , 得: 即:所求的回歸方程為: y = 2.6996 + 1.5167 x 帶有統(tǒng)計功能的計算器常常也可以做一元線性回歸,對于這樣的計算器,只需把數(shù)據(jù)依次輸入,然后按一下鍵就可得到上述結(jié)果。 9.2.3 直線回歸的假設(shè)測驗 在介紹最小二乘法時我們曾提到,不管實際上 X 與 Y 之間有沒有線性關(guān)系,用這種方法總是可以得到解的。因此我們必須有一種方法可以檢驗得到的結(jié)果是不是反映了 X 和 Y 之間的真實關(guān)系。為此,我們需

11、要研究 b 與 a 的期望與方差。注意 原式 = 各 y i 互相獨立,且D(y i )= 2 ;各x i 為常數(shù); 為估計 2 ,令: ,稱為殘差或剩余。則殘差平方和為: 由于 ( 交叉項期望為 0 ) 且 D(S xy ) = S xx s 2 , E(S xy ) = b S xx , (已證) 用 MS e (剩余均方)代替 s 2 ,可得 b 與 a 的樣本方差: 由于 MS e 的自由度為 n-2 ,因此上述兩方差的自由度也均為 n-2 。有了 a 和 b 的方差與均值,我們就可構(gòu)造統(tǒng)計量對它們進行檢驗: H 0 : b = 0 H A : b 0 (雙側(cè)檢驗) 或: H A :

12、b > 0 (或 b < 0 ) (單側(cè)檢驗) 統(tǒng)計量: ( 9.6 ) 當 H 0 成立時, t b t(n-2) ,可查相應(yīng)分位數(shù)表進行檢驗。 H 0 : a = 0 H A : a 0 (雙側(cè)檢驗) 或: H A : a > 0 (或 a < 0 ) (單側(cè)檢驗) 統(tǒng)計量: ( 9.7 ) 當 H 0 成立時, t a t(n-2) ,可查相應(yīng)分位數(shù)表進行檢驗。 在對一個回歸方程的統(tǒng)計檢驗中,我們更關(guān)心的是 b 是否為 0 ,而不是 a 是否為 0 。這是因為若 b = 0 ,則線性模型變?yōu)?Y = a + e ,與 X 無關(guān);這意味著 X 與 Y 間根本沒有線性

13、關(guān)系。反之, a 是否為 0 并不影響 X 與 Y 的線性關(guān)系。因此我們常常只對 b 作統(tǒng)計檢驗。 例 9.2 對例 9.1 中的 b 作檢驗: H 0 : b =0 解: 查表, t 0.995 (3) = 5.841 < t , 差異極顯著,應(yīng)拒絕 H 0 ,即 b 1 0 ,或 X 與 Y 有著極顯著的線性關(guān)系。 9.2.4直線回歸的方差分析對回歸方程的統(tǒng)計檢驗除可用上述 t 檢驗外,還有一些其他方法。這里我們再介紹一種方差分析的方法,它的基本思想仍是對平方和的分解。 1  無重復(fù)的情況。 y 的總校正平方和可進行如下的分解: 即: Syy = SSe + SSR y 的

14、總校正平方和殘差平方和回歸平方和 自由度: n-1n-21 這樣就把 y 的總校正平方和分解成了殘差平方和與回歸平方和。前已證明, MS e 可作為總體方差 s 2 的估計量,而 MS R 可作為回歸效果好壞的評價。如果 MS R 僅由隨機誤差造成的話,說明回歸失敗, X 和 Y 沒有線性關(guān)系;否則它應(yīng)顯著偏大。因此可用統(tǒng)計量 ( 9.8 ) 對 H 0 : b = 0 進行檢驗。若 F < F a (1, n-2) ,則接受 H 0 ,否則拒絕。 現(xiàn)在我們來證明這里的 F 檢驗與前述的 t 檢驗是一致的: 前已證明: SS e = S yy ? b × S xy , SS R

15、 = S yy ? SS e = b × S xy , 例 9.4 對例 9.1 作方差分析 解:由以前計算結(jié)果: S yy = 210.2 , df = 4; SS e = 3.1704, df = 3, SS R = 210.2 ?3.1704 = 207.03, df = 1 查表得 F 0.95 (1, 3) = 10.13, F 0.99 (1, 3) = 34.12 F > F 0.99 (1, 3) ,拒絕 H 0 ,差異極顯著。即應(yīng)認為回歸方程有效。 2.有重復(fù)的情況: 設(shè)在每一個 x i 取值上對 Y 作了 m 次觀察,結(jié)果記為 y i1 , y i2 , y

16、 im , 則線性統(tǒng)計模型變?yōu)椋?, i = 1, 2, n, j = 1, 2, m 估計值仍為: 現(xiàn)在 y的總校正平方和可分解為: S yy = SS R + SS LOF + SS pe 其中 SS LOF 稱為失擬平方和, SS pe 為純誤差平方和,它們的表達式和自由度分別為: 同學(xué)們可試證明上述分解中的三個交叉項均為 0 。 統(tǒng)計檢驗步驟為: I. 令 ,它服從 F(n-2, mn-n) ( 9.9 ) 若 F 檢驗差異顯著,則可能的原因有: ( 1 )除 X 以外還有其他變量影響 Y 的取值,而統(tǒng)計時沒有加以考慮; ( 2 )模型不當,即 X 與 Y 之間不是線性關(guān)系; 此時無必

17、要再進一步對 MS R 作檢驗,而應(yīng)想辦法找出原因,并把它消除后重作回歸。 若差異不顯著,則把 MS LOF 和 MS pe 合并,再對 MS R 作檢驗: II. ,它服從 F(1, mn-2) ( 9.10 ) 若差異顯著,說明回歸是成功的, X, Y 間確有線性關(guān)系;若差異仍不顯著,則回歸失敗,其可能的原因為: ( 1 ) X , Y 無線性關(guān)系; ( 2 )誤差過大,掩蓋了 X, Y 間的線性關(guān)系。 如有必要,可設(shè)法減小實驗誤差,或增加重復(fù)數(shù)重做實驗后再重新回歸。 9.2.5直線回歸的區(qū)間估計 1 和的區(qū)間估計 我們已經(jīng)證明 a 和 b 是 和 的點估計,并求出了它們的方差。因此給出置

18、信區(qū)間就很容易了: 的 95%置信區(qū)間為: (9.11) 同理 a 的 95% 置信區(qū)間為: (9.12) 這與以前假設(shè)檢驗中的置信區(qū)間求法完全一樣。若置信水平為 99% ,把分位數(shù)相應(yīng)換為 t 0.995 (n-2) 即可。 例 9.5 對例 9.1 中的 a 和 b 給出 95% 置信區(qū)間。 解:從前邊的計算可知: a = 2.6996, b = 1.5167, S xx = 90, MS e = 1.0568, n = 5, 查表,得 t 0.975 (3) = 3.182 a 的 95% 置信區(qū)間為: 2.6996 ± 4.3887, 即( -1.6891, 7.0883 )

19、 b 的 95% 置信區(qū)間為: 1.5167 ± 0.3448, 即( 1.1719, 1.8615 ) 2. 對條件均值 m Y? X 的估計。 的點估計: 證明: 區(qū)間估計:首先需求出 的方差。 用 MS e 代替 s 2 ,可得 的 1 ? a 置信區(qū)間為: ( 9.13 ) 注意上述置信區(qū)間的寬度與 有關(guān),當 時,其寬度最小,偏離 后,逐漸加大。 3. 對一次觀察值 y 0 的估計 y 0 的點估計: 證明: 區(qū)間估計: 一般情況下置信區(qū)間是以隨機變量的期望為中點,此時只要求方差就可以了,因為方差就是衡量隨機變量以數(shù)學(xué)期望為中心的離散程度的統(tǒng)計量。而現(xiàn)在是以條件均值 的估計值

20、,即另一個隨機變量 為中點,因此應(yīng)求這兩個隨機變量差值的方差。由于下一次觀察值 y 0 和以前所有的觀察值 y i 都是互相獨立的,而估計值 是從以前的觀察值 y i 計算出來的,因此 與 y 0 獨立,從而有: 由于 y 0 和 均為正態(tài)分布,它們的差也為正態(tài)分布。用 代替 后,為 t 分布,即: 在 x = x 0 處 y 0 的 1- a 置信區(qū)間為: (9.14) 顯然 y 0 的置信區(qū)間寬度也與 x 0 有關(guān), 時最小,偏離 時增大。 y 0 的置信區(qū)間比 的大一點,這是因為 y 0 自己也有一個隨機誤差 e 。 例 9.6 江蘇武進縣測定 1959-1964 年間 3 月下旬至 4

21、 月中旬平均溫度累積值 x 和一代三化螟蛾盛發(fā)期 y 的關(guān)系如下表 ( 盛發(fā)期以 5 月 10 日為起算日 ) :試作回歸分析。 表 9.2 平均溫度累積值與一代三化螟盛發(fā)期 年代 1956 1957 1958 1959 1960 1961 1962 1963 1964 累積溫 x 35.5 34.1 31.7 40.3 36.8 40.2 31.7 39.2 44.2 盛發(fā)期 y 12 16 9 2 7 3 13 9 1 解:由原始數(shù)據(jù)算得: S xx = 144.6356, S yy = 249.5556, S xy = 159.0444, b 1.0996, SS R = bS xy =

22、 174.8886 查表,得: F 0.95 (1, 7) = 5.591, F 0.99 (1, 7) = 12.25, F > F 0.99 (1, 7), 拒絕 H 0 ,差異極顯著。即 X , Y 有極顯著線性關(guān)系。 為把上述回歸結(jié)果用于預(yù)報,可給出觀察值 y 0 的 95% 置信區(qū)間: 查表,得 t 0.975 (7) = 2.365, 把數(shù)據(jù)代入上式,得: 條件均值 的 95% 置信區(qū)間公式為: 代入數(shù)據(jù),得: 把不同的 x 0 取值代入上述公式,可得置信區(qū)間的數(shù)據(jù)及圖形如下: 表 9.3 一代三化螟盛發(fā)期置信區(qū)間 x 0 y 0 的 95% 置信區(qū)間 y 0 的 95% 置

23、信區(qū)間 下限 上限 下限 上限 30 15.6 10.3 20.8 6.2 24.9 32 13.4 9.2 17.5 4.6 22.1 34 11.2 7.9 14.4 2.8 19.5 36 9.0 6.3 11.6 0.8 17.1 38 6.8 4.1 9.4 -1.4 14.9 40 4.6 1.4 7.8 -3.8 12.9 42 2.4 -1.7 6.4 -6.4 11.1 44 0.2 -5.0 5.3 -9.1 9.4 46 -2.0 -8.3 4.2 -12.0 7.9 圖 9.2 一代三化螟盛發(fā)期置信區(qū)間 回歸分析的目的常常是為了預(yù)報,也就是說下一次我們知道了 x 0 的

24、取值后,在觀察前就對 y 0 的取值作出估計。例如表 9.3 中的數(shù)據(jù)就是為了預(yù)報用的,下一年度如果我們知道了 3 月下旬至 4 月中旬的平均溫度累積值,就可以估計出一代三化螟蛾盛發(fā)期是 5 月的什么時候。要特別注意的一點是預(yù)報范圍只能是我們研究過的自變量變化范圍,例如在上例中,當積溫值是在 32 到 44 的范圍內(nèi)時,使用這一預(yù)報公式比較有把握, 30 和 46 使用已有點勉強,再大或小就不能用了。這是因為一般來說直線關(guān)系只是局部的近似,在更大的范圍內(nèi),變量間常常呈現(xiàn)一種非線性的關(guān)系。因此若貿(mào)然把局部研究中發(fā)現(xiàn)的線性關(guān)系推廣到更大的范圍,常常是要犯嚴重錯誤的。同時從置信區(qū)間的寬度也可看出,即

25、使是在研究的范圍內(nèi),也是越接近所研究區(qū)間的中點( )預(yù)報越準確。 第三節(jié)  直線相關(guān)  相關(guān)系數(shù) 設(shè)有一 X 、 Y 均為隨機變量的雙變數(shù)總體,具有 N 對 ( X , Y ) 。若在標有這 N 個 ( X , Y ) 坐標點的直角坐標上移動坐標軸,將 X 軸和 Y 軸分別平移 到 X 和 Y 上,則各點位置不變,而所取坐標變?yōu)?( X - X , Y- Y ) 。 上述三圖充分說明的值可用來度量兩個變數(shù)直線相關(guān)程度和性質(zhì)。但是, X 和 Y 的變異程度、所取單位及 N 的大小都會影響為了具有可比性,需要將離均差轉(zhuǎn)化為標準化離均差,再以 N 除之,從而得到雙變數(shù)總體的相關(guān)系

26、數(shù)為: 從樣本的角度分析, y 的平方和 SS y 是由離回歸平方和及回歸平方和構(gòu)成的,后者是由 X 的不同而引起。顯然,若坐標點愈靠近回歸線, 則U 對SS y 的比率愈大,直線相關(guān)就愈密切,故樣本的相關(guān)系數(shù) r 為: 嚴格地說,只有當 X , Y 均為隨機變量時才能定義相關(guān)系數(shù)。這樣一來,在本章的大多數(shù)情況下,由于我們假設(shè) X 為非隨機變量,相關(guān)系數(shù)根本就無法定義。但一方面不管 X 是不是隨機變量,根據(jù)式樣本相關(guān)系數(shù)總是可以計算的;另一方面后邊關(guān)于對樣本相關(guān)系數(shù)進行統(tǒng)計檢驗的推導(dǎo)中,也并沒有受到 X 必須為隨機變量的限制,因此在回歸分析中我們就借用了相關(guān)系數(shù)的名稱和公式,而不再去區(qū)分 X

27、是否為隨機變量。這一點在使用中是很方便的。 根據(jù)以前的推導(dǎo)結(jié)果,有: 因此 , 。 當 時,從上式可看出 SS e = 0 ,即用 可以準確預(yù)測 y 值。此時若 X 不是隨機變量,則 Y 也不是隨機變量了。這種情況在生物學(xué)研究中是不多見的。 當 r = 0 時, SS e = S yy ,回歸一點作用也沒有,即用 X 的線性函數(shù)完全不能預(yù)測 Y 的變化。但這時 X 與 Y 間還可能存在著非線性的關(guān)系。 當 時,情況介于上述二者之間隔。 X 的線性函數(shù)對預(yù)測 Y 的變化有一定作用,但不能準確預(yù)測,這說明 Y 還受其他一些因素,包括隨機誤差的影響。 綜上所述, r 可以作為 X , Y 間線性關(guān)系

28、強弱的一種指標。它的優(yōu)點是非常直觀,接近于 1 就是線性關(guān)系強,接近于 0 就是線性關(guān)系弱;而其他統(tǒng)計量都需要查表后才知檢驗結(jié)果。 由于 r 是線性關(guān)系強弱的指標,我們當然希望能用它來進行統(tǒng)計檢驗。在一般情況下 r 不是正態(tài)分布,直接檢驗有困難。但當總體相關(guān)系數(shù) = 0 時, r 的分布近似于正態(tài)分布,此時用 MSe 代替 ,就可以對 作 t 檢驗。這種檢驗與對回歸系數(shù) b 的檢驗: 是等價的。可證明如下: b 的 t 檢驗統(tǒng)計量為: t = b/S b 。 b=S xy /S xx , 代入 t 的表達式,得: 。 因此我們可用上述統(tǒng)計量對 作統(tǒng)計檢驗。 為使用方便,已根據(jù)上述公式編制專門的

29、相關(guān)系數(shù)檢驗表,可根據(jù)剩余自由度及自變量個數(shù)直接查出 r 的臨界值。 若必須對 0 的情況作統(tǒng)計檢驗,可采用反雙曲正切變換: 當 n 充分大時,可證明 Z 漸近正態(tài)分布 N , 其中 。利用統(tǒng)計量 Z 可對 等進行檢驗。但這一檢驗方法用得很少。 例 9.7 求出例 9.1 回歸系數(shù) r ,并作統(tǒng)計檢驗。 解:利用以前的計算結(jié)果,可得: 這里求得的 Z 值與例 9.2 中求得的 t 值是相同的,它們本來就是同一個統(tǒng)計量。 查表, t 0.995 (3) = 5.841 < t, 差異極顯著,即 X 與 Y 有極顯著的線性關(guān)系。 若直接查相關(guān)系數(shù)檢驗表,可得:剩余自由度為 3 ,獨立自變量為

30、 1 , =0.05 的 r 臨界值為 0.878, =0.01 的臨界值為 0.959, 差異仍為極顯著。 相關(guān)系數(shù)與回歸系數(shù)間的關(guān)系 在 X 和 Y 均為隨機變量的情況下,我們通??梢?X 為自變量, Y 為因變量建立方程,也可反過來,以 Y 為自變量, X 為因變量建立方程。此時它們的地位是對稱的。 取 X 為自變量, Y 為因變量,回歸系 b 為: 取 Y 為自變量, X 為因變量,回歸系數(shù) b' 為: 即:相關(guān)系數(shù)實際是兩個回歸系數(shù)的幾何平均值。這正反映了相關(guān)與回歸的不同:相關(guān)是雙向的關(guān)系,而回歸是單向的。 現(xiàn)在我們已介紹了三種對回歸方程作統(tǒng)計檢驗的方法:對回歸系數(shù) b 作 t 檢驗,方差方析,對相關(guān)系數(shù) r 作檢驗。對一元線性回歸來說,它們的基本公式其實是等價的,因此結(jié)果也是一致的。但它們也各有自己的優(yōu)缺點:對 b 的 t 檢驗可給出置信區(qū)間;方差分析在有重復(fù)的情況下可分解出純誤差平方和,從而可得到進一步的信息;相關(guān)系數(shù)則既直觀,又方便(有專門表格可查),因此使用廣泛。 最后要提請注意的一點是,不論采用什么檢驗方

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論