第二章回歸模型(1-4)_第1頁
第二章回歸模型(1-4)_第2頁
第二章回歸模型(1-4)_第3頁
第二章回歸模型(1-4)_第4頁
第二章回歸模型(1-4)_第5頁
已閱讀5頁,還剩38頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第二章 回歸模型2-1 回歸分析的意義一、概念:回歸分析是處理變量之間相關關系的一種數(shù)理統(tǒng)計方法,在生產(chǎn)和科學實驗中,某一客觀現(xiàn)象的統(tǒng)一體中,其變量往往客觀上存在一定的關系,為了了解事物的本質,往往需要找出描述這些變量之間依存關系的數(shù)學表達式,這就是需要采用回歸分析進行處理。 例如:煤的灰分與密度之間就存在著某種不確定的關系,其關系近似成正比關系,根據(jù)實驗數(shù)據(jù)可采用回歸分析求出其關系表達式。 變量之間關系可以分成二類:完全確定關系,例如歐姆定律;另一類為不確定關系;如上例,選礦生產(chǎn)過程中就存在著大量的這種不確定關系,變量之間這種不確定關系稱為相關關系,這種關系可利用數(shù)理統(tǒng)計方法找到。 二、回歸

2、分析主要解決以下三方面問題(1)根據(jù)試驗數(shù)據(jù),研究變量之間的相關關系,找出定量的關系式和其中的參數(shù)。(2)由于關系或是一種相關關系,所以需要進一步找出它的可信程度,為此,要進行統(tǒng)計檢驗。(3)如果關系式中有許多自變量,則判斷這些自變量的顯著性,并剔除影響不顯著的自變量。 2-2 可疑數(shù)據(jù)的處理 在進行回歸運行之前應根據(jù)誤差理論對觀測數(shù)據(jù)進行處理,因為在一組試驗數(shù)據(jù)中,如果混雜異常數(shù)據(jù),就會歪曲整個試驗結果,影響所建立的模型,所以必須運用正確的方法舍棄其中異常的數(shù)據(jù)。 常用的判別方法有拉依達準則(3準則)和肖維勒準則。 (1)3準則: 其準則認為:某一觀測值的剩余誤差絕對值大于3時,該數(shù)據(jù)就應被

3、舍棄。 a) 為觀測數(shù)據(jù)的標準差,即 其中 式中: 觀測值; 為的平均值。 n觀測次數(shù); f自由度。 當(2030) 時,f=n-1; 當N30時 ,f=n-1n, 觀測值 與 之差稱為離差,以g表示, 即: niiyyf12)(1niiyNy11iyyyygiiiyy 3準則判據(jù)為: 時,即認為該數(shù)據(jù)可疑,應剔除。b)當剔除某一觀測數(shù)據(jù)后,對余下的n-1個數(shù)據(jù)重新計算及 ,然后重復按上述方法檢驗,直到所有觀測數(shù)據(jù)的離差 均滿足要求為止。c)注意條件: 3準則是建立在n的前提下,當n有限或較小時,3準則不十分可靠,這時應采用肖維涅準則。 3yygiiy3yygii(2)肖維涅準則a)肖維涅準則

4、是按下式進行判斷的: 當 時,認為該數(shù)據(jù)可疑。 式中K為與觀測次數(shù)n有關的參數(shù)。 并且,K值隨著n的增大而增大。b)當剔除掉某一數(shù)據(jù)以后,把剩下的觀測數(shù)據(jù)重新計算和檢驗,直至所有觀測值離差的絕對值小于K為止。 kyygiic)注意條件當n10時,使用該準則較勉強;當n185時,肖維涅準則與3準則相當;當n185時,肖維涅準則較3準則寬。 2-3 模型形式的確定 1從建模和求解方便來看,總希望模型的形式簡單一點,所含的變量和參數(shù)不要太多;但從模型的使用角度看,則要計算結果準確,反映真實,所以從這一點看又得要把模型選配的復雜些。 2常用的模型形式有一元線性模型。一元非線性模型,多元線性模型,多元非

5、線性模型及多項式模型。 3利用回歸分析所建立的數(shù)學模型主要是線性回歸模型,及多項式回歸模型,以及一些可以通過初等變換轉化為線性的一元非線性回歸模型。下面我們先介紹一元線性回歸模型。 2-4 一元線性回歸模型 一元線性回歸分析是最簡單的一種回歸分析、它所研究的對象是二個變量之間的相關關系。 設有N對實驗數(shù)據(jù) ,其中x為確定性變量,y為服從正態(tài)分布的隨機變量,如果它們之間存在線性關系,則可以用一個線性方程表示。 式中: 為回歸方程計算值,a,b為待定系數(shù)(模型參數(shù)) ), 2 , 1(Niyxiibxayy一、參數(shù)a,b的最小二乘法估計1統(tǒng)計分析: 對于上述的一組試驗數(shù)據(jù)(xi,yi),i=1,

6、2, , n。由數(shù)理統(tǒng)計知識得: 離差= 剩余偏差(殘差)= 回歸差= 其中: 試驗值; 計算值; 平均值。 yyi yyiyyiiyiyy同時可知:離差平方和 剩余平方和 回歸平方和 由散點圖可知:21)(niiyyGniiiyyQ12)(niiyyU12)()()(yyyyyyiiii0 則總離差平方和 2121)()()(niiiiniiyyyyyyGniniiiiiniiiyyyyyyyy11221)(2)()(niiniiiyyyy1212)()(UQ 2參數(shù)最小二乘法確定 為了使回歸直線是一切直線中最接近所有試驗點的直線,也就是說以這條直線代表x與y的關系與觀測值的誤差最小時的a、

7、b參數(shù)值,就是所求的最佳值。 也就是要使得觀測值與回歸方程計算值的偏差為最小,為了消除正負值影響,采用其剩余平方和為最小。 niiiniiibxayyyQ1212min)()(根據(jù)極值原理:要使上式有最小值,應使上式稱為線性回歸的正規(guī)方程組,得0)(20)(211niiiiniiixbxaybbxayaxbya2)()(xxyyxxbiii222xnxyxnyxxxxxyyxxiiiiiii 上式中: ; 若令: 則上式可寫成: ixNx1iyNy1222)(xNxxxLiixxyxNyxyyxxLiiiixy)(222)(yNyyyLiiyyxbyaxxxyiiiLLxNxyxNyxb22

8、二、回歸方程顯著性檢驗 在建立回歸模型時,我們假定兩個變量之間是線性的,再根據(jù)最小二乘原理,確定了回歸系數(shù)和的值,那么這兩個變量之間是否真正是線性的,所以必須對原來的假定進行顯著性檢驗,回歸方程顯著,回歸方程顯著性檢驗就是對兩個變量線性關系進行定量的評價,常用的方法有相關系數(shù)法與F檢驗法兩種。 (1)方差分析 由前面分析知,三種離差平方和關系為: 上式中:S總表示觀測點 與平均值 離差平方和,它反映了 的總波動情況。產(chǎn)生這種差異是由于二方面因素引起:一方面是由于x與y之間的線性相關所引起,也就是由于變量的取值不同引起的;另一方面是由于試驗誤差和除x與y線性關系之外一切因素所引起的。 殘回總SS

9、Siyiyy S回表示回歸值 與平均值 離差平方之和,它是由于x與y之間線性相關引起那部分離差,它是由自變量x的變化引起的。 S殘表示觀測值 與回歸值 的離差平方和,它是在所有類似的直線中與觀測點離差平方和中最小的一個,也就是說它是除了x對y線性影響之外的一切因素對y變差的作用。iyyiyiy S總,S回,S殘的計算方法:yyniiLyyS12)(總niiniixbabxayyS1212)()(回xxxyxxniiLLLbxxb22122)(xxxyyyLLLSSS2回總殘(2)相關系數(shù)檢驗法 a顯然,在總離差平方和一定的條件下,S殘越小,S回越接近S總,變量x與y之間的線性關系就越密切,從而

10、比值S回/S總就越接近1,線性越好,反之線性差。用表示S回/S總, 即: 總回SSr2yyxxxyLLLsSr總回/ 我們稱r為變量x與y的相關系數(shù)。其絕對值為 ,相關系數(shù)的正負號由 決定,即R與b同號。R0時為正相關;RF表 則說明回歸方程顯著,即與的線性關系密切。殘回fQfUF 回f殘f回f殘f 三、回歸方程的預測值精度檢驗 尋求回歸方程的目的是為了通過x值來預測y值,但是,由于x與y之間存在的是相關關系,所以由回歸方程計算得到的只能是觀測值的平均值。那么,實際的值y和 偏差有多大,這就需要對回歸方程的預測精度進行檢驗。 y 三、回歸方程的預測值精度檢驗 在一元線性回歸方程中,x是確定性變

11、量,y是服從正態(tài)分布的隨機變量,并按正態(tài)分布規(guī)律波動,如果能計算出波動的標準差,則回歸方程的預測精度就能估計出來。 由于剩余偏差平方和Q是隨機因素造成的,它排除了線性關系的影響。 由于剩余偏差平方和Q是隨機因素造成的,它排除了線性關系的影響。 我們把剩余標準差作為衡量y隨機波動大小的一個估計量。 即 : 若, 則y的取值是以為 中心而對稱分布。越靠近 ,出現(xiàn)的概率越大,相反,越遠離 ,則出的概率越小, 與剩余標準差之間,有如下關系: 2)(22NyyNQii0 xx 0y0y0y0y觀測值 落在 區(qū)間 內的概率為38%觀測值 落在 區(qū)間 內的概率為68.3%觀測值 落在 區(qū)間 內的概率為95.

12、4%觀測值 落在 區(qū)間 內的概率為99.73%觀測值 落在區(qū)間 內的概率為99.99 如上所述,越小,則回歸方程預測值越接近實測值,預極就精確。因此,可以把剩余標準差作為預極回歸方程精度的標志。 iy5 . 00yiyiyiyiyy2y3y4y 例1 在選煤試驗研究中,測得尾礦產(chǎn)品的灰分與對應分選時的基元灰分關系如下表所示,試建立它們的預測模型,并進行方差分析。x22 34 39 43 46 54 58 64 67 72y11 13 16 16 17 15 20 19 24 23編號xyx2y2xy122114841212422341311561694423391615212566244431

13、6184925668854617211628978265415291622581075820336440011608641940965017829672444895761608107223518452916504991742717631829228試驗統(tǒng)計數(shù)據(jù)表根據(jù)公式: 待求:xyxbxayxbna2xyxyx,2xxxyLLb xbya線性回歸方程計算表2778)(11 .24898)499(101)(1271769 .4910149922222xnxLxnxxxxXX4 .154)(16 .3027)174(101)(131824 .1710117422222ynyLynyyyyyy52

14、8)(18700)(1922810yxnxyLyxnxynxy方差計算:回歸差殘差xyxbyaLLbxxxy24. 042. 5424. 59 .4924. 04 .1724. 022785287 .1264 .1547 .12652824. 0 xyyyxybLLQbLU7 .27 相關系數(shù): 當置信水平=0.05,數(shù)據(jù)組數(shù)為10,自由度=10-2=8時,查表得相關系數(shù)值0.632。r計=0.89r表=0.632求得的線性回歸方程線性關系密切。 剩余標準差:89. 04 .1542278528LxxLyyLxyr86. 12107 .272NQ方差分析表誤差來源誤差平方和自由度均方和F計值查

15、F(1.8,0.01)回歸(U)剩余(Q)總和126.727.7154.4110-2=810-1=9126.73.4636.311.3四、四、一元線性回歸子程序,一元線性回歸子程序,PASCAL語言語言1計算步驟BEG1N計算 , , , 計算回歸方程系數(shù)a,b計算建立回歸方程后的預測值計算回歸平方和U,剩余平方和Q計算相關系數(shù)R,標準離差S,F(xiàn)檢驗值。END;ix2ixiy2iyiy2形式參數(shù)說明 樣本數(shù) 存放自變量 的一維數(shù)組 存放自變量 的一維數(shù)組 存放建立回歸方程后的預測值的一維數(shù)組a,b一元線性回歸方程的兩個系數(shù) 回歸平方和 剩余平方和 相關系數(shù) 剩余標準離差 F檢驗值nxixyiy

16、qquqrsf3PASCAL子程序PROCEDURE axy1 (n:integer; VAR x,y, qq;VAR a,b,u,q,r,s,f:real);VAR h,k,c,g,e,w,v,l,d,z:real; I:integer;BEGINH:=0; k:=0; c:=0; g:=0; e:=0;FOR i:=1 T0 n D0BEGINh:=h+xi; k:=k+xi*xi;C:=C+yi; g:=g+yi*yi;e:=e+xi*yi;END;W:=h/n; V:=c/n;L:=0; d:=0; z:=0;FOR i:=1 T0 n D0BEGINL:=L+(xi-w)*(xi-w

17、);d:=d+(yi-v)*(yi-v);END;B:=Z/L; a:=V-b*w;FOR i:=1 T0 n D0qqi:=a+b*xi;u:=0; q:=0;FOR i:=1 T0 n D0BEGINu:=u+sqr(qqi-v); 回歸平方和S回q:=q+sqr(yi-qqi); 剩余平方和S殘END;r:sqrt(u/d); S:=sqrt(q/(n-1);f:=u*(n-2)/q;END. 2)(yyi)(iiyy作業(yè)作業(yè)1 1:根據(jù)青龍山選煤廠某年浮沉結果,建立其灰:根據(jù)青龍山選煤廠某年浮沉結果,建立其灰分與密度的一元線性回歸方程,并求分與密度的一元線性回歸方程,并求1.351.3

18、5,1.41.4,1.51.5,1.851.85時的灰分值。時的灰分值。月份-1.313-1.41.4-1.51.5-1.61.6-1.8+1.812.937.5117.6526.3536.8779.2422.367.0116.6526.6640.6479.3432.326.9617.1424.4738.6378.6543.778.3918.6426.2338.9880.2552.716.8416.3826.3938.3281.0262.756.6216.7126.3638.8882.9672.556.8916.6626.1137.8580.3082.187.0917.2426.7338.2480.6193.127.7518.1329.0439.8679.58102.767.0616.8226.3336.5380.38112.876.8916.4825.5038.0678.86122.386.7216.8925.7638.7482.06作業(yè)2 某礦區(qū)取得的18個煤樣,試建立其密度和灰分之間的線性回歸模型。 樣品號密

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論