線性回歸的基本思想_第1頁
線性回歸的基本思想_第2頁
線性回歸的基本思想_第3頁
線性回歸的基本思想_第4頁
線性回歸的基本思想_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第二章 線性回歸的基本思想:雙變量線性回歸(也稱為一元回歸)本章目的:介紹一元線性回歸的基本思想和最小二乘法,的估計(jì)及檢驗(yàn)要求:掌握回歸的含義、總體回歸方程、隨機(jī)誤差項(xiàng)、樣本回歸函數(shù)、殘差項(xiàng)、最小二乘法、正規(guī)方程的含義;掌握一元回歸最小二乘估計(jì)量的證明,會(huì)運(yùn)用OLS估計(jì)量公式得到回歸方程。教學(xué)時(shí)數(shù):4學(xué)時(shí)第一節(jié) 一些重要概念一、總體回歸直線(PRF)和樣本回歸直線(SRF)第一節(jié)我們學(xué)習(xí)了消費(fèi)函數(shù)模型:案例:假設(shè)一個(gè)村莊人口總體由60戶家庭組成,研究每周家庭消費(fèi)支出(Y)和每周稅后可支配收入(X)之間的關(guān)系。這樣我們?nèi)绻烂恐艿募彝ナ杖?,即可預(yù)測每周消費(fèi)支出的總體平均水平。數(shù)據(jù)如下: XY8

2、0100120140160180200220240280每周家庭消費(fèi)支出50606570756570748085887984909498809395103108113115102107110116118125110115120130135140120136140144145135137140152157160162137145155165175189150152175178180185191合計(jì)平均325654627744589707101678113750125685137104314996616112111731、 模型完整寫成:,隨機(jī)誤差項(xiàng):是不可觀測的隨機(jī)事件,當(dāng)80時(shí),-15、-10

3、、0、5、15, 我們假設(shè):,所以直線表示的是收入為時(shí),收入決定的消費(fèi)的平均值。 :我們?yōu)榱撕啽慵僭O(shè)為確定型變量2、總體回歸直線(population Regression line)、總體回歸函數(shù)總體回歸函數(shù):總體回歸直線:其中 ,表示回歸系數(shù);表示截距項(xiàng);表示斜率系數(shù)。3、PRF的隨機(jī)設(shè)定由上例子可以知道,對于每個(gè)家庭的消費(fèi)支出并不一定收入成正比,把個(gè)別的消費(fèi)圍繞的與期望的偏差表述如下:則4、隨即干擾項(xiàng)的意義:除X外的所因素(1)可能代表了模型中并未包括的變量的影響。如上例中,家庭中的兒童數(shù)、性別、宗教、教育和地區(qū)。 我們?yōu)槭裁丛谀P椭胁话堰@些變量也包括呢?這是節(jié)省原則,也就是說模型的要簡

4、單。這些變量,有的是對因變量的解釋能力不大,不重要;另一方面是我們沒其數(shù)據(jù)。(2)人類行為的內(nèi)在隨機(jī)性也一定會(huì)發(fā)生。人類行為是理性的,也不可以完全可預(yù)測。(3)隨機(jī)誤差項(xiàng)可能代表了測量誤差:數(shù)據(jù)處理中產(chǎn)生的誤差。(4)錯(cuò)誤的函數(shù)形式。二、樣本回歸函數(shù)(SPF) 在上一節(jié)中,我們學(xué)習(xí)參數(shù)估計(jì)的公式,結(jié)果是多少:、1、PRF是一個(gè)理想化的概念,實(shí)際上人們很少知道他們所研究的總體。(1) 總體的數(shù)據(jù)不可能全部得到(2) 也不需要知道全部信息2、樣本回歸線:用樣本得出的估計(jì)樣本當(dāng)我們的例子中的60是總體,現(xiàn)在如果我們只有10個(gè)數(shù)據(jù),而得出的如上面的值那么這條f(x)= (1)樣本回歸線:,叫做的預(yù)測值

5、 (2),:一個(gè)樣本,一個(gè)結(jié)果從算法來講是隨機(jī)變量。三、要點(diǎn):總體回歸函數(shù)、樣本回歸函數(shù)第二節(jié) 一元線性回歸模型的估計(jì)原理(最小二乘法)一、 最小二乘法(OLS):如何估計(jì),的的公式1、原理:殘差平方和最小 我們是通過樣本來得到總體回歸方程,的估計(jì):樣本回歸方程。其中,叫做的估計(jì)值,如果,對,估計(jì)得準(zhǔn)確,則對估計(jì)也準(zhǔn)確。(1)由準(zhǔn)確估計(jì)的方法:殘差最小 定義:或-(),表示樣本點(diǎn)到擬合點(diǎn)B的距離。(2)殘差最小的方法: 和最?。褐苯酉嗉樱鐖DL1和L0的殘差和應(yīng)是一樣的。 平方和最小:正、負(fù)全部相加 , Q= 問:Q的大小由什么決定?(樣本已知,已定)2、參數(shù)的推導(dǎo)程:求當(dāng)=的、 ()可得()

6、上述式子稱為正規(guī)方程組。簡記為:最后可解得:()3、化簡 設(shè)可將()化簡為:()()和()給出的估計(jì)量稱為最小二乘估計(jì)量(OLSE)注:的化簡過程: 問題:1、和一樣嗎?前者是最小二乘法的要求,后者是n個(gè)的和。 2、和均值: (-)+,() 所以:+(-),兩邊求和取平均即得。3、 減 4、的含義:當(dāng)收入是時(shí)平均對消費(fèi)的影響,個(gè)別由決定。二、對誤差項(xiàng)的假定假定1:假定2:=常數(shù) 同方差假定假定3: 序列相關(guān)假定上述三個(gè)假定稱為GM假定,即高斯馬爾可夫假定;假定4:只要是非隨機(jī)變量,就有反之不成立。假定1和4書上寫成一個(gè)假定5、問題:1、假設(shè)1真實(shí)嗎? 。如果,則令 這和原模型有多少區(qū)別呢? 2

7、、同方差的含義:不同收入水平對消費(fèi)的影響程度是一樣的,而實(shí)際上一般是隨X的增大而增大。 3、有了這些假定你對和的關(guān)系模型是還有哪些疑問?線性也是一個(gè)假定。三、估計(jì)量的統(tǒng)計(jì)性質(zhì)(BLUE: best linear unbiased estimator)1線性。所謂線性是指估計(jì)式和為的函數(shù)。(1)為的線性函數(shù):= =請同學(xué)們證明又因?yàn)?,令,則 =();由于可以證明+注:由減+得,把代入,可得。(但) (2)同理可求得: = () - 也可以得出: =2、無偏性。所謂無偏性是指估計(jì)量和的均值等于總體回歸參數(shù)和證明: =因?yàn)?,所以3、最小方差性.這里所說的方差最小是指在無偏估計(jì)類中方差最小。這里可

8、以先推導(dǎo)出參數(shù)估計(jì)量和的方差,不用證明可以得到: () ()證明:設(shè)是有別于的線性無偏估計(jì)量=,+, 設(shè) =注:綜上所述 ,OLS估計(jì)量具有線性、無偏性和最小方差性,這三條性質(zhì)又稱為BLUE性質(zhì)。這一性質(zhì)稱為高斯馬爾科夫定理。附:證明 由 = 4、方差與精度:估計(jì)量的方差越小,精度越高 (1)可知X的樣本越大越好。(2)由,解釋變量的數(shù)據(jù)越小方差越小,這就是要把數(shù)據(jù)取對數(shù)的一個(gè)道理。樣本越大越好。5、和的關(guān)系 這意味著估計(jì)過高則就估計(jì)過低。注:,則- 所以:-(-)6、,是隨機(jī)變量:只有隨機(jī)變量才有期望和方差。案例:某地區(qū)居民的每月收入(X)和每月的消費(fèi)支出(Y)的樣本數(shù)據(jù)如表(2)XYXY8

9、070180115100652001201209022014014095240155160110260150由上述表格數(shù)據(jù)可以計(jì)算得:, 設(shè)回歸方程為:, ,,,第三節(jié) 回歸模型的統(tǒng)計(jì)檢驗(yàn)一、樣本決定系數(shù)及回歸直線擬合優(yōu)度的檢驗(yàn) 根據(jù)變量X和Y的樣本觀測值應(yīng)用最小二乘法求得了回歸直線方程。但是這條回歸直線到底在多大程度上擬和了觀測值?擬合:樣本點(diǎn)逼近樣本回歸線的程度1、總離差平方和的分解我們有恒等式 :(=)兩邊平方并求和:由正規(guī)方程中和得到 于是有: ()稱為總離差平方和,記為TSS:Total sum of square 稱為回歸平方和,記為ESS: Explained sum of sq

10、uare 稱為殘差平方和,記為RSS:Residual sum of square總離差平方和=回歸平方和殘差平方和2、樣本決定系數(shù):“擬合優(yōu)度”的度量 (1)首先,殘差殘差平方和小就意味著,逼近,擬合得好,也就是X對Y的解釋能力強(qiáng)。(用最小二乘法來估計(jì)、時(shí),對已知的一個(gè)樣本相對于其它方法來說,殘差平方和是最小的。)但是不同的回歸方程,我們?nèi)绾蝸肀容^擬合高低,那個(gè)方程的X對Y真正有解釋能力呢?比較相對殘差平方和的大小, 圖:給定一個(gè)樣本,總離差是固定的,說明總離差分解為兩個(gè)部分,ESS歸于回歸直線,RSS歸于隨機(jī)因素,RSS小,來自回歸的ESS就大擬合就好。從回歸平方和與殘差平方和的意義可以知

11、道,如果在總離差平方和中回歸平方和所占的比重越大,則線性回歸效果越好,也就是說回歸直線與樣本觀測值擬合優(yōu)度就越好。(2)定義: ()所以,就可以來量度回歸線的擬和優(yōu)度,表示回歸線對樣本點(diǎn)的解釋程度,0£ £1。(3)應(yīng)注意:如果回歸中沒有截距項(xiàng),不可能有,也就得不到離差分解公式,所以我們定義的只對有截距項(xiàng)的回歸有效。對沒有截距項(xiàng)的回歸的擬和優(yōu)度的判斷應(yīng)使用其它方法,同學(xué)們可以參考經(jīng)濟(jì)計(jì)量學(xué)(古亞拉提著,中國人民大學(xué)出版社,1998年)的相應(yīng)內(nèi)容。 注:如沒有截距項(xiàng),方程為殘差平方和Q=,求導(dǎo)只有(3)、樣本決定系數(shù)的相關(guān)公式 ()上式還可以寫成: ()對于第二節(jié)中的案例題,

12、我們可以計(jì)算得: =0.9621這說明每月的消費(fèi)支出的離差中有96%可以用收入來解釋,既每月的消費(fèi)支出96%取決于收入。3、樣本相關(guān)系數(shù) 下面我們介紹一個(gè)與樣本決定系數(shù)有密切關(guān)系但是又有區(qū)別的概念:樣本相關(guān)系數(shù)。由數(shù)理統(tǒng)計(jì)知識可以知道,兩個(gè)變量X和Y之間的相關(guān)程度用相關(guān)系數(shù)表示 ()由于總體X和Y的分布是未知的,就無法計(jì)算,因此自然的想法就是利用樣本觀測值給出的一個(gè)估計(jì)量, 這個(gè)估計(jì)量就是樣本相關(guān)系數(shù)。根據(jù)觀測值,定義: 為X、Y的樣本協(xié)方差;, ,分別叫做X和Y的樣本方差。定義樣本相關(guān)系數(shù) ()當(dāng)給定觀測值以后,利用()可計(jì)算樣本相關(guān)系數(shù)r,r可作為的一個(gè)估計(jì)值。比較()和()可以知道,樣本

13、相關(guān)系數(shù)和樣本決定系數(shù)在計(jì)算上是一致的,這樣可以由樣本決定系數(shù)得到相關(guān)系數(shù) 但是相關(guān)系數(shù)和樣本決定系數(shù)是兩個(gè)不同的概念。樣本決定系數(shù)是對變量作出回歸分析得出的,它是樣本觀測值擬合優(yōu)度的一個(gè)數(shù)量指標(biāo)。相關(guān)系數(shù)是對變量作相關(guān)分析得出的。二、 隨機(jī)項(xiàng)的方差的估計(jì)量 在第二節(jié)分析和的方差時(shí),發(fā)現(xiàn)影響其方差的因素有隨機(jī)擾動(dòng)項(xiàng)的方差。但它是不可觀測的。如何估計(jì)呢? 我們可以證明: ()可以作為的無偏估計(jì)量。證明如下:(本科可以不作要求)分析:把的平方轉(zhuǎn)化成及的平方,和的方差,則可建立與的關(guān)系 證明:設(shè),所以 把回歸方程 化為又 又因?yàn)?所以 =所以 所以 ()注:我們經(jīng)常把()記作: 三、回歸系數(shù)估計(jì)量的

14、顯著性檢驗(yàn) 根據(jù)樣本值利用最小二乘法我們求出了回歸系數(shù)和的估計(jì)量和,如果,的方差不大,即估計(jì)的精度很高,但如果真實(shí)的0,0.001我們的工作有何作用,這時(shí)能說X對Y有解釋能力,即X和Y有顯著的線性關(guān)系嗎?因此作為的估計(jì)量必須進(jìn)行顯著性檢驗(yàn),或者說使假設(shè)檢驗(yàn)。檢驗(yàn)0是否成立。 :01、假設(shè)檢驗(yàn):類似于反證法,是用樣本的結(jié)果,來證明一個(gè)虛擬假設(shè)()真?zhèn)蔚囊环N程序。虛是指不知是否正確的判斷。(1)例:這個(gè)同學(xué)是個(gè)共產(chǎn)黨員背景(規(guī)律):絕大多數(shù)的共產(chǎn)黨員為人民服務(wù),正人君子,為人表率,事實(shí)(樣本):(有人發(fā)現(xiàn))這個(gè)同學(xué)吃喝嫖賭,不上課,騙助學(xué)貸款結(jié)論:拒絕這人同學(xué)是真正共產(chǎn)黨員這個(gè)結(jié)論(2)小概率原理

15、(規(guī)律):在隨機(jī)變量的概率空間中,經(jīng)常發(fā)生是大概率事件,隨機(jī)變量值接近其數(shù)學(xué)期望的那些事件;而那些概率接近于0的小概率事件在一次試驗(yàn)中是不可能發(fā)生的。 :隨機(jī)變量E0,那么在一次試驗(yàn)中,按最可能事件是的取值落在0附近的區(qū)域(畫一個(gè)正態(tài)分布圖),如果在這次偶然的試驗(yàn)中100,落在了遠(yuǎn)處,的情況沒有發(fā)生;由于小概率事件不可能在一次試驗(yàn)中出現(xiàn),只有一種解釋,不對。E比較大,所以100這樣的事件才會(huì)在一次試驗(yàn)中出現(xiàn)。這叫拒絕。2、估計(jì)量和的概率分布 (1)由()和()我們可以知道: N ,N() N ()(2)由于表示了估計(jì)量接近真實(shí)值的程度,因此可以用表示的穩(wěn)定性,要注意的是:含有,而是一個(gè)未知的變

16、量,要用代替。 所以 =,但N不成立了。3、參數(shù)的T統(tǒng)計(jì)量 (1)令:Tt(n-2) T其中:N ,自由度來自于RSS所以:Tt(n-2)同理:T t(n-2)(2)T分布:介紹書后的表,告訴取值的概率,單邊分布有單側(cè)的臨界值。 P(t>)=,或P(t<-)=,畫一圖:4、顯著性水平:小概率的值 : E()=0 (1)小概率的度量:考慮隨機(jī)變量的T分布,T在下,則T。通過概率分布圖可知,(圖)小概率事件為,一般取0.10,0.05,0.025,0.01。的含義:顯著性水平,越小,如果從一個(gè)樣本(一次試驗(yàn))計(jì)算出的T值落入這個(gè)范圍的概率就越小,這個(gè)事件就更不能發(fā)生,就更有把握地說,隨

17、機(jī)變量的期望不是0。而是比0大許多。(2)回歸T檢驗(yàn)的臨界值:雙邊臨界值,兩邊加起來為,這個(gè)臨界值得從t分布表中查。由圖可以得出顯著性水平為雙側(cè)檢驗(yàn)的臨界界值,是表中單邊檢驗(yàn)概率/2的臨界值。(3)拒絕域:(,+)和(-,-)叫拒絕域。在下,T值落入拒絕域的概率為。5、檢驗(yàn)過程 因?yàn)?所以 因此我們可以用T作為統(tǒng)計(jì)量進(jìn)行t檢驗(yàn),其檢驗(yàn)過程步驟如下:第一步 原假設(shè): 備擇假設(shè):第二步 計(jì)算統(tǒng)計(jì)量T第三步 給定檢驗(yàn)水平,查自由度為n-2的t分布臨界值表。可以得到臨界值第四步 作出判斷如果,則接不拒絕原假設(shè),認(rèn)為X與Y線性關(guān)系不顯著如果,則接拒絕原假設(shè),認(rèn)為X與Y線性關(guān)系顯著6、自由度:是獨(dú)立數(shù)據(jù)的

18、個(gè)數(shù)。殘差平方和RSS有兩個(gè)參數(shù)、的約束,只有n-2個(gè)自由度。所以,有n-2個(gè)獨(dú)立數(shù)據(jù),T,自然有n-2個(gè)自由度了。7、兩類錯(cuò)誤:(1)第一類錯(cuò)誤:拒絕時(shí)犯的錯(cuò)誤拒真試驗(yàn)事件,發(fā)生了,樣本t值落入了拒絕域,我們拒絕。這樣做一點(diǎn)風(fēng)險(xiǎn)也沒有嗎?聯(lián)想共產(chǎn)黨員的例子,我們知道在共產(chǎn)黨員中有極少數(shù)人如些。那么是共產(chǎn)黨員而又吃喝嫖賭的人概率是,這樣人出現(xiàn)我們就以的概率犯了錯(cuò)誤。這個(gè)人真的是共產(chǎn)黨員,而我們拒絕了認(rèn)為他不是,這叫拒真。我們把這類錯(cuò)誤稱為第一類錯(cuò)誤。所以,當(dāng)我們拒絕時(shí)我們犯錯(cuò)誤的概率為顯著水平。但由于很小,由于我們拒絕時(shí)出錯(cuò)的概率小,所以當(dāng)拒絕時(shí)應(yīng)很堅(jiān)決。(2)第二類錯(cuò)誤:接受時(shí)犯的錯(cuò)誤納偽如

19、共產(chǎn)黨的例了,這個(gè)同學(xué)如果真的為人表帥,我們就下他是共產(chǎn)黨員的結(jié)論合適嗎?(好人多的是)這時(shí)我們犯的錯(cuò)誤的概率很大。當(dāng)時(shí),我們接受虛擬假設(shè)。T值落入接受域,就為0嗎?如(P19)圖,當(dāng)t值落入接受域,我們認(rèn)為它來自,所以接受。但些時(shí),它可以來自其它均值不為0的總體,而這樣的分布有太多。所以我們犯錯(cuò)誤的概率會(huì)相當(dāng)大。所以,當(dāng)時(shí),我們接受虛擬假設(shè),這很為難。我們應(yīng)該說不拒絕,而不是接受它。由于,接受域很寬概率大,所以犯第二類錯(cuò)誤的概率很大。但錯(cuò)誤的概率不1- ,其大小依賴于樣本所在總體所決定的的真正分布。8、的正態(tài)假定:(1)假定的意義:保證Tt(n-2),T檢驗(yàn)有效。(2)當(dāng)正態(tài)假定不成立時(shí)的檢

20、驗(yàn):由+可得:T,根據(jù)中心極限定理當(dāng),T服從正態(tài)分布。而當(dāng)樣本大,自由度大時(shí),t分布和正態(tài)分布是很相近的。所以,當(dāng)N>30時(shí),T檢驗(yàn)就認(rèn)為比較有效。而N>100時(shí),則認(rèn)為很可靠。案例分析對于第二節(jié)中案例中,我們得到了: =24.4545,=0.50911、對做t檢驗(yàn) 提出原假設(shè)原假設(shè):;備擇假設(shè):計(jì)算統(tǒng)計(jì)量 =14.2605>2.306因此拒絕原假設(shè)。認(rèn)為存在線性關(guān)系。2、對做t檢驗(yàn) 提出原假設(shè)原假設(shè):;備擇假設(shè):計(jì)算統(tǒng)計(jì)量 =3.8128>2.306因此拒絕原假設(shè)。認(rèn)為存在線性關(guān)系注意,在一般情況下回歸函數(shù)經(jīng)常寫成: 四、方程總體顯著性檢驗(yàn) 由前面可以知道,利用它的樣

21、本值得出了回歸方程,我們的目的就是利用回歸方程對總體進(jìn)行經(jīng)濟(jì)分析和預(yù)測,回歸方程能否代表總體,即總體模型的設(shè)定是否顯著,必須進(jìn)行檢驗(yàn)。 由擬合優(yōu)度可以知道,回歸平方和越大,殘差平方和越小,回歸直線和樣本點(diǎn)擬合的越好。利用樣本決定系數(shù)可以更清楚的說明這一點(diǎn),我們的目的不僅在于判定樣本擬合優(yōu)度,而是必須對總體作出判斷,即總體的線性是否顯著成立。1、分布 可以證明:F=2、檢驗(yàn)的步驟第一步:原假設(shè): 備擇假設(shè): 第二步 計(jì)算統(tǒng)計(jì)量 第三步 給定檢驗(yàn)水平,查自由度為(1,n-2)的F分布臨界值表。可以得到臨界值第四步 作出判斷如果,則接受原假設(shè),認(rèn)為X與Y線性關(guān)系不顯著如果,則接拒絕原假設(shè),認(rèn)為X與Y線性關(guān)系顯著3、F檢驗(yàn)下的t檢驗(yàn)當(dāng)回歸模型只有一個(gè)解釋變量時(shí)二者的功效是一樣的,都可以用來檢驗(yàn),的顯著性。但當(dāng)模型主多元模型時(shí)F檢驗(yàn)是檢驗(yàn)除截距項(xiàng)之外所有參數(shù)顯著性的聯(lián)合檢驗(yàn)。4、F與判定系數(shù) = 所以:,這說明當(dāng)?shù)蜁r(shí)方程不一定不顯著,要看F值。此時(shí)只能說解釋變量能夠解釋的部分為,但這點(diǎn)能力是可信的。五、回歸參數(shù)的區(qū)間估計(jì):以為例1、置信區(qū)間在點(diǎn)估計(jì)量的兩旁構(gòu)造一個(gè)以100(1-)的概率包含真實(shí)參數(shù)的區(qū)間(范圍)。已知:T,P(-<t<)=P(-<<) =P(-<+)=1-。則顯著水平為時(shí)的置信區(qū)間為(-<+)2、區(qū)間(-&l

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論