多元統(tǒng)計分析重點_第1頁
多元統(tǒng)計分析重點_第2頁
多元統(tǒng)計分析重點_第3頁
多元統(tǒng)計分析重點_第4頁
多元統(tǒng)計分析重點_第5頁
免費預覽已結(jié)束,剩余3頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、多元統(tǒng)計分析重點宿舍版第一講:多元統(tǒng)計方法及應(yīng)用;多元統(tǒng)計方法分類(按變量、模型、因變量等)多元統(tǒng)計分析應(yīng)用選擇題:數(shù)據(jù)或結(jié)構(gòu)性簡化運用的方法有:多元回歸分析,聚類分析,主成分分析,因子分析分類和組合運用的方法有:判別分析,聚類分析,主成分分析變量之間的相關(guān)關(guān)系運用的方法有:多元回歸,主成分分析,因子分析,預測與決策運用的方法有:多元回歸,判別分析,聚類分析因果模型(因變量數(shù)):多元回歸,判別分析橫貫數(shù)據(jù):相依模型(變量測度廣因子分析,聚類分析多元統(tǒng)計分析方法選擇題:多元統(tǒng)at方法的分類:1)按測量數(shù)據(jù)的來源分為:橫貫數(shù)據(jù)(同一時間不同案例的觀測數(shù)據(jù)),縱觀數(shù)據(jù)(同樣案例在不同時間的多次觀測數(shù)

2、據(jù))2)按變量的測度等級(數(shù)據(jù)類型)分為:類別(非測量型)變量,數(shù)值型(測量型)變量3)按分析模型的屬性分為:因果模型,相依模型4)按模型中因變量的數(shù)量分為:單因變量模型,多因變量模型,多層因果模型第二講:計算均值、協(xié)差陣、相關(guān)陣;相互獨立性第三講:主成分定義、應(yīng)用及基本思想,主成分性質(zhì),主成分分析步驟主成分定義:何謂主成分分析就是將原來的多個指標(變量)線性組合成幾個新的相互無關(guān)的綜合指標(主成分),并使新的綜合指標盡可能多地反映原來的指標信息。主成分分析的應(yīng)用:(1)數(shù)據(jù)的壓縮、結(jié)構(gòu)的簡化;(2)樣品的綜合評價,排序主成分分析概述一一思想:(1)把給定的一組變量X1,X2,-XP通過線性變

3、換,轉(zhuǎn)換為一組不相關(guān)的變量Y1,Y2,-YR(2)在這種變換中,保持變量的總方差(X1,X2,-Xp的方差之和)不變,同時,使Y1具有最大方差,稱為第一主成分;Y2具有次大方差,稱為第二主成分。依次類推,原來有P個變量,就可以轉(zhuǎn)換出P個主成分(3)在實際應(yīng)用中,為了簡化問題,通常找能夠反映原來P個變量的絕大部分方差的q(q<p)個主成分。主成分性質(zhì):1)性質(zhì)1:主成分的協(xié)方差矩陣是對角陣:(2)性質(zhì)2:主成分的總方差等于原始變量的總方差(3)性質(zhì)3:主成分Yk與原始變量Xi的相關(guān)系數(shù)為:pV,一、k(YK,XD=,tki,并稱之為因子負荷量(或因子載荷量)。ii主成分分析的具體步驟:將原

4、始數(shù)據(jù)標準化;建立變量的相關(guān)系數(shù)陣;求的特征根為:L;0,相應(yīng)的特征向量為Ti*,T*,L,T;由累積方差貢獻率確p定王成分的個數(shù)(m),并與出王成分為y(Ti)X,i1,2,L,m第四講:因子分析定義,因子載荷統(tǒng)計意義,因子分析模型及假設(shè),因子旋轉(zhuǎn)因子分析定義:因子分析就是通過對多個變量的相關(guān)系數(shù)矩陣的研究,找出同時影響或支配所有變量的共性因子的多元統(tǒng)計方法。因子載荷統(tǒng)計意義:1.因子載荷冉的統(tǒng)計意義對于因子模型i1,2,L,pXia1F1&2F2LaijFjLaimFmi我們可以得到,、與Fj的協(xié)方差為:mCov(Xi,Fj)Cov(aikFki,Fj)k1mCov(aikFk,F

5、j)Cov(i,Fj)_k1aij如果對Xi作了標準化處理,Xi的標準差為1,且Fj的標準差為1,因此rXi,FjCov(Xi,Fj)D(Xi)D(Fj)Cov(Xi,Fj)aj(7.6)那么,從上面的分析,我們知道對于標準化后的Xi,aj是"與已的相關(guān)系數(shù),它一方面表示Xi對Fj的依賴程度,絕對值越大,密切程度越高;另一方面也反映了變量Xi對公共因子力的相對重要性。了解這一點對我們理解抽象的因子含義有非常重要的作用。h22.變量共同度hi的統(tǒng)計意義設(shè)因子載荷矩陣為A,稱第i行元素的平方和,即m22hiaj1,2,L,pj1(7.7)為變量Xi的共同度。2一amD(Fm)D(i)由因

6、子模型,知_2_2_D(Xi)aiiD(Fi)ai2D(F2)L22aiiai2L2aimD(i)h22ii(7.8)這里應(yīng)該注意,(7.8)式說明變量Xi的方差由兩部分組成:第一部分為共同度hi2,它描述了全部公共因子對變量Xi的總方差所作的貢獻,反映了公共因子對變量Xi的影響程度。第二部分為特殊因子i對變量”的方差的貢獻,通常稱為個性方差。如果對Xi作了標準化處理,有22(7.9)1 hiiF23、公因子j的方差貢獻gj的統(tǒng)計意義設(shè)因子載荷矩陣為A,稱第j列元素的平方和,即p2 2gj苗ji,2,L,mi1F2F.為公共因子、對X的貢獻,即gJ表示同一公共因子Fj對各變量所提供的方差貢獻之

7、總和,它是衡量每一個公共因子相對重要性的一個尺度。因子分析模型及假設(shè)數(shù)學模型:每一個變量都可以表示成公共因子的線性函數(shù)與特殊因子之和,即:Xi=ai1*F1+a12*F2+-+aim*Fm+i(i=1,2,p)式中的F1,F2,Fm稱為公共因子,G稱為Xi的特殊因子。該模型可用矩陣表示為:X=AF+s,且滿足:(1)m<p(2)Cov(F,)=0,即公共因子與特殊因子是不相關(guān)的;(3)DF=D(F)=21,0,0.021,0,0.00,1,0.00,0,0.1=Im,即各個公共因子不相關(guān)且方差為0,0,0.1;(4)D=D()=0,2,0.0即各個特殊因子不相關(guān),方差不要求相等。因子旋轉(zhuǎn)

8、因子旋轉(zhuǎn)的目的:初始因子的綜合性太強,難以找出因子的實際意義,因此需要通過坐標旋轉(zhuǎn),使因子負荷兩極分化,要么接近于0,要么接近于?1,從而降低因子的綜合性,使其實際意義凸現(xiàn)出來,以便于解釋因子。因子旋轉(zhuǎn)的基本方法:一類是正交旋轉(zhuǎn)(保持因子間的正交性,3種,常用最大方差旋轉(zhuǎn)),一類是斜交旋轉(zhuǎn)(因子間不一定正交)公共因子提取個數(shù):(1)選特征值大于等于1的因子(主成分)作為初始因子,通過求響應(yīng)的標準化正交特征向量來計算因子載荷(2)碎石圖:刪去特征值變平緩的那些因子(3)累計方差貢獻率大于85%第五講:聚類類型,系統(tǒng)聚類、K-均值聚類思想及步驟,系統(tǒng)聚類方法,相似性測度方法聚類類型:根據(jù)分類的對象

9、可將聚類分析分為:系統(tǒng)Q型與R型(即樣品聚類與變量聚類)系統(tǒng)聚類、K-均值聚類思想及步驟:系統(tǒng)聚類的基本思想:距離相近的樣本(或變量)先聚成類,距離相遠的后聚成類,過程一直進行下去,每個樣品(或變量)總能聚到合適的類中。聚類過程及步驟:假設(shè)總共有n個樣品(或變量),第一步將每個樣品(或變量)獨自聚成一類,共有n類;第二步根據(jù)所確定的樣品(或變量)“距離”公式,把距離較近的兩個樣品(或變量)聚合為一類,其它的樣品(或變量)仍各自聚為一類,共聚成n-1類;第三步將“距離”最近的兩個類進一步聚成一類,共聚成n-2類;,以上步驟一直進行下去,最后將所有的樣品(或變量)全聚成一類。最后可以畫譜系圖分析。

10、快速聚類的基本思想,步驟:(也稱為K-均值法,逐步聚類,迭代聚類),基本思想是將每一個樣品分配給最近中心(均值)的類中,具體的算法步驟如下:(1)將所有的樣品分成K個初始類;(2)通過歐氏距離將某個樣品劃入離中心最近的類中,并對獲得樣品與失去樣品的類,重新計算重心坐標。(3)重復步驟2,直到所有的樣品都不能再分配時為止。系統(tǒng)聚類方法:最短距離法(單連接),最長距離法(完全連接),中間距離法,類平均法(組間平均連接法),可變類平均法,重心法,可變法,離差平方和法相似性測度方法:不同樣本相似性度量:距離測度里包括:明氏,馬氏,和蘭式不同變量相似度的度量:包括:夾角余弦,相關(guān)系數(shù)。第六講:判別分析及

11、各判別方法思想,判別分析假設(shè)條件,距離判別與貝葉斯判別關(guān)系判別分析定義:一種進行統(tǒng)計判別和分組的技術(shù)手段。它可以就一定數(shù)量案例的一個分組變量和相應(yīng)的其他多元變量的已知信息,確定分組與其他多元變量之間的數(shù)量關(guān)系,建立判別函數(shù)(discriminantFunction)。然后便可以利用這一數(shù)量關(guān)系對其他已知多元變量信息、但未知分組類型所屬的案例進行判別分組。各判別方法思想:距離判別:求新樣品X到Gi的距離與到G2的距離之差,如果其值為正,X屬于G2;否則X屬于GiBayes判別:由于k個總體Gl,G2,Gk出現(xiàn)的先驗概率分別為qi,q2,qk,則用規(guī)則R來進行判別所造成的總平均損失為kkkg(R)

12、qj(i,R)QiC(j|i)P(j|i,R)i1i1j1(4.12)所謂Bayes判別法則,就是要選擇R1,R21,Rk,使得(4.12)式表示的總平均損失g(R)達到極小。Fisher判別的基本思想和步驟:從K個總體中抽取具有p個指標的樣品觀測數(shù)據(jù),借助方差分析的思想構(gòu)造一個線性判別函數(shù):U(X)=1X12X2-pXp'X,其中系數(shù)=(1,2,p)'確定的原則是使得總體之間區(qū)別最大,而使每個總體內(nèi)部的離差最小。有了線性判別函數(shù)后,對于一個新的樣品,將它的p個指標值代入線性判別函數(shù)式中求出U(X)值,然后根據(jù)判別一定的規(guī)則,就可以判別新的樣品屬于哪個總體。判別分析假設(shè)條件:判

13、別分析的假設(shè)之一,是每一個判別變量(解釋變量)不能是其他判別變量的線性組合。即不存在多重共線性問題。判別分析的假設(shè)之二,是各組變量的協(xié)方差矩陣相等。判別分析最簡單和最常用的形式是采用線性判別函數(shù),它們是判別變量的簡單線性組合。在各組協(xié)方差矩陣相等的假設(shè)條件下,可以使用很簡單的公式來計算判別函數(shù)和進行顯著性檢驗。判別分析的假設(shè)之三,是各判別變量之間具有多元正態(tài)分布,即每個變量對于所有其他變量的固定值有正態(tài)分布。在這種條件下可以精確計算顯著性檢驗值和分組歸屬的概率。當違背該假設(shè)時,計算的概率將非常不準確。距離判別與貝葉斯判別關(guān)系:XG,如果W(X)0距離判別中兩個總體的距離判別規(guī)則為:,而貝XG2

14、,如果W(X)0葉斯判別規(guī)則為:xG,當V(x)d,二者唯一差別僅在于閥值點,從某種xG2,當V(x)d意義上講,距離判別是貝葉斯判別的特殊情形。題型及分數(shù):一、判斷對錯并改正(4題,8分)二、不定項選擇(10題,20分)三、簡答題(4題,32分)(六選四)主成分基本思想,系統(tǒng)聚類,K-均值聚類基本思想及過程,判別分析及費希爾基本思想,比較聚類與回歸、判別,因子分析及因子旋轉(zhuǎn)聚類與回歸、判別:判別與回歸:聯(lián)系:都是根據(jù)已有數(shù)據(jù)判別未來趨勢。區(qū)別:多元回歸的因變量是數(shù)值型變量,且自變量可是0-1變量;判別分析的因變量是類別型變量,而自變量不是0-1變量判別與聚類:聚類分析:類別未知,利用樣本確定

15、分組數(shù)及所屬類別;判別分析:類別數(shù)及意義已知,還能“預測”新樣本所屬類別;聚類中加進一個變量需要對類進行更新,重新計算與其他類的距離,而判別對新樣本進行判別后,不更新所屬的類。四、計算題(1題,10分)計算樣本均值、協(xié)差陣、相關(guān)陣五、分析題(2題,30分)(四選二)1)主成分分析的SPS軟例分析(主成分個數(shù)確定,主成分表達式,主成分分析步驟)2)因子分析的SPS強例分析(因子分析模型,公因子的解釋命名分析)(二選一)3)聚類分析的SPS強例分析(分類數(shù)確定,聚類結(jié)果命名分析,優(yōu)缺點及改進策略)分類數(shù)確定樹狀圖,確定原則是組內(nèi)距離小,組間距離大。聚合系數(shù)圖:在曲線開始變得平緩的點選擇合適的分類樹任何類都必須在鄰近各類中是突出的,即各類重心間的距離必須大各類所包含的元素都不要過分地多 分類數(shù)目應(yīng)符合使用的目的 若采用幾種不同的聚類法,則在各自的聚類圖上應(yīng)發(fā)現(xiàn)相同的類 對聚類過程中聚合系數(shù)分類數(shù)的變化(曲線)進行分析,可以輔助確定合理的分類數(shù)聚類分析的缺點層次聚類法的結(jié)果容易受奇異值的影響,而快速聚類法受奇異值、相似測度和不適合的聚類變量的影響較小。層次聚類法可以得到一系列的聚類數(shù),而快速聚類只能得到指定類數(shù)的聚類數(shù)。層次聚類法在數(shù)據(jù)比較多時計算量比較大,需要占據(jù)非常大的計算機內(nèi)存空間,而快速聚類法計算量較

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論