SAS系統(tǒng)的多元統(tǒng)計分析功能.ppt_第1頁
SAS系統(tǒng)的多元統(tǒng)計分析功能.ppt_第2頁
SAS系統(tǒng)的多元統(tǒng)計分析功能.ppt_第3頁
SAS系統(tǒng)的多元統(tǒng)計分析功能.ppt_第4頁
SAS系統(tǒng)的多元統(tǒng)計分析功能.ppt_第5頁
已閱讀5頁,還剩47頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

SAS系統(tǒng)用于多元統(tǒng)計分析的過程有:,多變量分析-PRINCOMP(主分量分析), FACTOR(因子分析), CANCORR(典型相關(guān)分析), MDS(多維標(biāo)度過程), MULTTEST(多重檢驗), PRINQUAL(定性數(shù)據(jù)的主分量分析), CORRESP(對應(yīng)分析); 判別分析-DISCRIM(判別分析), CANDISC(典型判別), STEPDISC(逐步判別); 聚類分析-CLUSTER(譜系聚類), FASTCLUS( K均值快速聚類), MODECLUS(非參數(shù)聚類), VARCLUS(變量聚類), TREE(畫譜系聚類的結(jié)果譜系圖并給出分類結(jié)果).,第五章 SAS系統(tǒng)多元統(tǒng)計分析功能,5.1 主成分分析與PRINCOMP過程 5.2 因子分析與FACTOR過程 5.3 判別分析與STEPDISC、DISCRIM過程 5.4 聚類分析與CLUSTER過程,為了全面系統(tǒng)地分析和研究某些社會經(jīng)濟(jì)問題,可能必須同時考慮許多存在一定內(nèi)在聯(lián)系和相互關(guān)聯(lián)的經(jīng)濟(jì)指標(biāo),這些指標(biāo)所反映的信息會有某種程度的重疊,但去除變量又會導(dǎo)致某些信息的損失; 主成分分析通過降維的方法,把相互關(guān)聯(lián)的多個變量轉(zhuǎn)變成少數(shù)互不相關(guān)的新變量(即主成分,也稱為綜合變量),各主成分由原來變量的線性關(guān)系表示,其包含信息量的多少由各自的方差測定,主成分的方差越大,所包含的信息量就越多。,PRINCOMP過程的主要功能:,完成主成分分析; 主成分的個數(shù)、名稱及得分是否標(biāo)準(zhǔn)化均可由用戶自己規(guī)定; 輸入的數(shù)據(jù)集可以是原始數(shù)據(jù)集、相關(guān)陣或協(xié)方差陣等; 計算結(jié)果有:簡單統(tǒng)計量、相關(guān)陣或協(xié)方差陣,從大到小排序的特征值和相應(yīng)特征向量,每個主成分解釋的方差比例、累計比例等; 可揭示變量間的共線關(guān)系,若某特征值特別接近于0,則說明變量線性相關(guān)。,PROC PRINCOMP DATA= OPTIONS ; VAR 變量名列; WEIGHT 變量名列; FREQ 變量名列; PARTIAL 變量名列; BY 變量名列; RUN;,PRINCOMP過程的一般形式:,PROC PRINCOMP過程的常用選項有:,OUT= 把計算的統(tǒng)計量存入指定的數(shù)據(jù)集; COVARIANCE(或COV) 指定以協(xié)方差矩陣為分析數(shù)據(jù),缺省則以相關(guān)系數(shù)矩陣為分析數(shù)據(jù); N=正整數(shù) 指定要保留的主成分個數(shù); PREFIX=主成分名 為主成分命名,缺省則自動命名為:PRIN1,PRIN2,; STANDARD (或STD) 對各主成分進(jìn)行標(biāo)準(zhǔn)化,使各主成分的方差為1; NOINT 作協(xié)方差矩陣主成分分析或相關(guān)行列主成分分析時,各變量不對其平均數(shù)加以修正。,VAR語句 指定主成分分析中使用的變量; WEIGHT語句 對已輸入的資料附加加權(quán)數(shù)據(jù); FREQ語句 表示變量的頻數(shù); PARTIAL語句 除去特定變量的線性效果后,利用偏 相關(guān)分析或者協(xié)方差矩陣進(jìn)行分析; BY語句 按指定變量分類(需先排序)后,對 每一個分類進(jìn)行主成分分析。,PROC PRINCOMP過程的常用語句有:,data one(type=corr); _type_=corr; input _name_ $ x1 x2 x3 x4 x5 ; cards; x1 1 . . . . x2 0.577 1 . . . x3 0.509 0.599 1 . . x4 0.387 0.389 0.436 1 . x5 0.462 0.322 0.426 0.523 1 ; run; proc princomp; run;,輸出結(jié)果:,用SAS/INSIGHT方式進(jìn)行主成分分析,用分析員應(yīng)用方式進(jìn)行主成分分析,第五章 SAS系統(tǒng)多元統(tǒng)計分析功能,5.1 主成分分析與PRINCOMP過程 5.2 因子分析與FACTOR過程 5.3 判別分析與STEPDISC、DISCRIM過程 5.4 聚類分析與CLUSTER過程,因子分析是主成分分析的推廣,它通過少數(shù)幾個不可直接測量的、獨立的、專業(yè)上有意義的公因子來說明相關(guān)變量之間復(fù)雜結(jié)構(gòu)關(guān)系; 因子分析與主成分分析的不同:后者是尋找反映多個指標(biāo)的獨立的綜合指標(biāo),而前者是尋找解釋多個指標(biāo)的獨立的公因子,若初始因子難以合理解釋,可利用因子旋轉(zhuǎn)法從旋轉(zhuǎn)后因子得到合理解釋; 因子分析的主要用途:利用公因子來探索和解釋原多個指標(biāo)對個體特征的描述,對原始變量進(jìn)行分門別類的綜合評價等。,PROC FACTOR過程的常用選項,PROC FACTOR過程的常用選項,VAR語句 指定因子分析中使用的變量; WEIGHT語句 對已輸入的資料附加加權(quán)數(shù)據(jù); FREQ語句 表示變量的頻數(shù); PARTIAL語句 除去特定變量的線性效果后,利用偏 相關(guān)分析或者協(xié)方差矩陣進(jìn)行分析; BY語句 按指定變量分類(需先排序)后,對 每一個分類進(jìn)行因子分析。,PROC FACTOR過程的常用語句,PROC SCORE DATA= SCORE= OUT=; VAR 用來計算得分的原始變量集合; RUN;,計算因子得分,data one(type=corr); _type_=corr; input _name_ $ x1 x2 x3 x4 x5 ; cards; x1 1 . . . . x2 0.577 1 . . . x3 0.509 0.599 1 . . x4 0.387 0.389 0.436 1 . x5 0.462 0.322 0.426 0.523 1 ; run; proc factor scree nfact=2 score rotate=varimax; var x1-x5; run;,輸出結(jié)果(1):,輸出結(jié)果(3):,第五章 SAS系統(tǒng)多元統(tǒng)計分析功能,5.1 主成分分析與PRINCOMP過程 5.2 因子分析與FACTOR過程 5.3 判別分析與STEPDISC、DISCRIM過程 5.4 聚類分析與CLUSTER過程,判別分析是根據(jù)表明事物特點的變量值及其分類,求出判別函數(shù),再根據(jù)判別函數(shù)對未知所屬類別的事物進(jìn)行分類的一種分析方法; 判別分析的步驟:在各歸屬類的K個獨立變量中,選擇對判別分析有顯著影響的P個獨立變量;利用被選定的P個獨立變量的觀測值擬合判別函數(shù);計算判別函數(shù)的誤判率,分析判別函數(shù)模型的選擇是否正確;利用已建立的判別函數(shù)判別新樣本(觀測值)的歸屬類別。,PROC STEPDISC DATA= OPTIONS ; VAR 變量名列; CLASS 因(類)變量; BY 變量名列; RUN;,STEPDISC過程的一般形式,(利用逐步判別分析法對變量進(jìn)行篩選),STEPDISC過程的一般形式,PROC DISCRIM DATA= OPTIONS ; CLASS 因(類)變量; VAR 變量名列; PRIORS 概率; WEIGHT 變量名列; TESTCLASS 變量名列; BY 變量名列; RUN;,DISCRIM過程的一般形式,PROC DISCRIM過程的常用選項,PROC DISCRIM過程的常用選項,PROC DISCRIM過程的常用選項,CLASS語句 指明歸屬類的變量; VAR語句 指定判別分析中使用的變量; WEIGHT語句 對已輸入的資料附加加權(quán)數(shù)據(jù); PRIORS語句 指定先驗概率; TESTCLASS語句指定存儲在TESTDATA中的某些變量, 以檢驗其觀測值是否存在誤判的情況; BY語句 按指定變量分類(需先排序)后,對 每一個分類進(jìn)行判別分析。,PROC DISCRIM過程的常用語句,proc stepdisc data=sunny.bankry method=stepwise; var x1-x4; class y; run;,輸出結(jié)果(部分):,proc discrim data=sunny.bankry pool=test slpool=0.05 listerr outstat=one; var x2 x3; class y; run; proc print data=one; run;,輸出結(jié)果(部分):,可見,應(yīng)拒絕兩類的協(xié)方差矩陣相等的原假設(shè),即兩類的協(xié)方差矩陣不滿足方差齊性的要求,應(yīng)建立二次判別函數(shù).,輸出結(jié)果(部分):,data two; input x1-x4 y; cards; 0.04 0.01 1.50 0.71 0 -0.06 -0.06 1.37 0.40 0 0.07 -0.01 1.37 0.34 0 -0.13 -0.14 1.42 0.44 0 0.15 0.06 2.23 0.56 1 0.16 0.05 2.31 0.20 1 0.29 0.06 1.84 0.38 1 0.54 0.11 2.33 0.48 1 ; run; proc discrim data=one testdata=two testlist; class y; testclass y; run;,輸出結(jié)果:,第五章 SAS系統(tǒng)多元統(tǒng)計分析功能,5.1 主成分分析與PRINCOMP過程 5.2 因子分析與FACTOR過程 5.3 判別分析與STEPDISC、DISCRIM過程 5.4 聚類分析與CLUSTER過程,聚類分析是依據(jù)事物的性質(zhì)和特征的不同,將具有相似性質(zhì)或距離的個體聚為一類,具有不同性質(zhì)的個體聚為不同類的分類方法; 聚類分析與判別分析的區(qū)別:前者是用某種方法把分類未知的觀測進(jìn)行合理分類,使同一類的觀測比較接近,是無指導(dǎo)的學(xué)習(xí);后者則是已知分類然后總結(jié)出判別規(guī)律,是有指導(dǎo)的學(xué)習(xí); SAS系統(tǒng)提供了譜系聚類(常用)、快速聚類、變量聚類等聚類過程。,譜系聚類法有合并聚類和分割聚類兩種,前者是把較有密切相似性關(guān)系的個體逐一聚類,由原來的n個類最后變成一個新類;后者是把非相似性關(guān)系的個體逐一分割出去,由原來的一個類最后變成n個新類,以合并聚類法較為常用; 兩類之間距離的定義方法主要有:最短距離法(Single Linkage Method)、最長距離法(Complete Linkage Method)、類平均法(Average Linkage Method)、重心法(Centrorid Linkage Method).,CLUSTER過程,實現(xiàn)譜系聚類的分析過程,CLUSTER過程的常用選項,能最大限度地控制情報損失,最為常用,CLUSTER過程的常用選項,VAR語句 指定聚類分析中使用的變量; ID語句 指定用于識別觀測值的標(biāo)志變量; COPY語句 將指定的輸入數(shù)據(jù)集中的變量復(fù)制到由OUTTREE=所指定的輸出數(shù)據(jù)集中; BY語句 按指定

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論