判別分析與聚類分析_第1頁
判別分析與聚類分析_第2頁
判別分析與聚類分析_第3頁
判別分析與聚類分析_第4頁
判別分析與聚類分析_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

廣東金融學(xué)院實(shí)驗(yàn)報(bào)告課程名稱:實(shí)驗(yàn)編號(hào)及實(shí)驗(yàn)名稱題目:判別分析與聚類分析系別姓名學(xué)號(hào)班級(jí)實(shí)驗(yàn)地點(diǎn)實(shí)驗(yàn)日期實(shí)驗(yàn)時(shí)數(shù)指導(dǎo)教師同組其他成員無成績(jī)一、實(shí)驗(yàn)?zāi)康募耙竽康模壕垲惙治鍪怯辛艘慌鷺悠?,不知道它們的分類,甚至墨守成?guī)分成幾類都不知道,希望用某種方法把樣品進(jìn)行合理的分類,聚類分析實(shí)際上是建立一種分類方法。而判別分析是判斷樣品所屬類型的一種統(tǒng)計(jì)方法,希望建立一個(gè)準(zhǔn)則,對(duì)給定的任意一個(gè)樣品,依據(jù)這個(gè)準(zhǔn)則可以判斷它是來自哪個(gè)總體。當(dāng)然,所建判別準(zhǔn)則在某種意義上應(yīng)該是最優(yōu)的,是產(chǎn)生錯(cuò)判的整合最少。本實(shí)驗(yàn)?zāi)康氖峭ㄟ^使用SAS系統(tǒng)中的Stepdisc和Cluster過程完成判別分析與聚類分析,掌握它們的一般操作方法以及如何結(jié)合使用。要求:實(shí)驗(yàn)形式(個(gè)人);實(shí)驗(yàn)學(xué)時(shí)數(shù)4。二、實(shí)驗(yàn)環(huán)境及相關(guān)情況(包含使用軟件、實(shí)驗(yàn)設(shè)備、主要儀器及材料等)SAS軟件三、實(shí)驗(yàn)內(nèi)容及步驟(包含簡(jiǎn)要的實(shí)驗(yàn)步驟流程)1、從廣發(fā)證券下載股票數(shù)據(jù)并剔除沒交易的股票。2、按人工分類方法對(duì)股票分類,分成四類;對(duì)以上進(jìn)行人工分類的變量進(jìn)行逐步判別分析,剔除一些不顯著的多余變量;將逐步判別出來的剩余變量進(jìn)行判別分析,得出誤判率。3、將上面逐步判別分析的剩余變量進(jìn)行聚類分析進(jìn)一步得到新的分類;再將新的分類類進(jìn)行逐步判別分析,最后把得到的剩余變量進(jìn)行判別分析。4、分析人工分類和聚類分析分類的分類效果,即分析他們分別得到的誤判率的大小。四、實(shí)驗(yàn)結(jié)果(包括程序或圖表、結(jié)論陳述、數(shù)據(jù)記錄及分析等,可附頁)1、用univariate過程對(duì)數(shù)據(jù)進(jìn)行分類,得到price的分位數(shù),見附錄1,由圖1得到price按分位數(shù)分類的結(jié)果:第一類:0-6.420;第二類:6.42-9.615;第三類:9.615-15.29;第四類:15.29以上。2、對(duì)所有的變量按人工分好的四類進(jìn)行逐步判別分析,見附錄2,可以看到,通過逐步判別后的剩余變量為var1-var3var5-var6var8var11-var19,剔除掉的變量為var4var7var9-var10。3、將上面第2題的逐步判別分析得到的剩余變量進(jìn)行判別分析,見附錄3,由圖3可知,第一類誤判概率為64.27%,第二類誤判概率為18.58%;第三類誤判概率為23.84%;第四類誤判概率為34.88%,誤判率普遍較高。4、進(jìn)行聚類分析:將上面第2題逐步判別分析得到的剩余變量進(jìn)行聚類分析分類,見附錄4,結(jié)果見圖4、圖5。5、進(jìn)行逐步判別分析:聚類后的結(jié)果進(jìn)行逐步判別,見附錄5,通過逐步判別后的剩余變量為:var1-var3var5-var6var8var14-var19,剔除掉變量var11-var13。6、再進(jìn)行一次判別分析:將聚類分析的剩余變量進(jìn)行判別分析,見附錄6,得到第一類的誤判概率為0.22%,第二類的誤判概率為9.4%;第三類的誤判概率為12.12%;第四類并無誤判。結(jié)論:由以上結(jié)果可知,人工分類與聚類分析得到的分類分別進(jìn)行判別分析時(shí),前者的誤判率明顯比后者大很多,所以進(jìn)行聚類分析可以大大減小判別分析的誤判率。五實(shí)驗(yàn)總結(jié)(包括心得體會(huì)、問題回答及實(shí)驗(yàn)改進(jìn)意見,可附頁)經(jīng)過這次實(shí)驗(yàn),我學(xué)會(huì)了凡事只需耐心去做,就可以成功,我們要養(yǎng)成一種不怕苦,不怕累的精神。經(jīng)過這次實(shí)驗(yàn),我覺得聚類分析操作上有點(diǎn)難度,并且要細(xì)心觀察結(jié)果才能得出可靠信息,從而為下一步的判別分析打下基礎(chǔ)。而在判別分析中,可以對(duì)聚類分析得到的類數(shù)進(jìn)行分類討論,通過總誤判率的大小來選定最適合的分類方法,當(dāng)然,詳細(xì)的對(duì)象調(diào)整還是在聚類分析的聚類圖中,而且也要結(jié)合實(shí)際情況來判斷。六、教師評(píng)語評(píng)語評(píng)語等級(jí)優(yōu)良中及格不合格1.實(shí)驗(yàn)態(tài)度認(rèn)真,實(shí)驗(yàn)?zāi)康拿鞔_2.實(shí)驗(yàn)方案、程序設(shè)計(jì)合理3.實(shí)驗(yàn)過程(實(shí)驗(yàn)步驟詳細(xì),記錄完整,數(shù)據(jù)合理)4.實(shí)驗(yàn)結(jié)論正確,分析透徹5.實(shí)驗(yàn)報(bào)告獨(dú)立完成,無抄襲現(xiàn)象,并按時(shí)提交,格式規(guī)范,文字?jǐn)⑹隽鲿?,邏輯性?qiáng)綜合評(píng)定:附錄:1、進(jìn)行描述性統(tǒng)計(jì)量分析,對(duì)現(xiàn)價(jià)進(jìn)行分位數(shù)分類程序:datalwh;setlwh;ifprice>0;run;procunivariatedata=lwh;varprice;run;運(yùn)行結(jié)果:TestsforLocalion:MuOzOTestStatistic-pva1ueStudenttt57.50272Pr>|i.1<.0001SignM1178Pr>=M<.0001SignedRankS1388273PrXS<.0001Quantiles(Definition5)Quanti1eEstimateWMax140.57055.13033.02024.08075KQ315.29050^Median9.615彼QI6.420m4.500忒3.600IK2.370做Min1.800圖1輸出現(xiàn)價(jià)分位數(shù)2、將人工分類做逐步判別分析的程序:datalwh;setlwh;price<datalwh;setlwh;price<6.42thenl=1;price>6.42andprice<9.615thenl=2;price>9.615andprice<15.29thenl=3;price>15.29thenl=4;ififififrun;datalwh;setlwh;dropprice;run;procstepdiscdata=lwh;classl;run;運(yùn)行結(jié)果:TheSASSystem22:44Friday,December30,201822TheSTEPDISCProcedureStepwiseSelection:Step20StatisticsforRemoval?DF=3;2002Variab1eLabelPartialR-SquareFValuePr>Fvarlvarl0.01107.45<.0001var2var20.01006.760.0002var3var30.01479.94<.0001var5var50.01097.36<.0001varBvarB0.00463.100.0259var8var80.030821.21<.0001varl1varl10.01278.58<.0001var12var120.01228.22<.0001varlSvarlS0.00802.020.1086varl4var140.024216.55<.0001varl5var150.00503.330.0189varIBvarIB0.016911.51<.0001varl7var170.01359.14<.0001var18var180.01338.97<.0001var19var180.00563.790.0101NovariablescanberemovedStatisticsforEntry,DF=3?2001VariableLabelPartialR-SquareFValuePr>FTolerancevar4var40.00221.450.22550.0000var?var?0.00171.140.33260.0000var9var90.00100.660.57780.0000varlOvarlO0.00030.230.87820.0000Novariablescanbeentered.Nofurtherstepsarepossible.圖2逐步判別分析的剩余變量和剔除變量3、判別分析的程序:procdiscrimdata=lwhoutstat=newstatmethod=normalpool=yeslistcrossvalidate;classl;priorsproportional;varvar1-var3var5-var6var8var11-var19;run;

運(yùn)行結(jié)果:NumberofUbservations:andPercentClassifiedinto1From11234Total023050.0040.00eri.oo0.00100.0011542725043135.730100.00218412760.5068.5681.4215.020.00100.003111940925871.8022.1E:?e.ie0.87100.004101948645590.180.0084.7065.12100.00Tli+a.I18080568736620388.8339.5033.7117.96100.00Priors0.2120.248890.264140.27496ErrorCountE:stimatesforI1234TotalRate0.64270.18580.23840.34880.3414Priors0.21200.24890.26410.2750圖3人工分類乘J余變量的判別分析結(jié)果4、聚類分析程序:procaceclusdata=lwhout=acep=0.03noprint;varvar1-var3var5-var6var8var11-var19;run;procclusterdata=aceouttree=Treemethod=wardcccpseudoprint=15;varvar1-var3var5-var6var8var11-var19;idcode;run;proctreedata=Treeout=newnclusters=4graphicshaxis=axis1horizontal;height_rsq_;copyvar1-var3var5-var6var8var11-var19;idcode;run;運(yùn)行結(jié)果:ClusterHistoryNCLi_,|ijS:tersJoinedFREI;!SPRSQRSQERSQcccPSFPST215CL37CL32500.0009.993.996-162E419414CL24CL29210.0012.992.995-1718E345.513CL28CL2060.0021.989.994-1916E315.012CL23CL257010.0023.987.993-2014E3207411CL15CL21720.0042.983.992-2412E318410CL19CL163120.0048.978.990-261E4H549CL14CL2E:270.0054.973.988-26906070.98000979CL2240.0078.965.985-26811281.67CL18CL1215400.0088.957.980-25747735286CL11CL171490.0127.944.972-2368482845CL9CL13330.0336.910.960-2751651044CL7CL1018520.0448.866.938-27436743673CL5CL8370.1260.740.889-31289085.92CL6CL420010.1782.561.750-25260642881CL2CL320380.5614.000.000O.ijij2606圖4聚類分析的結(jié)果

圖5譜系聚類圖5、根據(jù)聚類的分類進(jìn)行逐步判別程序:procstepdiscdata=new;classcluster;run;運(yùn)行結(jié)果:TheSASSystem22:44Friday,December80,201380TheSTEPDISCProcedureStepwisseSelection:Step13StatisticaforRemoval,DF=3,2028PartialVariableLabelR-SquareFValuePr>Fvarlvarl0.00846.380.0003var2var20.00352.400.0662var3var30.018812.94<.0001var5var50.031221.69<.0001varBvarB0.00422.820.0375var8varS0.01137.69<.0001varl4var140.78592474.97<.0001varl5var150.01137.71<.0001varIBvarlB0.018218.20<.0001varl7var170.027819.30<.0001var18var180.054238.62<.0001var19var190.2150184.72<.0001Novariablescanberemoved.StatisticsforEntry,DF=3;2022VariableLabelPartialR-SquareFValuePr>FTo1erancevarl1varl10.00010.090.96740.0001var12var120.00130.890.44560.0000varlSvarlS0.00080.170.91420.0001Novariablescanbeentered.Nofurtherstepsarepossible.圖6聚類剩余變量的逐步判別6、對(duì)按聚類分類的逐步判別后的剩余變量,進(jìn)行判別分析程序:procdiscrimdata=newoutstat=newstatmethod=normalpool=yeslistcrossvalidate;classcluster;priorsproportional;varvar1-var3var5-var6var8var14-var19;run;運(yùn)行結(jié)果:jkkNumberofObservationsandPercentC1assifiedintoCLUSTERFromCLUSTER1234Total30882031096.862.520.630.00100.0011848400185299.780.220.00

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論