




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、 前言主成分分析和因子分析在社會經(jīng)濟統(tǒng)計綜合評價中是兩個常被使用的統(tǒng)計分析方法?,F(xiàn)在SPSS、SAS等統(tǒng)計軟件使用越來越普遍,但SPSS并未像SAS一樣,將主成分分析與因子分析作為兩個獨立的方法并列處理注:主成分分析與因子分析二者是又有著區(qū)別與聯(lián)系,最主要的不同在于它們的數(shù)學模型的構建上,具體區(qū)別請見參考文獻2,而是根據(jù)二者之間的關系有機地將主成分分析嵌入到因子分析之中,這樣雖然簡化了分析程序,卻為主成分分析的計算帶來不便。且國內許多SPSS教程并沒有詳細講解如果應用SPSS進行主成分分析,如何使用SPSS對主成分分析進行計算呢?為使讀者能夠正確使用SPSS軟件進行主成分分析,本文將通過一個實
2、例來詳細介紹如何用SPSS做主成分分析。接下來先簡單介紹主成分分析原理與模型,以便讀者對主成分分析有個大致的了解。關鍵詞:數(shù)據(jù)選取 數(shù)據(jù)分析 主成分分析 使用軟件:SPSS一 主成分分析原理主成分分析也稱主分量分析,旨在利用降維的思想,把多指標轉化為少數(shù)幾個綜合指標。在實證問題研究中,為了全面、系統(tǒng)地分析問題,我們必須考慮眾多影響因素。這些涉及的因素一般稱為指標,在多元統(tǒng)計分析中也稱為變量。因為每個變量都在不同程度上反映了所研究問題的某些信息,并且指標之間彼此有一定的相關性,因而所得的統(tǒng)計數(shù)據(jù)反映的信息在一定程度上有重疊。在用統(tǒng)計方法研究多變量問題時,變量太 多會增加計算量和增加分析問題的復雜
3、性,人們希望在進行定量分析的過程中,涉及的變量較少,得到的信息量較多。主成分分析法是一種數(shù)學變換的方法, 它把給定的一組相關變量通過線性變換轉成另一組不相關的變量,這些新的變量按照方差依次遞減的順序排列。在數(shù)學變換中保持變量的總方差不變,使第一變量具有最大的方差,稱為第一主成分,第二變量的方差次大,并且和第一變量不相關,稱為第二主成分。依次類推,I個變量就有I個主成分。 其中Li為p維正交化向量(LiLi1),Zi之間互不相關且按照方差由大到小排列,則稱Zi為X的第I個主成分。設X的協(xié)方差矩陣為,則必為半正定對稱矩陣,求特征值i(按從大到小排序)及其特征向量,可以證明,i所對應的正交化特征向量
4、,即為第I個主成分Zi所對應的系數(shù)向量Li,而Zi的方差貢獻率定義為ij,通常要求提取的主成分的數(shù)量k滿足kj0.85。是希望用較少的變量去解釋原來資料中的大部分變異,將我們手中許多相關性很高的變量轉化成彼此相互獨立或不相關的變量。通常是選出比原始變量個數(shù)少,能解釋大部分資料中的變異的幾個新變量,即所謂主成分,并用以解釋資料的綜合性指標。由此可見,主成分分析實際上是一種降維方法。二 主成分分析步驟由前面的討論大體上可以明了進行主成分分析的步驟,對此進行歸納如下:根據(jù)研究問題選取初始分析變量;根據(jù)初始變量特性判斷由協(xié)方差陣求主成分還是由相關陣求主成分;求協(xié)方差陣或相關陣的特征根與相應標準特征向量
5、;判斷是否存在明顯的多重共線性,若存在,則回到第(1)步;得到主成分的表達式并確定主成分的個數(shù),選取主成分;結合主成分對研究問題進行分析并深入研究;三 SPSS操作過程及結果解釋利用主成分分析法對我國31個省市、自治區(qū)居民的生活狀況進行評價分析。為全面分析各地居民生活狀況,可選取如下指標體系進行反應:職工人均工資、人均居住面積、城市人均用水普及量、城市煤氣普及量、人均擁有道路面積、人均綠地公共面積、批發(fā)零售貿易商品銷售總額、旅游外匯收入。一錄入數(shù)據(jù),有以下變量:職工人均工資,人均居住面積,城市人口用水普及量,城市煤氣普及量,人均擁有道路面積,人均綠地公共面積,批發(fā)零售貿易商品銷售總額,旅游外匯
6、收入,見圖1地區(qū)X1X2X3X4X5X6X7X8北京 5632838.71001006.218.5625832.44459天津 4174828.3110010014.39 9.399900.41001河北 2475630.7199.9797.1114.499.493976.5274山西 2582826.5293.2782.649.547.643753.9301內蒙古 2611421.4782.0374.2512.7611.12127.9577遼寧 2772926.3996.8992.389.959.378927.81526吉林 2348621.9488.6384.8210.399.23040.
7、4211黑龍江 2304621.7284.2479.459.289.462276.4870上海 5656562.31001004.637.8229712.54972江蘇 3166744.0599.8898.2320.2813.1120543.23880浙江 3414660.4899.797.7215.29.6182703024安徽 2636329.8895.1187.614.159.293755.4454福建 2570246.1397.4797.2312.0510.425743.42394江西 2100037.5696.4990.1811.0610.61340.3252山東 2640432.9
8、899.3998.519.614.211775.81391河南 2481631.6985.5666.919.98.24483.3374湖北 2273939.0497.8890.913.039.46183.6443湖南 2487040.7294.5784.2612.017.962638.3617廣東 3311027.8993.9793.9411.6511.4622348.89175廣西 2566031.7592.8784.0411.838.611998.6602海南 2186422.8483.8772.8112.059734.6314重慶 2698535.0393.290.879.499.622
9、891.2450四川 2503834.9488.0981.0910.788.744105.7154貴州 2460225.2788.6967.826.226.161076.5117云南 2403027.4495.2276.112.097.623075.81008西藏 4728023.9786.5974.813.465.6464.131 陜西 259422996.6589.5512.678.712487.4660甘肅 2401719.8787.8565.3210.377.87152616青海 3098319.7810094.7811.168.53286.910寧夏 3071923.0687.257
10、5.6814.8211489.33新疆 2468722.7892.8288.6112.477.912863.3136四 主成分分析的上機實現(xiàn) Spss軟件FACTOR模塊提供了主成分分析的功能。下面先以之前版本SPSS17.0自帶的數(shù)據(jù)Employee data.sav為例介紹主成分分析的上機實現(xiàn)方法,在SPSS軟件的安裝目錄下可以找到該數(shù)據(jù)集;進入SPSS軟件,先進行八個變量x1,x2,x3,x4,x5,x6,x7,x8的相關分析,按照順序:分析相關雙相關打開距離分析的對話框。在距離相關分析的主對話框中,將所有變量選入Variables中點擊OK。即得到51(2)打開數(shù)據(jù)集Employee
11、data.sav.依次點選分析降維因子分析,進入因子分析對話框。此時,數(shù)據(jù)集Employee data.sav中的變量名均已顯示在左邊的窗口中,依次選中變量人均工資,居住面積,人均用水,煤氣普及,人均道路,人均綠地,商品總額,旅游外匯并點擊向右的箭頭按鈕,這八個變量便進入Variable窗口。點擊下方的OK按鈕,即可得到輸出結果52 (3) 在上面的主成分分析在,SPSS默認是從相關陣出發(fā)求解主成分,且默認保留特征根大于1的主成分。(4) 在因子分析對話框中,點擊描述按鈕,在彈出的對話框中,在相關矩陣中選擇系數(shù)?;氐皆瓕υ捒蛑悬c擊下方的OK,即可得到輸出結果53和輸出結果54. (5) 在因子
12、分析對話框中,點擊抽取按鈕,在彈出的對話框中,選中碎石圖。點擊確定。即可得到輸出結果55(6)在因子分析對話框中,點擊得分按鈕,在彈出的對話框中,選中顯示因子得分系數(shù)矩陣和保存為變量,點擊確定。即可得到輸出結果56(7)在因子分析對話框中,點擊旋轉按鈕,在彈出的對話框中,選中載荷圖。點擊確定。即可得到輸出結果57(8)依次點選轉換計算變量,進入計算變量對話框。在目標變量中輸入“f”,在數(shù)字表達式中輸入“(fac1_1*3.931+fac2_1*1.848)/(3.931+1.848)”公式,點擊確定。即可得到綜合得分。(9)依次點選轉換個案排序,將八個變量選入Variables窗口。點擊OK。
13、即可得到輸出結果58五 輸出結果如下、人均工資居住面積人均用水煤氣普及人均道路人均綠地商品總額旅游外匯人均工資Pearson 相關性1.401*.336.401*-.241-.165.696*.509*顯著性(雙側).025.065.025.192.375.000.003N3131313131313131居住面積Pearson 相關性.401*1.562*.555*-.002.156.663*.456*顯著性(雙側).025.001.001.993.402.000.010N3131313131313131人均用水Pearson 相關性.336.562*1.871*.208.246.539*.3
14、70*顯著性(雙側).065.001.000.262.181.002.041N3131313131313131煤氣普及Pearson 相關性.401*.555*.871*1.232.448*.623*.494*顯著性(雙側).025.001.000.210.011.000.005N3131313131313131人均道路Pearson 相關性-.241-.002.208.2321.636*-.060-.062顯著性(雙側).192.993.262.210.000.749.739N3131313131313131人均綠地Pearson 相關性-.165.156.246.448*.636*1.29
15、6.330顯著性(雙側).375.402.181.011.000.106.069N3131313131313131商品總額Pearson 相關性.696*.663*.539*.623*-.060.2961.863*顯著性(雙側).000.000.002.000.749.106.000N3131313131313131旅游外匯Pearson 相關性.509*.456*.370*.494*-.062.330.863*1顯著性(雙側).003.010.041.005.739.069.000N3131313131313131*. 在 0.05 水平(雙側)上顯著相關。*. 在 .01 水平(雙側)上顯
16、著相關。圖51圖中給出了pearson的相關系數(shù),他以一個矩陣的形式表示出來。從中可以看出,在這些數(shù)據(jù)的右邊有兩個星號,表示在0.01的顯著水平下,是顯著相關的,還有一些相關系數(shù)帶有一個星號表示在0.05的顯著水平下,相關系數(shù)是顯著相關的。則在此題中可以看出表中的相關系數(shù)表明八個變量之間存在顯著相關性,可以進行主成分分析相關矩陣人均工資居住面積人均用水煤氣普及人均道路人均綠地商品總額旅游外匯相關人均工資1.000.401.336.401-.241-.164.696.509居住面積.4011.000.562.555-.002.156.663.456人均用水.336.5621.000.871.20
17、8.247.539.370煤氣普及.401.555.8711.000.232.449.623.494人均道路-.241-.002.208.2321.000.637-.060-.062人均綠地,.156.247.449.6371.000.296.330商品總額.696.663.539.623-.060.2961.000.863旅游外匯.509.456.370.494-.062.330.8631.000圖52圖52 是對缺失指標的統(tǒng)計結果,結果表明,八個指標全部可用。同時,我們知道八個指標間有較強的相關性。X3和x5,x3和x7和x8,x4和x7,x1和x7,x2和x7,x6和x4,x5和x8之間
18、均有超過60%的相關性,除了x2和x5,x3和x5,x5和x7,x5和x8wai相關程度低,其他各項均在50%以上,因此,我們得出結論這八個數(shù)據(jù)之間有較強的相關性,適合從中提取公共因子。公因子方差初始提取人均工資1.000.702居住面積1.000.573人均用水1.000.640煤氣普及1.000.792人均道路1.000.781人均綠地1.000.770商品總額1.000.883旅游外匯1.000.639提取方法:主成份分析。 53其中,公因子方差表給出了該次分析從每個原始變量中提取的信息,表格下面的表注表明,該次分析是用了因子分析模塊默認的信息提取方法即主成分分析完成的??梢钥吹匠司幼?/p>
19、面積信息損失較大外,主成分幾乎包括了各個原始變量至少60%的信息。表中為變量共同度,表中最后一列的數(shù)據(jù)都大于0.5,表明提取的主成分對每個變量的解釋程度可以,如果某個變量的共同度不到0.5,說明提取的主成分沒有包含此變量的信息,需要增加主成分的個數(shù).解釋的總方差成份初始特征值提取平方和載入合計方差的 %累積 %合計方差的 %累積 %13.93149.13649.1363.93149.13649.13621.84823.10185.2361.84837.10186.2363.88111.01087.2474.5266.57889.8255.4495.61495.4386.2282.84898.2
20、867.0901.12799.4138.047.587100.000提取方法:主成份分析。圖54解釋的總方差表中則顯示了各主成分解釋原始變量的總方差的情況,SPSS默認保留特征根大于1的主成分,在本題中看出保留兩個主成分為宜,這2個主成分集中了八個原始變量的信息的86.236%,可見效果比較好。實際上,主成分解釋了總方差的百分比也可以由公因子方差表中計算得出,即(0.702+0.573+0.640+0.792+0.781+0.770+0.883+0.639)/8=86.236%表中為方差貢獻率,“Tota”是特征根,“% of variance ”是每個特征根對應的方差貢獻,“Cumulati
21、ve%”是累計方差貢獻;“Initially Eigenvalues”列出了所有的主成分,并按照特征根的大小排序,而“Extraction Sums of Squared Loadings”對應的是提取主成分后的各項指標??梢钥闯霰绢}提取了兩個主成分,因為有兩個特征根大于1,從表中可以看出,第一個主成分特征根為3.955,方差貢獻率為49.138%第二個主成分的特征根為1.886,方差貢獻率為37.101%,兩個主成分的累計貢獻率達到85.236%,即兩個主成分共解釋了總變異的86.236%。由輸出結果看到,前兩個主成分Y1,Y2的方差和占全部方差的比例為85.236%。我們就選取Y1為第一主
22、成分,Y2為第二主成分,且這兩個主成分的方差和占全部方差86.236%,即基本上保留了原來指標的信息,這樣由原來的八個指標化為2個指標,起到了降維的作用。進一步說明兩個主成分是比較合適的。 圖5-5圖5-5為碎石圖,實際上是按特征根大小排列的主成分折線圖。橫坐標表示第幾主成分,縱坐標表示特征根的值,此題在第三個特征根處變得比較平緩,表明可以提取兩個主成分。成份矩陣a成份12人均工資.629-.553居住面積.748-.113人均用水.781.174煤氣普及.858.234人均道路.125.875人均綠地.410.776商品總額.914-.220旅游外匯.781-.167提取方法 :主成分分析法
23、。a. 已提取了 2 個成份。圖5-6圖中為因子載荷矩陣,其中的數(shù)值是主成分與原始變量的相關系數(shù),絕對值的大小代表了主成分與原始變量的相關程度,據(jù)此可以看出每一主成分所代表的原始變量的信息。本題中如第一主成分與第八個的相關系數(shù)都接近1說明他主要涵蓋了第八個變量的信息,而第二個主成分主要涵蓋了地五個變量。圖57從圖57中看出變量人均工資,商品總額,旅游外匯,居住面積分布在第四象限,并且第四象限的主要特征是第一主成分,說明代表了我國居民生活質量狀況針對職工人居工資、人均居住面積、批發(fā)零售貿易商品銷售總額、旅游外匯收入和其他居民生活質量狀況的反應指標之間的差異。而人均擁有道路面積和人居綠地公共面積分
24、布在第一象限,并且第一象限的主要特征是第二主成分,說明第二主成分代表了我國居民生活質量狀況針對人均公共設施需求(人均擁有道路面積和人居綠地公共面積)和其他居民生活質量狀況的反應指標之間的差異。成份12人均工資.160-.299居住面積.190-.061人均用水.199.094煤氣普及.218.127人均道路.032.473人均綠地.104.420商品總額.232-.119旅游外匯.199-.090提取方法 :主成分分析法。圖58成分得分系數(shù)矩陣是對SPSS的因子分析模塊運行結果輸出的成分矩陣的第i行的每個元素分別除以第i個特征根的平方根i,就得到了主成分分析的第i個主成分的系數(shù)結果如上表。表中
25、為主成分得分系數(shù)矩陣,根據(jù)該矩陣,可以寫出以標準化的原始變量表示的主成分的表達式。若記標準化的原始數(shù)據(jù)變量為x1,x2,x3,x4,x5,x6,x7,x8,兩個主成分記為F1,F2。則表達式為:F1=0.160 x1+0.190 x2+0.199x3+0.218x4-0.032x5+0.104x6+0.232x7+0.199x8F2=-0.299x1-0.061x2+0.094x3+0.127x4+04730 x5+0.420 x6-0.119x7-0.404x8 對所選取主成分做解釋,主成分分析的關鍵在于是否給主成分賦予新的意義,給出的合理的解釋,這個解釋應根據(jù)主成分的計算結果結合定性分析來
26、進行。主成分是原來變量的線性組合,在這個線性組合中,各變量的系數(shù)有大有小,有正有負,有的大小相當,因而不能簡單地認為這個主成分是某個原變量的屬性的作用。線性組合中各變量的系數(shù)的絕對值大者表明了該主成分主要綜合了絕對值大的變量,有幾個變量系數(shù)大小相當時,應該認為這一主成分是這幾個變量的總和,這幾個變量綜合在一起應賦予怎樣的經(jīng)濟意義。本題中有8個指標,這八個指標有很強的依賴性,通過主成分計算后,我們選取了2個主成分,這兩個主成分具有明顯的經(jīng)濟意義。第一主成分的線性組合中除了人均道路外,其余變量的系數(shù)相當,所以第一主成分可以看成x1,x2,x3,x5,x6,x7,x8的綜合變量??梢越忉尀榈谝恢鞒煞?/p>
27、所占的信息總量為49.136%第一主成分在人均擁有道路面積的系數(shù)上為負,其他為正,而且職工人居工資、人均居住面積、批發(fā)零售貿易商品銷售總額、旅游外匯收入的系數(shù)絕對值比較大,說明第一主成分代表了我國居民生活質量狀況針對職工人居工資、人均居住面積、批發(fā)零售貿易商品銷售總額、旅游外匯收入和其他居民生活質量狀況的反應指標之間的差異。第二主成分在職工人均工資、人均居住面積、批發(fā)零售貿易商品銷售總額、旅游外匯收入的系數(shù)上為負,其他為正,而且人均擁有道路面積和人居綠地公共面積的系數(shù)的絕對值比較大,說明第二主成分代表了我國居民生活質量狀況針對人均公共設施需求(人均擁有道路面積和人居綠地公共面積)和其他居民生活
28、質量狀況的反應指標之間的差異。綜合評價地區(qū)RFAC1_1RFAC2_1RF北京30225天津252124河北232923山西1267內蒙古5238遼寧221320吉林9169黑龍江696上海31127江蘇293031浙江282029安徽172619福建242426江西202721山東263130河南454湖北212522湖南151115廣東271228廣西141514海南3175重慶191416四川11810貴州231云南101011西藏743陜西182218甘肅172青海161917寧夏82813新疆131812表59從表中看出第一主成得分較高的有北京、天津、上海、江蘇、浙江、遼寧,這幾個省
29、份都是經(jīng)濟比較發(fā)達的地區(qū),第一主成分代表的意義為我國居民生活質量狀況針對職工人居工資、人均居住面積、批發(fā)零售貿易商品銷售總額、旅游外匯收入和其他居民生活質量狀況的反應指標之間的差異。第二主成得分較高的有山東、河北、陜西等地,由于第二主成分代表的意義為我國居民生活質量狀況針對人均消費品普及量及人均公共設施需求,由此可見這幾個地區(qū)非常注重人均公共設施需求及人均消費品普及量這些方面。將31個省原始數(shù)據(jù)直接生成主成分得分,則后續(xù)統(tǒng)計可以基于“fac1_1”和“fac21”兩個主成分來進行綜合得分。計算方法是:用每個主成分的特征根做權數(shù),對每個主成分進行加權加總,用公式表示即為:f=f1+f2結論:綜合得分較高的依次有北京、江蘇、浙江、廣東,山東,這幾個省份都是經(jīng)濟比較發(fā)達的地區(qū),綜合得分較低的依次有甘肅,貴州,海南,河南,內蒙古等偏遠地區(qū)。在數(shù)據(jù)視圖中就可以看出人均生活質量的比例相對較高,而偏遠地區(qū)人均生活質量就很低;比如貴州和北京相比:人均工資,居住面積,人均用水,煤氣普及,人均道路,人均綠地,商品總額,旅游外匯貴州(24602,25.27,88.69,67.82,6.22,6.16,176.5,117);北京
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年芬蘭語等級考試芬蘭語言學習成果研究試卷
- 咖啡廳飲品供應管理協(xié)議
- 社會保險繳納工資證明書(6篇)
- 2025年水上加油船項目申請報告
- 小明和爸爸的一次爬山經(jīng)歷記敘文作文4篇
- 2025年法語DELFDCLT級寫作測試試卷:翻譯技巧實戰(zhàn)分析
- 2025年小學英語畢業(yè)考試模擬卷:英語跨文化交際案例分析題庫
- 農民土地流轉承包經(jīng)營權委托管理協(xié)議
- 酒店投資與管理權合作經(jīng)營協(xié)議
- 2025年差壓變送器項目申請報告
- 事業(yè)單位工勤人員技師考試職業(yè)道德復習試題
- The Old Man and The Sea 老人與海 中英文對照版
- 居委會開具的自建房證明
- ICU成年患者疼痛、躁動鎮(zhèn)靜、譫妄、制動及睡眠障礙的預防和管理的臨床實踐指南(PADIS)2018
- 冷凍水管道工程施工工藝
- 混凝土拌合站拆除方案
- 對照品管理SOP雙語
- 兩臺37kW三相交流電動機的動力配電柜設計(共21頁)
- 積雪草提取物對胃粘膜的保護作用及其機制探討
- 市中等職業(yè)學校學籍卡片(樣表)
- 手術室清潔消毒記錄表
評論
0/150
提交評論