主成分分析、聚類分析、因子分析的基本思想及優(yōu)缺點(diǎn)_第1頁(yè)
主成分分析、聚類分析、因子分析的基本思想及優(yōu)缺點(diǎn)_第2頁(yè)
主成分分析、聚類分析、因子分析的基本思想及優(yōu)缺點(diǎn)_第3頁(yè)
主成分分析、聚類分析、因子分析的基本思想及優(yōu)缺點(diǎn)_第4頁(yè)
主成分分析、聚類分析、因子分析的基本思想及優(yōu)缺點(diǎn)_第5頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余1頁(yè)可下載查看

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、主成分分析:利用降維(線性變換)的思想,在損失很少信息的前提下把多個(gè)指標(biāo)轉(zhuǎn)化為幾個(gè)綜合指標(biāo)(主成分,用綜合指標(biāo)來(lái)解釋多變量的方差-協(xié)方差結(jié)構(gòu),即每個(gè)主成分都是原始變量的線性組合,且各個(gè)主成分之間互不相關(guān),使得主成分比原始變量具有某些更優(yōu)越的性能(主成分必須保留原始變量 90%90%以上的信息),從而達(dá)到簡(jiǎn)化系統(tǒng)結(jié)構(gòu),抓住問(wèn)題實(shí)質(zhì)的目的綜合指標(biāo)即為主成分。求解主成分的方法:從協(xié)方差陣出發(fā)(協(xié)方差陣已知),從相關(guān)陣出發(fā)(相關(guān)陣 R R 已知)。(實(shí)際研究中,總體協(xié)方差陣與相關(guān)陣是未知的,必須通過(guò)樣本數(shù)據(jù)來(lái)估計(jì))注意事項(xiàng):1.1.由協(xié)方差陣出發(fā)與由相關(guān)陣出發(fā)求解主成分所得結(jié)果不一致時(shí),要恰當(dāng)?shù)倪x取某

2、一種方法;2 2 . .對(duì)于度量單位或是取值范圍在同量級(jí)的數(shù)據(jù),可直接求協(xié)方差陣;對(duì)于度量單位不同的指標(biāo)或是取值范圍彼此差異非常大的指標(biāo),應(yīng)考慮將數(shù)據(jù)標(biāo)準(zhǔn)化,再由協(xié)方差陣求主成分;3 3 .主成分分析不要求數(shù)據(jù)來(lái)源于正態(tài)分布;4 4 . .在選取初始變量進(jìn)入分析時(shí)應(yīng)該特別注意原始變量是否存在多重共線性的問(wèn)題(最小特征根接近于零,說(shuō)明存在多重共線性問(wèn)題)。優(yōu)點(diǎn):首先它利用降維技術(shù)用少數(shù)幾個(gè)綜合變量來(lái)代替原始多個(gè)變量,這些綜合變量集中了原始變量的大部分信息。其次它通過(guò)計(jì)算綜合主成分函數(shù)得分,對(duì)客觀經(jīng)濟(jì)現(xiàn)象進(jìn)行科學(xué)評(píng)價(jià)。再次它在應(yīng)用上側(cè)重于信息貢獻(xiàn)影響力綜合評(píng)價(jià)。缺點(diǎn):當(dāng)主成分的因子負(fù)荷的符號(hào)有正有

3、負(fù)時(shí),綜合評(píng)價(jià)函數(shù)意義就不明確。命名清晰性低。聚類分析:將個(gè)體(樣品)或者對(duì)象(變量)按相似程度(距離遠(yuǎn)近)劃分類別,使得同一類中的元素之間的相似性比其他類的元素的相似性更強(qiáng)。目的在于使類間元素的同質(zhì)性最大化和類與類間元素的異質(zhì)性最大化。其主要依據(jù)是聚到同一個(gè)數(shù)據(jù)集中的樣本應(yīng)該彼此相似,而屬于不同組的樣本應(yīng)該足夠不相似。常用聚類方法:系統(tǒng)聚類法,K-K-均值法,模糊聚類法,有序樣品的聚類,分解法,加入法。注意事項(xiàng):1.1.系統(tǒng)聚類法可對(duì)變量或者記錄進(jìn)行分類,K-K-均值法只能對(duì)記錄進(jìn)行分類;2 2 .K-.K-均值法要求分析人員事先知道樣品分為多少類;3 3 . .對(duì)變量的多元正態(tài)性,方差齊性

4、等要求較高。應(yīng)用領(lǐng)域:細(xì)分市場(chǎng),消費(fèi)行為劃分,設(shè)計(jì)抽樣方案等優(yōu)點(diǎn):聚類分析模型的優(yōu)點(diǎn)就是直觀,結(jié)論形式簡(jiǎn)明。缺點(diǎn):在樣本量較大時(shí),要獲得聚類結(jié)論有一定困難。由于相似系數(shù)是根據(jù)被試的反映來(lái)建立反映被試間內(nèi)在聯(lián)系的指標(biāo),而實(shí)踐中有時(shí)盡管從被試反映所得出的數(shù)據(jù)中發(fā)現(xiàn)他們之間有緊密的關(guān)系,但事物之間卻無(wú)任何內(nèi)在聯(lián)系,此時(shí),如果根據(jù)距離或相似系數(shù)得出聚類分析的結(jié)果,顯然是不適當(dāng)?shù)?,但是,聚類分析模型本身卻無(wú)法識(shí)別這類錯(cuò)誤。因子分析:利用降維的思想,由研究原始變量相關(guān)矩陣內(nèi)部的依賴關(guān)系出發(fā),把一些具有錯(cuò)綜復(fù)雜關(guān)系的變量歸結(jié)為少數(shù)幾個(gè)綜合因子。(因子分析是主成分的推廣,相對(duì)于主成分分析,更傾向于描述原始變量

5、之間的相關(guān)關(guān)系),就是研究如何以最少的信息丟失,將眾多原始變量濃縮成少數(shù)幾個(gè)因子變量,以及如何使因子變量具有較強(qiáng)的可解釋性的一種多元統(tǒng)計(jì)分析方法。求解因子載荷的方法:主成分法,主軸因子法,極大似然法,最小二乘法,a a 因子提取法。注意事項(xiàng):5.5.因子分析中各個(gè)公共因子之間不相關(guān),特殊因子之間不相關(guān),公共因子和特殊因子之間不相關(guān)。應(yīng)用領(lǐng)域:解決共線性問(wèn)題,評(píng)價(jià)問(wèn)卷的結(jié)構(gòu)效度,尋找變量間潛在的結(jié)構(gòu),內(nèi)在結(jié)構(gòu)證實(shí)。優(yōu)點(diǎn):第一它不是對(duì)原有變量的取舍,而是根據(jù)原始變量的信息進(jìn)行重新組合,找出影響變量的共同因子,化簡(jiǎn)數(shù)據(jù);第二,它通過(guò)旋轉(zhuǎn)使得因子變量更具有可解釋性,命名清晰性高。缺點(diǎn):在計(jì)算因子得分時(shí)

6、,采用的是最小二乘法,此法有時(shí)可能會(huì)失效。判別分析:從已知的各種分類情況中總結(jié)規(guī)律(訓(xùn)練出判別函數(shù)),當(dāng)新樣品進(jìn)入時(shí),判斷其與判別函數(shù)之間的相似程度(概率最大,距離最近,離差最小等判別準(zhǔn)則)。常用判別方法:最大似然法,距離判別法,F(xiàn)isherFisher 判別法,BayesBayes 判別法,逐步判別法等。注意事項(xiàng):1 1.判別分析的基本條件:分組類型在兩組以上,解釋變量必須是可測(cè)的;2 2 . .每個(gè)解釋變量不能是其它解釋變量的線性組合(比如出現(xiàn)多重共線性情況時(shí),判別權(quán)重會(huì)出現(xiàn)問(wèn)題);3 3 . .各解釋變量之間服從多元正態(tài)分布(不符合時(shí),可使用 LogisticLogistic 回歸替代)

7、,且各組解釋變量的協(xié)方差矩陣相等(各組協(xié)方方差矩陣有顯著差異時(shí),判別函數(shù)不相同)。4 4 . .相對(duì)而言,即使判別函數(shù)違反上述適用條件,也很穩(wěn)健,對(duì)結(jié)果影響不大。應(yīng)用領(lǐng)域:對(duì)客戶進(jìn)行信用預(yù)測(cè),尋找潛在客戶(是否為消費(fèi)者,公司是否成功,學(xué)生是否被錄用等等),臨床上用于鑒別診斷。對(duì)應(yīng)分析/最優(yōu)尺度分析:利用降維的思想以達(dá)到簡(jiǎn)化數(shù)據(jù)結(jié)構(gòu)的目的,同時(shí)對(duì)數(shù)據(jù)表中的行與列進(jìn)行處理,尋求以低維圖形表示數(shù)據(jù)表中行與列之間的關(guān)系。對(duì)應(yīng)分析:用于展示變量(兩個(gè)/多個(gè)分類)間的關(guān)系(變量的分類數(shù)較多時(shí)較佳);最優(yōu)尺度分析:可同時(shí)分析多個(gè)變量間的關(guān)系,變量的類型可以是無(wú)序多分類,有序多分類或連續(xù)性變量,并對(duì)多選題的分

8、析提供了支持。典型相關(guān)分析:借用主成分分析降維的思想,分別對(duì)兩組變量提取主成分,且使從兩組變量提取的主成分之間的相關(guān)程度達(dá)到最大,而從同一組內(nèi)部提取的各主成分之間互不相關(guān)。相同點(diǎn):1 1 .主成分分析法和因子分析法都是用少數(shù)的幾個(gè)變量(因子)來(lái)綜合反映原始變量(因子)的主要信息,變量雖然較原始變量少,但所包含的信息量卻占原始信息的 85%85%以上,所以即使用少數(shù)的幾個(gè)新變量,可信度也很高,也可以有效地解釋問(wèn)題。并且新的變量彼此間互不相關(guān),消除了多重共線性。2 2 .這兩種分析法得出的新變量,并不是原始變量篩選后剩余的變量。在主成分分析中,最終確定的新變量是原始變量的線性組合,如原始變量為 x

9、1x1, ,x2x2, ,., ,x3x3, ,經(jīng)過(guò)坐標(biāo)變換,將原有的 p p 個(gè)相關(guān)變量 xixi 作線性變換,每個(gè)主成分都是由原有 p p 個(gè)變量線性組合得到。在諸多主成分 ZiZi 中,Z1Z1 在方差中占的比重最大,說(shuō)明它綜合原有變量的能力最強(qiáng),越往后主成分在方差中的比重也小,綜合原信息的能力越弱。因子分析是要利用少數(shù)幾個(gè)公共因子去解釋較多個(gè)要觀測(cè)變量中存在的復(fù)雜關(guān)系,原始變量的重新組合,而是對(duì)原始變量進(jìn)行分解,分解為公共因子與特殊因子兩部分。公共因子是由所有變量共同具有的少數(shù)幾個(gè)因子;特殊因子是每個(gè)原始變量獨(dú)自具有的因子。3 3 .對(duì)新產(chǎn)生的主成分變量及因子變量計(jì)算其得分,就可以將主

10、成分得分或因子得分代替原始變量進(jìn)行進(jìn)一步的分析,因?yàn)橹鞒煞肿兞考耙蜃幼兞勘仍甲兞可倭嗽S多,所以起到了降維的作用,為我們處理數(shù)據(jù)降低了難度。4 4 .聚類分析是把研究對(duì)象視作多維空間中的許多點(diǎn),并合理地分成若干類,因此它是一種根據(jù)變量域之間的相似性而逐步歸群成類的方法,它能客觀地反映這些變量或區(qū)域之間的內(nèi)在它不是對(duì)組合關(guān)系。它是通過(guò)一個(gè)大的對(duì)稱矩陣來(lái)探索相關(guān)關(guān)系的一種數(shù)學(xué)分析方法,是多元統(tǒng)計(jì)分析方法,分析的結(jié)果為群集。對(duì)向量聚類后,我們對(duì)數(shù)據(jù)的處理難度也自然降低,所以從某種意義上說(shuō),聚類分析也起到了降維的作用。不同之處:1 1 .主成分分析是研究如何通過(guò)少數(shù)幾個(gè)主成分來(lái)解釋多變量的方差一協(xié)方差

11、結(jié)構(gòu)的分析方法,也就是求出少數(shù)幾個(gè)主成分(變量),使它們盡可能多地保留原始變量的信息,且彼此不相關(guān)。它是一種數(shù)學(xué)變換方法,即把給定的一組變量通過(guò)線性變換,轉(zhuǎn)換為一組不相關(guān)的變量(兩兩相關(guān)系數(shù)為 0 0,或樣本向量彼此相互垂直的隨機(jī)變量),),在這種變換中,保持變量的總方差(方差之和)不變,同時(shí)具有最大方差,稱為第一主成分;具有次大方差,稱為第二主成分。依次類推。若共有 p p 個(gè)變量,實(shí)際應(yīng)用中一般不是找 p p 個(gè)主成分,而是找出m m(m m p p)個(gè)主成分就夠了,只要這 m m 個(gè)主成分能反映原來(lái)所有變量的絕大部分的方差。主成分分析可以作為因子分析的一種方法出現(xiàn)。2 2 .因子分析是尋

12、找潛在的起支配作用的因子模型的方法。因子分析是根據(jù)相關(guān)性大小把變量分組,使得同組內(nèi)的變量之間相關(guān)性較高,但不同的組的變量相關(guān)性較低,每組變量代表一個(gè)基本結(jié)構(gòu),這個(gè)基本結(jié)構(gòu)稱為公共因子。對(duì)于所研究的問(wèn)題就可試圖用最少個(gè)數(shù)的不可測(cè)的所謂公共因子的線性函數(shù)與特殊因子之和來(lái)描述原來(lái)觀測(cè)的每一分量。通過(guò)因子分析得來(lái)的新變量是對(duì)每個(gè)原始變量進(jìn)行內(nèi)部剖析。因子分析不是對(duì)原始變量的重新組合,而是對(duì)原始變量進(jìn)行分解,分解為公共因子和特殊因子兩部分。具體地說(shuō),就是要找出某個(gè)問(wèn)題中可直接測(cè)量的具有一定相關(guān)性的諸指標(biāo),如何受少數(shù)幾個(gè)在專業(yè)中有意義、又不可直接測(cè)量到、且相對(duì)獨(dú)立的因子支配的規(guī)律,從而可用各指標(biāo)的測(cè)定來(lái)間

13、接確定各因子的狀態(tài)。因子分析只能解釋部分變異,主成分分析能解釋所有變異。3 3 .聚類分析算法是給定 m m 維空間 R R 中的 n n 個(gè)向量,把每個(gè)向量歸屬到 k k 個(gè)聚類中的某一個(gè),使得每一個(gè)向量與其聚類中心的距離最小。聚類可以理解為:類內(nèi)的相關(guān)性盡量大,類間相關(guān)性盡量小。聚類問(wèn)題作為一種無(wú)指導(dǎo)的學(xué)習(xí)問(wèn)題,目的在于通過(guò)把原來(lái)的對(duì)象集合分成相似的組或簇,來(lái)獲得某種內(nèi)在的數(shù)據(jù)規(guī)律。從三類分析的基本思想可以看出,聚類分析中并沒(méi)于產(chǎn)生新變量,但是主成分分析和因子分析都產(chǎn)生了新變量。就數(shù)據(jù)標(biāo)準(zhǔn)化來(lái)說(shuō),區(qū)別如下:1 1 .主成分分析中為了消除量綱和數(shù)量級(jí),通常需要將原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,將其轉(zhuǎn)化為

14、均值為 0 0 方差為 1 1 的無(wú)量綱數(shù)據(jù)。2 2 .因子分析在這方面要求不是太高,因?yàn)樵谝蜃臃治鲋锌梢酝ㄟ^(guò)主因子法、加權(quán)最小二乘法、不加權(quán)最小二乘法、重心法等很多解法來(lái)求因子變量,并且因子變量是每一個(gè)變量的內(nèi)部影響變量,它的求解與原始變量是否同量綱關(guān)系并不太大,當(dāng)然在采用主成分法求因子變量時(shí),仍需標(biāo)準(zhǔn)化。不過(guò)在實(shí)際應(yīng)用的過(guò)程中, 為了盡量避免量綱或數(shù)量級(jí)的影響, 建議在使用因子分析前還是要進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化。在構(gòu)造因子變量時(shí)采用的是主成分分析方法,主要將指標(biāo)值先進(jìn)行標(biāo)準(zhǔn)化處理得到協(xié)方差矩陣,即相關(guān)矩陣和對(duì)應(yīng)的特征值與特征向量,然后構(gòu)造綜合評(píng)價(jià)函數(shù)進(jìn)行評(píng)價(jià)。3 3 .聚類分析中如果參與聚類的變量

15、的量綱不同會(huì)導(dǎo)致錯(cuò)誤的聚類結(jié)果。因此在聚類過(guò)程進(jìn)行之前必須對(duì)變量值進(jìn)行標(biāo)準(zhǔn)化,即消除量綱的影響。不同方法進(jìn)行標(biāo)準(zhǔn)化,會(huì)導(dǎo)致不同的聚類結(jié)果要注意變量的分布。如果是正態(tài)分布應(yīng)該采用 z z 分?jǐn)?shù)法??偨Y(jié)來(lái)說(shuō):1 1 . .目的不同:因子分析把諸多變量看成由對(duì)每一個(gè)變量都有作用的一些公共因子和僅對(duì)某一個(gè)變量有作用的特殊因子線性組合而成, 因此就是要從數(shù)據(jù)中控查出對(duì)變量起解釋作用的公共因子和特殊因子以及其組合系數(shù); 主成分分析只是從空間生成的角度尋找能解釋諸多變量變異的絕大部分的幾組彼此不相關(guān)的新變量(主成分)。2 2 . .線性表示方向不同:因子分析是把變量表示成各公因子的線性組合;而主成分分析中則是把主成分表示成各變量的線性組合。3 3 . .假設(shè)條件不同:主成分分析中不需要有假設(shè);因子分析的假設(shè)包括:各個(gè)公共因子之間不相關(guān),特殊因子之間不相關(guān),公共因子和特殊因子之間不相關(guān)。4 4 . .提取主因子的方法不同:因子分析抽取主因子不僅有主成分法,還有極大似然法,主軸因子法,基于這些方法得到的結(jié)果也不同;主成分只能用主成分法抽取。5 5 . .主成分與因子的變化:當(dāng)給定的協(xié)方差矩陣或者相關(guān)矩陣的特征值唯一時(shí),主成分一般是固定的;而因子分析中因子不是固定的,可以旋轉(zhuǎn)得到不同的因子。6 6 . .因子數(shù)量與主成分的數(shù)量:在因子分析中,因子個(gè)數(shù)需要分析者指定(

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論