市場(chǎng)調(diào)查教材第五講:數(shù)據(jù)分析之三(聚類分析)_第1頁(yè)
市場(chǎng)調(diào)查教材第五講:數(shù)據(jù)分析之三(聚類分析)_第2頁(yè)
市場(chǎng)調(diào)查教材第五講:數(shù)據(jù)分析之三(聚類分析)_第3頁(yè)
市場(chǎng)調(diào)查教材第五講:數(shù)據(jù)分析之三(聚類分析)_第4頁(yè)
市場(chǎng)調(diào)查教材第五講:數(shù)據(jù)分析之三(聚類分析)_第5頁(yè)
已閱讀5頁(yè),還剩100頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第五講:數(shù)據(jù)分析之三

……聚類分析主講:梁滿發(fā)系統(tǒng)聚類分析快速聚類有序聚類其它聚類分析

例對(duì)10位應(yīng)聘者做智能檢驗(yàn)。3項(xiàng)指標(biāo)X,Y和Z分別表示數(shù)學(xué)推理能力,空間想象能力和語(yǔ)言理解能力。其得分如下,選擇合適的統(tǒng)計(jì)方法對(duì)應(yīng)聘者進(jìn)行分類。應(yīng)聘者12345678910X28181121262016142422Y29232223292322232927Z28181622262222242424§1什么是聚類分析我們直觀地來(lái)看,這個(gè)分類是否合理?計(jì)算4號(hào)和6號(hào)得分的離差平方和:

(21-20)2+(23-23)2+(22-22)2=1

計(jì)算1號(hào)和2號(hào)得分的離差平方和:

(28-18)2+(29-23)2+(28-18)2=236

計(jì)算1號(hào)和3號(hào)得分的離差平方和為482,由此可見(jiàn)一般,分類可能是合理的,歐氏距離很大的應(yīng)聘者沒(méi)有被聚在一起。由此,我們的問(wèn)題是如何來(lái)選擇樣品間相似的測(cè)度指標(biāo),如何將有相似性的類連接起來(lái)?

聚類分析根據(jù)一批樣品的許多觀測(cè)指標(biāo),按照一定的數(shù)學(xué)公式具體地計(jì)算一些樣品或一些參數(shù)(指標(biāo))的相似程度,把相似的樣品或指標(biāo)歸為一類,把不相似的歸為一類。

例如對(duì)上市公司的經(jīng)營(yíng)業(yè)績(jī)進(jìn)行分類;據(jù)經(jīng)濟(jì)信息和市場(chǎng)行情,客觀地對(duì)不同商品、不同用戶及時(shí)地進(jìn)行分類。又例如當(dāng)我們對(duì)企業(yè)的經(jīng)濟(jì)效益進(jìn)行評(píng)價(jià)時(shí),建立了一個(gè)由多個(gè)指標(biāo)組成的指標(biāo)體系,由于信息的重疊,一些指標(biāo)之間存在很強(qiáng)的相關(guān)性,所以需要將相似的指標(biāo)聚為一類,從而達(dá)到簡(jiǎn)化指標(biāo)體系的目的。一、變量測(cè)量尺度的類型為了將樣本進(jìn)行分類,就需要研究樣品之間的關(guān)系;而為了將變量進(jìn)行分類,就需要研究變量之間的關(guān)系。但無(wú)論是樣品之間的關(guān)系,還是變量之間的關(guān)系,都是用變量來(lái)描述的,變量的類型不同,描述方法也就不同。通常,變量按照測(cè)量它們的尺度不同,可以分為三類。

(1)間隔尺度。指標(biāo)度量時(shí)用數(shù)量來(lái)表示,其數(shù)值由測(cè)量或計(jì)數(shù)、統(tǒng)計(jì)得到,如長(zhǎng)度、重量、收入、支出等。一般來(lái)說(shuō),計(jì)數(shù)得到的數(shù)量是離散數(shù)量,測(cè)量得到的數(shù)量是連續(xù)數(shù)量。在間隔尺度中如果存在絕對(duì)零點(diǎn),又稱比例尺度。§2相似系數(shù)和距離

(2)順序尺度。指標(biāo)度量時(shí)沒(méi)有明確的數(shù)量表示,只有次序關(guān)系,或雖用數(shù)量表示,但相鄰兩數(shù)值之間的差距并不相等,它只表示一個(gè)有序狀態(tài)序列。如評(píng)價(jià)酒的味道,分成好、中、次三等,三等有次序關(guān)系,但沒(méi)有數(shù)量表示。又如評(píng)價(jià)產(chǎn)品的質(zhì)量,雖可用一、二、三等來(lái)表示,但一等與二等之間、二等與三等之間的差距并不一定相等。

(3)名義尺度。指標(biāo)度量時(shí)既沒(méi)有數(shù)量表示也沒(méi)有次序關(guān)系,只有一些特性狀態(tài),如眼睛的顏色,化學(xué)中催化劑的種類等。在名義尺度中只取兩種特性狀態(tài)的變量是很重要的,如電路的開(kāi)和關(guān),天氣的有雨和無(wú)雨,人口性別的男和女,醫(yī)療診斷中的“十”和“一”,市場(chǎng)交易中的買和賣等都是此類變量。顯然,對(duì)于具有多個(gè)特性狀態(tài)的變量,可通過(guò)并類的方法將其轉(zhuǎn)化為二性狀態(tài)變量。

二、數(shù)據(jù)的變換處理

所謂數(shù)據(jù)變換,就是將原始數(shù)據(jù)矩陣中的每個(gè)元素,按照某種特定的運(yùn)算把它變成為一個(gè)新值,而且數(shù)值的變化不依賴于原始數(shù)據(jù)集合中其它數(shù)據(jù)的新值。

1、中心化變換

中心化變換是一種坐標(biāo)軸平移處理方法,它是先求出每個(gè)變量的樣本平均值,再?gòu)脑紨?shù)據(jù)中減去該變量的均值,就得到中心化變換后的數(shù)據(jù)。設(shè)原始觀測(cè)數(shù)據(jù)矩陣為:中心化變換的結(jié)果是使每列數(shù)據(jù)之和均為0,即每個(gè)變量的均值為0,而且每列數(shù)據(jù)的平方和是該列變量樣本方差的(n—1)倍,任何不同兩列數(shù)據(jù)之交叉乘積是這兩列變量樣本協(xié)方差的(n—1)倍,所以這是一種很方便地計(jì)算方差與協(xié)方差的變換。

2、極差規(guī)格化變換

規(guī)格化變換是從數(shù)據(jù)矩陣的每一個(gè)變量中找出其最大值和最小值,這兩者之差稱為極差,然后從每個(gè)變量的每個(gè)原始數(shù)據(jù)中減去該變量中的最小值,再除以極差,就得到規(guī)格化數(shù)據(jù)。即有:

經(jīng)過(guò)規(guī)格化變換后,數(shù)據(jù)矩陣中每列即每個(gè)變量的最大數(shù)值為1,最小數(shù)值為0,其余數(shù)據(jù)取值均在0-1之間;并且變換后的數(shù)據(jù)都不再具有量綱,便于不同的變量之間的比較。3、標(biāo)準(zhǔn)化變換

標(biāo)準(zhǔn)化變換也是對(duì)變量的數(shù)值和量綱進(jìn)行類似于規(guī)格化變換的一種數(shù)據(jù)處理方法。首先對(duì)每個(gè)變量進(jìn)行中心化變換,然后用該變量的標(biāo)準(zhǔn)差進(jìn)行標(biāo)準(zhǔn)化。即有:

經(jīng)過(guò)標(biāo)準(zhǔn)化變換處理后,每個(gè)變量即數(shù)據(jù)矩陣中每列數(shù)據(jù)的平均值為0,方差為1,且也不再具有量綱,同樣也便于不同變量之間的比較。變換后,數(shù)據(jù)短陣中任何兩列數(shù)據(jù)乘積之和是兩個(gè)變量相關(guān)系數(shù)的(n-1)倍,所以這是一種很方便地計(jì)算相關(guān)矩陣的變換。

4.對(duì)數(shù)變換

對(duì)數(shù)變換是將各個(gè)原始數(shù)據(jù)取對(duì)數(shù),將原始數(shù)據(jù)的對(duì)數(shù)值作為變換后的新值。即:

三、樣品間親疏程度的測(cè)度

研究樣品或變量的親疏程度的數(shù)量指標(biāo)有兩種,一種叫相似系數(shù),性質(zhì)越接近的變量或樣品,它們的相似系數(shù)越接近于1或一l,而彼此無(wú)關(guān)的變量或樣品它們的相似系數(shù)則越接近于0,相似的為一類,不相似的為不同類;另一種叫距離,它是將每一個(gè)樣品看作p維空間的一個(gè)點(diǎn),并用某種度量測(cè)量點(diǎn)與點(diǎn)之間的距離,距離較近的歸為一類,距離較遠(yuǎn)的點(diǎn)應(yīng)屬于不同的類。變量之間的聚類即只型聚類分析,常用相似系數(shù)來(lái)測(cè)度變量之間的親疏程度。而樣品之間的聚類即Q型聚類分析,則常用距離來(lái)測(cè)度樣品之間的親疏程度。

1、定義距離的準(zhǔn)則

定義距離要求滿足第i個(gè)和第j個(gè)樣品之間的距離如下四個(gè)條件:2、常用距離的算法設(shè)和是第i和j個(gè)樣品的觀測(cè)值,則二者之間的距離為:明氏距離特別,歐氏距離(1)明氏距離測(cè)度

該距離的缺點(diǎn)明考夫斯基距離主要有以下兩個(gè)缺點(diǎn):

①明氏距離的值與各指標(biāo)的量綱有關(guān),而各指標(biāo)計(jì)量單位的選擇有一定的人為性和隨意性,各變量計(jì)量單位的不同不僅使此距離的實(shí)際意義難以說(shuō)清,而且,任何一個(gè)變量計(jì)量單位的改變都會(huì)使此距離的數(shù)值改變從而使該距離的數(shù)值依賴于各變量計(jì)量單位的選擇。

②明氏距離的定義沒(méi)有考慮各個(gè)變量之間的相關(guān)性和重要性。實(shí)際上,明考夫斯基距離是把各個(gè)變量都同等看待,將兩個(gè)樣品在各個(gè)變量上的離差簡(jiǎn)單地進(jìn)行了綜合。(2)杰氏距離這是杰斐瑞和馬突斯塔(Jffreys8LMatusita)所定義的一種距離,其計(jì)算公式為:(3)蘭氏距離這是蘭思和維廉姆斯(LanceSLWilliams)所給定的一種距離,其計(jì)算公式為:

這是一個(gè)自身標(biāo)準(zhǔn)化的量,由于它對(duì)大的奇異值不敏感,這樣使得它特別適合于高度偏倚的數(shù)據(jù)。雖然這個(gè)距離有助于克服明氏距離的第一個(gè)缺點(diǎn),但它也沒(méi)有考慮指標(biāo)之間的相關(guān)性。

(4)馬氏距離這是印度著名統(tǒng)計(jì)學(xué)家馬哈拉諾比斯(P.C.’Mahalanobis)所定義的一種距離,其計(jì)算公式為:

分別表示第i個(gè)樣品和第j樣品的p指標(biāo)觀測(cè)值所組成的列向量,即樣本數(shù)據(jù)矩陣中第i個(gè)和第j個(gè)行向量的轉(zhuǎn)置,表示觀測(cè)變量之間的協(xié)方差短陣。在實(shí)踐應(yīng)用中,若總體協(xié)方差矩陣未知,則可用樣本協(xié)方差矩陣作為估計(jì)代替計(jì)算。馬氏距離又稱為廣義歐氏距離。顯然,馬氏距離與上述各種距離的主要不同就是馬氏距離考慮了觀測(cè)變量之間的相關(guān)性。如果假定各變量之間相互獨(dú)立,即觀測(cè)變量的協(xié)方差矩陣是對(duì)角矩陣,則馬氏距離就退化為用各個(gè)觀測(cè)指標(biāo)的標(biāo)準(zhǔn)差的倒數(shù)作為權(quán)數(shù)進(jìn)行加權(quán)的歐氏距離。因此,馬氏距離不僅考慮了觀測(cè)變量之間的相關(guān)性,而且也考慮到了各個(gè)觀測(cè)指標(biāo)取值的差異程度,消除了各個(gè)觀測(cè)指標(biāo)不同量綱的影響。這表明,馬氏距離對(duì)任何非奇異線性變換都具有不變性。為了對(duì)馬氏距離和歐氏距離進(jìn)行一下比較,以便更清楚地看清二者的區(qū)別和聯(lián)系,現(xiàn)考慮一個(gè)例子。例如,假設(shè)有一個(gè)二維正態(tài)總體,它的分布為:

馬氏距離雖然考慮了觀測(cè)變量之間的相關(guān)性,并且也不受觀測(cè)變量量綱不同的影響,但是在聚類分析之前,如果用全部數(shù)據(jù)計(jì)算的均值向量和協(xié)方差矩陣來(lái)計(jì)算馬氏距離,效果并不是很好。比較合理的辦法是用各個(gè)類的樣本來(lái)計(jì)算各自的協(xié)方差矩陣,同一類樣本的馬氏距離應(yīng)當(dāng)用這一類的協(xié)方差短陣來(lái)計(jì)算。然而,類的形成要依賴于樣品之間的距離,反過(guò)來(lái)樣品間合理的馬氏距離又依賴于類,這就形成了一個(gè)惡性循環(huán)。因此,在實(shí)際聚類分析處理中,馬氏距離也不是理想的距離。5、斜交空間距離

由于各變量之間往往存在著不同的相關(guān)關(guān)系,用正交空間的距離來(lái)計(jì)算樣本間的距離易變形,所以可以采用斜交空間距離。

當(dāng)各變量之間不相關(guān)時(shí),斜交空間退化為歐氏距離。

四、變量間親疏程度的測(cè)度

1、準(zhǔn)則

當(dāng)對(duì)變量進(jìn)行聚類時(shí),最常見(jiàn)的相似系數(shù)是樣本相關(guān)系數(shù)。性質(zhì)越接近的變量,它們的相關(guān)系數(shù)的絕對(duì)值越接近1,而彼此無(wú)關(guān)的變量的相關(guān)系數(shù)則越接近0。滿足的條件:2、相似系數(shù)的算法(1)相似系數(shù)設(shè)和是第和個(gè)樣品的觀測(cè)值,則二者之間的相似測(cè)度為:其中(2)夾角余弦?jiàn)A角余弦時(shí)從向量集合的角度所定義的一種測(cè)度變量之間親疏程度的相似系數(shù)。設(shè)在n維空間的向量

觀測(cè)向量在原點(diǎn)出的夾角的余弦,若變量之間的相關(guān)程度密切,則夾角接近0,其余弦接近1;反之接近0。五、距離和相似系數(shù)選擇的原則

一般說(shuō)來(lái),同一批數(shù)據(jù)采用不同的親疏測(cè)度指標(biāo),會(huì)得到不同的分類結(jié)果。產(chǎn)生不同結(jié)果的原因,主要是由于不同的親疏測(cè)度指標(biāo)所衡量的親疏程度的實(shí)際意義不同,也就是說(shuō),不同的親疏測(cè)度指標(biāo)代表了不同意義上的親疏程度。因此我們?cè)谶M(jìn)行聚類分析時(shí),應(yīng)注意親疏測(cè)度指標(biāo)的選擇。通常,選擇親疏測(cè)度指標(biāo)時(shí),應(yīng)注意遵循的基本原則主要有:(1)所選擇的親疏測(cè)度指標(biāo)在實(shí)際應(yīng)用中應(yīng)有明確的意義。如在經(jīng)濟(jì)變量分析中,常用相關(guān)系數(shù)表示經(jīng)濟(jì)變量之間的親疏程度。

(2)親疏測(cè)度指標(biāo)的選擇要綜合考慮已對(duì)樣本觀測(cè)數(shù)據(jù)實(shí)施了的變換方法和將要采用的聚類分析方法。如在標(biāo)準(zhǔn)化變換之下,夾角余弦實(shí)際上就是相關(guān)系數(shù);又如若在進(jìn)行聚類分析之前已經(jīng)對(duì)變量的相關(guān)性作了處理,則通常就可采用歐氏距離,而不必選用斜交空間距離。此外,所選擇的親疏測(cè)度指標(biāo),還須和所選用的聚類分析方法一致。如聚類方法若選用離差平方和法,則距離只能選用歐氏距離。

(3)適當(dāng)?shù)乜紤]計(jì)算工作量的大小。如對(duì)大樣本的聚類問(wèn)題,不適宜選擇斜交空間距離,因采用該距離處理時(shí),計(jì)算工作量太大。樣品間或變量間親疏測(cè)度指標(biāo)的選擇是一個(gè)比較復(fù)雜且?guī)е饕?guī)性的問(wèn)題,我們應(yīng)根據(jù)研究對(duì)象的特點(diǎn)作具體分折,以選擇出合適的親疏測(cè)度指標(biāo)。實(shí)踐中,在開(kāi)始進(jìn)行聚類分析時(shí),不妨試探性地多選擇幾個(gè)親疏測(cè)度指標(biāo),分別進(jìn)行聚類,然后對(duì)聚類分析的結(jié)果進(jìn)行對(duì)比分析,以確定出合適的親疏測(cè)度指標(biāo)。六、類的連接方法單連接(最短距離)完全連接(最長(zhǎng)距離)平均連接(平均距離)x21?x12?x22?x11????x11?x21??????????§3系統(tǒng)聚類方法

1、根據(jù)樣品的特征,規(guī)定樣品之間的距離,共有個(gè)。將所有列表,記為D(0)表,該表是一張對(duì)稱表。

2、選擇D(0)表中最小的非零數(shù),不妨假設(shè),于是將和合并為一類,記為。

3、利用遞推公式計(jì)算新類與其它類之間的距離。分別刪除D(0)表的第p,q行和第p,q列,并新增一行和一列添上的結(jié)果,產(chǎn)生D(1)表。(一)方法000(二)常用的種類

1、最短距離法設(shè)抽取五個(gè)樣品,每個(gè)樣品只有一個(gè)變量,它們是1,2,3.5,7,9。用最短距離法對(duì)5個(gè)樣品進(jìn)行分類。首先采用絕對(duì)距離計(jì)算距離矩陣:

0

10

2.51.50

653.50

875.520然后和被聚為新類,得:

0

1.50

53.50

75.5202、最長(zhǎng)距離法用最長(zhǎng)距離法對(duì)5個(gè)樣品進(jìn)行分類。首先采用絕對(duì)距離計(jì)算距離矩陣:

0

10

2.51.50

653.50

875.520然后和被聚為新類,得:

0

2.50

63.50

85.520

0

10

6.252.250

362512.250

644930.2540用中間距離法對(duì)5個(gè)樣品進(jìn)行分類。首先采用絕對(duì)距離計(jì)算距離平方矩陣:

3、中間距離法

0

40

30.2512.250

56.2530.2540

4、類平均法類平均法定義類間的距離是兩類間樣品的距離的平均數(shù)。

0

10

6.252.250

362512.250

644930.2540然后和被聚為新類,得:

0

4.250

30.2512.250

56.2530.2540

5、可變類平均法

類平均法的遞推公式中,沒(méi)有反映Gp類和Gq類的距離有多大,進(jìn)一步將其改進(jìn),加入D2Pq,并給定系數(shù)<1,則類平均法的遞推公式改為:

用此遞推公式進(jìn)行聚類就是可變類平均法。6、離差平方和法

如和為一類,則離差平方和

如和為一類,則離差平方和

和被聚為新類,重心為

類似于方差分析的想法,如果類分得恰當(dāng),同類內(nèi)的樣品之間的離差平方和應(yīng)較小,而類間的離差平方和應(yīng)當(dāng)較大。

離差平方和法的思路是,當(dāng)k固定時(shí),選擇使S達(dá)到最小的分類。先讓n個(gè)樣品各自成一類,然后縮小一類,每縮小一類離差平方和就要增大,選擇使S2增加最小的兩類合并,直到所有的樣品歸為一類為止。離差平方和法定義類間的平方距離為

0

0.50

3.1251.1250

1812.506.1250

3224.5015.12520其中是由Gp和Gq合并成的Gr類的類內(nèi)離差平方和??梢宰C明離差平方和的聚類公式為7、可變方法

如果讓中間距離法的遞推公式前兩項(xiàng)的系數(shù)也依賴于,則遞推公式為:

用上式作為遞推公式的系統(tǒng)聚類法稱為可變法。8、重心法用重心法對(duì)5個(gè)樣品進(jìn)行分類。首先采用絕對(duì)距離計(jì)算距離平方矩陣:

0

10

6.252.250

362512.250

644930.2540

重心法,也稱為樣品的均值法。設(shè)Gp和Gq

為兩個(gè)類分別為Gp和Gq的重心,類與類之間的距離定義為兩個(gè)類重心(類內(nèi)樣品平均值)間的平方距離。G4和G6的距離為設(shè)某一步Gp和Gq的重心分別為為和,類內(nèi)的樣品數(shù)分別為和,如果要把Gp和Gq合并為Gr類,則Gr類的樣品數(shù)nr=np+nq,Gr類的重心為和的加權(quán)算術(shù)平均數(shù):遞推公式為:(三)確定類的個(gè)數(shù)

在聚類分析過(guò)程中類的個(gè)數(shù)如何來(lái)確定才合適呢?這是一個(gè)十分困難的問(wèn)題,人們至今仍未找到令人滿意的方法。但是這個(gè)問(wèn)題又是不可回避的。下面我們介紹幾種方法。

1、給定閾值——通過(guò)觀測(cè)聚類圖,給出一個(gè)合適的閾值T。要求類與類之間的距離不要超過(guò)T值。例如我們給定T=0.35,當(dāng)聚類時(shí),類間的距離已經(jīng)超過(guò)了0.35,則聚類結(jié)束??傠x差平方和的分解(準(zhǔn)備知識(shí))如果著些樣品被分成兩類可以證明:總離差平方和=組內(nèi)離差平方和+組間離差平方和令T為總離差平方和令PG為分為G類的組內(nèi)離差平方和。

2、統(tǒng)計(jì)量其中T是數(shù)據(jù)的總離差平方和,是組內(nèi)離差平方和。比較大,說(shuō)明分G個(gè)類時(shí)類內(nèi)的離差平方和比較小,也就是說(shuō)分G類是合適的。但是,分類越多,每個(gè)類的類內(nèi)的離差平方和就越小,也就越大;所以我們只能取合適的G,使得足夠大,而G本生很小,隨著G的增加,的增幅不大。比如,假定分4類時(shí),=0.8;下一次合并分三類時(shí),下降了許多,=0.32,則分4類是合適的。

3、偽F統(tǒng)計(jì)量的定義為偽F統(tǒng)計(jì)量用于評(píng)價(jià)聚為G類的效果。如果聚類的效果好,類間的離差平方和相對(duì)于類內(nèi)的離差平方和大,所以應(yīng)該取偽F統(tǒng)計(jì)量較大而類數(shù)較小的聚類水平。

PseudoFStatistic0102030405060708090100110120NumberofClusters123456789101112131415161718194、偽統(tǒng)計(jì)量的定義為其中和分別是的類內(nèi)離差平方和,是將K和L合并為第M類的離差平方和

=--為合并導(dǎo)致的類內(nèi)離差平方和的增量。用它評(píng)價(jià)合并第K和L類的效果,偽統(tǒng)計(jì)量大說(shuō)明不應(yīng)該合并這兩類,應(yīng)該取合并前的水平。五、系統(tǒng)聚類法的基本性質(zhì)(一)單調(diào)性在聚類分析過(guò)程中,并類距離分別為l

k(k=1,2,3,…)若滿足,則稱該聚類方法具有單調(diào)性。可以證明除了重心法和中間距離法之外,其他的系統(tǒng)聚類法均滿足單調(diào)性的條件。(二)空間的濃縮和擴(kuò)張

1、定義矩陣的大小設(shè)同階矩陣D(A)和D(B),如果D(A)的每一個(gè)元素不小于D(B)的每一個(gè)元素,則記為。

2、空間的濃縮和擴(kuò)張?jiān)O(shè)有兩種系統(tǒng)聚類法A和B,他們?cè)诘趇步的距離矩陣分別為Ai和Bi(I=1,2,3…),若Ai>Bi

,則稱第一種方法A比第二種方法B使空間擴(kuò)張,或第二種方法比第一種方法濃縮。

3、方法的比較

D(短)D(平),D(重)D(平);

D(長(zhǎng))D(平);當(dāng),D(變平)D(平);當(dāng),D(變平)D(平)。

六、主要的步驟1、選擇變量(1)和聚類分析的目的密切相關(guān)(2)反映要分類變量的特征(3)在不同研究對(duì)象上的值有明顯的差異(4)變量之間不能高度相關(guān)2、計(jì)算相似性相似性是聚類分析中的基本概念,他反映了研究對(duì)象之間的親疏程度,聚類分析就是根據(jù)對(duì)象之間的相似性來(lái)分類的。有很多刻畫相似性的測(cè)度

3、聚類選定了聚類的變量,計(jì)算出樣品或指標(biāo)之間的相似程度后,構(gòu)成了一個(gè)相似程度的矩陣。這時(shí)主要涉及兩個(gè)問(wèn)題:(1)選擇聚類的方法(2)確定形成的類數(shù)4、聚類結(jié)果的解釋和證實(shí)

對(duì)聚類結(jié)果進(jìn)行解釋是希望對(duì)各個(gè)類的特征進(jìn)行準(zhǔn)確的描述,給每類起一個(gè)合適的名稱。這一步可以借助各種描述性統(tǒng)計(jì)量進(jìn)行分析,通常的做法是計(jì)算各類在各聚類變量上的均值,對(duì)均值進(jìn)行比較,還可以解釋各類產(chǎn)別的原因。

如果是變量聚類分析,聚類分析做完之后,各類中仍有較多的指標(biāo)。也就是說(shuō)聚類分析并沒(méi)有達(dá)到降維的目的。這就需要在每類中選出一個(gè)代表指標(biāo),具體做法是:假設(shè)某類中有個(gè)指標(biāo),首先分別計(jì)算類內(nèi)指標(biāo)之間的相關(guān)指數(shù),然后計(jì)算某個(gè)指標(biāo)與類內(nèi)其他指標(biāo)之間相關(guān)指數(shù)的平均數(shù),即

取最大的,做為該類的代表。例某公司下屬30個(gè)企業(yè),公司為了考核下屬企業(yè)的經(jīng)濟(jì)效益,設(shè)計(jì)了8個(gè)指標(biāo)。為了避免重復(fù),需要對(duì)這8個(gè)指標(biāo)進(jìn)行篩選,建立一個(gè)恰當(dāng)?shù)慕?jīng)濟(jì)效益指標(biāo)體系。通過(guò)計(jì)算30個(gè)企業(yè)8個(gè)指標(biāo)的相關(guān)系數(shù)距離,數(shù)據(jù)是1-r2。得如下表:

x1x2

x3

x4x5

x6

x7

x8

x10

0.600

0.430.460

0.470.450.120

0.570.450.230.220

0.380.400.210.290.220

0.310.790.650.700.800.660

0.450.450.270.230.140.190.770試用將它們聚類。x2

x3x4x5

x6

x7

x8根據(jù)美國(guó)等20個(gè)國(guó)家和地區(qū)的信息基礎(chǔ)設(shè)施的發(fā)展?fàn)顩r進(jìn)行分類。Call—每千人擁有的電話線數(shù);movel—每千人戶居民擁有的蜂窩移動(dòng)電話數(shù);fee—高峰時(shí)期每三分鐘國(guó)際電話的成本;comp—每千人擁有的計(jì)算機(jī)數(shù);mips—每千人計(jì)算機(jī)功率(每秒百萬(wàn)指令);

net—每千人互聯(lián)網(wǎng)絡(luò)戶主數(shù)。

國(guó)家callmovel

fee

comp

mips

netmeiguo631.6161.90.364032607335.34riben498.4143.23.57176102236.26deguo557.670.60284ruidian684.1281.81.42461666029.39ruishi64493.51.982341362122.68xinjiapo498.4147.52.52841357813.49taiwan469.456.13.6811969111.72hanguo434.5733.369957951.66baxi81.916.33.02198760.52zhili138.68.201.43114111.28moxige92.29.82.613117510.35eluosi174.955.122411010.48bolan1696.53.684017961.45xiongyali262.249.42.666830673.09malaixiya195.588.44.195327341.25taiguo78.627.84.952216620.11yindu13.60.306.2821010.01faguo559.142.91.27201117024.76yingguo521.10122.50.982481446111.91PseudoFStatistic0102030405060708090100110120NumberofClusters12345678910111213141516171819§2動(dòng)態(tài)聚類一、思想 系統(tǒng)聚類法是一種比較成功的聚類方法。然而當(dāng)樣本點(diǎn)數(shù)量十分龐大時(shí),則是一件非常繁重的工作,且聚類的計(jì)算速度也比較慢。比如在市場(chǎng)抽樣調(diào)查中,有4萬(wàn)人就其對(duì)衣著的偏好作了回答,希望能迅速將他們分為幾類。這時(shí),采用系統(tǒng)聚類法就很困難,而動(dòng)態(tài)聚類法就會(huì)顯得方便,適用。動(dòng)態(tài)聚類解決的問(wèn)題是:假如有個(gè)樣本點(diǎn),要把它們分為類,使得每一類內(nèi)的元素都是聚合的,并且類與類之間還能很好地區(qū)別開(kāi)。動(dòng)態(tài)聚類使用于大型數(shù)據(jù)。選擇凝聚點(diǎn)分類修改分類分類是否合理分類結(jié)束YesNo用一個(gè)簡(jiǎn)單的例子來(lái)說(shuō)明動(dòng)態(tài)聚類法的工作過(guò)程。例如我們要把圖中的點(diǎn)分成兩類??焖倬垲惖牟襟E:

1、隨機(jī)選取兩個(gè)點(diǎn)和作為聚核。

2、對(duì)于任何點(diǎn),分別計(jì)算

3、若,則將劃為第一類,否則劃給第二類。于是得圖(b)的兩個(gè)類。

4、分別計(jì)算兩個(gè)類的重心,則得和,以其為新的聚核,對(duì)空間中的點(diǎn)進(jìn)行重新分類,得到新分類。(a)空間的群點(diǎn)(b)任取兩個(gè)聚核

(c)第一次分類(d)求各類中心

(e)第二次分類二、選擇凝聚點(diǎn)和確定初始分類凝聚點(diǎn)就是一批有代表性的點(diǎn),是欲形成類的中心。凝聚點(diǎn)的選擇直接決定初始分類,對(duì)分類結(jié)果也有很大的影響,由于凝聚點(diǎn)的不同選擇,其最終分類結(jié)果也將出現(xiàn)不同。故選擇時(shí)要慎重.通常選擇凝聚點(diǎn)的方法有:

(1)人為選擇,當(dāng)人們對(duì)所欲分類的問(wèn)題有一定了解時(shí),根據(jù)經(jīng)驗(yàn),預(yù)先確定分類個(gè)數(shù)和初始分類,并從每一類中選擇一個(gè)有代表性的樣品作為凝聚點(diǎn)。

(2)將數(shù)據(jù)人為地分為A類,計(jì)算每一類的重心,就將這些重心作為凝聚點(diǎn)。

(3)用密度法選擇凝聚點(diǎn):以某個(gè)正數(shù)d為半徑,以每個(gè)樣品為球心,落在這個(gè)球內(nèi)的樣品數(shù)(不包括作為球心的樣品)就叫做這個(gè)樣品的密度。計(jì)算所有樣品點(diǎn)的密度后,首先選擇密度最大的樣品作為第一凝聚點(diǎn),并且人為地確定一個(gè)正數(shù)D(一般D>d,常取D=2d)。然后選出次大密度的樣品點(diǎn),若它與第一個(gè)凝聚點(diǎn)的距離大于D,則將其作為第二個(gè)凝聚點(diǎn);否則舍去這點(diǎn),再選密度次于它的樣品。這樣,按密度大小依次考查,直至全部樣品考查完畢為止.此方法中,d要給的合適,太大了使凝聚點(diǎn)個(gè)數(shù)太少,太小了使凝聚點(diǎn)個(gè)數(shù)太多。

(5)隨機(jī)地選擇,如果對(duì)樣品的性質(zhì)毫無(wú)所知,可采用隨機(jī)數(shù)表來(lái)選擇,打算分幾類就選幾個(gè)凝聚點(diǎn)?;蛘呔陀们癆個(gè)樣品作為凝聚點(diǎn)(假設(shè)分A類)。這方法一般不提倡使用。

(4)人為地選擇一正數(shù)d,首先以所有樣品的均值作為第一凝聚點(diǎn)。然后依次考察每個(gè)樣品,若某樣品與已選定的凝聚點(diǎn)的距離均大于d,該樣品作為新的凝聚點(diǎn),否則考察下一個(gè)樣品。確定初始分類常用的方法有:

(1)人為分類,憑經(jīng)驗(yàn)將樣品進(jìn)行初步分類.

(2)選擇凝聚點(diǎn)后,每個(gè)樣品按與其距離最近的凝聚點(diǎn)歸類。

(3)選擇一批凝聚點(diǎn)后,每個(gè)凝聚點(diǎn)自成一類,將樣品依次歸入其距離最近的凝聚點(diǎn)所在的類,并重新計(jì)算該類的重心,以代替原來(lái)的凝聚點(diǎn),再考慮下一個(gè)樣品的歸類,直至所有樣品都?xì)w類為止.

(4)用某種聚類方法得到一個(gè)分類,這個(gè)分類就可作為初始分類.當(dāng)樣本量大時(shí),有時(shí)只用部分樣品按某種聚類方法進(jìn)行分類.用每類重心作為凝聚點(diǎn),再用(2)或(3)的方法對(duì)全部樣品歸類后得到初始分類.三、衡量聚類結(jié)果的合理性指標(biāo)和算法終止的標(biāo)準(zhǔn)

定義設(shè)表示在第n次聚類后得到的第i類集合,,為第n次聚類所得到的聚核。定義

若分類不合理時(shí),會(huì)很大,隨著分類的過(guò)程,逐漸下降,并趨于穩(wěn)定。定義第i類中所有元素與其重心的距離的平方和:

是事前給定的一個(gè)充分小量。為所有K個(gè)類中所有元素與其重心的距離的平方和。算法終止的標(biāo)準(zhǔn)是五、動(dòng)態(tài)聚類步驟為:第一,選擇若干個(gè)觀測(cè)值點(diǎn)為“凝聚點(diǎn)”;第二,可選擇地,通過(guò)分配每個(gè)“凝聚點(diǎn)”最近的類里來(lái)形成臨時(shí)分類。每一次對(duì)一個(gè)觀測(cè)值點(diǎn)進(jìn)行歸類,“凝聚點(diǎn)”更新為這一類目前的均值;第三,可選擇地,通過(guò)分配每個(gè)“凝聚點(diǎn)”最近的類里來(lái)形成臨時(shí)分類。所有的觀測(cè)值點(diǎn)分配完后,這些類的“凝聚點(diǎn)”用臨時(shí)類的均值代替。該步驟可以一直進(jìn)行直到“凝聚點(diǎn)”的改變很小或?yàn)榱銜r(shí)止;第四,最終的分類有分配每一個(gè)觀測(cè)到最近的“凝聚點(diǎn)”而形成。例我國(guó)經(jīng)濟(jì)發(fā)展的總目標(biāo)是到2000年人民生活達(dá)到小康標(biāo)準(zhǔn),因此,了解各地區(qū)目前對(duì)小康生活質(zhì)量的實(shí)現(xiàn)程度。對(duì)各地區(qū)實(shí)現(xiàn)小康生活質(zhì)量的狀況進(jìn)行綜合評(píng)價(jià),對(duì)各級(jí)政府部門具有重要意義。數(shù)據(jù)是1990年全國(guó)30個(gè)省在經(jīng)濟(jì)(jj)、教育(jy)、健康(jk)和居住環(huán)境(jz)四個(gè)方面對(duì)小康標(biāo)準(zhǔn)已經(jīng)實(shí)現(xiàn)的程度,1表示已經(jīng)達(dá)到或超過(guò)小康水平,0表示低于或多或少剛達(dá)到溫飽水平。希望利用該數(shù)據(jù)對(duì)15個(gè)地區(qū)進(jìn)行分類研究。

jjjyjkjz類別距離beijngsh0.72580.94131.00000.500010.29550anghai0.53460.98481.00000.500010.14909

tianjin0.32460.97331.00000.500010.16173henna0.23010.46211.00001.000020.22252

zhejiang0.50250.23741.00000.888220.34448

jilin0.34460.77550.82800.500010.18212

helongji0.28910.78350.80800.500010.22322

fujian0.14060.35241.00000.710220.27468

guangxi0.09390.64980.44351.000020.51560

anhui0.11040.08021.00000.954520.34050

ningxia0.27080.31270.54250.905320.29445

hunan0.06180.56870.43850.500030.41704

jiangxi0.05490.30420.35200.615530.15540Qinghai0.07510.01180.00000.825830.37720

Guizhou0.02860.06000.05900.500030.25968

四、有序樣本聚類法

(一)功能范疇與數(shù)據(jù)類型有序樣本聚類法又稱為最優(yōu)分段法。該方法是由費(fèi)歇在1958年提出的。它主要適用于樣本由一個(gè)變量描述的情況?;蛘邔⒍嘧兞烤C合成為一個(gè)變量來(lái)分析。設(shè)是樣本點(diǎn)構(gòu)成的集合,樣本點(diǎn)在函數(shù)上的取值為。若,則將視為一類。不妨假設(shè)。要將分為類;即,分類時(shí)不能打亂樣本點(diǎn)的順序,即每一類必須呈的形式,即有序樣本聚類。系統(tǒng)聚類開(kāi)始n個(gè)樣品各自自成一類,然后逐步并類,直至所有的樣品被聚為一類為止。而有序聚類則相反,開(kāi)始所有的樣品為一類,然后分為二類、三類等,直到分成n類。每次分類都要求產(chǎn)生的離差平方和的增量最小。例這里n=4,m=3。若將其分為兩類,其結(jié)果應(yīng)該是對(duì)應(yīng)中的點(diǎn)是。有序樣本聚類法常常被用于系統(tǒng)的評(píng)估問(wèn)題,被用來(lái)對(duì)樣本點(diǎn)進(jìn)行分類劃級(jí)。例如,十二個(gè)地區(qū)的經(jīng)濟(jì)發(fā)展指數(shù),排列出來(lái)以后,需要?jiǎng)澐炙麄兊牡燃?jí)。一種方法是按照行政命令。規(guī)定三個(gè)經(jīng)濟(jì)發(fā)達(dá)地區(qū),四個(gè)中等發(fā)達(dá)的地區(qū),三個(gè)一般地區(qū),兩個(gè)發(fā)展較差地區(qū)。這種行政上的規(guī)定往往是不客觀、不合理的。合理的分類應(yīng)該把發(fā)展情況最近似的地區(qū)劃入同一類。這就是有序樣本聚類的工作思路。(二)有序聚類的步驟

設(shè)有序樣品x(1),x(2),…,x(n)。

1、定義類的直徑設(shè)某類G中包含的樣品有

該類的均值向量為用D(i,j)表示這一類的直徑,常用的直徑有:當(dāng)是單變量的時(shí),也可以定義直徑為:2、定義分類的損失函數(shù)用b(n,k)表示將n個(gè)有序的樣品分為k類的某種分法:定義這種分類法的損失函數(shù)為

3、L[b(n,k)]的遞推公式當(dāng)n和k固定時(shí),L[b(n,k)]越小表示各類的離差平方和越小,分類是合理的。因此要尋找一種分法b(n,k),使分類損失函數(shù)L[b(n,k)]達(dá)到最小。記該分法為p[n,k]。以上的兩個(gè)公式的含義是,如果要找到n個(gè)樣品分為k個(gè)類的最優(yōu)分割,應(yīng)建立在將j-1(j=2,3,…,n)個(gè)樣品分為k-1類的最優(yōu)分割的基礎(chǔ)上

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論