聚類(lèi)分析.doc_第1頁(yè)
聚類(lèi)分析.doc_第2頁(yè)
聚類(lèi)分析.doc_第3頁(yè)
聚類(lèi)分析.doc_第4頁(yè)
聚類(lèi)分析.doc_第5頁(yè)
已閱讀5頁(yè),還剩12頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

。聚類(lèi)分析專(zhuān)題6.1 引言俗話(huà)說(shuō),“物以類(lèi)聚,人以群分”,在自然科學(xué)和社會(huì)科學(xué)等各領(lǐng)域中,存在著大量的分類(lèi)問(wèn)題。分類(lèi)學(xué)是人類(lèi)認(rèn)識(shí)世界的基礎(chǔ)科學(xué),在古老的分類(lèi)學(xué)中,人們主要靠經(jīng)驗(yàn)和專(zhuān)業(yè)知識(shí)進(jìn)行定性的分類(lèi),很少利用數(shù)學(xué)工具進(jìn)行定量的分類(lèi)。隨著人類(lèi)科學(xué)技術(shù)的發(fā)展,對(duì)分類(lèi)的要求越來(lái)越高,以致有時(shí)僅憑經(jīng)驗(yàn)和專(zhuān)業(yè)知識(shí)難以確切地進(jìn)行分類(lèi),于是人們逐漸地把數(shù)學(xué)工具引用到了分類(lèi)學(xué)中,這便形成了數(shù)值分類(lèi)學(xué)這一學(xué)科,之后又將多元分析的技術(shù)引入到數(shù)值分類(lèi)學(xué),便又從數(shù)值分類(lèi)學(xué)中分離出一個(gè)重要分支聚類(lèi)分析。與多元分析的其它分析方法相比,聚類(lèi)分析方法較為粗糙,理論上還不夠完善,正處于發(fā)展階段。但是,由于該方法應(yīng)用方便,分類(lèi)效果較好,因此越來(lái)越為人們所重視。這些年來(lái)聚類(lèi)分析的方法發(fā)展較快,內(nèi)容越來(lái)越豐富。判別分析與聚類(lèi)分析都是研究事物分類(lèi)的基本方法,它們有著不同的分類(lèi)目的,彼此之間既有區(qū)別又有聯(lián)系。各種判別分析方法都要求對(duì)類(lèi)有事先的了解,通常是每一類(lèi)都有一個(gè)樣本,據(jù)此得出判別函數(shù)和規(guī)則,進(jìn)而可對(duì)其它新的樣品屬于哪一類(lèi)作出判斷。對(duì)類(lèi)的事先了解和確定常常可以通過(guò)聚類(lèi)分析得到。聚類(lèi)分析的目的是把分類(lèi)對(duì)象按一定規(guī)則分成若干類(lèi),這些類(lèi)不是事先給定的,而是根據(jù)數(shù)據(jù)的特征確定的。在同一類(lèi)里的這些對(duì)象在某種意義上傾向于彼此相似,而在不同類(lèi)里的對(duì)象傾向于不相似。聚類(lèi)分析能夠用來(lái)概括數(shù)據(jù)而不只是為了尋找“自然的”或“實(shí)在的”分類(lèi)。例如,在選拔少年運(yùn)動(dòng)員時(shí),對(duì)少年的身體形態(tài)、身體素質(zhì)、生理功能的各種指標(biāo)進(jìn)行測(cè)試,據(jù)此對(duì)少年進(jìn)行分類(lèi),分在同一類(lèi)里的少年這些指標(biāo)較為相近。類(lèi)確定好之后,可以根據(jù)各類(lèi)的樣本數(shù)據(jù)得出選材的判別規(guī)則,作為選材的依據(jù)。又如,根據(jù)啤酒中含有的酒精成分、納成分、所含的熱量“卡路里”數(shù)值,可以對(duì)啤酒進(jìn)行分類(lèi)。聚類(lèi)分析根據(jù)分類(lèi)對(duì)象不同分為型聚類(lèi)分析和型聚類(lèi)分析。型聚類(lèi)分析是指對(duì)樣品進(jìn)行聚類(lèi),型聚類(lèi)分析是指對(duì)變量進(jìn)行聚類(lèi)。本章我們主要討論型聚類(lèi)。6.2 距離和相似系數(shù)在對(duì)樣品(或變量)進(jìn)行分類(lèi)時(shí),樣品(或變量)之間的相似性是如何度量的呢?這一節(jié)中,我們介紹兩個(gè)相似性度量距離和相似系數(shù),前者常用來(lái)度量樣品之間的相似性。后者常用來(lái)度量變量之間的相似性。樣品之間的距離和相似系數(shù)有著各種不同的定義,而這些定義與變量的類(lèi)型有著非常密切的關(guān)系。通常變量按測(cè)量尺度的不同可以分為以下三類(lèi):(1) 間隔尺度變量:變量用連續(xù)的量來(lái)表示,如長(zhǎng)度、重量、速度、溫度等。(2) 有序尺度變量:變量度量時(shí)不用明確的數(shù)量表示,而是用等級(jí)來(lái)表示,如某產(chǎn)品分為一等品、二等品、三等品等有次序關(guān)系。(3) 名義尺度變量:變量用一些類(lèi)表示,這些類(lèi)之間既無(wú)等級(jí)關(guān)系也無(wú)數(shù)量關(guān)系,如性別、職業(yè)、產(chǎn)品的型號(hào)等。我們這里主要討論具有間隔尺度變量的樣品聚類(lèi)分析方法。一、距離設(shè)為第個(gè)樣品的第個(gè)指標(biāo),數(shù)據(jù)矩陣列于表6.1。每個(gè)樣品有個(gè)變量,故每個(gè)樣品都可以看成是中的一個(gè)點(diǎn),個(gè)樣品就是中的個(gè)點(diǎn)。在中需定義某種距離,第個(gè)樣品與第個(gè)樣品之間的距離記為,在聚類(lèi)過(guò)程中,距離較近的點(diǎn)傾向于歸為一類(lèi),距離較遠(yuǎn)的點(diǎn)應(yīng)歸屬不同的類(lèi)。所定義的距離一般應(yīng)滿(mǎn)足如下四個(gè)條件:() ,對(duì)一切;() ,當(dāng)且僅當(dāng)?shù)趥€(gè)樣品與第個(gè)樣品的各變量值相同;() ,對(duì)一切;() ,對(duì)一切。表6.1 數(shù)據(jù)矩陣變量樣品12常用的距離有如下幾種:1明考夫斯基(Minkowski)距離第個(gè)樣品與第個(gè)樣品間的明考夫斯基距離定義為(6.2.1)這里為某一自然數(shù),這是一個(gè)最常用最直觀(guān)的距離。當(dāng)時(shí),稱(chēng)為絕對(duì)值距離;當(dāng)時(shí),稱(chēng)為歐氏距離;當(dāng)時(shí),稱(chēng)為切比雪夫距離。當(dāng)各變量的單位不同或雖單位相同但各變量的測(cè)量值相差很大時(shí),不應(yīng)直接采用明考夫斯基距離,而應(yīng)先對(duì)各變量的數(shù)據(jù)作標(biāo)準(zhǔn)化處理,然后用標(biāo)準(zhǔn)化后的數(shù)據(jù)計(jì)算距離。最常用的標(biāo)準(zhǔn)化處理是,令,其中,為第個(gè)變量的樣本均值,為第個(gè)變量的樣本方差。2馬氏(Mahalanobis)距離第個(gè)樣品與第個(gè)樣品間的馬氏距離為(6.2.2)其中,為樣本協(xié)方差矩陣。使用馬氏距離的好處是考慮到了各變量之間的相關(guān)性,并且與各變量的單位無(wú)關(guān)。不足之處是對(duì)馬氏距離公式中的,若始終不變,則往往顯得不妥;若要隨聚類(lèi)過(guò)程而不斷變化,則會(huì)有許多不便。3蘭氏(Lance和Williams)距離當(dāng),時(shí),則可以定義第個(gè)樣品與第個(gè)樣品間的蘭氏距離為(6.2.3)這個(gè)距離與各變量單位無(wú)關(guān),但沒(méi)有考慮變量間的相關(guān)性。由于它對(duì)大的異常值不敏感,故適用于高度偏斜的數(shù)據(jù)。4斜交空間距離由于樣品的各個(gè)變量之間往往存在不同程度的相關(guān)關(guān)系,因此有時(shí)采用歐氏距離顯得不夠理想,有人建議采用斜交空間距離。第個(gè)樣品與第個(gè)樣品間的斜交空間距離定義為其中是變量與變量間的相關(guān)系數(shù)。當(dāng)個(gè)變量互不相關(guān)時(shí),即斜交空間距離退化為歐氏距離(除相差一個(gè)常數(shù)倍外)。以上幾種距離的定義均要求變量是間隔尺度的,如果使用的變量是有序尺度或名義尺度的,則有相應(yīng)的一些定義距離的方法。下例是對(duì)名義尺度變量的一種距離定義。例6.2.1 設(shè)有五個(gè)變量均為名義尺度變量,取值和,取值和,取值和,取值、和,取值和。現(xiàn)有兩個(gè)樣品,這兩個(gè)樣品的第一個(gè)變量都取值,稱(chēng)為配合的,第二個(gè)變量一個(gè)取,一個(gè)取,稱(chēng)為不配合的。記配合的變量數(shù)為,不配合的變量數(shù)為,定義它們之間的距離為(6.2.5)因此與之間的距離為。二、相似系數(shù)聚類(lèi)分析方法不僅用來(lái)對(duì)樣品進(jìn)行分類(lèi),而且可以用來(lái)對(duì)變量進(jìn)行分類(lèi),在對(duì)變量進(jìn)行分類(lèi)時(shí),常常采用相似系數(shù)來(lái)度量變量之間的相似性。變量之間的關(guān)系越是密切,其相似系數(shù)越接近于1(或-1);反之,它們的關(guān)系越是疏遠(yuǎn),其相似系數(shù)越是接近于0。聚類(lèi)時(shí),比較相似的變量?jī)A向于歸為一類(lèi),不怎么相似的變量歸屬不同的類(lèi)。變量與的相似系數(shù)用來(lái)表示,它一般應(yīng)滿(mǎn)足以下三個(gè)條件:(),當(dāng)且僅當(dāng),和為常數(shù);(),對(duì)一切;(),對(duì)一切。最常用的相似系數(shù)有如下兩種:1夾角余弦變量與的夾角余弦定義為(6.2.6)它是中變量的觀(guān)測(cè)向量與變量的觀(guān)測(cè)向量之間夾角的余弦函數(shù),即。2相關(guān)系數(shù)變量與的相關(guān)系數(shù)定義為(6.2.7)相關(guān)系數(shù)我們?cè)脕?lái)表示,這里表示為是為了與其它相似系數(shù)的符號(hào)一致。如果變量與是已標(biāo)準(zhǔn)化了的,則它們間的夾角余弦就是原變量的相關(guān)系數(shù)。變量之間常借助于相似系數(shù)來(lái)定義距離,如令(6.2.8)樣品之間有時(shí)也用相似系數(shù)來(lái)度量樣品間的相似性程度。一般來(lái)說(shuō),同一批數(shù)據(jù)采用不同的相似性度量,會(huì)得到不同的分類(lèi)結(jié)果。在進(jìn)行聚類(lèi)分析的過(guò)程中,應(yīng)根據(jù)實(shí)際情況選取好合適的相似性度量。如在經(jīng)濟(jì)變量分析中,常采用相關(guān)系數(shù)來(lái)描述變量間的相似性程度。一般情況下,相關(guān)系數(shù)比其它的相似系數(shù)有更強(qiáng)的可變性,但分辨力要弱一些。6.3 系統(tǒng)聚類(lèi)法系統(tǒng)聚類(lèi)法是聚類(lèi)分析諸方法中用得最多的一種,其基本思想是:開(kāi)始將個(gè)樣品各自作為一類(lèi),并規(guī)定樣品之間的距離和類(lèi)與類(lèi)之間的距離,然后將距離最近的兩類(lèi)合并成一個(gè)新類(lèi),計(jì)算新類(lèi)與其它類(lèi)的距離(注:未合并的類(lèi)之間的距離不用重新計(jì)算);重復(fù)進(jìn)行兩個(gè)最近類(lèi)的合并,每次減少一類(lèi),直至所有的樣品合并為一類(lèi)。本節(jié)介紹常用的八種系統(tǒng)聚類(lèi)方法,所有這些聚類(lèi)方法的區(qū)別在于類(lèi)與類(lèi)之間距離的計(jì)算方法不同。以下我們用表示第個(gè)樣品與第個(gè)樣品的距離,表示類(lèi),表示與的距離。本節(jié)介紹的系統(tǒng)聚類(lèi)法中,除離差平方和法之外,其余所有的方法因一開(kāi)始每個(gè)樣品自成一類(lèi),類(lèi)與類(lèi)之間的距離與樣品之間的距離相同,即,所以起初的距離矩陣全部相同,記為。一、最短距離法定義類(lèi)與類(lèi)之間的距離為兩類(lèi)最近的樣品間的距離,即(6.3.1)稱(chēng)這種系統(tǒng)聚類(lèi)法為最短距離法。用最短距離法的聚類(lèi)步驟如下:(1)規(guī)定樣品之間的距離,計(jì)算個(gè)樣品的距離矩陣,它是一個(gè)對(duì)稱(chēng)矩陣。(2)選擇中的最小元素,設(shè)為,則將與合并成一個(gè)新類(lèi),記為,即。(3)計(jì)算新類(lèi)與任一類(lèi)之間的距離為(6.3.2)將中的行,列用(6.3.2)式并成一個(gè)新行新列,新行新列對(duì)應(yīng),所得矩陣記為。(4)對(duì)重復(fù)上述對(duì)的兩步得,如此下去直至所有元素合并成一類(lèi)為止。如果某一步中最小的元素不止一個(gè),則對(duì)應(yīng)這些最小元素的類(lèi)可以同時(shí)合并。例6.3.1 設(shè)有五個(gè)樣品,每個(gè)只測(cè)量了一個(gè)指標(biāo),分別為1,2,6,8,11,試用最短距離法將它們分類(lèi)。(1)樣品間采用絕對(duì)值距離(這時(shí)它與其它的明考夫斯基距離完全相同),計(jì)算樣品間的距離矩陣,列于表6.2。表6.2 0105407620109530(2)中最小的元素是,于是將和合并成,并利用(6.3.2)式計(jì)算與其它類(lèi)的距離,列于表6.3。表6.3 0406209530(3)中最小的元素是,于是將和合并成,并利用(6.3.2)式計(jì)算與其它類(lèi)的距離,列于表6.4。表6.4 040930(4)中最小的元素是,于是將和合并成,并利用(6.3.2)式計(jì)算與其它類(lèi)的距離,列于表6.5。表6.5 040(5)最后將和合并為,這時(shí)所有五個(gè)樣品聚為一類(lèi),過(guò)程終止。上述聚類(lèi)過(guò)程可以畫(huà)成一張圖,如圖6.1所示。橫坐標(biāo)的刻度是并類(lèi)的距離,從圖上看,分兩類(lèi)較為合適。這只是從直觀(guān)上確定了類(lèi)的個(gè)數(shù)為2,關(guān)于確定類(lèi)的個(gè)數(shù)問(wèn)題我們將在稍后進(jìn)行討論。二、最長(zhǎng)距離法類(lèi)與類(lèi)之間的距離定義為兩類(lèi)最遠(yuǎn)樣品間的距離,即(6.3.3)稱(chēng)這種系統(tǒng)聚類(lèi)法為最長(zhǎng)距離法。最長(zhǎng)距離法與最短距離法的并類(lèi)步驟完全相同,只是類(lèi)間距離的遞推公式有所不同。設(shè)某步將類(lèi)與合并成一個(gè)新類(lèi),則與任一類(lèi)的距離為(6.3.4)對(duì)例6.3.1采用最長(zhǎng)距離法,與前面相同,將和合并成,計(jì)算()的公式為,的計(jì)算結(jié)果列于表6.6。表6.6 05072010530中的最小元素是,合并和成,計(jì)算()的公式為,的計(jì)算結(jié)果列于表6.7。表6.7 0701050中的最小元素為,將和合并成,見(jiàn)表6.8。計(jì)算的公式為最后將和并為。其聚類(lèi)圖如圖6.2所示,它與圖6.1有相似的形狀,但并類(lèi)的距離要比圖6.1大一些,仍分為兩類(lèi)為宜。表6.8 0100最長(zhǎng)距離法可能被異常值嚴(yán)重地扭曲,這是值得我們?cè)趹?yīng)用中注意的問(wèn)題。一個(gè)有效的方法是刪去這些異常值之后再進(jìn)行聚類(lèi)。三、中間距離法類(lèi)與類(lèi)之間的距離既不取兩類(lèi)最近樣品間的距離,也不取兩類(lèi)最遠(yuǎn)樣品間的距離,而是取介于兩者中間的距離,稱(chēng)之為中間距離法。設(shè)某一步將和合并為,對(duì)于任一類(lèi),考慮由、和為邊組成的三角形(如圖6.3所示),取邊的中線(xiàn)作為。由初等平面幾何可知,的計(jì)算公式為(6.3.5)這就是中間距離法的遞推公式。中間距離法可推廣為更一般的情形,將(6.3.5)式三項(xiàng)的系數(shù)依賴(lài)于某個(gè)參數(shù),即(6.3.6)這里,這種方法稱(chēng)為可變法。四、類(lèi)平均法類(lèi)與類(lèi)之間的平方距離定義為樣品對(duì)之間平方距離的平均數(shù),即(6.3.7)其中和分別為類(lèi)和的樣品個(gè)數(shù),稱(chēng)這種系統(tǒng)聚類(lèi)法為類(lèi)平均法。容易得到它的一個(gè)遞推公式為備注:因?yàn)?,所以,同理備注完畢。由上所述,?6.3.8)類(lèi)平均法較好地利用了所有樣品之間的信息,在很多情況下它被認(rèn)為是一種比較好的系統(tǒng)聚類(lèi)法。在遞推公式(6.3.8)式中,的影響沒(méi)有被反映出來(lái),為此可將該遞推公式進(jìn)一步推廣為(6.3.9)其中,稱(chēng)這種系統(tǒng)聚類(lèi)法為可變類(lèi)平均法。對(duì)例6.3.1采用類(lèi)平均法進(jìn)行聚類(lèi)。如果我們一開(kāi)始就將的每個(gè)元素都平方,則使用遞推公式會(huì)方便許多。(1)計(jì)算,見(jiàn)表6.9,它是將表6.2的各數(shù)平方。表6.9 01025160493640100812590(2)找中的最小元素,它是,將和合并為,計(jì)算與()的距離。這時(shí),由(6.3.8)式計(jì)算得同樣可算得和,列于表6.10。表6.10 020.5042.54090.52590(3)對(duì)重復(fù)上述步驟,將和并為,得平方距離矩陣(見(jiàn)表6.11)。表6.11 031.5090.5170將和合并成得(見(jiàn)表6.12),最后將和合并成,聚類(lèi)過(guò)程終止。其聚類(lèi)圖如圖6.4所示(此處省略)。表6.12 051.170五、重心法類(lèi)與類(lèi)之間的距離定義為它們的重心(均值)之間的歐氏距離。設(shè)和的重心分別為和,則和之間的平方距離為(6.3.10)這種系統(tǒng)聚類(lèi)法稱(chēng)為重心法。重心法在處理異常值方面比其它系統(tǒng)聚類(lèi)法更穩(wěn)健,但是在別的方面一般不如類(lèi)平均法或離差平方和法效果好。六、離差平方和法類(lèi)、和合并成的新類(lèi)的(類(lèi)內(nèi))離差平方和分別是它們反映了各自類(lèi)內(nèi)樣品的分散程度。如果和這兩類(lèi)相距較近,則合并后所增加的離差平方和應(yīng)較小;否則應(yīng)較大。于是我們定義和之間的平方距離為(6.3.12)這種系統(tǒng)聚類(lèi)法稱(chēng)為離差平方和法或Ward法??梢则?yàn)證,這個(gè)距離定義滿(mǎn)足通常定義距離所需滿(mǎn)足的四個(gè)條件。我們現(xiàn)在導(dǎo)出的另一簡(jiǎn)化表達(dá)式。(6.3.13)可見(jiàn),這個(gè)距離與由(6.3.10)式給出的重心法的距離只相差一個(gè)常數(shù)倍。重心法的類(lèi)間距離與兩類(lèi)的樣品數(shù)無(wú)關(guān),而離差平方和法的類(lèi)間距離與兩類(lèi)的樣品數(shù)有較大關(guān)系,兩個(gè)大的類(lèi)傾向于有較大的距離,因而不易合并,這往往符合我們對(duì)聚類(lèi)的實(shí)際要求。離差平方和法在許多場(chǎng)合下優(yōu)于重心法,是比較好的一種系統(tǒng)聚類(lèi)法,但它對(duì)異常值很敏感。七、系統(tǒng)聚類(lèi)法的統(tǒng)一以上我們介紹了常用的八種系統(tǒng)聚類(lèi)法,所有這些方法的并類(lèi)原則或過(guò)程是完全相同的,不同之處在于類(lèi)與類(lèi)之間的距離有不同的定義,因而有不同的距離遞推公式。如果能把它們統(tǒng)一成一個(gè)公式,則將大大有利于計(jì)算機(jī)程序的編制。Lance和Williams于1967年將這些遞推公式統(tǒng)一了起來(lái),統(tǒng)一的公式為:(6.3.15)其中、和是參數(shù),不同的系統(tǒng)聚類(lèi)法,它們有不同的取值。對(duì)例6.3.1幾種方法的聚類(lèi)結(jié)果都相同,但一般而言,不同方法的聚類(lèi)結(jié)果是不完全一樣的。各種方法都有其適用的場(chǎng)合,選用哪種方法需視實(shí)際情況和對(duì)聚類(lèi)結(jié)果的要求而定。為了能取得較好的系統(tǒng)聚類(lèi),必須對(duì)聚類(lèi)的一些性質(zhì)有較清楚的認(rèn)識(shí)。下面我們介紹系統(tǒng)聚類(lèi)法的兩個(gè)性質(zhì)。1單調(diào)性令是系統(tǒng)聚類(lèi)法中第次并類(lèi)時(shí)的距離,如例6.3.1中,用最短距離法時(shí),有且有。如果一種系統(tǒng)聚類(lèi)法能滿(mǎn)足,則稱(chēng)它具有單調(diào)性。這種單調(diào)性符合系統(tǒng)聚類(lèi)法的思想,先合并較相似的類(lèi),后合并較疏遠(yuǎn)的類(lèi)。可以證明,最短距離法、最長(zhǎng)距離法、可變法、類(lèi)平均法、可變類(lèi)平均法和離差平方和法都具有單調(diào)性,但中間距離法和重心法不具有單調(diào)性。2空間的濃縮和擴(kuò)張比較圖6.1和圖6.2可以看到,對(duì)同一問(wèn)題采用不同的系統(tǒng)聚類(lèi)法作聚類(lèi)圖時(shí),橫坐標(biāo)的范圍可以相差很大,最短距離法的范圍,最長(zhǎng)距離法的范圍。設(shè)和是兩個(gè)元素非負(fù)的同階矩陣,若(對(duì)一切),則記作。這個(gè)記號(hào)僅在本節(jié)中使用,請(qǐng)勿與通常涉及非負(fù)定矩陣的記號(hào)相混淆。設(shè)有兩種系統(tǒng)聚類(lèi)法,它們?cè)诘诓降木嚯x矩陣分別為和,若,則稱(chēng)第一種方法比第二種方法使空間擴(kuò)張,或第二種方法比第一種方法使空間濃縮。我們以類(lèi)平均法為基準(zhǔn),其它方法都與它作比較,可以證明有如下一些結(jié)論:(1)(短)(平),(重)(平),即最短距離法和重心法比類(lèi)平均法使空間濃縮。(2)(長(zhǎng))(平),即最長(zhǎng)距離法比類(lèi)平均法使空間擴(kuò)張。(3)當(dāng)時(shí),(變平)(平),即這時(shí)可變類(lèi)平均法比類(lèi)平均法使空間濃縮;當(dāng)時(shí),(變平)(平),即此時(shí)可變類(lèi)平均法比類(lèi)平均法使空間擴(kuò)張;當(dāng)時(shí),可變類(lèi)平均法退化為類(lèi)平均法,即(變平)(平)。以上比較的這些方法中,太濃縮的方法不夠靈敏,太擴(kuò)張的方法靈敏度可能過(guò)高而容易失真。類(lèi)平均法比較適中,它既不太濃縮也不太擴(kuò)張,因此它被認(rèn)為是一種比較理想的方法。八、類(lèi)的個(gè)數(shù)在聚類(lèi)過(guò)程中類(lèi)的個(gè)數(shù)如何來(lái)確定才是適宜的呢?這是一個(gè)十分困難的問(wèn)題,人們至今仍未找到令人滿(mǎn)意的方法,但這又是一個(gè)不可回避的問(wèn)題。下面我們介紹確定類(lèi)個(gè)數(shù)的幾種常用方法。1給定一個(gè)閾值通過(guò)觀(guān)測(cè)聚類(lèi)圖,給出一個(gè)你認(rèn)為合適的閾值,要求類(lèi)與類(lèi)之間的距離要大于,有些樣品可能會(huì)因此而歸不了類(lèi)。這種方法有較強(qiáng)的主觀(guān)性,這是它的不足之處。如圖6.1中,取,即在距離為3.3處切一刀,5個(gè)樣品分為1,2和6,8,11兩個(gè)類(lèi)。2觀(guān)測(cè)樣品的散點(diǎn)圖如果樣品只有兩個(gè)或三個(gè)變量,則可通過(guò)觀(guān)測(cè)數(shù)據(jù)的散點(diǎn)圖來(lái)確定類(lèi)的個(gè)數(shù)。對(duì)于三個(gè)變量,可使用SAS軟件通過(guò)旋轉(zhuǎn)三維坐標(biāo)軸來(lái)觀(guān)測(cè)散點(diǎn)圖。3統(tǒng)計(jì)量設(shè)總樣品數(shù)為,聚類(lèi)時(shí)把所有樣品合并成個(gè)類(lèi),類(lèi)的樣品數(shù)和重心分別是和,則,所有樣品的總

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論