模糊聚類分析_第1頁(yè)
模糊聚類分析_第2頁(yè)
模糊聚類分析_第3頁(yè)
模糊聚類分析_第4頁(yè)
模糊聚類分析_第5頁(yè)
已閱讀5頁(yè),還剩16頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、精選優(yōu)質(zhì)文檔-傾情為你奉上目錄模糊聚類與非模糊聚類比較分析摘要:聚類分析是根據(jù)樣本間的相似度實(shí)現(xiàn)對(duì)樣本的劃分,屬于無(wú)監(jiān)督分類。傳統(tǒng)的聚類分析是研究“非此即彼”的分類問(wèn)題,分類結(jié)果樣本屬于哪一類很明確,而很多實(shí)際的分類問(wèn)題常伴有模糊性,即它不僅僅是屬于一個(gè)特定的類,而是“既此又彼”。因此為了探究模糊聚類與非模糊聚類之間聚類結(jié)果的差別,本文首先采用系統(tǒng)聚類方法對(duì)上市公司132支股票數(shù)據(jù)進(jìn)行聚類,確定比較合理的聚類數(shù)目為11類,然后分別采用K-means聚類與模糊聚類方法對(duì)股票數(shù)據(jù)進(jìn)行聚類分析,最終得出模糊聚類在本案例中比K-means聚類更符合實(shí)際。 關(guān)鍵字:模糊集合,K-means聚類,F(xiàn)CM聚

2、類,WFCM聚類1引言:聚類分析是多元統(tǒng)計(jì)分析的方法之一,屬于無(wú)監(jiān)督分類,是根據(jù)樣本集的內(nèi)在結(jié)構(gòu),按照樣本之間相似度進(jìn)行劃分,使得同類樣本之間相似性盡可能大,不同類樣本之間差異性盡可能大。傳統(tǒng)的聚類分析屬于硬化分,研究對(duì)象的性質(zhì)是非此即彼的,然而,現(xiàn)實(shí)生活中大多數(shù)事物具有亦此亦彼的性質(zhì)。因此傳統(tǒng)的聚類分析方法往往不能很好的解決具有模糊性的聚類問(wèn)題。為此,模糊集合理論開始被應(yīng)用到分類領(lǐng)域,并取得不錯(cuò)成果。本文的研究目的是通過(guò)對(duì)比傳統(tǒng)聚類和模糊聚類的聚類結(jié)果,找出二者之間的不同之處,并說(shuō)明兩種聚類分析方法在實(shí)例中應(yīng)用的優(yōu)缺點(diǎn)。2 理論準(zhǔn)備:2.1 模糊集合理論模糊集合定義:設(shè) 為論域,則稱由如下實(shí)

3、值函數(shù)A : ® 0,1 , u ® A ( u )所確定的集合 A 為 上的模糊集合,而稱A 為模糊集合A 的隸屬函數(shù),A ( u )稱為元素 u 對(duì)于A 的隸屬度。若mA(u) =,則認(rèn)為u完全屬于A ; 若mA(u) =,則認(rèn)為u完全不屬于A,模糊集合是經(jīng)典集合的推廣。2.2模糊C均值聚類(FCM)預(yù)先給定類別數(shù)c,把含有n個(gè)樣本的數(shù)據(jù)集分成c個(gè)模糊類,用每個(gè)類的類別中心 Vj 代表該類,通過(guò)反復(fù)迭代運(yùn)算,逐步降低目標(biāo)函數(shù)的誤差值,當(dāng)目標(biāo)函數(shù)收斂時(shí),聚類完成。目標(biāo)函數(shù): 約束條件: ij0,1,i,j2.3 加權(quán)模糊C均值聚類(WFCM)算法過(guò)程與FCM類似,只是目標(biāo)

4、函數(shù)不同,WFCM算法考慮了各樣本點(diǎn)對(duì)分類的重要性,在FCM算法中加入了權(quán)值pi,pi稱為樣本點(diǎn)的密度,本文中pi采用徑向基函數(shù)方法來(lái)確定,當(dāng)樣本點(diǎn)x遠(yuǎn)離類中心xc時(shí)函數(shù)取值很小,此時(shí)該樣本點(diǎn)對(duì)分類的重要性比較小。最常用的徑向基函數(shù)是高斯核函數(shù) ,形式為 目標(biāo)函數(shù): 約束條件:ij0,1, i,j, 3 聚類分析實(shí)例3.1數(shù)據(jù)準(zhǔn)備3.1.1數(shù)據(jù)表示本文采用數(shù)據(jù)是上市公司2000-2003年共4年132支股票31個(gè)變量的數(shù)據(jù)進(jìn)行聚類分析,表1是各變量所代表的含義。表1 數(shù)據(jù)表示X1每股收益X2每股凈資產(chǎn)······X30凈利潤(rùn)X31未分

5、配利潤(rùn)3.1.2數(shù)據(jù)預(yù)處理為了排除各因素變量的單位不同以及數(shù)量級(jí)間的懸殊差別帶來(lái)的影響,盡可能的反映實(shí)際情況,需要對(duì)數(shù)據(jù)進(jìn)行無(wú)量綱化處理。常用的處理方法有:標(biāo)準(zhǔn)化處理方法和極值處理方法。以下均采用“標(biāo)準(zhǔn)化”處理法。即取 (i=1,2,···,528;j=1,2,···,31)其中xij*為標(biāo)準(zhǔn)觀測(cè)值,其平均值和均方差分別為0和1。式中xj(j=1,2···31)為第j項(xiàng)指標(biāo)原始觀測(cè)值的平均值,sj(j=1,2,···,31)為第j項(xiàng)指標(biāo)原始觀測(cè)值的均方差。3.1.3 確定聚類

6、個(gè)數(shù)如前文所述,聚類分析是無(wú)監(jiān)督分類,分類之前并不知道聚多少類是合適的,所以為了保證分類的合理性,首先借助SPSS軟件對(duì)數(shù)據(jù)進(jìn)行系統(tǒng)聚類以確定合理的分類數(shù)。譜系聚類圖結(jié)果顯示如下,我們初步選擇在距離為5處截取,確定合理聚類數(shù)為11類。圖1 系統(tǒng)聚類譜系圖3.2 借助clementine軟件進(jìn)行K-means聚類為了實(shí)現(xiàn)傳統(tǒng)聚類與模糊聚類結(jié)果的對(duì)比,這里首先對(duì)數(shù)據(jù)做了傳統(tǒng)的K均值聚類,具體的操作流程如下圖2所示圖2 clementine實(shí)現(xiàn)K-means過(guò)程3.2.1 樣本在各類中集中程度對(duì)模型結(jié)果進(jìn)行查看,得到各類中所包含的樣本個(gè)數(shù)如下圖3所示,發(fā)現(xiàn)樣本主要集中在第5,7,8,9,10類。圖3

7、 樣本在各類中集中程度3.2.2 原始數(shù)據(jù)的分類結(jié)果圖4的最后兩列分別是樣本所屬類別和樣本與該類別的類中心之間的距離,如對(duì)于第1個(gè)樣本,屬于第1類,與類中心的距離是0.394 。圖4 K-means聚類結(jié)果3.2.3結(jié)果分析分析總結(jié)上述K-means聚類結(jié)果:對(duì)這528個(gè)記錄的聚類結(jié)果中,在第1,3,5,11類中,樣本的個(gè)數(shù)都比較少,其中第11類僅有一個(gè)樣本,而第7,8,9類中樣本數(shù)分別高達(dá)93,181,97個(gè),這些類中樣本過(guò)于集中,說(shuō)明得到的結(jié)果不是很理想,因此嘗試模糊狀態(tài)下對(duì)數(shù)據(jù)進(jìn)行聚類分析。3.3模糊C均值聚類3.3.1 數(shù)據(jù)集的模糊C劃分設(shè)待分?jǐn)?shù)據(jù)集X=x1,x2,x528表示對(duì)上市公

8、司股票的528次觀測(cè)數(shù)據(jù),xk=xk1,xk2,xk31是第k個(gè)樣本的31個(gè)指標(biāo)向量的取值集合。對(duì)數(shù)據(jù)集進(jìn)行模糊聚類首先要產(chǎn)生X的模糊c劃分,由于聚類屬于無(wú)監(jiān)督分析,需要事先設(shè)定好聚類個(gè)數(shù),這里為了和傳統(tǒng)聚類分析結(jié)果做出比較,把數(shù)據(jù)模糊化為11個(gè)模糊子集X1,X2,X11,且滿足:X1X2X11=X; XiXj=,1ij11;Xi,XiX,1i11。ik=Xixk表示樣本xk屬于模糊子集Xi的程度,其中ik0,1,因此模糊劃分可以用隸屬度矩陣U=ik表示。3.3.2 模糊C均值聚類的目標(biāo)函數(shù)求解方法針對(duì)上述2.2部分中模糊C均值聚類算法的目標(biāo)函數(shù)和約束條件,本文采用拉格朗日乘數(shù)法求解該數(shù)學(xué)規(guī)劃

9、問(wèn)題,分別求得隸屬度 和類中心 表達(dá)式如下: 3.3.3 MATLAB軟件輔助求解參數(shù)設(shè)置調(diào)用MATLAB軟件中自帶的fcm函數(shù)對(duì)上述數(shù)學(xué)規(guī)劃問(wèn)題進(jìn)行求解,其中fcm函數(shù)中一些參數(shù)設(shè)置如表2所示。表2 參數(shù)設(shè)置參數(shù)設(shè)置最大迭代次數(shù)100終止誤差1.00E-05模糊度參數(shù)2聚類個(gè)數(shù)113.3.4符號(hào)表示表3 符號(hào)表示符號(hào)表示Center類中心U隸屬度矩陣obj_fcn目標(biāo)函數(shù)值Data樣本數(shù)據(jù)3.3.5代碼實(shí)現(xiàn)過(guò)程導(dǎo)入數(shù)據(jù):Data1=xlsread(data)調(diào)用函數(shù): center,U,obj_fcn = fcm(data1,11)3.3.6 FCM聚類分析Matlab結(jié)果輸出如圖8,9,1

10、0,11所示,分別得到各樣本的初始化隸屬度矩陣,樣本各類的類中心,最終的樣本隸屬度,目標(biāo)函數(shù)的更新過(guò)程。樣本模糊化圖8 初始化隸屬度矩陣截圖類中心(center)圖9 類中心隸屬度矩陣(U)圖10 隸屬度矩陣目標(biāo)函數(shù)(obj_fcn)圖11目標(biāo)函數(shù)值圖8,9,10分別是模糊C均值聚類最終形成的類中心,隸屬度矩陣,目標(biāo)函數(shù)。由圖8可以看出各類的類中心相差不大,同時(shí)由圖9可以看出隸屬度矩陣幾乎沒(méi)有差別,從圖9中可以看出對(duì)目標(biāo)函數(shù),在3次迭代之后基本趨于平穩(wěn)狀態(tài),目標(biāo)函數(shù)值為1487.6,綜合上述分析認(rèn)為該聚類方法效果不好。在嘗試解決這個(gè)問(wèn)題的過(guò)程中,嘗試修改fcm函數(shù)的模糊度參數(shù),迭代次數(shù),誤差項(xiàng)

11、仍沒(méi)有取得較好結(jié)果,隨后為了避免單只股票4年的數(shù)據(jù)相似度太大而導(dǎo)致聚類效果差,分別抽取2000年到2003年各年的132只股票逐年進(jìn)行分析,仍舊沒(méi)有得出好的聚類結(jié)果,所以文中沒(méi)有進(jìn)行展示??紤]到各樣本點(diǎn)對(duì)聚類的結(jié)果產(chǎn)生的影響不同,下文嘗試改進(jìn)的加權(quán)模糊C均值聚類方法。34 WFCM算法由于MATLAB中沒(méi)有自帶WFCM函數(shù),需要自己進(jìn)行編程,數(shù)據(jù)的模糊化過(guò)程與模糊C均值聚類中相同,這里不再贅述。下面是WFCM運(yùn)行的結(jié)果,具體代碼實(shí)現(xiàn)過(guò)程見附錄A。3.4.1 WFCM聚類結(jié)果展示樣本模糊化圖12 樣本初始化隸屬度矩陣對(duì)比FCM 聚類最終結(jié)果,可以得出在對(duì)目標(biāo)函數(shù)進(jìn)行加權(quán)之后,隸屬度矩陣和類中心都

12、發(fā)生了明顯的改善,說(shuō)明考慮了不同樣本對(duì)聚類結(jié)果的影響之后聚類結(jié)果更好。隸屬度矩陣圖13 WFCM隸屬度矩陣類中心圖14 WFCM類中心3.4.2樣本歸類計(jì)算出U , V ,obj_fcn之后,對(duì)樣本進(jìn)行明確的歸類,這一過(guò)程可以通過(guò)下面兩個(gè)判定準(zhǔn)則來(lái)確定: 判定準(zhǔn)則 1如果 dik=minjdjk (1 j c), 則將樣本Xk歸屬于第 i 類。這個(gè)判定準(zhǔn)則的意義是樣本與哪一個(gè)聚類中心最接近,就將它歸到哪一類。 判定準(zhǔn)則 2如果 uik=maxjujk (1 j c), 這個(gè)判定準(zhǔn)則的意義是樣本對(duì)哪一個(gè)類的隸屬度最大,就將它歸到哪一類。 3.4.3歸類代碼實(shí)現(xiàn)下面我們以判定準(zhǔn)則2來(lái)劃分樣本的類別

13、,代碼過(guò)程如下:圖15 分類代碼3.4.4 樣本歸類結(jié)果及分析運(yùn)行圖11中代碼,得到結(jié)果如圖16所示:圖16 樣本歸類結(jié)果由圖16可以看出,最終樣本歸為10類,除了第2和9類中樣本比較多,其他各類中樣本分布比較均勻,聚類結(jié)果可以接受。4結(jié)論非模糊聚類直接根據(jù)樣本之間相似性進(jìn)行歸類,而模糊聚類是根據(jù)樣本的隸屬度矩陣和相似性矩陣進(jìn)行歸類,其中樣本Xk隸屬于i類的程度即隸屬度,可在 0 到 1 之間取值,而不是如傳統(tǒng)聚類算法中,樣本 Xk隸屬于類的隸屬度只有兩種取值1 或 0, 即屬于與不屬于。這樣,樣本Xk不再明確地屬于某一類,而是對(duì)于每一個(gè)類別都有一個(gè)隸屬度,隸屬度的數(shù)值越大說(shuō)明樣本隸屬于該類的

14、程度越大,反之則越小。模糊聚類的這種模糊劃分描述了樣本聚類過(guò)程中的模糊現(xiàn)象,從而可以獲得更為合理的聚類結(jié)果。對(duì)比K-means聚類結(jié)果圖3和WFCM聚類結(jié)果圖13,圖16,發(fā)現(xiàn)非模糊聚類結(jié)果中樣本集中在第6,7,8,9類中,而在加入了模糊隸屬度之后,模糊聚類結(jié)果有了各個(gè)樣本屬于11個(gè)類的程度,按隸屬度最大原則對(duì)樣本進(jìn)行歸類之后發(fā)現(xiàn)除了第5類之外,樣本在各類中的分布相對(duì)更加均勻,說(shuō)明聚類目的基本達(dá)到.具體到本文所采用的股票數(shù)據(jù)的聚類結(jié)果,可以看出模糊聚類比傳統(tǒng)的聚類結(jié)果更為合理,因此模糊聚類的優(yōu)勢(shì)得到充分體現(xiàn)。5 參考文獻(xiàn)1 Zadeh L A.Fuzzy Sets.Information an

15、d Control.1965,8:338-353.2 Chan K P , Cheung Y S. Clustering of clustersJ . Pattern Recognition ,1992 ,25(2) :211 2173 楊綸標(biāo),高英儀 學(xué)原理及應(yīng)用 華南理工大學(xué)出版社 2005.6 52-774 姚曉紅.模糊聚類分析方法在甘肅農(nóng)業(yè)經(jīng)濟(jì)類型劃分中的應(yīng)用D.蘭州交通大學(xué),2013.5 廖芹,郝志峰 數(shù)據(jù)挖掘與數(shù)學(xué)建模 國(guó)防工業(yè)出版社 20096 高新波 模糊聚類分析及其應(yīng)用 西安電子科技大學(xué)也出版社 20047 葉海軍.模糊聚類分析技術(shù)及其應(yīng)用研究D.合肥工業(yè)大學(xué),20068 張

16、秀梅,王濤 模糊聚類分析方法在學(xué)生成績(jī)?cè)u(píng)價(jià)中的應(yīng)用J渤海大學(xué)學(xué)報(bào):自然科學(xué)版,2007,28(2) 169-172.9 湯效琴,戴汝源 數(shù)據(jù)挖掘中聚類分析的技術(shù)方法 寧夏大學(xué)學(xué)報(bào) 2006.76 附錄附錄A WFCM代碼function center, U, obj_fcn = KFCMClust(data, cluster_n, kernel_b,options) error(nargchk(2,4,nargin); %檢查輸入?yún)?shù)個(gè)數(shù) data_n = size(data, 1); % 求出data的第一維(rows)數(shù),即樣本個(gè)數(shù) in_n = size(data, 2); % 求出da

17、ta的第二維(columns)數(shù),即特征值長(zhǎng)度,目前沒(méi)有用 % 默認(rèn)操作參數(shù) default_b = 150; % 高斯核函數(shù)參數(shù) default_options = 2; % 隸屬度矩陣U的指數(shù) 100; % 最大迭代次數(shù) 1e-5; % 隸屬度最小變化量,迭代終止條件 1; % 每次迭代是否輸出信息標(biāo)志 if nargin = 2, kernel_b = default_b; options = default_options; elseif nargin = 3, options = default_options; else if length(options) < 4, tmp

18、 = default_options; tmp(1:length(options) = options; options = tmp; end nan_index = find(isnan(options)=1); %將denfault_options中對(duì)應(yīng)位置的參數(shù)賦值給options中不是數(shù)的位置. options(nan_index) = default_options(nan_index); if options(1) <= 1, %如果options中的指數(shù)m不超過(guò)1報(bào)錯(cuò) error('The exponent should be greater than 1!'

19、;); end end %將options 中的分量分別賦值給四個(gè)變量; expo = options(1); % 隸屬度矩陣U的指數(shù) max_iter = options(2); % 最大迭代次數(shù) min_impro = options(3); % 隸屬度最小變化量,迭代終止條件 display = options(4); % 每次迭代是否輸出信息標(biāo)志 obj_fcn = zeros(max_iter, 1); % 初始化輸出參數(shù)obj_fcn U = initkfcm(cluster_n, data_n) % 初始化模糊分配矩陣% 初始化聚類中心:從樣本數(shù)據(jù)點(diǎn)中任意選取cluster_n個(gè)

20、樣本作為聚類中心。 index = randperm(data_n); % 對(duì)樣本序數(shù)隨機(jī)排列 center_old = data(index(1:cluster_n),:); % 選取隨機(jī)排列的序數(shù)的前cluster_n個(gè) for i = 1:max_iter, %在第k步循環(huán)中改變聚類中心ceneter,和分配函數(shù)U的隸屬度值; U, center, obj_fcn(i) = stepkfcm(data,U,center_old, expo, kernel_b); if display, fprintf('KFCM:Iteration count = %d, obj. fcn =

21、%fn', i, obj_fcn(i); end center_old = center; % 用新的聚類中心代替老的聚類中心 % 終止條件判別 if i > 1, if abs(obj_fcn(i) - obj_fcn(i-1) < min_impro, break; end, end end iter_n = i; % 實(shí)際迭代次數(shù) obj_fcn(iter_n+1:max_iter) = ; % 子函數(shù) function U = initkfcm(cluster_n, data_n) % 初始化fcm的隸屬度函數(shù)矩陣 U = rand(cluster_n, data_

22、n); col_sum = sum(U); U = U./col_sum(ones(cluster_n, 1), :); % 子函數(shù) function U_new,center_new,obj_fcn = stepkfcm(data,U,center,expo,kernel_b) % 模糊C均值聚類時(shí)迭代的一步 % 輸入: feature_n = size(data,2); % 特征維數(shù) cluster_n = size(center,1); % 聚類個(gè)數(shù) mf = U.expo; % 隸屬度矩陣進(jìn)行指數(shù)運(yùn)算(c行n列) % 計(jì)算新的聚類中心; KernelMat = gaussKernel(center,data,kernel_b); % 計(jì)算高斯核矩陣(c行n列) num = mf.*KernelMat * data; % 式(5.15)的分子(c行p列,p為特征維數(shù)) den = sum(mf.*KernelMat,2); % 式子(5.15)的分子,(c行,1列,尚未擴(kuò)展) center_new = num./(den*ones(1,feature_n); % 計(jì)算新的聚類中心(c行p列,c個(gè)中心)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論