分析總結(jié)Python數(shù)據(jù)化運(yùn)營KMeans聚類_第1頁
分析總結(jié)Python數(shù)據(jù)化運(yùn)營KMeans聚類_第2頁
分析總結(jié)Python數(shù)據(jù)化運(yùn)營KMeans聚類_第3頁
分析總結(jié)Python數(shù)據(jù)化運(yùn)營KMeans聚類_第4頁
分析總結(jié)Python數(shù)據(jù)化運(yùn)營KMeans聚類_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第分析總結(jié)Python數(shù)據(jù)化運(yùn)營KMeans聚類以Python使用Keans進(jìn)行聚類分析的簡(jiǎn)單舉例應(yīng)用介紹聚類分析。

聚類分析或聚類是對(duì)一組對(duì)象進(jìn)行分組的任務(wù),使得同一組(稱為聚類)中的對(duì)象(在某種意義上)與其他組(聚類)中的對(duì)象更相似(在某種意義上)。

它是探索性數(shù)據(jù)挖掘的主要任務(wù),也是統(tǒng)計(jì)數(shù)據(jù)分析的常用技術(shù),用于許多領(lǐng)域,包括機(jī)器學(xué)習(xí),模式識(shí)別,圖像分析,信息檢索,生物信息學(xué),數(shù)據(jù)壓縮和計(jì)算機(jī)圖形學(xué)。

一般應(yīng)用場(chǎng)景

目標(biāo)用戶的群體分類:

根據(jù)運(yùn)營或商業(yè)目的挑選出來的變量,對(duì)目標(biāo)群體進(jìn)行聚類,將目標(biāo)群體分成幾個(gè)有明顯的特征區(qū)別的細(xì)分群體,在運(yùn)營活動(dòng)中為這些細(xì)分群體采用精細(xì)化、個(gè)性化的運(yùn)營和服務(wù),提升運(yùn)營的效率和商業(yè)效果。

不同產(chǎn)品的價(jià)值組合:

按特定的指標(biāo)變量對(duì)眾多產(chǎn)品種類進(jìn)行聚類。將產(chǎn)品體系細(xì)分成具有不同價(jià)值、不同目的、多維度產(chǎn)品組合,在此基礎(chǔ)上制定相應(yīng)的產(chǎn)品開發(fā)計(jì)劃、運(yùn)營計(jì)劃和服務(wù)計(jì)劃。

探索、發(fā)現(xiàn)孤立點(diǎn)及異常值:

主要是風(fēng)控應(yīng)用。孤立點(diǎn)可能會(huì)存在欺詐的風(fēng)險(xiǎn)成分。

聚類的常見方法

分為基于劃分、層次、密度、網(wǎng)格、統(tǒng)計(jì)學(xué)、模型等類型的算法,典型算法包括K均值(經(jīng)典的聚類算法)、DBSCAN、兩步聚類、BIRCH、譜聚類等。

Keans聚類實(shí)現(xiàn)

importnumpyasnp

importmatplotlib.pyplotasplt

fromsklearn.clusterimportKMeans

fromsklearnimportmetrics

importrandom

#隨機(jī)生成100組包含3組特征的數(shù)據(jù)

feature=[[random.random(),random.random(),random.random()]foriinrange(100)]

label=[int(random.randint(0,2))foriinrange(100)]

#轉(zhuǎn)換數(shù)據(jù)格式

x_feature=np.array(feature)

#訓(xùn)練聚類模型

n_clusters=3#設(shè)置聚類數(shù)量

model_kmeans=KMeans(n_clusters=n_clusters,random_state=0)#建立聚類模型對(duì)象

model_kmeans.fit(x_feature)#訓(xùn)練聚類模型

y_pre=model_kmeans.predict(x_feature)#預(yù)測(cè)聚類模型

y_pre

聚類的評(píng)估指標(biāo)

inertias

是K均值模型對(duì)象的屬性,表示樣本距離最近的聚類中心的總和,它是作為在沒有真實(shí)分類結(jié)果標(biāo)簽下的非監(jiān)督式評(píng)估指標(biāo)。

該值越小越好,值越小證明樣本在類間的分布越集中,即類內(nèi)的距離越小。

#樣本距離最近的聚類中心的總和

inertias=model_kmeans.inertia_

adjusted_rand_s:

調(diào)整后的蘭德指數(shù)(AdjustedRandIndex),蘭德指數(shù)通過考慮在預(yù)測(cè)和真實(shí)聚類中在相同或不同聚類中分配的所有樣本對(duì)和計(jì)數(shù)對(duì)來計(jì)算兩個(gè)聚類之間的相似性度量。

調(diào)整后的蘭德指數(shù)通過對(duì)蘭德指數(shù)的調(diào)整得到獨(dú)立于樣本量和類別的接近于0的值,其取值范圍為[-1,1],負(fù)數(shù)代表結(jié)果不好,越接近于1越好意味著聚類結(jié)果與真實(shí)情況越吻合。

#調(diào)整后的蘭德指數(shù)

adjusted_rand_s=metrics.adjusted_rand_score(label,y_pre)

mutual_info_s:

互信息(MutualInformation,MI),互信息是一個(gè)隨機(jī)變量中包含的關(guān)于另一個(gè)隨機(jī)變量的信息量,在這里指的是相同數(shù)據(jù)的兩個(gè)標(biāo)簽之間的相似度的量度,結(jié)果是非負(fù)值。

#互信息

mutual_info_s=metrics.mutual_info_score(label,y_pre)

adjusted_mutual_info_s:

調(diào)整后的互信息(AdjustedMutualInformation,AMI),調(diào)整后的互信息是對(duì)互信息評(píng)分的調(diào)整得分。

它考慮到對(duì)于具有更大數(shù)量的聚類群,通常MI較高,而不管實(shí)際上是否有更多的信息共享,它通過調(diào)整聚類群的概率來糾正這種影響。

當(dāng)兩個(gè)聚類集相同(即完全匹配)時(shí),AMI返回值為1;隨機(jī)分區(qū)(獨(dú)立標(biāo)簽)平均預(yù)期AMI約為0,也可能為負(fù)數(shù)。

#調(diào)整后的互信息

adjusted_mutual_info_s=metrics.adjusted_mutual_info_score(label,y_pre)

homogeneity_s:

同質(zhì)化得分(Homogeneity),如果所有的聚類都只包含屬于單個(gè)類的成員的數(shù)據(jù)點(diǎn),則聚類結(jié)果將滿足同質(zhì)性。其取值范圍[0,1]值越大意味著聚類結(jié)果與真實(shí)情況越吻合。

#同質(zhì)化得分

homogeneity_s=metrics.homogeneity_score(label,y_pre)

completeness_s:

完整性得分(Completeness),如果作為給定類的成員的所有數(shù)據(jù)點(diǎn)是相同集群的元素,則聚類結(jié)果滿足完整性。其取值范圍[0,1],值越大意味著聚類結(jié)果與真實(shí)情況越吻合。

#完整性得分

completeness_s=pleteness_score(label,y_pre)

v_measure_s:

它是同質(zhì)化和完整性之間的諧波平均值,v=2(均勻性完整性)/(均勻性+完整性)。其取值范圍[0,1],值越大意味著聚類結(jié)果與真實(shí)情況越吻合。

v_measure_s=metrics.v_measure_score(label,y_pre)

silhouette_s:

輪廓系數(shù)(Silhouette),它用來計(jì)算所有樣本的平均輪廓系數(shù),使用平均群內(nèi)距離和每個(gè)樣本的平均最近簇距離來計(jì)算,它是一種非監(jiān)督式評(píng)估指標(biāo)。其最高值為1,最差值為-1,0附近的值表示重疊的聚類,負(fù)值通常表示樣本已被分配到錯(cuò)誤的集群。

#平均輪廓系數(shù)

silhouette_s=metrics.silhouette_score(x_feature,y_pre,metric='euclidean')

calinski_harabaz_s:

該分?jǐn)?shù)定義為群內(nèi)離散與簇間離散的比值,它是一種非監(jiān)督式評(píng)估指標(biāo)。

#Calinski和Harabaz得分

calinski_harabaz_s=metrics.calinski_harabasz_score(x_feature,y_pre)

聚類效果可視化

#模型效果可視化

centers=model_kmeans.cluster_centers_#各類別中心

colors=['#4EACC5','#FF9C34','#4E9A06']#設(shè)置不同類別的顏色

plt.figure()#建立畫布

foriinrange(n_clusters):#循環(huán)讀類別

index_sets=np.where(y_pre==i)#找到相同類的索引集合

cluster=x_feature[index_sets]#將相同類的數(shù)據(jù)劃分為一個(gè)聚類子集

plt.scatter(cluster[:,0],cluster[:,1],c=colors[i],marker='.')#展示聚類子集內(nèi)的樣本點(diǎn)

plt.plot(centers[i][0],centers[i][1],'o',markerfacecolor=colors[i],markeredgecolor='k',

markersize=6)#展示各聚類子集的中心

plt.show()#展示圖像

#模型應(yīng)用

new_X=[1,3.6,9.9]

cl

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論