分析總結(jié)Python數(shù)據(jù)化運(yùn)營KMeans聚類

上傳人：搞*** IP屬地：四川上傳時(shí)間：2025-05-11 格式：DOCX 頁數(shù)：7 大?。?8.50KB 積分：15 舉報(bào) 版權(quán)申訴

分析總結(jié)Python數(shù)據(jù)化運(yùn)營KMeans聚類_第2頁

分析總結(jié)Python數(shù)據(jù)化運(yùn)營KMeans聚類_第3頁

分析總結(jié)Python數(shù)據(jù)化運(yùn)營KMeans聚類_第4頁

分析總結(jié)Python數(shù)據(jù)化運(yùn)營KMeans聚類_第5頁

已閱讀5頁，還剩2頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第分析總結(jié)Python數(shù)據(jù)化運(yùn)營KMeans聚類以Python使用Keans進(jìn)行聚類分析的簡(jiǎn)單舉例應(yīng)用介紹聚類分析。

聚類分析或聚類是對(duì)一組對(duì)象進(jìn)行分組的任務(wù)，使得同一組（稱為聚類）中的對(duì)象（在某種意義上）與其他組（聚類）中的對(duì)象更相似（在某種意義上）。

它是探索性數(shù)據(jù)挖掘的主要任務(wù)，也是統(tǒng)計(jì)數(shù)據(jù)分析的常用技術(shù)，用于許多領(lǐng)域，包括機(jī)器學(xué)習(xí)，模式識(shí)別，圖像分析，信息檢索，生物信息學(xué)，數(shù)據(jù)壓縮和計(jì)算機(jī)圖形學(xué)。

一般應(yīng)用場(chǎng)景

目標(biāo)用戶的群體分類：

根據(jù)運(yùn)營或商業(yè)目的挑選出來的變量，對(duì)目標(biāo)群體進(jìn)行聚類，將目標(biāo)群體分成幾個(gè)有明顯的特征區(qū)別的細(xì)分群體，在運(yùn)營活動(dòng)中為這些細(xì)分群體采用精細(xì)化、個(gè)性化的運(yùn)營和服務(wù)，提升運(yùn)營的效率和商業(yè)效果。

不同產(chǎn)品的價(jià)值組合：

按特定的指標(biāo)變量對(duì)眾多產(chǎn)品種類進(jìn)行聚類。將產(chǎn)品體系細(xì)分成具有不同價(jià)值、不同目的、多維度產(chǎn)品組合，在此基礎(chǔ)上制定相應(yīng)的產(chǎn)品開發(fā)計(jì)劃、運(yùn)營計(jì)劃和服務(wù)計(jì)劃。

探索、發(fā)現(xiàn)孤立點(diǎn)及異常值：

主要是風(fēng)控應(yīng)用。孤立點(diǎn)可能會(huì)存在欺詐的風(fēng)險(xiǎn)成分。

聚類的常見方法

分為基于劃分、層次、密度、網(wǎng)格、統(tǒng)計(jì)學(xué)、模型等類型的算法，典型算法包括K均值（經(jīng)典的聚類算法）、DBSCAN、兩步聚類、BIRCH、譜聚類等。

Keans聚類實(shí)現(xiàn)

importnumpyasnp

importmatplotlib.pyplotasplt

fromsklearn.clusterimportKMeans

fromsklearnimportmetrics

importrandom

#隨機(jī)生成100組包含3組特征的數(shù)據(jù)

feature=[[random.random(),random.random(),random.random()]foriinrange(100)]

label=[int(random.randint(0,2))foriinrange(100)]

#轉(zhuǎn)換數(shù)據(jù)格式

x_feature=np.array(feature)

#訓(xùn)練聚類模型

n_clusters=3#設(shè)置聚類數(shù)量

model_kmeans=KMeans(n_clusters=n_clusters,random_state=0)#建立聚類模型對(duì)象

model_kmeans.fit(x_feature)#訓(xùn)練聚類模型

y_pre=model_kmeans.predict(x_feature)#預(yù)測(cè)聚類模型

y_pre

聚類的評(píng)估指標(biāo)

inertias

是K均值模型對(duì)象的屬性，表示樣本距離最近的聚類中心的總和，它是作為在沒有真實(shí)分類結(jié)果標(biāo)簽下的非監(jiān)督式評(píng)估指標(biāo)。

該值越小越好，值越小證明樣本在類間的分布越集中，即類內(nèi)的距離越小。

#樣本距離最近的聚類中心的總和

inertias=model_kmeans.inertia_

adjusted_rand_s：

調(diào)整后的蘭德指數(shù)（AdjustedRandIndex），蘭德指數(shù)通過考慮在預(yù)測(cè)和真實(shí)聚類中在相同或不同聚類中分配的所有樣本對(duì)和計(jì)數(shù)對(duì)來計(jì)算兩個(gè)聚類之間的相似性度量。

調(diào)整后的蘭德指數(shù)通過對(duì)蘭德指數(shù)的調(diào)整得到獨(dú)立于樣本量和類別的接近于0的值，其取值范圍為[-1,1]，負(fù)數(shù)代表結(jié)果不好，越接近于1越好意味著聚類結(jié)果與真實(shí)情況越吻合。

#調(diào)整后的蘭德指數(shù)

adjusted_rand_s=metrics.adjusted_rand_score(label,y_pre)

mutual_info_s：

互信息（MutualInformation,MI），互信息是一個(gè)隨機(jī)變量中包含的關(guān)于另一個(gè)隨機(jī)變量的信息量，在這里指的是相同數(shù)據(jù)的兩個(gè)標(biāo)簽之間的相似度的量度，結(jié)果是非負(fù)值。

#互信息

mutual_info_s=metrics.mutual_info_score(label,y_pre)

adjusted_mutual_info_s：

調(diào)整后的互信息（AdjustedMutualInformation,AMI），調(diào)整后的互信息是對(duì)互信息評(píng)分的調(diào)整得分。

它考慮到對(duì)于具有更大數(shù)量的聚類群，通常MI較高，而不管實(shí)際上是否有更多的信息共享，它通過調(diào)整聚類群的概率來糾正這種影響。

當(dāng)兩個(gè)聚類集相同（即完全匹配）時(shí)，AMI返回值為1；隨機(jī)分區(qū)（獨(dú)立標(biāo)簽）平均預(yù)期AMI約為0，也可能為負(fù)數(shù)。

#調(diào)整后的互信息

adjusted_mutual_info_s=metrics.adjusted_mutual_info_score(label,y_pre)

homogeneity_s：

同質(zhì)化得分（Homogeneity），如果所有的聚類都只包含屬于單個(gè)類的成員的數(shù)據(jù)點(diǎn)，則聚類結(jié)果將滿足同質(zhì)性。其取值范圍[0,1]值越大意味著聚類結(jié)果與真實(shí)情況越吻合。

#同質(zhì)化得分

homogeneity_s=metrics.homogeneity_score(label,y_pre)

completeness_s：

完整性得分（Completeness），如果作為給定類的成員的所有數(shù)據(jù)點(diǎn)是相同集群的元素，則聚類結(jié)果滿足完整性。其取值范圍[0,1]，值越大意味著聚類結(jié)果與真實(shí)情況越吻合。

#完整性得分

completeness_s=pleteness_score(label,y_pre)

v_measure_s：

它是同質(zhì)化和完整性之間的諧波平均值，v=2（均勻性完整性）/（均勻性+完整性）。其取值范圍[0,1]，值越大意味著聚類結(jié)果與真實(shí)情況越吻合。

v_measure_s=metrics.v_measure_score(label,y_pre)

silhouette_s：

輪廓系數(shù)（Silhouette），它用來計(jì)算所有樣本的平均輪廓系數(shù)，使用平均群內(nèi)距離和每個(gè)樣本的平均最近簇距離來計(jì)算，它是一種非監(jiān)督式評(píng)估指標(biāo)。其最高值為1，最差值為-1,0附近的值表示重疊的聚類，負(fù)值通常表示樣本已被分配到錯(cuò)誤的集群。

#平均輪廓系數(shù)

silhouette_s=metrics.silhouette_score(x_feature,y_pre,metric='euclidean')

calinski_harabaz_s：

該分?jǐn)?shù)定義為群內(nèi)離散與簇間離散的比值，它是一種非監(jiān)督式評(píng)估指標(biāo)。

#Calinski和Harabaz得分

calinski_harabaz_s=metrics.calinski_harabasz_score(x_feature,y_pre)

聚類效果可視化

#模型效果可視化

centers=model_kmeans.cluster_centers_#各類別中心

colors=['#4EACC5','#FF9C34','#4E9A06']#設(shè)置不同類別的顏色

plt.figure()#建立畫布

foriinrange(n_clusters):#循環(huán)讀類別

index_sets=np.where(y_pre==i)#找到相同類的索引集合

cluster=x_feature[index_sets]#將相同類的數(shù)據(jù)劃分為一個(gè)聚類子集

plt.scatter(cluster[:,0],cluster[:,1],c=colors[i],marker='.')#展示聚類子集內(nèi)的樣本點(diǎn)

plt.plot(centers[i][0],centers[i][1],'o',markerfacecolor=colors[i],markeredgecolor='k',

markersize=6)#展示各聚類子集的中心

plt.show()#展示圖像

#模型應(yīng)用

new_X=[1,3.6,9.9]

人人文庫> 全部分類> 辦公材料 > 辦公文檔

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

分析總結(jié)Python數(shù)據(jù)化運(yùn)營KMeans聚類

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

分析總結(jié)Python數(shù)據(jù)化運(yùn)營KMeans聚類

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔