




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第分析總結(jié)Python數(shù)據(jù)化運(yùn)營KMeans聚類以Python使用Keans進(jìn)行聚類分析的簡(jiǎn)單舉例應(yīng)用介紹聚類分析。
聚類分析或聚類是對(duì)一組對(duì)象進(jìn)行分組的任務(wù),使得同一組(稱為聚類)中的對(duì)象(在某種意義上)與其他組(聚類)中的對(duì)象更相似(在某種意義上)。
它是探索性數(shù)據(jù)挖掘的主要任務(wù),也是統(tǒng)計(jì)數(shù)據(jù)分析的常用技術(shù),用于許多領(lǐng)域,包括機(jī)器學(xué)習(xí),模式識(shí)別,圖像分析,信息檢索,生物信息學(xué),數(shù)據(jù)壓縮和計(jì)算機(jī)圖形學(xué)。
一般應(yīng)用場(chǎng)景
目標(biāo)用戶的群體分類:
根據(jù)運(yùn)營或商業(yè)目的挑選出來的變量,對(duì)目標(biāo)群體進(jìn)行聚類,將目標(biāo)群體分成幾個(gè)有明顯的特征區(qū)別的細(xì)分群體,在運(yùn)營活動(dòng)中為這些細(xì)分群體采用精細(xì)化、個(gè)性化的運(yùn)營和服務(wù),提升運(yùn)營的效率和商業(yè)效果。
不同產(chǎn)品的價(jià)值組合:
按特定的指標(biāo)變量對(duì)眾多產(chǎn)品種類進(jìn)行聚類。將產(chǎn)品體系細(xì)分成具有不同價(jià)值、不同目的、多維度產(chǎn)品組合,在此基礎(chǔ)上制定相應(yīng)的產(chǎn)品開發(fā)計(jì)劃、運(yùn)營計(jì)劃和服務(wù)計(jì)劃。
探索、發(fā)現(xiàn)孤立點(diǎn)及異常值:
主要是風(fēng)控應(yīng)用。孤立點(diǎn)可能會(huì)存在欺詐的風(fēng)險(xiǎn)成分。
聚類的常見方法
分為基于劃分、層次、密度、網(wǎng)格、統(tǒng)計(jì)學(xué)、模型等類型的算法,典型算法包括K均值(經(jīng)典的聚類算法)、DBSCAN、兩步聚類、BIRCH、譜聚類等。
Keans聚類實(shí)現(xiàn)
importnumpyasnp
importmatplotlib.pyplotasplt
fromsklearn.clusterimportKMeans
fromsklearnimportmetrics
importrandom
#隨機(jī)生成100組包含3組特征的數(shù)據(jù)
feature=[[random.random(),random.random(),random.random()]foriinrange(100)]
label=[int(random.randint(0,2))foriinrange(100)]
#轉(zhuǎn)換數(shù)據(jù)格式
x_feature=np.array(feature)
#訓(xùn)練聚類模型
n_clusters=3#設(shè)置聚類數(shù)量
model_kmeans=KMeans(n_clusters=n_clusters,random_state=0)#建立聚類模型對(duì)象
model_kmeans.fit(x_feature)#訓(xùn)練聚類模型
y_pre=model_kmeans.predict(x_feature)#預(yù)測(cè)聚類模型
y_pre
聚類的評(píng)估指標(biāo)
inertias
是K均值模型對(duì)象的屬性,表示樣本距離最近的聚類中心的總和,它是作為在沒有真實(shí)分類結(jié)果標(biāo)簽下的非監(jiān)督式評(píng)估指標(biāo)。
該值越小越好,值越小證明樣本在類間的分布越集中,即類內(nèi)的距離越小。
#樣本距離最近的聚類中心的總和
inertias=model_kmeans.inertia_
adjusted_rand_s:
調(diào)整后的蘭德指數(shù)(AdjustedRandIndex),蘭德指數(shù)通過考慮在預(yù)測(cè)和真實(shí)聚類中在相同或不同聚類中分配的所有樣本對(duì)和計(jì)數(shù)對(duì)來計(jì)算兩個(gè)聚類之間的相似性度量。
調(diào)整后的蘭德指數(shù)通過對(duì)蘭德指數(shù)的調(diào)整得到獨(dú)立于樣本量和類別的接近于0的值,其取值范圍為[-1,1],負(fù)數(shù)代表結(jié)果不好,越接近于1越好意味著聚類結(jié)果與真實(shí)情況越吻合。
#調(diào)整后的蘭德指數(shù)
adjusted_rand_s=metrics.adjusted_rand_score(label,y_pre)
mutual_info_s:
互信息(MutualInformation,MI),互信息是一個(gè)隨機(jī)變量中包含的關(guān)于另一個(gè)隨機(jī)變量的信息量,在這里指的是相同數(shù)據(jù)的兩個(gè)標(biāo)簽之間的相似度的量度,結(jié)果是非負(fù)值。
#互信息
mutual_info_s=metrics.mutual_info_score(label,y_pre)
adjusted_mutual_info_s:
調(diào)整后的互信息(AdjustedMutualInformation,AMI),調(diào)整后的互信息是對(duì)互信息評(píng)分的調(diào)整得分。
它考慮到對(duì)于具有更大數(shù)量的聚類群,通常MI較高,而不管實(shí)際上是否有更多的信息共享,它通過調(diào)整聚類群的概率來糾正這種影響。
當(dāng)兩個(gè)聚類集相同(即完全匹配)時(shí),AMI返回值為1;隨機(jī)分區(qū)(獨(dú)立標(biāo)簽)平均預(yù)期AMI約為0,也可能為負(fù)數(shù)。
#調(diào)整后的互信息
adjusted_mutual_info_s=metrics.adjusted_mutual_info_score(label,y_pre)
homogeneity_s:
同質(zhì)化得分(Homogeneity),如果所有的聚類都只包含屬于單個(gè)類的成員的數(shù)據(jù)點(diǎn),則聚類結(jié)果將滿足同質(zhì)性。其取值范圍[0,1]值越大意味著聚類結(jié)果與真實(shí)情況越吻合。
#同質(zhì)化得分
homogeneity_s=metrics.homogeneity_score(label,y_pre)
completeness_s:
完整性得分(Completeness),如果作為給定類的成員的所有數(shù)據(jù)點(diǎn)是相同集群的元素,則聚類結(jié)果滿足完整性。其取值范圍[0,1],值越大意味著聚類結(jié)果與真實(shí)情況越吻合。
#完整性得分
completeness_s=pleteness_score(label,y_pre)
v_measure_s:
它是同質(zhì)化和完整性之間的諧波平均值,v=2(均勻性完整性)/(均勻性+完整性)。其取值范圍[0,1],值越大意味著聚類結(jié)果與真實(shí)情況越吻合。
v_measure_s=metrics.v_measure_score(label,y_pre)
silhouette_s:
輪廓系數(shù)(Silhouette),它用來計(jì)算所有樣本的平均輪廓系數(shù),使用平均群內(nèi)距離和每個(gè)樣本的平均最近簇距離來計(jì)算,它是一種非監(jiān)督式評(píng)估指標(biāo)。其最高值為1,最差值為-1,0附近的值表示重疊的聚類,負(fù)值通常表示樣本已被分配到錯(cuò)誤的集群。
#平均輪廓系數(shù)
silhouette_s=metrics.silhouette_score(x_feature,y_pre,metric='euclidean')
calinski_harabaz_s:
該分?jǐn)?shù)定義為群內(nèi)離散與簇間離散的比值,它是一種非監(jiān)督式評(píng)估指標(biāo)。
#Calinski和Harabaz得分
calinski_harabaz_s=metrics.calinski_harabasz_score(x_feature,y_pre)
聚類效果可視化
#模型效果可視化
centers=model_kmeans.cluster_centers_#各類別中心
colors=['#4EACC5','#FF9C34','#4E9A06']#設(shè)置不同類別的顏色
plt.figure()#建立畫布
foriinrange(n_clusters):#循環(huán)讀類別
index_sets=np.where(y_pre==i)#找到相同類的索引集合
cluster=x_feature[index_sets]#將相同類的數(shù)據(jù)劃分為一個(gè)聚類子集
plt.scatter(cluster[:,0],cluster[:,1],c=colors[i],marker='.')#展示聚類子集內(nèi)的樣本點(diǎn)
plt.plot(centers[i][0],centers[i][1],'o',markerfacecolor=colors[i],markeredgecolor='k',
markersize=6)#展示各聚類子集的中心
plt.show()#展示圖像
#模型應(yīng)用
new_X=[1,3.6,9.9]
cl
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 高端國際旅行意外救援及安全防護(hù)服務(wù)協(xié)議
- 游戲聯(lián)運(yùn)平臺(tái)數(shù)據(jù)合作推廣合同
- 2025至2031年中國素色提花毛巾市場(chǎng)現(xiàn)狀分析及前景預(yù)測(cè)報(bào)告
- 2025至2030年中國鋸齒彈性墊圈行業(yè)投資前景及策略咨詢報(bào)告
- 2025至2030年中國球頭襯套市場(chǎng)分析及競(jìng)爭(zhēng)策略研究報(bào)告
- 2025至2030年中國開胸電鋸行業(yè)投資前景及策略咨詢報(bào)告
- 2025-2030年中國煙囪擋板地面調(diào)節(jié)機(jī)構(gòu)數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 2024至2030年中國防爆罐行業(yè)投資前景及策略咨詢研究報(bào)告
- 2024至2030年中國液壓放料機(jī)行業(yè)投資前景及策略咨詢研究報(bào)告
- 2024至2030年中國圓粉劑瓶行業(yè)投資前景及策略咨詢研究報(bào)告
- 2025年FRM金融風(fēng)險(xiǎn)管理師考試金融風(fēng)險(xiǎn)管理法規(guī)試卷
- 農(nóng)藥銷售策略優(yōu)化路徑-全面剖析
- 用戶思維在產(chǎn)品創(chuàng)新中的應(yīng)用案例
- 《Photoshop實(shí)例教程(Photoshop 2022)第3版》全套教學(xué)課件
- 消防維??己藰?biāo)準(zhǔn)
- 【初中化學(xué)】常見的鹽-2024-2025學(xué)年九年級(jí)化學(xué)科粵版(2024)下冊(cè)
- 杭州職高招生試題及答案
- 中國教育社會(huì)問題
- 2024江蘇南通高新控股集團(tuán)及下屬子企業(yè)招聘9人筆試參考題庫附帶答案詳解
- 食品合規(guī)管理職業(yè)技能等級(jí)標(biāo)準(zhǔn)
- 2025年美術(shù)國家考試試題及答案
評(píng)論
0/150
提交評(píng)論