第9章rapidminer-k-means聚類.辨別分析v1.doc_第1頁
第9章rapidminer-k-means聚類.辨別分析v1.doc_第2頁
第9章rapidminer-k-means聚類.辨別分析v1.doc_第3頁
第9章rapidminer-k-means聚類.辨別分析v1.doc_第4頁
第9章rapidminer-k-means聚類.辨別分析v1.doc_第5頁
已閱讀5頁,還剩11頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

RapidMiner數(shù)據(jù)分析與挖掘實戰(zhàn)第9章第9章 K-Means 聚類、辨別分析9.1 理解聚類分析餐飲企業(yè)經(jīng)常會碰到這樣的問題:1) 如何通過餐飲客戶消費行為的測量,進一步評判餐飲客戶的價值和對餐飲客戶進行細分,找到有價值的客戶群和需關注的客戶群? 2) 如何合理對菜品進行分析,以便區(qū)分哪些菜品暢銷毛利又高,哪些菜品滯銷毛利又低? 餐飲企業(yè)遇到的這些問題,可以通過聚類分析解決。9.1.1 常用聚類分析算法與分類不同,聚類分析是在沒有給定劃分類別的情況下,根據(jù)數(shù)據(jù)相似度進行樣本分組的一種方法。與分類模型需要使用有類標記樣本構成的訓練數(shù)據(jù)不同,聚類模型可以建立在無類標記的數(shù)據(jù)上,是一種非監(jiān)督的學習算法。聚類的輸入是一組未被標記的樣本,聚類根據(jù)數(shù)據(jù)自身的距離或相似度將他們劃分為若干組,劃分的原則是組內(nèi)樣本最小化而組間(外部)距離最大化,如圖91所示。圖91 聚類分析建模原理常用聚類方法見表91。表91常用聚類方法類別包括的主要算法劃分(分裂)方法K-Means算法(K-平均)、K-MEDOIDS算法(K-中心點)、CLARANS算法(基于選擇的算法)層次分析方法BIRCH算法(平衡迭代規(guī)約和聚類)、CURE算法(代表點聚類)、CHAMELEON算法(動態(tài)模型)基于密度的方法DBSCAN算法(基于高密度連接區(qū)域)、DENCLUE算法(密度分布函數(shù))、OPTICS算法(對象排序識別)基于網(wǎng)格的方法STING算法(統(tǒng)計信息網(wǎng)絡)、CLIOUE算法(聚類高維空間)、WAVE-CLUSTER算法(小波變換)基于模型的方法統(tǒng)計學方法、神經(jīng)網(wǎng)絡方法常用聚類算法見圖92。表92常用聚類分析算法算法名稱算法描述K-MeansK-均值聚類也叫快速聚類法,在最小化誤差函數(shù)的基礎上將數(shù)據(jù)劃分為預定的類數(shù)K。該算法原理簡單并便于處理大量數(shù)據(jù)。K-中心點K-均值算法對孤立點的敏感性,K-中心點算法不采用簇中對象的平均值作為簇中心,而選用簇中離平均值最近的對象作為簇中心。系統(tǒng)聚類系統(tǒng)聚類也叫多層次聚類,分類的單位由高到低呈樹形結構,且所處的位置越低,其所包含的對象就越少,但這些對象間的共同特征越多。該聚類方法只適合在小數(shù)據(jù)量的時候使用,數(shù)據(jù)量大的時候速度會非常慢。9.1.2 K-Means聚類算法K-Means算法是典型的基于距離的非層次聚類算法,在最小化誤差函數(shù)的基礎上將數(shù)據(jù)劃分為預定的類數(shù)K,采用距離作為相似性的評價指標,即認為兩個對象的距離越近,其相似度就越大。1. 算法過程1) 從N個樣本數(shù)據(jù)中隨機選取K個對象作為初始的聚類中心;2) 分別計算每個樣本到各個聚類中心的距離,將對象分配到距離最近的聚類中;3) 所有對象分配完成后,重新計算K個聚類的中心;4) 與前一次計算得到的K個聚類中心比較,如果聚類中心發(fā)生變化,轉2),否則轉5);5) 當質心不發(fā)生變化時停止并輸出聚類結果。聚類的結果可能依賴于初始聚類中心的隨機選擇,可能使得結果嚴重偏離全局最優(yōu)分類。實踐中,為了得到較好的結果,通常以不同的初始聚類中心,多次運行K-Means算法。在所有對象分配完成后,重新計算K個聚類的中心時,對于連續(xù)數(shù)據(jù),聚類中心取該簇的均值,但是當樣本的某些屬性是分類變量時,均值可能無定義,可以使用K-眾數(shù)方法。2. 數(shù)據(jù)類型與相似性的度量(1) 連續(xù)屬性對于連續(xù)屬性,要先對各屬性值進行零-均值規(guī)范,再進行距離的計算。K-Means聚類算法中,一般需要度量樣本之間的距離、樣本與簇之間的距離以及簇與簇之間的距離。度量樣本之間的相似性最常用的是歐幾里得距離、曼哈頓距離和閔可夫斯基距離;樣本與簇之間的距離可以用樣本到簇中心的距離;簇與簇之間的距離可以用簇中心的距離。用個屬性來表示個樣本的數(shù)據(jù)矩陣如下:歐幾里得距離 (9-1)曼哈頓距離 (9-2)閔可夫斯基距離 (9-3)為正整數(shù),時即為曼哈頓距離;時即為歐幾里得距離。(2) 文檔數(shù)據(jù)對于文檔數(shù)據(jù)使用余弦相似性度量,先將文檔數(shù)據(jù)整理成文檔詞矩陣格式,如表93。表93 文檔詞矩陣lostwinteamscoremusichappysadcoach文檔一1428087106文檔二1133411647文檔三967731485兩個文檔之間的相似度的計算公式為: (9-4)3. 目標函數(shù)使用誤差平方和SSE作為度量聚類質量的目標函數(shù),對于兩種不同的聚類結果,選擇誤差平方和較小的分類結果。連續(xù)屬性的SSE計算公式為: (9-5)文檔數(shù)據(jù)的SSE計算公式為: (9-6)簇的聚類中心計算公式為: (9-7)表94 符號表符號含義K聚類簇的個數(shù)第個簇對象(樣本)簇的聚類中心第個簇中樣本的個數(shù)下面結合具體案例來實現(xiàn)本節(jié)開始提出問題。部分餐飲客戶的消費行為特征數(shù)據(jù)如表95。根據(jù)這些數(shù)據(jù)將客戶分類成不同客戶群,并評價這些客戶群的價值。表95消費行為特征數(shù)據(jù)IDR(最近一次消費時間間隔)F(消費頻率)M(消費總金額)1374579235361632510394452211153675216415225756311883757939542111105181086采用K-Means聚類算法,設定聚類個數(shù)K為3,距離函數(shù)默認為歐氏距離。執(zhí)行K-Means聚類算法輸出的結果見表96。表96聚類算法輸出結果分群類別分群1分群2分群3樣本個數(shù)352370 218樣本個數(shù)占比37.45%39.36%23.19%聚類中心R18.4772711.3551141198.3034F15.489197.316216429.8898M16.0917410.7110091913.3965以下是繪制的不同客戶分群的概率密度函數(shù)圖,通過這些圖能直觀地比較不同客戶群的價值。圖92分群1的概率密度函數(shù)圖圖93分群2的概率密度函數(shù)圖圖94分群3的概率密度函數(shù)圖客戶價值分析:分群1特點:R主要集中在1030天之間;消費次數(shù)集中在530次;消費金額在16002000。分群2特點:R分布在2045天之間;消費次數(shù)集中在525次;消費金額在8001600。分群3特點:R分布在3060天之間;消費次數(shù)集中在110次;消費金額在200800。對比分析:分群1時間間隔較短,消費次數(shù)多,而且消費金額較大,是高消費高價值人群。分群2的時間間隔、消費次數(shù)和消費金額處于中等水平。分群3的時間間隔較長,消費次數(shù)和消費金額處于較低水平,是價值較低的客戶群體。9.1.3 聚類分析算法評價聚類分析僅根據(jù)樣本數(shù)據(jù)本身將樣本分組。其目標是,組內(nèi)的對象相互之間是相似的(相關的),而不同組中的對象是不同的(不相關的)。組內(nèi)的相似性越大,組間差別越大,聚類效果就越好。(1) purity評價法purity方法是極為簡單的一種聚類評價方法,只需計算正確聚類數(shù)占總數(shù)的比例: (9-8)其中,是聚類的集合。表示第k個聚類的集合。 表示需要被聚類的集合,表示第個聚類對象。表示被聚類集合對象的總數(shù)。(2) RI評價法實際上這是一種用排列組合原理來對聚類進行評價的手段,RI評價公式如下: (9-10)其中R是指被聚在一類的兩個對象被正確分類了,W是指不應該被聚在一類的兩個對象被正確分開了,M指不應該放在一類的對象被錯誤的放在了一類,D指不應該分開的對象被錯誤的分開了。(3) F值評價法這是基于上述RI方法衍生出的一個方法,F(xiàn)評價公式如下: (9-11)其中,。實際上RI方法就是把準確率p和召回率r看得同等重要,事實上有時候我們可能需要某一特性更多一點,這時候就適合使用F值方法。9.2實例1利用K-Means 聚類確定患冠心病的高風險人群9.2.1 背景和概要說明Sonia 在一家主要健康保險公司擔任項目總監(jiān)。 最近她一直在閱讀醫(yī)學刊物和其他文章,并發(fā)現(xiàn)好多文章都在強調(diào)體重、性別和膽固醇對患冠心病的影響。 她閱讀的研究文件一次又一次地確認這三個變量之間存在關聯(lián)。盡管人們無法在自己的性別方面下功夫,但無疑可以通過選擇合理的生活方式來改變膽固醇水平和體重。 于是她開始提議公司為健康保險客戶提供體重和膽固醇管理項目。 在考慮她的工作在哪里開展可能最為有效時,她希望了解是否存在發(fā)生高體重和高膽固醇風險最高的自然群體,如果存在,這些群體之間的自然分界線在哪里。9.2.2業(yè)務理解Sonia 的目標是確定由公司提供保險服務且因體重和/或高膽固醇患冠心病的風險非常高的人員,并試圖聯(lián)絡這些人員。 她了解患冠心病風險較低的人員,即體重和膽固醇水平較低的人員不太可能會參加她提供的項目。 她還了解可能存在高體重和低膽固醇、高體重 和 高膽固醇,以及低體重和高膽固醇的保單持有人。 她還認識到可能會有許多人介于它們之間。 為了實現(xiàn)目標,她需要在數(shù)以千計的保單持有人中搜索具有類似特征的群體,并制定相關且對這些不同的群體有吸引力的項目和溝通方式。9.2.3數(shù)據(jù)理解使用該保險公司的索賠數(shù)據(jù)庫,Sonia 提取了 547 個隨機挑選的人員的三個屬性,即受保人最近的體檢表上記錄的體重(單位:磅)、最近一次驗血時測得的膽固醇水平,以及性別。 和在許多數(shù)據(jù)集中的典型做法一樣,性別屬性使用 0 來表示女性,并使用 1 來表示男性。 我們將使用從 Sonia 公司的數(shù)據(jù)庫中提取的這些樣本數(shù)據(jù)構建聚類模型,以便幫助 Sonia 了解公司的客戶(即健康保險保單持有人)根據(jù)體重、性別和膽固醇水平進行分組的情況。 我們應切記在構建模型時,均值尤其容易受到極端離群點的不當影響,因此在使用 K 均值聚類數(shù)據(jù)挖掘方法時查看是否存在不一致的數(shù)據(jù)至關重要。9.2.4數(shù)據(jù)準備將 “.K-Means聚類.csv”數(shù)據(jù)集導入到 RapidMiner 數(shù)據(jù)存儲庫中,保存為/Local Repository/data/K-Means聚類。我們可以看到先前定義的三個屬性有 547 個觀察項。 我們可以看到三個屬性中的每個屬性的平均值,以及對應的標準差和范圍,如圖9.5。 其中沒有看起來不一致的值(切記前面關于使用標準差查找統(tǒng)計離群點的備注)。 由于沒有缺失的值要處理,因此數(shù)據(jù)看起來非常干凈,并可直接進行挖掘。圖9.5 數(shù)據(jù)基本信息9.2.5操作步驟第一步:對數(shù)據(jù)進行聚類將數(shù)據(jù)拖拽到操作視圖界面,檢索“k-Means”操作符并將其與數(shù)據(jù)進行連接,然后與輸出端口連接,點擊運行,我們可以看到如圖 運行結果,在參數(shù)設置如圖9.6 中,我們可以設計聚成的k的類數(shù),以及“max runs”最大循環(huán)迭代的次數(shù)。圖9.6 k-Means聚類參數(shù)設置第二步:結果集過濾將“Filter Examples”結果集過濾操作符拖進操作界面,如圖9.7,在參數(shù)設置中,選擇類別等于類別0,如圖9.8。圖9.7 操作符流程視圖圖9.8 結果集過濾參數(shù)設置第三步:輸出結果點擊運行,我們可以看到如圖9.9的輸出結果圖9.9 篩選類別后的輸出結果 這樣我們的主人公,就可以根據(jù)顯示輸出的結果,來重點關注疾病的高發(fā)人群,從而有針對性的進行服務。9.3實例2利用判別分析技術分類運動員專攻項目9.3.1背景和概要說明Gill 運營著一個體育學院,旨在幫助高中年紀的運動員最大限度地發(fā)揮其在體育方面的潛力。 對于學院的男生,他側重于四個主要體育項目,即 橄欖球、籃球、棒球和曲棍球。 他發(fā)現(xiàn)雖然許多高中運動員在念高中時都喜歡參加多種體育項目,但隨著他們開始考慮在大學時從事的體育項目,他們將傾向于專攻某一項。 通過多年來與運動員之間的合作,Gill 整理了一個內(nèi)容非常廣泛的數(shù)據(jù)集?,F(xiàn)在他想知道他是否可以使用先前部分客戶的以往成績,為即將到來的高中運動員預測主攻的體育項目。最終,他希望可以就每個運動員可能最應選擇專攻哪個體育項目,向他們提供建議。通過評估每個運動員在一系列測試中的成績,Gill 希望我們可以幫助他確定每個運動員在哪個體育項目方面資質最高。9.3.2判別分析的含義判別分析(Discriminant Analysis,簡稱DA)技術是由費舍(RAFisher)于1936年提出的。它是根據(jù)觀察或測量到的若干變量值判斷研究對象如何分類的方法。具體地講,就是已知一定數(shù)量案例的一個分組變量(grouping variable)和這些案例的一些特征變量,確定分組變量和特征變量之間的數(shù)量關系,建立判別函數(shù)(discriminant function),然后便可以利用這一數(shù)量關系對其他已知特征變量信息、但未知分組類型所屬的案例進行判別分組。沿用多元回歸模型的稱謂,在判別分析中稱分組變量為因變量,而用以分組的其他特征變量稱為判別變量(discriminant variable)或自變量。判別分析技術曾經(jīng)在許多領域得到成功的應用,例如醫(yī)學實踐中根據(jù)各種化驗結果、疾病癥狀、體征判斷患者患的是什么疾病;體育選材中根據(jù)運動員的體形、運動成績、生理指標、心理素質指標、遺傳因素判斷是否選入運動隊繼續(xù)培養(yǎng);還有動物、植物分類,兒童心理測驗,地理區(qū)劃的經(jīng)濟差異,決策行為預測等。9.3.3業(yè)務理解Gill 的目標是對年輕運動員進行考核,并根據(jù)其在一系列指標方面的成績來幫助他們決定最適合專攻哪個體育項目。 Gill 認識到他的所有客戶都熱衷于體育運動,并且喜歡參加多種體育項目。 他的大多數(shù)客戶都非常年輕、熱愛體育運動、適應能力非常強,并且都擅長多種體育項目。多年來,他看到有些人具有極高的天賦,無論選擇專攻任何體育項目都能有杰出的表現(xiàn)。 因此他認識到,由于此項數(shù)據(jù)挖掘工作的局限,他可能無法使用數(shù)據(jù)來確定運動員的“最佳”體育項目。 此外,他還查看了過去的衡量指標和評估工作,并發(fā)現(xiàn)先前有些運動員確實在事先選定了某種體育項目,并在專攻該項目后取得了巨大成功。 根據(jù)他的行業(yè)經(jīng)驗,他決定嘗試使用數(shù)據(jù)挖掘來了解運動員的資質,并請我們提供幫助。9.3.4數(shù)據(jù)理解為了開始制定計劃,我們與 Gill 一起對他的數(shù)據(jù)資產(chǎn)進行了審查。 在過去的幾年中,進入 Gill 學院的每個運動員都接受了一系列針對多項運動特征和個人特征的測試。 雖然學院對參加多種不同體育項目的男生和女生都進行了這些測試,但在此項初步研究中,我們和 Gill 決定只查看男生的數(shù)據(jù)。 因為學院已經(jīng)運營了一段時間,所有 Gill 能夠知道之前有哪些學員選擇專攻一種體育項目,以及其中每個學員選擇的是哪種體育項目。 通過與 Gill 密切合作,我們收集了先前所有選擇專攻一種體育項目的客戶在這些測試中的結果,Gill 還添加了其中每個學員專攻的體育項目,于是我們獲得了一個包含 493 個觀察項以及以下屬性的數(shù)據(jù)集:年齡: 參與者在接受運動特征和個人特征系列測試時的年齡(精確到 0.1 位), 介于13-19 歲之間。力量: 通過一系列舉重運動測得的參與者的力量,介于 0-10 分之間,其中 0 分表示力量有限,10 分表示力量足可以毫不費力地進行所有舉重運動。 沒有參與者的評分達到 8 分、9 分或 10 分,但卻有些參與者的評分為 0 分。反應能力: 參與者在接受一系列反應能力測試后獲得的成績。 這些測試記錄參與者在燈光發(fā)出指示后經(jīng)過多長時間才按下按鈕,或蜂器響起后經(jīng)過多長時間才跳起來。 反應時間被記錄在表中,介于 0-6 分之間,其中 6 分表示反應非???,0 分表示反應非常慢。 對于此屬性,每個分值都有對應的參與者。傷?。?一個內(nèi)容為 yes (1)/no (0) 且非常簡單的列,用于表示年輕運動員是否曾受過與體育運行相關的傷,并且嚴重到需要手術或其他重要醫(yī)療干預的程度。 通過冰敷、休息、舒展肢體等方法治療的常見傷被記錄為 0。需要三周以上才能痊愈、需要采取物理療法或需要手術的傷將被記錄為 1。視力: 不僅使用視力表按一般的 20/20 視力等級對運動員進行測試,而且還使用視線跟蹤技術測試他們用視線跟蹤物體的能力。 此項測試要求參與者識別視野內(nèi)快速移動的物體,并估算移動物體的移動速度和方向。 此項評分介于 0 分到 4 分之間,其中 4分表示視力非常好,并能夠很好地識別移動物體。 沒有參與者的評分達到滿分(4 分),但 0 分到 3 分之間都有對應的參與者。耐力: 參與者接受一系列身體素質測試,其中包括跑步、柔軟體操、有氧心肺功能運動和長距離游泳。 此項成績介于 0-10 分之間,其中 10 分表示能夠在不感到任何疲勞的情況下完成所有任務。 在此項屬性方面,參與者的評分介于 0 分到 6 分之間。 Gill告訴我們,即使狀況再好的專業(yè)運動員在這部分測試中的評分也不能達到 10 分,因為此項測試旨在測試人類耐力的極限。 敏捷性: 參與者在接受一系列移動、扭轉、轉動、跳躍、轉向等測試后獲得的評分。此項測試旨在檢查運動員朝各個方向敏捷、精確、有力移動的能力。 這是一項綜合指標,受一些其他指標的影響,因為敏捷性通常取決于一個人的力量、速度等。此項屬性的評分介于 0 分到 100 分之間。在 Gill 提供的數(shù)據(jù)集中,此項成績都介于 13 分和80 分之間。決策能力: 此部分旨在測試運動員在各種運動狀況中作出決策的過程。 讓運動員參與各種模擬情景,以便測試他們在是否揮棒、是否傳球、是否朝運動場上可能有利的位置移動等方面的選擇。 此項評分介于 0 分到 100 分之間,但 Gill 表示在完成此項測試的人中,沒有人的評分能夠低于 3 分,因為只要成功開始并結束決策測試部分,即可得到 3 分。 Gill 知道此數(shù)據(jù)表中的所有 493 名前運動員都成功開始并結束了此部分測試,但數(shù)據(jù)表中卻有一些分數(shù)低于 3 分,而且還有一些分數(shù)高于 100 分,因此我們知道后面我們還有一些數(shù)據(jù)準備工作要做。專攻體育項目: 此項屬性是指 453 名運動員中的每名運動員在離開 Gill 的學院后專攻的體育項目。 這是 Gill 希望能夠為目前的客戶預測的屬性。 對于此項研究中的男生,此項屬性將為以下四種體育項目中的其中一種: 橄欖球、籃球、棒球和曲棍球。9.3.5數(shù)據(jù)準備將 “辨別分析_Training.csv”數(shù)據(jù)集導入到 RapidMiner 數(shù)據(jù)存儲庫中,保存為/Local Repository/data/判別分析_Training。將 “辨別分析_Scoring.csv”數(shù)據(jù)集導入到 RapidMiner 數(shù)據(jù)存儲庫中,保存為/Local Repository/data/判別分析_Scoring。9.3

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論