




已閱讀5頁(yè),還剩3頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
企業(yè)CRM系統(tǒng)中決策樹(shù)算法的應(yīng)用河北金融學(xué)院 郭佳 許明保定市科技局基于數(shù)據(jù)挖掘的客戶(hù)關(guān)系管理系統(tǒng)應(yīng)用研究09ZG009摘要:客戶(hù)資源決定企業(yè)的核心競(jìng)爭(zhēng)力,更多的關(guān)心自己的銷(xiāo)售群體,并與之建立良好的、長(zhǎng)期的客戶(hù)關(guān)系,提升客戶(hù)價(jià)值,對(duì)全面提升企業(yè)競(jìng)爭(zhēng)能力和盈利能力具有重要作用。本文以某企業(yè)銷(xiāo)售業(yè)績(jī)?yōu)閷?duì)象,利用決策樹(shù)分類(lèi)算法,得到支持決策,從而挖掘出理想客戶(hù)。 關(guān)鍵字:客戶(hù)關(guān)系管理;數(shù)據(jù)挖掘;分類(lèi)算法決策樹(shù)分類(lèi)是一種從無(wú)規(guī)則、無(wú)序的訓(xùn)練樣本集合中推理出決策樹(shù)表示形式的分類(lèi)規(guī)則的方法。該方法采用自頂向下的比較方式,在決策樹(shù)的內(nèi)部結(jié)點(diǎn)進(jìn)行屬性值的比較,然后根據(jù)不同的屬性值判斷從該結(jié)點(diǎn)向下的分支,在決策樹(shù)的葉結(jié)點(diǎn)得到結(jié)論。本文主要研究決策樹(shù)分類(lèi)算法中ID3算法在企業(yè)CRM系統(tǒng)中的應(yīng)用情況。1.ID3算法原理ID3 算法是一種自頂向下的決策樹(shù)生成算法,是一種根據(jù)熵減理論選擇最優(yōu)的描述屬性的方法。該算法從樹(shù)的根節(jié)點(diǎn)處的訓(xùn)練樣本開(kāi)始,選擇一個(gè)屬性來(lái)區(qū)分樣本。對(duì)屬性的每一個(gè)值產(chǎn)生一個(gè)分支。分支屬性的樣本子集被移到新生成的子節(jié)點(diǎn)上。這個(gè)算法遞歸地應(yīng)用于每個(gè)子節(jié)點(diǎn),直到一個(gè)節(jié)點(diǎn)上的所有樣本都分區(qū)到某個(gè)類(lèi)中。2.用于分類(lèi)的訓(xùn)練數(shù)據(jù)源組數(shù)據(jù)挖掘的成功在很大程度上取決于數(shù)據(jù)的數(shù)量和質(zhì)量。我們應(yīng)從大量的企業(yè)客戶(hù)數(shù)據(jù)中找到與分析問(wèn)題有關(guān)的,具有代表性的樣本數(shù)據(jù)子集。然后,進(jìn)行數(shù)據(jù)預(yù)處理、分析,按問(wèn)題要求對(duì)數(shù)據(jù)進(jìn)行組合或增刪生成新的變量,從而對(duì)問(wèn)題狀態(tài)進(jìn)行有效描述。在本文研究的企業(yè)數(shù)據(jù)中,是將客戶(hù)的年齡概化為“小于等于30”、“30到50之間”和“大于50”三個(gè)年齡段,分別代表青年、中年和老年客戶(hù),將產(chǎn)品價(jià)格分為高、中、低三檔等,詳見(jiàn)表1,將企業(yè)CRM系統(tǒng)數(shù)據(jù)庫(kù)中銷(xiāo)售及客戶(hù)信息匯總為4個(gè)屬性2個(gè)類(lèi)別。4個(gè)屬性是客戶(hù)年齡段、文化程度、銷(xiāo)售地區(qū)、產(chǎn)品檔次,類(lèi)別是銷(xiāo)售業(yè)績(jī),分為好和差兩類(lèi)。表1訓(xùn)練樣本集合attributeageeducationarealevelclass1=30Hlowbad2=30Hhighgood3=30Hmediumbad4=30Hhighgood5=30Lhighgood6=30Llowgood7=30Llowgood8=30Mhighgood9=30Mmediumgood10=30Mmediumgood1150M highbad2550Mhighbad2650Mmediumgood表2 訓(xùn)練數(shù)據(jù)中各屬性的說(shuō)明屬性說(shuō)明age客戶(hù)的年齡段education文化程度area業(yè)務(wù)銷(xiāo)售地區(qū)(本地區(qū),外地)level產(chǎn)品檔次class銷(xiāo)售狀況3. ID3算法分類(lèi)模型的建立由表1可知:類(lèi)標(biāo)號(hào)屬性有兩個(gè)不同的值,因此有兩個(gè)不同的類(lèi)(即m=2)設(shè)類(lèi)C1對(duì)應(yīng)于good,類(lèi)C2對(duì)應(yīng)于bad。類(lèi)good有18個(gè)樣本,類(lèi)bad有8個(gè)樣本。為了計(jì)算每個(gè)屬性的信息增益,先使用,所以初始信息熵為:I(s1,s2) = I(18,8)= 0.8905然后計(jì)算客戶(hù)年齡、文化程度、產(chǎn)品檔次和銷(xiāo)售區(qū)域4個(gè)屬性的熵。首先觀(guān)察age屬性的每個(gè)樣本值的good、bad分布,分別計(jì)算每個(gè)分布的信息熵:當(dāng)age=50:s13=1 s23=2時(shí),I(s13,s23)= -若按age劃分樣本,所需的信息熵為:E(age)=0.8192 類(lèi)似的,可以得到:E(education)= =0.7669E(production)= =0.853E(area)= 通過(guò)以上屬性,對(duì)當(dāng)前分支節(jié)點(diǎn)進(jìn)行相應(yīng)樣本集合劃分,從而獲得的信息增益分別為:Gain(age) = I(s1,s2)- E(age) =0.8905-0.8192=0.0713Gain(education) = I(s1,s2)- E(education) =0.8905-0.7769=0.1236Gain(production) = I(s1,s2)- E(production) =0.8905-0.853=0.0375Gain(area) = I(s1,s2)- E(area) =0.8905-0.783=0.1075Gain(equipment) =1.576 - 0.873 = 0.703educationHML從計(jì)算結(jié)果得到education屬性具有最高信息增益,因此education屬性成為決策樹(shù)根節(jié)點(diǎn)的測(cè)試屬性。如下圖所示:1I =30 lowbad2I =30 highgood3=30 mediumbad4 =30 highgood15I 31-50 highgood16I 31-50 medium good17I 31-50 lowgood1831-50 highbad1931-50 lowbad8I =30 highgood9I =30 medium good10=30 mediumgood11I =50 highbad25 =50 highbad26I =50 mediumgood5I =30 highgood6I =30 lowgood7=30 lowgood20 =30 highgood21I 31-50 lowgood圖1決策樹(shù)根節(jié)點(diǎn)的測(cè)試屬性在樣本集合中對(duì)education屬性的3個(gè)取值進(jìn)行分支,3個(gè)分支對(duì)應(yīng)3個(gè)子集,分別為:P11,2,3,4,15,16,17,18,19;P28,9,10,11,12,13,14,22,23,24,25,26;P3=5,6,7,20,21其中P3的樣本都為good類(lèi),因此對(duì)應(yīng)分支標(biāo)記為good,P1、P2樣本類(lèi)別未定,所以需要對(duì)P1、P2子集分別遞歸調(diào)用ID3算法。在P1中可以求出剩下的age、production、area三個(gè)屬性的信息增益。因?yàn)閍rea屬性的信息增益最大,所以把屬性area作為該分支的節(jié)點(diǎn),再向下分支, P2處理類(lèi)似,最后得到的決策樹(shù)如下圖所示:productionhighlowgoodbad=3031-50goodageareaI31-50=30badageproductionmediumhighbadgoodeducationHMLgood50badagegood31-50areaIgoodbadgoodproductionmediumhighlow=3031-50badagegood圖2 經(jīng)數(shù)據(jù)分類(lèi)生成的決策樹(shù)因此,對(duì)于樣本X=(age= “31-50”,education= “l(fā)ow”,level= “medium”, area= “I”),ID3算法分類(lèi)預(yù)測(cè)其class為good。4.決策樹(shù)的生成決策樹(shù)的建立是決策樹(shù)分類(lèi)的基礎(chǔ),以ID3算法為例說(shuō)明建立決策樹(shù)的過(guò)程。在決策樹(shù)的遞歸構(gòu)造過(guò)程中,在樹(shù)的節(jié)點(diǎn)上利用特征的信息增益大小作為分支屬性選擇的依據(jù),選擇信息增益最大的特征作為分支屬性。ID3算法描述簡(jiǎn)單,分類(lèi)速度快,適合于大規(guī)模數(shù)據(jù)的處理,具體算法描述如下所示。輸入:訓(xùn)練樣本samples,候選屬性集合attribute_list輸出:一棵決策樹(shù)首先創(chuàng)建節(jié)點(diǎn)N,if samples都在同一個(gè)類(lèi)C then 返回N作為葉節(jié)點(diǎn),以類(lèi)C標(biāo)記;if attribute_list為空then返回N作為葉節(jié)點(diǎn),標(biāo)記為samples中最普遍的類(lèi),選擇attribute_list中具有最高信息增益的屬性branch_attribute,標(biāo)記節(jié)點(diǎn)N為branch_attribute;遍歷for each branch_attribute中已知的值ai,由節(jié)點(diǎn)N長(zhǎng)出一個(gè)條件為branch_attribute=ai 的分支,設(shè)si是samples中branch_attribute=ai的樣本集合,若si為空 then加上一個(gè)樹(shù)葉,標(biāo)記為samples中最普遍的類(lèi),否則else 加上一個(gè)由 generate_decision(si,attribute_list-branch_attribute)返回的節(jié)點(diǎn)該算法中屬性的度量標(biāo)準(zhǔn)是在樹(shù)的每個(gè)節(jié)點(diǎn)上使用信息增益度量選擇分支屬性。這種度量選擇具有最高信息增益的屬性作為當(dāng)前節(jié)點(diǎn)的分支屬性。該屬性使得對(duì)結(jié)果劃分的樣本分類(lèi)所需的信息量最小。算法的偽代碼描述如下所示。Generate_Decision_Tree(Samples, usable-attribute-list,C) create a new node N;if (all Samples in N are in the class C) return N as a leaf Node labled with 1 as the probability of class C; select test-attribute,the attribute among attribute-list with the highest information gain;label node N with test-attribute and probability of samples in class C;for each known value ai of test-attribute let si be the set of samples in samples for which test-attribute=ai;if (!(si is empty) grow a branch from node N for the condition test-attribute = ai; attach the node N-new returned byGenerate_Decision_Tree(Si ,attribute-list-test-attribute,C);5.決策樹(shù)的剪枝在決策樹(shù)構(gòu)造時(shí),許多分支可能反映的是訓(xùn)練數(shù)據(jù)中的噪聲或孤立點(diǎn)。為了保證決策樹(shù)分類(lèi)的質(zhì)量和精確度,必須要修剪所構(gòu)造的決策樹(shù)。通常使用統(tǒng)計(jì)度量,剪去最不可靠的分支,這將導(dǎo)致較快的分類(lèi),提高樹(shù)獨(dú)立于測(cè)試數(shù)據(jù)正確分類(lèi)的能力,目前常采用的剪枝方法主要有減小錯(cuò)誤修剪法、悲觀(guān)錯(cuò)誤修剪法、基于代價(jià)復(fù)雜度的修剪法、代價(jià)敏感的決策樹(shù)修剪方法等。6.由決策樹(shù)提取分類(lèi)規(guī)則決策樹(shù)可以以 IFTHEN 形式表示分類(lèi)規(guī)則。對(duì)從根到樹(shù)葉的每條路徑創(chuàng)建一個(gè)規(guī)則。IFTHEN 規(guī)則易于理解,特別是當(dāng)給定的樹(shù)比較大的時(shí)候。利用IF-THEN形式的分類(lèi)規(guī)則我們從圖2中提取決策樹(shù)中表示的知識(shí),從而便于企業(yè)從中發(fā)現(xiàn)銷(xiāo)售規(guī)律,制定科學(xué)有效的營(yíng)銷(xiāo)策略。(1)IF education= “H” AND area= “I” OR(area= “”) AND age= “=30” AND production= “high” THEN achievement= “good”(2)IF education= “H” AND area= “I” AND age= “31-50” AND THEN achievement= “good”(3)IF education= “H” AND area= “I” AND age= “=30” AND production= “l(fā)ow” THEN achievement= “bad”(4)IF education= “M” AND production= “high” AND age= “=50” OR(age= “31-50” AND area= “”) THEN achievement= “bad”(1)至(3)條分類(lèi)規(guī)則說(shuō)明該企業(yè)的高檔產(chǎn)品對(duì)于受過(guò)高等教育的本地區(qū)的年輕客戶(hù)吸引力較大,低檔產(chǎn)品對(duì)該類(lèi)客戶(hù)的吸引力較??;該企業(yè)的各檔次產(chǎn)品對(duì)于本地受過(guò)高等教育的中年客戶(hù)吸引力均較大。(4)(5)條規(guī)則說(shuō)明企業(yè)的高檔產(chǎn)品對(duì)于受過(guò)中等教育的年輕客戶(hù)或本地的中年客戶(hù)吸引力較大;高檔產(chǎn)品在受過(guò)中等教育的老年客戶(hù)或外地區(qū)的中年客戶(hù)中不太受歡迎。因此該企業(yè)的營(yíng)銷(xiāo)策略可以加大高檔產(chǎn)品在年輕客戶(hù)中的推廣力度,同時(shí)加大在本地受過(guò)高等教育的中年客戶(hù)群體中各檔次產(chǎn)品的宣傳,因?yàn)樗麄兪窃撈髽I(yè)的重點(diǎn)客戶(hù)群。在外地區(qū)針對(duì)受過(guò)高等中等教育的中老年客戶(hù)的銷(xiāo)售業(yè)績(jī)還有待提高。該企業(yè)的產(chǎn)品對(duì)于教育程度較低的客戶(hù)群銷(xiāo)售業(yè)績(jī)比較平穩(wěn)。7.企業(yè)CRM系統(tǒng)中挖掘結(jié)果的顯示針對(duì)企業(yè)CRM系統(tǒng)不同的分析功能,分析結(jié)果可以選擇以報(bào)表形式或者以圖表形式進(jìn)行顯示。報(bào)表顯示主要是將從數(shù)據(jù)庫(kù)中讀取的數(shù)據(jù)按照一定的格式顯示出來(lái),主要通過(guò)vbscript函數(shù)實(shí)現(xiàn)。圖表顯示主要是利用VML(Vector Markup Language,矢量標(biāo)記語(yǔ)言)來(lái)實(shí)現(xiàn)。在VML中單個(gè)元素被定義為形狀(shape),大多數(shù)形狀是由矢量路徑描述的。形狀有很多屬性,例如:名稱(chēng)(title)、樣式(style)、填充(fill)、填充顏色(fillcolor)等。本文中分析模塊利用的就是VML的基本元素,通過(guò)畫(huà)線(xiàn)、填充和樣式的控制來(lái)實(shí)現(xiàn)柱狀圖的顯示。本文以決策樹(shù)的核心算法ID3算法為工具,在構(gòu)造好的用于分類(lèi)的數(shù)據(jù)源組的基礎(chǔ)上,針對(duì)決策樹(shù)分類(lèi)算法特點(diǎn),建立了企業(yè)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 農(nóng)場(chǎng)項(xiàng)目的行業(yè)現(xiàn)狀與未來(lái)發(fā)展趨勢(shì)分析
- 跨學(xué)科融合與傳統(tǒng)文化教育在職業(yè)院校中的應(yīng)用
- 小學(xué)律動(dòng)體育課程對(duì)學(xué)生全面素質(zhì)提升的作用分析
- 智慧交通系統(tǒng)在空間結(jié)構(gòu)中的融入與優(yōu)化
- 數(shù)字化賦能下的食品企業(yè)運(yùn)營(yíng)模式重構(gòu)
- 裝配式建筑供應(yīng)鏈韌性提升的路徑與對(duì)策研究
- 獸藥與人藥講課件
- 公司員工上崗及管理制度
- 公司外租房宿舍管理制度
- 公司物流大宗物料發(fā)貨管理制度
- 聯(lián)合排水試驗(yàn)報(bào)告
- 2023江西管理職業(yè)學(xué)院教師招聘考試真題匯總
- 自動(dòng)焊錫機(jī)方案
- 銀行固定資產(chǎn)自查報(bào)告
- 最完整工資條模板-工資條模版
- 精通五年級(jí)下冊(cè)英語(yǔ)教材解讀課件
- 23秋國(guó)家開(kāi)放大學(xué)《小學(xué)語(yǔ)文教學(xué)研究》形考任務(wù)1-5參考答案
- 《化妝品監(jiān)督管理?xiàng)l例》解讀
- 易導(dǎo)致患者跌倒的藥品目錄
- XXX垃圾填埋場(chǎng)初步設(shè)計(jì)
- 普外科科室規(guī)章制度模板
評(píng)論
0/150
提交評(píng)論