數(shù)據(jù)倉庫與數(shù)據(jù)挖掘案例分析.doc_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘案例分析.doc_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘案例分析.doc_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘案例分析.doc_第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘案例分析.doc_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

補充:結(jié)合電信領(lǐng)域的特點,通過一個應(yīng)用實例來說明數(shù)據(jù)倉庫的具體實施。第一階段:項目的需求和目標(biāo)分析一主題劃分 圖1 一個簡單的電信企業(yè)模型 在電信企業(yè)中,現(xiàn)有的業(yè)務(wù)數(shù)據(jù)庫系統(tǒng)一般包括客戶服務(wù)DB、網(wǎng)管DB、計費DB、賬務(wù)DB、市場信息DB、營銷信息DB等。通常按照電信公司的業(yè)務(wù)需求可能將其主題域劃分為:1客戶發(fā)展:主要是對客戶群體進行分類后,從不同的角度展現(xiàn)公司提供服務(wù)的客戶數(shù)量情況??梢园凑湛蛻舯旧淼淖匀粚傩裕ㄈ缒挲g、入網(wǎng)時間、受教育程度等)、客戶的擴展屬性(如信用度、客戶價值、流失概率、挽留價值等)等不同的角度進行劃分。2收益分析:主要是通過不同的角度對電信企業(yè)的收益情況進行分析。收益分析的角度可以按照客戶的自然屬性和擴展屬性劃分,也可以按照電信公司的業(yè)務(wù)運營進行劃分,還可以按照機構(gòu)設(shè)置、地理角度對收益進行劃分。3呼叫特征分析:分析不同類型客戶在呼叫上具有的特征。具體的衡量指標(biāo)包括很多,例如:把呼叫分成長呼叫、中呼叫、短呼叫。 4業(yè)務(wù)發(fā)展:主要是對電信公司提供的各種業(yè)務(wù)的使用客戶人數(shù)、客戶特征、收益金額進行比較,以發(fā)現(xiàn)具有潛力的業(yè)務(wù)或者為開展能夠吸引更多客戶的新業(yè)務(wù)提供指導(dǎo)。 5營銷管理:主要是對各電信營業(yè)廳、電信分銷商、代銷商的經(jīng)營狀況進行分析。 6市場競爭:主要是對電信運營商的競爭對手的客戶發(fā)展、收益、業(yè)務(wù)運營等多方面的信息進行收集并分析,從而為本企業(yè)提供市場競爭的策略。其中涉及的數(shù)據(jù)主要是外部數(shù)據(jù)和非格式化數(shù)據(jù)。 7服務(wù)質(zhì)量:主要包括發(fā)現(xiàn)客戶投訴、咨詢的焦點,發(fā)現(xiàn)公司內(nèi)部在運營上存在的問題等。 8網(wǎng)絡(luò)優(yōu)化管理:分析如何有優(yōu)化網(wǎng)絡(luò)的配置、如何更好的對網(wǎng)絡(luò)進行管理等問題。二電信領(lǐng)域常見的數(shù)據(jù)挖掘?qū)哟蔚膯栴}1客戶群體劃分:客戶群具有兩個金字塔(占總客戶數(shù)10%的大客戶的消費金額占了總客戶消費金額的70%)。對客戶群體進行合理的劃分,有利于公司了解一下信息:l 公司的主要客戶群體的情況;l 主要客戶群體的呼叫特征行為;l 主要客戶群體對業(yè)務(wù)的需求;l 大客戶群體的呼叫特征行為;l 大客戶群體對業(yè)務(wù)的需求;在對客戶進行合理劃分的基礎(chǔ)上,可以針對不同客戶群體的特點采用不同的策略,對其消費行為進行合理的引導(dǎo)。(可以采用聚類或分類的方法)2客戶流失劃分:挽留一個老客戶比爭取一個新客戶付出的代價要小得多。 3客戶欺詐分析:主要針對可能出現(xiàn)的客戶惡意欠費問題進行分析。 4網(wǎng)絡(luò)規(guī)劃優(yōu)化 5網(wǎng)管中的分析問題:網(wǎng)絡(luò)優(yōu)化、網(wǎng)管故障的相關(guān)性分析、統(tǒng)計設(shè)備的故障率等。三項目規(guī)劃在項目初期,應(yīng)當(dāng)選擇當(dāng)前最急需、能在較短時間內(nèi)發(fā)生效益、業(yè)務(wù)模型清晰、能從現(xiàn)有系統(tǒng)或通過其他方式獲取數(shù)據(jù)的決策目標(biāo)作為系統(tǒng)初期的任務(wù)。在后續(xù)階段,根據(jù)新的需求、現(xiàn)有系統(tǒng)的改造情況、積累的經(jīng)驗確定新的決策目標(biāo),逐步發(fā)展完善數(shù)據(jù)倉庫系統(tǒng)。在建設(shè)初期,可以將以下五個主題列在前期任務(wù)考慮之內(nèi)。客戶發(fā)展分析收益情況分析呼叫特征分析營銷管理分析業(yè)務(wù)發(fā)展分析作為螺旋開發(fā)的第一個循環(huán),建議先將客戶發(fā)展、收益分析、呼叫特征分析列入第一階段的任務(wù)。四需求分析的形成 1任務(wù)說明書:在任務(wù)書中,指明了DW中涉及的主題有3個:客戶發(fā)展、收益分析、呼叫特征分析。在DM層次上,需要完成對客戶的流失概率、客戶價值、客戶挽留價值進行合理的評估。 2需求說明書:任務(wù)說明書需要設(shè)計人員進一步將其細化成需求說明書。在進行需求分析的時候,設(shè)計人員最少應(yīng)當(dāng)訪問如下的幾類人: (1)項目負(fù)責(zé)人:對整個項目的宏觀目標(biāo)和方向有比較準(zhǔn)確的把握,對DW項目有全境式的認(rèn)識。 (2)主題涉及部門的管理人員:了解部門內(nèi)部對數(shù)據(jù)的需求。使得設(shè)計人員能夠站在管理人員對數(shù)據(jù)需求的角度來看問題,而不是站在技術(shù)的角度看問題。 (3)DSS分析員和未來使用DW系統(tǒng)的最終用戶:從他們那里了解他們目前是如何為管理層提供決策輔助信息的,提供信息的內(nèi)容包括哪些,信息的來源有哪些,在處理數(shù)據(jù)中遇到的棘手問題有哪些,另一方面是他們對DW系統(tǒng)的需求和希望,并可以從最終用戶那里了解比較細致的需求。 (4)企業(yè)的信息技術(shù)人員,包括數(shù)據(jù)管理人員(對數(shù)據(jù)質(zhì)量進行管理的人員,不是DBA)、數(shù)據(jù)庫管理員、數(shù)據(jù)庫設(shè)計人員、程序員:從他們那里了解現(xiàn)有業(yè)務(wù)系統(tǒng)是如何構(gòu)造的、現(xiàn)有系統(tǒng)的運行情況、現(xiàn)有系統(tǒng)中存在哪些問題、應(yīng)該從哪兒獲取需要的數(shù)據(jù)。 各類人員同項目需求的關(guān)系如下圖所示: 設(shè)計人員需要將從上述人員那兒了解到的信息進行歸納總結(jié),權(quán)衡各方面的因素,最終給出一個比較具體的功能需求描述。下表給出一個收益分析主題的功能需求分析例子。收益分析不同時期的收入總量分析及預(yù)測。收益結(jié)構(gòu)分析(月租費、本地話費、漫游費、入網(wǎng)費、卡費等)功能名稱功能描述度量涉及維度維成員品牌和業(yè)務(wù)構(gòu)成收益的品牌構(gòu)成各種品牌在企業(yè)總收益中所占比重和數(shù)量收益、收益百分比品牌神州行、全球通收益的業(yè)務(wù)構(gòu)成各項業(yè)務(wù)在企業(yè)總收益中所占比重和數(shù)量收益、收益百分比業(yè)務(wù)類別通話、短信息呼叫特征企業(yè)收益的主/被叫構(gòu)成主叫、被叫對于企業(yè)收益的貢獻收益、收益百分比主/被叫主叫、被叫企業(yè)收益的呼叫類型構(gòu)成長途、漫游、本地對于企業(yè)收益的貢獻收益、收益百分比通話類型長途、漫游、本地企業(yè)收益的呼叫時長構(gòu)成不同時長的呼叫對于企業(yè)收益的貢獻收益、收益百分比呼叫時長1分鐘以下15分鐘510分鐘10分鐘以上等客戶特征企業(yè)收益的客戶性別構(gòu)成不同性別客戶對于企業(yè)收益的貢獻收益、收益百分比、客戶數(shù)量客戶性別男女未知企業(yè)收益的客戶年齡構(gòu)成不同年齡段客戶對于企業(yè)收益的貢獻收益、收益百分比、客戶數(shù)量客戶年齡段18以下1822。企業(yè)收益的大客戶構(gòu)成大客戶和普通客戶對于企業(yè)收益的貢獻收益、收益百分比是否大客戶維大客戶普通客戶企業(yè)收益的客戶類型構(gòu)成企業(yè)收益客戶類型的百分比構(gòu)成客戶數(shù)量、百分比客戶類型單位、個人企業(yè)收益的不同在網(wǎng)時間客戶構(gòu)成不同在網(wǎng)時間客戶對于企業(yè)收益的貢獻收益、收益百分比、客戶數(shù)量在網(wǎng)時間維一年以下12年。企業(yè)收益的客戶信用積分構(gòu)成。收益、收益百分比、客戶數(shù)量客戶信用積分根據(jù)數(shù)據(jù)的具體分布企業(yè)收益的客戶信用度層次構(gòu)成。信用度客戶信用度按照挖掘后的結(jié)果進行劃分企業(yè)收益的客戶消費層次構(gòu)成。收益、收益百分比、客戶數(shù)量客戶消費層次按照挖掘后的結(jié)果進行劃分企業(yè)收益的客戶離網(wǎng)概率層次構(gòu)成。收益、收益百分比、客戶數(shù)量客戶離網(wǎng)概率層次按照挖掘后的結(jié)果進行劃分企業(yè)收益的客戶挽留價值層次構(gòu)成。收益、收益百分比、客戶數(shù)量客戶挽留價值層次按照挖掘后的結(jié)果進行劃分企業(yè)收益的客戶價值層次構(gòu)成。收益、收益百分比、客戶數(shù)量客戶價值層次按照挖掘后的結(jié)果進行劃分企業(yè)收益中小客戶成為大客戶概率層次構(gòu)成。收益、收益百分比、客戶數(shù)量中小客戶成為大客戶概率層次按照挖掘后的結(jié)果進行劃分欠費情況和預(yù)測欠繳費比例。金額(收益)、金額百分比、客戶數(shù)量、客戶數(shù)量百分比欠繳費欠費、繳費不同時期的企業(yè)欠費金額。欠費金額時間月、季、半年、年不同時期的企業(yè)欠費數(shù)量。欠費客戶數(shù)量時間月、季、半年、年收益預(yù)測話費收益預(yù)測。短信費收益預(yù)測。不同時期的企業(yè)收益情況。收益收益/欠費百分比時間月、季、半年、年在完成功能需求后,可以用一個數(shù)據(jù)搜集報告把所需的不同的數(shù)據(jù)源的屬性列出來。此報告至少包含如下的內(nèi)容:l 數(shù)據(jù)源(內(nèi)/外部數(shù)據(jù)源)l 負(fù)責(zé)維護此數(shù)據(jù)的個人/組織l 設(shè)計該數(shù)據(jù)庫的DBAl 數(shù)據(jù)使用的存儲方式l 數(shù)據(jù)中包含的表、字段、記錄的數(shù)據(jù)l 數(shù)據(jù)的大小l 數(shù)據(jù)的物理存儲介質(zhì)l 安全需求l 數(shù)據(jù)在使用上的限制l 數(shù)據(jù)是否涉及用戶的隱私問題 數(shù)據(jù)描述報告中應(yīng)包含如下內(nèi)容:l 字段/列的數(shù)據(jù)l 字段是空缺值的數(shù)據(jù)/百分比l 字段的名字對于每個字段,通常需要記錄:l 數(shù)據(jù)類型l 數(shù)據(jù)定義l 數(shù)據(jù)描述l 計量單位l 所有不同值的個數(shù)l 值的列表l 值的范圍l 空值的百分比l 收集信息(例如怎么得到、在哪、什么條件下)l 時間頻度(每天、每周、每月)l 特別時間數(shù)據(jù)l 主鍵/外鍵關(guān)系第二階段 系統(tǒng)結(jié)構(gòu)和模型設(shè)計一系統(tǒng)結(jié)構(gòu)設(shè)計 1數(shù)據(jù)量的估算 2系統(tǒng)硬件結(jié)構(gòu)/軟件結(jié)構(gòu)選擇:根據(jù)數(shù)據(jù)量的估算,選擇相應(yīng)的軟硬件配制。二DW模型的設(shè)計 1可利用的數(shù)據(jù):要確定完成以上3個主題,需要3部分信息:l 客戶的基本信息表l 客戶的賬單l 客戶的呼叫信息表(CDR表) 2粒度的確定:設(shè)計DW中,最重要的步驟。l 對于客戶基本信息表采用單一的數(shù)據(jù)粒度即可。l 對于客戶的賬務(wù)信息也采用單一的數(shù)據(jù)粒度。但是要增加合適的時間段和合適的導(dǎo)出數(shù)據(jù)(按季度綜合、按年度綜合)l 對于客戶的呼叫信息采用雙重粒度:對于近34個月的細節(jié)呼叫/計費數(shù)據(jù),保留在DW中,并定期聚合成按月綜合表,然后將細節(jié)數(shù)據(jù)導(dǎo)出至磁帶設(shè)備,為新的細節(jié)數(shù)據(jù)騰出空間。 3定義DW的關(guān)系模式:這個過程需要第二階段形成的數(shù)據(jù)搜集報告進行記錄系統(tǒng)的定義。所謂記錄系統(tǒng)的定義就是指明DW中關(guān)系表各個字段來源于哪個業(yè)務(wù)數(shù)據(jù)庫的哪張表的哪個字段。還需要建立一個數(shù)據(jù)字典,將問題中涉及的關(guān)鍵詞語的含義、在字段命名中將采用什么關(guān)鍵字等信息記載在數(shù)據(jù)字典中。 三OLAP模型設(shè)計 OLAP模型設(shè)計的思路是先分析問題中可能涉及的所有維度,針對每一個主題確定需要的維度和度量變量,然后為每一個主題定義關(guān)系模式,從而形成一個星型結(jié)構(gòu)。在這個星型結(jié)構(gòu)的基礎(chǔ)上,可以生成多維數(shù)據(jù)表,建立多維數(shù)據(jù)庫。 1項目設(shè)計的維度分析l 靜態(tài)維度:指客戶詳細資料維、狀態(tài)維、年齡段維、品牌維等不經(jīng)常發(fā)生變化的緯度。靜態(tài)維度并不一定是完全不變的,只是相對動態(tài)維度而言。l 動態(tài)維度:指經(jīng)常會發(fā)生變化的維度,例如客戶的呼叫地理維度、呼叫時間維度、客戶的費用層次緯度,這些維信息都將隨著時間的變化而變化。l 目標(biāo)維度:需要通過數(shù)據(jù)挖掘分析的目標(biāo)。根據(jù)項目任務(wù)書中,我們主要的目標(biāo)有分析客戶的價值、客戶的流失概率、客戶的挽留價值、客戶的信用度等。這些維度在進行DM之前是空缺的,在進行DM之后,利用DM的模型給這幾個指標(biāo)打分,然后在將這些數(shù)據(jù)補充回OLAP的維表和事實表中,供數(shù)據(jù)展現(xiàn)使用。 2各個主題的維度設(shè)計:以收益分析主體的維度設(shè)計說明書為例:模型名稱: 收益分析模塊功能: 用于企業(yè)收益構(gòu)成分析對應(yīng)的事實表:profit_s度量: 收益,每個用戶賬單記錄產(chǎn)生的總費用金額數(shù)據(jù)粒度: 在事實表中,記錄每個用戶每月的費用信息。事實表存放5年之內(nèi)的數(shù)據(jù),5年以上的數(shù)據(jù)按時間(月)進行匯總后從事實表中導(dǎo)出。相關(guān)的維度:(1)客戶詳細資料維(2)客戶性別維(3)客戶年齡段維(4)品牌維(5)收益類別維(6)通話類型維(7)是否大客戶維(8)月總呼叫次數(shù)層次維(9)平均呼叫時長層次維(10)信用積分維(11)信用度層次維(12)消費層次維(13)離網(wǎng)概率層次維(14)挽留價值層次維(15)價值層次維(16)時間維(17)客戶類型維(18)在網(wǎng)時間維 注釋:以上各維均與客戶相關(guān),用于分析不同客戶群體對企業(yè)收益的貢獻,維的層次和元素與客戶數(shù)量分析模型中相同。收益分析主題的星型結(jié)構(gòu)如下:第三部分 系統(tǒng)裝載、數(shù)據(jù)挖掘和界面設(shè)計一數(shù)據(jù)裝載/數(shù)據(jù)綜合模塊設(shè)計 數(shù)據(jù)裝載模塊負(fù)責(zé)從業(yè)務(wù)系統(tǒng)的數(shù)據(jù)表中提取、清洗數(shù)據(jù)以及轉(zhuǎn)化格式變?yōu)镈W中的細節(jié)表。 數(shù)據(jù)綜合模塊利用裝載模塊生成的細節(jié)表生成各個綜合層次的數(shù)據(jù)表和導(dǎo)出表。 在進行數(shù)據(jù)裝載模塊設(shè)計時,需要注意以下幾個問題:l 定義良好的數(shù)據(jù)清洗規(guī)則:數(shù)據(jù)質(zhì)量的重要保證l 注重代碼的模塊化和重用性、可維護性。l 提高代碼的處理效率l 制定一個調(diào)度計劃:不同的裝載程序需要在不同的時間運行,設(shè)計人員需要根據(jù)實際系統(tǒng)的情況,確定一個合理的數(shù)據(jù)抽取計劃,并在DW管理工具中實施這個調(diào)度計劃。二OLAP模型生成程序OLAP模型生成模塊利用DW中的數(shù)據(jù)構(gòu)建維表和事實表(通常先實現(xiàn)一個主題)。如果需要創(chuàng)建多維數(shù)據(jù)庫,則需要將維表和事實表連接后生成一張詳細的多維數(shù)據(jù)表,然后在這張多維數(shù)據(jù)表的基礎(chǔ)上創(chuàng)建多維數(shù)據(jù)庫。三數(shù)據(jù)挖掘?qū)挶碓O(shè)計和生成 要進行DM,需要將所有能夠收集的對分析有用的信息組織成一張非常“寬”的數(shù)據(jù)表,將這張表稱為數(shù)據(jù)挖掘?qū)挶怼?1首先確定同目標(biāo)變量相關(guān)的數(shù)據(jù):通常需要向該方面的分析專家請教。 2創(chuàng)建新變量:即對細節(jié)數(shù)據(jù)要進行一定程度的綜合,比原始細節(jié)數(shù)據(jù)更具有現(xiàn)實意義。 3準(zhǔn)備訓(xùn)練集合與驗證集合l 數(shù)據(jù)質(zhì)量的檢驗l 選擇合適的數(shù)據(jù)抽樣方法l 為目標(biāo)變量附上初始值:目的是為模型準(zhǔn)備訓(xùn)練/驗證數(shù)據(jù)集合,這些初始值并不是最終的結(jié)果。l 根據(jù)算法的需要,對寬表中的變量,特別是目標(biāo)變量的形式進行轉(zhuǎn)化:常常將目標(biāo)變量轉(zhuǎn)化成布爾型變量。例如將目標(biāo)變量“客戶流失概率”轉(zhuǎn)化為新的目標(biāo)變量“是否流失”。4 確定分析的次序:由于目標(biāo)變量之間存在相關(guān)性,因此需要確定分析的次序。5 變量選擇:在準(zhǔn)備好數(shù)據(jù)訓(xùn)練/驗證集后,需要將同目標(biāo)變量具有強相關(guān)性的變量去除。例如:我們要分析客戶價值,就需要將計算客戶價值公式中出現(xiàn)的變量去除,否則DM工具將直接在這些變量和目標(biāo)變量間建立關(guān)系,而不是我們所希望的通過劃分客戶是否高價值客戶來發(fā)現(xiàn)高價值客戶在呼叫行為、消費行為、背景信息上的特征。6 挖掘建模:將訓(xùn)練/驗證集合作為輸入數(shù)據(jù),利用挖掘工具/算法進行建模。模型通常是以一個數(shù)據(jù)處理程序的形式給出的。使用模型程序?qū)挶碇械乃袛?shù)據(jù)進行處理就得到了模型對目標(biāo)變量的評定。7 模型的維護和完善:數(shù)據(jù)挖掘模型得建立不是一勞永逸得事,模型需要每隔一段時間重新建立一次。另外,隨著數(shù)據(jù)倉庫項目得不斷發(fā)展,數(shù)據(jù)倉庫可以為數(shù)據(jù)挖掘提供更為完善的數(shù)據(jù),因此還需要將新的數(shù)據(jù)內(nèi)容補充進數(shù)據(jù)挖掘?qū)挶?,以建立更好的模型。四?chuàng)建多維數(shù)據(jù)庫模塊設(shè)計通過DM后,需要將得到的目標(biāo)維度數(shù)值填寫進空缺的目標(biāo)維表中,然后建立多維DB,供展現(xiàn)工具使用。1將星型結(jié)構(gòu)中的維表和事實表進行連接,生成一張多維數(shù)據(jù)表2結(jié)合功能需求和最終數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論