




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
DataMining:
Concept,technicalandmethodNCRDataMiningTeam2005/06議程議程“無所不能〞的數(shù)據(jù)挖掘?提高客戶的利潤奉獻度哪些客戶最可能離開這個客戶可能購置什么其他的產(chǎn)品哪個客戶可能不會付款什么是接觸我客戶的最好渠道誰最有可能購置此類產(chǎn)品?判斷交易是否為欺詐對一個特殊的產(chǎn)品有什么特殊需求大規(guī)模市場….…一對一市場哪些是最有利潤的客戶既有客戶的維持CustomerRetention交叉銷售Cross-Sell潛在客戶的獲取CustomerAcquisition客戶風(fēng)險掌控CustomerDelinquency客戶流失預(yù)測客戶響應(yīng)模型客戶生態(tài)細分客戶延滯行為金融業(yè)成功案例
Define正常使用,信用良好的客戶,為何仍會離開客戶到底在想什么??客戶流失預(yù)測排除即將可能被強停的客戶強停客戶行為不同於願意使用信用卡之客戶行為即將可能被強停的客戶,無論視為正??蛻?、剪卡客戶皆可能造成noise排除近半年來無交易的帳戶無使用信用卡之客戶,剪卡率高;且無交易時間越久,剪卡率越高7/16/15/14/13/12/11/112/111/1AnalysisWindow(6Months)PredictionWindow(2Months)已開卡、信用卡狀態(tài)為‘正?!颉畳焱!?,半年內(nèi)有交易、信用評等不為M3~M7…CCAttribute,Transaction,Payment/Bill,…Churn,Non-churnScoringDate>=5/106月底主卡人名下所有有效信用卡均流失(6月底‘剪卡’or5月底‘掛停’&6月底‘掛?!?模型建置架構(gòu)
ExploreCreditCardChurnModel基本屬性回應(yīng)狀況和客戶接觸情形行銷活動類別客戶抱怨紀錄客戶詢問紀錄預(yù)約額度一般消費金額預(yù)借現(xiàn)金金額消費次數(shù)預(yù)借現(xiàn)金次數(shù)消費間隔期消費類別消費特店類別最後交易日消費地區(qū)主動消費金額(一般+欲借)信用卡往來期間持有卡別種類持有卡別等級持有卡片數(shù)信用額度信用額度調(diào)整卡片申請來源分行別開卡註記是否使用消費簡訊信用卡貢獻度卡片有效日是否更換卡片是否曾掛失卡片是否需繳年費繳年費期限應(yīng)繳金額付款金額未付金額循環(huán)利息繳款狀況繳款評等付款比例額度使用比例繳款方式繳款行庫別卡人等級是否有繳年費疑似餘額代償性別年齡星座年收入教育程度職業(yè)位階帳寄地址婚姻狀態(tài)E-mail居住地址客戶等級集團貢獻度銀行貢獻度持有集團產(chǎn)品持有銀行產(chǎn)品集團往來期間銀行往來期間員工帳單/付款狀況卡片狀況消費行為行銷活動/客服接觸情形已分析不顯著/不適用變數(shù)
新增加變數(shù)已分析顯著變數(shù)
Model最近六個月無主動交易信用卡往來期間為1~1.5年消費限額未調(diào)整最近六個月最常之卡人等級為C最近六個月無應(yīng)繳帳單金額持有JCB卡信用卡貢獻度<=60卡片來源為DirectSale
(0.08%,0.602)
Access分析客戶群人數(shù)(1,156,109),依可能剪卡的分數(shù)由高至低排序效益:沒有模型的情況下,HitRate為1.68%;前5000名單有達10倍以上的效益;前10,000個名單有8倍的效益HitRateHitRate=#Churn/#NameList前5,000個名單的HitRate為17%前10,000個名單的HitRate為13%
Define“Whatourcustomershave”+“Whotheyare”
DeriveGender,Age,Tenure,Frequency客戶生態(tài)細分
SegmentSavingSecCCMortgage13%2%72%84%CC9%TD4%85%SecTD4%StopStopStopStop100%5%8%
Profile
Assess0%0.5%1.0%1.5%2.0%2.5%3.0%3.5%4.0%0150000300000450000600000750000900000BalanceResrate理財精英平均年齡41歲往來期間在6年以上平均余額為50萬持有產(chǎn)品數(shù)最高年輕拼搏族平均年齡30歲往來期間在5年以下交易頻率最低平均余額最低事業(yè)有成平均年齡53歲往來期間在10年以上交易最為頻繁平均余額最高股票族只持有證券帳戶平均年齡33歲往來期間在5年以下都會區(qū)中南部Target:2,000TakeRate: Overall2% Segment:4%Saving=$750,000=$15*100,000-$15*50,000信用卡卡戶響應(yīng)特定保險行銷客戶回應(yīng)模型目的提升交叉銷售的成功率預(yù)測客戶響應(yīng)的可能性過去的經(jīng)驗響應(yīng)率~30%成本~150萬利潤~260萬建模后40%的成本60%的利潤回應(yīng)客戶比率客戶響應(yīng)模型
Rightchannelforrightcustomer響應(yīng)分數(shù)在前20%的客戶其響應(yīng)率較過去高約2~3倍可考慮優(yōu)先電話行銷響應(yīng)分數(shù)次高的客戶(前20%~40%)其響應(yīng)率較過去高約2倍行銷渠道或溝通過程考慮略有不同該區(qū)塊客戶最為頑強,所需行銷effort最高,考慮先寄DM行銷總經(jīng)濟成效預(yù)估:3倍
Define
Derive消費行為基本屬性帳單
/付款狀況
Gender*Age*ZIP/GeographicIndustryEducationPromotionCardTypeCreditLine
TenureCashAdvanceTransactionTypeMerchantTypeTransaction#Transaction$
Payment/MinPayUnpaidExpenditure(尚欠消費款)RevolvingInterestRevolvingRate%ofC/LUsageCustomerDelinquencyModelDataWarehouse預(yù)測信用卡客戶延滯行為
Segment
Assess平均每個月6%的延滯率,1%的呆帳率前20,000延滯機率最高的客戶名單,其中65%下個月確實會延滯若針對這些客戶做一些控管或預(yù)防措施,每年約可減少7億呆帳議程DataMiningisforpoweruserstofollowaprovenmethodologytodiscoveraction-orientedinsightsfromdetailoperationsdatatoimprovebusiness.數(shù)據(jù)挖掘是分析專家使用已驗證的方法在經(jīng)營數(shù)據(jù)中開掘可采取行動的改善企業(yè)的洞察力。什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘:多學(xué)科的融合數(shù)據(jù)挖掘統(tǒng)計學(xué)其它學(xué)科信息科學(xué)機器學(xué)習(xí)可視化數(shù)據(jù)挖掘潛在應(yīng)用數(shù)據(jù)庫分析和決策支持市場分析和管理目標營銷,客戶關(guān)系管理,購物籃分析,交叉銷售,市場分群、客戶保持欺詐檢測與管理其它應(yīng)用文本挖掘〔新聞組,電子郵件,文檔〕和Web分析智能詢問解答(QA)系統(tǒng)市場分析和管理(1)分析的數(shù)據(jù)源在哪里信用卡交易,積分卡,折扣優(yōu)惠券,客戶抱怨,以及〔公眾〕生活方式研究目標營銷發(fā)現(xiàn)具有相同特征的客戶群模型:興趣,收入水平,消費習(xí)慣等判別客戶的序列購置模式從單身賬戶到共有賬戶的轉(zhuǎn)變:結(jié)婚交叉銷售分析產(chǎn)品銷售之間的關(guān)聯(lián)基于關(guān)聯(lián)信息而進行的預(yù)測市場分析和管理(2)構(gòu)造客戶特征客戶如何選擇和使用我們的產(chǎn)品和效勞?識別出客戶需求識別出適合不同客戶的最正確產(chǎn)品通過預(yù)測來發(fā)現(xiàn)吸引新客戶的因素提供綜合信息各種各樣的多維綜合報表統(tǒng)計上的綜合信息〔數(shù)據(jù)的集中趨勢和變化〕欺詐檢測和管理(1)欺詐檢測和管理(2)其它應(yīng)用客戶為中心,市場為導(dǎo)向客戶獲取客戶保有交叉銷售客戶提升提升銷售客戶遷移Fraud常見的業(yè)務(wù)問題業(yè)務(wù)目標 模型------------------------------------------- ----------------------錢包份額/爭取新客戶(WalletShare/Acquisition)預(yù)測客戶購置新產(chǎn)品的傾向 Cross-SellResponseModel預(yù)測客戶擴展效勞用量的傾向 Up-sellResponseModel預(yù)測客戶升級效勞的傾向 UpscaleResponseModel客戶挽留及保育(Retention)預(yù)測哪些客戶會終止效勞的使用 ChurnsentrySolution改善挽留行動的效率 ResponseModel欺詐/拖欠偵測(Fraud/Delinquency)預(yù)測客戶拖欠賬單支付的傾向 PropensitytoDelinquent預(yù)測拖欠客戶對催繳的響應(yīng) PropensitytoCollect欺詐偵測及管理 FraudsentrySolution根底/知識(Infrastructure/Knowledge)了解客戶購置不同產(chǎn)品的情況 ProductAffinity評估客戶對運營商的利潤奉獻度 ValueScore評估客戶的價格敏感度 PriceSensitivityProfiling預(yù)測客戶稱為高價值客戶的傾向 PropensitytobeVIP客戶信用度評估 CreditScoring/CreditModel客戶分群 Psycho-demographicProfiling預(yù)測營收變化趨勢 RevenueForecast預(yù)測客戶的效勞使用量變化趨勢 UsageForecast數(shù)據(jù)挖掘分類數(shù)據(jù)挖掘分類數(shù)據(jù)挖掘描述預(yù)測統(tǒng)計回歸關(guān)聯(lián)分析決策樹可視化聚類分析時序分析特征分析神經(jīng)網(wǎng)絡(luò)分類曾經(jīng)欠費租期3到4個月月平均不同受話號碼數(shù)<=40曾經(jīng)投訴過無有是非話費下降至1/3是非Etc.是77%流失是非非Etc.Etc.Etc.Etc.預(yù)測 根據(jù)過去的數(shù)據(jù)預(yù)測將來要發(fā)生什么問題描述:預(yù)測客戶流失可能性結(jié)果描述:決策樹決策數(shù)模型
根本假設(shè):近朱者赤,近墨者黑KnowncreditcardholderMostlikelytohavecreditcard決策樹模型(Decisiontreemodel)依賴變量(因變量)獨立變量(自變量)回歸線性回歸Logistic回歸擬合一條穿過數(shù)據(jù)的線,線上的點使對應(yīng)數(shù)據(jù)點的方差最小……線性回歸與線形回歸相似,它的依賴變量(因變量)不是連續(xù)的,而是離散的Logistic回歸Log(p/(1-p))=4.9+0.911*收入邏輯回歸模型(Logisticregression)系數(shù)絕對值越大,對目標(欠款)影響力越顯重要Pr(Delinqent)=exp(Logit_X)/(1+exp(Logit_X))Logit_X=-0.68
+-3.81*活存余額總額
+-1.45*信卡信用額度
+1.07*信卡上期結(jié)欠消費款
+-1.22*信卡卡數(shù)
+-0.75*持有產(chǎn)品類別數(shù)
+0.32*是否為男性
+-0.29*是否為臺北市分行
+-0.42*電子基金下單註記
+0.24*是否為個人用途
+0.46*近6月平均客戶收益金額
+-0.50*是否啟用網(wǎng)路
+0.48*活存帳戶數(shù)
+0.57*是否非貴賓理財戶
+0.30*信貸總期數(shù)
+1.01*是否為員工PositiveNegative描述聚類物以類聚,人以群分無指導(dǎo)學(xué)習(xí)不同類間的個體相似度盡可能大,不同類之間的盡可能小主要聚類分析方法分類
劃分的方法層次的方法基于密度的方法基于網(wǎng)格的方法基于模型的方法ShortDarkHair,SmilingWorkinConsultingMaleswithnoJacketGlassesSuitsK-均值算法X1X2Seed1Seed2Seed3任意選擇k個對象作為初始的類中心;循環(huán):根據(jù)類中對象的平均值,將每個對象〔重新〕賦給最類似的類更新類的平均值,即計算每個類中對象的平均值;終止:類中心不再發(fā)生變化聚類X1X2Seed1Seed2Seed3K-均值算法X1X2Seed1Seed2Seed3經(jīng)過一次迭代客戶分群(Clustering)總交易金額黃金客戶
(4%)消費總金額很高
大額透支
平均透支利息總額高經(jīng)常異地消費休眠客戶
(60%)較少交易絕不透支交易次數(shù)潛力客戶
(16%)單筆交易金額高交易次數(shù)不多極少取現(xiàn)存現(xiàn)還款透支消費工資戶
(8%)大額轉(zhuǎn)入經(jīng)常取現(xiàn)無透支消費存取現(xiàn)戶
(8%)經(jīng)常取現(xiàn)經(jīng)常存現(xiàn)還款交易較多單筆交易金額高有異地交易轉(zhuǎn)出戶
(4%)大額轉(zhuǎn)出少量消費“啤酒與尿布〞1981年NCR為Wal-Mart超市集團建立數(shù)據(jù)倉庫,目前容量超過130TB;利用數(shù)據(jù)倉庫,Wal-Mart分析哪些商品顧客最有希望一起購置:“啤酒與尿布〞;關(guān)聯(lián)規(guī)那么問題描述:如何決定超市中商品的擺放來增加銷售額結(jié)果描述:可視化關(guān)聯(lián)規(guī)那么age(X,“20..29〞)^income(X,“20..29K〞)→buys(X,“PC〞)[support=2%,confidence=60%]關(guān)聯(lián)規(guī)那么-購物車RuleADCAACB&CDSupport2/52/52/51/5Confidence2/32/42/31/3ABCACDBCDADEBCE數(shù)據(jù)挖掘分類的多維視圖議程數(shù)據(jù)挖掘工具-功能SASEnterpriseMiner在挖掘功能的廣度和深度上占據(jù)絕對領(lǐng)先地位,No.1必須在SAS環(huán)境下構(gòu)建挖掘根底(數(shù)據(jù)文件,處理結(jié)果,挖掘過程)數(shù)據(jù)遷移問題(影響擴展能力,數(shù)據(jù)冗余,數(shù)據(jù)管理)試圖通過圖形界面改善易用性,但并未簡化挖掘過程通過ODBC和CLI(SAS/Access)訪問TeradataSPSSClementine極佳的易用性(可視化開發(fā)環(huán)境)側(cè)重于挖掘自動化和模型發(fā)布能力功能的廣度和深度一般(決策樹,神經(jīng)網(wǎng)絡(luò)和聚類;少量數(shù)據(jù)探索和轉(zhuǎn)換功能,V9.0版本推進In-DbsMining)通過ODBC訪問TeradataTeradataWarehouseMinerIn-DbsMining先鋒,完備穩(wěn)定的數(shù)據(jù)探索和轉(zhuǎn)換功能防止數(shù)據(jù)遷移帶來的空間時間開銷以及數(shù)據(jù)管理問題數(shù)據(jù)挖掘工具-特性TeradataWarehouseMiner充分利用Teradata的并行處理能力,性能極佳防止數(shù)據(jù)遷移擴展能力強,隨Teradata線性擴展SASEnterpriseMiner處理前需將數(shù)據(jù)保存到SAS數(shù)據(jù)文件,擴展能力受限相對原始和有限的并行處理能力,性能受限在小數(shù)據(jù)樣本(小于10~50GB)上的最正確選擇SPSSClementine聲稱支持In-DbsMining,但僅限有少量數(shù)據(jù)預(yù)處理功能其它挖掘分析功能仍需在應(yīng)用效勞器上運行(需要數(shù)據(jù)抽取)適用于小數(shù)據(jù)樣本TeradataWarehouseMiner的開展背景1997年數(shù)據(jù)挖掘?qū)嶒炇页闪CR專業(yè)效勞人員具備多年數(shù)據(jù)挖掘應(yīng)用實施的經(jīng)驗金融業(yè)零售業(yè)電信業(yè)開發(fā)團隊擁有多年數(shù)據(jù)挖掘產(chǎn)品的設(shè)計開發(fā)經(jīng)驗ClementineOEMSAS“AnalyticTemplates〞CRISP-DM數(shù)據(jù)挖掘方法論攜手合作產(chǎn)生了In-dbs(場內(nèi)挖掘)挖掘的先鋒——TeradataWarehouseMiner議程1997年,數(shù)據(jù)挖掘?qū)嶒炇乙呀?jīng)開發(fā)和驗證了數(shù)據(jù)挖掘的方法論:當時使用第三方分析工具SAS/SPSS/QuadstoneDataPre-processing
DescriptiveStatisticsDataTransformationTeradataWarehouseMiner
MultivariateStatisticsMachineLearningAlgorithmsAnalyticModelingModelDeployment
ScoringLifecycleMaintenanceTeradataWarehouseMinerBusinessIssuesModelDeploymentDataPre-ProcessingModelCreation
KnowledgeTransferProjectManagementArchitectureandTechnologyPreparationTeradataWarehouseMinerTeradataWarehouseMiner誕生的目標TeraMinerStats1.0and2.0
1998-1999
描述統(tǒng)計/數(shù)據(jù)轉(zhuǎn)換/矩陣生成與第三方分析軟件的互補TeradataWarehouseMiner3.x
2000-2003分析型算法&評分與第三方分析軟件各有優(yōu)勢TeradataWarehouseMiner4.0
2004形成完備的分析工具包TeradataProfilerTeradataADSGeneratorTeradataWarehouseMinerTeradataWarehouseMiner版本開展模型發(fā)布TeradataWarehouseMiner產(chǎn)品線分析型模型的建立、測試及校驗數(shù)據(jù)預(yù)處理理解業(yè)務(wù)目標理解源數(shù)據(jù)數(shù)據(jù)特征刻畫及探索功能:
可視化描述性統(tǒng)計數(shù)據(jù)探索器分析數(shù)據(jù)集創(chuàng)立功能:轉(zhuǎn)換矩陣功能重組派生變量分析型模型開發(fā)功能:
分析型算法高級統(tǒng)計功能分析型模型發(fā)布功能:
模型轉(zhuǎn)換為SQL
模型執(zhí)行TeradataModelManager目標:運行企業(yè)內(nèi)的業(yè)務(wù)人員訪問和使用模型目標用戶:業(yè)務(wù)人員和挖掘?qū)TTeradataProfiler
目標:數(shù)據(jù)探索,數(shù)據(jù)挖掘,數(shù)據(jù)質(zhì)量評估目標用戶:DBA,數(shù)據(jù)架構(gòu)師,挖掘?qū)T,質(zhì)量分析師TeradataADSGenerator
目標:簡化分析數(shù)據(jù)集的創(chuàng)建,用于建立分析型模型.同時包含TeradataProfiler的功能目標用戶:挖掘?qū)T(支持SAS及其它挖掘工具).TeradataWarehouseMiner目標:建立分析型模型.同時包含TeradataADSGenerator的功能目標用戶:挖掘?qū)T/分析建模人員單變量統(tǒng)計Count/Minimum/Maximum/MeanStandardDeviationStandardMeanErrorVarianceCoefficientofVarianceSkewnessKurtosisUncorrectedSumofSquaresCorrectedSumofSquaresModes根本數(shù)據(jù)質(zhì)量分析DataTypesCount#NULLValues#PositiveValues#NegativesValues#Zeros#Blanks#UniqueValues數(shù)據(jù)分布分析FrequencyofDiscreteVariablesCross-tabulationPair-wiseHistogramsofContinuousVariablesEvenWidthUserDefinedWidths/BoundariesQuantile“AdaptiveBinning〞覆蓋分析Index/KeyColumnConsistency散點圖分析Continuousplotin2/3-D分位&分級Top10/Bottom10PercentilesDeciles/Quartiles/TertilesTop5/Bottom5RanksandValuesTeradataWarehouseMiner4.0功能
TeradataProfiler相關(guān)分析Quicklyviewcorrelationsacrossvariables數(shù)據(jù)探索器PerformsbasicstatisticalanalysisonasetoftablesandselectedcolumnswithinanyTeradatadatabaseIntelligentdecisionsaboutwhichfunctionstoperformValuesAnalysis-EverycolumninthesetofinputtablesUnivariateStatisticalAnalysis-EverycolumnofnumericordatetypeFrequencyAnalysis-EverycolumnthathaslessthanorequaltoanumberofuniquevaluesHistogramAnalysis-Everynumericordatetypecolumnthathasmorethananumberofuniquevalues數(shù)據(jù)可視化2&3DHistograms2&3DFrequencyBarChartsValuesBarCharts&CircularGraphsBoxandWhiskerPlotsScatterPlotsIntegratedDataExplorerGraphicsTeradataWarehouseMiner4.0功能
TeradataProfiler變量生成AggregationsCount,Average,Sumetc.WindowedAggregates/OLAPRank,Quantililes,MovingSums,etc.Arithmeticoperators/functions:+,-,*,/,MOD,**ABS,EXP,LN,LOG,SQRT,etc.Trigonometric&HyperbolicfunctionsCOS,SIN,TAN,ACOS,etc.COSH,SINH,TANH,ACOSH,etc.CASEexpressionsandNULL
operatorsvaluedandsearchedtypesNULLIF,COALESCEComparisonoperators=,>,<,<>,<=,>=LogicalpredicatesBETWEEN…AND…,IN(expressionlist),etc.Calendarfunctions:
day_of_week,day_of_calendar,quarter_of_year,etc.StringfunctionsLOWER,UPPER,TRIM,||,etc.DataTypeconversionSQLpredicatesTRUE,FALSE,NULL變量維度劃分SimpleDimensionsSpecificvaluesRangeofvaluesCombinedDimensionsHierarchicalDimensionsSysCalendar,etc.TeradataWarehouseMiner4.0功能
TeradataADSGenerator(includesProfiler)變量變換BinCodingDesignCodingRecodingRescalingDeriveHooktoVariableCreationStatisticalTransformationsZ-ScoreSigmoidNULLValueReplacementLiteralvalueMeanvalueMedianvalueModeImputedvalues變量重組Random(Stratified)SamplePartitioningDenormalize/PivotingJoining構(gòu)造ADSCreateFinalADSCreateMetadataforRefresh矩陣函數(shù)CorrelationCovarianceSSCP/CorrectedSSCPTeradataWarehouseMiner4.0功能
TeradataADSGenerator(includesProfiler)Normality/EqualityTestsKolmogorov-SmirnovLillieforsTestShapiro-WilkD’Agostino&PearsonOmnibusSmirnov分析型算法(MVS)LinearRegressionModelCoefficientsandStatisticsStep-WiseLinearRegressionFactorAnalysisPCA,PAF,MLFOrthogonal/ObliqueRotationsLogisticRegressionModelCoefficientsandStatisticsStep-WiseLogisticRegressionSuccessandLiftTables統(tǒng)計檢驗BinomialTestsBinomialSignRankTestsMann-Whitney(Kruskal-Wallis)WilcoxonFriedmanContingencyTableTestsChi-squareMedianParametricTestsF(TwoWay)UnequalSampleSizeF(N-Way)EqualSampleSizeTTeradataWarehouseMiner
CompleteTeradataWarehouseMinerPackage可視化RegressionPlotsScreePlotsLiftChartsFactorPatternChartGraphicalTreeBrowserInteractivePruningTextRulesDistributionsClusterSizes/Distance/MeasuresAssociationColorMap分析型算法(續(xù))DecisionTree/RuleInductionEntropy(i.e.C4.5/C5.0)Gini/Regression(i.e.CART)ChaidTreesClusteringK-Means/NearestNeighborExpectation–MaximizationAssociation/SequenceAnalysisSupport/Confidence/Lift/Z-Score模型評分&評估DecisionTreesClusteringLinear/LogisticRegressionFactorAnalysisTeradataWarehouseMiner
CompleteTeradataWarehouseMinerPackage數(shù)據(jù)倉庫與數(shù)據(jù)挖掘傳統(tǒng)方法大量的數(shù)據(jù)轉(zhuǎn)移工作,耗時,易出錯;由于數(shù)據(jù)轉(zhuǎn)移、存儲和性能等原因,難以引入更多的詳細數(shù)據(jù);數(shù)據(jù)管理令分析人員厭煩;TWM場內(nèi)挖掘的優(yōu)勢數(shù)據(jù)源Vs.TWM場內(nèi)挖掘方法在Teradata中挖掘,無需數(shù)據(jù)轉(zhuǎn)移;數(shù)據(jù)管理由Teradata完成,省時省力;充分利用Teradata的平行處理能力和擴展能力,挖掘的性能隨著Teradata數(shù)據(jù)庫性能的擴展而擴展!可以在全部細節(jié)數(shù)據(jù)上挖掘!TeradataDataMining&OLAPSQLextensionsTeradataWarehouseMinerSQL企業(yè)級數(shù)據(jù)挖掘!數(shù)據(jù)冗余數(shù)據(jù)轉(zhuǎn)移數(shù)據(jù)管理困難沒有詳細數(shù)據(jù)開放式數(shù)據(jù)挖掘策略TeradataDataWarehouseScoredDataSetDataSampleAnalyticDataSet數(shù)據(jù)預(yù)處理模型發(fā)布建立挖掘模型AnalyticMetadata使用TeradataWarehouseMiner的處理流程“抽取”/定制SQL(ADS)AnalyticDataSetDataSample“應(yīng)用”分析模型ScoredDataSet“加載”評分數(shù)據(jù)TeradataDataWarehouseCRMRetentionCampaignTargetCustomerswithAttritionScore>70理解您的數(shù)據(jù)數(shù)據(jù)準備“建立”分析模型“評估”分析模型Cust_idProbScore20624340.726120644230.224520516910.8781………20178910.9179Role
ExampleAnalysisLevel Cust_idDependentVariable CloseFlagIndep.1Candidate #ofTransIndep.2Candidate $AmtQ1Indep.3Candidate $AmtQ2… …Indep.NCandidate $AvgBal重新生成/“抽取”ADSRole
ExampleAnalysisLevel Cust_idDependentVariable CloseFlagIndep.3Chosen $AmtQ2Indep.9Chosen $IRA/MonthIndep.15Chosen #Children… …Indep.NChosen RegionIDAppliedADS使用第三方分析工具的處理流程TeradataADSGenerator
數(shù)據(jù)與分析之間的橋梁EnterpriseDataWarehouseCostofDevelopmentETLresourcestomovedataNetworktrafficDataandservermanagementPotentialforhumanerror優(yōu)化分析環(huán)境降低分析應(yīng)用開發(fā)的開銷更快提交分析成果TeradataADSGenerator數(shù)據(jù)準備在數(shù)據(jù)挖掘過程中的比重數(shù)據(jù)挖掘時間分配NCRTWM數(shù)據(jù)挖掘時間分配EffortDistribution趨近于TeradataADSGeneratorMakeithappen.TeradataWarehouseMiner常用的數(shù)據(jù)挖掘功能繼承Teradata數(shù)據(jù)庫的擴展性享受Teradata數(shù)據(jù)庫輕松的數(shù)據(jù)管理開放式數(shù)據(jù)挖掘策略:工具隨你所好更專注的數(shù)據(jù)分析師強烈建議:TeradataWarehouseMiner是必選項!議程數(shù)據(jù)挖掘方法論ProjectManagementKnowledgeTransferBusinessIssuesArchitectureandTechnologyPreparationDataPreparationAnalyticalModelingKnowledgeDeliveryandDeploymentNCR數(shù)據(jù)挖掘方法論CRISP-DMDataMiningMethodPeteChapman(NCR),JulianClinton(SPSS),RandyKerber(NCR),ThomasKhabaza(SPSS),ThomasReinartz(DaimlerChrysler),ColinShearer(SPSS)andRüdigerWirth(DaimlerChrysler)NCR數(shù)據(jù)挖掘?qū)嶒炇?)2)數(shù)據(jù)倉庫選擇抽樣模型評估驗證建模數(shù)據(jù)探索
數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)清洗
預(yù)處理確定&理解業(yè)務(wù)問題數(shù)據(jù)的后續(xù)處理知識預(yù)備建模持續(xù)的建模知識共享數(shù)據(jù)挖掘方法論ScopeBusinessProblem度量數(shù)稱勝TeradataDataWarehouseExploreBusinessFactsinDB(EDA)望聞問切Model奇正之變,不可勝窮也Deploy工欲成其事,必先利其器CleanData謹防假做真時真亦假,無為有處有還無Select&Sample必也正名乎ScopeBusinessProblem度量數(shù)稱勝數(shù)據(jù)挖掘方法論TeradataDataWarehouseSelect&Sample必也正名乎CleanData謹防假做真時真亦假,無為有處有還無ExploreBusinessFactsinDB(EDA)望聞問切Model奇正之變,不可勝窮也Deploy工欲成其事,必先利其器
定義業(yè)務(wù)問題及使用者對數(shù)據(jù)挖掘的需求
訂定數(shù)據(jù)挖掘的信息環(huán)境訂定數(shù)據(jù)挖掘的產(chǎn)出
定義分析基準(Base)定義分析資料時間結(jié)構(gòu)2003-07-012003-06-012003-05-012003-04-012003-03-012003-02-012003-01-012002-12-012002-11-01AnalysisWindow(6Months)PredictionWindow(2Months)已開卡、信用卡狀態(tài)為`正常'或`掛停',半年內(nèi)有交易、信用評等不為M3~M7………..CCAttribute,Transaction,Payment/Bill,CustomerCare,…Churn,Non-churn
信用卡流失定義與分析范圍6月底主卡人名下所有有效信用卡均流失〔6月底`剪卡'or5月底`掛停'&6月底`掛停')ScoringDate>=2003-05-10客戶反響模型定義與分析范圍業(yè)務(wù)問題來自哪里市場分析專家和業(yè)務(wù)專家的想法具體講:企業(yè)的業(yè)務(wù)目標過去的或當前的市場活動及其效果企業(yè)的價值觀產(chǎn)品、客戶、效勞等開展方案其他困惑、目標、洞察業(yè)務(wù)報表業(yè)務(wù)問題定義的過程問題表述問題分析〔數(shù)據(jù)分析〕其他成功案例經(jīng)驗數(shù)據(jù)支持情況分析適合的建模方法分析適合的問題列表業(yè)務(wù)問題業(yè)務(wù)問題業(yè)務(wù)問題標準化的問題定義標準化的問題定義標準化的問題定義目標明確價值評估有效易于行動可借鑒、可重用優(yōu)先級的問題列表需要答復(fù)的問題問題的業(yè)務(wù)表述〔問題、目標〕?涉及什么產(chǎn)品或效勞、什么客戶群?曾經(jīng)或現(xiàn)在是怎樣解決的?解決的流程和結(jié)果怎樣?支持的數(shù)據(jù)從哪里來,如何組織?哪些變量會是有關(guān)的?希望通過實施挖掘得到怎樣的結(jié)果、該結(jié)果怎樣明確表述?將怎樣使用實施挖掘得到的結(jié)果〔發(fā)布、行動〕?將如何評估數(shù)據(jù)挖掘的應(yīng)用效果?ScopeBusinessProblem度量數(shù)稱勝數(shù)據(jù)挖掘方法論TeradataDataWarehouseSelect&Sample必也正名乎CleanData謹防假做真時真亦假,無為有處有還無ExploreBusinessFactsinDB(EDA)望聞問切Model奇正之變,不可勝窮也Deploy工欲成其事,必先利其器資料品質(zhì)的好壞對模型影響甚巨資料的量—業(yè)務(wù)部門對行銷活動的相關(guān)信息紀錄不完整,故無法取得可供分析的資料資料的質(zhì)—空值或不合理值過多80%為空值Qualifyingdatatakes60-80%projecteffort.0及負值均為不合理值ScopeBusinessProblem度量數(shù)稱勝TeradataDataWarehouseSelect&Sample必也正名乎CleanData謹防假做真時真亦假,無為有處有還無ExploreBusinessFactsinDB(EDA)望聞問切Model奇正之變,不可勝窮也Deploy工欲成其事,必先利其器從運行經(jīng)驗收集“為什么(因素)〞或征狀從數(shù)據(jù)倉庫觀察是不是看得到這些因素或征狀分隔變量,為建模做準備數(shù)據(jù)挖掘方法論
核查目前的數(shù)據(jù)源,探索在每個待選的自變量和目標變量之間是否存在關(guān)系。數(shù)值分析是全面理解數(shù)據(jù)的第一步,隨之進行的統(tǒng)計分析便于更好地了解有關(guān)數(shù)據(jù)的分布。包括:數(shù)據(jù)質(zhì)量檢查數(shù)據(jù)的必要整理通過圖形化呈現(xiàn)工具和其他的統(tǒng)計方法理解數(shù)據(jù)分析待選自變量和目標變量之間的關(guān)系數(shù)據(jù)轉(zhuǎn)換以輔助數(shù)據(jù)的分析數(shù)據(jù)派生為建立模型做準備整理和呈現(xiàn)數(shù)據(jù)探索的發(fā)現(xiàn)探索型數(shù)據(jù)分析探索式資料分析CreditCardAttritionModel探索剪卡客戶行為之資料來源根本屬性反響狀況和客戶接觸情形行銷活動類別客戶抱怨紀錄客戶詢問紀錄消費/預(yù)借現(xiàn)金金額消費/預(yù)借現(xiàn)金類別消費/預(yù)借現(xiàn)金特店類別最后交易日消費地區(qū)往來期間發(fā)卡年度/專案持有卡別持有卡片數(shù)信用額度卡片申請來源帳上循環(huán)金額可用額度分行別開卡注記卡片評等等級預(yù)約額度自動扣繳帳款是否使用消費簡訊信用卡奉獻度應(yīng)繳金額付款金額未付金額循環(huán)利息繳款狀況繳款評等付款比例額度使用比例繳款方式性別年齡星座年收入教育程度職業(yè)/位階帳寄地址居住地址持有產(chǎn)品數(shù)婚姻狀態(tài)E-mail客戶等級集團奉獻度帳單/付款狀況卡片狀況消費行為行銷活動/客服接觸情形客戶持有有效信用卡中,最早發(fā)卡日距離現(xiàn)在
之期間續(xù)卡的客戶中,收到續(xù)卡多久會剪卡疑似被他行BT客戶分析:使用循環(huán)息2個月以
上,當月以匯款的方式,全額繳清帳款由普/金/白金卡免收年費之條件,分析其比例
及剪卡情形交易類分析:可區(qū)分為'31'客戶主動消費
,'51'預(yù)借現(xiàn)金,其他為手續(xù)費、年費
及循環(huán)息等針對一般消費+預(yù)借現(xiàn)金的次數(shù)及金額進行析針對往來期間六個月以上的卡戶分析其交易
次數(shù)與交易金額增減趨勢分析客戶繳款行為時,區(qū)分為無消費、有消費
全額繳清及未全額繳清針對疑似被他行余額代償?shù)目☉舴治銎淅U清帳
款至剪卡間隔期間探索式資料分析—根本屬性女性較男性剪卡率高—女性用戶較多,且剪卡率高年齡大剪卡率低—30歲以下的年輕用戶剪卡率較高申請時年收入越高剪卡率越低—年收入60萬以下的客戶剪卡率較高申請時教育程度越高剪卡率越低—大專以下的客戶剪卡率較高申請時職業(yè)位階高剪卡率低—主管級客戶較職員,公務(wù)員剪卡率低申請時已婚客戶剪卡率較低帳寄地址于北中區(qū)的主卡人剪卡率低有E-Mail的客戶剪卡率低模型喂入變量分析及選取流程帳
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年項目部管理人員安全培訓(xùn)考試試題(完整版)
- 2025新進廠員工安全培訓(xùn)考試試題【黃金題型】
- 2025公司級員工安全培訓(xùn)考試試題答案5A
- 2025工廠車間安全培訓(xùn)考試試題(完整版)
- 2024-2025公司職工安全培訓(xùn)考試試題帶答案(精練)
- 2024-2025新員工崗前安全培訓(xùn)考試試題(參考)
- 南京師范大學(xué)《英美文學(xué)概論》2023-2024學(xué)年第二學(xué)期期末試卷
- 江海職業(yè)技術(shù)學(xué)院《Unty游戲設(shè)計》2023-2024學(xué)年第二學(xué)期期末試卷
- 山東工商學(xué)院《音樂二》2023-2024學(xué)年第一學(xué)期期末試卷
- 皖北衛(wèi)生職業(yè)學(xué)院《計算機網(wǎng)絡(luò)實驗》2023-2024學(xué)年第二學(xué)期期末試卷
- 《化工工藝概論》解析
- 山泉水水廠可行性方案
- 醫(yī)療器械經(jīng)營安全培訓(xùn)必備知識
- 化工公司bluesign認證資料準備清單20201201
- 建設(shè)用地報批服務(wù)投標方案(技術(shù)方案)
- 短引線保護引出線保護以及T區(qū)保護
- 完美公司瑪麗艷美的觀念
- 浙攝影版(2020)信息技術(shù)三年級上冊第一課認識計算機(課件)
- 校園安全常識測試題卷
- 建筑用玻璃ccc標準
- 第一課中國人民站起來了
評論
0/150
提交評論