




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、第25卷第3期 2008年3月 計(jì)算機(jī)應(yīng)用與軟件Co m puter Applicati o ns and Soft w are Vo l 25No . 3M ar . 2008數(shù)據(jù)挖掘技術(shù)在保險(xiǎn)業(yè)務(wù)中的應(yīng)用王偉輝 耿國華 陳 莉(西北大學(xué)信息科學(xué)與技術(shù)學(xué)院 陜西西安710069摘 要 隨著保險(xiǎn)業(yè)的快速發(fā)展, 保險(xiǎn)公司積累了大量的業(yè)務(wù)數(shù)據(jù), 急需一種有效的技術(shù)方法發(fā)現(xiàn)這些海量數(shù)據(jù)中蘊(yùn)涵的潛在知識(shí), 為管理決策提供依據(jù)。數(shù)據(jù)挖掘技術(shù)是目前國際上的一個(gè)研究熱點(diǎn), 可以實(shí)現(xiàn)保險(xiǎn)業(yè)務(wù)數(shù)據(jù)的知識(shí)化。分析了我國保險(xiǎn)業(yè)務(wù)的發(fā)展現(xiàn)狀, 介紹了數(shù)據(jù)挖掘相關(guān)技術(shù)及其在保險(xiǎn)業(yè)務(wù)中的應(yīng)用, 重點(diǎn)描述了使用判定樹技術(shù)進(jìn)
2、行保險(xiǎn)客戶風(fēng)險(xiǎn)分析的過程。關(guān)鍵詞 數(shù)據(jù)挖掘 保險(xiǎn)業(yè)務(wù) 客戶風(fēng)險(xiǎn)分析 判定樹APPLICATION OF DATA M IN ING TO INS URANCE BUSINESSW ang W eihui Geng Guohua Chen Li(School o f Infor m ation S cience and Technol ogy, Nort hw est Un i v e rsit y, X i an 710069, Shaanx i , Ch i na Abstrac t W ith the rap i d deve l op m ent o f i nsurance indus
3、try , a l o t o f busi ness data are accu m u l ated by insurance co m panies . It s i m pe rativeand necessary to fi nd an effecti ve technique to explore and d iscove r the potenti a l kno w ledge from the enor m ous a m ount o f data , w hich i s helpful for busi ness dec i s i on m ak i ng . D a
4、 ta m i n i ng i s a hot research area i n the wo rl d . It can be used to acqu ire the kno w ledge . T he status quo of i nsur ance busi ness i n Ch i na i s analyzed . Som e o f the data m i n i ng m ethods and the ir app licati ons to i nsurance bus i ness are i ntroduced . The process o f custo
5、m er risk ana l ysis by us i ng D ec isi on tree is described i n detai. l K eywords D ata m i n i ng Insurance busi ness Custom er risk ana l ys i s D ecisi on tree據(jù)管理應(yīng)用的普遍現(xiàn)狀是:匯集了大量客戶信息和業(yè)務(wù)數(shù)據(jù), 但因?yàn)槿狈ν诰驍?shù)據(jù)背后隱藏知識(shí)的手段和工具, 而導(dǎo)致 數(shù)據(jù)爆炸但有效信息貧乏 、 信息繁雜但業(yè)務(wù)知識(shí)孤立 , 這種局面若無改觀, 保險(xiǎn)公司將會(huì)長期處于 低智商 的業(yè)務(wù)運(yùn)行狀態(tài)。目前各大保險(xiǎn)公司都在投入巨資進(jìn)行數(shù)據(jù)大
6、集中, 旨在實(shí)現(xiàn)從業(yè)務(wù)數(shù)據(jù)化到業(yè)務(wù)知識(shí)化。以數(shù)據(jù)挖掘?yàn)榛A(chǔ)的數(shù)據(jù)倉庫、決策支持系統(tǒng)的建設(shè), 在未來數(shù)年中將受到保險(xiǎn)公司的追捧。0 引 言隨著計(jì)算機(jī)技術(shù)的迅速發(fā)展, 自二十世紀(jì)末開始, 保險(xiǎn)行業(yè)興起了信息化熱潮, 各大保險(xiǎn)公司紛紛投入巨資相繼開發(fā)了業(yè)務(wù)信息系統(tǒng), 實(shí)現(xiàn)了業(yè)務(wù)數(shù)據(jù)化。保險(xiǎn)信息系統(tǒng)經(jīng)過多年發(fā)展, 已逐步成熟完善, 并積累了大量寶貴的數(shù)據(jù)資源, 如何處理這些海量數(shù)據(jù), 更好地匯總、分析這些歷史數(shù)據(jù)并從中挖掘出業(yè)務(wù)內(nèi)在規(guī)律, 將其變?yōu)橛杏玫男畔⒑蜕虣C(jī), 將會(huì)主導(dǎo)未來相當(dāng)長時(shí)間內(nèi)各個(gè)保險(xiǎn)公司的工作戰(zhàn)略。現(xiàn)有信息管理系統(tǒng)中的數(shù)據(jù)分析工具無法給出答案。因?yàn)闊o論是查詢、統(tǒng)計(jì)還是報(bào)表, 其處理方式
7、都是對指定數(shù)據(jù)進(jìn)行簡單數(shù)字處理, 而不能對數(shù)據(jù)所包含的內(nèi)在信息進(jìn)行提取。因此必須尋求一種有效的分析手段, 數(shù)據(jù)挖掘技術(shù)符合這一要求。保險(xiǎn)公司積累下來的海量歷史數(shù)據(jù), 為數(shù)據(jù)挖掘應(yīng)用打下了堅(jiān)實(shí)基礎(chǔ), 數(shù)據(jù)挖掘技術(shù)的相對成熟也為數(shù)據(jù)挖掘應(yīng)用奠定了技術(shù)基礎(chǔ)。2 數(shù)據(jù)挖掘概念和技術(shù)2. 1 數(shù)據(jù)挖掘的概念數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程1。它利用各種分析方法和分析工具在大規(guī)模海量數(shù)據(jù)中建立模型和發(fā)現(xiàn)數(shù)據(jù)間關(guān)系, 是近年來發(fā)展起來的一門涉及面很廣的交叉學(xué)科, 融合了人工智能、數(shù)理統(tǒng)計(jì)、數(shù)據(jù)庫等方面的最新進(jìn)展,
8、 它的應(yīng)用遍及金融、零售、電信、保險(xiǎn)等眾多領(lǐng)域, 發(fā)展前景十分廣闊。1 保險(xiǎn)業(yè)發(fā)展現(xiàn)狀信息化被視作金融業(yè)的生命線, 對保險(xiǎn)公司來講, 數(shù)據(jù)如同企業(yè)生命體中生生不息的血脈。近10年來國內(nèi)保險(xiǎn)業(yè)信息一直處于加速度狀態(tài), 人保、人壽、平安等大型保險(xiǎn)公司和新成立的小型保險(xiǎn)公司在信息化方面的投入都不遺余力。但在巨資進(jìn)行信息化的同時(shí), 信息化技術(shù)組合中更為銳利、高效和復(fù)雜的數(shù)據(jù)倉2. 2 數(shù)據(jù)挖掘方法和技術(shù)數(shù)據(jù)挖掘的技術(shù)很多, 相應(yīng)的實(shí)現(xiàn)方法也很多, 總的來說,數(shù)據(jù)挖掘方法和技術(shù)可以分為以下8大類:(1 歸納學(xué)習(xí)方法 是當(dāng)前重點(diǎn)研究方向, 研究成果較多,收稿日期:2006-02-16。王偉輝, 博士生,
9、主研領(lǐng)域:數(shù)據(jù)庫與知識(shí)庫。從采用的技術(shù)上看, 分為兩大類:判定樹方法和集合論方法。(2 仿生技術(shù) 典型的方法是神經(jīng)網(wǎng)絡(luò)方法和遺傳算法。(3 公式發(fā)現(xiàn) 是數(shù)據(jù)挖掘的一項(xiàng)重要內(nèi)容, 它主要是從數(shù)據(jù)中找出數(shù)據(jù)變量之間的函數(shù)關(guān)系, 求得相應(yīng)的數(shù)學(xué)公式。(4 統(tǒng)計(jì)分析方法 它是建立在傳統(tǒng)的數(shù)理統(tǒng)計(jì)基礎(chǔ)上。在數(shù)據(jù)庫字段之間存在兩種關(guān)系:函數(shù)關(guān)系和相關(guān)關(guān)系, 對它們的分析可采用判別分析、因子分析、相關(guān)分析、多元回歸分析及偏最小二乘回歸方法等。(5 關(guān)聯(lián)規(guī)則 是發(fā)現(xiàn)一個(gè)事物與其他事物間的相互關(guān)聯(lián)性或相互依賴性。由A gra w a 、l m i e li ns k i 、Sw a m i 首先提出1, 是數(shù)據(jù)
10、挖掘研究的重要內(nèi)容。(6 模糊集方法 提供了在高抽象層處理的便利。一般地, 模糊邏輯在基于規(guī)則的系統(tǒng)中的使用涉及:(1 將屬性值轉(zhuǎn)換成模糊值; (2 對于給定的新樣本, 可以使用多個(gè)模糊規(guī)則; (3 組合上面得到的和, 得到一個(gè)系統(tǒng)返回的值。(7 可視化技術(shù) 是利用計(jì)算機(jī)圖形學(xué)和圖像技術(shù), 數(shù)據(jù)轉(zhuǎn)換成圖形或圖像在屏幕上顯示出來, 并進(jìn)交互處理的理論、方法和技術(shù)。(8 融合方法 是將不同算法或同一算法下使用不同參數(shù)得到的結(jié)果進(jìn)行合并, 從而得到比單一算法更優(yōu)越的結(jié)果。保險(xiǎn)企業(yè)制定經(jīng)營戰(zhàn)略具有極高的指導(dǎo)意義, 是關(guān)系到保險(xiǎn)企業(yè)能否生存與發(fā)展、企業(yè)市場營銷戰(zhàn)略制定與實(shí)現(xiàn)的首要問題, 本文就以機(jī)動(dòng)車輛
11、險(xiǎn)客戶風(fēng)險(xiǎn)分析主題為例說明數(shù)據(jù)挖掘在保險(xiǎn)業(yè)務(wù)中的應(yīng)用。3. 3. 2 理解并準(zhǔn)備挖掘數(shù)據(jù)確定挖掘主題后, 接著理解企業(yè)現(xiàn)有應(yīng)用系統(tǒng)及其數(shù)據(jù), 準(zhǔn)備數(shù)據(jù)。數(shù)據(jù)挖掘的處理對象是海量數(shù)據(jù), 這些數(shù)據(jù)一般存儲(chǔ)在數(shù)據(jù)庫系統(tǒng)中, 是長期積累的結(jié)果, 但往往不適合直接在這些數(shù)據(jù)上面進(jìn)行挖掘, 需要做數(shù)據(jù)準(zhǔn)備工作, 包括數(shù)據(jù)選擇、凈化、轉(zhuǎn)換、數(shù)據(jù)縮減等步驟。如果挖掘的對象是數(shù)據(jù)倉庫, 那么這些工作往往在生成數(shù)據(jù)倉庫時(shí)已經(jīng)準(zhǔn)備好。數(shù)據(jù)準(zhǔn)備是非常重要的一個(gè)步驟, 是否做好將影響數(shù)據(jù)挖掘的效率和準(zhǔn)確度以及最終模式的有效性3。車輛保險(xiǎn)數(shù)據(jù)庫包括客戶信息表、保單信息表及理賠信息表等。各表信息如表1至表3所示。表1 個(gè)人
12、客戶信息表客戶編號(hào)姓名年齡性別學(xué)歷職業(yè)地區(qū)收入婚姻狀況駕齡聯(lián)系電話聯(lián)系地址E m ail表2 保單信息表保單號(hào)客戶車輛行駛使用銷售險(xiǎn)種保費(fèi)保額編號(hào)種類區(qū)域性質(zhì)渠道表3 理賠信息表理賠編號(hào)保單號(hào)經(jīng)辦人理賠金額出險(xiǎn)類別理賠日期是否理賠工號(hào)生效日期投保日期3 數(shù)據(jù)挖掘在保險(xiǎn)業(yè)的應(yīng)用3. 1 數(shù)據(jù)挖掘可以解決的典型保險(xiǎn)業(yè)問題保險(xiǎn)業(yè)是典型的知識(shí)密集型行業(yè), 是最適合推行知識(shí)管理與數(shù)據(jù)挖掘技術(shù)的行業(yè)之一, 數(shù)據(jù)挖掘所能解決的保險(xiǎn)問題主要包括:客戶風(fēng)險(xiǎn)分析, 客戶群體劃分, 交叉銷售, 客戶流失分析及欺詐發(fā)現(xiàn)等。在數(shù)據(jù)準(zhǔn)備階段, 首先根據(jù)直觀經(jīng)驗(yàn)去除數(shù)據(jù)中的冗余信息, 例如個(gè)人姓名、性別、聯(lián)系電話、經(jīng)辦人工
13、號(hào)等, 統(tǒng)計(jì)一定時(shí)間內(nèi)個(gè)人進(jìn)行機(jī)動(dòng)車輛險(xiǎn)理賠的次數(shù)。在理賠信息表、保單信息表的基礎(chǔ)上, 根據(jù)保單號(hào)獲取投保人的理賠次數(shù)。經(jīng)過數(shù)據(jù)整理工作。得到一張個(gè)人理賠信息表。如表4所示。表4 個(gè)人理賠信息表編號(hào)性別年齡駕齡理賠次數(shù)平均賠付率3. 2 數(shù)據(jù)挖掘方法論目前已有很多成熟的數(shù)據(jù)挖掘方法論, 為實(shí)際應(yīng)用提供了理想的指導(dǎo)模型。CR ISP DM 就是公認(rèn)的、較有影響的方法論之一。CR ISP DM 強(qiáng)調(diào), 數(shù)據(jù)挖掘不單是數(shù)據(jù)的組織或者呈現(xiàn), 也不僅是數(shù)據(jù)分析和統(tǒng)計(jì)建模, 而是一個(gè)從理解業(yè)務(wù)需求、尋求解決方案到接受實(shí)踐檢驗(yàn)的完整過程。CR ISP DM 將整個(gè)挖掘過程分為以下六個(gè)階段:業(yè)務(wù)理解、數(shù)據(jù)理解
14、、數(shù)據(jù)準(zhǔn)備、建模、2評估和部署實(shí)施。在實(shí)際項(xiàng)目中, CR ISP D M 模型中的數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建模、評估并不是單向運(yùn)作的, 而是一個(gè)多次反復(fù)、多次調(diào)整、不斷修訂完善的過程。圖1為CR ISP DM 方法論模型示意圖。3. 3. 3 數(shù)據(jù)挖掘算法設(shè)計(jì)1 客戶特征分析 機(jī)動(dòng)車輛風(fēng)險(xiǎn)因素主要有駕駛?cè)藛T、車輛自身、地理環(huán)境、社會(huì)環(huán)境、經(jīng)營管理等風(fēng)險(xiǎn)。經(jīng)對國內(nèi)外大量經(jīng)驗(yàn)數(shù)據(jù)研究發(fā)現(xiàn):車輛事故發(fā)生的概率與駕駛?cè)藛T本身有著密切關(guān)系, 影響駕駛?cè)藛T安全駕駛的主要因素! ! ! 即基于客戶特征的風(fēng)險(xiǎn)指標(biāo)包括:年齡、性別、駕齡等。2 算法 在進(jìn)行客戶風(fēng)險(xiǎn)劃分時(shí), 可以選用多種算法, 本文主要介紹基于判定樹
15、的客戶風(fēng)險(xiǎn)分類算法。從商業(yè)角度看, 判定樹可以視為對原始數(shù)據(jù)的分割。判定樹的樹結(jié)構(gòu)和生成規(guī)則都非常簡單, 而且將判定樹模型轉(zhuǎn)化為S Q L 形式在關(guān)系數(shù)據(jù)庫中顯示也非常容易。為此可以將判定樹技術(shù)運(yùn)用到客戶分析中, 找到?jīng)Q策的關(guān)鍵因素。判定樹方法 判定樹是一個(gè)類似于流程圖的樹結(jié)構(gòu), 其中圖1 CR ISP D M 方法論模型每個(gè)內(nèi)部節(jié)點(diǎn)表示對一個(gè)屬性的測試, 每個(gè)分支表示一個(gè)測試輸出, 而每個(gè)樹葉節(jié)點(diǎn)代表類或類分布。為了對未知的樣本分類, 樣本的屬性值在判定樹上測試。路徑由根到存放該樣本預(yù)測的葉節(jié)點(diǎn)。樹的生成采用自上而下的遞歸分治法。如果當(dāng)前訓(xùn)練子集合中的所有實(shí)例是同類的, 構(gòu)造一個(gè)節(jié)點(diǎn), 節(jié)點(diǎn)
16、內(nèi)容即是該類別。否則, 根據(jù)某種策略選擇一個(gè)屬性, 按照該屬性的不, 分為若重3. 3 數(shù)據(jù)挖掘過程3. 3. 1 理解業(yè)務(wù)、確定挖掘主題根據(jù)CR ISP DM 模型, 首先應(yīng)進(jìn)行業(yè)務(wù)理解, 尋找數(shù)據(jù)挖掘的目標(biāo)和問題。保險(xiǎn)業(yè)務(wù)問題包括客戶風(fēng)險(xiǎn)分析、客戶群體劃,復(fù)此過程, 直到當(dāng)前集合中的實(shí)例是同類的為止。本文采用判定樹的基本算法I D 3, 它以自頂向下遞歸、各個(gè)擊破的方式構(gòu)造判定樹。其理論清晰、方法簡單、學(xué)習(xí)能力較強(qiáng), 適合于處理大規(guī)模的學(xué)習(xí)問題, 在世界廣為流傳, 得到極大關(guān)注4。其算法描述如下:算法:由給定的訓(xùn)練數(shù)據(jù)產(chǎn)生一棵判定樹1。輸入:訓(xùn)練樣本sa m ples , 由離散值屬性表示
17、; 候選屬性的集合attri bute_lists輸出:一棵判定樹。方法:(1 創(chuàng)建節(jié)點(diǎn)N; (2 if sa m ples 都在同一個(gè)類C then ; (3 返回N 作為葉節(jié)點(diǎn), 以類C 標(biāo)記; (4 if attri bute_list 為空then ;(5 返回N 作為葉節(jié)點(diǎn), 標(biāo)記為samp l es 中最普遍的類; (6 選擇attri bute_list中具有最高信息增益的屬性test_at tr i bute ;(7 標(biāo)記節(jié)點(diǎn)N 為test_attr i bute ;(8 for each test_attri bute 中的已知值a i ;(9 由節(jié)點(diǎn)N 長出一個(gè)條件為tes
18、t_attr i bu te=a i 的分枝; (10 設(shè)s i 是sa mp l es 中test_attri bute=a i 中的樣本的集合; (11 設(shè)s i 為空then ;(12 加上一個(gè)樹葉, 標(biāo)記為samp l es 中最普通的類; (13 e l se 加上一個(gè)由G enerate _decisi on _tree(s , bute _i attri li st test_attri bute 返回的節(jié)點(diǎn)。3. 3. 4 執(zhí)行算法生成知識(shí)這步是數(shù)據(jù)挖掘的關(guān)鍵步驟, 也是技術(shù)難點(diǎn)。根據(jù)保險(xiǎn)業(yè)務(wù)特點(diǎn), 可以挖掘其分類模型、關(guān)聯(lián)規(guī)則, 找出理賠過的投保人有什么特征, 沒有理賠過的投
19、保人有什么特征。進(jìn)行理賠概率分析及趨勢預(yù)測, 從而提供風(fēng)險(xiǎn)控制規(guī)則。屬性選擇量度在樹的每個(gè)節(jié)點(diǎn)上使用信息增益度量選擇測試屬性。選擇具有最高信息增益的屬性作為當(dāng)前節(jié)點(diǎn)的測試屬性。該屬性使得對結(jié)果劃分中的樣本分類所需的信息量最小, 并反映劃分的最小隨機(jī)性或 不純性 。這種信息理論方法使得對一個(gè)對象分類所需的期望側(cè)試數(shù)目達(dá)到最小, 并確保找到一棵簡單的樹。定義 設(shè)S 是s 個(gè)數(shù)據(jù)樣本的集合。假定類標(biāo)號(hào)屬性具有m 個(gè)不同值, 定義m 個(gè)不同類C i (i =1, 2, , m 。設(shè)s i 是類C i 的樣本數(shù)。其中P i 是任意樣本屬于C i 的概率, 并用s i /sj 估計(jì)。對一個(gè)給定的樣本分類所
20、需的期望信息為:I(s 1, s 2, , s m =-I (s 1j , s 2j , , s m j =-#pi=1milog 2(p i (3其中p ij =s ij /|S j |是S j 中的樣本屬于類C i 的概率。屬性A 的信息增益是:G a i n (A =I (s 1, s 2, , s (4 m E (A算法計(jì)算每個(gè)屬性的信息增益。具有高信息增益的屬性選作給定集和S 的測試屬性。創(chuàng)建一個(gè)節(jié)并以該屬性標(biāo)記, 對屬性的每個(gè)值創(chuàng)建分枝, 并據(jù)此劃分樣本。表5 理賠表訓(xùn)練數(shù)據(jù)I D 123456789101112131415性別M al e年齡駕齡理賠次數(shù)平均賠付率>221&
21、gt;21>21211>2>2112105. 24%38. 23%83. 89%110. 35%36. 39%32. 49%24. 83%52. 83%130. 83%15. 32%72. 49%64. 83%52. 13%105. 85%123. 32%C l ass :ri sk H i gh Lo w H i gh H i gh Lo w Lo w Lo w Lo w H i gh Lo w H i gh H i gh Lo w H i gh H i gh<=30<=5Fe m ale 3140510M al e M al e M al e>40>
22、;=10<=30<=53140510Fe m ale <=30<=5Fe m ale <=30<=5M al e M al e M al e3140<=5<=30<=5>40>=10Fe m ale 3140<=5M al e>40510Fe m ale 3140<=5M al e M al e3140510<=30<=5類標(biāo)號(hào)屬性risk 由2個(gè)不同值(即H igh , L ow , 因此有2個(gè)不同的類(m =2 。設(shè)類C 1對應(yīng)于H i gh , 類C 2對應(yīng)于low 。類C 1有8個(gè)樣本, 類
23、C 2有7個(gè)樣本。我們首先使用式(1 計(jì)算對給定樣本分類所需的期望信息:I (s 1, s 2 =I(8, 7 =-=-#pi=13ilog 2(p i 87log 28-log 27=0. 991515然后, 計(jì)算每個(gè)屬性的期望信息。這里先計(jì)算 平均賠付率 每個(gè)樣本值的發(fā)生理賠情況分布。同理, 按照平均賠付率分析, 由于算法ID3要求所有的屬性是分類的或離散化的, 所以要將 平均賠付率 、 駕齡 值離散化。如圖2所示。#p log (p i2ii=1m(1設(shè)屬性A 具有v 個(gè)不同值a 1, a 2, , a v 。可以用屬性A 將S 劃分為v 個(gè)子集S 1, S 2, , S v ,其中,
24、S j 包括S 中這樣一些樣本, 它們在A 上具有值a j 。如果A 選作測試屬性, 則這些子集對應(yīng)于由包含集合S 的節(jié)點(diǎn)生長出來的分枝。設(shè)s ij 是子集S j 中類C i 的樣本數(shù)。由A 劃分成子集的期望信息為:E (A =#vj =1s 1j +s mjI (s 1j , , s m j s(2圖2 屬性 平均賠付率 具有最高信息增益這里(S 1j +S 2j +S m j /s是第j 個(gè)子集的權(quán)。 對于給定的子集S j , 期望信息為:(頁第3期季麗紅等:基于改進(jìn)射線矢量法的手部輪廓與手勢實(shí)時(shí)跟蹤方法判定樹(見圖3 。2074 結(jié) 語本文改進(jìn)的射線法能準(zhǔn)確地跟蹤手的運(yùn)動(dòng)和手形的變化,
25、具有很好的魯棒性和實(shí)時(shí)性。但該方法對于背景顏色與膚色相近的視頻運(yùn)動(dòng)目標(biāo)的分割尚需進(jìn)一步研究和改進(jìn)。參考文獻(xiàn)圖3 機(jī)動(dòng)車輛險(xiǎn)客戶風(fēng)險(xiǎn)劃分的I D3判定樹1Vol ody myr K i ndratenko . Devel op m en t and app li cati on of i m age anal ysistec hn iques for i d entifi cati on and clas s ification of m icroscopic Parti cl es EB /OL.http :/www.ncs a . u i uc . edu /k i nd r /phd/in
26、d ex . pd. f 2001-11-6/2006-2-20.2RAFAEL C GONZ ALEZ , R I CHARD E W OODS . D i g i tal i m age p rocessing second ed iti on M.Beiji ng :Pubis h i ng H ou se of E lectron ics In du stry , 2002:647 648.3徐艷敏, 張星明, 劉曉紅, 蘇曙. 基于色彩聚類的膚色分割方法研究J.廣州航海高等??茖W(xué)校學(xué)報(bào), 2004, 12(1:24 25.4GREG W ELCH, GARY BISHOP . An
27、i ntroducti on t o kal m an filt erEB /OL .http :/www.cs . un c . edu /W elch /med i a /pdf/kal m an _i n tro . pd. f 2001/2006-2-20.5A MURAT TEKALP. D i gital v i deo processi ngM.B eiji ng :Pub is h i ngH ou se ofE lectronics Industry , 1995:460-461.由算法返回的最終判定樹(圖4, 可以用I F THEN 形式來表示其中蘊(yùn)含的知識(shí)。沿著由根節(jié)點(diǎn)到
28、樹葉節(jié)點(diǎn)的路徑,由判定樹提取分類規(guī)則提取的規(guī)則是:I F 平均賠付率<=50% TH EN r i sk :LowI F 平均賠付率=%50%100% AND 理賠次數(shù)>2 TH E N r i sk :H i ghI F 平均賠付率=%50%100% AND 理賠次數(shù)<=2 TH E N r i sk :LowI F 平均賠付率>100% THEN risk :H i gh由此我們可以將客戶按照風(fēng)險(xiǎn)級別進(jìn)行分類, 即分為 H i gh , L o w 兩類。根據(jù)以上規(guī)則, 就可以制定不同的費(fèi)率。根據(jù)判定樹和投保人的詳細(xì)信息, 可以預(yù)測一段時(shí)間內(nèi)理賠概率的大小, 并相應(yīng)
29、制訂某類投保人的保險(xiǎn)費(fèi)率。3. 3. 5 規(guī)則模式的評估與解釋從3. 3. 4得到的規(guī)則模式, 經(jīng)過評估可能存在冗余或無關(guān)的模式, 這時(shí)需要將其剔除; 也有可能模式不滿足實(shí)際的要求, 這時(shí)則需要回退到發(fā)現(xiàn)過程的前面階段, 如重新選取數(shù)據(jù), 采用新的數(shù)據(jù)變換方法, 設(shè)定新的參數(shù), 甚至換一種挖掘算法等等。評估可以根據(jù)管理人員多年的經(jīng)驗(yàn), 有些模式也可以直接用數(shù)據(jù)來檢驗(yàn)其準(zhǔn)確性。對于挖掘的正確結(jié)果要做出解釋, 分析其合理性, 為保險(xiǎn)公司提供風(fēng)險(xiǎn)管理決策的依據(jù)。(上接第125頁然后, 計(jì)算每個(gè)屬性的期望信息。先計(jì)算 平均賠付率 的每個(gè)樣本值發(fā)生理賠情況分布。對于平均賠付率=%<=50%:S 11=0 S 21=5I (S 11, S 21 =I (0, 5 =0對于平均賠付率=%50%100%:S 12=3 S =2I (s 12, s 22 =I (3, 2 =-3l og 5232-log 2552=0. 975對于平均賠付率=%>100%:S 13=5 S 23=0I (S 13, S 23 =I (5, 0 =0由式(2, 如果樣本按 平均賠付率 劃分, 對一個(gè)給定的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 【興安盟】2025年內(nèi)蒙古興安盟衛(wèi)生健康系統(tǒng)事業(yè)單位招聘工作人員179人筆試歷年典型考題及考點(diǎn)剖析附帶答案詳解
- 04.2《憐憫是人的天性》同步訓(xùn)練【大單元教學(xué)】高二語文同步備課系列統(tǒng)編版選擇性必修中冊
- 新昌騎行活動(dòng)方案
- 文化活動(dòng)尋寶活動(dòng)方案
- 文檔如何排版活動(dòng)方案
- 新開飯店活動(dòng)方案
- 春季瑜伽活動(dòng)方案
- 新春義工活動(dòng)方案
- 新公司人員安排策劃方案
- 春小學(xué)活動(dòng)方案
- 給攪拌站送石子合同范本
- 2023年副主任醫(yī)師(副高)-學(xué)校衛(wèi)生與兒少衛(wèi)生(副高)考試歷年真題集錦帶答案
- 法律基礎(chǔ)(第4版)PPT完整全套教學(xué)課件
- 倉管應(yīng)聘求職簡歷表格
- 五年級下冊語文期末考試學(xué)霸奪冠解密卷人教部編版含答案
- 房屋加固工程監(jiān)理規(guī)劃
- 一級煙草專賣管理師理論考試題庫(含答案)
- von frey絲K值表完整版
- SAP月結(jié)年結(jié)用戶手冊精
- 碳捕集、利用與封存技術(shù)課件
- 碳達(dá)峰和“碳中和”環(huán)境知識(shí)科普宣傳PPT教學(xué)課件
評論
0/150
提交評論