




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、醫(yī)保欺詐行為的主動發(fā)現(xiàn)摘 要 醫(yī)保欺詐行為,是指以非法占有為目的,用虛構事實或者隱瞞真相的方法,騙取公私財物的行為。醫(yī)保欺詐,可以從病人資料,消費明細等數(shù)據(jù)記錄來體現(xiàn)。本文主要通過分析記錄的數(shù)據(jù),找出可能的醫(yī)保欺詐行為??偨Y出欺詐行為的數(shù)據(jù)特征,以便判斷是否是醫(yī)保欺詐。首先,根據(jù)已有文獻,對涉嫌詐騙行為進行分析,找出所給數(shù)據(jù)中對應數(shù)據(jù),然后采用多元統(tǒng)計分析方法進行分析,主要使用SPSS軟件中標識重復個案、K均值聚類分析、相關分析的方法,若個案重復次數(shù)過多以及聚類的案例數(shù)較少,則可能為欺詐。針對數(shù)據(jù)一病人資料,我們從三方面分析,一方面對病人身份證號進行標記重復個案,發(fā)現(xiàn)重復個案占總數(shù)的4.1%,
2、;另一方面對于醫(yī)保手冊號同樣采取標記重復個案的方法,從結果可以看出重復個案占0.3%;最后,對Userupdate(用戶更新次數(shù))進行K均值聚類分析,發(fā)現(xiàn)第1類的聚類中心數(shù)大(即更新次數(shù)多)占總案例數(shù)的8%。以上三種數(shù)據(jù)特征則表示極可能是醫(yī)保欺詐行為。 針對數(shù)據(jù)二費用明細表,我們也從三方面考慮。首先,單張?zhí)幏降目們r過高可能為欺詐,但是考慮到總價與單價、數(shù)量之間的相互影響,對此我們先對單價、數(shù)量、總價進行相關分析,發(fā)現(xiàn)單價與總價呈弱相關;然后用聚類分析對醫(yī)囑子類、單價、數(shù)量、總價進行分類,案例數(shù)少的類即有欺詐嫌疑;其次,對病人ID號標記重復個案,由于重復個案所占比例較大,對重復個案進一步進行了聚
3、類分析;最后,若下醫(yī)囑科室與病人科室不一致則可能為欺詐,對此我們繪制了簡單線圖,不在y=x直線上的即為欺詐記錄。最后分析了所建立模型的優(yōu)缺點,并在所提模型基礎上進一步建立預測欺詐的程序框圖,以便在真實數(shù)據(jù)的基礎上能快速篩查是否為醫(yī)保欺詐行為。關鍵詞:醫(yī)保欺詐 k均值聚類 標識重復個案 相關分析 SPSS一、問題的重述醫(yī)療保險欺詐,是指公民、法人或者其他組織在參加醫(yī)療保險、繳納醫(yī)療保險費、享受醫(yī)療保險待遇過程中,故意捏造事實、弄虛作假、隱瞞真實情況等造成醫(yī)療保險基金損失的行為。騙保人進行醫(yī)保欺詐時通常使用的手段,一是拿著別人的醫(yī)??ㄅ渌?,二是在不同的醫(yī)院和醫(yī)生處重復配藥。下面這些情況都有可能是醫(yī)
4、保欺詐:單張?zhí)幏剿庂M特別高,一張卡在一定時間內反復多次拿藥等。請根據(jù)附件中的數(shù)據(jù),找出可能的欺詐記錄。二、模型的假設在我們的模型中做了如下假設:1.假設數(shù)據(jù)來源真實有效;2.假設分析過程中,數(shù)據(jù)無缺失;3.假設對每個聚類分析結果,使用同一評判標準.三、符號說明本文用到的符號及其意義見下表:變量標準方差初始聚類中心樣本與聚類中心的距離誤差平方和準則函數(shù)歐式距離新聚類中心Pearson相關系數(shù) Pearson相關系數(shù)檢驗統(tǒng)計量四、模型的建立與求解因為單張?zhí)幏剿庂M特別高一張卡及在一定時間內反復多次拿藥可能涉嫌醫(yī)保欺詐,故分別采用標記重復個案、聚類分析、相關性分析的方法對病人資料及費用明細進行分析。4
5、.1基于病人資料的醫(yī)保欺詐行為主動發(fā)現(xiàn)4.1.1問題的分析判斷是否為醫(yī)保欺詐行為,需要從病人資料中的身份證號、醫(yī)保手冊號、Userupdate(用戶更新次數(shù))這三方面考慮。對此利用SPSS軟件使用標識重復個案、聚類分析的方法,通過分析運行結果,做出重復個案與主個案所占比例、聚類中兩類所占比例的餅狀圖。通過餅狀圖,可直觀看出,所占比例的小的可能為欺詐記錄。4.1.2模型的建立:標識重復個案與聚類分析標識重復個案:當輸入大量數(shù)據(jù)時,有時候會意外地出現(xiàn)輸入同一條記錄多次;或同一條記錄的某部分多次出現(xiàn),即多個個案具有相同的主標識值,但它們有不同的次標識值(比如,同一個身份證號有多個不同的序列號)。另外
6、一種出現(xiàn)重復個案的情況是,多個個案代表同一個案,但是除這些個案的標識變量取值相同之外,其他變量的取值不同。聚類分析:對Userupdate(變量)的標識重復個案的結果,進行分類主要采用聚類分析法,而求取類之間的距離有多種方法,其中最常用的是歐幾里德距離。(1) 數(shù)據(jù)標準化由于所選數(shù)據(jù)的量綱和數(shù)值大小都不一致,數(shù)值的變化范圍也不同,因此必須首先對所選數(shù)據(jù)進行標準化處理,如果有個樣本,個指標,則每個變量可表示為,均值標準方差則標準化后 (2) 聚類系統(tǒng)聚類;,將個重復個案結果各自看成一類,然后規(guī)定樣本之間的距離和類與類之間的距離。開始,因每個結果自成一類,類與類之間的距離與個案之間的距離是相等的,
7、選擇距離最小的一對并成一個新類,計算新類與其他類的距離,再將距離最近的兩類合并,這樣每次少一類,直至所有的個案都成一類為止,最終完成分類。設有n個樣本,令I=1,選取K個初始聚類中心:;計算每一個數(shù)據(jù)樣本與聚類中心之間距離:如果滿足,則;計算誤差平方和準則函數(shù)JC,公式如下:判斷是否滿足聚類算法結束條件:如果,則表示算法結束,否則,I=I+1,計算下一個新的聚類中心,并返回,新的聚類中心計算公式如下:距離:對重復個案結果進行聚類時,“靠近”往往由某種距離來刻畫。令表示第個重復個案結果的第個指標, 表示第個重復個案與第個重復個案之間的距離,最常見計算距離的方法是:歐幾里德距離 即為歐氏距離4.1
8、.3模型的求解(1)用SPSS中標記重復個案對身份證號有重復個案的記錄進行統(tǒng)計,由于有些數(shù)據(jù)無記錄,因此只統(tǒng)計了有記錄的數(shù)據(jù),結果見圖1。圖2為根據(jù)統(tǒng)計結果繪制的餅狀圖。 圖1 病人身份證號重復個案統(tǒng)計表 圖2 病人身份證號重復個案統(tǒng)計表(2) 用標識重復個案對醫(yī)保手冊號有重復個案的記錄進行統(tǒng)計,圖表中記錄為“1”的數(shù)據(jù)認為是無醫(yī)保病人,則不可能出現(xiàn)醫(yī)保欺詐,將此部分數(shù)據(jù)算作為主個案,不認為是重復個案,結果見圖3。圖4為根據(jù)統(tǒng)計結果繪制的餅狀圖。所有最后一個匹配個案的指示符為主個案頻率百分比有效百分比累積百分比有效重復個案188.3.3.3主個案5783099.799.7100.0合計5801
9、8100.0100.0 圖3 醫(yī)保手冊號重復個案統(tǒng)計表 圖4 醫(yī)保手冊號重復個案餅狀圖(3)用SPSS中k均值聚類分析對Userupdate(用戶更新次數(shù))進行分類,最終聚類中心結果見圖5,圖6為每個聚類的案例數(shù),圖7為根據(jù)最終聚類中心結果繪制的餅狀圖。 圖5 最終聚類中心統(tǒng)計表 圖6 每個聚類的案例數(shù) 圖7 最終聚類中心餅狀圖4.1.4模型結果分析(1)由圖1結果統(tǒng)計表中可知,身份證號總記錄為35176個(刪除掉無效記錄后),重復個案的記錄有1437個,所占比例為4.1%;圖2直觀看出重復個案所占比例的大小。從側面反應出同一病人在一定時間內多次使用醫(yī)保。(2) 由圖3的表中,可以看出醫(yī)保手冊
10、號總記錄為58018個,重復個案的記錄有188個,占總數(shù)的0.3%;圖4中可明顯看出表示有效重復個案的藍色區(qū)域是極小的。此分析結果表明一定時間內醫(yī)保手冊號重復使用次數(shù)過多的占總體的0.3%,這些記錄表現(xiàn)極可能是醫(yī)保欺詐行為。(3)從圖5中看出,將Userupdate(用戶更新次數(shù))分為兩類,最終聚類中心分別為4141和859;圖6顯示每個聚類的案例數(shù),可以看出第1聚類的案例數(shù)很少,占總案例數(shù)的8.1%,表明更新次數(shù)過多有可能是欺詐行為。4.2基于費用明細的醫(yī)保欺詐行為主動發(fā)現(xiàn)4.2.1問題的分析醫(yī)療保險欺詐行為,通過分析病人的費用明細表中的各項數(shù)據(jù)也可以找出可能的欺詐行為表現(xiàn),主要從單張?zhí)幏降?/p>
11、總價過高、病人ID號是否重復過多、下醫(yī)囑科室與病人科室是否一致這三個方面考慮。在附件給出的表2中,通過對各個變量進行K均值聚類分析,可以將數(shù)據(jù)分為幾類,案例數(shù)少的則可能是欺詐行為。但是考慮到單價、數(shù)量、總價之間的相互影響,對此我們使用了SPSS中相關性分析找出三個變量的相關性,并用圖標構建程序繪制了簡單3-D散點圖。對于病人ID號與模型一的分析一樣,使用標記重復個案的方法,找到重復的記錄,即可能為醫(yī)保欺詐行為。而下醫(yī)囑科室與病人科室應該是一致的,若不一致即為欺詐,因此對下醫(yī)囑科室和病人科室繪制簡單線圖。4.2.2模型的建立:聚類分析與相關性分析聚類分析:(1)數(shù)據(jù)標準化由于所選數(shù)據(jù)的量綱和數(shù)值
12、大小都不一致,數(shù)值的變化范圍也不同,因此必須首先對所選數(shù)據(jù)進行標準化處理,如果有個樣本,個指標,則每個變量可表示為,均值標準方差則標準化后 (2)聚類系統(tǒng)聚類;,將個樣本結果各自看成一類,然后規(guī)定樣本之間的距離和類與類之間的距離。開始,因每個結果自成一類,類與類之間的距離與個案之間的距離是相等的,選擇距離最小的一對并成一個新類,計算新類與其他類的距離,再將距離最近的兩類合并,這樣每次少一類,直至所有的個案都成一類為止,最終完成分類。設有n個樣本,令I=1,選取K個初始聚類中心:;計算每一個數(shù)據(jù)樣本與聚類中心之間距離:如果滿足,則;計算誤差平方和準則函數(shù)JC,公式如下:判斷是否滿足聚類算法結束條
13、件:如果,則表示算法結束,否則,I=I+1,計算下一個新的聚類中心,并返回,新的聚類中心計算公式如下:距離:對重復個案結果進行聚類時,“靠近”往往由某種距離來刻畫。求取類之間的距離有多種方法,其中最常用的是歐幾里德距離。令表示第個重復個案結果的第個指標, 表示第個重復個案與第個重復個案之間的距離,最常見計算距離的方法是:歐幾里德距離 即為歐氏距離相關性分析:相關分析是描述兩個變量間關系的密切程度,主要由相關系數(shù)值表示,當相關系數(shù)的絕對值越接近于1,則表示兩個變量間的相關性越顯著。雙變量系數(shù)測量的主要指標有卡方類測量、Spearman相關系數(shù)、pearson相關系數(shù)等,在進行兩者間的相關性檢驗時
14、用pearson相關系數(shù)來判斷,其公式為:Pearson簡單相關系數(shù)檢驗統(tǒng)計量為:其中統(tǒng)計量服從個自由度的分布。4.2.3模型的求解(1)考慮到單價、數(shù)量、總價之間的相互影響,對這三個變量進行了雙變量相關分析,圖8為三個變量的相關性分析統(tǒng)計表, 圖9單價、數(shù)量、總價的簡單3-D散點圖。 圖8 單價、數(shù)量、總價相關性分析統(tǒng)計表 圖9 單價、數(shù)量、總價的簡單3-D散點圖(2) 用k均值聚類分析對醫(yī)囑子類、單價、數(shù)量、總價進行聚類。最終聚類中心結果見圖10,圖11是這四個變量的單因素方差分析表,圖12為每個聚類的案例數(shù),圖13是根據(jù)圖12的結果繪制的簡單條形圖。 圖10 醫(yī)囑子類、單價、數(shù)量、總價的
15、最終聚類中心 圖11 醫(yī)囑子類、單價、數(shù)量、總價的單因素方差分析 圖12 醫(yī)囑子類、單價、數(shù)量、總價的每個聚類的案例數(shù) 圖13 醫(yī)囑子類、單價、數(shù)量、總價的最終聚類中心條形圖(3) 用標識重復個案對病人ID號進行重復個案分析,結果見圖14。再用k均值聚類分析對圖14 中的重復個案進行聚類,結果見圖15。圖16為病人ID號重復個案的每個聚類的案例數(shù)。 圖14 病人ID號重復個案統(tǒng)計表 圖15 病人ID號重復個案的最終聚類中心 圖16 病人ID號重復個案的每個聚類的案例數(shù)(4)圖17為繪制的下醫(yī)囑科室與病人科室的簡單線圖圖17下醫(yī)簡囑單科線室圖與病人科室4.2.4模型結果分析(1)圖8的統(tǒng)計表中,
16、可以看出單價與總價的相關性為0.456(弱相關),而數(shù)量與總價的相關性為0.116(不相關),所以認為,單價與總價有一定的相關性。(2)從圖10中看出,將醫(yī)囑子類、單價、數(shù)量、總價分為10類;圖12為醫(yī)囑子類、單價、數(shù)量、總價的每個聚類的案例數(shù),發(fā)現(xiàn)第1、2、4類的單價過高;第3、10類退藥數(shù)量大,第8類買藥數(shù)量大;第1、3類單張?zhí)幏酵怂幗痤~大;第2、4、6類單張?zhí)幏剿庂M高。以上所述的聚類特征,都有可能為醫(yī)保欺詐記錄。(3)圖14統(tǒng)計出病人ID號重復個案占總數(shù)的77.6%,對此再進行聚類分析,結果見圖15;由圖16可知,第5、7、8、10類案例數(shù)較少,這些類的最終聚類中心大于25,此特征可能為
17、欺詐。(4)根據(jù)圖17繪制的下醫(yī)囑科室與病人科室簡單線圖,可以看出有個別記錄不在y=x線上,即為下醫(yī)囑科室與病人科室不一致,因此為醫(yī)保欺詐行為。(5)在圖11的單因素方差分析中,醫(yī)囑子類、單價、數(shù)量、總價的P值均為0,說明各類在統(tǒng)計學上均有明顯差異,將其作為分類標準是合適的。五、模型的綜合評價1.模型的優(yōu)點:(1)針對構建解決模型問題,我們對題目附件所給數(shù)據(jù)進行仔細的分析,針對原始數(shù)據(jù)所提供的信息不斷分析。進一步標準的處理數(shù)據(jù),去除無用的或者不相關的,得到了更精確和更易分析的結果。體現(xiàn)了思維的嚴謹性,增加了模型的科學性。(2)對于模型得到的結果,結合生活實際,進行大膽的推測,合理地分析,最后驗
18、證推測的可能性。(3)采用多元統(tǒng)計中的聚類分析、回歸分析等方法建立模型,并充分利用EXCEL 及 SPSS等專業(yè)統(tǒng)計軟件求解問題,將統(tǒng)計學理論和專業(yè)統(tǒng)計軟件在解決問題中有機結合起來,并得到理想結果。2. 模型的缺點:(1)在處理2.1病人資料,2.2 費用明細表數(shù)據(jù)時,對于不完整數(shù)據(jù)和主觀認為不相關數(shù)據(jù)源進行了主觀性忽略,可能會導致一些重要指標的丟失以及各個因素間的影響。(2)醫(yī)療詐騙的行為很多,所以表現(xiàn)也多。本模型分析的醫(yī)療詐騙行為可能不完善,所以有的詐騙行為可能難以區(qū)分。6、 參考文獻1 劉長騫,K均值算法改進及在網(wǎng)絡入侵檢測中的應用,計算機仿真,28(3):190-193,2011年2
19、向繼 高能 荊繼武,聚類算法在網(wǎng)絡入侵檢測中的應用,計算機工程,29(16):48-50,2003年3 姜啟源 謝金星 葉俊,數(shù)學模型,北京:高等教育出版社,2010年4 李德宜 李明,數(shù)學建模,北京:科學出版社,2009年5 丁國盛 李濤,SPSS統(tǒng)計教程,北京:機械工業(yè)出版社,2006年6 薛薇,統(tǒng)計分析與SPSS的應用,北京:中國人民大學出版社,2008附錄:預測程序框圖:(1) 從身份證號、醫(yī)保手冊號、Userupdate(用戶更新次數(shù))這三方面預測是否為醫(yī)保欺詐行為:a:醫(yī)保手冊號 b:醫(yī)保手冊號使用次數(shù) c:身份證號使用次數(shù): d:Userdate(用戶更新次數(shù))結束開始輸入a,b
20、,c,dda=1??輸出無欺詐輸出可能 有欺詐17用以下數(shù)據(jù)可驗證上述程序框圖是較為準確的:序號醫(yī)保手冊號醫(yī)保手冊號使用次數(shù)身份證號身份證號使用次數(shù)userupdate114211271991070713072152260019790608529731441622198510173297411409551118436501034053 24403052013062023967501163747244030520131026418628600115048244010581081157130396002267952430522197704123186010600469157243010378071
21、400230311600502234344142281071951354012600602580262050219971015257513605185723625016507100024131460514465523605211983100225641560537561024305021984110122961660546344424304031982111121631710572751362101580624063571181054937641441481810113091568191051482144512219710602118402010494351440102620510481573(2) 從數(shù)量、總價
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- T/CHIA 28.3-2022兒童營養(yǎng)與健康評價指標第3部分:6~17歲
- T/CECS 10298-2023二階反應型水性環(huán)氧瀝青防水粘結料
- T/CECS 10083-2020增強豎絲巖棉復合板
- T/CDSA 305.16-2018盾構維護高氣壓作業(yè)規(guī)程
- T/CCSAS 050-2024化學化工實驗室化學品安全操作規(guī)程編寫指南
- T/CCMA 0108-2020預制混凝土構件振動成型平臺
- T/CCAS 014.6-2022水泥企業(yè)安全管理導則第6部分:水泥工廠危險能量隔離管理
- T/CAQI 35-2017新風式空氣凈化器顆粒物凈化性能分級
- T/CAQI 248-2022燃氣輪機進氣過濾器
- T/CAPE 12003-2021油氣潤滑油
- 湖南省2024年對口升學考試計算機綜合真題試卷
- 江蘇省南京市(2024年-2025年小學六年級語文)統(tǒng)編版期末考試(下學期)試卷及答案
- 中醫(yī)適宜技術-中藥熱奄包
- 材料力學第4版單輝祖習題答案
- 2022-2023學年高中政治統(tǒng)編版選擇性必修二:第9課 糾紛的多元解決方式 教案
- 術前停用抗凝藥物
- 法學本科畢業(yè)論文
- 爆破安全安全規(guī)程
- 首末件檢查記錄表
- DB52∕T 046-2018 貴州省建筑巖土工程技術規(guī)范
- 真空斷路器課件
評論
0/150
提交評論