證券其它相關論文-異常點挖掘在證券業(yè)的應用研究.doc_第1頁
證券其它相關論文-異常點挖掘在證券業(yè)的應用研究.doc_第2頁
證券其它相關論文-異常點挖掘在證券業(yè)的應用研究.doc_第3頁
證券其它相關論文-異常點挖掘在證券業(yè)的應用研究.doc_第4頁
證券其它相關論文-異常點挖掘在證券業(yè)的應用研究.doc_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

證券其它相關論文-異常點挖掘在證券業(yè)的應用研究內容摘要:異常點挖掘是數據挖掘的一項功能,現有的文獻較多關注于算法及其改進方面,而對于異常點挖掘過程以及如何將異常點挖掘應用于證券業(yè)缺乏深入研究。本文針對上述兩個問題展開探討,提出異常點挖掘的生命周期模型并給出該模型在證券業(yè)的應用案例,為應用的研究提供參考。關鍵詞:證券業(yè)異常點數據挖掘應用證券業(yè)是一個數據密集型的行業(yè),經過多年的發(fā)展,許多券商積累了海量的客戶數據。如何挖掘這些寶貴的數據資源以發(fā)現證券交易過程中隱含的不良操作,是數據挖掘在證券行業(yè)應用的重要課題。對于異常點,Hawkwins認為:一個異常點是這樣一個測量值,它過分地偏離其他測量值,從而使人們對它產生懷疑,懷疑它是由不同的機理產生的。作為數據挖掘的一項功能,異常點挖掘受到眾多學者的重視,但大部分的研究重點均放在算法、算法優(yōu)化和改進等方面,而對異常點挖掘過程以及如何結合具體的問題域、行業(yè)背景知識進行挖掘則探討不多。異常點有著較強主觀性,在進行異常點挖掘研究時應定義特定的挖掘背景。在證券業(yè),異常點挖掘可以發(fā)現客戶數據中的異常點或者孤立點,而這些特殊數據恰恰包含了非正常的交易。當然,并不是所有的異常點都是不良操作或者違規(guī)交易,其中,有一部分異常點可能是噪音數據,有些則是真實的并且有利于券商的交易信息,例如,發(fā)現大客戶或者潛在的優(yōu)質客戶等。基于此,本文將重點探討完整的異常點挖掘流程及其在證券業(yè)的應用。異常點挖掘的生命周期過程異常點挖掘的生命周期應該包括定義目標、選擇數據源、選擇挖掘算法、設置初始維(組合)及域值、計算驗證、迭代以及后期分析7個步驟(如圖1)。定義挖掘目標。從數據挖掘的七個步驟來看,定義目標應該是一張寬泛的、粗線條的需求定義列表,例如:對客戶交易記錄進行異常點挖掘,找到異常交易和可疑記錄;發(fā)現不同類型客戶分組中的特例,等等。選擇數據源。異常點挖掘和數據挖掘的數據源一般來說是一致的,并在其基礎上根據挖掘目標進行選擇和預處理。此外,為了獲得更佳的挖掘效果,需要對進行異常點挖掘的數據源做預處理。大部分情況下,這類數據源的預處理將在任務開始時完成,并且可以直接運用到異常點挖掘中。選擇算法。涉及異常點挖掘的算法較多,比較常用的有基于統(tǒng)計的算法、基于距離的算法、基于偏差的算法,每種算法都有不同的實現。在實踐中需要針對不同的挖掘目標,不同的數據源,不同的資源條件,對算法做出選擇和優(yōu)化。維和初始參數的選擇。在異常點挖掘時,證券客戶不同的維(屬性)組合得到的異常點可能完全不同。有些記錄在某些維度上的偏差較大,當計算包括這些維度時,往往會覆蓋其他維對異常點判斷的影響,而不考慮這些維時,這些點并不表現得多么“異常”。因此,需要單獨考察某些維度組合上的異常情況;同時,也需要在過濾掉那些過于“異?!钡木S度和記錄之后,考察其余維度上的異常情況。除了維度的選擇,在開始計算時,也要考慮域值的初始值設置。對于基于距離的異常點挖掘算法,鄰域閥值k的取值非常關鍵,尤其對于局部異常點挖掘,k的不同取值可能產生完全不同的結果。計算并驗證異常點。挖掘算法的實現可以借助一些統(tǒng)計分析工具,例如SAS、SPSS等,或者是自己實現挖掘算法。相比計算,驗證異常點就要困難得多,首先必須保證算法的實現是正確的,其次即使使用一個可靠的程序進行挖掘時,仍然可能會有誤差和噪音干擾挖掘結果。一個辦法是通過迭代計算比較多次結果后剔除,而迭代是整個異常點挖掘過程的一個必須環(huán)節(jié);另一個辦法是觀察異常點數據的特征,當數據是低維(小于3維)時可以使用散點圖觀察樣本分布,通過直觀比對挖掘得到的異常點位置來判斷有效性。迭代計算(調整維組合和域值)。一次異常點挖掘的結果,并不意味著挖掘過程的結束,還需要調整維組合和域值之后迭代計算,得到更全面和系統(tǒng)的結論。例如,對于一個基于傭金和交易次數兩個維度組合得到的異常點,我們認為它是在維度組合傭金,交易次數上的異常點,而對于其他維度組合則不一定,或者還有更加“異?!钡臉颖军c存在。對于不同維度組合下的綜合考察可以幫助我們找到更加“合格”的異常點,迭代計算可以幫助我們完成這項任務。異常點的計算是一個動態(tài)的過程,從初始的維組合和參數設置開始,需要制定一個有條理的維組合選擇計劃,每次計算選擇不同的維組合進行計算,同時驗證所得的異常點是否有效,以決定域值和維的選擇。一旦對數據進行了若干輪挖掘并獲得輸出結果后,便可據此進行后期分析和目標檢驗。后期分析。后期分析的主要任務是綜合之前的計算結果,結合挖掘目標和問題背景,解釋異常點產生的原因,指出需要采取的措施和方案建議等。為了對異常點做出合理解釋,需要結合行業(yè)知識和其他外部信息,包括專家知識、相關規(guī)范標準、行業(yè)平均水平等作為參考。因此,異常點挖掘結果應該是一份全面描述挖掘過程,對結果進行綜合分析,并加入與目標相適應的解決方案和建議。應用分析定義挖掘目標。本案例以異常點挖掘生命周期模型為指導,通過異常點挖掘,幫助券商發(fā)現客戶的(潛在)異常交易行為。具體包括兩方面的作用:一方面作為客戶細分結果的驗證,找到每個客戶組群上的邊緣客戶,為聚類分析結果提供驗證和補充,另一方面,通過異常點挖掘標記出每個組交易異常的客戶??蛻魯祿∽阅匙C券公司營業(yè)部某年度的客戶交易數據,涉及客戶21580人,客戶屬性經處理后選取用戶ID、交易總量、傭金、交易次數、資金量、股票成交數、股票變動次數、資金變動次數、年齡、開戶時長,其中用戶ID、年齡和開戶時長未參與計算。選擇數據源。聚類分析為異常點挖掘提供了數據預處理,使得挖掘能夠更加精確和高效。實際操作中,直接使用聚類獲得的結果作為異常點挖掘的客戶分組,記為C1、C2C5(聚類過程略)。表1列出了聚類結果。由于C2、C3和C5樣本數量太小,異常點挖掘意義不大,故不參加計算。選擇算法??紤]到數據源、軟硬件條件以及時間限制等因素,本案使用基于距離的算法進行異常點挖掘;在驗證異常點時,使用統(tǒng)計偏差監(jiān)測方法進行異常點檢驗。維和初始參數的選擇。在本案中,通過對維組合和域值的設置、不斷進行迭代和嘗試,通過對結果的觀察,最后一次計算的維組合是傭金、交易次數、股票變動次數、資金變動次數,其中傭金和交易次數是原始變量,而股票變動次數和資金變動次數是兩個復合變量,由聚類之前的數據預處理得到;對于域值k,根據試驗以及考慮到性能的代價,取k=15進行計算。計算并驗證異常點。當確定了挖掘目標、數據源、挖掘算法、初始維組合和域值之后,就可以進入計算和驗證過程。迭代計算。最后,把不同維組合計算出的異常點進行綜合,可以得到該數據集所有的異常點。對于C4(C1略),最后綜合得到的異常點在各個維度上的取值(如表2)。后期分析。該階段需要對比計算結果和最初定義的挖掘目標,根據異常點的數據特性解釋其異常原因,并且總結出那些潛在的知識和規(guī)律。表2列出了C4群組中所有的異常點及其表現,對比異常點和該維度上的均值可以得到一個簡單的分析結果。對于局部異常點,即表2中列出的客戶8224292、8216612和8223969,較難對其做出一個直觀合理的解釋,但在某些情況下,局部異常點恰恰是那些潛在的、被忽視的數據或者線索。例如8216612客戶,可以看到他的資金變動次數遠高于均值,而其他對應的股票操作都接近均值,因此,不能排除其頻繁通過股市進行資本操作甚至是風險或者非法操作,而這些需要券商作進一步的分析。通過對異常點的分析,券商可以深入了解這些客戶的交易行為特征,為開展精細化營銷提供科學依據。綜上,異常點挖掘一直以來得到眾多學者的關注,但現有的研究過多關注算法及其優(yōu)化方面,而對其在具體行業(yè)的應用探討

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論