數(shù)據(jù)挖掘在各領(lǐng)域的應(yīng)用案例_第1頁(yè)
數(shù)據(jù)挖掘在各領(lǐng)域的應(yīng)用案例_第2頁(yè)
數(shù)據(jù)挖掘在各領(lǐng)域的應(yīng)用案例_第3頁(yè)
數(shù)據(jù)挖掘在各領(lǐng)域的應(yīng)用案例_第4頁(yè)
數(shù)據(jù)挖掘在各領(lǐng)域的應(yīng)用案例_第5頁(yè)
已閱讀5頁(yè),還剩56頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、.謝邦昌謝邦昌 教授教授中華數(shù)據(jù)挖掘協(xié)會(huì)中華數(shù)據(jù)挖掘協(xié)會(huì) 秘書長(zhǎng)秘書長(zhǎng)2004/12/262004/12/26.資料來(lái)源:資料來(lái)源: Technology ReviewTechnology Review雜志雜志(2002/1)(2002/1).nTechnology ReviewTechnology Review雜志公布改變未來(lái)的十項(xiàng)新興趨勢(shì)雜志公布改變未來(lái)的十項(xiàng)新興趨勢(shì) n機(jī)器與人腦的介面機(jī)器與人腦的介面 n塑料電晶體塑料電晶體 n數(shù)據(jù)挖掘數(shù)據(jù)挖掘(Data mining) (Data mining) n數(shù)字權(quán)利管理數(shù)字權(quán)利管理 n生物測(cè)定學(xué)生物測(cè)定學(xué)(Biometrics) (Biomet

2、rics) n語(yǔ)言識(shí)別處理語(yǔ)言識(shí)別處理 n微光學(xué)技術(shù)微光學(xué)技術(shù)(Microphotonics) (Microphotonics) n解開(kāi)程序碼解開(kāi)程序碼(Untangling code) (Untangling code) n機(jī)器人設(shè)計(jì)機(jī)器人設(shè)計(jì) n微應(yīng)用流體學(xué)微應(yīng)用流體學(xué)(Microfluidics)(Microfluidics) .n在生物科技上,如人腦與機(jī)器介面,可加速發(fā)展生化義肢,學(xué)者認(rèn)為這方面大有潛力。n機(jī)器人將為人類處理更多復(fù)雜或重復(fù)性的工作,現(xiàn)有研究人員發(fā)展出可設(shè)計(jì)、制造機(jī)器人的機(jī)器人。 n在信息科技上,數(shù)位權(quán)利管理愈來(lái)愈受重視,以便保護(hù)知識(shí)財(cái)產(chǎn),由全錄公司Palo Alto研究

3、中心創(chuàng)出的Content Guard公司,利用加密技術(shù)保護(hù)知識(shí)財(cái)產(chǎn)。 .n資料發(fā)掘與生物測(cè)定學(xué)也很有潛力,數(shù)據(jù)挖掘是利用數(shù)學(xué)演算法,在龐大的資料庫(kù)中尋找方式,例如目前應(yīng)用在掌紋、臉孔等圖像辨識(shí),或者是語(yǔ)言辨識(shí)處理等方面。n塑料芯片也是一大突破,在IBM、朗訊、麻省理工、劍橋大學(xué)、Penn State大學(xué)都在研發(fā)塑料或有機(jī)物質(zhì)芯片。n微光學(xué)技術(shù),專家利用可反射光線的水晶、玻璃等物質(zhì),讓光纖傳輸資料的速度,不會(huì)因?yàn)橥ㄟ^(guò)路由器、交換器時(shí)而降低速度。 .n微應(yīng)用流體學(xué)方面:科學(xué)家正試圖利用物理原則做實(shí)驗(yàn),只利用極微量的水,加快原本需要費(fèi)時(shí)費(fèi)金錢的實(shí)驗(yàn)。加州理工學(xué)院的應(yīng)用物理學(xué)家Stephen Quak

4、e,以微應(yīng)用流體學(xué)發(fā)展了一套DNA分析裝置,比傳統(tǒng)的分析裝置快。 Technology Review的編輯指出,微應(yīng)用流體學(xué)將為生物科技大有幫助,就像當(dāng)初電晶體提高了電子產(chǎn)品。.nProblemProblem:nDetecting painDetecting painnSubjective & no direct measurementSubjective & no direct measurementnClinicalClinical:Visual Analogue ScaleVisual Analogue Scale(VASVAS)nWhere will cause the

5、 painWhere will cause the pain?nEndoscopeEndoscopenOperating roomOperating room:ESWLESWL;ProstateProstatenPost Op. Post Op. :PCAPCAnICUICUnCancer painCancer pain.Drug DemandVASPCAPDAP ADATA MININGFuzzy LogicPain PatternPatient SatisfactionmessengeruserAcute PainServiceResearch & DevelopmentResea

6、rch & Development.n近年來(lái),隨著化學(xué)資料的大量積累和資料庫(kù)的普遍使用,逐步認(rèn)識(shí)到大量資料的利用是十分困難且不充分的,更具價(jià)值的規(guī)律性的信息和知識(shí)反而被隱蔽起來(lái)。因此,化學(xué)數(shù)據(jù)挖掘作為一種新的信息技術(shù)開(kāi)始出現(xiàn)于電腦化學(xué)中。n這一技術(shù)的關(guān)鍵是用軟件來(lái)從大量的化學(xué)資料中自動(dòng)地發(fā)現(xiàn)新的不明顯和有潛在應(yīng)用價(jià)值的信息和知識(shí),因此它也常常與資料分析和知識(shí)發(fā)現(xiàn)(Knowledge discovery)相緊密結(jié)合。 .nData cleaning nData reductionnFeature detection nFeature reductionnClassifier and ca

7、tegory detectionnFraud detection nRecognizing unusual patternsnNovelty detection nConstruction of sample databasesnKnowledge discovery and rule detection from large databases .n隨著人類基因序列的解碼,基因與各種疾病間之關(guān)聯(lián)性的研究正逐漸受到重視,而相關(guān)之研究文獻(xiàn)亦隨之增多。n通過(guò)搜尋引擎等渠道,醫(yī)學(xué)研究人員可以快速取得所需之信息,但也同時(shí)面臨了資料過(guò)多的問(wèn)題。.n隨著通信技術(shù)和電腦技術(shù)的發(fā)展,每天在氣象通信網(wǎng)上傳輸越來(lái)

8、越龐大的氣象資料,對(duì)這些資料的存儲(chǔ)、集成和應(yīng)用的問(wèn)題也就越來(lái)越突出。n資料倉(cāng)庫(kù)是電腦應(yīng)用發(fā)展的必然產(chǎn)物。經(jīng)過(guò)長(zhǎng)期積累所形成的大量業(yè)務(wù)資料,是過(guò)去的真實(shí)活動(dòng)記錄。如何利用這些資料并在此后的決策中發(fā)揮效益,為決策分析和評(píng)估提供幫助,很長(zhǎng)時(shí)期內(nèi)都困擾著資料庫(kù)的發(fā)展。 .n對(duì)資料進(jìn)行厚縮,給出它的緊湊描述。數(shù)據(jù)挖掘主要關(guān)心從資料泛化的角度來(lái)討論資料總結(jié)。 n建立一個(gè)分類函數(shù)或分類模型,該模型能把資料庫(kù)的資料項(xiàng)目映射到給定類別中的某一個(gè)。n把一組個(gè)體按照相似性歸成若干類別。使屬于同一類別的個(gè)體之間的距離盡可能地 小,而不同類別的個(gè)體間的距離盡可能地大。n按某一規(guī)則探討這一規(guī)則下的資料關(guān)聯(lián)性。.資料來(lái)源:

9、資料來(lái)源:http:/pricehttp:/price.n新系統(tǒng)著重于農(nóng)產(chǎn)品交易行情信息的加值應(yīng)用,新系統(tǒng)著重于農(nóng)產(chǎn)品交易行情信息的加值應(yīng)用,利用農(nóng)產(chǎn)品價(jià)量資料庫(kù)充實(shí)的資料利用農(nóng)產(chǎn)品價(jià)量資料庫(kù)充實(shí)的資料 ,加值處理后,加值處理后提供使用者作為參考,朝向建立農(nóng)產(chǎn)品交易行提供使用者作為參考,朝向建立農(nóng)產(chǎn)品交易行情資料倉(cāng)儲(chǔ)情資料倉(cāng)儲(chǔ)(Data Warehouse)(Data Warehouse)之目標(biāo)發(fā)展,讓之目標(biāo)發(fā)展,讓使用者可以通過(guò)資料倉(cāng)儲(chǔ)的資料處理進(jìn)行使用者可以通過(guò)資料倉(cāng)儲(chǔ)的資料處理進(jìn)行 n聯(lián)機(jī)分析處理聯(lián)機(jī)分析處理(On Line Analytic Processing (On Line An

10、alytic Processing ,OLAP)OLAP)n決策支援系統(tǒng)決策支援系統(tǒng) (Decision Support System(Decision Support System, DSS) DSS) n數(shù)據(jù)挖掘數(shù)據(jù)挖掘(Data Mining)(Data Mining).n人類已經(jīng)進(jìn)入信息時(shí)代,我們不僅面臨著用新技術(shù)來(lái)整理舊史料的問(wèn)題,而且隨著考古的新發(fā)現(xiàn)和科技的發(fā)展,史料的容量和形式急劇膨脹。n以何種方法處理、存貯史料,并且能夠讓學(xué)者從中方便迅速地檢索和得到所需的信息,是當(dāng)前史料學(xué)的一個(gè)大問(wèn)題。 .n數(shù)位化是史料處理的必經(jīng)之路數(shù)位化是史料處理的必經(jīng)之路n把各種史料統(tǒng)一為電腦資料,方便存

11、貯和檢索;把各種史料統(tǒng)一為電腦資料,方便存貯和檢索;n使史料的物理體積大大縮小,方便攜帶;使史料的物理體積大大縮小,方便攜帶;n可以低成本無(wú)差錯(cuò)拷貝,方便傳播和普及??梢缘统杀緹o(wú)差錯(cuò)拷貝,方便傳播和普及。n目前,不論是印刷文檔、手寫稿,還是電子檔、目前,不論是印刷文檔、手寫稿,還是電子檔、音像檔、甚至于遺址與文物,越來(lái)越多的史料逐音像檔、甚至于遺址與文物,越來(lái)越多的史料逐漸被數(shù)位化,出現(xiàn)了資料倉(cāng)庫(kù)(漸被數(shù)位化,出現(xiàn)了資料倉(cāng)庫(kù)(Data Data warehousingwarehousing)、資料集市)、資料集市(Data mart)(Data mart)、資料掘、資料掘?。ㄈ。―ata mi

12、ningData mining)等新概念和信息數(shù)位化處理方)等新概念和信息數(shù)位化處理方法,逐步形成了大資料量存貯和管理方式。法,逐步形成了大資料量存貯和管理方式。.nBI For Bank是MDCL公司基于EOSS套件在銀行領(lǐng)域推出的一套完整的商業(yè)智慧解決方案。n它以先進(jìn)的資料倉(cāng)庫(kù)(Data Warehousing)、聯(lián)機(jī)分析處理(OLAP)、數(shù)據(jù)挖掘(Data Mining)技術(shù)為基礎(chǔ),結(jié)合顧客關(guān)系管理和電子商務(wù)的經(jīng)驗(yàn),能夠幫助企業(yè)全面提高科學(xué)管理水平和經(jīng)營(yíng)決策能力,促進(jìn)企業(yè)業(yè)務(wù)和利潤(rùn)的增長(zhǎng),提高市場(chǎng)競(jìng)爭(zhēng)力,迎接以客戶為中心的經(jīng)營(yíng)方式的轉(zhuǎn)變。 .n商業(yè)銀行資本分析商業(yè)銀行資本分析n按時(shí)間、機(jī)

13、構(gòu)緯度研究資本的構(gòu)成、資本需要量和充足度。按時(shí)間、機(jī)構(gòu)緯度研究資本的構(gòu)成、資本需要量和充足度。 n資產(chǎn)與負(fù)債資產(chǎn)與負(fù)債 n從時(shí)間、機(jī)構(gòu)緯度研究資產(chǎn)的構(gòu)成、資產(chǎn)的總量和風(fēng)險(xiǎn)、從時(shí)間、機(jī)構(gòu)緯度研究資產(chǎn)的構(gòu)成、資產(chǎn)的總量和風(fēng)險(xiǎn)、負(fù)債的構(gòu)成和趨勢(shì)、負(fù)債同業(yè)情況分析等。負(fù)債的構(gòu)成和趨勢(shì)、負(fù)債同業(yè)情況分析等。 n表科目查詢表科目查詢n本模組以財(cái)務(wù)報(bào)表和會(huì)計(jì)科目為基礎(chǔ),按照科目、時(shí)間、本模組以財(cái)務(wù)報(bào)表和會(huì)計(jì)科目為基礎(chǔ),按照科目、時(shí)間、機(jī)構(gòu)、產(chǎn)品和客戶的緯度,進(jìn)行報(bào)表和科目的即時(shí)查詢、機(jī)構(gòu)、產(chǎn)品和客戶的緯度,進(jìn)行報(bào)表和科目的即時(shí)查詢、挖掘和分析。挖掘和分析。 .n資金管理分析資金管理分析n從時(shí)間、機(jī)構(gòu)緯度研究

14、資金流入、流出及管理現(xiàn)狀。從時(shí)間、機(jī)構(gòu)緯度研究資金流入、流出及管理現(xiàn)狀。 n資金來(lái)源成本估計(jì)資金來(lái)源成本估計(jì)n從時(shí)間、機(jī)構(gòu)緯度研究資金來(lái)源成本估計(jì)、資金結(jié)構(gòu)、資從時(shí)間、機(jī)構(gòu)緯度研究資金來(lái)源成本估計(jì)、資金結(jié)構(gòu)、資金余缺、資金利用度、頭寸匡算、資金運(yùn)用及收益分析。金余缺、資金利用度、頭寸匡算、資金運(yùn)用及收益分析。 n客戶信貸分析客戶信貸分析n從時(shí)間、機(jī)構(gòu)、科目、借款人性質(zhì)、貸款形式、貸款期限、從時(shí)間、機(jī)構(gòu)、科目、借款人性質(zhì)、貸款形式、貸款期限、貸款方式研究貸款結(jié)構(gòu)、貸款流動(dòng),貸款發(fā)放與回收情況。貸款方式研究貸款結(jié)構(gòu)、貸款流動(dòng),貸款發(fā)放與回收情況。 .n經(jīng)營(yíng)成本營(yíng)利分析經(jīng)營(yíng)成本營(yíng)利分析n從時(shí)間、機(jī)構(gòu)

15、緯度研究經(jīng)營(yíng)成本升降、經(jīng)營(yíng)成本專案、經(jīng)從時(shí)間、機(jī)構(gòu)緯度研究經(jīng)營(yíng)成本升降、經(jīng)營(yíng)成本專案、經(jīng)營(yíng)成本的結(jié)構(gòu)水平、銀行收入和利潤(rùn)綜合分析。營(yíng)成本的結(jié)構(gòu)水平、銀行收入和利潤(rùn)綜合分析。 n利率風(fēng)險(xiǎn)與營(yíng)利分析利率風(fēng)險(xiǎn)與營(yíng)利分析n從時(shí)間、機(jī)構(gòu)緯度研究利率調(diào)換交易分析、遠(yuǎn)期利率合同從時(shí)間、機(jī)構(gòu)緯度研究利率調(diào)換交易分析、遠(yuǎn)期利率合同分析、金融貸款分析、期權(quán)交易分析。分析、金融貸款分析、期權(quán)交易分析。 n匯率風(fēng)險(xiǎn)與防范分析匯率風(fēng)險(xiǎn)與防范分析n從時(shí)間、機(jī)構(gòu)緯度研究即期、遠(yuǎn)期外匯買賣分析,套匯分從時(shí)間、機(jī)構(gòu)緯度研究即期、遠(yuǎn)期外匯買賣分析,套匯分析,外匯投機(jī)分析,期貨、期權(quán)交易分析。析,外匯投機(jī)分析,期貨、期權(quán)交易分析。

16、 .n投資決策分析 n主要回答:怎樣投資?向何處投資?投資多少?如何籌措資金?包括:投資效益分析、投資可行性分析 n綜合經(jīng)營(yíng)指標(biāo)分析與預(yù)警 n考核指標(biāo)分析 n銀行健康綜合評(píng)估 n指標(biāo)預(yù)警從時(shí)間、機(jī)構(gòu)緯度監(jiān)測(cè)信用風(fēng)險(xiǎn)、流動(dòng)風(fēng)險(xiǎn)、經(jīng)營(yíng)風(fēng)險(xiǎn)、資金風(fēng)險(xiǎn)、國(guó)際收支,如果有異常情況自動(dòng)給予警告。.n匯集資料數(shù)據(jù)n擷取、合并、刪除、歸類.等,成為一定格式,再放入資料倉(cāng)儲(chǔ)內(nèi)n存貯并管理datan將所有的資料再集中存入一個(gè)大的資料庫(kù)里,可依照不同的需求建立小的資料庫(kù),方便讀取n分析讀取所需信息n銀行各部門可依據(jù)不同的主題存取工具,進(jìn)行查詢并結(jié)合圖形,OLAP等工具.n商業(yè)銀行首要關(guān)注于顧客關(guān)系的應(yīng)用主題,即建立

17、顧客信息分析管理信息,從中收集顧客的基本資料、資產(chǎn)、負(fù)債等信息用以搭建一個(gè)良好的信息連接庫(kù)。n美國(guó)第一銀行運(yùn)用 “ICARE建立客戶關(guān)系管理:nI(Inquire) 向顧客詢問(wèn)并了解其需求nC(Communicate) 向顧客保證降很快滿足其需求nA(Affirm) 使顧客確信有完成服務(wù)的工作與愿望nR(Recommend) 向顧客提出一系列的服務(wù)選擇nE(Express) 使顧客銀行接受單個(gè)客戶的委托 n顧客將可通過(guò)email 電話 網(wǎng)站信息等得到:金融服務(wù)、旅游娛樂(lè)服務(wù)以及其他的綜合信息服務(wù),之后將會(huì)寄出邀請(qǐng)函請(qǐng)顧客填寫,銀行將可了解顧客的需求,幫助其完成愿望. 對(duì)于過(guò)去,銀行并未從企業(yè)的

18、整體角度實(shí)施顧客一體化管理,因此前后流程為實(shí)踐整合的狀態(tài),無(wú)法達(dá)到連接,將造成信息重復(fù)、矛盾,甚至是過(guò)時(shí),無(wú)法隨時(shí)滿足應(yīng)有的信息或服務(wù),利用data mining的技術(shù),將可以解決如此的問(wèn)題,更有效率朝向以顧客為中心企業(yè)體系。.資料來(lái)源:張燕霞、趙永恒、崔辰川資料來(lái)源:張燕霞、趙永恒、崔辰川 中國(guó)科學(xué)院國(guó)中國(guó)科學(xué)院國(guó)家天文臺(tái)家天文臺(tái).n綜述數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)在天文學(xué)中興起的必然性及其近幾年的發(fā)展?fàn)顩r、實(shí)現(xiàn)過(guò)程和具體任務(wù)。n分析當(dāng)前天文資料的復(fù)雜性,介紹天文學(xué)中數(shù)據(jù)挖掘的科學(xué)要求。n系統(tǒng)地概括近年來(lái)天文學(xué)中數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)領(lǐng)域研究的進(jìn)展及其熱點(diǎn),并闡述其所面臨的挑戰(zhàn)。.n天文學(xué)中數(shù)據(jù)挖掘和知識(shí)

19、發(fā)現(xiàn)的興起將對(duì)天文學(xué)的發(fā)展起到巨大的推動(dòng)作用,同時(shí)也在知識(shí)和技術(shù)等方面對(duì)天文學(xué)家提出新的要求。n數(shù)據(jù)挖掘技術(shù)能否在虛擬天文臺(tái)中成功應(yīng)用,是虛擬天文臺(tái)充分配揮作用的關(guān)鍵所在。 .資料來(lái)源:資料來(lái)源: 硅谷動(dòng)力硅谷動(dòng)力.n專家預(yù)測(cè)在今后十年中,“數(shù)據(jù)挖掘?qū)⑹蔷哂懈锩赃M(jìn)展的舉措之一,是提供“個(gè)性化網(wǎng)絡(luò)的關(guān)鍵,即通過(guò)采集信息、識(shí)別有用結(jié)構(gòu)并進(jìn)行即時(shí)分析,從而滿足用戶個(gè)性化選擇。n無(wú)論這種技術(shù)復(fù)雜與否,近年來(lái)各公司都在進(jìn)行各種各樣的數(shù)據(jù)挖掘研究,以期讓那些近年來(lái)急速堆積增長(zhǎng)的原始資料,變得有意義。 n電子商務(wù)現(xiàn)在是最新和最炙手可熱的一個(gè)行業(yè),無(wú)論在哪都有歷史資料,用這些資料可以得到用眼睛無(wú)法看到的方式

20、結(jié)論。 .n通過(guò)數(shù)據(jù)挖掘,市場(chǎng)商人可以瞄準(zhǔn)目標(biāo)客戶,采用個(gè)人股票行市、最新信息、特殊的市場(chǎng)推廣活動(dòng)或其他一些特殊的信息手段,從而極大地減少?gòu)V告預(yù)算和增加收入。n百貨商場(chǎng)、超市和一些老字型大小的零售店也在進(jìn)行數(shù)據(jù)挖掘,以便猜測(cè)這些年來(lái)顧客的消費(fèi)習(xí)慣。 .n數(shù)據(jù)挖掘軟件繁多n軟件商正在為非統(tǒng)計(jì)學(xué)專業(yè)人士們開(kāi)發(fā)一些更加自動(dòng)化的數(shù)據(jù)挖掘應(yīng)用軟件,讓科學(xué)技術(shù)更加實(shí)用化。n迎合市場(chǎng)需求,數(shù)據(jù)挖掘簡(jiǎn)單化操作 n過(guò)分簡(jiǎn)單將會(huì)使結(jié)果出現(xiàn)偏差,使執(zhí)行者基于錯(cuò)誤的推理作出定價(jià)和盤貨決定。 .資料來(lái)源:史忠植、張慶杰、張治洪、王資料來(lái)源:史忠植、張慶杰、張治洪、王 軍軍 中國(guó)科學(xué)院計(jì)算技術(shù)中國(guó)科學(xué)院計(jì)算技術(shù)研究所研究

21、所.n隨著大量的大規(guī)模的資料庫(kù)迅速不斷地增長(zhǎng),人們對(duì)資料庫(kù)的應(yīng)用已不滿足于僅對(duì)資料庫(kù)進(jìn)行查詢和檢索。n 僅用查詢檢索不能幫助用戶從資料中提取帶有結(jié)論性的有用信息,這樣資料庫(kù)中蘊(yùn)藏的豐富知識(shí),就得不到充分的發(fā)掘和利用。 .nKDD的研究?jī)?nèi)容是,能自動(dòng)地去處理資料庫(kù)中大量的原始資料,從中挖掘搜索出具有必然性的、富有意義的方式(pattern) nKDD的一個(gè)主要問(wèn)題是資料庫(kù)中潛在的可能關(guān)系方式的數(shù)量太大了,因此使得要想搜索到有用方式,必須借用人工智能技術(shù),特別是來(lái)自機(jī)器學(xué)習(xí)領(lǐng)域的方法。 .nKDD的主要對(duì)象是關(guān)聯(lián)資料庫(kù)。nKDD可發(fā)現(xiàn)的知識(shí)也有各種表示形式,如法則(RULES)、規(guī)則(REGULA

22、RITY)、科學(xué)定律、方程或概念網(wǎng)等等。 n KDD的發(fā)現(xiàn)過(guò)程主要有三個(gè)步驟:n用戶定義要發(fā)現(xiàn)的問(wèn)題n系統(tǒng)根據(jù)問(wèn)題進(jìn)行資料搜索、方式抽取n評(píng)價(jià)所發(fā)現(xiàn)的知識(shí)的質(zhì)量的好壞 .n動(dòng)態(tài)變化的資料動(dòng)態(tài)變化的資料 n雜訊雜訊n如數(shù)據(jù)的手工登錄以及主觀選取資料等,容易使得資料有雜訊。如數(shù)據(jù)的手工登錄以及主觀選取資料等,容易使得資料有雜訊。n資料不完整資料不完整n資料的不完整性將給發(fā)現(xiàn)、評(píng)估和解釋一些重要的方式帶來(lái)困難。資料的不完整性將給發(fā)現(xiàn)、評(píng)估和解釋一些重要的方式帶來(lái)困難。 n冗余信息冗余信息 n資料庫(kù)中同一信息有時(shí)存儲(chǔ)在多個(gè)地方。函數(shù)依賴就是一個(gè)通常的冗資料庫(kù)中同一信息有時(shí)存儲(chǔ)在多個(gè)地方。函數(shù)依賴就是一

23、個(gè)通常的冗余形式。余形式。 n數(shù)據(jù)稀疏數(shù)據(jù)稀疏n相應(yīng)于可能的巨大的發(fā)現(xiàn)空間,資料庫(kù)中所記錄的實(shí)際資料的密度是相應(yīng)于可能的巨大的發(fā)現(xiàn)空間,資料庫(kù)中所記錄的實(shí)際資料的密度是非常稀疏的。非常稀疏的。 n超大數(shù)據(jù)量超大數(shù)據(jù)量 n此時(shí)此時(shí)KDDKDD系統(tǒng)必須采用一定的資料匯集方法,根系統(tǒng)必須采用一定的資料匯集方法,根 用戶定義的發(fā)現(xiàn)任務(wù),用戶定義的發(fā)現(xiàn)任務(wù),選擇有關(guān)的域空間,采取隨機(jī)抽樣的方法,對(duì)樣本進(jìn)行分析。選擇有關(guān)的域空間,采取隨機(jī)抽樣的方法,對(duì)樣本進(jìn)行分析。 .nSKICATSKICATn U.Fayyad U.Fayyad等等(Jet Propulsion Laboratory)(Jet Pro

24、pulsion Laboratory)開(kāi)發(fā)開(kāi)發(fā)的的 SKICAT ( sky image cataloguing and SKICAT ( sky image cataloguing and analysis tool)analysis tool)是一個(gè)用于分析大規(guī)模天空觀測(cè)是一個(gè)用于分析大規(guī)模天空觀測(cè)資料庫(kù)的自動(dòng)系統(tǒng)。資料庫(kù)的自動(dòng)系統(tǒng)。n采用了許多新型機(jī)器學(xué)習(xí)方法,能識(shí)別比以往用采用了許多新型機(jī)器學(xué)習(xí)方法,能識(shí)別比以往用人工方法所識(shí)別的天體物件要暗一個(gè)數(shù)量級(jí),并人工方法所識(shí)別的天體物件要暗一個(gè)數(shù)量級(jí),并且取得了大約且取得了大約94%94%的精度。的精度。.n 49er 49er(Forth-

25、Niner)49er 49er(Forth-Niner)系統(tǒng)是由美國(guó)系統(tǒng)是由美國(guó)J.M.ZytkowJ.M.Zytkow和和 R.ZembowcizR.Zembowciz開(kāi)發(fā)的一個(gè)通開(kāi)發(fā)的一個(gè)通用用KDDKDD系統(tǒng)。系統(tǒng)。 n可處理多個(gè)資料子集上的大規(guī)模的檢索,可處理多個(gè)資料子集上的大規(guī)模的檢索,通過(guò)產(chǎn)生列聯(lián)表,精化初始規(guī)則,進(jìn)而生通過(guò)產(chǎn)生列聯(lián)表,精化初始規(guī)則,進(jìn)而生成強(qiáng)通用規(guī)則和有用的概念。成強(qiáng)通用規(guī)則和有用的概念。 .nEXPLORAEXPLORAnEXPLORAEXPLORA是由是由HoschkaHoschka和和 Klosgen Klosgen 開(kāi)發(fā)的一個(gè)用于概念性開(kāi)發(fā)的一個(gè)用于概念性

26、的分析資料和搜索感興趣關(guān)系的集成化系統(tǒng)。的分析資料和搜索感興趣關(guān)系的集成化系統(tǒng)。nKDW (Knowledge Discovery Workbench) KDW (Knowledge Discovery Workbench) nKDWKDW是互動(dòng)式的大型資料庫(kù)的分析工具。由美國(guó)是互動(dòng)式的大型資料庫(kù)的分析工具。由美國(guó) G. G. Piatetsky.ShapiroPiatetsky.Shapiro等人開(kāi)發(fā),提供了一整套圖形用戶介等人開(kāi)發(fā),提供了一整套圖形用戶介面工具。該系統(tǒng)可用于存取資料庫(kù)表和創(chuàng)建新欄位,資料面工具。該系統(tǒng)可用于存取資料庫(kù)表和創(chuàng)建新欄位,資料匯集定義,圖形顯示資料和結(jié)果,選用發(fā)現(xiàn)

27、演算法及處理匯集定義,圖形顯示資料和結(jié)果,選用發(fā)現(xiàn)演算法及處理領(lǐng)域知識(shí)。領(lǐng)域知識(shí)。nKDWKDW系統(tǒng)包括的方式抽取演算法有系統(tǒng)包括的方式抽取演算法有: :識(shí)別簡(jiǎn)單線性類別的聚識(shí)別簡(jiǎn)單線性類別的聚類類; ;用決策樹(shù)方法獲取分類規(guī)則用決策樹(shù)方法獲取分類規(guī)則; ; 能識(shí)別各類間有顯著差能識(shí)別各類間有顯著差異的偏差檢測(cè)異的偏差檢測(cè); ;用于發(fā)現(xiàn)和顯示隨機(jī)依賴關(guān)系的依賴關(guān)系用于發(fā)現(xiàn)和顯示隨機(jī)依賴關(guān)系的依賴關(guān)系分析。分析。.n目前,KDD研究的重點(diǎn),正從理論轉(zhuǎn)向應(yīng)用,可說(shuō)凡是用到資料庫(kù)的地方,就有KDD的課題等待人們?nèi)ヌ接?。nKDD與科學(xué)資料庫(kù)的結(jié)合對(duì)科技的發(fā)展必定會(huì)起很大的促進(jìn)作用,具有廣泛的應(yīng)用前景。

28、.n保證信息系統(tǒng)安全的主要問(wèn)題是建立安全機(jī)制,迄今為止已發(fā)展了許多安全機(jī)制,但安全問(wèn)題仍然倍受懷疑和關(guān)注。n由于已從理論上證明不存在絕對(duì)安全的安全系統(tǒng),因此一般將審計(jì)跟蹤、攻擊檢測(cè)系統(tǒng)作為信息系統(tǒng)的最后一道安全防線。.n早期中大型的電腦系統(tǒng)中都收集審計(jì)信息來(lái)建立跟蹤檔,這些審計(jì)跟蹤的目的多是為了性能測(cè)試或計(jì)費(fèi),因此對(duì)攻擊檢測(cè)提供的有用信息比較少 。n此外,最主要的困難在于由于審計(jì)信息粒度的安排,審計(jì)信息粒度較細(xì)時(shí),資料過(guò)于龐大和細(xì)節(jié)化,反將有用的信息源沒(méi)在其中 。.n對(duì)于企圖攻擊,被動(dòng)審計(jì)的檢出程度是不能保證的。 n為了使通用的審計(jì)跟蹤能用于攻擊檢測(cè)等安全目的,必須配備自動(dòng)工具對(duì)審計(jì)資料進(jìn)行分析,以期盡早發(fā)現(xiàn)那些可疑事件或行為的線索,給出報(bào)警或?qū)勾胧?.n為了從大量的、有時(shí)是冗余的審計(jì)跟蹤資料中提取出對(duì)安全功能有用的信息,基于電腦系統(tǒng)審計(jì)跟蹤信息設(shè)計(jì)的系統(tǒng)安全自動(dòng)分析或檢測(cè)工具是很必要的 n Data Mining.n檢測(cè)隱藏的非法行為n攻擊即時(shí)檢測(cè)系統(tǒng)的原理是基于用戶歷史資料的建模以及在早期的證據(jù)或模型的基礎(chǔ)。n審計(jì)系統(tǒng)即時(shí)地檢測(cè)用戶對(duì)系統(tǒng)的使用情況,根據(jù)系統(tǒng)內(nèi)部所擁有用戶行為的概率統(tǒng)計(jì)模型進(jìn)行監(jiān)測(cè),當(dāng)發(fā)現(xiàn)有可疑的用戶行為發(fā)生時(shí),保持跟蹤并監(jiān)測(cè)、記錄該用戶的行為。 .n神經(jīng)網(wǎng)絡(luò)的攻擊檢測(cè)技術(shù)n審計(jì)統(tǒng)計(jì)資料

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論