(計(jì)算機(jī)軟件與理論專(zhuān)業(yè)論文)基于數(shù)據(jù)流挖掘技術(shù)的入侵檢測(cè)模型研究.pdf_第1頁(yè)
(計(jì)算機(jī)軟件與理論專(zhuān)業(yè)論文)基于數(shù)據(jù)流挖掘技術(shù)的入侵檢測(cè)模型研究.pdf_第2頁(yè)
(計(jì)算機(jī)軟件與理論專(zhuān)業(yè)論文)基于數(shù)據(jù)流挖掘技術(shù)的入侵檢測(cè)模型研究.pdf_第3頁(yè)
(計(jì)算機(jī)軟件與理論專(zhuān)業(yè)論文)基于數(shù)據(jù)流挖掘技術(shù)的入侵檢測(cè)模型研究.pdf_第4頁(yè)
(計(jì)算機(jī)軟件與理論專(zhuān)業(yè)論文)基于數(shù)據(jù)流挖掘技術(shù)的入侵檢測(cè)模型研究.pdf_第5頁(yè)
已閱讀5頁(yè),還剩8頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

摘要 摘要 隨著i n t e m e t 的迅速發(fā)展,操作系統(tǒng)規(guī)模的不斷增大,傳統(tǒng)的靜態(tài)防火墻技 術(shù)不能滿(mǎn)足當(dāng)今網(wǎng)絡(luò)安全的需求。入侵檢測(cè)作為一種主動(dòng)的防御技術(shù),是傳統(tǒng)計(jì) 算機(jī)安全機(jī)制的有效補(bǔ)充。從本質(zhì)上講,入侵檢測(cè)技術(shù)是對(duì)各種審計(jì)數(shù)據(jù)的分析。 數(shù)據(jù)挖掘是一種高級(jí)的數(shù)據(jù)分析技術(shù),把其用到入侵檢測(cè)領(lǐng)域,構(gòu)建智能、自適 應(yīng)的入侵檢測(cè)系統(tǒng)得到了很多研究人員的關(guān)注。 傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)在入侵檢測(cè)系統(tǒng)中的應(yīng)用大多是改進(jìn)現(xiàn)有數(shù)據(jù)挖掘算 法或者將多種數(shù)據(jù)挖掘方法相結(jié)合來(lái)構(gòu)建入侵檢測(cè)模型。傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)以 靜態(tài)的數(shù)據(jù)集為數(shù)據(jù)源,多遍掃描數(shù)據(jù)集挖掘有用的知識(shí)模式。而入侵檢測(cè)系統(tǒng) 處理的數(shù)據(jù)是無(wú)限、高速的多維網(wǎng)絡(luò)數(shù)據(jù)流,把網(wǎng)絡(luò)數(shù)據(jù)保存后再進(jìn)行分析有著 一定的滯后性,并且把海量的網(wǎng)絡(luò)訪(fǎng)問(wèn)數(shù)據(jù)保存后分析也是不可行的。因此需要 直接分析網(wǎng)絡(luò)數(shù)據(jù)流,構(gòu)建基于數(shù)據(jù)流挖掘技術(shù)的入侵檢測(cè)模型。 本文分析了數(shù)據(jù)集k d d 9 9 中的四類(lèi)攻擊數(shù)據(jù),論證用戶(hù)的行為可以通過(guò)分 析訪(fǎng)問(wèn)數(shù)據(jù)進(jìn)行追蹤,即可以通過(guò)分析用戶(hù)的訪(fǎng)問(wèn)數(shù)據(jù)來(lái)刻畫(huà)用戶(hù)的行為。網(wǎng)絡(luò) 訪(fǎng)問(wèn)數(shù)據(jù)有著數(shù)據(jù)流的特點(diǎn),因此本文設(shè)計(jì)了基于數(shù)據(jù)流挖掘技術(shù)的入侵檢測(cè)模 型,利用數(shù)據(jù)流挖掘技術(shù)分析不斷到來(lái)的高速網(wǎng)絡(luò)數(shù)據(jù)流,得到用于刻畫(huà)用戶(hù)行 為的訪(fǎng)問(wèn)模式,利用得到的訪(fǎng)問(wèn)模式檢測(cè)新到來(lái)的數(shù)據(jù)是否為入侵?jǐn)?shù)據(jù)。 構(gòu)建基于數(shù)據(jù)流挖掘技術(shù)的入侵檢測(cè)模型的關(guān)鍵在于有高效的數(shù)據(jù)流挖掘 算法的支持。本文設(shè)計(jì)一種新型數(shù)據(jù)結(jié)構(gòu)m a x f p t r e e ,并在m a x f p t r e e 的基礎(chǔ) 上設(shè)計(jì)了基于衰減窗口機(jī)制的挖掘網(wǎng)絡(luò)數(shù)據(jù)流上用戶(hù)訪(fǎng)問(wèn)模式的算法 a p i n n d s 。a p i n n d s 與傳統(tǒng)的基于a p r i o r i 的算法思想( 通過(guò)頻繁項(xiàng)集之間的并 集操作尋找新的頻繁項(xiàng)集) 完全不同,它以在數(shù)據(jù)記錄中實(shí)際出現(xiàn)的節(jié)點(diǎn)為根據(jù), 通過(guò)抽象操作實(shí)現(xiàn)對(duì)頻繁項(xiàng)集支持度的記錄,它不是從空集開(kāi)始正向生長(zhǎng)的樹(shù), 而是從全集開(kāi)始反向生長(zhǎng)的樹(shù)。同時(shí)采用衰減機(jī)制來(lái)消除歷史數(shù)據(jù)的影響,使內(nèi) 存中維護(hù)的m a x f p t r e e 樹(shù)能真實(shí)反映用戶(hù)當(dāng)前的狀況,并使m a x f p t r e e 樹(shù)的 規(guī)模保持在一個(gè)合理的規(guī)模,從而可以高效的處理不斷到來(lái)的網(wǎng)絡(luò)數(shù)據(jù)流。 最后通過(guò)實(shí)驗(yàn)驗(yàn)證本文設(shè)計(jì)的基于數(shù)據(jù)流挖掘的技術(shù)的入侵檢測(cè)模型是可 行的。 關(guān)鍵詞入侵檢測(cè);數(shù)據(jù)挖掘;數(shù)據(jù)流;最大頻繁模式:異常檢測(cè) a b s t r a c t 苧i 二i ;= = ;i 一二 i i 一一i i ;_ i i i i ! 鼉曼! 曼曼皇曼! ! 鼉曼! 曼! ! 曼苧! 皇皇 a b s t r a c t w i t l lt h er a p i dd e v e l o p m e n to fi n t e m e ta n dt h eg r o w i n gs i z e so fo p e r a t i n g s y s t e m s ,t h et r a d i t i o n a ls t a t i cf i r e w a ut e c h n o l o g yc a l ln o tm e e tt h er e q u i r e m e n t so f t o d a y sn e t w o r ks e c u r i t y i n t r u s i o nd e t e c t i o na s a l la c t i v ed e f e n s et e c h n o l o g yi s s u p p l e m e n to ft r a d i t i o n a lc o m p u t e rs e c u r i t ym e c h a n i s m i ne s s e n c e ,t h ei n t r u s i o n d e t e c t i o nt e c h n o l o g yi sa n a l y z i n gk i n d so fa u d i td a t a d a t am i n i n gi sa n a d v a n c e dd a t a a n a l y s i st e c h n i q u e ,i t sa p p l i c a t i o nt ot h e f i e l do fi n t r u s i o nd e t e c t i o na n db u i l d i n g i n t e l l i g e n t ,a d a p t i v e i n t r u s i o nd e t e c t i o ns y s t e mh a sa t t r a c t e dl o t so fr e s e a r c h e r s i n t e r e s t s m o s to ft h ea p p l i c a t i o n so ft r a d i t i o n a ld a t am i n i n gt e c h n i q u e si ni n t r u s i o n d e t e c t i o ns y s t e ma r ci m p r o v i n ge x i s t i n gd a t am i n i n ga l g o r i t h m s ,o rc o m b i n i n gm u l t i d a t am i n i n gm e t h o d st ob u i l di n t r u s i o nd e t e c t i o nm o d e l t r a d i t i o n a ld a t am i n i n g t e c h n i q u e sm a k es t a t i cd a t as e t sa si t si n p u t ;t h r o u g hm a n yt i m e ss c a nt om i n eu s e f u l k n o w l e d g e h o w e v e r , t h ed a t a sw h i c hi n t r u s i o nd e t e c t i o ns y s t e m sn e e d t op r o c e s sa r e u n l i m i t e d ,h i g h - s p e e dn e t w o r kd a t as t r e a m s ,i ti sd e l a y e dt oa n a l y z et h ed a t aa f t e r s t o r i n gt h e mt od i s k a n do nt h eo t h e rh a n di ti si n f e a s i b l et os t o r et h ev a s ta m o u n t so f n e t w o r kd a t a t h e r e f o r e ,i tn e e d st oa n a l y z et h en e t w o r kd a t as t e a m sd i r e c t l ya n d c o n s t r u c ti n t r u s i o nd e t e c t i o nm o d e lb a s e do nt h et e c h n o l o g yo fd a t as t r e a m s t h i sp a p e ra n a l y z e sf o u rc a t e g o r i e so f 锨a c kd a t ai nt h ed a t a s e to fk d d 9 9 ,t h e r e s u l ts h o w st h a tu s e rb e h a v i o rc a nb et r a c e dt h r o u g ht h ea n a l y s i so fa c c e s sd a t a a s n e t w o r ka c c e s sd a t ah a st h e c h a r a c t e r i s t i co fd a t as t r e a m ,t h i sp a p e rp r e s e n ta l l i n t r u s i o nd e t e c t i o nm o d e lb a s e do nt h em i n i n gd a t as t r e a m s ,u s i n gd a t am i n i n g t e c h n o l o g yt oa n a l y z eh eh i g h s p e e dn e t w o r kd a t a s t r e a m sa n dg e tu s e r a c c e s s p a t t e r n s a tl a s t ,c h e c kt h en e wc o m i n gd a t aw h e t h e ri si n t r u s i o no rn o tb ya l r e a d yg o t u s e ra c c e s sp a t t e r n s e f f i c i e n td a t as t r e a mm i n i n ga l g o r i t h mi st h ek e yp o i n tt oc o n s t r u c tt h ei n t r u s i o n d e t e c t i o nm o d e l a c c o r d i n gt ot h ei n t r u s i o nd e t e c t i o nb a c k g r o u n d ,t h i sp 印e rd e s i g na n e wd a t as t r u c t u r ew h i c hc a l l e dm a x f p t r e e ( m a x i m a lf r e q u e n tp a t t e r nt r e e ) ,a n d b a s e do nm a x f p t r e ew ei n t r o d u c ea l la l g o r i t h ma p i n n d st om i n em a x i m a lf r e q u e n t i t e m s e t si nn e t w o r kd a t as t r e a m t h ea l o g o r i t h ma p i n n d si su s i n gd a m p e dw i n d o w s s t r a t e g y a p i n n d si sd i f f e r e n tf r o mt h et r a d i t i o n a la l g o r i t h m sb a s e do nt h ei d e ao f a p r i o r iw h i c hi st h r o u g hd ou n i o no p e r a t i o nb e t w e e nf r e q u e n ti t e m s e t st of i n dn e w f r e q u e n ti t e m s e t s h o w e v e r , a p i n n d st h r o u g hd oa b s t r a c to p e r a t i o nb e t w e e nt h e i i i 北京t 渡大學(xué)下學(xué)碩士學(xué)位論文 i i l li l l l i l l l l li l l l i l l l l _ - _ _ _ _ _ 一 n e t w o r ka c c e s sr e c o r da n dt h en o d ea p p e a r e di nt h er e c o r dt oc o u n tt h es u p p o r to ft h e n o d e 。n l em a x f p t r e ei ss t a r t i n gf r o maf u l ls e to t h e r w i s ee m p t ya n di sg r o w i n g u p w a r d s a tt h es a m et i m ea p i n n d sa d a p t sd a m p e dm e c h a n i s mt oe l i m i n a t et h e i m p a c to fh i s t o r i c a ld a t a , s ot h a tm a x f p t r e ec a l lr e f l e c tu s e r sr e a ls i t u a t i o na n dt h e s c a l eo fm a ) ( 薹p - t r e ec a l lb ek e p ta tar e a s o n a b l es c a l e ,a n dt h e na p i n n d sc a nh i g h l y e f f i c i e n td e a lw i t ht h ec o n s t a n ta r r i v a lo ft h en e t w o r kd a t as t r e a m a tl a s tt h i sp a p e rt h r o u g he x p e r i m e n t st op r o v et h ei n t r u s i o nd e t e c t i o nm o d e l b a s e do nm i n i n gd a t as t r e a m si sf e a s i b l 。 k e yw o r d si n t r u s i o nd e t e c t i o n ;d a t am i n i n g ;d a t as t r e a m ;m a x i m a lf r e q u e n ti t e m s e t s ; a n o m a l yd e t e c t i o n i v 獨(dú)創(chuàng)性聲明 本人聲明所呈交的論文是我個(gè)人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研 究成果。盡我所知,除了文中特別加以標(biāo)注和致謝的地方外,論文中不包含其他 人已經(jīng)發(fā)表或撰寫(xiě)過(guò)的研究成果,也不包含為獲得北京工業(yè)大學(xué)或其它教育機(jī)構(gòu) 的學(xué)位或證書(shū)而使用過(guò)的材料。與我一同工作的同志對(duì)本研究所做的任何貢獻(xiàn)均 已在論文中作了明確的說(shuō)明并表示了謝意。 關(guān)于論文使用授權(quán)的說(shuō)明 本人完全了解北京工業(yè)大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,即:學(xué)校有權(quán) 保留送交論文的復(fù)印件,允許論文被查閱和借閱;學(xué)??梢怨颊撐牡娜炕虿?分內(nèi)容,可以采用影印、縮印或其他復(fù)制手段保存論文。 ( 保密的論文在解密后應(yīng)遵守此規(guī)定) 簽名:雄導(dǎo)師簽名: 日期:星! 墮:蘭 繁l 竄綾論 。 入侵檢測(cè)技術(shù) 第1 章緒論 1 。1 。1 入侵檢測(cè)技術(shù)的產(chǎn)生與發(fā)展 隨著i n t e r n e t 在全球戇普及稻應(yīng)藤,麗絡(luò)對(duì)久銷(xiāo)正常的王作和生活起著越來(lái) 越重要的終用。然而人們?cè)诜奖闶褂镁W(wǎng)絡(luò)的周時(shí)受到來(lái)自網(wǎng)絡(luò)的攻擊也越來(lái)越 多,網(wǎng)絡(luò)安全問(wèn)題是人們所必須解決的問(wèn)題。傳統(tǒng)解決網(wǎng)絡(luò)安全問(wèn)題的主要技術(shù) 手段翔物理隔離、防火墻技術(shù)、舞份識(shí)掰、加解密技術(shù)、訪(fǎng)聞控制等,它稍都可 以在某一方囂、定程度上保護(hù)系統(tǒng)和網(wǎng)絡(luò)豹安全。但密于現(xiàn)在的網(wǎng)絡(luò)環(huán)境幫操 作系統(tǒng)變的越來(lái)越復(fù)雜,同時(shí)由于系統(tǒng)和網(wǎng)絡(luò)設(shè)計(jì)本身的缺陷,其弱點(diǎn)和漏洞不 斷的暴露出來(lái),褥加上攻擊者現(xiàn)在知識(shí)越來(lái)越豐富,可以耐用的手段越來(lái)越多, 悠們采用鶼方法越來(lái)越離晚,單獨(dú)依靠傳統(tǒng)麓靜態(tài)防御方法不能起到有效保護(hù)系 統(tǒng)和網(wǎng)絡(luò)的作用。入侵檢測(cè)( i n t r u s i o nd e t e c t i o n ) 是一種主動(dòng)的防御技術(shù)【l j ,可 以檢測(cè)未經(jīng)許可的訪(fǎng)問(wèn)或?qū)ο到y(tǒng)或網(wǎng)絡(luò)的攻擊,提供了對(duì)內(nèi)部、外部攻擊和誤操 作靜實(shí)時(shí)襝濺,是傳統(tǒng)計(jì)冀機(jī)安全機(jī)制酌有效孝 充。 入侵檢測(cè)熬研究最早可追溯到19 8 0 年j a m e se a n d d e r s o n 為美鬢空軍做的一 份題為“計(jì)算機(jī)安全威脅與監(jiān)控 ( c o m p u t e rs e c u r i t yt h r e a tm o n i t o r i n ga n d s u r v e i l l a n c e ) 譬l 的技術(shù)報(bào)告,在報(bào)告中他首次提出了入侵檢測(cè)的概念,提出了將 竄詩(shī)幫跟蹤痘震予監(jiān)視入侵活動(dòng)的思想,但盤(pán)手當(dāng)辯所有已有系統(tǒng)熬安全程序都 著重予拒絕未經(jīng)認(rèn)證主體對(duì)重要數(shù)據(jù)的訪(fǎng)閱,這思想的重要性當(dāng)時(shí)并未被理 解。 d e n n i n g 在1 9 8 7 首次撬凄了異常檢測(cè)( a n o m a l yd e t e c t i o n ) 的方法耱天侵檢 測(cè)專(zhuān)家系統(tǒng)( i n t r u s i o nd e t e c t i o ne x p e r ts y s t e m ,簡(jiǎn)稱(chēng)i d e s ) 【3 】該原型系統(tǒng)被稱(chēng)為 里程碑性的入侵檢測(cè)系統(tǒng)( i n t r u s i o nd e t e c t i o ns y s t e m ,簡(jiǎn)稱(chēng)i d s ) ,它首次將入 侵檢測(cè)的概念作為一種解決計(jì)算機(jī)系統(tǒng)安全防御問(wèn)題的措施。i d e s 原型系統(tǒng)使 爝統(tǒng)計(jì)學(xué)摸式來(lái)?yè)u述系統(tǒng)用戶(hù)的行藥特 垂,包括個(gè)異常撿測(cè)器和個(gè)專(zhuān)家系 統(tǒng)。異常檢測(cè)器使用了統(tǒng)計(jì)學(xué)技術(shù)來(lái)描繪正常行為模式,面專(zhuān)家系統(tǒng)使用了基予 規(guī)則的方法識(shí)別融知的安全入侵。 1 9 9 0 年l t h e b e r l e i n 等人提出了基于網(wǎng)絡(luò)盼入侵襝濺( n e t w o r ks e c 確夠 m o n t i o r ,簡(jiǎn)稱(chēng)n s 蚴斑,該系統(tǒng)第一次直接將網(wǎng)絡(luò)數(shù)據(jù)流作為審計(jì)數(shù)據(jù)的來(lái)源, 因而可以在不將審計(jì)數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一格式的情況下監(jiān)控異常主機(jī)。這是入侵檢測(cè) 北京t 業(yè)大學(xué)t 學(xué)碩十學(xué)位論文 發(fā)展史上的一個(gè)分水嶺,從此形成了兩大研究方向:基于主機(jī)的入侵檢測(cè)和基于 網(wǎng)絡(luò)的入侵檢測(cè)。 近年來(lái)入侵檢測(cè)的創(chuàng)新主要是:f o r r e s t 等將免疫原理【5 叫運(yùn)用到分布式入侵 檢測(cè)領(lǐng)域;w e n k el e e 等將數(shù)據(jù)挖掘的方法應(yīng)用到入侵檢入侵檢測(cè)領(lǐng)域【7 d5 1 ,數(shù) 據(jù)挖掘技術(shù)的應(yīng)用使入侵檢測(cè)系統(tǒng)有了自適應(yīng)性,提高了入侵檢測(cè)系統(tǒng)的智能 性。 1 1 2 入侵檢測(cè)系統(tǒng)的分類(lèi) 根據(jù)分類(lèi)的標(biāo)準(zhǔn)不同,入侵檢測(cè)系統(tǒng)可以分為不同的類(lèi)型。主要可以根據(jù)數(shù) 據(jù)源、檢測(cè)方法、體系結(jié)構(gòu)來(lái)進(jìn)行分類(lèi)【l6 1 。 ( 1 ) 根據(jù)數(shù)據(jù)來(lái)源分類(lèi) 基于主機(jī)的入侵檢測(cè)系統(tǒng)( h o s t b a s e di n t r u s i o nd e t e c t i o ns y s t e m ) ,檢測(cè)目 標(biāo)主要是主機(jī)系統(tǒng)和本地用戶(hù),數(shù)據(jù)源來(lái)自所在主機(jī)的系統(tǒng)審計(jì)記錄或應(yīng)用程序 的日志文件。 基于網(wǎng)絡(luò)的入侵檢測(cè)系統(tǒng)( n e t w o r k b a s e di n t r u s i o nd e t e c t i o ns y s t e m ) ,提取 一定網(wǎng)段上傳輸?shù)臄?shù)據(jù)包作為數(shù)據(jù)源,保護(hù)整個(gè)網(wǎng)段的正常運(yùn)行。 ( 2 ) 根據(jù)檢測(cè)方法分類(lèi) 誤用檢測(cè)( m i s u s ed e t e c t i o n ) ,又稱(chēng)基于特征的檢測(cè)( s i g n a t u r e b a s e d d e t e c t i o n ) 。通過(guò)收集非正常操作( 攻擊行為) 的行為模式,建立相關(guān)的特征庫(kù), 當(dāng)待檢測(cè)行為的特征與特征庫(kù)中特征匹配時(shí),則判定這種行為是入侵。誤用檢測(cè) 對(duì)于預(yù)防大量已知入侵方式的攻擊是簡(jiǎn)單且高效的,但其缺陷在于只能檢測(cè)已知 的入侵方式。目前大多入侵檢測(cè)系統(tǒng)都采用這種方法。 異常檢測(cè)( a n o m a l yd e t e c t i o n ) ,又稱(chēng)為基于行為的檢測(cè),它假設(shè)“攻擊者 的行為模式同正常使用者的行為模式有本質(zhì)的不同”,首先根據(jù)系統(tǒng)在長(zhǎng)時(shí)間正 常運(yùn)行中產(chǎn)生的大量審計(jì)數(shù)據(jù)建立一個(gè)正常行為模型,將待檢測(cè)的行為同正常行 為模型進(jìn)行比較,根據(jù)它們相異的程度來(lái)判斷待檢測(cè)行為是否為攻擊行為。它的 優(yōu)點(diǎn)是能有效檢測(cè)未知類(lèi)型的入侵行為,缺點(diǎn)是很難提取完整的用戶(hù)正常行為特 征,誤報(bào)率較高。但在入侵日益復(fù)雜化、不斷變化趨勢(shì)下,這種入侵檢測(cè)方式具 有更好的適應(yīng)性?,F(xiàn)在基于異常機(jī)制的入侵檢測(cè)方法還不成熟,是目前研究的重 點(diǎn)。 ( 3 ) 根據(jù)模塊部署的體系結(jié)構(gòu)分類(lèi) 集中式入侵檢測(cè)系統(tǒng),系統(tǒng)的各個(gè)模塊,包括數(shù)據(jù)的收集與分析以及響應(yīng)模 塊,都集中在一臺(tái)主機(jī)上運(yùn)行,這種方式適用于網(wǎng)絡(luò)環(huán)境比較簡(jiǎn)單的情況。 分布式入侵檢測(cè)系統(tǒng),也稱(chēng)為基于代理的入侵檢測(cè)系統(tǒng),系統(tǒng)的各個(gè)模塊可 2 籌l 豢綣論 分布在網(wǎng)絡(luò)中不同的計(jì)葬機(jī)和設(shè)備上,這種方式適用予網(wǎng)絡(luò)環(huán)境復(fù)雜、數(shù)據(jù)量大 豹情囂。 1 2 數(shù)據(jù)挖掘技術(shù)在入侵檢測(cè)系統(tǒng)中的應(yīng)用 數(shù)據(jù)挖搌( d a t am i n i n g ) 是一個(gè)多學(xué)科交叉研究領(lǐng)域,經(jīng)過(guò)十幾年的研究, 一些基本概念和方法趨于清晰,它的研究也向更深入的方向發(fā)展。隨著信息技術(shù) 酶發(fā)震和互聯(lián)網(wǎng)豹興起,數(shù)據(jù)量急耩膨脹,麗且數(shù)據(jù)的形式也多種多樣。為了能 在大量數(shù)據(jù)中挖掘邀有用的信息,研究者已經(jīng)設(shè)計(jì)了許多高效鮑挖掘方法。數(shù)據(jù) 挖掘技本質(zhì)上是一種數(shù)據(jù)分析的技術(shù)。將數(shù)據(jù)挖掘技術(shù)應(yīng)用到入侵檢測(cè)領(lǐng)域是國(guó) 內(nèi)外的研究熟點(diǎn)懿。數(shù)據(jù)挖掘技術(shù)在入侵檢測(cè)中的應(yīng)用主要有兩個(gè)方向:一是 用于發(fā)現(xiàn)入侵的勰則、模式,與模式囂配方法相結(jié)合;二是用于異裳檢測(cè),發(fā)現(xiàn) 用戶(hù)正常的行為,建立用戶(hù)燕常的行為模式庫(kù)。蔗大部分研究都是基于異常檢測(cè) 機(jī)制。目前將數(shù)據(jù)挖掘應(yīng)用到入侵檢測(cè)中有代表性的是:c o l u m b i au n i v e r s i t y 的 w e n k el e e 研究綴的和u n i v e r s i t yo f n e wm e x i c o 韻s t e p h a n i ef o r r e s t 研究組。 1 。2 1 傳統(tǒng)數(shù)據(jù)挖掘方法在入侵檢測(cè)系統(tǒng)中的應(yīng)用 數(shù)據(jù)挖掘主要有四類(lèi)算法:關(guān)聯(lián)規(guī)則、分類(lèi)、聚類(lèi)霸序列分搟等,每一類(lèi)算 法都在入侵檢測(cè)系統(tǒng)中褥到了應(yīng)用。 ( 1 ) 關(guān)聯(lián)規(guī)則( a s s o c i a t i o nr u l e s ) 關(guān)聯(lián)援簍| j 挖掘的雹的在予尋找數(shù)據(jù)瘁表串多個(gè)屬性之聞關(guān)系。關(guān)聯(lián)藏則挖掘 是給定一組i t e m 和一個(gè)記錄集合,逶過(guò)分析記錄集合,推導(dǎo)出i t e m 聞的相關(guān)性。 例如,“在購(gòu)買(mǎi)面包和黃油的顧客中,有9 0 的人同時(shí)也買(mǎi)了牛奶( 面包十黃油= 牛奶) 。幫用予關(guān)聯(lián)規(guī)劉發(fā)現(xiàn)靜主要對(duì)象是事務(wù)數(shù)據(jù)庫(kù)( t r a n s a c t i o nd a t a b a s e s ) 。 一般用置信度( c o n f i d e n c e ) 和支持度( s u p p o r t ) 來(lái)摧述關(guān)聯(lián)規(guī)則。 1 9 9 8 年w e n k el e e 第一次提出了將數(shù)據(jù)挖掘的方法用在基于異常檢測(cè)機(jī)制入 侵檢系統(tǒng)中f 1 2 】,嘗試用關(guān)聯(lián)規(guī)則算法分析網(wǎng)絡(luò)數(shù)據(jù)指導(dǎo)能描述用戶(hù)行為的網(wǎng)絡(luò)數(shù) 據(jù)屬性的選擇。焉褥裂游頻繁模式來(lái)指導(dǎo)審計(jì)數(shù)據(jù)躺收集和藏性特征的選擇,使 用選定的屬性去建立能識(shí)別用戶(hù)行雋的分類(lèi)器。2 0 0 0 年w e n k el e e 進(jìn)一步改進(jìn) 了屬性選擇的方法【1 3 】,提出了核心屬性( a x i s ) 和相關(guān)屬性( r e f e r e n c e ) 的概念; 同時(shí)使用l e v e - w i s e 方法得到覆蓋用戶(hù)所有正常的行為的規(guī)則,而又不會(huì)導(dǎo)致規(guī) 則的泛濫,其思想是迭代豹運(yùn)行算法,每次運(yùn)行對(duì)支持度以一定的魄倒縮奪,直 至達(dá)到用戶(hù)定義的最小閩值。2 0 0 4 年m i nq t n 提出一種基本支持度( b a s es u p p o r t ) 的挖掘模式l 塒,它使用了文獻(xiàn) 1 3 中提出的a x i s 屬性的思想,設(shè)x 為一項(xiàng)目集 ( i t e m s e t ) ,剃x 鵑基本支持度為x 中核心( a x i s ) 屬性翡支持度的值用s ( x ) 3 毿京泣大學(xué)工學(xué)磙。垂學(xué)位論文 表示。2 0 0 5 年t i a n r u il i 提出了使用妒一a s s o c i a t i o nr u l e 方法1 1 8 】來(lái)挖掘用戶(hù)正常 的模式【1 9 1 ,驢一a s s o c i a t i o nr u l e 主要思想是用一個(gè)興趣度的函數(shù)妒( x ) 來(lái)區(qū)分不同 的項(xiàng)目集。2 0 0 6 年a l ye i s e m a r y 等使用基于模糊邏輯的關(guān)聯(lián)規(guī)則來(lái)建立入侵檢 測(cè)模型剛。 ( 2 ) 分類(lèi)( c l a s s i f i c a t i o n ) 通過(guò)研究己有分類(lèi)數(shù)據(jù)的特征,據(jù)此建立一個(gè)分類(lèi)函數(shù)或分類(lèi)模型,運(yùn)用該 模型計(jì)算總結(jié)出數(shù)據(jù)的特征,將其他未經(jīng)分類(lèi)或新的數(shù)據(jù)進(jìn)行分類(lèi)。用于入侵檢 測(cè)時(shí),可以使用規(guī)則集或決策樹(shù)的形式表示分類(lèi)特征。入侵檢測(cè)串通過(guò)收集針對(duì) 一個(gè)用戶(hù)或一個(gè)程序的足夠多的“正?!焙汀爱惓?審計(jì)數(shù)據(jù),通過(guò)分類(lèi)算法得 到一個(gè)分類(lèi)器,該分類(lèi)器能標(biāo)記或者預(yù)測(cè)未見(jiàn)過(guò)的新審計(jì)數(shù)據(jù)屬于正常還是異 常。文獻(xiàn)【1 3 】給出了如何使用r i p p e r 算法在入侵檢測(cè)系統(tǒng)中來(lái)構(gòu)建分類(lèi)器。 ( 3 ) 聚類(lèi)( c l u s t e r i n g ) 聚類(lèi)( c l u s t e r i n g ) 是將物理或抽象的對(duì)象分組成為多個(gè)類(lèi)或簇( c l u s t e r ) 的過(guò) 程,劃分的原則是在同一個(gè)簇中的對(duì)象之間具有較高的相似度,而不同簇中的對(duì) 象差別較大。聚類(lèi)分析作為一種無(wú)指導(dǎo)的學(xué)習(xí)方法,是一個(gè)獲得數(shù)據(jù)分布情況的 有力工具。聚類(lèi)分析在入侵檢測(cè)中的典型應(yīng)用是建立用戶(hù)的正常行為模型。2 0 0 1 年l e o n i dp o r t n o y 把聚類(lèi)( c l u s t e r ) 方法應(yīng)用到入侵檢測(cè)中b ,這種方法的優(yōu)點(diǎn) 是無(wú)指導(dǎo)的學(xué)習(xí),但精度太低,這是入侵檢測(cè)系統(tǒng)所不能接受的。文獻(xiàn) 2 2 2 4 都探索將合適的聚類(lèi)方法結(jié)合入侵檢測(cè)問(wèn)題進(jìn)行有針對(duì)性的研究。此贍,聚類(lèi)分 析還經(jīng)常用于其他分析方法的一個(gè)預(yù)處理步驟。 ( 4 ) 序列分析( s e q u e n c e a n a l y s i s ) 關(guān)聯(lián)分析用予挖掘數(shù)據(jù)記錄中不同屬性之間的關(guān)聯(lián)性,而序列分析則用來(lái)發(fā) 現(xiàn)數(shù)據(jù)記錄之聞的相關(guān)性,郄獲取數(shù)據(jù)庫(kù)記錄之聞在時(shí)間窗霹中的關(guān)系。這類(lèi)算 法可以發(fā)現(xiàn)審計(jì)數(shù)據(jù)中的一些經(jīng)常以某種規(guī)律出現(xiàn)的時(shí)間序列模式。這些頻繁發(fā) 生的時(shí)間序列模式可以幫助構(gòu)造入侵檢測(cè)模型選擇有效的統(tǒng)計(jì)特征。u n i v e r s i t y o f n e wm e x i c o ( u n m ) 的s t e p h a n i ef o r r e s t 研究組進(jìn)行的是針對(duì)主楓系統(tǒng)調(diào)用的 審計(jì)數(shù)據(jù)分析處理。s t e p h a n i ef o r r e s t 5 1 使用短序列匹配算法對(duì)特定的特權(quán)程序所 產(chǎn)生的系統(tǒng)調(diào)用序列進(jìn)行了細(xì)致分析,在這一領(lǐng)域做出了大量開(kāi)創(chuàng)性的工作。 - l 。2 。2 數(shù)據(jù)流挖掘技術(shù)在入侵檢測(cè)系統(tǒng)中的應(yīng)用 傳統(tǒng)數(shù)據(jù)挖掘技術(shù)在入侵檢測(cè)中的應(yīng)用基本上是按照如何改進(jìn)關(guān)聯(lián)、聚類(lèi)、 序列等算法或多種方法進(jìn)行結(jié)合來(lái)構(gòu)造用戶(hù)的行為模式庫(kù),這些方法都是通過(guò)分 析有限的靜態(tài)數(shù)據(jù)集去 | 導(dǎo)到用戶(hù)已有的行為模式,麗用戶(hù)的行為是不顫演化的, 4 麓l 章縫論 它們不能動(dòng)態(tài)的去學(xué)習(xí)用戶(hù)的行為模式,而入侵檢測(cè)系統(tǒng)處理的是網(wǎng)絡(luò)上動(dòng)態(tài)的 數(shù)據(jù)流,不畿在數(shù)據(jù)瀛上去構(gòu)建弱戶(hù)翦模式庫(kù)。因此要解決這些翹題,必須突破 傳統(tǒng)數(shù)據(jù)挖掘技術(shù)在入侵檢測(cè)領(lǐng)域的應(yīng)用模式,用數(shù)據(jù)流挖掘算法來(lái)構(gòu)造入侵檢 的測(cè)模型。 2 0 0 5 年s a n g - h y u no h 釋5 】提出在數(shù)據(jù)濾主進(jìn)行聚類(lèi)來(lái)構(gòu)建入侵檢測(cè)模囊, 由于數(shù)據(jù)流是無(wú)限的,在數(shù)據(jù)流中聚類(lèi)不能預(yù)先確定類(lèi)別的數(shù)曩,文中根據(jù)數(shù)據(jù) 流中對(duì)象的分布對(duì)聚類(lèi)結(jié)果進(jìn)行劃分或合并。在建立入侵檢測(cè)模型時(shí)假設(shè)各個(gè)屬 性之聞是無(wú)關(guān)的,針對(duì)每個(gè)滿(mǎn)性單獨(dú)進(jìn)行聚類(lèi),我們認(rèn)為假設(shè)各個(gè)屬性乏間為無(wú) 關(guān)是不合理的。例如一臺(tái)安全級(jí)別嚴(yán)格的主楓開(kāi)了t e l n e t 服務(wù),只允諍特定的p 地址范圈和時(shí)間允許登錄,因此服務(wù)、訪(fǎng)問(wèn)i p 地址和時(shí)間三個(gè)屬性是相關(guān)的, 必須綜合考慮三個(gè)屬性才有意義。聚類(lèi)算法的優(yōu)點(diǎn)是可以進(jìn)行無(wú)指導(dǎo)的學(xué)習(xí),但 其精度院較低,兩入侵檢測(cè)系統(tǒng)要求高酶精確度,因此必須選擇合適蘸挖掘算法 來(lái)構(gòu)建正常模式麾。關(guān)聯(lián)規(guī)則可以發(fā)現(xiàn)屬性之間的關(guān)系,更熊準(zhǔn)確的撼述用戶(hù)的 行為,在線(xiàn)挖掘頻繁項(xiàng)日集融經(jīng)得到了廣泛的研剄z 6 j 。 2 0 0 5 年w 雒妒迦提出了在數(shù)據(jù)流中檢測(cè)蠕蟲(chóng)的方法咎霸,文中提出結(jié)合使用 誤用檢測(cè)和異常檢測(cè)的方法。正鬻模式庫(kù)中豹規(guī)則斃基于特征鯰誤用模式庫(kù)中規(guī) 則在數(shù)量上多很多倍,如果只用正常模式庫(kù)來(lái)檢測(cè)異常,速度和檢驗(yàn)率都會(huì)低于 使用誤用模式庫(kù)來(lái)檢測(cè)已知的入侵行為。而如果只基于誤用模式庫(kù)來(lái)檢測(cè),便不 能發(fā)現(xiàn)泰靠的入侵行茺,函詫把兩瓣方法結(jié)合麓框架哥以提供更高翦檢驗(yàn)率和更 快的響應(yīng)速度。文中提崽的框架( 圖1 1 ) 對(duì)我們橡建基于數(shù)據(jù)流的入侵檢測(cè)模 型框架有一定的借鑒意義。 1 ,a n o m a l yd e t e c t i o n3u p d a t es i g n a t u r e 2s i g n a t u i ee x t r a c t i o n4m i s u s ed e t e c t i o n 圖1 。l 蠕蟲(chóng)檢測(cè)框架圖 。 f i g u r e l iw o r md e t e c t i o ns y s t e mf r a m e w o r k 2 0 0 6 年z h e n g j u n 等提穗一種基予數(shù)據(jù)流方法翡大撬穰霹絡(luò)異常發(fā)瑗方法 【2 8 l ,文書(shū)第一次將數(shù)據(jù)流模型應(yīng)用予大規(guī)模嬲絡(luò)的異常發(fā)現(xiàn)。這種方法在一定程 度上取決于安全策略定制的好壞,沒(méi)有考察數(shù)據(jù)包的內(nèi)容,只適用于流量分析。 文獻(xiàn) 2 9 探討了在線(xiàn)規(guī)則的生成模型,文中針對(duì)利用傳統(tǒng)方法進(jìn)行入侵檢測(cè)結(jié)果 難于理解的闋逶,提出了一釋對(duì)入侵檢測(cè)酶結(jié)果( 驛對(duì)入侵的數(shù)據(jù)在線(xiàn)分櫥) 熊 北京t 業(yè)大學(xué)工學(xué)碩1 :學(xué)位論文 實(shí)時(shí)規(guī)則在線(xiàn)生成方法,解決了傳統(tǒng)方法需要多遍掃描數(shù)據(jù)庫(kù)的要求。文中使用 了完全信息樹(shù)的結(jié)構(gòu)來(lái)保存整個(gè)歷史數(shù)據(jù)的信息。我們認(rèn)為提取入侵規(guī)則的方法 必須配合基于異常檢測(cè)機(jī)制和誤用檢測(cè)相結(jié)合的方法,才更有意義。因?yàn)槿绻?使用基于誤用機(jī)制,發(fā)現(xiàn)的攻擊行為為已知的入侵方式,入侵規(guī)則已經(jīng)存在規(guī)則 庫(kù)中,再次提取入侵規(guī)則是沒(méi)有意義的。如果單獨(dú)使用基于異常檢測(cè)機(jī)制,檢測(cè) 過(guò)程使用的為由大量正常數(shù)據(jù)提取得到的正常模式庫(kù),入侵?jǐn)?shù)據(jù)得到的規(guī)則除了 利于管理員理解之外沒(méi)有其它的用途。在兩種檢測(cè)機(jī)制結(jié)合的入侵檢測(cè)系統(tǒng)中, 可以提取正常模式庫(kù)檢測(cè)出的入侵規(guī)則,加入到入侵庫(kù)中。 由此可以看出基于數(shù)據(jù)流技術(shù)的入侵檢測(cè)研究已經(jīng)引起大家的興趣,但研究 只是處于起步階段,沒(méi)有成熟的成果可供借鑒。要把數(shù)據(jù)流技術(shù)成功的應(yīng)用到入 侵檢測(cè)領(lǐng)域需要首先在理論基礎(chǔ)、模型框架、算法探索和原型系統(tǒng)研制等方面加 大探索力度,取得突破。 1 3 挖掘數(shù)據(jù)流中頻繁項(xiàng)目集在入侵檢測(cè)中的應(yīng)用問(wèn)題分析 規(guī)則庫(kù)是入侵檢測(cè)系統(tǒng)的重要組成部分之一,基于異常檢測(cè)機(jī)制的入侵檢測(cè) 系統(tǒng)能否構(gòu)建成功的關(guān)鍵是用戶(hù)正常訪(fǎng)問(wèn)規(guī)則庫(kù)的建立。一般情況下用戶(hù)正常的 行為發(fā)生的次數(shù)會(huì)遠(yuǎn)遠(yuǎn)多于入侵的行為,因此用戶(hù)正常的行為反映到網(wǎng)絡(luò)上為頻 繁發(fā)生的網(wǎng)絡(luò)訪(fǎng)問(wèn)數(shù)據(jù),頻繁發(fā)生的用戶(hù)正常訪(fǎng)問(wèn)數(shù)據(jù)會(huì)形成頻繁項(xiàng)目集,因此 挖掘頻繁項(xiàng)目集是數(shù)據(jù)挖掘方法在入侵檢測(cè)應(yīng)用中的基礎(chǔ)。在數(shù)據(jù)流中挖掘頻繁 項(xiàng)目集是數(shù)據(jù)挖掘領(lǐng)域中的新問(wèn)題,網(wǎng)絡(luò)訪(fǎng)問(wèn)數(shù)據(jù)可以看成無(wú)限的數(shù)據(jù)流,如何 高效的在網(wǎng)絡(luò)數(shù)據(jù)流中挖掘頻繁項(xiàng)目集是構(gòu)建入侵檢測(cè)模型需要研究的一個(gè)基 礎(chǔ)問(wèn)題。 數(shù)據(jù)流中挖掘頻繁項(xiàng)目集的目標(biāo)與在靜態(tài)數(shù)據(jù)集中挖掘頻繁項(xiàng)目集的目標(biāo) 是一致的【3 0 1 。但是,在數(shù)據(jù)流中挖掘頻繁項(xiàng)目集面臨著許多挑戰(zhàn)。( 1 ) 數(shù)據(jù)流是 持續(xù)、高速、無(wú)限,不可能用多次掃描的方法挖掘頻繁項(xiàng)目集【川;( 2 ) 數(shù)據(jù)流挖 掘頻繁項(xiàng)目集的算法要保證在有限的時(shí)間和內(nèi)存下完成;( 3 ) 數(shù)據(jù)流的產(chǎn)生是隨 時(shí)間變化,通常人們關(guān)心的是最近的模式,但過(guò)去的模式對(duì)于挖掘結(jié)果也具有不 同程度的影響。由于上述的挑戰(zhàn),研究人員提出了許多新方法來(lái)解決在數(shù)據(jù)流中 發(fā)現(xiàn)頻繁項(xiàng)目集的問(wèn)題。同時(shí)由于入侵檢測(cè)系統(tǒng)處理是網(wǎng)絡(luò)數(shù)據(jù)流,需要在網(wǎng)絡(luò) 數(shù)據(jù)流中挖掘用戶(hù)的行為模式,為了能準(zhǔn)確反映用戶(hù)的行為模式,必須關(guān)注宏觀 時(shí)間段內(nèi)( 一周或更長(zhǎng)) 數(shù)據(jù)流中的頻繁模式。因此需要使用窗口的概念,窗口 模型的概念對(duì)在數(shù)據(jù)流中挖掘頻繁項(xiàng)目集可分為三類(lèi)p z j : ( 1 ) 里程碑窗口t 3 3 - 3 4 1 ( l a n d m a r kw i n d o w s ) 關(guān)注整個(gè)歷史階段數(shù)據(jù)流中的頻繁模式;在里程碑窗口處理模型中,它們總 6 第l 帝緒論 是關(guān)注數(shù)據(jù)流中流過(guò)的所有數(shù)據(jù),并通過(guò)對(duì)整個(gè)歷史數(shù)據(jù)的分析得到全局性的頻 繁模式。的確,全局性的知識(shí)模式是許多數(shù)據(jù)流挖掘中的期望結(jié)果。但是,由于 數(shù)據(jù)流的大容量和不可預(yù)測(cè)的數(shù)據(jù)高速的到達(dá),近期的研究表明里程碑窗口處理 模型必須結(jié)合快速的近似歸納技術(shù)或合適的數(shù)據(jù)淘汰技術(shù)才能真正適合數(shù)據(jù)流 的挖掘。最有代表性的基于里程碑窗口的數(shù)據(jù)流挖掘算法是是l o s s yc o u n t i n g 【3 4 1 ,它基于a p d o f i 算法的思想,但是利用近似歸納技術(shù)實(shí)現(xiàn)數(shù)據(jù)一次掃描。 從表面上看基于里程碑窗口機(jī)制挖掘整個(gè)歷史數(shù)據(jù)流中的頻繁模式方法可 以用于入侵檢測(cè)系統(tǒng)中去發(fā)現(xiàn)用戶(hù)歷史的行為模式。例如用戶(hù)正常的行為不僅在 過(guò)去是正常的,在將來(lái)也會(huì)是正常的,所以要發(fā)現(xiàn)用戶(hù)全部正常行為的模式庫(kù)必 須在整個(gè)歷史的數(shù)據(jù)流進(jìn)行挖掘。然而用戶(hù)的正常行為模式庫(kù)會(huì)非常的巨大,如 果用里程碑窗口的模式去發(fā)現(xiàn)用戶(hù)正常的行為,內(nèi)存中會(huì)維護(hù)巨大的行為模式 庫(kù),有限的內(nèi)存無(wú)法維護(hù)所有的歷史信息。挖掘數(shù)據(jù)流的關(guān)鍵是發(fā)現(xiàn)變化1 3 5 1 ,用 戶(hù)正常的行為會(huì)在一段時(shí)間內(nèi)得到反映,因此只需關(guān)注最近一段時(shí)間的數(shù)據(jù)流。 ( 2 ) 滑動(dòng)窗1 :3l j u j ( s l i d i n gw i n d o w s ) 關(guān)注最近一段時(shí)間內(nèi)( 窗口大小) 的頻繁項(xiàng)目集;在滑動(dòng)窗口處理模型中, 關(guān)注點(diǎn)總是放在最近發(fā)生的若干事務(wù)上,因此,它們的挖掘結(jié)果是某段時(shí)間內(nèi)的 局部頻繁模式。在大多數(shù)的數(shù)據(jù)流環(huán)境中,這種局部模式是不適合的,這是滑動(dòng) 窗口的固有缺陷。但是,滑動(dòng)窗口處理模型具有易于理解、設(shè)計(jì)簡(jiǎn)單等優(yōu)點(diǎn),因 此在數(shù)據(jù)流挖掘中也得到廣泛的研究和應(yīng)用。2 0 0 3 年,t e n g 等提出了一種稱(chēng)為 f t p d s 算法【3 6 】,它是在滑動(dòng)窗口中使用統(tǒng)計(jì)回歸技術(shù)來(lái)挖掘頻繁項(xiàng)集。2 0 0 4 年, c h i 等給出了m o m e n t 算法【3 7 】,它也是基于滑動(dòng)窗1 :3 技術(shù)的,但是m o m e n t 僅關(guān) 注在數(shù)據(jù)流中如何挖掘頻繁閉項(xiàng)集,它可以被期望來(lái)減少內(nèi)存數(shù)據(jù)結(jié)構(gòu)的規(guī)模和 獲得較高的挖掘效率。 基于滑動(dòng)窗口原理的方法,把目標(biāo)事務(wù)限定在最近一段固定的時(shí)間內(nèi),因此 得到的當(dāng)前挖掘結(jié)果完全依賴(lài)于在窗口內(nèi)最近產(chǎn)生的數(shù)據(jù)記錄,同時(shí)為了消除從 當(dāng)前窗1 :3 滑出去的數(shù)據(jù)記錄的影響,需要維護(hù)所有在窗口中的數(shù)據(jù)記錄。而如果 把這種方法用在基于異常檢測(cè)機(jī)制的入侵檢測(cè)系統(tǒng)中去發(fā)現(xiàn)用戶(hù)的正常行為模 式( 即頻繁模式) ,如果窗口定義的比較小,而入侵?jǐn)?shù)據(jù)在段時(shí)間內(nèi)會(huì)較多如d o s 攻擊,因此入侵的數(shù)據(jù)在當(dāng)前窗口中會(huì)變的頻繁,而頻繁的模式我們認(rèn)為是正常 的行為,這樣攻擊的模式便會(huì)被認(rèn)為正常的模式。因此要發(fā)現(xiàn)真正的正常行為必 須把窗口定義的很大,而內(nèi)存不能滿(mǎn)足這種要求。因此滑動(dòng)窗口不適合用于入侵 檢測(cè)模型中去挖掘用戶(hù)的正常行為模式。 ( 3 ) 衰減窗口 4 1 4 3 j ( d a m p e dw i n d o w s ) 數(shù)據(jù)流中的每個(gè)事務(wù)都有個(gè)權(quán)值,根據(jù)權(quán)值和時(shí)間進(jìn)行衰減;在衰減窗口 處理模型中,每個(gè)事務(wù)都對(duì)應(yīng)一個(gè)權(quán)值,而且這種權(quán)值隨時(shí)間的增加而減少。因 7 北京t 業(yè)大學(xué)下學(xué)碩十學(xué)位論文 此,它能在這些權(quán)值的控制下考慮歷史數(shù)據(jù)相關(guān)信息的保存以及裁減等工作。在 衰減窗1 :3 處理模型中,比較有代表性的方法是2 0 0 3 年c h a n g 等提出的e s t d e c 算 法1 4 ,它通過(guò)定義一個(gè)稱(chēng)為衰減因子的參數(shù),使得較早到達(dá)數(shù)據(jù)流的事務(wù)的影響 逐漸減弱。2 0 0 3 年,g i a n n e l l 等提出了一種傳統(tǒng)的f p t r e e 改造的處理數(shù)據(jù)流的 算法f p s t r e a m 4 3 1 ,該方法利用不同時(shí)間粒度來(lái)實(shí)現(xiàn)不同時(shí)間段的頻繁項(xiàng)集的生 成工作。 衰減窗口只是邏輯上的窗口,它可以消除滑動(dòng)窗口內(nèi)存上的限制,又能關(guān)注 較長(zhǎng)時(shí)間段內(nèi)的頻繁模式,因此適合用于異常檢測(cè)去發(fā)現(xiàn)用戶(hù)正常的模式。 1 4 主要研究?jī)?nèi)容 1 4 1 問(wèn)題的提出 根據(jù)上文的介紹,數(shù)據(jù)挖掘在入侵檢測(cè)中的應(yīng)用已經(jīng)得到廣大研究者的關(guān) 注?;诋惓5娜肭謾z測(cè)具有發(fā)現(xiàn)未知的入侵行為的優(yōu)點(diǎn),是當(dāng)前入侵檢測(cè)技術(shù) 的研究熱點(diǎn)。如何高效的分析網(wǎng)絡(luò)數(shù)據(jù)形成用戶(hù)的訪(fǎng)問(wèn)模式庫(kù)是入侵檢測(cè)需要解 決的重點(diǎn)問(wèn)題。數(shù)據(jù)挖掘技術(shù)可使數(shù)據(jù)分析自動(dòng)化,然而大多研究者關(guān)注的是如 何把傳統(tǒng)的數(shù)據(jù)挖掘方法應(yīng)用到入侵檢測(cè)中去,傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)是基于數(shù)據(jù) 庫(kù)技術(shù)的,而在入侵檢測(cè)中的應(yīng)用方法是事先得到大量的訓(xùn)練數(shù)據(jù),用學(xué)習(xí)算法 處理后得到用于檢測(cè)入侵的模式庫(kù),這種方法的局限性在于用事先得到的訓(xùn)練數(shù) 據(jù)構(gòu)造檢測(cè)模型不能動(dòng)態(tài)的處理用戶(hù)新的行為,同時(shí)隨著操作系統(tǒng)和網(wǎng)絡(luò)規(guī)模的 不斷擴(kuò)大,所要處理的數(shù)據(jù)的規(guī)模是海量的,保存之后再進(jìn)行分析不具有可行性。 鑒于入侵檢測(cè)系統(tǒng)所要處理的數(shù)據(jù)具有數(shù)據(jù)流的特性,在數(shù)據(jù)流上構(gòu)建入侵檢測(cè) 模型更具有合理性。而構(gòu)建基于數(shù)據(jù)流的入侵檢測(cè)模型需要解決以下問(wèn)題: ( 1 ) 入侵檢測(cè)模型如何能有效的處理高速的網(wǎng)絡(luò)數(shù)據(jù)流。 ( 2 ) 如何在有限內(nèi)存中存儲(chǔ)無(wú)限的網(wǎng)絡(luò)數(shù)據(jù)流,并能反映用戶(hù)訪(fǎng)問(wèn)的真實(shí) 情況。 ( 3 ) 如何從高速、無(wú)限的網(wǎng)絡(luò)數(shù)據(jù)流中獲得用戶(hù)網(wǎng)絡(luò)訪(fǎng)問(wèn)模式。 1 4 2 研究?jī)?nèi)容 究: 針對(duì)構(gòu)建基于數(shù)據(jù)流入侵檢測(cè)模型所面臨的問(wèn)題,本文主要做以下方面的研 ( 1 ) 分析網(wǎng)絡(luò)數(shù)據(jù)流的特點(diǎn)并設(shè)計(jì)基于數(shù)據(jù)流挖掘技術(shù)的入侵檢測(cè)模型。 ( 2 ) 設(shè)計(jì)能高效的存儲(chǔ)網(wǎng)絡(luò)數(shù)據(jù)流并能反映網(wǎng)絡(luò)真實(shí)情況的數(shù)據(jù)結(jié)構(gòu)。設(shè) 8 第l 章緒論 計(jì)有效的數(shù)據(jù)結(jié)構(gòu)處理網(wǎng)絡(luò)數(shù)據(jù)流是本文的一個(gè)重點(diǎn)工作。 ( 3 ) 設(shè)計(jì)一種能高效處理網(wǎng)絡(luò)數(shù)據(jù)流,獲取用戶(hù)訪(fǎng)問(wèn)模式的學(xué)習(xí)算法。用 戶(hù)的正常行為數(shù)據(jù)反映在網(wǎng)絡(luò)上會(huì)遠(yuǎn)遠(yuǎn)的多于入侵?jǐn)?shù)據(jù),因此挖掘網(wǎng)絡(luò)數(shù)據(jù)流中 的頻繁模式來(lái)刻畫(huà)用戶(hù)的正常行為。我們不需要關(guān)注整個(gè)歷史階段的數(shù)據(jù)流,只 需要對(duì)一段時(shí)期的數(shù)據(jù)進(jìn)行考察,使用衰減窗口機(jī)制可以讓我們關(guān)注較長(zhǎng)時(shí)間段 的數(shù)據(jù)流的特點(diǎn)。高效的處理網(wǎng)絡(luò)數(shù)據(jù)流算法是本文的一個(gè)重點(diǎn)工作。 ( 4 ) 對(duì)所設(shè)計(jì)的入侵檢測(cè)模型和用戶(hù)網(wǎng)絡(luò)訪(fǎng)問(wèn)模式學(xué)習(xí)算法進(jìn)行實(shí)驗(yàn)驗(yàn)證 和分析。 1 5 本論文的組織形式 本論文共分為四章,其組織結(jié)構(gòu)如下: 第1 章為本文的緒論,介紹了入侵檢測(cè)的基本概念和數(shù)據(jù)挖掘技術(shù)在入侵檢 測(cè)系統(tǒng)中的應(yīng)用情況;同時(shí)介紹了在數(shù)據(jù)流中挖掘頻繁項(xiàng)目集的研究發(fā)展情況, 并對(duì)其是否適合于入侵檢測(cè)的應(yīng)用給出分析;最后給出了本課題的研究意義和內(nèi) 容。 第2 章闡述了基于數(shù)據(jù)流挖掘技術(shù)的入侵檢測(cè)模型。首先分析數(shù)據(jù)集k d d 9 9 中的4 種攻擊類(lèi)型的特點(diǎn),給出了用戶(hù)行為具有可追蹤性的特點(diǎn),然后介紹了入 侵檢測(cè)系統(tǒng)處理的數(shù)據(jù)具有數(shù)據(jù)流的特點(diǎn),因此可以使用數(shù)據(jù)流挖掘技術(shù)得到用 戶(hù)網(wǎng)絡(luò)訪(fǎng)問(wèn)模式來(lái)構(gòu)建入侵檢測(cè)模型。用戶(hù)新到來(lái)的行為和得到的用戶(hù)網(wǎng)絡(luò)訪(fǎng)問(wèn) 模式進(jìn)行比較,判斷是否有入侵行為發(fā)生。 第3 章詳細(xì)介紹了基于數(shù)據(jù)流挖掘技術(shù)的入侵檢測(cè)模型的關(guān)鍵部分一后臺(tái)網(wǎng) 絡(luò)訪(fǎng)問(wèn)模式學(xué)習(xí)算法。為了能夠高效的處理不斷到來(lái)的網(wǎng)絡(luò)數(shù)據(jù)流,得到用于入 侵檢測(cè)模式庫(kù)的用戶(hù)網(wǎng)絡(luò)訪(fǎng)問(wèn)模式,本章給出了一種新的適合處理網(wǎng)絡(luò)數(shù)據(jù)流的 數(shù)據(jù)結(jié)構(gòu)m a x f p t r e e ,并在此數(shù)據(jù)結(jié)構(gòu)的基礎(chǔ)上設(shè)計(jì)了挖掘用戶(hù)網(wǎng)絡(luò)訪(fǎng)問(wèn)模式 的算法a p i n n d s 。并給出了算法a p i n n d s 執(zhí)行示例。 第4 章是實(shí)驗(yàn)結(jié)果與分析。使用k d d 9 9 數(shù)據(jù)集對(duì)檢測(cè)模型構(gòu)建方法和檢測(cè) 方法進(jìn)行了性能測(cè)試,并對(duì)算法a p i n n d s 的性能進(jìn)行了分析。 最后歸納本文的研究,總結(jié)了文章的內(nèi)容,提出了論文所做的工作以及論文 的創(chuàng)新點(diǎn),并對(duì)今后的工作進(jìn)行了展望。 9 第2 章基于數(shù)據(jù)流挖掘技術(shù)的入侵榆測(cè)模型 第2 章基于數(shù)據(jù)流挖掘技術(shù)的入侵檢測(cè)模型 構(gòu)建基于異常檢測(cè)機(jī)制的入侵檢測(cè)系統(tǒng)需要建立用戶(hù)正常的的行為庫(kù),而在 網(wǎng)絡(luò)數(shù)據(jù)流上構(gòu)建入侵檢測(cè)模型,需要直接分析網(wǎng)絡(luò)數(shù)據(jù)流,用戶(hù)的行為是否能 夠通過(guò)分析網(wǎng)絡(luò)數(shù)據(jù)流獲得是構(gòu)建基于數(shù)據(jù)流挖掘技術(shù)的入侵檢測(cè)模型的前提, 因此本章首先分析了用戶(hù)行為的可追蹤性。同時(shí),網(wǎng)絡(luò)訪(fǎng)問(wèn)數(shù)據(jù)具有數(shù)據(jù)流的特 點(diǎn),本章分析了這一特性,給出了處理數(shù)據(jù)流的算法所應(yīng)具有的條件。在用戶(hù)的 行為可以通過(guò)分析網(wǎng)絡(luò)數(shù)據(jù)流追蹤的前提下,如何構(gòu)建適合處理高速網(wǎng)絡(luò)數(shù)據(jù)流 的入侵檢測(cè)模型是本章的另外一個(gè)重點(diǎn)。 2 1 用戶(hù)行為的可追蹤t i 生 用戶(hù)的行為是變化多樣的,反映到網(wǎng)絡(luò)上為形式多樣的數(shù)據(jù),數(shù)據(jù)是不可確 定的,但行為是可以確定,可以通過(guò)分析用戶(hù)的訪(fǎng)問(wèn)數(shù)據(jù)構(gòu)造出可以刻畫(huà)用戶(hù)行 為的模型。通過(guò)對(duì)數(shù)據(jù)集k d d 9 9 4 4 】中的四類(lèi)攻擊進(jìn)行分析來(lái)說(shuō)明用戶(hù)的行為是 可以追蹤和刻畫(huà)的。 ( 1 ) 遠(yuǎn)程攻擊( r e m o t et ol o c a l r 2 l ) 如基于字典的口令猜測(cè)。用戶(hù)正常的 登錄行為長(zhǎng)時(shí)間內(nèi)會(huì)趨于穩(wěn)定。一個(gè)上班族用戶(hù),般在每周一至周五的上午九點(diǎn) 進(jìn)行登錄操作,登錄過(guò)程中很少發(fā)生密碼輸入錯(cuò)誤的情況,既使登錄密碼輸入錯(cuò) 誤,一般情況也不會(huì)超過(guò)三次,通常情況下用戶(hù)登

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論