垃圾郵件的識(shí)別和過(guò)濾方法_第1頁(yè)
垃圾郵件的識(shí)別和過(guò)濾方法_第2頁(yè)
垃圾郵件的識(shí)別和過(guò)濾方法_第3頁(yè)
垃圾郵件的識(shí)別和過(guò)濾方法_第4頁(yè)
垃圾郵件的識(shí)別和過(guò)濾方法_第5頁(yè)
已閱讀5頁(yè),還剩6頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、垃圾郵件識(shí)別和過(guò)濾的方法T大炮北京理工大學(xué)計(jì)算機(jī)學(xué)院,北京 100081(1111111111)Methods for Identifying and Filtering Junk Mail or Spam T Biggun (Class 07111301,School of Computer Science, Beijing Institute of Technology, Beijing 100081) Abstract Identifying and Filtering Spam is an important research subject in computer network.

2、In this thesis, I have studied the history of spam filtering technology, which mainly includes the first generation of rule-based filtering technology, the second generation of content-based filtering technology and the third generation of behavior-based filtering technology. 1. Rule-based filtering

3、 includes IP address based filtering, mail header based filtering. 2. Content-based filtering includes Bayesian filtering, Memory-based method, decision tree, Boosting method, Support Vector Machine (SVM), etc. 3. Behavior-based filtering includes Email data stream based filtering, mail header based

4、 filtering, sender reputation based filtering, mail fingerprint based filtering, behavioral characteristics weighted based filtering, etc. The spammers common spurious methods are summarized. Through the reference to large amount of anti-spam documents and data from home and broad, an analysis is ma

5、de on existing anti-spam techniques and in particular the content-based spam filtering methods. Key words spam filtering; rule; content; text categorization; Nave Bayes; behavior 摘要 垃圾郵件識(shí)別和過(guò)濾是計(jì)算機(jī)網(wǎng)絡(luò)領(lǐng)域的一個(gè)重要研究課題。垃圾郵件識(shí)別和過(guò)濾目前已經(jīng)發(fā)展出了三代技術(shù),第一代過(guò)濾技術(shù)是基于規(guī)則的,例如:基于IP地址、基于郵件頭的過(guò)濾技術(shù)。第二代過(guò)濾技術(shù)是基于內(nèi)容的,例如:貝葉斯分類算法、Memory-Ba

6、sed方法、決策樹、Boosting方法、支持向量機(jī)等方法。第三代過(guò)濾技術(shù)是基于行為的,例如:基于郵件數(shù)據(jù)流、基于郵件頭信息、基于發(fā)送方信譽(yù)、基于郵件指紋、基于行為特征加權(quán)的決策樹等過(guò)濾方法。本文歸納總結(jié)了當(dāng)前垃圾郵件發(fā)送者經(jīng)常采用的欺騙手段和方法,并參閱國(guó)內(nèi)外大量反垃圾郵件文獻(xiàn)和數(shù)據(jù),對(duì)已有的垃圾郵件技術(shù)作出分析和總結(jié),尤其是對(duì)基于內(nèi)容的垃圾郵件過(guò)濾方法進(jìn)行了研究。關(guān)鍵詞 垃圾郵件過(guò)濾;規(guī)則;內(nèi)容;文本分類;簡(jiǎn)單貝葉斯;行為隨著互聯(lián)網(wǎng)的發(fā)展,垃圾郵件常常讓人頭痛不已,最新報(bào)告稱美國(guó)為垃圾郵件第一大國(guó),中國(guó)排名第三(圖1)1。垃圾郵件問題如今已經(jīng)成為一個(gè)社會(huì)熱點(diǎn),近些年來(lái),研究人員們提出了很多

7、垃圾郵件識(shí)別和過(guò)濾的方法。這些方法的發(fā)展經(jīng)歷了三代,第一代過(guò)濾技術(shù)是基于規(guī)則的,例如:基于IP地址、基于郵件頭的過(guò)濾技術(shù)。第二代過(guò)濾技術(shù)是基于內(nèi)容的,例如:貝葉斯分類算法、Memory-Based方法、決策樹、Boosting方法、支持向量機(jī)等方法。第三代過(guò)濾技術(shù)是基于行為的,例如:基于郵件數(shù)據(jù)流、基于郵件頭信息、基于發(fā)送方信譽(yù)、基于郵件指紋、基于行為特征加權(quán)的決策樹等過(guò)濾方法。本文歸納總結(jié)了當(dāng)前垃圾郵件發(fā)送者經(jīng)常采用的欺騙手段和方法,并參閱國(guó)內(nèi)外大量反垃圾郵件文獻(xiàn)和數(shù)據(jù),對(duì)已有的垃圾郵件技術(shù)作出分析和總結(jié),尤其是對(duì)基于內(nèi)容的垃圾郵件過(guò)濾方法進(jìn)行了研究。圖 1 世界垃圾郵件最多國(guó)家排名Fig.

8、1 Country Ranking on Spam1 基于規(guī)則的垃圾郵件過(guò)濾1.1 基于IP地址的垃圾郵件過(guò)濾方法基于IP地址的過(guò)濾技術(shù)是目前使用最為廣泛的一種過(guò)濾技術(shù),包括基于網(wǎng)絡(luò)的IP地址過(guò)濾技術(shù),如BGP和路由器訪問控制列表;基于主機(jī)的IP地址過(guò)濾技術(shù),如TCP Wrappers和主機(jī)路由表的過(guò)濾;以及目前最常用的IP地址黑、白名單的過(guò)濾2。黑白名單技術(shù)基于這樣的界定:白名單中的任何郵件都是合法郵件,而黑名單中的任何郵件都是垃圾郵件。故通常會(huì)收集一個(gè)黑白名單的列表,這個(gè)列表里的內(nèi)容可以是電子郵件地址或郵件服務(wù)器的域名、IP地址等,收到郵件時(shí)進(jìn)行實(shí)時(shí)檢查,將符合黑名單的郵件放入垃圾文件夾中

9、。黑白名單一般由權(quán)威的組織提供,如中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)等。個(gè)人也可以根據(jù)需要調(diào)整自己的黑白名單?;贗P地址的過(guò)濾技術(shù)實(shí)現(xiàn)起來(lái)簡(jiǎn)單方便,可以應(yīng)用與多個(gè)層次。但是缺點(diǎn)是可能會(huì)傷及無(wú)辜,因?yàn)橛幸恍├]件是通過(guò)別人的服務(wù)器來(lái)轉(zhuǎn)發(fā)的,這樣就會(huì)將別人無(wú)辜的服務(wù)器給屏蔽掉。所以,黑白名單具有一定的局限性。1.2 基于郵件頭的垃圾郵件過(guò)濾方法基于郵件頭的過(guò)濾技術(shù)主要是使用正則表達(dá)式對(duì)郵件頭進(jìn)行關(guān)鍵字的匹配,檢查發(fā)件人的信息是否符合過(guò)濾要求,根據(jù)匹配結(jié)果決定阻塞或者接收具有特定單詞或短語(yǔ)的郵件。注意理解以下幾點(diǎn)有助于識(shí)別含有偽造內(nèi)容的信頭。(1)收件人地址和發(fā)件人地址一般的MUA是從用戶在SMTP的DATA命令后

10、輸入的數(shù)據(jù)中提取From、To等字段的內(nèi)容的,但是如果發(fā)件人的MUA不是按照這個(gè)邏輯工作,或者發(fā)件人故意讓這兩個(gè)字段的內(nèi)容與SMTP會(huì)話時(shí)使用的MAIL FROM和RCPT TO的內(nèi)容不一致時(shí),就會(huì)發(fā)生發(fā)件人是自己的名字或者收件人不是自己的名字等情況。(2)關(guān)于Open Relay如果發(fā)件人使用的不是自己的服務(wù)器,而是使用別人的服務(wù)器的Open Relay的漏洞,這樣就會(huì)給追蹤?quán)]件的真實(shí)來(lái)源帶來(lái)困難。如果一個(gè)郵件服務(wù)器和發(fā)件人、收件人都不屬于同一個(gè)域,就應(yīng)該懷疑是否使用了Open Relay。(3)Received信息郵件頭中的Received信息是由SMTP服務(wù)器自動(dòng)加入的,發(fā)送者無(wú)法干預(yù),

11、因此,通過(guò)比較Received域,特別是第一次經(jīng)過(guò)的郵件服務(wù)器的Received域,可以識(shí)別出偽造的發(fā)件人地址。但是,規(guī)則匹配的方法也有不妥之處,其缺點(diǎn)是規(guī)則是人工指定的,需要花費(fèi)時(shí)間和精力去收集信息,更新信息,這無(wú)疑是一項(xiàng)持久繁瑣的工作。2 基于內(nèi)容的垃圾郵件過(guò)濾由于上述基于規(guī)則的過(guò)濾方法的缺陷,故發(fā)展出一套新的方法:基于內(nèi)容的垃圾郵件過(guò)濾方法。對(duì)電子郵件的內(nèi)容(如正文)進(jìn)行分析,識(shí)別出垃圾郵件。這就將垃圾郵件過(guò)濾和文本分類和信息過(guò)濾聯(lián)系起來(lái)了,將文本分類和信息過(guò)濾中常用的方法引入垃圾郵件過(guò)濾任務(wù)中。這種內(nèi)容過(guò)濾技術(shù)提供了更為準(zhǔn)確的郵件過(guò)濾方法,可以自動(dòng)獲取垃圾郵件的特征,并即時(shí)捕捉到垃圾郵

12、件特征的變化3。2.1 垃圾郵件過(guò)濾與文本分類文本分類的首要任務(wù)是根據(jù)預(yù)先確定好的類別體系,將待分類文本分到對(duì)應(yīng)的類別中去,具體來(lái)說(shuō),就是將郵件分為合法郵件和垃圾郵件。我們可以將電子郵件經(jīng)過(guò)處理獲取其正文的文本內(nèi)容,利用文本分類的算法識(shí)別垃圾郵件。但是垃圾郵件分類與一般的文本分類也有很多不同之處。主要有:(1)對(duì)文本分類,每個(gè)類別的內(nèi)容一般不會(huì)經(jīng)常改變。比如說(shuō),一個(gè)文本屬于科技類,將來(lái)也還會(huì)屬于科技類。而垃圾郵件的類別是跟用戶的個(gè)性化需求相關(guān)的,用戶對(duì)于垃圾郵件的判別可能會(huì)隨著時(shí)間的推移而改變的。同時(shí),垃圾郵件的形式和內(nèi)容也在不斷地變化,因此垃圾郵件過(guò)濾中要向用戶提供自學(xué)習(xí)、反饋的機(jī)制,以便適

13、應(yīng)新情況。(2)無(wú)論對(duì)于郵件服務(wù)器還是對(duì)用戶客戶端,垃圾郵件過(guò)濾對(duì)時(shí)效性的要求比較高,因此要求必須采用高效的分類算法。(3)在垃圾郵件過(guò)濾中我們最不愿看到的就是將合法郵件誤判為垃圾郵件,這就要求過(guò)濾算法具有較高的準(zhǔn)確率。2.2 垃圾郵件過(guò)濾與信息過(guò)濾信息過(guò)濾(Information Filtering)是從動(dòng)態(tài)的信息流中找出與用戶興趣需求相關(guān)的信息的過(guò)程4。以文本過(guò)濾為例,將新到達(dá)的文檔與用戶的興趣相匹配,把系統(tǒng)認(rèn)為與用戶相關(guān)的文檔推送給用戶,用戶給予反饋,說(shuō)明被推送的文檔中有哪些是他感興趣的,哪些是不感興趣的。系統(tǒng)從反饋中自動(dòng)更新用戶的興趣。文本分類可以看做是一個(gè)反饋學(xué)習(xí)的二值分類問題。信息

14、過(guò)濾系統(tǒng)的一般組成為圖2所示。圖 2 信息過(guò)濾系統(tǒng)Fig.2 Information filtering System可以認(rèn)為垃圾郵件內(nèi)容過(guò)濾是這樣的一個(gè)信息過(guò)濾問題:初始時(shí),提供一定的垃圾郵件和非垃圾郵件給過(guò)濾系統(tǒng)學(xué)習(xí),得到過(guò)濾模型;過(guò)濾的信息源是動(dòng)態(tài)的郵件流;用戶可以指定自己的垃圾郵件集和非垃圾郵件,供系統(tǒng)反饋學(xué)習(xí),建立新的過(guò)濾模型。2.3 文本分類簡(jiǎn)介文本分類的任務(wù)是:在給定的類別體系下,根據(jù)文本的內(nèi)容,將其自動(dòng)映射到指定的類別中去。類別體系一般由人工按照應(yīng)用需求構(gòu)造。基于內(nèi)容的文本分類需要指導(dǎo),即一定數(shù)量的已分類好的訓(xùn)練文本或者實(shí)例,分類系統(tǒng)從訓(xùn)練文本中獲取必要的信息,構(gòu)造分類器。因此

15、文本分類一般都由訓(xùn)練過(guò)程和分類過(guò)程兩階段構(gòu)成(圖 3)。文本分類技術(shù)的應(yīng)用很廣泛,如新聞網(wǎng)頁(yè)的分類、電子圖書的分類等等。圖 3 文本分類器的一般模型Fig.3 Model of Text Categorization在文本處理領(lǐng)域,通常采用向量空間模型(VSM,Vector Space Model)表示文本,一篇文本可以表示為一個(gè)維文本向量(w1,w2,wn),其中,wi(i=1,2,n)表示第i個(gè)特征項(xiàng)的權(quán)重,n是特征項(xiàng)的個(gè)數(shù),特征項(xiàng)可以是字、詞、短語(yǔ)或某種概念,本文中采用詞作為特征項(xiàng)。權(quán)重有多種計(jì)算方法,最簡(jiǎn)單的是布爾權(quán)重,即權(quán)重為 1(該特征項(xiàng)在文本中出現(xiàn))或者 0(該特征項(xiàng)沒有在文本中

16、出現(xiàn))。更通常的情況下,VSM中的權(quán)重計(jì)算采用詞頻(TF,Term Frequency,表示該特征詞在文本中出現(xiàn)的次數(shù))和文檔頻次(DF,Document Frequency,表示出現(xiàn)該特征詞的文檔數(shù)量)的某種組合。解決了文本表示問題之后,我們可以將文本分類抽象為一般的描述:設(shè)類別總數(shù)為|C|,cj表示第jj=1,2,|C|類,提供給分類器的訓(xùn)練集(訓(xùn)練集中的文本都已經(jīng)過(guò)人工分類)包含|D|篇文本,特征空間(t1,t2,tn),n為特征數(shù)量,每篇文本表示成di=(wi1,wi2,win),i=1,2,|D|。一篇待分類文本泛化表示為dx=(wx1,wx2,wxn),任務(wù)是將dx分到相應(yīng)的類別中

17、去。2.4 特征選擇方法訓(xùn)練集中包含了大量的詞匯,如果把這些詞都作為特征,將帶來(lái)一系列問題。首先是向量的維數(shù)太大,給計(jì)算帶來(lái)了非常大的壓力,存儲(chǔ)空間大、處理速度慢。其次是這些詞中實(shí)際上有很大一部分是與類別無(wú)關(guān)的,對(duì)分類作用不大。因此,我們要降低向量的維數(shù),選擇那些有代表意義的詞作為特征。先對(duì)文本進(jìn)行預(yù)處理,去掉那些常用的對(duì)分類用處不大的詞(稱為停用詞,stop word),然后采用某種特征選擇方法對(duì)所有的詞排序,選出排在前面的一定數(shù)量的詞作為特征。常用的特征選擇方法有5:2.4.1 文檔頻次文檔頻次(DF)是出現(xiàn)特征項(xiàng)的文檔數(shù)量。通常認(rèn)為DF太小的詞沒有代表性,而DF太大的詞又沒有區(qū)分度,所以

18、基于DF的特征選擇方法只留下那些DF介于中間的詞作為特征。2.4.2 互信息互信息即Mutual Information,簡(jiǎn)稱 MI,定義如下:MIt=i=1|C|P(ci)logP(t|ci)P(t) Pci表示第i類文本在訓(xùn)練文本集合中出現(xiàn)的概率,P(t) 表示t在訓(xùn)練集合中出現(xiàn)的概率,P(t|ci)表示在第i類文本中t的出現(xiàn)概率。MI越大,詞和類的共現(xiàn)程度越大。2.4.3 信息增益信息增益即 Information Gain,簡(jiǎn)稱 IG,定義如下:IGt=-i=1CPcilogPci+Pti=1CPcitlogPcit+Pti=1|C|P(ci|t)logP(ci|t)IGt反映了該詞為

19、整個(gè)分類所提供的信息量。上式中,Pt表示詞t不出現(xiàn)的概率,Pcit表示詞t出現(xiàn)的情況下文本屬于ci類的概率,P(ci|t)表示詞t不出現(xiàn)的情況下文本屬于ci類的概率,下面的公式中相應(yīng)變量的含義與此相同。2.4.4 2統(tǒng)計(jì)量2t,ci=N(AD-BC)2(A+C)(B+D)(A+B)(C+D)2avgt=i=1CP(ci)2t,ciA、B、C、D均表示文本數(shù)量,如表1所示,N=A+B+C+D。表1 文本種類劃分Table 1 Division on Text Categorizationci類文本集合非ci類文本集合t出現(xiàn)ABt不出現(xiàn)CD 2統(tǒng)計(jì)量度量詞和類別獨(dú)立性的缺乏程度,2越大,獨(dú)立性越小

20、,相關(guān)性越大。avg2表示對(duì)所有類別求平均的2統(tǒng)計(jì)量。2.4.5 相對(duì)熵CEt=i=1|C|P(ci|t)logP(ci|t)P(ci)也稱為 KL 距離(Kullback-Leibler divergence),反映了文本類別的概率分布和在出現(xiàn)了某個(gè)詞的條件下文本類別的概率分布之間的距離,該值越大,詞對(duì)文本類別分布的影響也大。2.4.6 優(yōu)勢(shì)率即 Odds Ratio,用于二類分類問題:ORt=logP(t|c1)(1-P(t|c0)(1-P(t|c1)P(t|c0)2.5 垃圾郵件內(nèi)容過(guò)濾中應(yīng)用的文本分類方法以下介紹已經(jīng)應(yīng)用于垃圾郵件內(nèi)容過(guò)濾的一些算法。多種分類方法和機(jī)器學(xué)習(xí)理論都可以應(yīng)用

21、于垃圾郵件過(guò)濾6,包括貝葉斯分類器(Bayesian Classifiers)、Memory-Based方法、決策樹(Decision Trees)、Boosting方法、支持向量機(jī)(Support Vector Machine,SVM)等等。2.5.1 貝葉斯分類算法貝葉斯分類器是一類常用的分類器,最基本的形式是簡(jiǎn)單貝葉斯(Nave Bayes,也稱為樸素貝葉斯)分類器。其原理是計(jì)算文本dx屬于某個(gè)類別的概率P(cj|dx),將文本分配到概率最大的類別中去。計(jì)算P(cj|dx)的時(shí)候,利用了貝葉斯公式:P(cj|dx)=P(cj)P(dx|cj)P(dx)P(cj)是類的先驗(yàn)概率,P(dx|

22、cj)是類條件概率。對(duì)同一篇文本,P(dx)不變,設(shè)dx表示為特征集合(t1,t2,tn),n為特征個(gè)數(shù),假設(shè)特征之間相互獨(dú)立,則有:Pdxcj=Pt1cj*Pt2cj*Ptncj=i=1nPticjP(cj)和Pticj都可以利用訓(xùn)練集估計(jì)。簡(jiǎn)單貝葉斯分類器是垃圾郵件內(nèi)容過(guò)濾中廣泛應(yīng)用的文本分類方法78。利用這種方法,可以根據(jù)訓(xùn)練集自動(dòng)訓(xùn)練,訓(xùn)練的結(jié)果反映了訓(xùn)練集的性質(zhì)。因此郵件用戶可以提供一定數(shù)量的垃圾郵件和非垃圾郵件,訓(xùn)練自己的垃圾郵件過(guò)濾器,從而反映用戶自己的個(gè)性需求。Sahami 等人提出了一種多特征融合的貝葉斯過(guò)濾方法。特征選擇時(shí),一般是從訓(xùn)練集中提取一定數(shù)量的詞匯作為特征,而他們

23、除了選擇詞匯特征之外,還將一些“非文本”的特征加入到特征空間中,如郵件標(biāo)題中包含特定的短語(yǔ)“free、only $、be over 18、”以及郵件發(fā)送者的域名信息等等。加入這些特征后,與詞匯特征一起處理,應(yīng)用貝葉斯分類算法。2.5.2 Memory-Based方法Memory Based 也叫 Instanced Based,是基于實(shí)例的方法。我們以 k 近鄰(kNN,k-Nearest Neighbor)方法為例說(shuō)明這種方法的基本原理。k 近鄰是 Memory-Based 的一種,它直接利用訓(xùn)練集分類:計(jì)算待分類文本與每一篇訓(xùn)練文本的距離,找出最相近(最相似)的 k 篇文本,然后根據(jù)文本所

24、屬類別劃分這 k 篇文本,將待分類文本分到包含文本數(shù)最多的那一類中去。計(jì)算文本之間的相似度有多種方法,最常用的就是計(jì)算兩個(gè)文本向量之間的夾角余弦值。 Androutsopoulos 等人將 Memory Based 方法應(yīng)用在垃圾郵件過(guò)濾上8,取得了較好的結(jié)果。2.5.3 決策樹決策樹(Decision Tree)方法的實(shí)質(zhì)是從訓(xùn)練集中學(xué)習(xí)得到以決策樹的形式表示的分類規(guī)則。分類時(shí),將待分類的文本按照屬性值自樹根向下逐步比較判斷,到葉子結(jié)點(diǎn)時(shí),就可以確定文本所屬類別。 一棵最簡(jiǎn)單的決策樹結(jié)構(gòu)如圖4所示。樹的內(nèi)部結(jié)點(diǎn)表示屬性或者屬性的集合,分支上的權(quán)值表示屬性的取值,葉子結(jié)點(diǎn)是類別。圖中,實(shí)例空間

25、分為三類:1、2 和 3,如,當(dāng)屬性 A 的取值為 a2,屬性 B 的取值為 b2,屬性 C 的取值為 c1 時(shí),屬于類別 1。決策樹實(shí)際上就是一系列規(guī)則的形式化表示,如“如果屬性 A 取值為 a2,屬性 B 取值為 b2,屬性 C 取值為 c1,則屬于類別 1”。訓(xùn)練的過(guò)程就是從樣本中學(xué)習(xí)決策樹或者說(shuō)是學(xué)習(xí)規(guī)則,分類的時(shí)候就是沿著決策樹往下走到葉子,找到類別歸屬。圖 4 決策樹Fig.4 Decision Tree2.5.4 Boosting方法先介紹兩個(gè)概念:定義“強(qiáng)規(guī)則(或強(qiáng)假設(shè))”為準(zhǔn)確率很高的分類規(guī)則(或假設(shè)),“弱規(guī)則(或弱假設(shè))”為準(zhǔn)確率不高,僅比隨機(jī)猜測(cè)略好的分類規(guī)則(或假設(shè))

26、。最簡(jiǎn)單的弱假設(shè) h(x)可以這樣定義:hx=+1,如果x滿足某個(gè)斷言p-1,x不滿足p 弱規(guī)則比較好尋找,而強(qiáng)規(guī)則較難。一個(gè)很自然的想法就是通過(guò)一定的訓(xùn)練方法逐步將一系列弱規(guī)則集合提升為強(qiáng)規(guī)則,這就是 Boosting 方法的由來(lái)。Boosting 方法的基本思想是:給每個(gè)訓(xùn)練樣本都賦予一個(gè)權(quán)重,進(jìn)行 T 次迭代,每次迭代后,對(duì)分類錯(cuò)誤的樣本加大權(quán)重,使得下一次的迭代更加關(guān)注這些樣本。Boosting 方法有多種形式,如AdaBoost、AdaBoost.M1、AdaBoost.MH 等。下面以 AdaBoost 為例介紹 Boosting 方法。 考慮某個(gè)類別(對(duì)于多個(gè)類別,可以訓(xùn)練出多個(gè)

27、分類器),將訓(xùn)練集表示為S=X1,Y1,X2,Y2,XN,YN,其中,Xi(i=1,2,N)是文本表示,N是訓(xùn)練集中的樣本數(shù)量Yi=1表示Xi屬于某個(gè)類別,等于0表示不屬于這個(gè)類別。AdaBoost學(xué)習(xí)算法描述如圖5所示:Boosting開始時(shí),每個(gè)樣本的權(quán)重都初始化為1/N。每一步t中,使用弱規(guī)則對(duì)樣本的類別作出預(yù)測(cè),計(jì)算錯(cuò)誤率t和弱規(guī)則的權(quán)重系數(shù)t,然后分別更新預(yù)測(cè)正確和錯(cuò)誤的樣本權(quán)重。Zt是標(biāo)準(zhǔn)化變量,使樣本的權(quán)重和為 1。T為Boosting的次數(shù)。最后,輸出分類規(guī)則H。圖中,規(guī)則H是各個(gè)弱規(guī)則的線性組合的符號(hào)函數(shù)。圖 5 AdaBoost學(xué)習(xí)算法Fig.5 AdaBoost Algo

28、rithm2.5.5 支持向量機(jī)支持向量機(jī)(Support Vector Machine,簡(jiǎn)稱 SVM,也叫做支撐向量機(jī))是在二十世紀(jì) 90 年代以來(lái)發(fā)展起來(lái)的一種統(tǒng)計(jì)學(xué)習(xí)方法,在解決小樣本學(xué)習(xí)、非線性及高維模式識(shí)別問題中表現(xiàn)較好。如圖6所示,圖中的實(shí)心點(diǎn)和空心點(diǎn)分別表示兩類的訓(xùn)練樣本,考慮線性可分的情況,即通過(guò)一條直線H可以把兩個(gè)類別無(wú)錯(cuò)誤的分開,H1和H2分別為過(guò)各類樣本中離分類線最近的點(diǎn)且平行于分類線H的直線,H1和H2之間的距離叫做兩類的分類空隙或分類間隔(margin)。最優(yōu)分類線定義為:該分類線不但能將兩類樣本分開,而且要使兩類的分類間隔最大。直線H1、H2上的訓(xùn)練樣本叫做支持向量

29、(Support Vectors),因?yàn)樗鼈冎瘟俗顑?yōu)分類面。圖5中的分類線H是最優(yōu)分類線。推廣到高維空間,最優(yōu)分類線就成為最優(yōu)分類面。圖 6 最優(yōu)分類面Fig.6 Optimal Separating Plane對(duì)于線性不可分的情形,可以構(gòu)造一個(gè)變換,將問題轉(zhuǎn)換到一個(gè)新的空間,在這個(gè)新空間中線性可分。支持向量機(jī)的基本思想可以概括為:首先將輸入空間變換到一個(gè)新空間,然后在這個(gè)新空間中求取最優(yōu)線性分類面。Drucker、Androutsopoulos 等人在垃圾郵件過(guò)濾中使用支持向量機(jī)方法9。3 基于行為的垃圾郵件過(guò)濾行為模式是指程序執(zhí)行或者用戶操作過(guò)程中體現(xiàn)出的某種規(guī)律,行為模式通常反映出用戶

30、的身份和習(xí)慣10。行為識(shí)別技術(shù)根據(jù)郵件發(fā)送過(guò)程中表現(xiàn)出來(lái)的行為特征來(lái)判斷郵件是合法郵件還是垃圾郵件。行為模式識(shí)別能在郵件傳輸代理階段,針對(duì)垃圾郵件在通信過(guò)程中表現(xiàn)出來(lái)的特征在其投放到郵件發(fā)送隊(duì)列之前進(jìn)行判斷和處理,如“頻繁發(fā)送、動(dòng)態(tài)IP、Received域與發(fā)件人域不相同”等,這些特征都是垃圾郵件表現(xiàn)出來(lái)的行為特征。行為模式識(shí)別不需要對(duì)整個(gè)郵件內(nèi)容進(jìn)行判斷,只需要在郵件傳輸階段進(jìn)行檢測(cè),這大大提高了服務(wù)器過(guò)濾垃圾郵件的速度,減小網(wǎng)絡(luò)負(fù)荷和流量,同時(shí)也不會(huì)解析用戶的郵件,對(duì)用戶的隱私起到了很好的保護(hù)作用11。目前基于行為識(shí)別模式的垃圾郵件過(guò)濾已經(jīng)成為垃圾郵件過(guò)濾技術(shù)領(lǐng)域的主要研究方向,國(guó)內(nèi)外針對(duì)

31、垃圾郵件的行為識(shí)別技術(shù)已有較多的研究與應(yīng)用。下面簡(jiǎn)要介紹幾種方案:3.1 基于郵件數(shù)據(jù)流的過(guò)濾方法惡意郵件跟蹤系統(tǒng)是一款由哥倫比亞大學(xué)研發(fā)的基于行為識(shí)別的電子郵件系統(tǒng)12。該系統(tǒng)通過(guò)對(duì)用戶的郵件數(shù)據(jù)流和發(fā)送接收行為建立模型,使用模型來(lái)檢測(cè)異常電子郵件行為,包括垃圾郵件和傳播病毒的電子郵件行為。每封郵件的附件均會(huì)由系統(tǒng)生產(chǎn)一個(gè)唯一標(biāo)識(shí)符,如果某個(gè)標(biāo)識(shí)符所代表的的附件被判定為垃圾郵件屬性,其相對(duì)應(yīng)的行為信息將被系統(tǒng)記錄。整套系統(tǒng)由一個(gè)運(yùn)行在郵件服務(wù)器的客戶端和一個(gè)運(yùn)行在中央服務(wù)器的服務(wù)器端組成,客戶端記錄郵件附件的行為信息及其數(shù)據(jù)流,服務(wù)器端分析由客戶端上傳的數(shù)據(jù)。3.2 基于郵件頭信息的過(guò)濾方法

32、目前采用提取電子郵件頭信息,然后分析其每個(gè)字段特征來(lái)識(shí)別垃圾郵件,根據(jù)各個(gè)字段之間關(guān)系來(lái)判斷郵件分類的方法很多。例如張耀龍13采用決策樹算法生成垃圾郵件決策樹判定模型來(lái)識(shí)別垃圾郵件,主要是提取發(fā)件人域名、IP、各個(gè)字段之間的對(duì)應(yīng)關(guān)系來(lái)生成一定的規(guī)則并建立決策樹模型進(jìn)行判斷,但其對(duì)于連續(xù)值的處理效果并不好,而且其未考慮各個(gè)屬性的權(quán)重問題。張尼14等人提出了一種基于地理路徑分析的識(shí)別方法,該方法通過(guò)分析郵件頭中的Received字段來(lái)跟蹤?quán)]件的傳輸路徑,并根據(jù)實(shí)際的物理郵件服務(wù)器的拓?fù)浣Y(jié)構(gòu)來(lái)分析識(shí)別垃圾郵件,這種方法只能適用在大型的主干網(wǎng)絡(luò)上才可行。還有人提出基于SMTP路徑分析方法,通過(guò)提取郵件

33、頭Received字段中郵件服務(wù)器的IP地址,根據(jù)從該地址收到的垃圾郵件和合法郵件來(lái)建立郵件服務(wù)器的信譽(yù),并根據(jù)郵件服務(wù)器的信譽(yù)來(lái)判斷被測(cè)郵件為垃圾郵件的概率,如果大于某個(gè)閾值,則可以認(rèn)定該封郵件為垃圾郵件。3.3 基于發(fā)送方信譽(yù)的過(guò)濾方法可以根據(jù)分析對(duì)象分為15:基于發(fā)送方IP信譽(yù)的識(shí)別方法、基于發(fā)送方域名信譽(yù)的識(shí)別方法以及基于郵件指紋信譽(yù)的識(shí)別方法。其中,基于發(fā)送方IP或者域名信譽(yù)的方法存在一定的缺陷,因?yàn)槔]件的發(fā)送者通過(guò)偽造發(fā)送IP和域名,或者其采用動(dòng)態(tài)IP,使得正常的郵件服務(wù)器信譽(yù)降低,造成正常郵件服務(wù)器的郵件甚至無(wú)法發(fā)出。3.4 基于郵件指紋的過(guò)濾方法基于郵件指紋的過(guò)濾方法相比之

34、下則沒有以上問題,而且對(duì)于群發(fā)垃圾郵件具有很好的過(guò)濾效果。其原理是通過(guò)采用哈希函數(shù),對(duì)每封郵件產(chǎn)生其自身唯一的指紋,相同的或者相似的郵件將會(huì)產(chǎn)生相同的指紋,一旦判斷某封郵件為垃圾郵件,與其相同或者相似的郵件將會(huì)被判斷為垃圾郵件。文獻(xiàn)16中提出了基于淺層和深層行為解析兩種行為解析方法,淺層行為解析把郵件通信行為理解為現(xiàn)實(shí)世界中的人際關(guān)系網(wǎng)絡(luò),從所建立的網(wǎng)絡(luò)模型中提取用戶關(guān)系群組,然后把這些用戶關(guān)系群組用于群發(fā)郵件過(guò)濾。深層行為解析即將基于行為的過(guò)濾技術(shù)和基于內(nèi)容的過(guò)濾技術(shù)結(jié)合,使用SMTP會(huì)話過(guò)程中的命令,MUA的指紋信譽(yù)同時(shí)結(jié)合頭信息進(jìn)行郵件分類。3.5 基于行為特征加權(quán)的決策樹過(guò)濾方法基于行

35、為特征加權(quán)的決策樹過(guò)濾算法的思想為:針對(duì)大量的垃圾郵件所表現(xiàn)出來(lái)的行為特征,選取出一系列的行為特征,采用主成分分析法選取其中具有代表性的特征,然后選取等量的正常郵件和垃圾郵件,根據(jù)統(tǒng)計(jì)的方法分別計(jì)算某一特征對(duì)正常郵件和垃圾郵件的貢獻(xiàn)率,作為其權(quán)值,采用決策樹算法生成判別決策樹,使用大量的已知屬性的郵件樣例測(cè)試決策樹,分別得到正常郵件和垃圾郵件的加權(quán)平均權(quán)值,作為垃圾郵件和正常郵件的判斷閾值。如果郵件的路徑權(quán)值小于垃圾郵件閾值,則判定為垃圾郵件;如果大于正常郵件閾值,則該郵件被判斷為正常郵件;介于二者之間則使用決策樹算法判斷。4 結(jié)束語(yǔ)隨著Internet的普及,電子郵件由于其具有方便、快捷、低

36、成本的優(yōu)點(diǎn)逐漸成為現(xiàn)代社會(huì)主要的網(wǎng)絡(luò)通信方式之一。但近年來(lái),垃圾郵件的日趨泛濫給電子郵件系統(tǒng)和用戶帶來(lái)了嚴(yán)重的危害甚至損失。垃圾郵件的傳播不僅浪費(fèi)網(wǎng)絡(luò)資源,造成郵件服務(wù)器負(fù)荷增大,而且也成為有害信息和病毒傳播的重要途徑。為了保護(hù)郵件系統(tǒng)的正常運(yùn)行和郵箱用戶的利益,必須使郵件系統(tǒng)具有反垃圾郵件的能力。面對(duì)目前反垃圾郵件的嚴(yán)峻形勢(shì),研究高性能的反垃圾郵件模型已經(jīng)成為迫切的形勢(shì)要求和計(jì)算機(jī)工作者義不容辭的責(zé)任。本文通過(guò)簡(jiǎn)要介紹三代垃圾郵件識(shí)別和過(guò)濾方法,展示了目前國(guó)內(nèi)外一些研究人員的研究成果,我通過(guò)查閱資料對(duì)垃圾郵件識(shí)別和過(guò)濾技術(shù)有了一些粗淺的認(rèn)識(shí),這對(duì)我今后的學(xué)習(xí)生活意義重大。參 考 文 獻(xiàn)1 黃

37、蓉. 最新報(bào)告稱美國(guó)是垃圾郵件第一大國(guó)中國(guó)排第三EB/OL. 2014-07-25.2 曹麒麟, 張千里. 垃圾郵件與反垃圾郵件技術(shù)M. 北京: 人民郵電出版社, 2003.3 潘文鋒. 基于內(nèi)容的垃圾郵件過(guò)濾研究D. 中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所), 2004.4 Douglas W Oard, Gary Marchionini. A Conceptual Framework for Text Filtering. CAR-TR-830 CLIS-TR-96-02 CS-TR-3643 EE-TR-96-25, May, 1996.5 Yang Yiming, Pederson J O

38、. A Comparative Study on Feature Selection in Text CategorizationA. Proceedings of the 14th International Conference on Machine learningC. Nashville: Morgan Kaufmann, 412-420, 1997.6 I. Androutsopoulos, G. Paliouras, E. Michelakis. Learning to Filter Unsolicited Commercial E-Mail. Technical report 2004/2, NCSR Demokritos, 200

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論