文本分類中特征向量空間降維方法研究_圖文_第1頁(yè)
文本分類中特征向量空間降維方法研究_圖文_第2頁(yè)
文本分類中特征向量空間降維方法研究_圖文_第3頁(yè)
文本分類中特征向量空間降維方法研究_圖文_第4頁(yè)
文本分類中特征向量空間降維方法研究_圖文_第5頁(yè)
已閱讀5頁(yè),還剩12頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 第二章文本分類基礎(chǔ)除以上介紹的算法之外,支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)算法在文本分類系統(tǒng)中應(yīng)用得也較為廣泛,支持向量機(jī)的基本思想是使用簡(jiǎn)單的線性分類器劃分樣本空間。對(duì)于在當(dāng)前特征空間中線性不可分的模式,則使用一個(gè)函數(shù)把樣本映射到一個(gè)高維空間中,使得樣本能夠線性可分。而神經(jīng)網(wǎng)絡(luò)算法采用感知算法進(jìn)行分類。在這種模型中,分類知識(shí)被隱式地存儲(chǔ)在連接的權(quán)值上,使用迭代算法來(lái)確定權(quán)值向量。當(dāng)網(wǎng)絡(luò)輸出判別正確時(shí),權(quán)值向量保持不便,否則進(jìn)行調(diào)整,因此也稱為獎(jiǎng)懲法。綜上所述,文本分類的過(guò)程可以總結(jié)為圖2.1 圖2.1文本分類過(guò)程圖2.1形象地說(shuō)明了文本分類中要經(jīng)歷的兩個(gè)主要階段,以及文本的表示和訓(xùn)練/分類算法在文本分類

2、中所處的地位。從圖中可以看出,訓(xùn)練階段的作用是構(gòu)造一個(gè)分類器,而分類階段則是利用這個(gè)分類器來(lái)完成分類。另外,文本的表示是文本分類的基礎(chǔ),在文本分類的兩個(gè)階段中都要用到,而本文研究的特征空問(wèn)降維方法中的一個(gè)目的,就是要尋求一種有效的文本表示方法。2.3特征向量表示的有效性評(píng)價(jià)一個(gè)特征向量表示的有效性,即看它是否能較準(zhǔn)確地表示文本,故對(duì)一個(gè)文本集合用某一分類算法進(jìn)行分類時(shí),通常要比較該表示方法及其它表示方法所獲得的分類結(jié)果。如果該表示方法得到的結(jié)果相對(duì)較好,則表明此種方法具有好的表示效力。特征向量的表示效力受兩方面的影響:一是特征詞的粒度選取,二是權(quán)值的計(jì)算?!綥ewl992一文中指出:特征集合的

3、一些性質(zhì)對(duì)表示方法的效力有很大的影響。很多實(shí)驗(yàn)的結(jié)果也證明了這一點(diǎn)1ow“”】。因此,本節(jié)主要討論特征詞集合對(duì)于特征向量表示效力有影響的一些性質(zhì)。1.表示的充分性如果用一個(gè)特征集合表示的所有文本都是可以被區(qū)分的,也就是說(shuō)不同的文本在該特征集合上的表示都是不同的,通常就認(rèn)為它是充分的。否則無(wú)論通過(guò)什么樣的訓(xùn)練算法也不可 東南大學(xué)碩士學(xué)位論文分類的具體情況,由于用上位概念代替其下位概念會(huì)使褥屬于同一大類的小類的類別之間的區(qū)分度減小,較容易判別出它們屬于同一個(gè)大類,因此如果類別分得較粗,即都是比較大的類別,則由于上位概念的歸納所帶來(lái)的影響會(huì)較小,對(duì)查對(duì)率的影響并不是很大。實(shí)驗(yàn)選取文本分類方面的英文文

4、章50篇,采用本文所提出的方法,將初始得出的特征向量進(jìn)行降維,原來(lái)的203個(gè)特征詞,被歸納為87個(gè),圖4.6統(tǒng)計(jì)了特征詞頻度分布。 圖4.6降維實(shí)驗(yàn)結(jié)果比較圖4.6中橫軸表示該類文本中特征詞平均頻度的對(duì)數(shù)值,縱軸表示具有該頻度的特征詞的數(shù)目。從圖中可以看出,與單純統(tǒng)計(jì)詞形出現(xiàn)次數(shù)不做降維處理相比,本文方法所得出的結(jié)果低頻特征詞的數(shù)目減少,高頻特征詞增多且頻度得到加強(qiáng),特征詞總的數(shù)目減少。下面,我們就實(shí)驗(yàn)中所顯示的、算法對(duì)特征詞頻度分布的影響及各種情況的產(chǎn)生原因作一說(shuō)明和分析。經(jīng)本文的所給方法處理之后。特征詞的頻度分布主要有以下四個(gè)特點(diǎn);1.低頻的特征詞的數(shù)目大為減少。由于本文在預(yù)處理(初始特征

5、詞提取中沒(méi)有做去除低頻詞的處理,所以預(yù)處理后仍保留了大量的較低頻度的詞,而經(jīng)過(guò)本文算法的處理去掉了很多的低頻詞,這說(shuō)明在下位概念集不能被上位概念替代的情況下,算法選取了具有較高重要度的下位概念,而剔除了那些重要度不高的下位概念,這樣就出現(xiàn)了在圖中橫坐標(biāo)0.9附近的詞數(shù)目比處理前減少很多。而這種情況下的剔除操作是基于對(duì)同一層次上的各個(gè)概念之間重要度的比較,與單純的基于某一頻度的閥值有本質(zhì)的區(qū)別。2.高頻特征詞頻度得到加強(qiáng)。處理前的高頻詞集中在1.4附近,而經(jīng)過(guò)概念歸納后,高頻特征詞集中在1.6附近。這說(shuō)明本文提出的方法對(duì)處理文本包含的語(yǔ)義概念進(jìn)行了有效的融合,使得相關(guān)概念得到不同程度的聚集,.原來(lái)的高頻概念的頻度得到更進(jìn)一步地加強(qiáng),這樣就使得與文本類別相關(guān)的概念更為突出。3.高頻特征詞數(shù)目增多。處理前。高頻詞最高峰是19;而經(jīng)過(guò)概念統(tǒng)計(jì)和歸納后,高

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論