


下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、文本聚類算法研究 文本聚類算法研究摘要本文對(duì)文本聚類做了比較詳盡的分析,包括文本聚類的概念和總體介紹,聚類模型,聚類算法以及相關(guān)技術(shù)等等。文本自動(dòng)聚類系統(tǒng)是信息處理的重要研究方向,它是指在給定的聚類體系下,根據(jù)文本的內(nèi)容自動(dòng)劃分文本類別的過程。文中重點(diǎn)分析和比較了各種基于不同聚類模型的聚類算法的優(yōu)劣,對(duì)其中一部分算法通過程序加以實(shí)現(xiàn),得到了實(shí)驗(yàn)結(jié)果。通過實(shí)驗(yàn)結(jié)果可以直觀地看出算法的性能。其中重點(diǎn)實(shí)現(xiàn)的是基于向量空間模型的層次聚類算法。該算法是當(dāng)今國內(nèi)外文本聚類領(lǐng)域比較流行的算法之一,性能優(yōu)良,有很高的準(zhǔn)確率和召回率。在我對(duì)特定文檔集進(jìn)行的聚類實(shí)驗(yàn)中
2、,這種方法得出的結(jié)果是最滿意的。本文共分七章:第一章是緒論,介紹文本聚類的概念,用途,流程并簡單介紹了一下文本分類。第二章是分析了幾種現(xiàn)有的文本聚類模型和算法,從多角度比較它們的優(yōu)缺點(diǎn)。第三章介紹了中文文本聚類中的主要問題和關(guān)鍵技術(shù)。第四章簡述了Smart系統(tǒng)的功能和使用方法。第五章詳細(xì)說明了文本聚類程序的結(jié)構(gòu),主要算法的實(shí)現(xiàn),和編制文本聚類器的步驟。第六章給出了對(duì)我的畢設(shè)程序進(jìn)行性能評(píng)估的數(shù)據(jù)。第七章是對(duì)全文的總結(jié)和對(duì)未來的展望。關(guān)鍵詞:文本聚類,文本分類,向量空間,相似度, 精確度,召回率,層次凝聚算法 Abstract The thesis analyzes text clusterin
3、g in detail, including the definition and general introduction of the text clustering,the model,algorithm and relevant technologies of text clustering,etc.Automatic text clustering is the main researching direction of the Information Procession,it is the process of automatically deviding many texts
4、into different classes with a given clustering method.In the thesis we analyzed and compared kinds of clustering models and algorithms,carried out part of them and got some experimental result.We can see the performance of the algorithms directly from the result.And in this thesis we mainly implemen
5、ted the level-agglomerative algorithm based on the vector space model.This algorithm is one of the most popular algorithms in the field of text clustering nowadays.It has good capability,high precision and recall.In my experiment on given document sets,this algorithm has the most satisfactory result
6、. The thesis is devided into 7 chapters: Chapter1 is the introduction. It introduces the definition,usage,and process of text clustering,and briefly introduced text classification. Chapter2 analyzes some existing models and algorithms of text clustering,compared them with each other from so many asp
7、ects. Chapter3 introduces the main problems and key technologies in text clustering. Chapter4 shows the function and usage of the Smart system. Chapter5 shows the structure of the text clustering program, the implementation of the main algorithms, and the steps to write a text clustering program. Ch
8、apter6 presents some experimental results, and evaluates several text clustering algorithms. Chapter7 is the conclusion and the future work. Key-words: text clustering, text classification, vector space, similarity, precision, recall, level-agglomerative clustering algorithm 目錄摘要1 Abstract.2 第一章 緒論.
9、5 11文本聚類概述5 12文本聚類工作流程6 13文本分類概述7 第二章 現(xiàn)有的數(shù)據(jù)聚類模型和算法10 21基于密度的聚類算法.10 22基于向量空間的聚類算法.13 23基于統(tǒng)計(jì)語言的聚類模型.16 231信息熵16 232統(tǒng)計(jì)語言模型17 233條件聚類模型18 本章小結(jié).20 第三章 中文文本聚類中的基本問題.21 31中文分詞概述.21 32特征詞抽取.22 33文本的表示.24 本章小結(jié).25 第四章 SMART系統(tǒng)概述26 41SMART系統(tǒng)簡介.26 42 SMART系統(tǒng)中的信息檢索.28 43SMART系統(tǒng)的搭建步驟.30 44SMART系統(tǒng)的評(píng)價(jià).31 本章小結(jié).33 第五章 文本聚類程序的實(shí)現(xiàn).34 51問題定義34 52程序的基本功能和總體結(jié)構(gòu)34 53程序中數(shù)據(jù)結(jié)構(gòu)的定義35 54程序中主要算法的實(shí)現(xiàn)37 541相關(guān)文件操作.3
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 廣西物流職業(yè)技術(shù)學(xué)院《裝飾工程施工技術(shù)》2023-2024學(xué)年第一學(xué)期期末試卷
- 湖南第一師范學(xué)院《建筑物理》2023-2024學(xué)年第一學(xué)期期末試卷
- 湖南省長沙市明德教育集團(tuán)2024年七上數(shù)學(xué)期末經(jīng)典模擬試題含解析
- 提升醫(yī)護(hù)人員情緒智能優(yōu)化醫(yī)療服務(wù)
- 江蘇省南京市溧水區(qū)五校2024年數(shù)學(xué)七上期末經(jīng)典試題含解析
- 2025屆山西省高平市七年級(jí)數(shù)學(xué)第一學(xué)期期末學(xué)業(yè)水平測(cè)試模擬試題含解析
- 西安信息職業(yè)大學(xué)《影視欄目包裝實(shí)驗(yàn)》2023-2024學(xué)年第一學(xué)期期末試卷
- 春天露營活動(dòng)方案
- 旅游開發(fā)公司策劃方案
- 北京經(jīng)濟(jì)管理職業(yè)學(xué)院《建筑工程CAD》2023-2024學(xué)年第一學(xué)期期末試卷
- 北京昌平霍營街道社區(qū)“兩委”干部儲(chǔ)備人才招募筆試真題2024
- 2024年 黃岡市法院系統(tǒng)招聘審判輔助人員考試真題試題含答案
- ktv營銷經(jīng)理管理制度
- 公司消防網(wǎng)格化管理制度
- 5.3.1探究酵母菌的呼吸方式課件高一上學(xué)期生物人教版必修1
- 護(hù)士職業(yè)溝通技巧課件
- 2024年保密培訓(xùn)課件:員工保密知識(shí)要點(diǎn)
- 19S406建筑排水管道安裝-塑料管道
- 酸堿平衡判斷血?dú)夥治隽椒ㄐ掳媾嘤?xùn)課件
- 房建施工流程示意圖自己編制
- (學(xué)霸自主提優(yōu)拔尖)蘇教版四年級(jí)數(shù)學(xué)上冊(cè)第一單元《升和毫升》(知識(shí)點(diǎn)、常考題、易錯(cuò)題、拓展題)名師詳解與訓(xùn)練
評(píng)論
0/150
提交評(píng)論