語(yǔ)言信息處理-文本相似度相關(guān)研究

上傳人：1*** IP屬地：湖北上傳時(shí)間：2022-01-17 格式：DOCX 頁(yè)數(shù)：11 大?。?9.30KB 積分：28 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩6頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、1 引言出于個(gè)人對(duì)語(yǔ)言信息處理相關(guān)內(nèi)容的興趣，對(duì)兩段文本之間如何比較相似性也有很大的好奇，在之前的工作中也用到相關(guān)知識(shí)，于是在本次的報(bào)告中，根據(jù)自己的能力實(shí)現(xiàn)了一個(gè)可以比較兩段文本相似程度的小算法，算法原理簡(jiǎn)單，只是從“詞”的角度進(jìn)行分析，沒(méi)有加入語(yǔ)義的分析，但是如果在特定的領(lǐng)域也會(huì)有不錯(cuò)的效果。報(bào)告中會(huì)主要介紹算法的原理、自己在原理上進(jìn)行的處理以及成果的展示。2 算法思想本文所研究的算法是基于文本相似度匹配而實(shí)現(xiàn)的。首先將文本處理成為相對(duì)應(yīng)的向量，根據(jù)空間里向量的相近程度來(lái)反映出兩個(gè)文本之間的相似度。由于文本數(shù)據(jù)具有無(wú)結(jié)構(gòu)的特性，需要對(duì)其進(jìn)行一定的預(yù)處理，這樣才能轉(zhuǎn)換成為數(shù)值計(jì)算。本文所采用

2、的思路是首先對(duì)文本進(jìn)行中文分詞處理，然后對(duì)分詞之后的結(jié)果進(jìn)行詞頻統(tǒng)計(jì)，統(tǒng)計(jì)時(shí)可以同時(shí)完成對(duì)數(shù)據(jù)的降維操作。將統(tǒng)計(jì)結(jié)果排列成為兩個(gè)向量，最后利用向量計(jì)算的相關(guān)公式進(jìn)行相似度計(jì)算。其總體流程如圖1所示。圖1算法流程圖3 基于文本相似度匹配的文本匹配算法3.1文本分詞一整段的文本由多個(gè)詞語(yǔ)組成，我們要進(jìn)行文本之間相似度匹配的檢測(cè)。第一步是對(duì)文本進(jìn)行中文分詞，分成一些關(guān)鍵的詞語(yǔ)組，其中要剔除掉語(yǔ)意詞、助詞等等對(duì)文章大意沒(méi)有影響的詞匯。英文分詞是相對(duì)容易的，因?yàn)槊績(jī)蓚€(gè)單詞之間會(huì)有空格進(jìn)行區(qū)分，這就使得分詞工作變成了檢測(cè)文章中的空格，然后加以分割。但中文句子并沒(méi)有這樣的特征，一個(gè)詞匯是由多個(gè)漢字組成，而且

3、有可能出現(xiàn)一個(gè)字與前后兩個(gè)字都能組成詞語(yǔ)的情況，需要根據(jù)語(yǔ)境進(jìn)行判定區(qū)分，所以中文的分詞技術(shù)相對(duì)來(lái)說(shuō)要難很多。但目前中文分詞技術(shù)也日漸成熟，出現(xiàn)了很多強(qiáng)大的中文分詞工具，也提供了很多不能編程語(yǔ)言的接口。單字分詞、二分法和詞典分詞是目前分詞的主要方法。單字分詞，顧名思義即在對(duì)中文文本進(jìn)行分詞時(shí)，以字為單位進(jìn)行切分。字索引很靈活，但是實(shí)現(xiàn)單字匹配算法卻很復(fù)雜，也往往需要大量的CPU運(yùn)算進(jìn)行支撐。二分法，即將每?jī)蓚€(gè)字當(dāng)作一個(gè)詞語(yǔ)進(jìn)行切分，然后建立索引，使用二分法可以明顯地減少每個(gè)詞條后位置信息的長(zhǎng)度。在進(jìn)行了對(duì)比分析之后，詞典分詞的方法最為適合本系統(tǒng)的需要。詞典分詞的基本思想是先構(gòu)造出一個(gè)基本詞

4、匯的詞典，然后將遇到的文本同詞典比對(duì)分析進(jìn)行分詞，這是當(dāng)前相對(duì)準(zhǔn)確的方法，也被廣泛使用。本文使用的時(shí)Ansj中文分詞，是一個(gè)基于google語(yǔ)義模型+條件隨機(jī)場(chǎng)模型的中文分詞的java實(shí)現(xiàn)，詞速度達(dá)到每秒鐘200萬(wàn)字左右，準(zhǔn)確率能達(dá)到96%以上,目前實(shí)現(xiàn)了中文分詞、中文姓名識(shí)別、用戶(hù)自定義詞典等功能,可以應(yīng)用到自然語(yǔ)言處理等方面,適用于對(duì)分詞效果要求高的各種項(xiàng)目。在文本中匹配單詞時(shí)，正向最大匹配算法和逆向最大匹配法是詞典分詞法經(jīng)常用到的算法，從左側(cè)開(kāi)始依次讀入數(shù)據(jù)，嘗試把幾個(gè)連續(xù)出現(xiàn)的字符與詞庫(kù)中存在的詞條進(jìn)行匹配，如果成功，就可以分出一個(gè)詞條，這是正向，而逆向是從文本的末端開(kāi)始，每次都取最末

5、端連續(xù)出現(xiàn)的幾個(gè)字符進(jìn)行匹配，如果匹配失敗，那么加入該字段最前面的一個(gè)字，繼續(xù)進(jìn)行匹配Error! Reference source not found.。當(dāng)文本比較復(fù)雜，需要比較精確的分詞的時(shí)候，就要用多種方式對(duì)文本進(jìn)行切分，對(duì)不同方式的切分結(jié)果進(jìn)行比對(duì)，相同的切分結(jié)果得到的詞語(yǔ)就是真正需要的詞。3.2詞頻統(tǒng)計(jì)與數(shù)據(jù)降維上文中我們提到了要用到每個(gè)詞條的出現(xiàn)的次數(shù)，那么就需要進(jìn)行詞頻統(tǒng)計(jì)，也就是詞條頻率，用來(lái)評(píng)價(jià)一個(gè)詞對(duì)于一段文本的重要性。在信息領(lǐng)域，基于匹配的詞頻統(tǒng)計(jì)算法和基于樹(shù)結(jié)構(gòu)的詞頻統(tǒng)計(jì)算法是最為經(jīng)典也是最被認(rèn)可的詞頻統(tǒng)計(jì)方法，被廣泛使用。在單關(guān)鍵詞

6、匹配算法中，比較著名的有BF算法、KMP算法、BM算法等。（1）BF算法 BF算法也被稱(chēng)為是蠻力算法，它的基本思想是：首先，A1和B1比較，如果相等，再對(duì)A2和B2進(jìn)行比較，一直到Bm為止；如果A1和B1不相等，則B右移一下，繼續(xù)進(jìn)行比較。如果存在k，1kn，且Ak+1k+m=T1m，則匹配成功，否則失敗。（2）KMP算法 KMP算法是由高德納（Donald Ervin Knuth）和 Vaughan Pratt 在1977年合作發(fā)明的。其基本思想為：如果在匹配的進(jìn)程中，判斷Ai和Bj是否相等，如果相

7、等，那么繼續(xù)對(duì)Ai+1和Bj+1進(jìn)行判斷；如果兩者不相等，討論一下兩種情況，若j=1，向右移動(dòng)，判斷Ai+1和B1相等與否，若1<j<=m，則右移j-next(j)位，檢查Ai和Bnext(j)是否匹配，重復(fù)此過(guò)程直到j(luò)=m或i=n結(jié)束。（3）BM算法 BM算法1977年由Bob Boyer 和J Strother Moore提出，是一個(gè)字符串匹配算法。其基本思想是：設(shè)定一個(gè)位置i，將主串i起由左至右的進(jìn)行判斷，若發(fā)現(xiàn)不相等，則下次應(yīng)從主串的i + distance(si)位置開(kāi)始繼續(xù)進(jìn)行接下去的判斷

8、，即跳過(guò)distance(si)個(gè)字符而無(wú)需進(jìn)行比較。（4）本文使用的算法基于匹配的詞頻統(tǒng)計(jì)方法，是在對(duì)待處理文本進(jìn)行多次了掃描的基礎(chǔ)上進(jìn)行的，需要付出大量的時(shí)間和空間代價(jià)，尤其在文本數(shù)據(jù)量較大時(shí)，則更難以實(shí)現(xiàn)。針對(duì)這個(gè)難點(diǎn)，提出了基于樹(shù)結(jié)構(gòu)的算法來(lái)對(duì)詞條進(jìn)行統(tǒng)計(jì)。其基本思想是：首先根據(jù)已有的關(guān)鍵詞集合構(gòu)建一棵查找樹(shù)，然后利用這個(gè)查找樹(shù)對(duì)文檔進(jìn)行掃描，從而進(jìn)行關(guān)鍵詞的統(tǒng)計(jì)。利用樹(shù)形結(jié)構(gòu)的好處是，在統(tǒng)計(jì)時(shí)，對(duì)文本進(jìn)行一次掃描就可以完成一個(gè)詞與查找樹(shù)的比較，進(jìn)而可統(tǒng)計(jì)出所有的詞條信息。利用樹(shù)形結(jié)構(gòu)大大減少了不必要的匹配過(guò)程，提高了統(tǒng)計(jì)效率。本系統(tǒng)在借助HashMap的基礎(chǔ)上進(jìn)行詞條的頻

9、率統(tǒng)計(jì)，這種方式相對(duì)更加簡(jiǎn)單明了，易于理解和使用。其基本思想是：利用HashMap，把關(guān)鍵字設(shè)置成詞條，其value等于該詞條出現(xiàn)的次數(shù)。對(duì)已經(jīng)分詞完畢的文本逐個(gè)詞條地進(jìn)行分析，先進(jìn)行判斷，如果該詞條不存在于HashMap，那么就將該詞條加入其中，并將其value設(shè)置為1；如果詞條已經(jīng)存在于HashMap，就將該詞條的value加1，進(jìn)行一個(gè)算法復(fù)雜度為O（n）的操作之后，就可以將整個(gè)文本的詞頻統(tǒng)計(jì)出來(lái)。具體算法如算法1所示。算法1 詞頻統(tǒng)計(jì)算法輸入：文本分詞結(jié)果的list HashMap hm=new HashMap()；/初始化一個(gè)HashMapwhile(list

10、中仍有未處理詞條)if（詞條有效）then if（本詞條不存在于hm） then 相應(yīng)value=1；else if(本詞條存在于hm) then 相應(yīng)value+1；elsecontinue；rerurn;利用HashMap進(jìn)行詞頻統(tǒng)計(jì)雖然很有效，但是也有弊端，那就是它最終的結(jié)果是無(wú)序的，而且當(dāng)對(duì)兩個(gè)文本進(jìn)行利用HashMap的方法進(jìn)行詞頻統(tǒng)計(jì)之后，很難保證兩個(gè)文本同一詞條在HashMap的位置是一樣的。如果同一詞條所對(duì)應(yīng)的詞頻不能出現(xiàn)在最終兩個(gè)向量的同一個(gè)維度，那么接下去的計(jì)算必然是無(wú)效的。所以在第二個(gè)文本進(jìn)行填充HashMap之后就要進(jìn)行一定的操作處理，最終使得兩個(gè)向量相同的詞條的詞頻出

11、現(xiàn)在相同的維度。因此，設(shè)計(jì)了算法對(duì)此進(jìn)行實(shí)現(xiàn)，其基本思想是：設(shè)置兩個(gè)數(shù)組和兩個(gè)迭代器，兩個(gè)數(shù)組用來(lái)最終存儲(chǔ)兩個(gè)向量的值，分別進(jìn)行迭代操作判斷出現(xiàn)順序完成統(tǒng)計(jì)。首先，用第一個(gè)迭代器對(duì)第一個(gè)HashMap進(jìn)行遍歷，將對(duì)應(yīng)關(guān)鍵字的鍵值從數(shù)組第一個(gè)位置起往后存儲(chǔ)。與此同時(shí)，遍歷每一個(gè)關(guān)鍵字之后，對(duì)這個(gè)關(guān)鍵字在第二個(gè)HashMap中是否存在進(jìn)行判斷：如果存在，這說(shuō)明兩個(gè)文本中都存在這個(gè)詞條；如果不存在，這說(shuō)明這個(gè)詞條只在第一個(gè)文本中出現(xiàn)。判斷可知該算法的時(shí)間復(fù)雜度為O(n)。接下來(lái)要對(duì)利用第二個(gè)迭代器遍歷第二個(gè)HashMap，這時(shí)候只需要對(duì)詞條只出現(xiàn)在第二個(gè)文本的情況進(jìn)行統(tǒng)計(jì)。對(duì)應(yīng)的條件就是判斷該關(guān)鍵字

12、的鍵值在第一個(gè)HashMap中是否為空，是的話(huà)那就說(shuō)明這個(gè)詞條的頻率需要統(tǒng)計(jì)。由此一來(lái)，既可以將所有出現(xiàn)在兩個(gè)文本中的詞條進(jìn)行統(tǒng)計(jì)并在最終的向量數(shù)組中存儲(chǔ)，又可以使得兩個(gè)向量保證以相同的詞條順序存儲(chǔ)，那么接下來(lái)的計(jì)算就是準(zhǔn)確的。具體算法如算法2所示。算法2 向量生成算法輸入：存儲(chǔ)詞頻統(tǒng)計(jì)結(jié)果的HashMap，hm1和hm2。輸出：存儲(chǔ)向量的vector1，vector。Integer vector1;Integer vector2;/ 初始化兩個(gè)數(shù)組Iterator iterator1 = hm1.keySet().iterator();/初始化兩個(gè)iterator Iterator iter

13、ator2 = hm2.keySet().iterator();while(iterator1.hasNext()不為空)vector1i=hm1.get(iterator.next();if(該關(guān)鍵字不存在于hm2) then buff2i = 0;else buff2i = hm2.get(iterator.next();while(iterator1.hasNext()不為空)if(該關(guān)鍵字不存在于hm1)then buff2i= hm2.get(iterator.next();buff1i=0;else break;return;如果數(shù)據(jù)的維度過(guò)大，無(wú)疑會(huì)大大增加程序的運(yùn)行時(shí)間，所以詞

14、頻統(tǒng)計(jì)中數(shù)據(jù)降維是一個(gè)重要因素，想要提高效率必須要進(jìn)行合適的降維操作。當(dāng)文本中的詞條的數(shù)量很多，又有很多的標(biāo)點(diǎn)符號(hào)時(shí)，都會(huì)增加向量的維度，提高了計(jì)算的復(fù)雜程度。為了提高計(jì)算的效率，需要進(jìn)行適當(dāng)?shù)慕档拖蛄烤S度的操作，去除一些無(wú)關(guān)緊要的詞語(yǔ)、標(biāo)點(diǎn)等，減少向量的維度。這樣既可以有效的提高效率，又可以提高算法的精度。本系統(tǒng)在處理這個(gè)問(wèn)題時(shí)，是在進(jìn)行HashMap填充之前，利用分詞結(jié)果剔除一些標(biāo)點(diǎn)、空格、一般常用語(yǔ)等對(duì)于相似度匹配來(lái)說(shuō)的干擾項(xiàng)。這樣可以進(jìn)行簡(jiǎn)單地去除那些對(duì)文本相似度產(chǎn)生精確度影響的詞條，也就是說(shuō)，在把詞條加入HashMap時(shí)，會(huì)先進(jìn)行簡(jiǎn)單地判斷該詞條是否為對(duì)相似度判斷無(wú)效的詞

15、條，只有有用詞條會(huì)被添加到HashMap中，否則就直接跳過(guò)，繼續(xù)判斷下一詞條。3.3相似度計(jì)算VSM模型（VSM：Vector Space Model）即向量空間模型，由索頓等人于20世紀(jì)70年代提出，并成功地應(yīng)用于著名的SMART文本檢索系統(tǒng)Error! Reference source not found.。向量空間模型的基本思想是：用特征向量來(lái)表示原來(lái)的文本，這樣抽象的文本相似度計(jì)算問(wèn)題就轉(zhuǎn)化成了可見(jiàn)的為空間向量之間的運(yùn)算，由此大大降低了問(wèn)題的復(fù)雜性，而其可行性也大為提升。它首先按照分詞技術(shù)得到的分詞結(jié)果，把原來(lái)的文本映射為一個(gè)n維的空間向量，文本的相似度就可以通過(guò)計(jì)算兩段文本對(duì)應(yīng)的向量

16、的余弦值來(lái)確定，利用了空間里向量的相近程度解決了文本之間的的相似性問(wèn)題，簡(jiǎn)單易懂。對(duì)于計(jì)算機(jī)來(lái)說(shuō)，模糊的文本數(shù)據(jù)在經(jīng)過(guò)向量空間模型的處理之后，轉(zhuǎn)換成了可被計(jì)算機(jī)識(shí)別處理的數(shù)據(jù)，在得出兩個(gè)向量之間的相似性程度之后，兩個(gè)文本之間的相似性問(wèn)題也隨之得到解決。每一篇文本，都是由許許多多的詞條組成，文本和其中的詞條之間存在一定的關(guān)系，我們需要對(duì)這個(gè)關(guān)系進(jìn)行一個(gè)研究。我們可以把一段文本看成一個(gè)向量D（value1,value2,valuen），其中value1，value2是對(duì)應(yīng)于組成這個(gè)文本的某個(gè)詞條的一個(gè)值，在下文中會(huì)對(duì)這個(gè)值進(jìn)行進(jìn)一步的說(shuō)明。這樣，假設(shè)有在文本1中出現(xiàn)了3個(gè)詞語(yǔ)a、b、c，在文本2中

17、出現(xiàn)了3個(gè)詞語(yǔ)a，c，d，我們要比較文本1和文本2的相似度，那么我們選擇兩者并集所包含的詞語(yǔ)數(shù)量作為兩個(gè)文本的向量的維度數(shù)，也就是4維，那么接下來(lái)就是對(duì)每一維的值進(jìn)行確定，我們使用TFIDF作為這個(gè)值，它的理論思想是這樣的：一個(gè)在某個(gè)文本中多次出現(xiàn)而在其他文本中很少的詞條對(duì)不同文本的區(qū)分具有很強(qiáng)的意義，根據(jù)這樣的詞語(yǔ)對(duì)文本進(jìn)行分類(lèi)處理可以得到很可靠的效果。那么首先讓我們了解兩個(gè)概念：詞頻 (term frequency, TF) 指的是某一個(gè)給定的詞語(yǔ)在該文件中出現(xiàn)的次數(shù)Error! Reference source not found.。在下面的算式中 ni,j

18、;是該詞條的使用次數(shù)，文本中全部詞條的出現(xiàn)次數(shù)的和作為分母。其計(jì)算如式（1）所示。（1）逆向文件頻率（inverse document frequency，IDF）是一個(gè)詞語(yǔ)普遍重要性的度量。如果詞條t在所有文本中出現(xiàn)次數(shù)越少，基數(shù)就會(huì)越小，IDF的值就越大，這就意味著t可以對(duì)不同文本進(jìn)行很明顯的區(qū)分。IDF可以由式（2）獲得，其中，|D|：所匹配的庫(kù)中的文本總數(shù)，：包含詞語(yǔ)ti的文本數(shù)。（2）上文中提到了文本所對(duì)應(yīng)的向量有很多個(gè)維數(shù)，我們現(xiàn)在要給每個(gè)維的值進(jìn)行賦值，也就是最后我們得到的TFIDF如式（3）所示：（3）假設(shè)上文中，idf均為1，文本1詞條a出現(xiàn)的頻率為0.4，b出現(xiàn)的頻

19、率為0.3，c出現(xiàn)的頻率為0.3，文本2詞條a出現(xiàn)的頻率為0.6，c出現(xiàn)的頻率為0.2，d出現(xiàn)的頻率為0.2，按照相同詞條的頻率出現(xiàn)在向量的相同維度，由此可以得,兩個(gè)文本向量為（0.4,0.3,0.3,0）和（0.6,0,0.2,0.2），再按照下文中的相似度計(jì)算方法計(jì)算相似度。首先把兩段文本處理成為對(duì)應(yīng)的兩個(gè)向量，基于向量空間模型的理論，兩段文本之間的相似度就可以認(rèn)為是該文本所對(duì)應(yīng)的向量在空間上的接近程度，也就是向量之間的夾角，夾角越大那就越不接近反之就越接近。我們對(duì)兩個(gè)向量的余弦值進(jìn)行計(jì)算，根據(jù)余弦值的大小來(lái)得出兩段文本的相似程度，按照式（4）就可以得出最終的sim值。

20、9;åå= （4）其中，T1、T2代表待比較的兩個(gè)文本對(duì)應(yīng)的向量，其中的i表示向量的第i維，n用來(lái)表示向量的維數(shù)。兩個(gè)向量的余弦值是一個(gè)大于等于0小于等于1的數(shù)，如果向量一致余弦值就是1，如果向量正交就是0，這一點(diǎn)也符合相似度必然屬于0到1這個(gè)區(qū)間的特性，0代表完全不同，1代表完全相同。由此我們就可以通過(guò)這個(gè)sim的值來(lái)對(duì)兩短文本的相似度進(jìn)行判斷。4 算法測(cè)試與評(píng)估我們選取病歷這一特定文本進(jìn)行測(cè)試，醫(yī)生在進(jìn)行病理管理的過(guò)程中，需要進(jìn)行相似病歷查找的時(shí)候，更為準(zhǔn)確的方式是利用患者的主訴和初步診斷結(jié)果在病歷庫(kù)中進(jìn)行搜索，查找出最為相近的病歷供醫(yī)生參考使用。為測(cè)試算法的實(shí)用性和準(zhǔn)

21、確性，選取了以患者主訴和初步診斷為基本內(nèi)容的測(cè)試文本作為實(shí)驗(yàn)數(shù)據(jù)進(jìn)行了實(shí)驗(yàn)，并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析。Text作為實(shí)驗(yàn)文本，Text1至Text5為測(cè)試文本分別與其進(jìn)行相似度檢測(cè)。分詞前后結(jié)果分別如表4-1和表4-2所示。表4-1文本內(nèi)容文本內(nèi)容Text咳嗽已有半月多，加重時(shí)發(fā)熱伴有胸悶，呼吸困難，不能正常入睡，初步診斷為急性支氣管肺炎，若藥物治療效果不明顯建議盡快到醫(yī)院進(jìn)行手術(shù)治療。Text1在檢查前2小時(shí)，我在行走時(shí)不慎被摩托車(chē)撞倒，局部皮膚青紫，皮膚無(wú)破損，明確外傷史致腰部、右大腿疼痛，初步診斷為腰骶部軟組織挫傷右大腿軟組織挫傷。Text2畏寒、發(fā)熱伴咳嗽、咳痰多天，時(shí)常會(huì)呼吸困難，初步診

22、斷為右中、下肺肺炎，急性氣管-支氣管炎，建議盡快接受治療Text3我十余天前無(wú)誘因下出現(xiàn)左上腹部陣發(fā)性隱痛，進(jìn)食后疼痛加劇，按壓后稍有緩解，初步診斷為胃癌伴幽門(mén)梗阻，建議盡快到醫(yī)院就診。Text4孩子由于受涼咳嗽三天，發(fā)熱兩天，有痰很難咳出，初步診斷為支氣管肺炎、佝僂病，建議盡快到醫(yī)院確診。Text5陣發(fā)性心前區(qū)疼痛，不適1年，加重3天，持續(xù)時(shí)間幾分鐘，伴有咳嗽，服藥后癥狀無(wú)緩解，初步診斷為冠心病。表4-2分詞結(jié)果分詞結(jié)果Text咳嗽/v, 、/w, 咳/e, 痰/n, 已/d, 有/v, 半月/m, 多/m, ，/w, 加重/v, 時(shí)/ng, 發(fā)熱/v, 伴/v, 有/v, 胸/ng, 悶/

23、v, ，/w, 呼吸/v, 困難/an, ，/w, 不能/v, 正常/a, 入睡/v, ，/w, 初步/d, 診斷/v, 為/p, 急性/b, 支氣管/n, 肺炎/n, ，/w, 若/c, 藥物/n, 治療/v, 效果/n, 不/d, 明顯/a, 建議/n, 盡快/d, 到/v, 醫(yī)院/n, 進(jìn)行/v, 手術(shù)/v, 治療/v, 。/wText1在/p, 檢查/vn, 前/f, 2/m, 小時(shí)/n, ，/w, 我/r, 在/p, 行走/v, 時(shí)/ng, 不慎/d, 被/p, 摩托車(chē)/n, 撞/v, 倒/v, ，/w, 局部/n, 皮膚/n, 青/a, 紫/a, ，/w, 皮膚/n, 無(wú)/v, 破

24、損/v, ，/w, 明確/ad, 外傷/n, 史/ng, 致/v, 腰部/n, 、/w, 右/f, 大腿/n, 疼痛/an, ，/w, 初步/d, 診斷/v, 為/p, 腰/n, 骶, 部/q, 軟組織/n, 挫傷/v, /nr, 右/f, 大腿/n, 軟組織/n, 挫傷/v, 。/wText2畏/vg, 寒/ag, 、/w, 發(fā)熱/v, 伴/v, 咳嗽/v, 、/w, 咳/e, 痰/n, 多天/m, ，/w, 時(shí)常/d, 會(huì)/v, 呼吸/v, 困難/an, ，/w, 初步/d, 診斷/v, 為/p, 右/f, 中/f, 、/w, 下/f, 肺/n, 肺炎/n, ，/w, 急性/b, 氣管/n

25、, -, 支氣管炎/n, ，/w, 建議/n, 盡快/d, 接受/v, 治療/v, 。/wText3我/r, 十余天/m, 前/f, 無(wú)/v, 誘因/n, 下/f, 出現(xiàn)/v, 左上/f, 腹部/n, 陣/ng, 發(fā)/v, 性/ng, 隱痛/n, ，/w, 進(jìn)食/v, 后/f, 疼痛/an, 加劇/v, ，/w, 按壓/v, 后/f, 稍/d, 有/v, 緩解/v, ，/w, 初步/d, 診斷/v, 為/p, 胃癌/n, 伴/v, 幽門(mén)/n, 梗阻/v, ，/w, 建議/n, 盡快/d, 到/v, 醫(yī)院/n, 就診/v, 。/wText4孩子/n, 由于/c, 受涼/v, 咳嗽/v, 三天/m

26、, ，/w, 發(fā)熱/v, 兩天/m, ，/w, 有/v, 痰/n, 很/d, 難/a, 咳/e, 出/v, ，/w, 初步/d, 診斷/v, 為/p, 支氣管/n, 肺炎/n, 、/w, 佝僂病/n, ，/w, 建議/n, 盡快/d, 到/v, 醫(yī)院/n, 確診/v, 。/wText5陣/ng, 發(fā)/v, 性/ng, 心/n, 前/f, 區(qū)/n, 疼痛/an, ，/w, 不適/a, 1年/m, ，/w, 加重/v, 3天/m, ，/w, 持續(xù)/vd, 時(shí)間/n, 幾分鐘/m, ，/w, 伴/v, 有/v, 咳嗽/v, ，/w, 服/v, 藥/n, 后/f, 癥狀/n, 無(wú)/v, 緩解/v, ，/w, 初步/d, 診斷/v, 為/p, 冠心病/n, 。/w由于不同文本之間詞條數(shù)量的差異，無(wú)法統(tǒng)一進(jìn)行向量的生成，需要逐一地將測(cè)試文本同實(shí)驗(yàn)文本進(jìn)行相似度計(jì)算的處理。在進(jìn)行數(shù)據(jù)降維，除去標(biāo)點(diǎn)符號(hào)之后進(jìn)

人人文庫(kù)> 全部分類(lèi)> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

語(yǔ)言信息處理-文本相似度相關(guān)研究

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

語(yǔ)言信息處理-文本相似度相關(guān)研究

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔