語(yǔ)言信息處理-文本相似度相關(guān)研究_第1頁(yè)
語(yǔ)言信息處理-文本相似度相關(guān)研究_第2頁(yè)
語(yǔ)言信息處理-文本相似度相關(guān)研究_第3頁(yè)
語(yǔ)言信息處理-文本相似度相關(guān)研究_第4頁(yè)
語(yǔ)言信息處理-文本相似度相關(guān)研究_第5頁(yè)
已閱讀5頁(yè),還剩6頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、1 引言出于個(gè)人對(duì)語(yǔ)言信息處理相關(guān)內(nèi)容的興趣,對(duì)兩段文本之間如何比較相似性也有很大的好奇,在之前的工作中也用到相關(guān)知識(shí),于是在本次的報(bào)告中,根據(jù)自己的能力實(shí)現(xiàn)了一個(gè)可以比較兩段文本相似程度的小算法,算法原理簡(jiǎn)單,只是從“詞”的角度進(jìn)行分析,沒(méi)有加入語(yǔ)義的分析,但是如果在特定的領(lǐng)域也會(huì)有不錯(cuò)的效果。報(bào)告中會(huì)主要介紹算法的原理、自己在原理上進(jìn)行的處理以及成果的展示。2 算法思想本文所研究的算法是基于文本相似度匹配而實(shí)現(xiàn)的。首先將文本處理成為相對(duì)應(yīng)的向量,根據(jù)空間里向量的相近程度來(lái)反映出兩個(gè)文本之間的相似度。由于文本數(shù)據(jù)具有無(wú)結(jié)構(gòu)的特性,需要對(duì)其進(jìn)行一定的預(yù)處理,這樣才能轉(zhuǎn)換成為數(shù)值計(jì)算。本文所采用

2、的思路是首先對(duì)文本進(jìn)行中文分詞處理,然后對(duì)分詞之后的結(jié)果進(jìn)行詞頻統(tǒng)計(jì),統(tǒng)計(jì)時(shí)可以同時(shí)完成對(duì)數(shù)據(jù)的降維操作。將統(tǒng)計(jì)結(jié)果排列成為兩個(gè)向量,最后利用向量計(jì)算的相關(guān)公式進(jìn)行相似度計(jì)算。其總體流程如圖1所示。圖1算法流程圖3 基于文本相似度匹配的文本匹配算法3.1文本分詞一整段的文本由多個(gè)詞語(yǔ)組成,我們要進(jìn)行文本之間相似度匹配的檢測(cè)。第一步是對(duì)文本進(jìn)行中文分詞,分成一些關(guān)鍵的詞語(yǔ)組,其中要剔除掉語(yǔ)意詞、助詞等等對(duì)文章大意沒(méi)有影響的詞匯。英文分詞是相對(duì)容易的,因?yàn)槊績(jī)蓚€(gè)單詞之間會(huì)有空格進(jìn)行區(qū)分,這就使得分詞工作變成了檢測(cè)文章中的空格,然后加以分割。但中文句子并沒(méi)有這樣的特征,一個(gè)詞匯是由多個(gè)漢字組成,而且

3、有可能出現(xiàn)一個(gè)字與前后兩個(gè)字都能組成詞語(yǔ)的情況,需要根據(jù)語(yǔ)境進(jìn)行判定區(qū)分,所以中文的分詞技術(shù)相對(duì)來(lái)說(shuō)要難很多。但目前中文分詞技術(shù)也日漸成熟,出現(xiàn)了很多強(qiáng)大的中文分詞工具,也提供了很多不能編程語(yǔ)言的接口。單字分詞、二分法和詞典分詞是目前分詞的主要方法。 單字分詞,顧名思義即在對(duì)中文文本進(jìn)行分詞時(shí),以字為單位進(jìn)行切分。字索引很靈活,但是實(shí)現(xiàn)單字匹配算法卻很復(fù)雜,也往往需要大量的CPU運(yùn)算進(jìn)行支撐。二分法,即將每?jī)蓚€(gè)字當(dāng)作一個(gè)詞語(yǔ)進(jìn)行切分,然后建立索引,使用二分法可以明顯地減少每個(gè)詞條后位置信息的長(zhǎng)度。 在進(jìn)行了對(duì)比分析之后,詞典分詞的方法最為適合本系統(tǒng)的需要。詞典分詞的基本思想是先構(gòu)造出一個(gè)基本詞

4、匯的詞典,然后將遇到的文本同詞典比對(duì)分析進(jìn)行分詞,這是當(dāng)前相對(duì)準(zhǔn)確的方法,也被廣泛使用。本文使用的時(shí)Ansj中文分詞,是一個(gè)基于google語(yǔ)義模型+條件隨機(jī)場(chǎng)模型的中文分詞的java實(shí)現(xiàn),詞速度達(dá)到每秒鐘200萬(wàn)字左右,準(zhǔn)確率能達(dá)到96%以上,目前實(shí)現(xiàn)了中文分詞、中文姓名識(shí)別、用戶(hù)自定義詞典等功能,可以應(yīng)用到自然語(yǔ)言處理等方面,適用于對(duì)分詞效果要求高的各種項(xiàng)目。在文本中匹配單詞時(shí),正向最大匹配算法和逆向最大匹配法是詞典分詞法經(jīng)常用到的算法,從左側(cè)開(kāi)始依次讀入數(shù)據(jù),嘗試把幾個(gè)連續(xù)出現(xiàn)的字符與詞庫(kù)中存在的詞條進(jìn)行匹配,如果成功,就可以分出一個(gè)詞條,這是正向,而逆向是從文本的末端開(kāi)始,每次都取最末

5、端連續(xù)出現(xiàn)的幾個(gè)字符進(jìn)行匹配,如果匹配失敗,那么加入該字段最前面的一個(gè)字,繼續(xù)進(jìn)行匹配Error! Reference source not found.。當(dāng)文本比較復(fù)雜,需要比較精確的分詞的時(shí)候,就要用多種方式對(duì)文本進(jìn)行切分,對(duì)不同方式的切分結(jié)果進(jìn)行比對(duì),相同的切分結(jié)果得到的詞語(yǔ)就是真正需要的詞。3.2詞頻統(tǒng)計(jì)與數(shù)據(jù)降維 上文中我們提到了要用到每個(gè)詞條的出現(xiàn)的次數(shù),那么就需要進(jìn)行詞頻統(tǒng)計(jì),也就是詞條頻率,用來(lái)評(píng)價(jià)一個(gè)詞對(duì)于一段文本的重要性。 在信息領(lǐng)域,基于匹配的詞頻統(tǒng)計(jì)算法和基于樹(shù)結(jié)構(gòu)的詞頻統(tǒng)計(jì)算法是最為經(jīng)典也是最被認(rèn)可的詞頻統(tǒng)計(jì)方法,被廣泛使用。 在單關(guān)鍵詞

6、匹配算法中,比較著名的有BF算法、KMP算法、BM算法等。 (1)BF算法 BF算法也被稱(chēng)為是蠻力算法,它的基本思想是:首先,A1和B1比較,如果相等,再對(duì)A2和B2進(jìn)行比較,一直到Bm為止;如果A1和B1不相等,則B右移一下,繼續(xù)進(jìn)行比較。如果存在k,1kn,且Ak+1k+m=T1m,則匹配成功,否則失敗。 (2)KMP算法 KMP算法是由高德納(Donald Ervin Knuth)和 Vaughan Pratt 在1977年合作發(fā)明的。其基本思想為:如果在匹配的進(jìn)程中,判斷Ai和Bj是否相等,如果相

7、等,那么繼續(xù)對(duì)Ai+1和Bj+1進(jìn)行判斷;如果兩者不相等,討論一下兩種情況,若j=1,向右移動(dòng),判斷Ai+1和B1相等與否,若1<j<=m,則右移j-next(j)位,檢查Ai和Bnext(j)是否匹配,重復(fù)此過(guò)程直到j(luò)=m或i=n結(jié)束。 (3)BM算法 BM算法1977年由Bob Boyer 和J Strother Moore提出,是一個(gè)字符串匹配算法。其基本思想是:設(shè)定一個(gè)位置i,將主串i起由左至右的進(jìn)行判斷,若發(fā)現(xiàn)不相等,則下次應(yīng)從主串的i + distance(si)位置開(kāi)始繼續(xù)進(jìn)行接下去的判斷

8、,即跳過(guò)distance(si)個(gè)字符而無(wú)需進(jìn)行比較。 (4)本文使用的算法基于匹配的詞頻統(tǒng)計(jì)方法,是在對(duì)待處理文本進(jìn)行多次了掃描的基礎(chǔ)上進(jìn)行的,需要付出大量的時(shí)間和空間代價(jià),尤其在文本數(shù)據(jù)量較大時(shí),則更難以實(shí)現(xiàn)。針對(duì)這個(gè)難點(diǎn),提出了基于樹(shù)結(jié)構(gòu)的算法來(lái)對(duì)詞條進(jìn)行統(tǒng)計(jì)。其基本思想是:首先根據(jù)已有的關(guān)鍵詞集合構(gòu)建一棵查找樹(shù),然后利用這個(gè)查找樹(shù)對(duì)文檔進(jìn)行掃描,從而進(jìn)行關(guān)鍵詞的統(tǒng)計(jì)。利用樹(shù)形結(jié)構(gòu)的好處是,在統(tǒng)計(jì)時(shí),對(duì)文本進(jìn)行一次掃描就可以完成一個(gè)詞與查找樹(shù)的比較,進(jìn)而可統(tǒng)計(jì)出所有的詞條信息。利用樹(shù)形結(jié)構(gòu)大大減少了不必要的匹配過(guò)程,提高了統(tǒng)計(jì)效率。本系統(tǒng)在借助HashMap的基礎(chǔ)上進(jìn)行詞條的頻

9、率統(tǒng)計(jì),這種方式相對(duì)更加簡(jiǎn)單明了,易于理解和使用。其基本思想是:利用HashMap,把關(guān)鍵字設(shè)置成詞條,其value等于該詞條出現(xiàn)的次數(shù)。對(duì)已經(jīng)分詞完畢的文本逐個(gè)詞條地進(jìn)行分析,先進(jìn)行判斷,如果該詞條不存在于HashMap,那么就將該詞條加入其中,并將其value設(shè)置為1;如果詞條已經(jīng)存在于HashMap,就將該詞條的value加1,進(jìn)行一個(gè)算法復(fù)雜度為O(n)的操作之后,就可以將整個(gè)文本的詞頻統(tǒng)計(jì)出來(lái)。具體算法如算法1所示。算法1 詞頻統(tǒng)計(jì)算法輸入: 文本分詞結(jié)果的list  HashMap hm=new HashMap();/初始化一個(gè)HashMapwhile(list

10、中仍有未處理詞條)if(詞條有效)then if(本詞條不存在于hm) then 相應(yīng)value=1;else if(本詞條存在于hm) then 相應(yīng)value+1;elsecontinue;rerurn;利用HashMap進(jìn)行詞頻統(tǒng)計(jì)雖然很有效,但是也有弊端,那就是它最終的結(jié)果是無(wú)序的,而且當(dāng)對(duì)兩個(gè)文本進(jìn)行利用HashMap的方法進(jìn)行詞頻統(tǒng)計(jì)之后,很難保證兩個(gè)文本同一詞條在HashMap的位置是一樣的。如果同一詞條所對(duì)應(yīng)的詞頻不能出現(xiàn)在最終兩個(gè)向量的同一個(gè)維度,那么接下去的計(jì)算必然是無(wú)效的。所以在第二個(gè)文本進(jìn)行填充HashMap之后就要進(jìn)行一定的操作處理,最終使得兩個(gè)向量相同的詞條的詞頻出

11、現(xiàn)在相同的維度。因此,設(shè)計(jì)了算法對(duì)此進(jìn)行實(shí)現(xiàn),其基本思想是:設(shè)置兩個(gè)數(shù)組和兩個(gè)迭代器,兩個(gè)數(shù)組用來(lái)最終存儲(chǔ)兩個(gè)向量的值,分別進(jìn)行迭代操作判斷出現(xiàn)順序完成統(tǒng)計(jì)。首先,用第一個(gè)迭代器對(duì)第一個(gè)HashMap進(jìn)行遍歷,將對(duì)應(yīng)關(guān)鍵字的鍵值從數(shù)組第一個(gè)位置起往后存儲(chǔ)。與此同時(shí),遍歷每一個(gè)關(guān)鍵字之后,對(duì)這個(gè)關(guān)鍵字在第二個(gè)HashMap中是否存在進(jìn)行判斷:如果存在,這說(shuō)明兩個(gè)文本中都存在這個(gè)詞條;如果不存在,這說(shuō)明這個(gè)詞條只在第一個(gè)文本中出現(xiàn)。判斷可知該算法的時(shí)間復(fù)雜度為O(n)。接下來(lái)要對(duì)利用第二個(gè)迭代器遍歷第二個(gè)HashMap,這時(shí)候只需要對(duì)詞條只出現(xiàn)在第二個(gè)文本的情況進(jìn)行統(tǒng)計(jì)。對(duì)應(yīng)的條件就是判斷該關(guān)鍵字

12、的鍵值在第一個(gè)HashMap中是否為空,是的話(huà)那就說(shuō)明這個(gè)詞條的頻率需要統(tǒng)計(jì)。由此一來(lái),既可以將所有出現(xiàn)在兩個(gè)文本中的詞條進(jìn)行統(tǒng)計(jì)并在最終的向量數(shù)組中存儲(chǔ),又可以使得兩個(gè)向量保證以相同的詞條順序存儲(chǔ),那么接下來(lái)的計(jì)算就是準(zhǔn)確的。具體算法如算法2所示。算法2 向量生成算法輸入:存儲(chǔ)詞頻統(tǒng)計(jì)結(jié)果的HashMap,hm1和hm2。輸出:存儲(chǔ)向量的vector1,vector。Integer vector1;Integer vector2;/ 初始化兩個(gè)數(shù)組Iterator iterator1 = hm1.keySet().iterator();/初始化兩個(gè)iterator Iterator iter

13、ator2 = hm2.keySet().iterator();while(iterator1.hasNext()不為空)vector1i=hm1.get(iterator.next();if(該關(guān)鍵字不存在于hm2) then buff2i = 0;else buff2i = hm2.get(iterator.next();while(iterator1.hasNext()不為空)if(該關(guān)鍵字不存在于hm1)then buff2i= hm2.get(iterator.next();buff1i=0;else break;return;如果數(shù)據(jù)的維度過(guò)大,無(wú)疑會(huì)大大增加程序的運(yùn)行時(shí)間,所以詞

14、頻統(tǒng)計(jì)中數(shù)據(jù)降維是一個(gè)重要因素,想要提高效率必須要進(jìn)行合適的降維操作。當(dāng)文本中的詞條的數(shù)量很多,又有很多的標(biāo)點(diǎn)符號(hào)時(shí),都會(huì)增加向量的維度,提高了計(jì)算的復(fù)雜程度。為了提高計(jì)算的效率,需要進(jìn)行適當(dāng)?shù)慕档拖蛄烤S度的操作,去除一些無(wú)關(guān)緊要的詞語(yǔ)、標(biāo)點(diǎn)等,減少向量的維度。這樣既可以有效的提高效率,又可以提高算法的精度。 本系統(tǒng)在處理這個(gè)問(wèn)題時(shí),是在進(jìn)行HashMap填充之前,利用分詞結(jié)果剔除一些標(biāo)點(diǎn)、空格、一般常用語(yǔ)等對(duì)于相似度匹配來(lái)說(shuō)的干擾項(xiàng)。這樣可以進(jìn)行簡(jiǎn)單地去除那些對(duì)文本相似度產(chǎn)生精確度影響的詞條,也就是說(shuō),在把詞條加入HashMap時(shí),會(huì)先進(jìn)行簡(jiǎn)單地判斷該詞條是否為對(duì)相似度判斷無(wú)效的詞

15、條,只有有用詞條會(huì)被添加到HashMap中,否則就直接跳過(guò),繼續(xù)判斷下一詞條。3.3相似度計(jì)算VSM模型(VSM:Vector Space Model)即向量空間模型,由索頓等人于20世紀(jì)70年代提出,并成功地應(yīng)用于著名的SMART文本檢索系統(tǒng)Error! Reference source not found.。向量空間模型的基本思想是:用特征向量來(lái)表示原來(lái)的文本,這樣抽象的文本相似度計(jì)算問(wèn)題就轉(zhuǎn)化成了可見(jiàn)的為空間向量之間的運(yùn)算,由此大大降低了問(wèn)題的復(fù)雜性,而其可行性也大為提升。它首先按照分詞技術(shù)得到的分詞結(jié)果,把原來(lái)的文本映射為一個(gè)n維的空間向量,文本的相似度就可以通過(guò)計(jì)算兩段文本對(duì)應(yīng)的向量

16、的余弦值來(lái)確定,利用了空間里向量的相近程度解決了文本之間的的相似性問(wèn)題,簡(jiǎn)單易懂。對(duì)于計(jì)算機(jī)來(lái)說(shuō),模糊的文本數(shù)據(jù)在經(jīng)過(guò)向量空間模型的處理之后,轉(zhuǎn)換成了可被計(jì)算機(jī)識(shí)別處理的數(shù)據(jù),在得出兩個(gè)向量之間的相似性程度之后,兩個(gè)文本之間的相似性問(wèn)題也隨之得到解決。每一篇文本,都是由許許多多的詞條組成,文本和其中的詞條之間存在一定的關(guān)系,我們需要對(duì)這個(gè)關(guān)系進(jìn)行一個(gè)研究。我們可以把一段文本看成一個(gè)向量D(value1,value2,valuen),其中value1,value2是對(duì)應(yīng)于組成這個(gè)文本的某個(gè)詞條的一個(gè)值,在下文中會(huì)對(duì)這個(gè)值進(jìn)行進(jìn)一步的說(shuō)明。這樣,假設(shè)有在文本1中出現(xiàn)了3個(gè)詞語(yǔ)a、b、c,在文本2中

17、出現(xiàn)了3個(gè)詞語(yǔ)a,c,d,我們要比較文本1和文本2的相似度,那么我們選擇兩者并集所包含的詞語(yǔ)數(shù)量作為兩個(gè)文本的向量的維度數(shù),也就是4維,那么接下來(lái)就是對(duì)每一維的值進(jìn)行確定,我們使用TFIDF作為這個(gè)值,它的理論思想是這樣的:一個(gè)在某個(gè)文本中多次出現(xiàn)而在其他文本中很少的詞條對(duì)不同文本的區(qū)分具有很強(qiáng)的意義,根據(jù)這樣的詞語(yǔ)對(duì)文本進(jìn)行分類(lèi)處理可以得到很可靠的效果。那么首先讓我們了解兩個(gè)概念:詞頻 (term frequency, TF) 指的是某一個(gè)給定的詞語(yǔ)在該文件中出現(xiàn)的次數(shù)Error! Reference source not found.。在下面的算式中 ni,j 

18、;是該詞條的使用次數(shù),文本中全部詞條的出現(xiàn)次數(shù)的和作為分母。其計(jì)算如式(1)所示。 (1)逆向文件頻率(inverse document frequency,IDF)是一個(gè)詞語(yǔ)普遍重要性的度量。如果詞條t在所有文本中出現(xiàn)次數(shù)越少,基數(shù)就會(huì)越小,IDF的值就越大,這就意味著t可以對(duì)不同文本進(jìn)行很明顯的區(qū)分。IDF可以由式(2)獲得,其中,|D|:所匹配的庫(kù)中的文本總數(shù),:包含詞語(yǔ)ti的文本數(shù)。 (2)上文中提到了文本所對(duì)應(yīng)的向量有很多個(gè)維數(shù),我們現(xiàn)在要給每個(gè)維的值進(jìn)行賦值,也就是最后我們得到的TFIDF如式(3)所示: (3) 假設(shè)上文中,idf均為1,文本1詞條a出現(xiàn)的頻率為0.4,b出現(xiàn)的頻

19、率為0.3,c出現(xiàn)的頻率為0.3,文本2詞條a出現(xiàn)的頻率為0.6,c出現(xiàn)的頻率為0.2,d出現(xiàn)的頻率為0.2,按照相同詞條的頻率出現(xiàn)在向量的相同維度,由此可以得,兩個(gè)文本向量為(0.4,0.3,0.3,0)和(0.6,0,0.2,0.2),再按照下文中的相似度計(jì)算方法計(jì)算相似度。首先把兩段文本處理成為對(duì)應(yīng)的兩個(gè)向量,基于向量空間模型的理論,兩段文本之間的相似度就可以認(rèn)為是該文本所對(duì)應(yīng)的向量在空間上的接近程度,也就是向量之間的夾角,夾角越大那就越不接近反之就越接近。我們對(duì)兩個(gè)向量的余弦值進(jìn)行計(jì)算,根據(jù)余弦值的大小來(lái)得出兩段文本的相似程度,按照式(4)就可以得出最終的sim值。 

20、9;åå= (4)其中,T1、T2代表待比較的兩個(gè)文本對(duì)應(yīng)的向量,其中的i表示向量的第i維,n用來(lái)表示向量的維數(shù)。兩個(gè)向量的余弦值是一個(gè)大于等于0小于等于1的數(shù),如果向量一致余弦值就是1,如果向量正交就是0,這一點(diǎn)也符合相似度必然屬于0到1這個(gè)區(qū)間的特性,0代表完全不同,1代表完全相同。由此我們就可以通過(guò)這個(gè)sim的值來(lái)對(duì)兩短文本的相似度進(jìn)行判斷。4 算法測(cè)試與評(píng)估我們選取病歷這一特定文本進(jìn)行測(cè)試,醫(yī)生在進(jìn)行病理管理的過(guò)程中,需要進(jìn)行相似病歷查找的時(shí)候,更為準(zhǔn)確的方式是利用患者的主訴和初步診斷結(jié)果在病歷庫(kù)中進(jìn)行搜索,查找出最為相近的病歷供醫(yī)生參考使用。為測(cè)試算法的實(shí)用性和準(zhǔn)

21、確性,選取了以患者主訴和初步診斷為基本內(nèi)容的測(cè)試文本作為實(shí)驗(yàn)數(shù)據(jù)進(jìn)行了實(shí)驗(yàn),并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析。Text作為實(shí)驗(yàn)文本,Text1至Text5為測(cè)試文本分別與其進(jìn)行相似度檢測(cè)。分詞前后結(jié)果分別如表4-1和表4-2所示。表4-1文本內(nèi)容文本內(nèi)容Text咳嗽已有半月多,加重時(shí)發(fā)熱伴有胸悶,呼吸困難,不能正常入睡,初步診斷為急性支氣管肺炎,若藥物治療效果不明顯建議盡快到醫(yī)院進(jìn)行手術(shù)治療。Text1在檢查前2小時(shí),我在行走時(shí)不慎被摩托車(chē)撞倒,局部皮膚青紫,皮膚無(wú)破損,明確外傷史致腰部、右大腿疼痛,初步診斷為腰骶部軟組織挫傷 右大腿軟組織挫傷。Text2畏寒、發(fā)熱伴咳嗽、咳痰多天,時(shí)常會(huì)呼吸困難,初步診

22、斷為右中、下肺肺炎,急性氣管-支氣管炎,建議盡快接受治療Text3我十余天前無(wú)誘因下出現(xiàn)左上腹部陣發(fā)性隱痛,進(jìn)食后疼痛加劇,按壓后稍有緩解,初步診斷為胃癌伴幽門(mén)梗阻,建議盡快到醫(yī)院就診。Text4孩子由于受涼咳嗽三天,發(fā)熱兩天,有痰很難咳出,初步診斷為支氣管肺炎、佝僂病,建議盡快到醫(yī)院確診。Text5陣發(fā)性心前區(qū)疼痛,不適1年,加重3天,持續(xù)時(shí)間幾分鐘,伴有咳嗽,服藥后癥狀無(wú)緩解,初步診斷為冠心病。表4-2分詞結(jié)果分詞結(jié)果Text咳嗽/v, 、/w, 咳/e, 痰/n, 已/d, 有/v, 半月/m, 多/m, ,/w, 加重/v, 時(shí)/ng, 發(fā)熱/v, 伴/v, 有/v, 胸/ng, 悶/

23、v, ,/w, 呼吸/v, 困難/an, ,/w, 不能/v, 正常/a, 入睡/v, ,/w, 初步/d, 診斷/v, 為/p, 急性/b, 支氣管/n, 肺炎/n, ,/w, 若/c, 藥物/n, 治療/v, 效果/n, 不/d, 明顯/a, 建議/n, 盡快/d, 到/v, 醫(yī)院/n, 進(jìn)行/v, 手術(shù)/v, 治療/v, 。/wText1在/p, 檢查/vn, 前/f, 2/m, 小時(shí)/n, ,/w, 我/r, 在/p, 行走/v, 時(shí)/ng, 不慎/d, 被/p, 摩托車(chē)/n, 撞/v, 倒/v, ,/w, 局部/n, 皮膚/n, 青/a, 紫/a, ,/w, 皮膚/n, 無(wú)/v, 破

24、損/v, ,/w, 明確/ad, 外傷/n, 史/ng, 致/v, 腰部/n, 、/w, 右/f, 大腿/n, 疼痛/an, ,/w, 初步/d, 診斷/v, 為/p, 腰/n, 骶, 部/q, 軟組織/n, 挫傷/v, /nr, 右/f, 大腿/n, 軟組織/n, 挫傷/v, 。/wText2畏/vg, 寒/ag, 、/w, 發(fā)熱/v, 伴/v, 咳嗽/v, 、/w, 咳/e, 痰/n, 多天/m, ,/w, 時(shí)常/d, 會(huì)/v, 呼吸/v, 困難/an, ,/w, 初步/d, 診斷/v, 為/p, 右/f, 中/f, 、/w, 下/f, 肺/n, 肺炎/n, ,/w, 急性/b, 氣管/n

25、, -, 支氣管炎/n, ,/w, 建議/n, 盡快/d, 接受/v, 治療/v, 。/wText3我/r, 十余天/m, 前/f, 無(wú)/v, 誘因/n, 下/f, 出現(xiàn)/v, 左上/f, 腹部/n, 陣/ng, 發(fā)/v, 性/ng, 隱痛/n, ,/w, 進(jìn)食/v, 后/f, 疼痛/an, 加劇/v, ,/w, 按壓/v, 后/f, 稍/d, 有/v, 緩解/v, ,/w, 初步/d, 診斷/v, 為/p, 胃癌/n, 伴/v, 幽門(mén)/n, 梗阻/v, ,/w, 建議/n, 盡快/d, 到/v, 醫(yī)院/n, 就診/v, 。/wText4孩子/n, 由于/c, 受涼/v, 咳嗽/v, 三天/m

26、, ,/w, 發(fā)熱/v, 兩天/m, ,/w, 有/v, 痰/n, 很/d, 難/a, 咳/e, 出/v, ,/w, 初步/d, 診斷/v, 為/p, 支氣管/n, 肺炎/n, 、/w, 佝僂病/n, ,/w, 建議/n, 盡快/d, 到/v, 醫(yī)院/n, 確診/v, 。/wText5陣/ng, 發(fā)/v, 性/ng, 心/n, 前/f, 區(qū)/n, 疼痛/an, ,/w, 不適/a, 1年/m, ,/w, 加重/v, 3天/m, ,/w, 持續(xù)/vd, 時(shí)間/n, 幾分鐘/m, ,/w, 伴/v, 有/v, 咳嗽/v, ,/w, 服/v, 藥/n, 后/f, 癥狀/n, 無(wú)/v, 緩解/v, ,/w, 初步/d, 診斷/v, 為/p, 冠心病/n, 。/w由于不同文本之間詞條數(shù)量的差異,無(wú)法統(tǒng)一進(jìn)行向量的生成,需要逐一地將測(cè)試文本同實(shí)驗(yàn)文本進(jìn)行相似度計(jì)算的處理。在進(jìn)行數(shù)據(jù)降維,除去標(biāo)點(diǎn)符號(hào)之后進(jìn)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論