




已閱讀5頁,還剩7頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
信息檢索復(fù)習(xí)要點(diǎn)2010第一講 網(wǎng)頁采集1. 網(wǎng)頁采集器的基本原理簡答題網(wǎng)頁采集器一般稱為“網(wǎng)路蜘蛛”,也叫網(wǎng)頁機(jī)器人。網(wǎng)絡(luò)蜘蛛把互聯(lián)網(wǎng)比喻成一個蜘蛛網(wǎng),那么網(wǎng)絡(luò)蜘蛛就是在網(wǎng)上爬來爬去的蜘蛛。網(wǎng)絡(luò)蜘蛛是通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁,從一個網(wǎng)頁開始,讀取網(wǎng)頁的內(nèi)容,保存下來,找到在網(wǎng)頁中的鏈接地址,然后通過這些鏈接地址尋找下一個網(wǎng)頁,這樣一直循環(huán)下去。2. 網(wǎng)頁采集器的設(shè)計綜合題3. 網(wǎng)絡(luò)運(yùn)營者對網(wǎng)頁采集器的態(tài)度是什么?簡答題網(wǎng)站數(shù)據(jù)被網(wǎng)頁采集器采集后,進(jìn)入搜索引擎數(shù)據(jù)庫,可擴(kuò)大網(wǎng)站訪問量、提高網(wǎng)站知名度。因此,網(wǎng)站運(yùn)營者歡迎網(wǎng)頁采集器,并為其提供便利。網(wǎng)頁采集器需要大量抓取網(wǎng)頁,不同于一般的訪問,如果控制不好,則會引起網(wǎng)站服務(wù)器負(fù)擔(dān)過重。因此,網(wǎng)站運(yùn)營者希望網(wǎng)頁采集器不要影響網(wǎng)站的正常運(yùn)轉(zhuǎn),并通過各種方法于網(wǎng)頁采集器進(jìn)行交流,規(guī)范網(wǎng)頁采集器的行為。第二講 分析處理4. 網(wǎng)頁分析處理的必要性簡答題答:分析處理幫助得到更加準(zhǔn)確的查詢結(jié)果,重復(fù)的利用時間和資源。5. 分詞歧義的處理方法簡答題目前,對漢語分詞方法的研究主要有三個方面:1) 基于規(guī)則的分詞方法:這種方法又叫做機(jī)械分詞方法,它是按照一定的策略將待分析的漢字串與一個“充分大”的機(jī)器詞典中的詞條進(jìn)行匹配,若在詞典中找到某個字符串,則匹配成功(識別出一個詞)。常用的方法:最小匹配算法,正向(逆向)最大匹配法,逐字匹配算法,神經(jīng)網(wǎng)絡(luò)法、聯(lián)想一回塑法,基于 N-最短路徑分詞算法,以及可以相互組合。例如,可以將正向最大匹配方法和逆向最大匹配方法結(jié)合起來構(gòu)成雙向匹配法等。目前機(jī)械式分詞占主流地位的是正向最大匹配法和逆向最大匹配法。2) 基于統(tǒng)計的分詞方法:基于統(tǒng)計的方法是基于(兩個或多個)漢字同時出現(xiàn)的概率,通過對語料庫(經(jīng)過處理的大量領(lǐng)域文本的集合)中的文本進(jìn)行有監(jiān)督或無監(jiān)督的學(xué)習(xí)??梢垣@取該類文本的某些整體特征或規(guī)律。如果能夠充分地利用這些統(tǒng)計現(xiàn)象、規(guī)律。就可以構(gòu)造基于語料庫的統(tǒng)計學(xué)信息抽取算法統(tǒng)計的分析方法多種多樣。近來研究的熱點(diǎn)主要集中于由隨機(jī)過程發(fā)展而來的理論和方法,其中最重要的是應(yīng)用隱馬爾科夫模型(HMM)進(jìn)行自然語言處理的方法。隱馬爾科夫模型在語音識別領(lǐng)域已經(jīng)取得很好的成效,在信息抽取領(lǐng)域的應(yīng)用也正在不斷的嘗試和推廣中。3) 基于理解的分詞方法:又稱之為知識分詞。知識分詞是一種理想的分詞方法,但這類分詞方案的算法復(fù)雜度高,其有效性與可行性尚需在實(shí)際工作中得到進(jìn)一步的驗證。知識分詞利用有關(guān)詞、句子等的句法和語義信息或者從大量語料中找出漢字組詞的結(jié)合特點(diǎn)來進(jìn)行評價,以期找到最貼近于原句語義的分詞結(jié)果。6. 分詞軟件的設(shè)計綜合題1) 分詞是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程,中文分詞與 其他分詞不同,比如:英文中單詞之間是以空格作為自然分界符;中文只是字、句、段有明顯的分界符;詞沒有一個形式上分界符;從字串到詞串,是一個降低不確定性的過程。2) 利用找到歧義字段、建立歧義字段庫解決分詞歧義問題。3) 利用正向最大匹配法(流程圖)、逆向最大匹配法(流程圖)及最大概率分詞法進(jìn)行分詞。l 正向最大匹配法(流程圖 見 PPT)l 逆向最大匹配法:1) 將文章分成句子(通過標(biāo)點(diǎn)符號來實(shí)現(xiàn));2) 循環(huán)的讀入每一個句子S,設(shè)句子中的字?jǐn)?shù)為n;3) 設(shè)置一個最大詞長度,就是我們要截取的詞的最大長度 max4) 從句子中取n-max 到 n 的字符串 subword,去字典中查找是否有這個詞。如果有就走(5),沒有就走(6);5) 記住 subword,從 n-max 付值給 n,繼續(xù)執(zhí)行(4),直到 n=0.6) 將 max-1,再執(zhí)行(4)。l 最大概率分詞法:列出可能的拆分結(jié)果,查表,結(jié)果大的,為最終結(jié)果?;炯?xì)想:1) 一個待切分的漢字串可能包含多種分詞結(jié)果2) 將其中概率最大的那個作為該字串的分詞結(jié)果分詞算法:1) 對一個待分詞的字串 S,按照從左到右的順序取出全部候選詞w1, w2 , ,wi, , wn ;2) 到詞典中查出每個候選詞 的概率值P(wi) ,并記錄每個候選詞的全部左鄰詞;3) 按照公式1計算每個候選詞的累計概率,同時比較得到每個候選詞的最佳左鄰詞;4) 如果當(dāng)前詞wn是字串S的尾詞,且累計概率P (wn)最大,則wn 就是S的終點(diǎn)詞;5) 從wn開始,按照從右到左順序,依次將每個詞的最佳左鄰詞輸出,即為S的分詞結(jié)果。7. 計算準(zhǔn)確率、召回率和F值計算題答:準(zhǔn)確率 P(Precision):結(jié)果中的正確樣例數(shù)與結(jié)果中全部樣例總數(shù)的比值。 召回率 R(Recall):結(jié)果中的正確樣例數(shù)與實(shí)際存在的正確樣例數(shù)的比值。 F 值:準(zhǔn)確率和召回率的加權(quán)平均,一般用 F1。 (注意:讓求的是 F1 還是 F 其它,然后帶入相應(yīng)的值值。)舉例:用戶利用某信息檢索系統(tǒng)在資料庫中檢索與和服相關(guān)的文章。系統(tǒng)返回給用戶篇文章:日本和服簡介、和服的穿著方法、在日本試穿和服、新款和服特價銷售、青島東和服裝廠簡介。已知資料庫中共有篇文章,其中有篇與和服有關(guān)的。請計算此次檢索的準(zhǔn)確率、召回率和F1值。答:結(jié)果中正確的樣例數(shù)為:4結(jié)果集中的總樣例數(shù)為:5P 準(zhǔn)確率 = 4/5*100%=80%實(shí)際存在的正確的樣例數(shù)為 8R 召回率 = 4/8*100%=50%F1=(2*80%*50%)/(80%+50%)=(2*4/5*1/2)/(4/5+1/2)=(4/5)/(13/10)=8/13第三講 信息檢索模型8. 信息檢索系統(tǒng)的基本模式簡答題從互聯(lián)網(wǎng)上進(jìn)行網(wǎng)頁采集,然后將采集上來的網(wǎng)頁進(jìn)行分析處理,建立索引庫,用戶的查詢與索引匹配,返回檢索結(jié)果給用戶。(最好將 PPT 上的圖畫出來,然后再詳細(xì)解釋)9. 布爾模型的原理簡答題1) 布爾模型信息檢索模型是最簡單的信息檢索模型,是基于集合理論和布爾代數(shù)的一種簡單的檢索模型。2) 文獻(xiàn)表示為不帶權(quán)重的標(biāo)引詞的集合。3) 查詢表示為標(biāo)引詞的布爾表達(dá)式,用邏輯符“and”、“or”、“not”來組織關(guān)鍵詞表達(dá)式。4) 聯(lián)系機(jī)制為:布爾表達(dá)式轉(zhuǎn)換為集合表達(dá)式,即布爾算子and 、or、not替換為交、并、補(bǔ)。5) 在結(jié)果集合里的文本是相關(guān)的,其他是不相關(guān)的。10. 利用布爾模型(集合論)的搜索引擎的實(shí)現(xiàn)綜合題布爾模型信息檢索模型是最簡單的信息檢索模型,是基于集合理論和布爾代數(shù)的一種簡單的檢索模型。文獻(xiàn)表示為不帶權(quán)重的標(biāo)引詞的集合;查詢表示為標(biāo)引詞的布爾表達(dá)式,用邏輯符“and”、“or”、“not”來組織關(guān)鍵詞表達(dá)式。聯(lián)系機(jī)制為:布爾表達(dá)式轉(zhuǎn)換為集合表達(dá)式,即布爾算子and 、or、not替換為交、并、補(bǔ)。在結(jié)果集合里的文本是相關(guān)的,其他是不相關(guān)的D(文獻(xiàn)表示)表示為不帶權(quán)重的標(biāo)引詞的集合,或者說,二值的標(biāo)引詞權(quán)重 wi,j=0 或者 wi,j=1Q(查詢)表示為標(biāo)引詞的布爾表達(dá)式用 and、or、not 連接標(biāo)引詞構(gòu)成查詢F(聯(lián)系機(jī)制)布爾表達(dá)式轉(zhuǎn)換為集合表達(dá)式布爾算字 and、or、not 替換交、并、補(bǔ)R(排序)對于每個標(biāo)引詞ki,得到一個文本的集合 Dki=dj|wi,j 在結(jié)果集合里的文本是相關(guān)的,其他是不相關(guān)的。11. 向量空間模型的原理簡答題將文獻(xiàn)表示為帶權(quán)重的標(biāo)引詞的集合,權(quán)重表示該索引詞與該文本的相關(guān)程度。將用戶的查詢也表示為帶權(quán)重的標(biāo)引詞的集合,權(quán)重表示標(biāo)引詞與用戶需求的相關(guān)程度。將文本與用戶的查詢的相似度轉(zhuǎn)化為向量(t 維空間的向量)之間的計算,可以采用向量內(nèi)積或向量夾角余弦方式進(jìn)行計算。查詢被當(dāng)作為假想的文本。1) 向量模型用檢索項的向量空間來表示用戶的查詢要求和數(shù)據(jù)庫文檔信息。查詢結(jié)果是根據(jù)向量空間的相似性而排列的。2) 向量空間模型可方便地產(chǎn)生有效的查詢結(jié)果,能提供相關(guān)文檔的文摘,并對查詢結(jié)果進(jìn)行分類,為用戶提供準(zhǔn)確的信息。3) 向量空間模型的基本思想是以向量來表示文本:(W1,W2,W3Wn),其中 Wi 為第 i 個特征項的權(quán)重,那么選取什么作為特征項呢,一般可以選擇字、詞或詞組。4) 要將文本表示為向量空間中的一個向量,就首先要將文本分詞,由這些詞作為向量的維數(shù)來表示文本。12. 計算用向量表示的網(wǎng)頁的相似度計算題注意:權(quán)值的值實(shí)際上是由 tf*Idf 算出來的,如果題目中未給出相應(yīng)的值,則可以通過tf*Idf 算出來,具體算法見13題。13. 計算特征項權(quán)重(tf*idf方法)計算題公式: tf*log(N/df)其中 n 為文獻(xiàn)的個數(shù);tf 為該詞在當(dāng)前文獻(xiàn)中出現(xiàn)的次數(shù);df 為出現(xiàn)該詞的文獻(xiàn)的個數(shù)。例題詳見 PPT 3 建模 P32。14. 利用向量空間模型的搜索引擎的實(shí)現(xiàn)綜合題1) 概念、定義及用戶需求:向量空間模型是基于線性代數(shù)的一種信息檢索模型,它用檢查項的向量空間來表示用戶的查詢要求和數(shù)據(jù)庫文檔信息,查詢結(jié)果是根據(jù)向量空間的相似性而排列的。向量空間模型可方便地產(chǎn)生有效的查詢結(jié)果,能提供相關(guān)文檔的文摘,并對查詢結(jié)果進(jìn)行分類,為用戶提供準(zhǔn)確的信息。2) 基本思想、算法和數(shù)學(xué)推導(dǎo)向量空間模型的基本思想是以向量來表示文本:(W1,W2,W3Wn),其中 Wi 為第 i 個特征項的權(quán)重,那么選取什么作為特征項呢,一般可以選擇字、詞或詞組。要將文本表示為向量空間中的一個向量,就首先要將文本分詞,由這些詞作為向量的維數(shù)來表示文本。D(文獻(xiàn)表示)文本表示為帶權(quán)重的標(biāo)引詞的集合,dj=w1,j, w2,j, , wt,j權(quán)重表示該標(biāo)引詞與該文本的相關(guān)程度Q(查詢)查詢也表示為帶權(quán)重的標(biāo)引詞的集合, q=w1,q, w2,q, , wt,q權(quán)重表示標(biāo)引詞與用戶需求的相關(guān)程度F(聯(lián)系機(jī)制)文本和查詢有同樣的表示( t維空間的向量)查詢被當(dāng)作為假想的文本R(排序)用向量夾角的余弦計算dj和q的相似度可能遇到的技術(shù)難點(diǎn)有兩個方面:特征項權(quán)重、降維3) 可能遇到的技術(shù)難點(diǎn):特征項權(quán)重、降維索引過程首先要從文獻(xiàn)中抽取重要詞,把它們映射到特征項集中,進(jìn)行權(quán)重計算。由于文獻(xiàn)中不同詞匯的出現(xiàn)頻率隨文章的內(nèi)容和作者的習(xí)慣而不同,因此,最初的索引系統(tǒng)都是從應(yīng)用詞頻開始的。實(shí)際應(yīng)用中顯得有些粗糙,比如:為什么中頻詞好?兩個閾值怎么選?。康鹊?,但是,這些思想為信息檢索系統(tǒng)中項的選取奠定了基礎(chǔ)。4) 改良方案簡單地把所有的詞匯都作為文獻(xiàn)的特征項,檢索效果并不很好,不同的詞匯對文獻(xiàn)的表示作用不同。一般說來,常用詞在所有文獻(xiàn)中都有著較高的頻率,區(qū)分度低;罕用詞在文獻(xiàn)集中的出現(xiàn)次數(shù)較少,難以確定它們的統(tǒng)計規(guī)律,相關(guān)度低;而中等頻率的詞匯常常與文獻(xiàn)所表示的主題相關(guān),區(qū)分度較高,表示能力最強(qiáng),最有價值。有價值的特征項應(yīng)具備以下特征:相關(guān)度(與文獻(xiàn)內(nèi)容有關(guān),以便在需要時進(jìn)行索引項的檢索)區(qū)分度(能將一篇文獻(xiàn)與其它文獻(xiàn)區(qū)分開),通過項頻率tf(文獻(xiàn)內(nèi)頻率)和反比文獻(xiàn)頻率idf(inverse document frequency)來度量特征項的價值。5) 用向量空間構(gòu)造的搜索引擎的應(yīng)用的展望:第四講 跨語言信息檢索15. 跨語言信息檢索的原理簡答題跨語言信息檢索(CLIR)是指以一種語言的提問式檢索出其它語言信息的一種檢索方法。一般認(rèn)為,跨語言信息檢索是信息檢索與機(jī)器翻譯相結(jié)合的技術(shù).跨語言信息檢索是涉及到多種新的概念,是各種技術(shù)的有機(jī)結(jié)合。一般CLIR系統(tǒng)包含以下三個步驟:(1)多語言信息的搜集以及存儲;(2)應(yīng)用NLP、機(jī)器翻譯等技術(shù)實(shí)現(xiàn)源語言與目標(biāo)語言的統(tǒng)一;(3)利用傳統(tǒng)的單語檢索技術(shù)實(shí)現(xiàn)查詢與文檔之間的匹配。其中,步驟(2)是實(shí)現(xiàn)CLIR的關(guān)鍵。根據(jù)翻譯方向的不同;當(dāng)前的跨語言檢索方法大體可以分成以下四種種方式:將源語言表示的查詢翻譯到目標(biāo)語言,即查詢翻譯方法;將目標(biāo)語言表示的文檔翻譯到源語言,即文檔翻譯方法;將查詢和文檔同時翻譯到另一中間語言,即中間語言翻譯方法。除此之外,還有基于本體的非翻譯方法16. 基于規(guī)則的機(jī)器翻譯方法的原理簡答題又稱傳統(tǒng)的翻譯方法,是基于語言規(guī)則的理性方法,,強(qiáng)調(diào)人對語言知識的理性整理?;谝?guī)則的機(jī)器翻譯方法認(rèn)為翻譯的過程是需要對源語言的分析和源語言意義的表示,然后再生成等價的目標(biāo)語言的過程。根據(jù)翻譯過程的不同,規(guī)則方法可分為兩種主要方法:基于轉(zhuǎn)換的方法的翻譯過程包括三個階段:分析得到一種源語言的抽象表示;把源語言的抽象表示轉(zhuǎn)換為目標(biāo)語言的抽象表示;由目標(biāo)語言的抽象表示生成目標(biāo)語言?;谥虚g語言的方法在對源語言分析后產(chǎn)生的是中間語言,而目標(biāo)語言的生成是直接由這種中間語言開始的。17. 基于實(shí)例的機(jī)器翻譯方法的原理簡答題基于實(shí)例的機(jī)器翻譯的本質(zhì)是“以翻譯實(shí)例為基礎(chǔ),基于相似原理的機(jī)器翻譯”,其利用的主要知識源是預(yù)處理過的雙語語料和翻譯詞典?;趯?shí)例的翻譯過程通常包括三步:在翻譯實(shí)例庫中搜索匹配片段;確定相應(yīng)的譯文片段;重新組合譯文片段以得到最終翻譯。18. 基于統(tǒng)計的機(jī)器翻譯方法的原理簡答題是目前非限定領(lǐng)域機(jī)器翻譯中性能較佳的一種方法。基本思想是通過對大量的平行語料進(jìn)行統(tǒng)計分析,構(gòu)建統(tǒng)計翻譯模型,進(jìn)而使用此模型進(jìn)行翻譯。統(tǒng)計機(jī)器翻譯的首要任務(wù)是為語言的產(chǎn)生構(gòu)造某種合理的統(tǒng)計模型,并在此統(tǒng)計模型基礎(chǔ)上,定義要估計的模型參數(shù),并設(shè)計參數(shù)估計算法。一般來說需要參考語料進(jìn)行有監(jiān)督訓(xùn)練。19. 跨語言信息檢索的應(yīng)用簡答題基于Web的搜索引擎是跨語言信息檢索的一個重要應(yīng)用領(lǐng)域,世界上主要的搜索引擎都相繼實(shí)現(xiàn)了跨語言信息檢索的功能??缯Z言信息檢索還可以應(yīng)用于數(shù)字圖書館和對專業(yè)數(shù)據(jù)庫的檢索等領(lǐng)域20. 跨語言信息檢索的原理是什么?主要技術(shù)有哪些?簡答題 跨語言信息檢索是將及其翻譯技術(shù)融入到傳統(tǒng)信息檢索中。主要有基于規(guī)則的方法、基于實(shí)例的方法和基于統(tǒng)計的方法。21. 跨語言信息檢索的構(gòu)建綜合題請仔細(xì)閱讀參考資料一種新的基于中間語義的跨語言信息檢索模型.pdf第五講 文本分類22. 文本分類的一般過程簡答題文本自動分類是指在給定的分類體系下,根據(jù)文本的內(nèi)容用計算機(jī)程序確定文本所屬類別的過程。一般采用機(jī)器學(xué)習(xí)的方法進(jìn)行自動文本分類。即:基于訓(xùn)練集的文本自動分類。文本分類的一般過程為:1. 收集訓(xùn)練集和測試集,對文本進(jìn)行預(yù)處理2. 對文本類別進(jìn)行人工標(biāo)注3. 對文本進(jìn)行特征提取4. 訓(xùn)練(學(xué)習(xí))5. 評價a) 精確率、召回率、F1宏平均(關(guān)于類別的均值),微平均(關(guān)于文本的均值)23. 文本分類的常用方法簡答題1. Rocchio方法: a) 每一類確定一個中心點(diǎn)(代表元),計算待分類的文檔與各類代表元間的距離,并作為判定是否屬于該類的判據(jù)。b) 構(gòu)造方法:給定一個類,訓(xùn)練集中所有屬于這個類的文檔對應(yīng)向量的分量用正數(shù)表示,所有不屬于這個類的文檔對應(yīng)向量的分量用負(fù)數(shù)表示,然后把所有的向量加起來,得到的和向量就是這個類的原型向量。c) 定義兩個向量的相似度為這兩個向量夾角的余弦,逐一計算訓(xùn)練集中所有文檔和原型向量的相似度,然后按一定的算法從中挑選某個相似度作為界d) 給定一篇文檔,如果這篇文檔與原型向量的相似度比界大,則這篇文檔屬于這個類,否則這篇文檔就不屬于這個類。訓(xùn)練文本 Rocchio分類2. K-Nearest Neighbor: 基本思想:在給定新文本后,考慮在訓(xùn)練文本集中與該新文本距離最近(最相似)的K 篇文本的類別做為該文檔的候選類別。該文檔與K個鄰居間的相似度按類別分別求和,減去一個預(yù)先得到的截尾閥值,就得到該文檔的類別測度。3.4. 決策樹方法: 決策樹通過把實(shí)例從根節(jié)點(diǎn)排列到某個葉子節(jié)點(diǎn)來分類實(shí)例,葉子節(jié)點(diǎn)即為實(shí)例所屬的分類。樹上的每一個節(jié)點(diǎn)說明了對實(shí)例的某個屬性的測試,并且該節(jié)點(diǎn)的每一個后繼分支對應(yīng)于該屬性的一個可能值5. 樸素貝葉斯、神經(jīng)網(wǎng)絡(luò)。24. 文本分類技術(shù)的應(yīng)用簡答題隨著科學(xué)技術(shù)的迅猛發(fā)展,特別是隨著因特網(wǎng)的快速發(fā)展,各種信息情報激增,特別是網(wǎng)上信息浩如煙海,人們可能通過因特網(wǎng)能很快地得到大量的資料,因此如何對所獲得資料進(jìn)行科學(xué)有效地管理是擺在人們面前一個不可回避而又很有意義的問題。對資料進(jìn)行管理一個很常見的方法就是對它們系統(tǒng)地進(jìn)行分類。用人工對文本材料進(jìn)行分類具有周期長、費(fèi)用高、效率低的特點(diǎn),在信息爆炸的今天很難滿足實(shí)際需要,因此運(yùn)用計算機(jī)進(jìn)行自動分類成為了人們的研究方向。文本分類技術(shù)可以應(yīng)用于以下領(lǐng)域:1. 新聞出版按照欄目分類2. 類別政治,體育,軍事,3. 網(wǎng)頁分類4. 類似于Yahoo的分類5. 個性化新聞6. 智能推薦7. 垃圾郵件過濾8. 類別spam, not-spam25. 文本分類系統(tǒng)的構(gòu)建綜合題請參考資料文本自動分類系統(tǒng)的研究與實(shí)現(xiàn).pdf第六講 自動文摘26. 自動文摘的分類簡答題自動文摘有多種分類方法注意:每種定義的解釋請參考課件,答題時可適當(dāng)對每種定義進(jìn)行解釋1) 按文摘面向的用戶:劃分通用文摘;偏重文摘。通用文摘和偏重文摘的區(qū)別在于是否考慮了用戶的興趣。通用型文摘就是面向所有用戶的、文摘內(nèi)容不帶有任何側(cè)重的、全面反映原文內(nèi)容的文摘。對于一篇長的文章,如果用戶只關(guān)心某一方面(例如工業(yè)) ,這就涉及到了偏重問題。偏重文摘也稱為用戶聚焦文摘、主題聚焦文摘或查詢聚焦文摘。根據(jù)需要或者用戶的興趣提供相應(yīng)的有側(cè)重點(diǎn)的文摘。偏重文摘的結(jié)果不僅僅決定于原文的主題,也決定于用戶的個性化要求,它能夠把焦點(diǎn)放在用戶關(guān)心的部分,而不是把原文的每個部分平等對待。2) 按文摘處理的文本對象劃分:a) 單文檔文摘:處理的對象是單篇文摘,它對每篇文章獨(dú)立生成文摘。b) 多文檔文摘:實(shí)際上是對單文檔文摘的一個擴(kuò)展,比單文檔相比較需要一些新的技術(shù)和方法來處理。3) 按文摘的制作方法劃分:a) 基于統(tǒng)計的自動文摘;b) 基于理解的自動文摘;c) 信息抽取型自動文摘;d) 基于結(jié)構(gòu)的自動文摘27. 基于統(tǒng)計的自動文摘的原理簡答題將文本視為句子的線性序列,將句子視為詞
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 公司放歌活動策劃方案
- 公司搬家宣傳策劃方案
- 公司禮物年會策劃方案
- 公司直播周年慶活動方案
- 公司秋游文體活動方案
- 公司組織掰手腕活動方案
- 財務(wù)管理在未來環(huán)境下的2025年試題及答案
- 拓展知識-滅火器的報廢要求
- 2025年信息技術(shù)基礎(chǔ)知識摩擦之知考試試卷及答案
- 2025年商業(yè)分析師職業(yè)素養(yǎng)測評試題及答案
- 小學(xué)科學(xué)實(shí)驗報告單空表
- 10kV~500kV輸變電及配電工程質(zhì)量驗收與評定標(biāo)準(zhǔn):01輸電線路工程
- 子宮內(nèi)膜癌內(nèi)分泌治療課件
- 稅務(wù)行政處罰文書(標(biāo)準(zhǔn)版)
- 第三章葡萄酒釀造2
- 每天100道語法填空題過高考英語高頻詞匯12
- 配電室巡檢記錄表
- 數(shù)字程控交換機(jī)系統(tǒng)技術(shù)規(guī)范書
- 卓越績效評價準(zhǔn)則概述(專業(yè)性權(quán)威性實(shí)用性)
- GB 1886.20-2016食品安全國家標(biāo)準(zhǔn)食品添加劑氫氧化鈉
- 國資進(jìn)場交易工作流程講座
評論
0/150
提交評論