




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第五章數(shù)字圖書(shū)館信息檢索2025/5/261第五章數(shù)字圖書(shū)館信息檢索本章內(nèi)容5.1信息檢索概述5.2基于內(nèi)容信息檢索5.3跨語(yǔ)言信息檢索5.4知識(shí)檢索2025/5/262第五章數(shù)字圖書(shū)館信息檢索5.1信息檢索概述5.1.1信息檢索概念5.1.2信息檢索模型5.1.3信息檢索的意義和作用5.1.4信息檢索發(fā)展趨勢(shì)2025/5/263第五章數(shù)字圖書(shū)館信息檢索5.1信息檢索概述5.1.1信息檢索概念就是基于信息組織形式,如字符串、結(jié)構(gòu)化數(shù)據(jù)庫(kù),應(yīng)用信息處理方法,如排序、數(shù)據(jù)查找、字符匹配,實(shí)現(xiàn)信息查找以滿足信息需求的過(guò)程,本質(zhì)上是對(duì)信息集合與需求集合的匹配與選擇。三種角度的認(rèn)識(shí):時(shí)間性通信角度的認(rèn)識(shí)、信息處理角度的認(rèn)識(shí)、文獻(xiàn)查找角度的認(rèn)識(shí)。2025/5/264第五章數(shù)字圖書(shū)館信息檢索5.1信息檢索概述5.1.2信息檢索模型布爾模型布爾模型(BooleanModels)是基于特征項(xiàng)的嚴(yán)格匹配模型,文本查詢的匹配規(guī)則遵循布爾運(yùn)算的法則。向量空間模型一般是從文本中抽取出關(guān)鍵詞,根據(jù)該詞在文本中的重要程度賦予其一定的權(quán)重,把用戶模板和待檢索文本均表示成向量空間中的向量,利用一些相似度計(jì)算方法(如夾角余弦、內(nèi)積等)計(jì)算他們的相似度。概率模型概率模型基于概率排序原理,考慮了關(guān)鍵詞、文檔之間的內(nèi)在聯(lián)系,它以貝葉斯公式為理論基礎(chǔ),利用關(guān)鍵詞之間和關(guān)鍵詞與文檔之間的概率相依性進(jìn)行信息檢索。2025/5/265第五章數(shù)字圖書(shū)館信息檢索5.1信息檢索概述5.1.3信息檢索的意義和作用(1)信息檢索是知識(shí)經(jīng)濟(jì)時(shí)代現(xiàn)代人才的基本生存技能(2)信息檢索是信息社會(huì)人才個(gè)人素質(zhì)的重要組成部分(3)信息檢索是開(kāi)發(fā)情報(bào)信息資源,提高經(jīng)濟(jì)效益的重要工具(4)信息檢索是避免重復(fù)研究,節(jié)省人力、物力和時(shí)間的必由之路(5)信息檢索是實(shí)現(xiàn)信息資源共享的重要途徑(6)信息檢索是科學(xué)研究和技術(shù)創(chuàng)新的重要組成部分2025/5/266第五章數(shù)字圖書(shū)館信息檢索5.1信息檢索概述5.1.4信息檢索發(fā)展趨勢(shì)個(gè)性化的信息檢索服務(wù)檢索交互與結(jié)果可視化跨語(yǔ)種信息檢索跨媒體信息檢索智能化信息檢索信息檢索精準(zhǔn)性2025/5/267第五章數(shù)字圖書(shū)館信息檢索5.2基于內(nèi)容信息檢索5.2.1內(nèi)容信息檢索概念5.2.2內(nèi)容信息檢索特點(diǎn)5.2.3圖像內(nèi)容信息檢索5.2.4視頻內(nèi)容信息檢索5.2.5音頻內(nèi)容信息檢索2025/5/268第五章數(shù)字圖書(shū)館信息檢索5.2基于內(nèi)容信息檢索5.2.1內(nèi)容信息檢索概念通過(guò)對(duì)信息的模式識(shí)別和分析理解,從中抽取信息的有關(guān)內(nèi)容特征并加以標(biāo)示和組織,用戶以此作為檢索的依據(jù),完成信息數(shù)據(jù)庫(kù)中存儲(chǔ)信息的匹配,從而實(shí)現(xiàn)信息的直接定位和查找。過(guò)程:①用戶提交查詢;②將查詢特征與數(shù)據(jù)庫(kù)中的特征按照一定的匹配算法進(jìn)行匹配;③滿足一定相似性的一組候選結(jié)果按相似度大小排列返回給用戶;④對(duì)系統(tǒng)返回的一組初始特征的查詢結(jié)果。2025/5/269第五章數(shù)字圖書(shū)館信息檢索5.2基于內(nèi)容信息檢索5.2.2內(nèi)容信息檢索特點(diǎn)從媒體內(nèi)容中提取信息線索基于內(nèi)容的檢索是一種近似匹配例查詢(QuerybyExample)人機(jī)交互總之,基于內(nèi)容的信息檢索,需要計(jì)算機(jī)技術(shù)、人工智能技術(shù)、數(shù)據(jù)庫(kù)技術(shù)等,它根據(jù)圖像、音頻、視頻等內(nèi)在特征進(jìn)行匹配,匹配結(jié)果是一種近似相同。2025/5/2610第五章數(shù)字圖書(shū)館信息檢索5.2基于內(nèi)容信息檢索5.2.3圖像內(nèi)容信息檢索兩個(gè)階段:基于文本的圖像檢索技術(shù)和基于內(nèi)容的圖像檢索技術(shù)。存在的問(wèn)題:①特征信息難以提??;②增加冗余信息;③檢索難度加大;④對(duì)于專(zhuān)用檢索系統(tǒng),不僅需要計(jì)算機(jī)技術(shù),而且還需要對(duì)相關(guān)專(zhuān)業(yè)十分了解。根據(jù)內(nèi)在特征匹配,如①圖像的畫(huà)面內(nèi)容特征;②圖像的主題對(duì)象特征;③圖像的著錄特征;④圖像的移動(dòng)和組合特征。2025/5/2611第五章數(shù)字圖書(shū)館信息檢索5.2基于內(nèi)容信息檢索5.2.4視頻內(nèi)容信息檢索視頻數(shù)據(jù)結(jié)構(gòu)分析鏡頭分割關(guān)鍵幀提取檢索2025/5/2612第五章數(shù)字圖書(shū)館信息檢索5.2基于內(nèi)容信息檢索5.2.5音頻內(nèi)容信息檢索語(yǔ)音檢索利用大詞匯語(yǔ)音識(shí)別技術(shù)進(jìn)行檢索基于子詞單元進(jìn)行檢索基于關(guān)鍵詞發(fā)現(xiàn)進(jìn)行檢索基于說(shuō)話人辨認(rèn)進(jìn)行分割音樂(lè)檢索基于內(nèi)容的音樂(lè)檢索是根據(jù)音樂(lè)的內(nèi)容特征來(lái)進(jìn)行檢索,也就是根據(jù)音樂(lè)的旋律、節(jié)奏等音樂(lè)特征進(jìn)行檢索音頻檢索音頻特征提取音頻分割2025/5/2613第五章數(shù)字圖書(shū)館信息檢索5.3跨語(yǔ)言信息檢索5.3.1跨語(yǔ)言信息檢索概念5.3.2跨語(yǔ)言信息檢索的模式5.3.3翻譯技術(shù)5.3.4跨語(yǔ)言信息檢索解決問(wèn)題5.3.5跨語(yǔ)言信息檢索優(yōu)化技術(shù)5.3.6跨語(yǔ)言信息檢索系統(tǒng)2025/5/2614第五章數(shù)字圖書(shū)館信息檢索5.3跨語(yǔ)言信息檢索5.3.1跨語(yǔ)言信息檢索概念跨語(yǔ)言信息檢索(CrossLanguageInformationRetrieval,CLIR),就是用戶用某種語(yǔ)言進(jìn)行查詢,檢索其他語(yǔ)言表示的文檔集的過(guò)程,也就是一種跨越語(yǔ)言界限進(jìn)行檢索的問(wèn)題。在某種程度上來(lái)說(shuō),跨語(yǔ)言信息檢索要解決的就是查詢條件和查詢文檔集之間的語(yǔ)言障礙2025/5/2615第五章數(shù)字圖書(shū)館信息檢索5.3跨語(yǔ)言信息檢索5.3.2跨語(yǔ)言信息檢索的模式查詢翻譯查詢翻譯指將提問(wèn)用語(yǔ)種轉(zhuǎn)換成文獻(xiàn)用語(yǔ)種(如將中文提問(wèn)轉(zhuǎn)換成英文提問(wèn)),然后再進(jìn)行單語(yǔ)言檢索文獻(xiàn)翻譯文獻(xiàn)翻譯指將源文獻(xiàn)語(yǔ)種轉(zhuǎn)換成提問(wèn)用的語(yǔ)種(如將英文源文獻(xiàn)轉(zhuǎn)換成中文文獻(xiàn)),即不對(duì)提問(wèn)式進(jìn)行翻譯,而是對(duì)集合中的文獻(xiàn)翻譯成與提問(wèn)用的語(yǔ)種一致的語(yǔ)言中間語(yǔ)種轉(zhuǎn)換中間語(yǔ)種轉(zhuǎn)換指將提問(wèn)和文獻(xiàn)轉(zhuǎn)換成一種邏輯形式,或者第三方語(yǔ)言2025/5/2616第五章數(shù)字圖書(shū)館信息檢索5.3跨語(yǔ)言信息檢索5.3.3翻譯技術(shù)機(jī)器翻譯技術(shù)一種方法是將用戶的查詢翻譯為與文檔相同的語(yǔ)種;另一種方法是將文檔翻譯為與查詢相同的語(yǔ)種,然后再用單語(yǔ)種的信息檢索系統(tǒng)進(jìn)行檢索基于詞典的方法基于詞典的方法主要是利用雙語(yǔ)詞典,將用戶提交的提問(wèn)式翻譯成目標(biāo)語(yǔ)種,然后進(jìn)行檢索基于語(yǔ)料庫(kù)的方法基于語(yǔ)料庫(kù)的方法從大規(guī)模的語(yǔ)料入手,從中抽取所需的信息,自動(dòng)構(gòu)建與應(yīng)用有關(guān)的翻譯技術(shù)2025/5/2617第五章數(shù)字圖書(shū)館信息檢索5.3跨語(yǔ)言信息檢索5.3.4跨語(yǔ)言信息檢索解決問(wèn)題查詢?cè)~與檢索到的文獻(xiàn)分屬不同語(yǔ)言詞的歧義和多義性查詢?cè)~的切分文獻(xiàn)的多語(yǔ)言性輸出結(jié)果的排序方式對(duì)多語(yǔ)言資源的依賴(lài)2025/5/2618第五章數(shù)字圖書(shū)館信息檢索5.3跨語(yǔ)言信息檢索5.3.4跨語(yǔ)言信息檢索解決問(wèn)題由于漢語(yǔ)的特殊性,漢英跨語(yǔ)言文獻(xiàn)檢索還面臨如下問(wèn)題:(1)中文文本之間沒(méi)有分隔符。(2)沒(méi)有較好的方法識(shí)別漢語(yǔ)中的新詞、外來(lái)詞、專(zhuān)有名詞、人名、地名和縮略語(yǔ)等語(yǔ)詞。(3)漢語(yǔ)沒(méi)有詞綴變化。(4)漢語(yǔ)句法、語(yǔ)義分析復(fù)雜。2025/5/2619第五章數(shù)字圖書(shū)館信息檢索5.3跨語(yǔ)言信息檢索5.3.5跨語(yǔ)言信息檢索優(yōu)化技術(shù)查詢擴(kuò)展查詢擴(kuò)展指的是利用計(jì)算機(jī)語(yǔ)言學(xué)、信息學(xué)等多種技術(shù),把與原查詢相關(guān)的詞語(yǔ)或者與原查詢語(yǔ)義相關(guān)聯(lián)的概念添加到原查詢,得到比原查詢更長(zhǎng)的新查詢,然后檢索文檔,以改善信息檢索的性能檢索反饋技術(shù)在跨語(yǔ)言信息檢索中,通過(guò)一次檢索往往得不到想要的結(jié)果目的文獻(xiàn),這時(shí)就需要通過(guò)檢索結(jié)果中反饋的信息對(duì)提問(wèn)式檢索方法或翻譯方法進(jìn)行改進(jìn)消除檢索詞多義性對(duì)查詢來(lái)說(shuō),確定查詢中檢索詞的確切含義是查詢擴(kuò)展的基礎(chǔ)對(duì)于被檢索信息來(lái)說(shuō),明確信息中出現(xiàn)的檢索詞的含義是提高檢索準(zhǔn)確率、確定信息相關(guān)性的關(guān)鍵??梢岳靡环N詞的共現(xiàn)技術(shù)來(lái)消除詞的多義性,以明確其含義2025/5/2620第五章數(shù)字圖書(shū)館信息檢索5.3跨語(yǔ)言信息檢索5.3.6跨語(yǔ)言信息檢索系統(tǒng)Cindor系統(tǒng)特點(diǎn):統(tǒng)一的字符編碼標(biāo)準(zhǔn)、自然語(yǔ)言檢索、查詢自動(dòng)擴(kuò)展、申請(qǐng)專(zhuān)利的跨語(yǔ)言檢索技術(shù)。核心技術(shù):概念中間語(yǔ)言、語(yǔ)言分析、搜索管理。Keizai系統(tǒng)A、使用統(tǒng)一字符編碼檢索體系(USRA)和交互文檔摘要方法(MINDS)。B、提供自動(dòng)和用戶幫助兩種方法,以構(gòu)建和提高跨語(yǔ)言查詢的效率。C、有英文查詢輸入框、新聞源選擇框、翻譯查詢按鈕、提交查詢按鈕、存儲(chǔ)查詢按鈕等。它目前所提供的新聞源有英文、法文、德文、西班牙文、意大利文、中文、日文、韓文的新聞,支持以上幾種語(yǔ)言的跨語(yǔ)言翻譯和檢索,不過(guò)查詢只能是英文的。2025/5/2621第五章數(shù)字圖書(shū)館信息檢索5.3跨語(yǔ)言信息檢索5.3.6跨語(yǔ)言信息檢索系統(tǒng)Keizai系統(tǒng)查詢舉例:輸入英文單詞“rose”,選擇“XinHuaNews94-95(Chinese)”作為新聞源,點(diǎn)擊查詢翻譯按鈕,則一個(gè)翻譯清單顯示在屏幕上,排在最前有“花圣、紫月季、勝春、月季花”等。每種翻譯形式前有復(fù)選框,用戶可以選擇最適合自己需要的查詢。選擇了“花圣、紫月季、紅薔、月季花、芙蓉”作為所需要的查詢翻譯形式,提交查詢后,檢索到12份文檔。2025/5/2622第五章數(shù)字圖書(shū)館信息檢索5.4知識(shí)檢索5.4.1知識(shí)檢索概念5.4.2知識(shí)檢索技術(shù)5.4.3知識(shí)檢索案例2025/5/2623第五章數(shù)字圖書(shū)館信息檢索5.4知識(shí)檢索5.4.1知識(shí)檢索概念特征:①基于某種具有語(yǔ)義模型的知識(shí)組織體系。②對(duì)資源對(duì)象進(jìn)行基于元數(shù)據(jù)的語(yǔ)義標(biāo)注。。優(yōu)勢(shì):(1)實(shí)現(xiàn)信息服務(wù)向知識(shí)服務(wù)的轉(zhuǎn)化。(2)提供主動(dòng)服務(wù)方式。(3)面向用戶。(4)集成和綜合應(yīng)用各類(lèi)知識(shí)和各種高效的智能與非智能技術(shù),全面提高檢索效率。2025/5/2624第五章數(shù)字圖書(shū)館信息檢索5.4知識(shí)檢索5.4.2知識(shí)檢索技術(shù)本體技術(shù)CBR知識(shí)庫(kù)過(guò)程感知知識(shí)檢索2025/5/2625第五章數(shù)字圖書(shū)館信息檢索5.4知識(shí)檢索5.4.2知識(shí)檢索技術(shù)本體技術(shù)五個(gè)模塊:用戶界面模塊、查詢式語(yǔ)義標(biāo)注模塊、領(lǐng)域本體構(gòu)建模塊、檢索資源的語(yǔ)義標(biāo)引模塊、檢索處理模塊。2025/5/2626第五章數(shù)字圖書(shū)館信息檢索5.4知識(shí)檢索5.4.2知識(shí)檢索技術(shù)CBR工作步驟:①檢索與待解決問(wèn)題類(lèi)似的案例;②重用類(lèi)似案例推薦的解決方案;③修改或調(diào)整解決方案以更好地適應(yīng)新問(wèn)題;④考查新的問(wèn)題、解決方案案例是否有價(jià)值作為一個(gè)新的案例保留;⑤保留步驟④中有價(jià)值的解決方案;⑥完善案例庫(kù)索引和特征權(quán)重。2025/5/2627第五章數(shù)字圖書(shū)館信息檢索5.4知識(shí)檢索5.4.2知識(shí)檢索技術(shù)知識(shí)庫(kù)知識(shí)庫(kù)(KnowledgeBase)是一種在線的、基于計(jì)算機(jī)的,有關(guān)某一專(zhuān)門(mén)領(lǐng)域的專(zhuān)家意見(jiàn)、知識(shí)、經(jīng)驗(yàn)等的文件倉(cāng)庫(kù),是對(duì)各種來(lái)源信息的收集、歸納和綜合。過(guò)程感知知識(shí)檢索通過(guò)明確描述過(guò)程和過(guò)程信息,過(guò)程感知知識(shí)檢索使計(jì)算機(jī)可以作出關(guān)于知識(shí)和信息來(lái)源的高度針對(duì)性的建議,同時(shí)協(xié)助工序的完成。一個(gè)過(guò)程感知知識(shí)檢索框架由過(guò)程描述、知識(shí)源結(jié)合體和整合過(guò)程感知檢索與現(xiàn)行工具的具體運(yùn)作平臺(tái)機(jī)制構(gòu)成,具有過(guò)程庫(kù)、知識(shí)來(lái)源庫(kù)、監(jiān)測(cè)框架、自動(dòng)控制、過(guò)程識(shí)別功能。2025/5/2628第五章數(shù)字圖書(shū)館信息檢索5.4知識(shí)檢索5.4.3知識(shí)檢索案例CNKI具體目標(biāo):一是大規(guī)模集成整合知識(shí)信息資源,整體提高資源的綜合和增值利用價(jià)值;二是建設(shè)知識(shí)資源互聯(lián)網(wǎng)傳播擴(kuò)散與增值服務(wù)平臺(tái),為全社會(huì)提供資源共享、數(shù)字化學(xué)習(xí)、知識(shí)創(chuàng)新信息化條件;三是建設(shè)知識(shí)資源的深度開(kāi)發(fā)利用平臺(tái),為社會(huì)各方面提供知識(shí)管理與知識(shí)服務(wù)的信息化手段;四是為知識(shí)資源生產(chǎn)出版部門(mén)創(chuàng)造互聯(lián)網(wǎng)出版發(fā)行的市場(chǎng)環(huán)境與商業(yè)機(jī)制,大力促進(jìn)文化出版事業(yè)、產(chǎn)業(yè)的現(xiàn)代化建設(shè)與跨越式發(fā)展。2025/5/2629第五章數(shù)字圖書(shū)館信息檢索5.4知識(shí)檢索5.4.3知識(shí)檢索案例中國(guó)知網(wǎng)的服務(wù)內(nèi)容:中國(guó)知識(shí)資源總庫(kù)中國(guó)知識(shí)資源總庫(kù)提供CNKI源數(shù)據(jù)庫(kù)、外文類(lèi)、工業(yè)類(lèi)、農(nóng)業(yè)類(lèi)、醫(yī)藥衛(wèi)生類(lèi)、經(jīng)濟(jì)類(lèi)和教育類(lèi)等多種數(shù)據(jù)庫(kù)。數(shù)字出版平臺(tái)數(shù)字出版平臺(tái)是國(guó)家“十一五”重點(diǎn)出版工程。數(shù)字出版平臺(tái)提供學(xué)科專(zhuān)業(yè)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 那朵堅(jiān)強(qiáng)的小花寫(xiě)物作文(11篇)
- 電子商務(wù)平臺(tái)跨境物流解決方案提供商合作意向書(shū)
- 高級(jí)管理工作經(jīng)歷證明書(shū)(5篇)
- “互聯(lián)網(wǎng)+”數(shù)字內(nèi)容創(chuàng)作計(jì)劃
- 做個(gè)文明的小學(xué)生一年級(jí)作文15篇
- 榜樣力量大寫(xiě)人的作文8篇
- 乳房腫脹護(hù)理
- 體育設(shè)施建設(shè)項(xiàng)目成本管理措施
- 農(nóng)業(yè)生產(chǎn)物資供應(yīng)與使用合作協(xié)議
- 氣胸護(hù)理教學(xué)查房
- 學(xué)校澡堂運(yùn)營(yíng)方案
- 門(mén)窗展廳培訓(xùn)課件
- 國(guó)開(kāi)電大軟件工程形考作業(yè)3參考答案
- 少年中國(guó)說(shuō)英文版
- 通用電子嘉賓禮薄
- 民用爆炸物品倉(cāng)庫(kù)管理規(guī)定培訓(xùn)課件
- 10篇說(shuō)明文閱讀題及答案
- 【培養(yǎng)】(完整版)師帶徒培養(yǎng)方案
- 一文讀懂-特魯索綜合征病例、影像、診斷、治療
- 體育旅游課件第二章體育旅游資源
- 2023年科技特長(zhǎng)生招生考試試卷
評(píng)論
0/150
提交評(píng)論