信息檢索原理期末重點(diǎn)背誦知識(shí)點(diǎn)_第1頁(yè)
信息檢索原理期末重點(diǎn)背誦知識(shí)點(diǎn)_第2頁(yè)
信息檢索原理期末重點(diǎn)背誦知識(shí)點(diǎn)_第3頁(yè)
信息檢索原理期末重點(diǎn)背誦知識(shí)點(diǎn)_第4頁(yè)
信息檢索原理期末重點(diǎn)背誦知識(shí)點(diǎn)_第5頁(yè)
已閱讀5頁(yè),還剩6頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、信息檢索1、 信息檢索概念:P12、 信息檢索的原理一整節(jié)內(nèi)容要自己理解:P3-P4圖1-1要掌握文獻(xiàn)替代和文獻(xiàn)整序的概念要掌握3、 信息檢索在歷史上的不同表現(xiàn):聯(lián)機(jī)檢索、光盤檢索、網(wǎng)絡(luò)檢索的區(qū)別和特征:P6-P94、 信息檢索的模型概念:P95、 布爾模型、向量空間模型、經(jīng)典概率模型要理解并掌握各自的優(yōu)缺點(diǎn):P11-P126、 信息檢索系統(tǒng)的概念:P127、 檢索效果的評(píng)價(jià)指標(biāo):P15-P164個(gè)指標(biāo):查全率、查準(zhǔn)率、漏檢率、誤檢率 掌握它們的含義并懂得計(jì)算8、 網(wǎng)絡(luò)檢索的表達(dá)式:布爾邏輯檢索、鄰近檢索、短語(yǔ)檢索、截詞檢索的特點(diǎn)、區(qū)別和聯(lián)系:P17-P219、 信息檢索的技巧要理解尤其是要掌

2、握及時(shí)調(diào)整檢索策略:P33-P3610、 搜索引擎的概念:P3711、 數(shù)據(jù)庫(kù)知識(shí),實(shí)驗(yàn)內(nèi)容,特點(diǎn)12、 引文的概念 13、 搜索引擎的分類:P40-41搜索引擎劃分的類別以及元搜索引擎的概念要掌握12、CBR概念 P11312、 多媒體信息檢索的原理和方法:P110-P114 其中要重點(diǎn)理解基于內(nèi)容的多媒體信息檢索的檢索形式(可以結(jié)合課件)13、 專利的概念:P12514、 專利的類型:P126(理解一下各類型的區(qū)別)15、 專利文獻(xiàn)的概念:P12716、 專利文獻(xiàn)的類型:P127(理解一下各類型的區(qū)別)17、 灰色文獻(xiàn)的概念:P14718、 會(huì)議文獻(xiàn)的概念:P15819、 科技報(bào)告的概念:

3、P16320、 查新的概念:P20021、 科技查新的作用:P201(每一個(gè)小標(biāo)題后面要自己展開一段)關(guān)于上課講的那幾個(gè)數(shù)據(jù)庫(kù)大家自己看一下PPT,掌握一下。以上純屬個(gè)人觀點(diǎn)題型:名詞解釋:5*4=20簡(jiǎn)答題: 4*10=40論述題: 2*20=40考試時(shí)間:1月8日 上午:9:0011:001. 信息檢索的概念 (P1)信息檢索有廣義和狹義兩重含義。廣義上說(shuō),信息檢索是指將信息按照一定的方式組織和存儲(chǔ)起來(lái),并根據(jù)信息用戶的需求查找相關(guān)信息的過(guò)程。它包含信息存儲(chǔ)和信息查找兩個(gè)過(guò)程。信息檢索是對(duì)信息項(xiàng)進(jìn)行表示、存儲(chǔ)、組織和存取。狹義的講,信息檢索僅僅指信息查找的過(guò)程,即從信息集合中找出所需信息的

4、過(guò)程,相當(dāng)于“信息查詢”或“信息查找”。文獻(xiàn)替代(著錄):即將表示文獻(xiàn)資源特征的元數(shù)據(jù)替代它指代的資源,文獻(xiàn)替代過(guò)程實(shí)際上是對(duì)原始文獻(xiàn)的外表特征(包括題名、著者、出處等)和內(nèi)容特征(包括分類號(hào)、主題詞、摘要等)進(jìn)行描述的過(guò)程,這項(xiàng)工作通常稱為著錄,著錄的結(jié)果是將原始文獻(xiàn)制成它的替代文獻(xiàn))二次文獻(xiàn)。文獻(xiàn)整序:指的是對(duì)替代文獻(xiàn)進(jìn)行標(biāo)引,給出文獻(xiàn)標(biāo)識(shí)(如分類號(hào)、主題詞等),將所有替代文獻(xiàn)按其標(biāo)識(shí)進(jìn)行有規(guī)律的組織排列,形成可檢索的信息資源集合。信息檢索系統(tǒng):信息存儲(chǔ)與信息查詢功能的一類信息服務(wù)設(shè)施(或工具)。信息檢索的模型:就是運(yùn)用數(shù)學(xué)的語(yǔ)言和工具,對(duì)信息檢索系統(tǒng)中的信息及其處理的過(guò)程加以翻譯和抽象,

5、表述為某種數(shù)學(xué)公式,再經(jīng)過(guò)演繹、推理、解釋和實(shí)際校驗(yàn),反過(guò)來(lái)指導(dǎo)信息檢索實(shí)踐。搜索引擎:是一種Web上應(yīng)用的軟件系統(tǒng),它以一定的策略在Web上搜集和發(fā)現(xiàn)信息,對(duì)信息處理組織后,為用戶提供Web信息查詢服務(wù)。元搜索引擎:又稱多元搜索引擎或集成式搜索引擎,是多個(gè)獨(dú)立搜索引擎的集合,無(wú)獨(dú)立的數(shù)據(jù)庫(kù),通過(guò)一個(gè)統(tǒng)一的用戶界面,可以同時(shí)對(duì)多個(gè)搜索引擎進(jìn)行檢索操作,即用戶只需一次輸入檢索式,便可檢索一個(gè)或多個(gè)獨(dú)立搜索引擎。嚴(yán)格來(lái)說(shuō),元搜索引擎只能算是一種用戶代理,而不是真正的搜索引擎。CBR:基于內(nèi)容的多媒體信息檢索,主要利用計(jì)算機(jī)自動(dòng)收集、量化和存儲(chǔ)信息內(nèi)容自身的特征(如顏色、紋理、形狀),表示成向量空間

6、,建立基于內(nèi)容特征的多媒體索引庫(kù),用戶在查詢過(guò)程中,系統(tǒng)會(huì)自動(dòng)將用戶提問(wèn)轉(zhuǎn)化成向量,并與已有信息的向量空間進(jìn)行相似度匹配計(jì)算,具有較強(qiáng)的客觀性。專利:即專利權(quán)的簡(jiǎn)稱。是由專利機(jī)構(gòu)依據(jù)發(fā)明申請(qǐng)所頒發(fā)的一種文件。這種文件敘述發(fā)明的內(nèi)容,并且產(chǎn)生一種法律狀態(tài),即該獲得專利的發(fā)明在一般情況下只有得到專利所有人的許可才能利用(包括制造、使用、銷售和進(jìn)口等),專利的保護(hù)有時(shí)間和地域的限制。我國(guó)專利法將專利分為三種,即發(fā)明、實(shí)用新型和外觀設(shè)計(jì)。(專利權(quán)、專利技術(shù)、專利說(shuō)明書)專利文獻(xiàn):主要是指是實(shí)行專利制度的國(guó)家及國(guó)際專利組織在受理、審批、注冊(cè)專利過(guò)程中產(chǎn)生的官方文件及其出版物的總稱。就廣義而論,專利文獻(xiàn)是

7、指實(shí)行專利制度的國(guó)家及國(guó)際性專利組織,在審批專利過(guò)程中產(chǎn)生的官方事件及其出版物的總稱,主要包括申請(qǐng)說(shuō)明書、專利說(shuō)明書等各類有關(guān)文件,以及專利公報(bào)、檢索工具和專利分類表等出版物;就狹義而言,專利文獻(xiàn)通常單指專利說(shuō)明書。灰色文獻(xiàn):通常指不經(jīng)營(yíng)利性出版商控制,而由各級(jí)政府、科研院所、學(xué)術(shù)機(jī)構(gòu)、工商業(yè)界等所發(fā)布的各類印刷版與電子版文獻(xiàn)資料。會(huì)議文獻(xiàn):就是在各種會(huì)議上宣讀和交流的論文、報(bào)告、產(chǎn)生的記錄及發(fā)言、論述、總結(jié)等各種形式的文獻(xiàn)資料,是國(guó)際學(xué)術(shù)交流的重要組成部分。按其出版方式可分為會(huì)前文獻(xiàn)、會(huì)中文獻(xiàn)和會(huì)后文獻(xiàn)。(新穎性、專業(yè)針對(duì)性、及時(shí)性、連續(xù)性)查全率 :是指檢出文獻(xiàn)中合乎需要的文獻(xiàn)數(shù)量占數(shù)據(jù)庫(kù)

8、存在的合乎該需要的所有文獻(xiàn)的比例,用來(lái)表示信息系統(tǒng)能滿足用戶需求的完備程度。查準(zhǔn)率 :是指檢出文獻(xiàn)中合乎需要的文獻(xiàn)數(shù)量占檢出文獻(xiàn)全部數(shù)量的比例,是衡量信息系統(tǒng)拒絕非相關(guān)信息的能力的量度??萍紙?bào)告:是圍繞某個(gè)課題的科技活動(dòng)所取得的階段性進(jìn)展或最終性成果的記錄與書面報(bào)告,是科研生產(chǎn)活動(dòng)的第一手資料。有時(shí)又被稱為研究報(bào)告,它是科技人員交流其研究活動(dòng)的重要手段,是研究單位向?yàn)槠涮峁┙?jīng)費(fèi)的部門反映研究情況的正式技術(shù)文件,以積累、傳播和交流為目的,由科技人員按照有關(guān)規(guī)定和格式撰寫,真實(shí)而完整地反映科研人員所從事科技活動(dòng)的內(nèi)容和經(jīng)驗(yàn)。查新:是科技查新的簡(jiǎn)稱,是指查新機(jī)構(gòu)根據(jù)查新委托人提供的需要查證其新穎性的

9、科學(xué)技術(shù)內(nèi)容,按照本規(guī)范操作,并作出結(jié)論。一、信息存儲(chǔ)與檢索原理1、原理:信息檢索的實(shí)質(zhì)就是將用戶的檢索提問(wèn)標(biāo)識(shí)與存儲(chǔ)在信息檢索系統(tǒng)中的信息特征標(biāo)識(shí)進(jìn)行比較、匹配,兩者一致或者信息特征標(biāo)識(shí)包含了檢索提問(wèn)標(biāo)識(shí),則具有該標(biāo)識(shí)的信息就從檢索系統(tǒng)中輸出,輸出的信息就是檢索命中的信息。(通過(guò)對(duì)大量的、分散無(wú)序的文獻(xiàn)信息進(jìn)行搜集、加工、組織、存儲(chǔ),建立各種各樣的檢索系統(tǒng),并通過(guò)一定的方法和手段使存儲(chǔ)與檢索這兩個(gè)過(guò)程所采用的特征標(biāo)識(shí)達(dá)到一致,以便有效地獲得和利用信息源。其中,存儲(chǔ)是檢索的基礎(chǔ),檢索是存儲(chǔ)的目的。)信息存儲(chǔ)與檢索的一般過(guò)程2、文獻(xiàn)替代(著錄)即用表示文獻(xiàn)資源特征的元數(shù)據(jù)替代所指代的資源。特征包

10、括外表特征和內(nèi)容特征。著錄的結(jié)果是將原始文獻(xiàn)制成二次文獻(xiàn)。3、文獻(xiàn)整序(標(biāo)引)對(duì)文獻(xiàn)進(jìn)行標(biāo)引,給出檢索標(biāo)識(shí)(如分類號(hào)、主題詞等),將所有替代文獻(xiàn)按照其標(biāo)識(shí)進(jìn)行有規(guī)律的組織排列,形成可檢索的信息資源集合文獻(xiàn)特征標(biāo)識(shí)與檢索提問(wèn)標(biāo)識(shí)的匹配二、聯(lián)機(jī)檢索、光盤檢索、網(wǎng)絡(luò)信息檢索的特征和區(qū)別1、聯(lián)機(jī)檢索(1965-1990):即信息用戶利用終端設(shè)備,通過(guò)通信網(wǎng)絡(luò)或通信線路與檢索系統(tǒng)聯(lián)機(jī),進(jìn)行“人機(jī)對(duì)話”,從檢索中心的數(shù)據(jù)庫(kù)查找所需的文獻(xiàn)倍息的過(guò)程。(1)構(gòu)成:聯(lián)機(jī)檢索中心、通訊設(shè)施、檢索終端。(2)聯(lián)機(jī)檢索的特點(diǎn)(3)優(yōu)點(diǎn):檢索效率高,可在幾分鐘內(nèi)完成檢索檢索范圍廣泛全面,提供的數(shù)據(jù)量從幾十到幾百個(gè)不等檢

11、索內(nèi)容新,實(shí)時(shí)性強(qiáng),可檢索到最新文獻(xiàn)檢索功能強(qiáng),檢索途徑多缺點(diǎn):檢索費(fèi)用高(機(jī)時(shí)/DU、記錄輸出打印費(fèi)、通信費(fèi))檢索界面單一,檢索技術(shù)和技巧不易掌握2、光盤檢索(1)由于光盤具有存儲(chǔ)密度高、輕便、無(wú)機(jī)械磨損、易攜帶耐用等待點(diǎn),從20世紀(jì)80年代中期生產(chǎn)后便很快被廣泛用作信息載體、檢索工具。(2)光盤按存儲(chǔ)信息的種類可分為:激光唱盤、激光視盤以及存儲(chǔ)文字、數(shù)字等文件資料的數(shù)字光盤;按讀寫數(shù)據(jù)的模式可分為只讀光盤、寫一次光盤和可擦寫光盤。 (3)光盤檢索的類型1)單機(jī)(Stand-Along)光盤檢索系統(tǒng)由微機(jī)、光驅(qū)、光盤數(shù)據(jù)庫(kù)等硬件設(shè)備、操作程序、檢索程序等軟件組成,提供單用戶、單機(jī)的使用,系統(tǒng)

12、結(jié)構(gòu)簡(jiǎn)單,但數(shù)據(jù)量少,利用率低。 2)聯(lián)機(jī)光盤檢索系統(tǒng)將光盤上網(wǎng),一般只提供在局域網(wǎng)上的檢索,用戶可以分時(shí)共享光盤數(shù)據(jù)庫(kù)的信息。光驅(qū)常采用光盤塔(Tower)和光盤庫(kù)(Jukebox)兩種形式。(4)光盤檢索的特點(diǎn) 價(jià)格低(一次購(gòu)買無(wú)限次使用,無(wú)需聯(lián)機(jī)檢索費(fèi)用)存儲(chǔ)容量大而體積較小無(wú)需通訊聯(lián)系,不受時(shí)間限制 使用方便,易于操作 使用壽命長(zhǎng) 機(jī)房、設(shè)備無(wú)特別要求,投資少 信息獲取速度和更新頻率較聯(lián)機(jī)檢索慢3、網(wǎng)絡(luò)信息檢索(90年代至今)(1)早期的Internet信息服務(wù)模式:常見(jiàn)服務(wù):、郵件、新聞組 操作復(fù)雜、表現(xiàn)形式單調(diào)、信息以文件形式存在(2)網(wǎng)絡(luò)信息檢索(90年代至今)網(wǎng)絡(luò)信息檢索一般指

13、因特網(wǎng)檢索,是通過(guò)網(wǎng)絡(luò)接口軟件,用戶可以在一終端查詢各地上網(wǎng)的信息資源。網(wǎng)絡(luò)信息檢索與聯(lián)機(jī)信息檢索最根本的不同在于網(wǎng)絡(luò)信息檢索是基于客戶機(jī)/服務(wù)器的網(wǎng)絡(luò)支撐環(huán)境的,客戶機(jī)和服務(wù)器是同等關(guān)系,只要遵守共同協(xié)議,一個(gè)服務(wù)器可以被多個(gè)用戶訪問(wèn),一個(gè)客戶也可以訪問(wèn)多個(gè)服務(wù)器。特點(diǎn):檢索范圍大,覆蓋因特網(wǎng)上幾乎所有的網(wǎng)絡(luò)資源;超文本檢索,結(jié)合多媒體的全文信息檢索;界面友好,用戶操作相當(dāng)方便;良好的反饋能力和快速響應(yīng)能力;與國(guó)際聯(lián)機(jī)檢索相比,其最大的優(yōu)點(diǎn)在于經(jīng)濟(jì);與光盤檢索相比,其最大的優(yōu)點(diǎn)在于內(nèi)容更新快。網(wǎng)絡(luò)檢索與聯(lián)機(jī)檢索和光盤檢索有許多相同之處如需要數(shù)據(jù)庫(kù),要制定檢索策略等。1、聯(lián)機(jī)檢索的速度快,效率

14、高。檢索的范圍廣泛、全面;檢索途徑多,方便、靈活;檢索內(nèi)容新、實(shí)時(shí)性強(qiáng);檢索輔助功能完善。但是檢索的費(fèi)用高;對(duì)檢索系統(tǒng)及其文檔的收錄、標(biāo)引、特點(diǎn)等問(wèn)題較難了解、熟悉;檢索技巧和技術(shù)不易掌握。2、光盤檢索其存儲(chǔ)容量大而體積微?。皇褂梅奖?,不需要通信聯(lián)系,不受時(shí)間限制;使用方便、易于操作;價(jià)格低;使用壽命長(zhǎng),用戶易接受;機(jī)房無(wú)特別要求,投資少,要求設(shè)備簡(jiǎn)單,可隨地安裝。但是光盤檢索的信息獲得比聯(lián)機(jī)檢索慢,信息更新不及時(shí)。三、信息檢索系統(tǒng)的評(píng)價(jià)指標(biāo) 1)查全率(檢全率,召回率,Recall Ratio) 檢全率= ´檢出相關(guān)文獻(xiàn)量 _ *100% 系統(tǒng)中相關(guān)文獻(xiàn)總量2)漏檢率(Omissi

15、on factor)= 漏檢率=´漏檢相關(guān)文獻(xiàn)量 _*100% 系統(tǒng)中相關(guān)文獻(xiàn)總量3)查準(zhǔn)率(檢準(zhǔn)率,相關(guān)率,Precision Ratio) 檢準(zhǔn)率=檢出相關(guān)文獻(xiàn)量 _*´100% 檢出文獻(xiàn)總量4)誤檢率(Noise Factor)= 誤檢率=´誤檢文獻(xiàn)量 _*100% 檢出文獻(xiàn)總量 查全率與查準(zhǔn)率示例查詢Q,本應(yīng)該有100篇相關(guān)文檔,某個(gè)系統(tǒng)返回200篇文檔,其中80篇是真正相關(guān)的文檔。查全率=80/100=0.8查準(zhǔn)率=80/200=0.4結(jié)論:查全率較高,但是查準(zhǔn)率較低四、布爾模型、向量空間模型、經(jīng)典概率模型的優(yōu)缺點(diǎn)(經(jīng)典信息檢索模型):1)基于集合論的模

16、型(Set Theoretic models)布爾模型、擴(kuò)展布爾模型2)基于代數(shù)論的模型(Algebraic models)向量空間模型3)基于概率統(tǒng)計(jì)的模型(Probabilistic models)經(jīng)典概率模型(1)布爾模型:最簡(jiǎn)單的信息檢索模型,是基于集合理論和布爾代數(shù)的一種的檢索模型,被大多數(shù)檢索系統(tǒng)所采用。查詢是由三種布爾邏輯運(yùn)算符AND、OR、NOT連接索引詞組成的布爾表達(dá)式。每個(gè)索引詞在一篇文檔中只有兩種狀態(tài):出現(xiàn)或不出現(xiàn),對(duì)應(yīng)權(quán)值為0或1。將查詢表達(dá)式與文檔進(jìn)行匹配(單詞-文檔矩陣)。布爾模型的優(yōu)點(diǎn)1)簡(jiǎn)單、容易理解,經(jīng)過(guò)某種訓(xùn)練的用戶可以容易地寫出布爾查詢式。2)通過(guò)使用復(fù)雜

17、的布爾表達(dá)式,可以很方便地控制查詢結(jié)果。3)檢索速度快。到目前為止,布爾模型是最常用的檢索模型。布爾模型的缺點(diǎn)1)不支持部分匹配,而完全匹配會(huì)導(dǎo)致太多或者太少的結(jié)果文檔被返回。2)普通用戶構(gòu)造查詢不一定準(zhǔn)確,容易構(gòu)造錯(cuò)誤。3)很難對(duì)輸出結(jié)果進(jìn)行排序不考慮索引詞的權(quán)重,所有文檔都以相同的方式和查詢相匹配??赏ㄟ^(guò)擴(kuò)展來(lái)實(shí)現(xiàn)排序的功能,即“擴(kuò)展布爾模型”。(2)擴(kuò)展布爾模型:為了克服布爾檢索模型查詢結(jié)果的無(wú)序性,引入擴(kuò)展的布爾檢索模型。相似度計(jì)算公式:若檢索項(xiàng)Term1 OR Term2,則 若Term1 AND Term2,則 (3)向量空間模型:通過(guò)對(duì)檢出文獻(xiàn)按相似度降序排列的方式來(lái)實(shí)現(xiàn)文獻(xiàn)與查

18、詢的部分匹配。向量空間模型的優(yōu)缺點(diǎn)優(yōu)點(diǎn):1)標(biāo)引詞(Term)加權(quán)改進(jìn)了檢索效果。2)支持部分匹配和近似匹配,其部分匹配策略運(yùn)行檢出與查詢條件接近的文獻(xiàn)。3)結(jié)果可以排序。4)可用到相關(guān)領(lǐng)域(文本分類、相似匹配)缺點(diǎn):1)標(biāo)引詞獨(dú)立的假定,損失掉大量的文本結(jié)構(gòu)信息。2)相似度的計(jì)算量較大。(4)經(jīng)典概率模型:(核心思想)若以往查詢中,如果某個(gè)文檔和某個(gè)詞相關(guān)度大,則在以后的查詢中,用這個(gè)詞查詢時(shí)出現(xiàn)該文檔的概率高。給定一個(gè)用戶提問(wèn),則檢索系統(tǒng)中存在一個(gè)包含所有相關(guān)文檔的集合(理想結(jié)果集R)。在此基礎(chǔ)上,用戶可以對(duì)初始的檢索結(jié)果集合中文檔相關(guān)與否進(jìn)行判斷。在根據(jù)這些反饋信息,系統(tǒng)便可以在后續(xù)的檢

19、索處理中不斷做出優(yōu)化和改進(jìn)。經(jīng)典概率模型的優(yōu)缺點(diǎn)優(yōu)點(diǎn):1)建立在數(shù)學(xué)模型基礎(chǔ)上,理論性較強(qiáng)。2)文檔可以按照他們相關(guān)概率遞減的順序來(lái)排序。缺點(diǎn):1)需要最初把文獻(xiàn)分為相關(guān)集合和不相關(guān)集合。2)沒(méi)有考慮標(biāo)引詞在文獻(xiàn)中出現(xiàn)的頻率問(wèn)題。3)獨(dú)立性假設(shè)與現(xiàn)實(shí)情況不完全相符。4)計(jì)算復(fù)雜度相對(duì)較大。 五、布爾邏輯檢索、鄰近檢索概述、短語(yǔ)檢索概述、截詞檢索概述的區(qū)別、聯(lián)系1、布爾邏輯檢索概述(1)將多個(gè)檢索詞用布爾運(yùn)算符組合在一起進(jìn)行檢索。(2)邏輯運(yùn)算符:邏輯與(AND,*,&) 邏輯或(OR,+,|) 邏輯非(NOT,AND NOT,-,!)并非所有數(shù)據(jù)庫(kù)都遵循以上算符。 絕大部分計(jì)算機(jī)信息檢

20、索系統(tǒng)都支持布爾邏輯檢索。 (3)關(guān)于“優(yōu)先級(jí)”問(wèn)題(1)當(dāng)布爾運(yùn)算符在一個(gè)檢索式中連續(xù)出現(xiàn)時(shí),它們的優(yōu)先級(jí)通常是不同的。(2)大部分?jǐn)?shù)據(jù)庫(kù)規(guī)定:-優(yōu)先級(jí)最高,*次之,+最低。2、鄰近檢索概述又稱位置限制檢索,是用位置運(yùn)算符來(lái)表達(dá)檢索詞與檢索詞之間順序和詞間距的檢索。支持鄰近檢索的系統(tǒng)包括ProQuest(Dialog)、ScienceDirect、Westlaw等。ProQuest的常用位置算符包括:Near、Pre等。(1)位置運(yùn)算符Near/n查找包含A詞和B詞且兩詞距離很近的文檔。使用數(shù)值n來(lái)指定兩詞之間相隔的詞數(shù)。(2)位置運(yùn)算符Pre/n查找包含A詞和B詞且A詞在B詞之前出現(xiàn)的文檔

21、。使用數(shù)值n來(lái)指定兩詞之間相隔的詞數(shù)。3、短語(yǔ)檢索概述使用" "將多個(gè)關(guān)鍵詞作為整體檢索,又稱精確檢索。多用于人名、機(jī)構(gòu)名、地名、書名、電影名檢索。4、截詞檢索概述截詞檢索即在檢索詞中保留相同的部分,把變化部分用通配符代替。(1)一般情況下,使用?或#代表0至1個(gè)字符(有限截詞);使用*或$代表0至多個(gè)字符(無(wú)限截詞)。Google部分支持*檢索,Baidu不支持通配符檢索。(詞形變換、年代區(qū)間、作者、同根詞)(2)完全匹配、任意匹配與前方一致1)完全匹配要求輸入的檢索詞,與數(shù)據(jù)庫(kù)中的文獻(xiàn)標(biāo)識(shí)完全相同(前后無(wú)其他字符),才能命中。2)任意匹配前后可包含其他字符,相當(dāng)于輸入“

22、*檢索詞*”。3)前方一致屬于截詞檢索的一種,相當(dāng)于輸入“檢索詞*”。5、字段限制檢索:組成數(shù)據(jù)庫(kù)的最小單位是記錄,一條完整的記錄中的每個(gè)著錄項(xiàng)為字段。在信息檢索過(guò)程中,為了提高查全率或查準(zhǔn)率,需要將檢索范圍限制在特定的字段中,即字段限制檢索。(基本索引字段、輔助索引字段)6、其他檢索表達(dá)式:1)括號(hào)檢索:用于改變運(yùn)算的先后順序,括號(hào)內(nèi)的運(yùn)算優(yōu)先進(jìn)行思考;2)自然語(yǔ)言檢索:直接采用自然語(yǔ)言中的字、詞、句進(jìn)行提問(wèn)式搜索,同一般口語(yǔ)一樣。特別適合不熟悉網(wǎng)絡(luò)信息檢索技術(shù)的用戶使用;3)多語(yǔ)種檢索:提供多種語(yǔ)言的檢索環(huán)境供用戶選擇,系統(tǒng)按照用戶選定的語(yǔ)種進(jìn)行檢索并反饋結(jié)果。4)模糊檢索:又稱概念檢索,

23、是指使用某一檢索詞進(jìn)行檢索時(shí),能同時(shí)對(duì)該詞的同義詞、近義詞、上位詞、下位詞進(jìn)行檢索,以達(dá)到擴(kuò)大檢索范圍、避免漏檢的目的。5)區(qū)分大小寫檢索:對(duì)于支持區(qū)分大小寫檢索的工具而言,若用戶輸入小寫檢索式,搜索工具既匹配大寫又匹配小寫;若用戶輸入大寫,則只匹配大寫形式結(jié)果。大部分搜索引擎對(duì)大小寫不敏感。六、信息檢索的策略與技巧(1)信息檢索策略:信息檢索策略(Retrieval Strategy)是為實(shí)現(xiàn)檢索目標(biāo)而制定的全盤計(jì)劃或方案,是就一個(gè)問(wèn)題檢索一個(gè)或多個(gè)數(shù)據(jù)庫(kù)所輸入的全部檢索式的集合。(2)檢索關(guān)鍵詞的選擇:對(duì)檢索的概念進(jìn)行關(guān)鍵詞的切分;關(guān)鍵詞的剔除;對(duì)固定短語(yǔ),盡量使用引號(hào)進(jìn)行精確檢索;關(guān)鍵詞

24、應(yīng)盡量簡(jiǎn)練;可根據(jù)網(wǎng)頁(yè)特征選擇查詢?cè)~;立足常用詞、規(guī)范詞,兼顧自由詞;旁類以求;善用詞的全稱、簡(jiǎn)稱及縮寫;勿忘上下位類詞擴(kuò)展;注意外來(lái)詞的譯寫變化。(3)擴(kuò)檢:指初始設(shè)定的檢索范圍太小,命中文獻(xiàn)不多,需擴(kuò)大檢索范圍的方法。擴(kuò)大檢索范圍,提高查全率的技術(shù)方法:1)考慮同義詞或近義詞(使用OR連接)。2)選擇較大檢索范圍的字段如摘要。3)使用截詞符4)使用上位詞(如飛行器>航天飛機(jī)>載人航天飛機(jī))(4)縮檢:指開始的檢索范圍太大,命中文獻(xiàn)太多,或查準(zhǔn)率太低的一個(gè)方法??s小檢索范圍,提高查準(zhǔn)率的技術(shù)方法:1)使用AND、NOT等運(yùn)算符限制檢索范圍2)使用短語(yǔ)檢索3)使用位置算符4)選擇檢

25、索范圍較小的字段5)使用下位詞(5)充分利用組合檢索:除使用布爾檢索表達(dá)式外,應(yīng)盡可能配合鄰近檢索、字段限制檢索等檢索方法。有些查新課題的查新點(diǎn)內(nèi)涵很深,難以用有限的詞匯準(zhǔn)確、全面地描述,僅用關(guān)鍵詞檢索極易造成漏檢,可采用分類-主題組合檢索。七、搜索引擎的分類1、按信息內(nèi)容組織方式劃分1)機(jī)器人搜索引擎(狹義的Search Engine) 不依靠人工發(fā)現(xiàn)和甄別信息,由蜘蛛(Spider)以某種策略自動(dòng)在互聯(lián)網(wǎng)中搜集信息,由索引器建立索引,由檢索器根據(jù)用戶查詢檢索信息并返回給用戶。其優(yōu)點(diǎn)是信息量大、更新速度快;缺點(diǎn)是返回的信息過(guò)多、冗余信息較多,用戶必須從結(jié)果中進(jìn)行篩選。2)目錄式搜索引擎 以人

26、工或半自動(dòng)方式搜集信息,由編輯人員對(duì)資源進(jìn)行選擇、評(píng)價(jià)、編制摘要、分類后形成的主題目錄。具有信息準(zhǔn)確,信息質(zhì)量較高等優(yōu)點(diǎn),同時(shí)存在收錄網(wǎng)站資源規(guī)模有限、維護(hù)量大、信息更新不及時(shí)等不足。 代表產(chǎn)品:早期Yahoo!、早期Sohu、網(wǎng)址導(dǎo)航2、按專業(yè)范疇劃分1)綜合性搜索引擎內(nèi)容涵蓋各個(gè)學(xué)科和生產(chǎn)生活的各個(gè)領(lǐng)域,可檢索圖片、音頻、視頻等多種資源類型,適用對(duì)象廣泛。代表產(chǎn)品:Google、Yahoo!、百度、搜狗2)專業(yè)性搜索引擎(垂直搜索引擎)收錄某一個(gè)或幾個(gè)學(xué)科資源的搜索引擎,具有專門搜索功能的搜索引擎,面向特定的用戶的搜索引擎(面向特定學(xué)科、行業(yè)、對(duì)象或用戶)。特點(diǎn)“專、精、深”。3、按檢索功

27、能劃分1)獨(dú)立搜索引擎 又稱單一搜索引擎或常規(guī)搜索引擎,有自己的數(shù)據(jù)庫(kù),搜索時(shí)通常只檢索自己的數(shù)據(jù)庫(kù)。2)元搜索引擎(Meta Search Engine)又稱多元搜索引擎或集成式搜索引擎,是多個(gè)獨(dú)立搜索引擎的集合。通過(guò)統(tǒng)一用戶界面同時(shí)檢索多個(gè)引擎,即用戶只需一次輸入檢索式,便可檢索一個(gè)或多個(gè)獨(dú)立搜索引擎,無(wú)獨(dú)立數(shù)據(jù)庫(kù)。嚴(yán)格來(lái)說(shuō),Meta搜索引擎只能算是一種用戶代理,而不是真正的搜索引擎。八、多媒體信息檢索1、多媒體信息檢索方式:1)基于文本的多媒體信息檢索 2)基于內(nèi)容的多媒體信息檢索2、基于內(nèi)容的多媒體信息檢索 (1)基于內(nèi)容的信息檢索(Content-Based Retrieval,CB

28、R),利用計(jì)算機(jī)自動(dòng)收集、量化和存儲(chǔ)信息內(nèi)容特征,表示成向量空間,建立基于內(nèi)容特征的多媒體索引庫(kù),用戶在查詢時(shí)將用戶提問(wèn)轉(zhuǎn)化成向量,并與已有信息的向量空間進(jìn)行相似度匹配計(jì)算,具有較強(qiáng)的客觀性。 (2)劣勢(shì):特征空間的維度高,用戶與系統(tǒng)抽取的信息之間存在語(yǔ)言鴻溝、對(duì)同一數(shù)據(jù)的解釋缺乏一致性。(3)普及程度:局限在較小的數(shù)據(jù)集合(實(shí)驗(yàn)室層面)。有以下幾種:1、基于內(nèi)容的圖像檢索(顏色分布法)(1)QBIC(Query By Image Content)基于內(nèi)容圖像檢索領(lǐng)域應(yīng)用最早的商用產(chǎn)品,由IBM Almaden研究中心于1995年開發(fā)。為IBMDB2數(shù)據(jù)庫(kù)提供圖像檢索,并支持基于Web的圖像檢索服務(wù)。 系統(tǒng)結(jié)構(gòu)及所用技術(shù)對(duì)后來(lái)的視頻檢索有深遠(yuǎn)的影響(2)TinEye TinEye是由加拿大Idée公司所開發(fā)的

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論