移動(dòng)搜索引擎_第1頁
移動(dòng)搜索引擎_第2頁
移動(dòng)搜索引擎_第3頁
移動(dòng)搜索引擎_第4頁
移動(dòng)搜索引擎_第5頁
已閱讀5頁,還剩7頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、1、 歷史:(選擇)搜索技術(shù)的歷史萌芽階段:Archie 、Gopher搜索技術(shù)的歷史起步階段:Robot 、Spider搜索技術(shù)的歷史發(fā)展階段: Excite 、Galaxy、Yahoo搜索技術(shù)的歷史繁榮階段: Infoseek 、Alta Vista、Google、Baidu2、 搜索技術(shù)應(yīng)用現(xiàn)狀采用分布式體系結(jié)構(gòu)提高規(guī)模與性能搜索技術(shù)應(yīng)用現(xiàn)狀支持目錄式分類結(jié)構(gòu)和全文搜索現(xiàn)在的搜索引擎都在3代,4代的在發(fā)展中其中,第一代搜索引擎以早期 Yahoo 為代表,第二代以 Google 的創(chuàng)立為標(biāo)志,之后Google 經(jīng)過改進(jìn) Pagerank 和一系列技術(shù),演化至第三代,而第四代搜索引擎有大量公

2、司如Cuil,Quora 探索,但還未形成成熟的產(chǎn)品。3、 將信息分割成一個(gè)個(gè)關(guān)鍵字,并輔以關(guān)鍵字所在位置(例如第幾頁),從而構(gòu)成一個(gè)倒排基本單位。是根據(jù)關(guān)鍵字查相應(yīng)位置1.收集待建索引的原文檔(Document) 2.將原文檔傳給詞條化工具(Tokenizer)進(jìn)行文本詞條化 3.將第二步得到的詞條(Token)傳給語言分析工具(Linguistic modules)進(jìn)行語言學(xué)預(yù)處理,得到詞項(xiàng)(Term) 4.將得到的詞項(xiàng)(Term)傳給索引組件(Indexer),建立倒排索引4、信息檢索系統(tǒng)的基本知識(shí)評(píng)價(jià)信息檢索系統(tǒng)的標(biāo)準(zhǔn)信息檢索系統(tǒng)的評(píng)價(jià),主要是用戶對所獲取的結(jié)果進(jìn)行評(píng)價(jià)。比如,是否喜歡

3、系統(tǒng),系統(tǒng)界面是否友好,是否能夠找到用戶所需要的信息。以下是評(píng)價(jià)信息檢索系統(tǒng)的5個(gè)指標(biāo): 信息是否完全 信息檢索的響應(yīng)時(shí)間 召回率 精度 自然程度5、索引創(chuàng)建過程6、 文檔(Document)與域(Field)是Lucene中的重要概念,事實(shí)上任何與索引文檔相關(guān)的操作,都是在document類與field類的基礎(chǔ)上實(shí)現(xiàn)的。 Document在lucene中是一種邏輯文件,Lucene本身無法對物理文件建立索引,只能識(shí)別處理Document類型的文件。 Document和物理文件沒有關(guān)系,是一種數(shù)據(jù)源的集合,負(fù)責(zé)向lucene提供原始的要索引的文本內(nèi)容。 NOTE:Document是負(fù)責(zé)收集數(shù)據(jù)

4、,甚至可以不使用物理文件來構(gòu)建,一段文本、幾個(gè)數(shù)字甚至是鏈接都可以作為構(gòu)建Document的數(shù)據(jù)源。7、Field的屬性一般分為3類1. 是否存儲(chǔ)2. 是否索引3. 是否分詞8、Lucene所以創(chuàng)建過程一般分為三個(gè)主要步驟:1. 將原始文檔轉(zhuǎn)為文本(Denormalization)2. 分析文本3. 將分析好的文本保存到索引中9、刪除索引中的文檔:deleteDocuments(Term) 刪除包含特定項(xiàng)的所有文檔deleteDocuments(Term ) 刪除包含數(shù)組任一元素的所有文檔deleteDocuments(Query) 刪除匹配查詢語句的所有文檔deleteDocuments(Q

5、uery ) 刪除匹配查詢語句數(shù)組任一元素的所有文檔deleteAll()刪除索引全部文檔,與writer先關(guān)閉在用參數(shù)create=true重新打開登記,deleteAll()方法好處是不用關(guān)閉writer10、使用IndexReader類的UndeleteALL()方法,可以恢復(fù)不是優(yōu)化方式(物理)刪除的文檔。 File indexDir = new File(“D:luceneIndex"); IndexReader ir = IndexReader.open(indexDir); ir.undeleteAll(); ir.close(); 11、加權(quán)是指對文檔和域的重要性通過

6、加權(quán)因子進(jìn)行人為地干預(yù)。 加權(quán)操作可以在索引期間完成,也可以在搜索期間完成。搜索期間的加權(quán)操作會(huì)更加動(dòng)態(tài)化, 每次搜索操作都可以根據(jù)不通的加權(quán)因子獨(dú)立選擇加權(quán)或者不加權(quán),但這個(gè)策略也可能要稍微多消耗點(diǎn)CPUX效率。NOTE:無論在什么時(shí)候進(jìn)行加權(quán)都需要小心,過多的加權(quán)操作,特別是在用戶界面沒有提示的相應(yīng)文檔已經(jīng)被加權(quán)操作的情況下。這可能會(huì)使用戶搜索到很多用戶不關(guān)心的東西(如百度的競價(jià)排名)。文檔的加權(quán)操作:doc.setBoots(float) 域的加權(quán)操作: Field subjectField =new Field("author", author,Field.Stor

7、e.YES,Field.Index.ANALYZED); subjectField. setBoots(1.2F);默認(rèn)的加權(quán)因子是1.0 12、(簡答題)實(shí)現(xiàn)簡單的搜索Lucene的搜索流程初始化Lucene的檢索工具類-IndexSearch類,這是Lucene中最基本的檢索工具,使用它之前要對IndexReader進(jìn)行初始化 (需要傳入一個(gè)保存索引文件的目錄參數(shù)到其構(gòu)造方法 ), IndexReader實(shí)例對象就可以使用對應(yīng)的API與存儲(chǔ)在索引中的文檔document進(jìn)行交互,在接受Query對象以用于搜索后,并返回TopDocs對象展現(xiàn)搜索結(jié)果。13、由上述的構(gòu)造方法可以看出,Inde

8、xReader實(shí)例對象的構(gòu)建一般有2種方式:其中指定到索引給出了兩種方式:1.給出索引的Directory;2.給出索引的IndexReader;14、近實(shí)時(shí)搜索 一種減少索引&搜索翻轉(zhuǎn)時(shí)間的方案(填空)近實(shí)時(shí)搜索:可以使用一個(gè)打開的IndexWriter快速搜索索引的變更內(nèi)容,而不必首先關(guān)閉writer,或者向該writer提交;這是2.9版本之后推出的新功能。應(yīng)用這種技術(shù)意味著不需要調(diào)用writer中的commit方法,然后再重新打開reader,這樣可以節(jié)省大量的系統(tǒng)資源,因?yàn)檎{(diào)用commit方法必須對索引中的所有文件進(jìn)行同步,這個(gè)同步操作對某些操作系統(tǒng)和文件系統(tǒng)來說通常是負(fù)擔(dān)很

9、重的。近實(shí)時(shí)搜索其實(shí)就是提供了一種方案允許用戶對新創(chuàng)建但還未完成提交的段進(jìn)行搜索。15、Lucene評(píng)分機(jī)制 Lucene如何評(píng)分16、Lucene多樣化查詢 Query類前面的例子我們已經(jīng)知道,Lucene查詢操作最終需要調(diào)用IndexSearch類的search方法,同時(shí)傳入Query實(shí)例對象作為參數(shù)。要獲取Query實(shí)例對象,可以通過Query的子類可以直接實(shí)例化,也可以使用用后面介紹的解析查詢表達(dá)式類QueryParser來得到。Lucene內(nèi)置的Query類型有: TermQuery TermRangeQuery NumericRangeQuery PrefixQuery Boole

10、anQuery WildcardQuery FuzzyQuery MatchAllQuery17、(填空題)lucene分析器一般會(huì)在下面三種時(shí)刻起作用: 1、建立索引期間 2、使用QueryParser對象解析查詢表達(dá)式進(jìn)行搜索時(shí) 3、搜索結(jié)果中高亮顯示被搜索內(nèi)容時(shí)(即結(jié)果摘要-Snippets的生成),也可能會(huì)用到分析操作18、一個(gè)語匯單元由文本值(即單詞本身)和元數(shù)據(jù)組成。 元數(shù)據(jù)包括:原始文本從起點(diǎn)與終點(diǎn)的偏移量、語匯單元的類型以及位置增量。上例中,語匯單元the起點(diǎn)偏移量為0,終點(diǎn)偏移量為3,類型為Word,與另外一個(gè)語匯單元quick的位置增量為1 。19、使用分析器Lucene內(nèi)

11、置分析器簡介 (簡答題)1、WhitespaceAnalyzer 僅僅是去除空格,對字符沒有l(wèi)owcase化,不支持中文;并且不對生成的詞匯單元進(jìn)行其他的規(guī)范化處理。2、SimpleAnalyzer 功能強(qiáng)于WhitespaceAnalyzer, 首先會(huì)通過非字母字符來分割文本信息,然后將詞匯單元統(tǒng)一為小寫形式。該分析器會(huì)去掉數(shù)字類型的字符。3、StopAnalyzer StopAnalyzer的功能超越了SimpleAnalyzer,在SimpleAnalyzer的基礎(chǔ)上增加了去除英文中的常用單詞(如the,a等),也可以更加自己的需要設(shè)置常用單詞;不支持中文。4、StandardAnaly

12、zer 英文的處理能力同于StopAnalyzer.支持中文采用的方法為單字切分。他會(huì)將詞匯單元轉(zhuǎn)換成小寫形式,并去除停用詞和標(biāo)點(diǎn)符號(hào)。20、21、lucene默認(rèn)根據(jù)匹配度對搜索結(jié)果降序排,如果對某個(gè)域進(jìn)行排序。 對搜索產(chǎn)生的結(jié)果可以進(jìn)行如下的排序操作: 1、按照相關(guān)性進(jìn)行排序(默認(rèn)) 2、根據(jù)域值進(jìn)行排序 3、根據(jù)文檔索引順序進(jìn)行排序4、通過多個(gè)域進(jìn)行排序5、自定義排序22、跨度查詢 Lucene允許按照詞在文本中的距離或者查詢幾個(gè)相鄰詞的查詢。打個(gè)比方:如“中華人民共和國” 用“中國“做為搜索條件,經(jīng)過分析器處理得到語匯單元為”中、國”, 跨度為某個(gè)值,如5??缍却?中 和國之間的長度。 Lucene是使用SpanQuery類來實(shí)現(xiàn)跨度查詢功能。其有6個(gè)子類,分別表示各種跨度查詢: SpanTermQuery

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論