移動(dòng)搜索引擎

上傳人：7*** IP屬地：湖北上傳時(shí)間：2022-01-17 格式：DOCX 頁數(shù)：12 大?。?87.67KB 積分：28 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩7頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、1、歷史：（選擇）搜索技術(shù)的歷史萌芽階段：Archie 、Gopher搜索技術(shù)的歷史起步階段：Robot 、Spider搜索技術(shù)的歷史發(fā)展階段： Excite 、Galaxy、Yahoo搜索技術(shù)的歷史繁榮階段： Infoseek 、Alta Vista、Google、Baidu2、搜索技術(shù)應(yīng)用現(xiàn)狀采用分布式體系結(jié)構(gòu)提高規(guī)模與性能搜索技術(shù)應(yīng)用現(xiàn)狀支持目錄式分類結(jié)構(gòu)和全文搜索現(xiàn)在的搜索引擎都在3代，4代的在發(fā)展中其中，第一代搜索引擎以早期 Yahoo 為代表，第二代以 Google 的創(chuàng)立為標(biāo)志，之后Google 經(jīng)過改進(jìn) Pagerank 和一系列技術(shù)，演化至第三代，而第四代搜索引擎有大量公

2、司如Cuil,Quora 探索，但還未形成成熟的產(chǎn)品。3、將信息分割成一個(gè)個(gè)關(guān)鍵字，并輔以關(guān)鍵字所在位置（例如第幾頁），從而構(gòu)成一個(gè)倒排基本單位。是根據(jù)關(guān)鍵字查相應(yīng)位置1.收集待建索引的原文檔(Document) 2.將原文檔傳給詞條化工具(Tokenizer)進(jìn)行文本詞條化 3.將第二步得到的詞條(Token)傳給語言分析工具(Linguistic modules)進(jìn)行語言學(xué)預(yù)處理，得到詞項(xiàng)(Term) 4.將得到的詞項(xiàng)(Term)傳給索引組件(Indexer),建立倒排索引4、信息檢索系統(tǒng)的基本知識(shí)評(píng)價(jià)信息檢索系統(tǒng)的標(biāo)準(zhǔn)信息檢索系統(tǒng)的評(píng)價(jià)，主要是用戶對所獲取的結(jié)果進(jìn)行評(píng)價(jià)。比如，是否喜歡

3、系統(tǒng)，系統(tǒng)界面是否友好，是否能夠找到用戶所需要的信息。以下是評(píng)價(jià)信息檢索系統(tǒng)的5個(gè)指標(biāo)：信息是否完全信息檢索的響應(yīng)時(shí)間召回率精度自然程度5、索引創(chuàng)建過程6、文檔（Document）與域（Field）是Lucene中的重要概念，事實(shí)上任何與索引文檔相關(guān)的操作，都是在document類與field類的基礎(chǔ)上實(shí)現(xiàn)的。 Document在lucene中是一種邏輯文件，Lucene本身無法對物理文件建立索引，只能識(shí)別處理Document類型的文件。 Document和物理文件沒有關(guān)系，是一種數(shù)據(jù)源的集合，負(fù)責(zé)向lucene提供原始的要索引的文本內(nèi)容。 NOTE：Document是負(fù)責(zé)收集數(shù)據(jù)

4、，甚至可以不使用物理文件來構(gòu)建，一段文本、幾個(gè)數(shù)字甚至是鏈接都可以作為構(gòu)建Document的數(shù)據(jù)源。7、Field的屬性一般分為3類1. 是否存儲(chǔ)2. 是否索引3. 是否分詞8、Lucene所以創(chuàng)建過程一般分為三個(gè)主要步驟：1. 將原始文檔轉(zhuǎn)為文本（Denormalization）2. 分析文本3. 將分析好的文本保存到索引中9、刪除索引中的文檔：deleteDocuments（Term）刪除包含特定項(xiàng)的所有文檔deleteDocuments（Term ）刪除包含數(shù)組任一元素的所有文檔deleteDocuments（Query）刪除匹配查詢語句的所有文檔deleteDocuments（Q

5、uery ）刪除匹配查詢語句數(shù)組任一元素的所有文檔deleteAll()刪除索引全部文檔，與writer先關(guān)閉在用參數(shù)create=true重新打開登記，deleteAll（）方法好處是不用關(guān)閉writer10、使用IndexReader類的UndeleteALL（）方法，可以恢復(fù)不是優(yōu)化方式（物理）刪除的文檔。 File indexDir = new File(“D:luceneIndex"); IndexReader ir = IndexReader.open(indexDir); ir.undeleteAll(); ir.close(); 11、加權(quán)是指對文檔和域的重要性通過

6、加權(quán)因子進(jìn)行人為地干預(yù)。加權(quán)操作可以在索引期間完成，也可以在搜索期間完成。搜索期間的加權(quán)操作會(huì)更加動(dòng)態(tài)化，每次搜索操作都可以根據(jù)不通的加權(quán)因子獨(dú)立選擇加權(quán)或者不加權(quán)，但這個(gè)策略也可能要稍微多消耗點(diǎn)CPUX效率。NOTE：無論在什么時(shí)候進(jìn)行加權(quán)都需要小心，過多的加權(quán)操作，特別是在用戶界面沒有提示的相應(yīng)文檔已經(jīng)被加權(quán)操作的情況下。這可能會(huì)使用戶搜索到很多用戶不關(guān)心的東西(如百度的競價(jià)排名)。文檔的加權(quán)操作：doc.setBoots(float) 域的加權(quán)操作： Field subjectField =new Field("author", author,Field.Stor

7、e.YES,Field.Index.ANALYZED); subjectField. setBoots(1.2F);默認(rèn)的加權(quán)因子是1.0 12、（簡答題）實(shí)現(xiàn)簡單的搜索Lucene的搜索流程初始化Lucene的檢索工具類-IndexSearch類，這是Lucene中最基本的檢索工具，使用它之前要對IndexReader進(jìn)行初始化 (需要傳入一個(gè)保存索引文件的目錄參數(shù)到其構(gòu)造方法 )， IndexReader實(shí)例對象就可以使用對應(yīng)的API與存儲(chǔ)在索引中的文檔document進(jìn)行交互，在接受Query對象以用于搜索后，并返回TopDocs對象展現(xiàn)搜索結(jié)果。13、由上述的構(gòu)造方法可以看出，Inde

8、xReader實(shí)例對象的構(gòu)建一般有2種方式：其中指定到索引給出了兩種方式：1.給出索引的Directory；2.給出索引的IndexReader；14、近實(shí)時(shí)搜索一種減少索引&搜索翻轉(zhuǎn)時(shí)間的方案（填空）近實(shí)時(shí)搜索：可以使用一個(gè)打開的IndexWriter快速搜索索引的變更內(nèi)容，而不必首先關(guān)閉writer，或者向該writer提交；這是2.9版本之后推出的新功能。應(yīng)用這種技術(shù)意味著不需要調(diào)用writer中的commit方法，然后再重新打開reader，這樣可以節(jié)省大量的系統(tǒng)資源，因?yàn)檎{(diào)用commit方法必須對索引中的所有文件進(jìn)行同步，這個(gè)同步操作對某些操作系統(tǒng)和文件系統(tǒng)來說通常是負(fù)擔(dān)很

9、重的。近實(shí)時(shí)搜索其實(shí)就是提供了一種方案允許用戶對新創(chuàng)建但還未完成提交的段進(jìn)行搜索。15、Lucene評(píng)分機(jī)制 Lucene如何評(píng)分16、Lucene多樣化查詢 Query類前面的例子我們已經(jīng)知道，Lucene查詢操作最終需要調(diào)用IndexSearch類的search方法，同時(shí)傳入Query實(shí)例對象作為參數(shù)。要獲取Query實(shí)例對象，可以通過Query的子類可以直接實(shí)例化，也可以使用用后面介紹的解析查詢表達(dá)式類QueryParser來得到。Lucene內(nèi)置的Query類型有： TermQuery TermRangeQuery NumericRangeQuery PrefixQuery Boole

10、anQuery WildcardQuery FuzzyQuery MatchAllQuery17、（填空題）lucene分析器一般會(huì)在下面三種時(shí)刻起作用： 1、建立索引期間 2、使用QueryParser對象解析查詢表達(dá)式進(jìn)行搜索時(shí) 3、搜索結(jié)果中高亮顯示被搜索內(nèi)容時(shí)（即結(jié)果摘要-Snippets的生成），也可能會(huì)用到分析操作18、一個(gè)語匯單元由文本值（即單詞本身）和元數(shù)據(jù)組成。元數(shù)據(jù)包括：原始文本從起點(diǎn)與終點(diǎn)的偏移量、語匯單元的類型以及位置增量。上例中，語匯單元the起點(diǎn)偏移量為0，終點(diǎn)偏移量為3，類型為Word，與另外一個(gè)語匯單元quick的位置增量為1 。19、使用分析器Lucene內(nèi)

11、置分析器簡介（簡答題）1、WhitespaceAnalyzer 僅僅是去除空格，對字符沒有l(wèi)owcase化,不支持中文；并且不對生成的詞匯單元進(jìn)行其他的規(guī)范化處理。2、SimpleAnalyzer 功能強(qiáng)于WhitespaceAnalyzer, 首先會(huì)通過非字母字符來分割文本信息，然后將詞匯單元統(tǒng)一為小寫形式。該分析器會(huì)去掉數(shù)字類型的字符。3、StopAnalyzer StopAnalyzer的功能超越了SimpleAnalyzer，在SimpleAnalyzer的基礎(chǔ)上增加了去除英文中的常用單詞（如the，a等），也可以更加自己的需要設(shè)置常用單詞；不支持中文。4、StandardAnaly

12、zer 英文的處理能力同于StopAnalyzer.支持中文采用的方法為單字切分。他會(huì)將詞匯單元轉(zhuǎn)換成小寫形式，并去除停用詞和標(biāo)點(diǎn)符號(hào)。20、21、lucene默認(rèn)根據(jù)匹配度對搜索結(jié)果降序排,如果對某個(gè)域進(jìn)行排序。對搜索產(chǎn)生的結(jié)果可以進(jìn)行如下的排序操作： 1、按照相關(guān)性進(jìn)行排序（默認(rèn)） 2、根據(jù)域值進(jìn)行排序 3、根據(jù)文檔索引順序進(jìn)行排序4、通過多個(gè)域進(jìn)行排序5、自定義排序22、跨度查詢 Lucene允許按照詞在文本中的距離或者查詢幾個(gè)相鄰詞的查詢。打個(gè)比方：如“中華人民共和國” 用“中國“做為搜索條件，經(jīng)過分析器處理得到語匯單元為”中、國”，跨度為某個(gè)值，如5?？缍却?中和國之間的長度。 Lucene是使用SpanQuery類來實(shí)現(xiàn)跨度查詢功能。其有6個(gè)子類，分別表示各種跨度查詢： SpanTermQuery

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

移動(dòng)搜索引擎

文檔簡介

溫馨提示

最新文檔

評(píng)論

移動(dòng)搜索引擎

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔