


下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
分布式搜索引擎研究
關(guān)鍵詞分布,搜索引擎,遠(yuǎn)程教育,HJ-YHS隨著Internet迅速發(fā)展,WWW(WorldWideWeb簡(jiǎn)稱WWW)已成為一個(gè)巨大的信息空間,為用戶提供了極具價(jià)值的信息資源。而面對(duì)大量的信息資源,通過瀏覽器一步步瀏覽已十分不便,如何快捷、準(zhǔn)確地從WWW上獲取所需信息,成為至關(guān)重要的問題。搜索引擎的出現(xiàn),大大提高了人們搜集信息的能力。然而,現(xiàn)有的搜索引擎在搜索效率、信息維護(hù)、信息重復(fù)、網(wǎng)絡(luò)及站點(diǎn)、負(fù)載等方面還存在著問題和困難。目前,從體系結(jié)構(gòu)上看,大部分搜索引擎是集中式的。即從Internet上取回頁(yè)面,經(jīng)過分析、處理后將所有的索引信息集中存儲(chǔ)在某個(gè)站點(diǎn),用戶通過訪問該站點(diǎn)實(shí)現(xiàn)查詢。它們之間通常沒有什么協(xié)作,各自獨(dú)立搜索和處理信息,造成了大量的重復(fù)工作和嚴(yán)重的帶寬浪費(fèi),有時(shí)甚至能造成網(wǎng)絡(luò)阻塞。這種體系結(jié)構(gòu)難以適應(yīng)網(wǎng)絡(luò)規(guī)模的日益擴(kuò)大,業(yè)界已紛紛提出建立分布式搜索引擎的策略。1分布式搜索引擎分布式搜索引擎是根據(jù)地域、主題、IP地址及其它的劃分標(biāo)準(zhǔn)將全網(wǎng)分成若干個(gè)自治區(qū)域,在每個(gè)自治區(qū)域內(nèi)設(shè)立一個(gè)檢索服務(wù)器,而每個(gè)檢索服務(wù)器由信息搜索機(jī)器人、索引搜索軟件數(shù)據(jù)庫(kù)和代理三部分組成。信息搜索機(jī)器人負(fù)責(zé)本自治區(qū)域內(nèi)的信息搜索,并建立索引信息存入索引數(shù)據(jù)庫(kù)。代理負(fù)責(zé)向用戶提供查詢接口,并與其它代理進(jìn)行互換,實(shí)現(xiàn)檢索服務(wù)器之間的信息交換,且查詢可以重定向,即如果一個(gè)索引數(shù)據(jù)庫(kù)沒有滿足查詢要求,它可以將查詢請(qǐng)求發(fā)送到其它檢索服務(wù)器上。1.1分布式搜索引擎體系結(jié)構(gòu)它與集中式搜索引擎相比有以下優(yōu)點(diǎn):各檢索服務(wù)器之間相互共享資源,站點(diǎn)只向本自治區(qū)域內(nèi)的信息搜索機(jī)器人提供信息,減輕了網(wǎng)絡(luò)及各站點(diǎn)的負(fù)載。各代理之間的相互協(xié)作及查詢重定向使得提供的服務(wù)更完善。與Web本身的分布式特性相適應(yīng),具有良好的可擴(kuò)充性,便于維護(hù)。索引信息劃分到各自的索引數(shù)據(jù)庫(kù)中,使得各索引數(shù)據(jù)庫(kù)相對(duì)較小,查詢的響應(yīng)時(shí)間相對(duì)較短。部分檢索服務(wù)器發(fā)生故障時(shí),其它部分能正常工作。Web服務(wù)器集群是一種典型的分布式處理系統(tǒng)。所謂Web集群就是采用高速網(wǎng)絡(luò),將原來獨(dú)立的若干個(gè)服務(wù)器聯(lián)結(jié)起來,作為一個(gè)整體提供服務(wù),把到達(dá)的請(qǐng)求分配到集群中的各個(gè)后臺(tái)服務(wù)器上,讓它們分?jǐn)傌?fù)載及I/O,通過并行處理提高性能。此時(shí)涉及到請(qǐng)求分配器及負(fù)載平衡的技術(shù)問題。請(qǐng)求分配器集中所有用戶的請(qǐng)求,然后將這些請(qǐng)求分配到各檢索服務(wù)器中進(jìn)行并行處理。目前此技術(shù)的實(shí)現(xiàn)方法主要有IPTranslation、TCPProxy、DynamicDNS和HTTPRedirection,相應(yīng)的典型產(chǎn)品有Cisco的LocalDirector、DistributedDirector、IBM的NetworkDispatcher、UIUCNCSA的ScalableWebServer等。目前請(qǐng)求分配器多采用TCPProxy技術(shù)。每個(gè)請(qǐng)求都由客戶程序發(fā)起建立一個(gè)獨(dú)立的TCP連接,應(yīng)答結(jié)束后由服務(wù)器拆除該連接。在TCPProxy技術(shù)中,請(qǐng)求分配器主要完成以下任務(wù)接收用戶的信息請(qǐng)求,并將其轉(zhuǎn)發(fā)給檢索服務(wù)器;接收檢索服務(wù)器返回的查詢結(jié)果,并將其轉(zhuǎn)發(fā)給客戶;如果一端中斷TCP連接,立即中斷另一端的TCP連接。為了提高請(qǐng)求分配器的效率和吞吐能力多采用多線程和多路阻塞式I/O技術(shù),如Microsoft的InternetInformationServer和Netscape的EnterpriseServer就是采用這兩種技術(shù)。請(qǐng)求分配器的連接監(jiān)聽進(jìn)程接收到一個(gè)來自客戶機(jī)的TCP連接后,立即在內(nèi)存中生成一個(gè)Worker進(jìn)程。此后的工作,包括建立與服務(wù)器的TCP連接、接收和發(fā)送數(shù)據(jù)、拆除連接等,均由該線程完成。應(yīng)答結(jié)束后,請(qǐng)求分配器立即從內(nèi)存中刪除該線程。多路阻塞式I/O是通過調(diào)用Select原語(yǔ)實(shí)現(xiàn)的,每個(gè)Worker進(jìn)程用這種方法同時(shí)監(jiān)聽與客戶機(jī)和服務(wù)器的兩個(gè)TCP連接。接收數(shù)據(jù)時(shí),如果沒有數(shù)據(jù)到達(dá),Select使線程處于一種開銷極小的休眠狀態(tài),一旦有數(shù)據(jù)到達(dá),立即退出休眠狀態(tài),啟動(dòng)接收過程接收數(shù)據(jù)。發(fā)送數(shù)據(jù)也如此。負(fù)載平衡一般是通過請(qǐng)求分配器選擇目標(biāo)檢索服務(wù)器來實(shí)現(xiàn)的。目前常用的請(qǐng)求分配算法主要有“輪轉(zhuǎn)法”、“最少連接法”和“最快連接法”三種。為有效提高請(qǐng)求分配器算法效率,并使算法能夠適應(yīng)異構(gòu)服務(wù)器集群,應(yīng)使請(qǐng)求分配器知道每臺(tái)檢索服務(wù)器的處理能力,并能夠?qū)邮盏拿恳挥脩粽?qǐng)求的內(nèi)容進(jìn)行分析,同時(shí)應(yīng)能夠準(zhǔn)確地跟蹤各個(gè)服務(wù)器的負(fù)載情況。Web服務(wù)器的集群技術(shù)使得處理能力更強(qiáng),I/O帶寬加大,擴(kuò)展性好,可靠性高,且容易管理,成本降低。常見的并行Web服務(wù)器集群主要有兩種組成方式:以Cisco的LocalDirector為代表的“隔離式”,采用“最少連接法”或“最快連接法”進(jìn)行請(qǐng)求分配。以NCSA的ScalableWebServer為代表的“非隔離式”,采用“輪轉(zhuǎn)法”進(jìn)行請(qǐng)求分配。無論哪種方式,都要求后臺(tái)服務(wù)器上的Web信息的訪問路徑和內(nèi)容要完全一樣。二者的區(qū)別在于這些服務(wù)器在Internet上對(duì)用戶是否可見?!案綦x式”集群采用類似于Proxy技術(shù),只有請(qǐng)求分配器具有一個(gè)對(duì)外的IP地址,所有的用戶請(qǐng)求都發(fā)往請(qǐng)求分配器,然后再由請(qǐng)求分配器將請(qǐng)求發(fā)到集群中的各后臺(tái)服務(wù)器去處理,返回結(jié)果也由請(qǐng)求分配器返回給客戶?!胺歉綦x式”集群中的每臺(tái)服務(wù)器都有獨(dú)立的IP地址,請(qǐng)求分配經(jīng)過動(dòng)態(tài)DNS等實(shí)現(xiàn),對(duì)請(qǐng)求的應(yīng)答不通過請(qǐng)求分配器,而直接由服務(wù)器傳給客戶。2分布式搜索引擎實(shí)例以江蘇省邗江中學(xué)遠(yuǎn)程教育信息資源搜索系統(tǒng)——遠(yuǎn)航搜索系統(tǒng)(簡(jiǎn)稱HJ-YHS)為例。社會(huì)的不斷進(jìn)步和科學(xué)技術(shù)的發(fā)展,教育的各個(gè)方面包括教育思想、觀念、教育手段及方式都應(yīng)作出相應(yīng)改革。傳統(tǒng)的教育方式遠(yuǎn)遠(yuǎn)不能滿足時(shí)代發(fā)展的需要。信息時(shí)代教學(xué)的一個(gè)重要手段就是引入基于WWW的交互式遠(yuǎn)程教育。而Internet上資源分散,數(shù)據(jù)類型多,地址變動(dòng)大,要想迅速找到所需信息并不容易。因此,要將Internet上的信息資源進(jìn)行集中、分類、整理,建立基于WWW的信息資源導(dǎo)航庫(kù),讓用戶根據(jù)自己的需求快速找到所需資源。HJ-YHS就是基于以上背景而進(jìn)行開發(fā)設(shè)計(jì),旨在通過建立分布式搜索引擎技術(shù),提高遠(yuǎn)程教育中信息資源的搜索效率和精度。1.2.1應(yīng)用體系總體結(jié)構(gòu)及功能實(shí)現(xiàn)HJ-YHS系統(tǒng)以WindowsNT4.0為開發(fā)平臺(tái),采用ASP(ActiveServerPage)實(shí)現(xiàn)查詢頁(yè)面的動(dòng)態(tài)生成及結(jié)果顯示,后臺(tái)的Web服務(wù)器采用IIS4.0,數(shù)據(jù)庫(kù)服務(wù)器采用SQLServer7.0以提供數(shù)據(jù)服務(wù),Web客戶端安裝95/98操作系統(tǒng)及IE4.0等瀏覽器,開發(fā)工具使用VisualInterDev6.0或VB6.0等。HJ-YHS特點(diǎn)是:以教育信息、學(xué)術(shù)內(nèi)容為主,服務(wù)對(duì)象為各類中學(xué)和教育部門,信息資源也以學(xué)術(shù)水準(zhǔn)為選擇條件。按預(yù)先定義好的專題,有選擇性的搜索相關(guān)網(wǎng)頁(yè),避免無關(guān)的Web網(wǎng)頁(yè),并將索引信息存入索引數(shù)據(jù)庫(kù)。對(duì)產(chǎn)生的大量初步檢索結(jié)果進(jìn)行分析、歸類,根據(jù)用戶交互反饋信息進(jìn)一步縮小檢索范圍,提高檢索精度。2.1.1HJ-YHS體系結(jié)構(gòu):2.1.2系統(tǒng)功能模塊:網(wǎng)頁(yè)搜索模塊:負(fù)責(zé)定期啟動(dòng)網(wǎng)頁(yè)搜集系統(tǒng),根據(jù)給定的站點(diǎn)名在指定的范圍內(nèi)搜集信息。信息分析模塊:對(duì)搜集到的網(wǎng)頁(yè)進(jìn)行分析、整理,提取關(guān)鍵字和摘要,將索引信息存入索引數(shù)據(jù)庫(kù)。資源上載模塊:接收客戶端的上載文件,并將文件上載至Web服務(wù)器端特定目錄中,同時(shí)將有關(guān)信息添加到索引數(shù)據(jù)庫(kù)中,該模塊只允許擁有相應(yīng)權(quán)限的用戶使用。ASP信息檢索模塊:由用戶查詢界面啟動(dòng),提供三種查詢方式:即基于關(guān)鍵字的查詢、學(xué)科分類查詢和按年級(jí)查詢。基于內(nèi)容的查詢根據(jù)用戶提交的信息產(chǎn)生二級(jí)查詢界面,進(jìn)一步明確搜索意向,然后綜合所有用戶信息對(duì)網(wǎng)頁(yè)的全文進(jìn)行查詢;基于學(xué)科分類和年級(jí)的查詢可根據(jù)用戶的需求,在指定范圍內(nèi)進(jìn)行檢索。動(dòng)態(tài)頁(yè)面生成模塊:按相關(guān)度大小輸出結(jié)果。動(dòng)態(tài)生成的頁(yè)面中給出查詢產(chǎn)生的頁(yè)面標(biāo)題,URL地址,內(nèi)容摘要等。靜態(tài)頁(yè)面生成模塊:按學(xué)科專業(yè)目錄分類。靜態(tài)頁(yè)面生成模塊根據(jù)目錄生成不同分類的靜態(tài)頁(yè)面綜上所述,基于分布式搜索引擎技術(shù)的優(yōu)點(diǎn),及全球互聯(lián)網(wǎng)上信息資源的迅速增加,在遠(yuǎn)程教育領(lǐng)域內(nèi),分布式搜索引擎技術(shù)將會(huì)得到更廣泛的發(fā)展。參考文獻(xiàn)
1朱義軍,馬范援,白英彩.分布式搜索引擎與Z39.50協(xié)議.世界網(wǎng)絡(luò)與多媒體,Jan.1999
2翁惠
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 轉(zhuǎn)讓露營(yíng)設(shè)備合同協(xié)議
- 消殺委托協(xié)議書
- 浙江小學(xué)三年級(jí)上冊(cè)數(shù)學(xué)應(yīng)用題100道及答案
- 滑板合作協(xié)議書
- 辣白菜購(gòu)銷合同協(xié)議
- 無償救助協(xié)議書
- 遺產(chǎn)捐贈(zèng)協(xié)議書范本
- 更改扶養(yǎng)協(xié)議書
- 提前終止房屋租賃合同協(xié)議書
- 合同簽訂履行證明文書(7篇)
- 養(yǎng)殖場(chǎng)獸醫(yī)診斷與用藥制度范本
- 12-漏纜卡具安裝技術(shù)交底
- 《銷售管理實(shí)務(wù)》(李寧)011-5 教案 第9課 編制銷售預(yù)算
- 物業(yè)管家的五層修煉物業(yè)金牌管家培訓(xùn)課件
- 業(yè)主共有資金管理制度
- 東芝空調(diào)維修故障代碼
- 校園攝影作品說明范文(熱門6篇)
- 房建裝修修繕工程量清單
- 乳品行業(yè)-無菌包裝機(jī)培訓(xùn)資料3
- 關(guān)于中國(guó)文化遺產(chǎn)北京故宮的資料
- BS EN ISO 15848-1-2015 工業(yè)閥-逸散性排放的測(cè)量、試驗(yàn)和鑒定程序(中文)
評(píng)論
0/150
提交評(píng)論