




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 郵局訂閱號(hào):82-946360元/年技術(shù)創(chuàng)新軟件時(shí)空PLC 技術(shù)應(yīng)用200例您的論文得到兩院院士關(guān)注楊海東:碩士生基于Hash 算法實(shí)現(xiàn)搜索引擎中重復(fù)WEB 頁(yè)面的消除Elim inated Duplicate Search WEB pages with Hash algorithm(南京信息工程大學(xué)楊海東葉小嶺張穎超Yang,Haidong Ye ,Xiaoling Zhang,Yingchao摘要:搜索引擎已經(jīng)成為互聯(lián)網(wǎng)用戶(hù)進(jìn)入網(wǎng)絡(luò)的一個(gè)重要入口。但目前搜索引擎的結(jié)果還存在著許多有待改進(jìn)的地方。本文從搜索引擎返回結(jié)果中存在的重復(fù)頁(yè)面入手,解決如何消除重復(fù)頁(yè)面,并對(duì)其將來(lái)的發(fā)展進(jìn)行了進(jìn)一步
2、探討。關(guān)鍵詞:網(wǎng)絡(luò)蜘蛛;搜索引擎;散列函數(shù);WEB 中圖分類(lèi)號(hào):TP394文獻(xiàn)標(biāo)識(shí)碼:AAbstract:As an important enterance to Internet,search Engine has also existed some shortcoming in gernal.This article discussedhow to eliminate duplicate web pages with Hash algorithm and described its future.Key words:WEB Crawl,Search Engine,HASH,WEB文章編號(hào):
3、1008-0570(200609-3-0299-031引言Internet 已經(jīng)成為一所巨大的信息資源寶庫(kù)。但是如何使用這個(gè)包含了一百多億個(gè)WEB 頁(yè)面的寶庫(kù),成為互聯(lián)網(wǎng)用戶(hù)面臨的一個(gè)難題,搜索引擎的出現(xiàn)與發(fā)展解決了這一問(wèn)題。經(jīng)過(guò)十幾年的發(fā)展,搜索引擎在收集頁(yè)面的數(shù)量及質(zhì)量都有了很大提高,已經(jīng)成為眾多互聯(lián)網(wǎng)用戶(hù)進(jìn)入網(wǎng)絡(luò)的一個(gè)重要入口。搜索引擎技術(shù)也成為最具活力和最有發(fā)展前途的技術(shù)之一。但同時(shí)我們也要注意到,搜索引擎也存在下列有待發(fā)展的地方:(1檢索的結(jié)果集中還存在相當(dāng)數(shù)量的重復(fù)頁(yè)面。這種重復(fù)包括兩種形式:一是同一站點(diǎn)出于保護(hù)自身的原因,在不同的域注冊(cè)了相同主機(jī)名的域名,實(shí)際上是指向同一IP 地
4、址。二是大型的網(wǎng)站為了方便不同地區(qū)的用戶(hù)訪(fǎng)問(wèn),或者緩解大量用戶(hù)對(duì)同一服務(wù)器訪(fǎng)問(wèn)造成的壓力,在不同的地理位置安裝物理服務(wù)器,形成鏡像站點(diǎn)。(2收集頁(yè)面的數(shù)量有待提高。目前使用量最大的搜索引擎google 收集了40多億WEB 頁(yè)面,Yahoo 也稱(chēng)收集了45億頁(yè)面。絕對(duì)數(shù)字雖然龐大,但這在互聯(lián)網(wǎng)上120多億的頁(yè)面中只占40%不到。需要開(kāi)發(fā)更強(qiáng)有力的網(wǎng)絡(luò)蜘蛛程序,基于鏈接進(jìn)行網(wǎng)絡(luò)遍歷的方式還需要改進(jìn)甚至革新。(3排序的結(jié)果還不能讓用戶(hù)非常滿(mǎn)意。更合理的排序方法一直是搜索引擎網(wǎng)站努力改進(jìn)的方向。影響排序結(jié)果的因素有兩個(gè):排序技術(shù)與商業(yè)因素。排序技術(shù)上,目前傳統(tǒng)的排序算法如PageRank 、HITS
5、 等算法都或多或少地存在一些缺陷,新的排序算法和主題相關(guān)性檢索正在進(jìn)入到搜索服務(wù)領(lǐng)域。由于現(xiàn)在搜索引擎是免費(fèi)提供給用戶(hù)使用,要依靠提供廣告服務(wù)或競(jìng)價(jià)排名,以維持網(wǎng)站的正常運(yùn)行,這樣在結(jié)果頁(yè)面中會(huì)出現(xiàn)相關(guān)的廣告內(nèi)容或者購(gòu)買(mǎi)競(jìng)價(jià)排名企業(yè)的網(wǎng)站。上述(2、(3點(diǎn),需要有新的技術(shù)出現(xiàn),第一點(diǎn)可以在現(xiàn)有基礎(chǔ)上進(jìn)行改進(jìn)。本文將討論基于Hash 算法消除在搜索引擎數(shù)據(jù)庫(kù)中的重復(fù)鏈接。2散列(Hash 算法Hash 算法,在中文中又叫散列算法、雜湊算法等,是將任意長(zhǎng)度的字符串作為輸入生成,經(jīng)過(guò)n 次迭代運(yùn)算后生成固定長(zhǎng)度的字符串的一種算法。Hash 算法是現(xiàn)代密碼學(xué)的核心,在數(shù)字簽名、身份認(rèn)證和口令鑒別等多個(gè)
6、安全領(lǐng)域都有應(yīng)用。在本文中,Hash 算法用來(lái)生成每個(gè)網(wǎng)頁(yè)的識(shí)別序列,在生成的序列唯一性方面要求很高,但對(duì)于安全性考慮較少,因而采用單向的Hash 算法。為了節(jié)省空間,同時(shí)又滿(mǎn)足系統(tǒng)的要求,Hash 結(jié)果的位數(shù)取128bit 。統(tǒng)計(jì)結(jié)果表明:如hash(m的長(zhǎng)度為128位(bit時(shí),則任意兩個(gè)分別為M1,M2的輸入報(bào)文具有完全相同的h(m的概率為10-24,即近于零的重復(fù)概率。它較人類(lèi)指紋的重復(fù)概率10-19還要小5個(gè)數(shù)量級(jí)。而當(dāng)我們?nèi)ash(m為384(bit乃至1024(bit時(shí),則更是不大可能重復(fù)了。目前Internet 中約有WEB 頁(yè)130億個(gè),超級(jí)鏈接約600億(10111024
7、。因而128bit 的Hash 序列位數(shù)在現(xiàn)在及未來(lái)的一段時(shí)間內(nèi)完全可以滿(mǎn)足要求。299-技術(shù)創(chuàng)新中文核心期刊微計(jì)算機(jī)信息(管控一體化2006年第22卷第9-3期 360元/年郵局訂閱號(hào):82-946現(xiàn)場(chǎng)總線(xiàn)技術(shù)應(yīng)用200例軟件時(shí)空2.1單向Hash 函數(shù)的定義及性質(zhì)映射對(duì)所有的,容易計(jì)算,但其逆過(guò)程,給定要求出在計(jì)算上是困難的,該函數(shù)稱(chēng)為單向函數(shù)。單向的Hash 函數(shù)除了具有Hash 函數(shù)動(dòng)態(tài)輸入、固定輸出、碰撞機(jī)率低的特點(diǎn)外,還具有下列三個(gè)特性:1不可逆性,已知,經(jīng)過(guò)數(shù)次非線(xiàn)性運(yùn)算和迭代運(yùn)算后,求計(jì)算困難。雖然最新文獻(xiàn)表明,Hash 算法已經(jīng)可以進(jìn)行逆運(yùn)算求出m 值,但本文使用Hash 函
8、數(shù)的目的是為了使序列具有唯一的值,對(duì)其安全性不作要求;2防偽造性,已知,求使計(jì)算困難,這一特性被應(yīng)用在數(shù)字簽名等安全應(yīng)用中;3初值敏感性,中m 的每一字符都與的每一bit 相關(guān),初值每個(gè)字符的變動(dòng),都將對(duì)結(jié)果值c 產(chǎn)生明顯影響。2.2Hash 值的構(gòu)造Hash 函數(shù)的構(gòu)造方法在很多文章和書(shū)籍里都有介紹。以MD5算法為例,它以512位作為分組(不滿(mǎn)足的條件的需要對(duì)信息對(duì)行擴(kuò)充,使得INFO mod 512=448來(lái)處理信息,每一分組又分32個(gè)子分組,經(jīng)過(guò)四次主循環(huán)進(jìn)行非線(xiàn)性函數(shù)運(yùn)算,加快其雪崩效應(yīng),最后得到固定長(zhǎng)度的128位Hash 序列。用Hash 函數(shù)可以生成MD5加密序列、SHA 序列等多
9、種形式,對(duì)于本文來(lái)說(shuō),序列的作用是進(jìn)行唯一性驗(yàn)證。因此采用常用的MD5算法生成定長(zhǎng)且唯一的Hash 序列,本文中所有的Hash 序列均為MD5序列。2.3初值敏感性驗(yàn)證對(duì)于上百億個(gè)WEB 頁(yè)面來(lái)說(shuō),為了能唯一標(biāo)識(shí)一個(gè)頁(yè)面,兩個(gè)URL 有細(xì)微的差別,其Hash 序列都應(yīng)該有大的變化,而且不同的URL 生成的序列應(yīng)該有極低的碰撞機(jī)率。下面構(gòu)造三個(gè)相似的URL 序列,利用Hash 函數(shù)將其轉(zhuǎn)化成MD5序列,列表如下:表1三個(gè)相似URL Hash 序列的對(duì)比表1表明:對(duì)于單向散列函數(shù),初始值微小的變化會(huì)使Hash 結(jié)果以很大的幅度變化,同時(shí)128位(32個(gè)十六制位不同的排列組合能夠產(chǎn)生大的空間來(lái)容納碰
10、撞的產(chǎn)生。3網(wǎng)絡(luò)蜘蛛對(duì)重復(fù)記錄的消除對(duì)于普通的頁(yè)面重復(fù),解決的方法主要依靠網(wǎng)絡(luò)蜘蛛的爬行算法在遍歷網(wǎng)絡(luò)結(jié)點(diǎn)時(shí)解決。這種解決方法類(lèi)似于數(shù)據(jù)結(jié)構(gòu)的圖的遍歷問(wèn)題,但WEB 中存在著不同于理論上圖的問(wèn)題,主要體現(xiàn)在兩個(gè)方面,一是同一個(gè)IP 地址對(duì)應(yīng)著不同的域名,如有些大型商業(yè)網(wǎng)站為了保護(hù)自己的知識(shí)產(chǎn)權(quán),會(huì)在不同的域中注冊(cè)相同或相似的域名,這樣在處理時(shí),網(wǎng)絡(luò)蜘蛛會(huì)把URL 形式不同,但卻指向同一主機(jī)的路徑和文件的鏈接當(dāng)成兩個(gè)不同的頁(yè)面進(jìn)行處理,在存在上百億頁(yè)面的Internet 上會(huì)造成大量的重復(fù)。二是把一個(gè)網(wǎng)站的鏡像(即同一個(gè)網(wǎng)站為了提供給不同地區(qū)的用戶(hù)快速訪(fǎng)問(wèn),分別就近設(shè)立了內(nèi)容完全相同但I(xiàn)P 不同
11、的站點(diǎn)當(dāng)成不同的網(wǎng)站進(jìn)行訪(fǎng)問(wèn),也造成搜索引擎返回頁(yè)面資源的極大浪費(fèi)。因此應(yīng)當(dāng)設(shè)計(jì)一個(gè)算法或結(jié)構(gòu)以避免出現(xiàn)上述兩種情況。3.1網(wǎng)絡(luò)中異名同址頁(yè)面結(jié)點(diǎn)的消除對(duì)異名同址的URL 進(jìn)行唯一性標(biāo)識(shí)。設(shè)有下面URL (以南京信息工程大學(xué)為例:(2與前兩個(gè)URL 也是等效的。上述三個(gè)URL 實(shí)際上是指向同一鏈接,在搜索引擎的數(shù)據(jù)庫(kù)中沒(méi)有必要放置三條記錄來(lái)標(biāo)識(shí)它們。對(duì)于這種情況,將域名轉(zhuǎn)化成IP 序列就可以得出唯一的ID 值,得到一個(gè)序列:“http:/+IP 地址+路徑”D41D8CD98F00B204E9800998ECF8427E (3式經(jīng)過(guò)轉(zhuǎn)換也得到同樣結(jié)果。3.2對(duì)同名異址的網(wǎng)頁(yè)進(jìn)行唯一性標(biāo)識(shí)同名(
12、或近似異址的在情況在Interne 中表現(xiàn)為鏡像站點(diǎn)的分布。在許多文獻(xiàn)中將鏡像站點(diǎn)歸為不同站點(diǎn)。但在實(shí)際應(yīng)用中,對(duì)于鏡像站點(diǎn)的訪(fǎng)問(wèn)只要其中一個(gè)就行了。對(duì)3.1中的例子,需要將IP 轉(zhuǎn)化為域名,得到形如“http:/+域名+路徑”00F4CC7599310F795FB4B19B6A13CCA9這樣在存儲(chǔ)URL 的數(shù)據(jù)庫(kù)結(jié)構(gòu)中就增加兩個(gè)字段:IP_ID 和Name_ID ,對(duì)應(yīng)著IP 和域名的序列,每搜索到一個(gè)URL ,都將域名部分和IP 部分進(jìn)行相互轉(zhuǎn)化,與存放在兩個(gè)字段中的值進(jìn)行比較。如果IP 地址相同,并不是簡(jiǎn)單地丟棄,而是將URL 以增量的方式添加在存放URL 的字段后,相同域名的URL
13、可以直300- 郵局訂閱號(hào):82-946360元/年技術(shù)創(chuàng)新軟件時(shí)空PLC 技術(shù)應(yīng)用200例您的論文得到兩院院士關(guān)注接丟棄。在存儲(chǔ)介質(zhì)容量劇增且價(jià)格下降的今天,這種以空間換效率的做法是可以接受的。這兩個(gè)序列通過(guò)一定的算法在遍歷網(wǎng)絡(luò)時(shí)生成,每個(gè)頁(yè)面的ID 長(zhǎng)度固定且必須唯一。bbs2. 的識(shí)別,需要依賴(lài)于網(wǎng)絡(luò)蜘蛛的智能性,即判斷URL 的相似程度及其父URL,如果URL 的相似度和內(nèi)容的相似度都高于設(shè)定的閾值,則認(rèn)為這些站點(diǎn)互為鏡像。3.3多線(xiàn)程網(wǎng)絡(luò)蜘蛛HASH 函數(shù)處理單個(gè)線(xiàn)程的網(wǎng)絡(luò)蜘蛛效率很低,在實(shí)際應(yīng)用中很少。為了能快速地收集URL 并進(jìn)行處理,網(wǎng)絡(luò)蜘蛛往往采用多線(xiàn)程技術(shù)。這就需要線(xiàn)程之間
14、相互協(xié)調(diào),實(shí)現(xiàn)負(fù)載的均衡,同時(shí)每個(gè)線(xiàn)程遵循上述單線(xiàn)程的規(guī)則。一個(gè)或幾個(gè)線(xiàn)程負(fù)責(zé)一個(gè)域的搜索,如讓10個(gè)線(xiàn)程負(fù)責(zé) 域的搜索。在搜索的過(guò)程中如果鏈接指向某線(xiàn)程負(fù)責(zé)域外的其它域,則將任務(wù)交給相關(guān)線(xiàn)程ID 。這樣分配的另外一個(gè)好處就是:線(xiàn)程i 在寫(xiě)入數(shù)據(jù)時(shí)不需要鎖定整個(gè)數(shù)據(jù)庫(kù),只需要鎖定部分區(qū)域就行了,其它線(xiàn)程可以正常工作。每個(gè)線(xiàn)程在將數(shù)據(jù)寫(xiě)入數(shù)據(jù)庫(kù)前,都要檢查該值是否已經(jīng)存在于數(shù)據(jù)庫(kù)中。在大型商用搜索引擎中不但使用多線(xiàn)程技術(shù),而且還需要多臺(tái)計(jì)算機(jī)并行地抓取WEB 頁(yè)面,這就要求除了選性能好的Hash 函數(shù)外,還要考慮負(fù)載的均衡性,這涉及到分布式系統(tǒng)的設(shè)計(jì),此處不作論述。4結(jié)束語(yǔ)在Internet 還
15、存在著這樣一種重復(fù)鏈接:由于相互引用而造成的內(nèi)容上的重復(fù)。它們屬于不同的網(wǎng)站,頁(yè)面的主體部分基本相同。這種重復(fù)雖然一定程度上浪費(fèi)了網(wǎng)絡(luò)資源,但它還有存在的必要性,因?yàn)槟壳暗木W(wǎng)絡(luò)還不穩(wěn)定,經(jīng)常有HTTP404(Not found 錯(cuò)誤發(fā)生,或者有些頁(yè)面下載過(guò)慢,多個(gè)相似頁(yè)面資源可以互相補(bǔ)充,將資源提供給用戶(hù)。因此這類(lèi)重復(fù)暫時(shí)不進(jìn)行去重操作。搜索引擎經(jīng)過(guò)幾代的發(fā)展,已經(jīng)在向更高的智能化邁進(jìn),但是在收集頁(yè)面數(shù)量、結(jié)果的排序及個(gè)性化方面還存在若干有待革新改進(jìn)的地方,搜索引擎市場(chǎng)的競(jìng)爭(zhēng)也日趨激烈,搜索引擎的發(fā)展還有很長(zhǎng)的一段路要走。本文的創(chuàng)新之處在于:利用Hash 結(jié)果的固定長(zhǎng)度和極低的碰撞機(jī)率,提出用
16、IP 地址的Hash 值和URL 的Hash 值來(lái)進(jìn)行頁(yè)面資源唯一性的確定,并給出了實(shí)例進(jìn)行說(shuō)明。這種方法在一定規(guī)模的模擬系統(tǒng)中取得了良好的效果。參考文獻(xiàn):3Chau,M.,Zeng,D.,and Chen,H.:Personalized Spiders for Web Search and Analysis.In Proceedings of the 1st ACM-IEEE Joint Conference on Digital Libraries,Roanoke,Virginia,USA,Jun 2001.4周先存,侯整風(fēng).一種基于ELGaml 簽名和零知識(shí)證明的身份認(rèn)證方案.微計(jì)算機(jī)信
17、息,2004.5:1146閆宏飛,李曉明.關(guān)于中國(guó)Web 的大小、形狀和結(jié)構(gòu).計(jì)算機(jī)研究與發(fā)展,2002.8:63-727張瀚,王秀峰等.基于時(shí)空混沌的單向Hash 函數(shù)構(gòu)造.物理學(xué)報(bào),2005.9:40-459李曉明,鳳旺森.兩種對(duì)URL 的散列效果很好的函數(shù).軟件學(xué)報(bào),2004.2:179-185:48-49作者簡(jiǎn)介:楊海東(1973-,男,漢族,碩士生,江蘇淮安人,主要從事網(wǎng)絡(luò)算法與技術(shù)研究;葉小嶺(1964-,女,滿(mǎn)族,副教授,碩士生導(dǎo)師,主要從事網(wǎng)絡(luò)系統(tǒng)安全、研究領(lǐng)域?yàn)閮?yōu)化方法與最優(yōu)控制;張穎超(1960-,男,漢族,江蘇徐州人,教授,碩士生導(dǎo)師,研究領(lǐng)域?yàn)橄到y(tǒng)控制和仿真、網(wǎng)絡(luò)控制技術(shù)等。Biography:
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 藥品經(jīng)營(yíng)質(zhì)量管理制度
- 藥品采購(gòu)預(yù)警管理制度
- 藥店辦公日常管理制度
- 藥店服務(wù)衛(wèi)生管理制度
- 莆田校外托管管理制度
- 薪酬福利職級(jí)管理制度
- 設(shè)備升級(jí)改造管理制度
- 設(shè)備定期檢定管理制度
- 設(shè)備日常使用管理制度
- 設(shè)備生產(chǎn)人員管理制度
- 北京化工大學(xué)研究生課程-碳材料工藝學(xué)第一講
- 大學(xué)語(yǔ)文試題及答案河北
- 高處安裝維護(hù)拆除作業(yè)培訓(xùn)
- 2025年中式烹調(diào)師(技師)理論考試筆試試題(50題)含答案
- DB61∕T 1914-2024 煤礦安全風(fēng)險(xiǎn)分級(jí)管控和隱患排查治理 雙重預(yù)防機(jī)制建設(shè)與運(yùn)行規(guī)范
- 種植二期手術(shù)護(hù)理配合
- 行政事業(yè)單位內(nèi)部控制工作中存在的問(wèn)題與遇到的困難
- 人工智能在醫(yī)療器械中的應(yīng)用-全面剖析
- 智慧農(nóng)旅綜合體項(xiàng)目可行性研究報(bào)告(參考范文)
- 2025年標(biāo)準(zhǔn)離婚協(xié)議書(shū)范本完整版
- 四川2024年11月四川南充市人民政府辦公室遴選(考調(diào))工作人員3人國(guó)家公務(wù)員考試消息筆試歷年典型考題(歷年真題考點(diǎn))解題思路附帶答案詳解
評(píng)論
0/150
提交評(píng)論