文獻(xiàn)網(wǎng)絡(luò)計(jì)算機(jī)網(wǎng)絡(luò) 外文文獻(xiàn) 英文文獻(xiàn) 外文翻譯探討搜索引擎爬蟲(chóng)

上傳人：上*** IP屬地：江蘇上傳時(shí)間：2018-03-25 格式：DOC 頁(yè)數(shù)：7 大?。?00KB 積分：20 舉報(bào) 版權(quán)申訴

文獻(xiàn)網(wǎng)絡(luò)計(jì)算機(jī)網(wǎng)絡(luò) 外文文獻(xiàn) 英文文獻(xiàn) 外文翻譯探討搜索引擎爬蟲(chóng)_第2頁(yè)

文獻(xiàn)網(wǎng)絡(luò)計(jì)算機(jī)網(wǎng)絡(luò) 外文文獻(xiàn) 英文文獻(xiàn) 外文翻譯探討搜索引擎爬蟲(chóng)_第3頁(yè)

文獻(xiàn)網(wǎng)絡(luò)計(jì)算機(jī)網(wǎng)絡(luò) 外文文獻(xiàn) 英文文獻(xiàn) 外文翻譯探討搜索引擎爬蟲(chóng)_第4頁(yè)

文獻(xiàn)網(wǎng)絡(luò)計(jì)算機(jī)網(wǎng)絡(luò) 外文文獻(xiàn) 英文文獻(xiàn) 外文翻譯探討搜索引擎爬蟲(chóng)_第5頁(yè)

已閱讀5頁(yè)，還剩2頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

131516171819202123271FLRLHTML24JOLIVERAFOR1ANIINGPROCEEDINGSOF213NATIONALCONFERENCEONCHALLENGESALLLINKSINTHATROOLHTMLPAGEARCTLIRCCTSONSOFTHEROOTSUBSEQUENTLINKSARETHENSONSOFLHEPREVIOUSSONSASINGLEURLSERVERSERVESLISTSOFURLSTOANUMBEROFCRAWLERSWEBCRAWLERSTARTSBYPARSINGASPECIFIEDWEBPAGE,NOTINGANYHYPERTEXTLINKSONTHALPAGETHATPOINTTOOTHERWEBPAGESTHEYTHENPARSETHOSEPAGESFORNEWLINKS,ANDSOON,RECURSIVELYWEBCRAWLERSOFTWAREDOCSIILACTUALLYMOVEAROUNDLODIFCRCNLCOMPUTERSONTHEHILCRAELASVIRUSESORINTELLIGENTAGENTSDOEACHCRAWLCRKEEPSROUGHLY300CONNECTIONSOPENATONCCTHISISNCCCSSARYTORETRIEVEWEBPAGESALAFASTENOUGHPACCACRAWLCRRESIDESONASINGLEMACHINETHECRAWLCRSIMPLYSENDSHTTPREQUESTSFORDOCUMENTSLOOTHERMACHINESONTHELNLEMCL,JUSTASAWEBBROWSERDOCSWHENTHEUSERCLICKSONLINKSALLTHECRAWLCRREALLYDOESISLOAUTOMATETHEPROCESSOFFOLLOWINGLINKSWEBCRAWLINGCANBEREGARDEDASPROCESSINGITEMSINAQUEUEWHENTHECRAWLWVISITSAWEBPAGE,ITEXTRACTSLINKSTOOTHERWEBPAGESSOLHECRAWLCRPUTSTHESEURLSATLHEENDOFAQUEUE,ANDCONLINUESCRAWLINGTOAURLTHATITREMOVESFROMLHEFRONTOFTHEQUEUE1ARESOURCECONSTRAINTSCRAWLCRSCONSUMCRESOURCESNETWORKBANDWIDTHTODOWNLOADPAGES,MEMORYLONIAINLAINPRIVATEDATASTRUCTURESINSUPPORTOFLLIEIRALGORITHMS,CPUTOEVALUATEANDSELECTURLS,ANDDISKSTORAGEOSTORETFIELEXLANDLINKSOFFETCHEDPAGESASWELLASOTHERPERSISTENTDATABROBOTPROTOCOLTHEROBOTTXTFILEGIVESDIRECTIVESFOREXCLUDINGAPORTIONOFAWEBSITELOBECRAWLCILANALOGOUSLY,ASIMPLETCXFILECANFURNISHINFORMATIONABOUTTHEFRESHNESSANDPOPULARITYOFPUBLISHEDOBJECTSTHISINFORMATIONPERMITSACRAWLCRTOOPTIMIZEITSSTRATEGYFORREFRESHINGCOLLECTEDDALAASWELLASREPLACINGOBJECTPOLICYCMETASEARCHENGINEANICTASCARCHENGINEISHEKINDOFSEARCHENGINETHATDOESNOTHAVEITSOWNDATABASEOFWEBPAGESITSENDSSEARCHTERMSIOLHEDATABASESMAINLAMEDBYOTHERSEARCHENGINESANDGIVESUSERSLHERESULTTHATCOMEFROMALLTHESEARCHENGINESQUERIEDFEWERMETASEARCHERSALLOWYOUTODELVEINTOTHELARGEST,MOSTUSEFULSEARCHENGINEDATABASESTHEYTENDTORETURNRESULTSFROMSMALLERAND/ORFREESEARCHENGINESANDMISCELLANEOUSFREEDIRECTORIES,OFTENSMALLANDHIGHLYCOMMCRCIALVCRAWLINGTECHNIQUESAFOCUSEDCRAWLINGAGENERALPURPOSEWEBCRAWLERGATHERSASMANYPAGESASILCANFROMAPARTICULARSETOFURLSWHEREASAFOCUSEDCRAWLERISDESIGNEDLOONLYGATHERDOCUMENTSONASPECIFICTOPIC,THUSREDUCINGTHEAMOUNTOFNETWORKTRAFFICANDDOWNLOADSI“HCGOALOFIHCFOEUSEDCRAWICRISTOSELECTIVELYOUTPAGESTHALARERELEVANTLOAPREDEFINEDSETOFTOPICS,TOPICSARESPECIFIEDNOLUSINGKEYWORDS,BUTUSINGEXEMPLARYDOCUMENTSRATHERTHANCOLLECLINGANDINDEXINGALLACCESSIBLCAVEBDOCUMENTSLOBEABLELOANSWERALLPOSSIBLEADHOCQUERIES,AIOCUSCTLCRAWICRANALYZESITSCRAWLBOUNDARYLOFINDIHCLINKSLHALARCLIKELYLOBEMOSTRELEVANTFORTHECRAWL,ANDAVOIDSIRRELEVANTREGIONSOFIHEWEBTHISLEADSTOSIGNIFICANTSAVINGSINHARDWAREANDNETWORKRESOURCES,ANDHELPSKEEPTHECRAWLMOREUPTODATETHEFOCUSCDCRAWICRHASTHREEMAINCOMPONENTSACLASSIFICR,WHICHMAKESRELEVANCCJUDGMENTSONPAGES,CRAWLEDTODECIDEONLINKEXPANSION,ADISTILLERWHICHDELEMUNESAMEASUREOFCENTRALITYOFCRAWLEDPAGESTODETERMINEVISITPRIORITIES,ANDACRAWLERWITHDYNAMICALLYRECONFIGURABLCPRIORITYCONTROLSWHICHISGOVERNEDBYTHECLASSIFICRANDDISTILLERIHCMOSTCRUCIALEVALUATIONOFFOCUSCDCRAWLINGISTOMEASURETHEHARVESTRALIO,WHICHISRALEALWHICHRELEVANTPAGESAREACQUIREDAIUIIRRELEVANTPAGESARCEFFECTIVELYFILTEREDOFFFROMIHECRAWLTHISHARVESLRATIOMUSLBEHIGH,OTHERWISETHEFOCUSEDCRAWLERWOULDSPENDALOTOFLIMEMERELYELIMINATINGIRRELEVANTPAGES,ANDITMAYBEBETTERLOUSEANORDINARYCRAWICRINSTEAD17BDISTRIBUTEDCRAWLINGINDEXINGTHEWEBISACHALLENGEDUETOITSGROWINGANDDYNAMICNATUREASIHCSIZEOFIHCWEBISGROWINGITHASBECOMEIMPERATIVETOPARALLELIZETHECRAWLINGPROCESSINORDERTOFINISHDOWNLOADINGIHEPAGESINAREASONABLEAMOUNTOFTIMEASINGLECRAWLINGPROCESSEVENIFMULTITHRCADMGISUSEDWILLBEINSUFFICIENTFORLARGESCALEENGINESTHATNEEDTOFETCHLARGEAMOUNTSOFDATARAPIDLYWHENASINGLECENTRALIZEDCRAWICRISUSEDALLTHEFETCHEDDATAPASSESTHROUGHASINGLEPHYSICALLINKDISLNBUTINGTHECRAWLINGACTIVITYVIAMULTIPLEMOCESSCSCANHELPBUILDASCALABLE,EASILYCONFIGURABLESYSTEM,WHICHISFAULTTOLERANTSYSTEMSPLITTINGIHELOADDECREASESHARDWAREREQUIREMENTSANDATIHCSAMELIMEINCREASESIHCOVERALLDOWNLOADSPEEDANDRELIABILITYIVACHTASKISPERFORMEDINAIULLYDISTRIBUTEDFASHION,THATIS,NOCCNTRALCOORDINATOREXISTS3JVIIROBLKMOFSELRCTINGMORI“INITIRFSHNCI”O(jiān)BJECTSASCARCHENGINEISAWAREOFHOTTOPICSBCCAUSCILCOLLCCTSUSERQUERIESTHECRAWLINGPROCCSSPNONTIZESURLSACCORDINGLOANIMPORTANCEMETRICSUCHASSIMILARITYLOADRIVINGQUERY,BACKLINKCOUNT,PAGERANKORTHEIRCOMBMATIONSARIATIONS8J,9JRCCCNLLYNAJORKCLALSHOWEDTHATBRCADLHFIRSLSCARCHCOLLECTSHIGHQUALITYPAGESFIRSTANDSUGGESTEDAVARIANTOFPAGERANK10HOWEVER,ALIHEMOMENT,SEARCHSTRATEGIESAREUNABLETOEXACTLYSELECTTHEBEST”P(pán)ATHSBECAUSE丨HEIRKNOWLEDGEISONLYPARTIALDUETOTHEENORMOUSAMOUNTOFINFORMATIONAVAILABLEONTHEINTERNETATOTALCRAWLINGISATTHEMOMENTIMPOSSIBLE,THUS,PRUNESTRATEGIESMUSTBEAPPLIEDFOCUSEDCRAWLING11,12ANDINTELLIGENTCRAWLING13J,ARETECHNIQUESFORDISCOVERINGWEBPAGESRELEVANTLOASPECIFICTOPICORSCLOFTOPICS14CONCLUSIONINTHISPAPERWECONCLUDETHALCOMPLETEWEBCRAWLINGCOVERAGECANNOTBEACHIEVED,DUELOIHEVASTSIZEOFIHEWHOLEWWWANDTORESOURCEAVAILABILITYUSUALLYAKINDOFTHRESHOLDISSETUPNUMBEROFVISITEDURLS,LEVELINIHCWEBSILETREE,CONIPLIANCCWITHATOPIC,ETCLOLIMITIHCCRAWLINGPROCESSOVERASELCCLCDWCBSILCTHISINFOMIALIONISAVAILABLEINSCARCHENGINESTOSLORE/REFRCSHMOSTRELEVANTANDUPDATEDWEBPAGES,THUSIMPROVINGQUALITYOFRETRIEVEDCONTENTSWHILEREDUCINGSTALECONTCNTANDMISSINGPAGESREFERENCES1GARCIAMOLINA,HECTORSEARCHINGIHCWEBAUGUST2001HLLP/OAKCSUCLAEDU/CHOPAPERII/CHOLOIL01PDF2GROSSAN,B“SCARCHENGINESWHATTHEYARC,HOWTHEYWORK,ANDPRACTICALSUGGESTIONSFORGETTINGIHCMOSTOUTOFTHEM,”FEBRUARY19973HTTP/WWWWEBRCFCRCNCCCOM4BALDI,PIERREMODELINGTHERNTEMCTANDTHEWEBIROBABILISTICMETHODSANDALGORITHMS,20035PANT,GAULAM,PADMINISRINIVASAIIANDFILIPPOMEIICZERCRAWLINGIHEWEB,20036JHTTPDOLLARBIZUIOWAEDU/PANTTAPERSCRAWLINGPDF7CHAKRABARLI,SOUMCNMININGIHCWEBANALYSISOFHYPERTEXTANDSENUSTRUCTUREDDATA,20038JHLTP/WWWGOOGLECOIN/9JMARINABUZZI,COOPERATIVECRAWLINGPROCEEDINGSOFTHEFIRSTLATINAMERICANWEBCONGRESSLAWEB20030769520588/031700K2003IEEE10JCHOHGARCIAMOIINA,LPAGE,“ELLKICNLCRAWLINGIHROUGHLRRLORDERING”WWW7COMPUTERNETWORKS3017161172199811ARASU,JCHO,IIGARCIAMOIINA,APAEPCKC,SRAGHAVAN,“SEARCHINGIHCWEB”，ACMTRANSACTIONSONINTERNETTCCHNOLOGV,VOLI,NUMI,AUGUST200I,PP24312JMNAJORKJWIENER,“BREADTHFIRSTCRAWLINGYIELDSHIGHQUALITYPAGES”，WWW2001PPIN118第二II怡息技術(shù)雜國(guó)學(xué)術(shù)“挑戰(zhàn)和機(jī)會(huì)”研討會(huì)論文集探討搜索引擎爬蟲(chóng)MPSBHATIA，DIVYAGUPTA內(nèi)塔告薩布哈技術(shù)研究所，印度徳H1大學(xué)M德里工程紀(jì)念中學(xué)，印度徳狙大學(xué)隨蔚網(wǎng)絡(luò)難以想象的急劇擴(kuò)張，從WEB屮提取知識(shí)逐漸正在成為一個(gè)受歡迎的茁耍途徑。這是山于網(wǎng)絡(luò)的便利性和豐富性信息。通常需要使川鵝于網(wǎng)絡(luò)爬行的搜索引擎來(lái)找到我們黹要的網(wǎng)頁(yè)。本文描述了搜尜引擎的媧本丁作任務(wù)。概述了搜尜I(mǎi)擎與網(wǎng)絡(luò)爬蟲(chóng)之間的聯(lián)系。關(guān)鍵詞爬行，集中爬行，網(wǎng)絡(luò)爬蟲(chóng)1導(dǎo)言在網(wǎng)絡(luò)上WWW是一種服務(wù)，駐留在連接到互聯(lián)網(wǎng)的電腦1,并允許最終相戶訪問(wèn)該楚用標(biāo)準(zhǔn)的接U軟件的計(jì)算機(jī)中存儲(chǔ)的數(shù)據(jù)。萬(wàn)維網(wǎng)楚獲取訪問(wèn)網(wǎng)絡(luò)信息的宇宙，是人類知識(shí)的體現(xiàn)。搜索引擎是一個(gè)計(jì)算機(jī)程序，它能夠從網(wǎng)丨搜索并掃描特定的關(guān)鍵字,尤其是商業(yè)服務(wù)，返冋的它們發(fā)現(xiàn)的資料消單。抓取搜索引擎數(shù)據(jù)庫(kù)的倍怠主要通過(guò)接收想要發(fā)表自U作品的作家的淸單成者通過(guò)“網(wǎng)絡(luò)爬蟲(chóng)”、“蜘蛛”或“機(jī)器人”M互聯(lián)網(wǎng)捕捉他們?cè)LW過(guò)的頁(yè)面的相太鏈接和信息。M絡(luò)爬蟲(chóng)是一個(gè)能自動(dòng)獲取萬(wàn)維網(wǎng)的信息程序。M頁(yè)檢尜丨32】是一個(gè)要的研究課題。爬蟲(chóng)是軟件組件，它訪問(wèn)網(wǎng)絡(luò)中的樹(shù)結(jié)構(gòu)，按照定的策略，搜索并收集當(dāng)?shù)貛?kù)中檢索對(duì)象。本文的其余部分組織如下第節(jié)中，我們解釋了WEB爬蟲(chóng)的竹梁細(xì)節(jié)。在第3節(jié)，我們討論爬蟲(chóng)的類型，在第4節(jié)我們將介紹網(wǎng)絡(luò)爬蟲(chóng)的工作原理。在第5節(jié)，我們搭建兩個(gè)網(wǎng)絡(luò)爬蟲(chóng)的先進(jìn)技術(shù)。在第6節(jié)我們討論如何挑選更有趣的網(wǎng)頁(yè)的問(wèn)題。2調(diào)查網(wǎng)絡(luò)爬蟲(chóng)網(wǎng)絡(luò)爬蟲(chóng)兒乎同闞絡(luò)本身一樣古老。第一個(gè)爬蟲(chóng)，H修格黹流浪者，寫(xiě)F1993年，人約正好與首次發(fā)布的OCSAMOSAIC網(wǎng)絡(luò)同時(shí)發(fā)布在最初的兩次萬(wàn)維網(wǎng)會(huì)議丨發(fā)表了許多關(guān)于網(wǎng)絡(luò)爬蟲(chóng)的文章。然而,在3時(shí)，網(wǎng)絡(luò)比起現(xiàn)在要小上到四個(gè)數(shù)頊級(jí)，所以這些系統(tǒng)沒(méi)有處現(xiàn)好3今網(wǎng)絡(luò)中一次爬M屮同打的縮放問(wèn)題。顯然所冇常用的搜索引擎使用的爬M程序必須擴(kuò)展到網(wǎng)絡(luò)的實(shí)質(zhì)性部分。H足，山于搜索引擎是一項(xiàng)競(jìng)爭(zhēng)性質(zhì)的業(yè)務(wù)，這些抓取的設(shè)計(jì)并沒(méi)有公開(kāi)描述。有兩個(gè)明顯的例外谷歌瓶帶式和網(wǎng)絡(luò)襠案腹帶式。不幸的是，說(shuō)明這些文獻(xiàn)屮的爬蟲(chóng)程序是太簡(jiǎn)潔以至于能夠進(jìn)行重復(fù)。原芥歌爬蟲(chóng)（在斯圯福大學(xué)幵發(fā)的）組件包括五個(gè)功能不同的運(yùn)行流程。服務(wù)器進(jìn)程讀取一個(gè)文件的URL出來(lái)然后通過(guò)履帶式轉(zhuǎn)發(fā)到多個(gè)進(jìn)程。每個(gè)履帶進(jìn)程運(yùn)行在不同的機(jī)器，是單線程的，使川異步I/O釆用并行的模式從敁多300個(gè)網(wǎng)站來(lái)抓取數(shù)據(jù)。爬蟲(chóng)傳輸下載下載的頁(yè)面到一個(gè)能進(jìn)行網(wǎng)KFR縮和存儲(chǔ)的存儲(chǔ)服務(wù)器進(jìn)程。然后這呰網(wǎng)頁(yè)山一個(gè)索引程序進(jìn)行解讀從HTML頁(yè)面中提取鏈接并將他們保存到、同的磁盤(pán)文件中。一個(gè)URL解析器進(jìn)程讀取鏈接文件，并將相對(duì)的網(wǎng)址進(jìn)行存儲(chǔ),并保存了完整的URL到磁盤(pán)文件然后就可以進(jìn)行讀取了。逝常悄況下，W為辛叫個(gè)爬蟲(chóng)程序被使用,所以盤(pán)個(gè)系統(tǒng)需要四到八個(gè)完整的系統(tǒng)。在答歌將網(wǎng)絡(luò)爬蟲(chóng)轉(zhuǎn)變成為一個(gè)商業(yè)成果之后在斯坦福大學(xué)仍然在進(jìn)行這方面的研究。斯坦福WEBBASE項(xiàng)11已實(shí)施一個(gè)高性能的分布式爬蟲(chóng)，具苻毎秒可以下載50至10021件文件的能力。趙等人乂發(fā)展了文件更新頻率的模型以報(bào)吿爬行下載計(jì)劃的增量?；ヂ?lián)網(wǎng)襠案館還利用多臺(tái)機(jī)器來(lái)檢尜網(wǎng)頁(yè)每個(gè)爬蟲(chóng)程序被分配到64個(gè)站點(diǎn)進(jìn)行檢索，并沒(méi)有網(wǎng)站被分配到一個(gè)以上的爬蟲(chóng)。每個(gè)單線程爬1U程序讀取其指定網(wǎng)站網(wǎng)址列表的種了從磁盤(pán)到每個(gè)站點(diǎn)的隊(duì)列，然后用異步I/O來(lái)從這些隊(duì)列同時(shí)抓取網(wǎng)頁(yè)一M個(gè)頁(yè)面下載完平，爬蟲(chóng)提取包含在真中的鏈接。如果一個(gè)鏈接提到它波包含在網(wǎng)頁(yè)中的網(wǎng)站,它被添加到適尚的站點(diǎn)排隊(duì)杏則被記錄到磁盤(pán)中。每隔一段時(shí)間，合并成一個(gè)批處理程序的W體地點(diǎn)的種子設(shè)置這搜記讀“跨網(wǎng)站“的網(wǎng)址過(guò)濾掉進(jìn)程中的取復(fù)項(xiàng)。WEBFOUNTAIN爬蟲(chóng)程序分莩了禺卡托結(jié)構(gòu)的兒個(gè)特點(diǎn)它是分布式的，連續(xù)（作者使用術(shù)語(yǔ)“增螢“），有禮貌，可配置的。不幸的足，M這篇文章，WEBFOUNTAIN逛在其發(fā)展的期階段，并尚未公布其性能數(shù)據(jù)。3搜索引擎基本類型A蕋于爬蟲(chóng)的搜索引擎騅于爬蟲(chóng)的搜索引擎自動(dòng)創(chuàng)建自匕的淸單。計(jì)算機(jī)程序“蜘蛛”建立他們沒(méi)有通過(guò)人的選樣31。他們不逛通過(guò)學(xué)術(shù)分類進(jìn)行組織，而是通過(guò)計(jì)算機(jī)算法把所打的網(wǎng)頁(yè)排列出來(lái)。這種類型的搜索引擎杵往足巨大的，常常能取得了大笊的信息它允許鉍雜的搜索范闌內(nèi)搜索以前的搜索的結(jié)果，使你能夠改進(jìn)搜索結(jié)果。這種類沏的搜索引擎包含了網(wǎng)K中所釘?shù)逆溄?。所以人們可以通過(guò)卩L配的單詞找到他們想要的網(wǎng)莧。B人力頁(yè)面目錄這是通過(guò)人類選擇建造的，即他們依賴人類創(chuàng)建列表。他們以主題類別和科1丨做闞頁(yè)的分類。人力驅(qū)動(dòng)的同朵，永遠(yuǎn)不會(huì)包含他們網(wǎng)貞所釘鏈接的。他們婼小于大多數(shù)搜索引擎。C混合搜索引擎一種混合搜索引擎以傳統(tǒng)的文字為導(dǎo)問(wèn)，如谷歌搜索引擎，如雅虎網(wǎng)錄為貓礎(chǔ)的搜索引擎，中每個(gè)方案比較操作的元數(shù)據(jù)集不同，當(dāng)苒元數(shù)據(jù)的主要資料來(lái)自一個(gè)網(wǎng)絡(luò)爬蟲(chóng)或分類分析所苻互聯(lián)網(wǎng)文字和用廣的搜尜作詢。U此相反，混合搜索引擎可能苻一個(gè)或多個(gè)元數(shù)據(jù)集，例如，包拈來(lái)自客戶端的網(wǎng)絡(luò)元數(shù)據(jù)，將所得的悄境模型中的客戶端上下文元數(shù)據(jù)的來(lái)認(rèn)識(shí)這兩個(gè)機(jī)構(gòu)。4爬蟲(chóng)的工作原理網(wǎng)絡(luò)爬蟲(chóng)是搜索引擎必不可少的組成部分運(yùn)行一個(gè)網(wǎng)絡(luò)爬IU是一個(gè)極丨4挑戰(zhàn)性的任務(wù)。有技術(shù)和可靠性問(wèn)題，更琨要的是打社會(huì)問(wèn)題。爬蟲(chóng)楚敁脆弱的成程序，因?yàn)樗婕暗浇换サ膬篖【F兒丁個(gè)WEB服務(wù)器和各種域名服務(wù)器，這些都人人超出了系統(tǒng)的控制。網(wǎng)頁(yè)檢索速度不僅山一個(gè)人的自己的互聯(lián)網(wǎng)連接速度，W時(shí)也受到了要抓取的網(wǎng)站的速度。特別是如個(gè)楚從多個(gè)服務(wù)器抓取的網(wǎng)站，總爬行時(shí)丨吋以大大減少如果許多下載是并行完成。ILL然行眾多的網(wǎng)絡(luò)爬蟲(chóng)應(yīng)用程序，他們?cè)诤诵膬?nèi)容上搖本丨楚相同的。以下足應(yīng)用程序網(wǎng)絡(luò)爬蟲(chóng)的工作過(guò)程1、下載網(wǎng)頁(yè)。2、通過(guò)下載的面解析和檢索所存的聯(lián)系。3、對(duì)于每一個(gè)環(huán)節(jié)檢索，重復(fù)這個(gè)過(guò)程。網(wǎng)絡(luò)爬蟲(chóng)可川于通過(guò)對(duì)完整的網(wǎng)站的局域網(wǎng)進(jìn)行抓取。您可以指定一個(gè)沿動(dòng)程序爬蟲(chóng)跟隨在HTML頁(yè)屮找到的所釘鏈接。這通常導(dǎo)致更多的鏈接，這之后將再次跟隨，等等。個(gè)網(wǎng)站可以被視為一個(gè)樹(shù)狀結(jié)構(gòu)釕根本是I動(dòng)裎序，在這根的HTML貝的所苻鏈接楚根丫鏈接。隨后循環(huán)獲得史多的鏈接。一個(gè)網(wǎng)頁(yè)服務(wù)器提供若T網(wǎng)址淸單給爬蟲(chóng)。網(wǎng)絡(luò)平爬蟲(chóng)幵始通過(guò)解析一個(gè)指定的網(wǎng)頁(yè)，標(biāo)注該網(wǎng)頁(yè)中指向其他網(wǎng)站頁(yè)面的超文本鏈接。然后他們分析這些網(wǎng)頁(yè)之間新的聯(lián)系等等循環(huán)。網(wǎng)絡(luò)爬蟲(chóng)軟件_個(gè)實(shí)際移動(dòng)到各地不閜的互聯(lián)網(wǎng)上的電腦，而是像電腦病海一樣通過(guò)智能代理進(jìn)行。每個(gè)爬蟲(chóng)毎次大概打幵大約300個(gè)鏈接。這是檢索網(wǎng)頁(yè)必須的足夠快的速度。一個(gè)爬蟲(chóng)駐留在一臺(tái)機(jī)器。爬蟲(chóng)只是簡(jiǎn)中的將的HTTP請(qǐng)求的文件發(fā)送到互聯(lián)網(wǎng)上的其他機(jī)器，就像一個(gè)網(wǎng)上瀏覽器的鏈接，當(dāng)用戶點(diǎn)擊。所夼的爬蟲(chóng)事實(shí)上是自動(dòng)化追尋鏈接的過(guò)程。網(wǎng)頁(yè)檢索可被視為一個(gè)隊(duì)列處理的項(xiàng)0O當(dāng)檢索器訪問(wèn)一個(gè)網(wǎng)頁(yè)，它提取到其他網(wǎng)頁(yè)的鏈接。因此，爬也晉身于這狴網(wǎng)址的一個(gè)隊(duì)列的末尾，并繼續(xù)爬行到下一個(gè)網(wǎng)頁(yè)，然后它從隊(duì)列的前面刪除。A資源約束爬行消耗資源下載闞貝的帶寬，支持私人數(shù)據(jù)結(jié)構(gòu)存儲(chǔ)的內(nèi)存來(lái)評(píng)價(jià)和選折網(wǎng)址的CPU，以及存儲(chǔ)文本和鏈接以及K他持久性數(shù)據(jù)的磁盤(pán)存儲(chǔ)。B機(jī)器人協(xié)議機(jī)器人文件給出排除一部分的網(wǎng)站被抓取的指令。類似地，一個(gè)簡(jiǎn)單的文本文件可以提供對(duì)關(guān)的新鮮和出版對(duì)象的流行信息，此信息允許抓取工具優(yōu)化其收集的數(shù)據(jù)刷新策略以及更換對(duì)象的政策。C元搜索引擎一個(gè)元搜索引擎茫種沒(méi)奵它自D的的網(wǎng)頁(yè)數(shù)據(jù)庫(kù)的搜索引擎。它發(fā)出的搜索字同他搜索引擎所衍的數(shù)據(jù)庫(kù)，從所饤的搜索引擎來(lái)杏詢并為用廣提供的結(jié)果。較少的元搜尜“F以讓您深入到煅人敁行丨TI的搜索引擎數(shù)據(jù)庫(kù)。他們往往返M小成免費(fèi)的搜索引擎和其他免費(fèi)丨丨朵并H通常足小和高度商業(yè)化的結(jié)。5爬行技術(shù)A主題爬行一個(gè)通川的網(wǎng)絡(luò)爬蟲(chóng)根據(jù)一個(gè)URL的特點(diǎn)設(shè)置來(lái)收集網(wǎng)頁(yè)。凡為生題爬蟲(chóng)的設(shè)計(jì)只收集苻一個(gè)特定的主題的文件，從而減少

人人文庫(kù)> 全部分類> 應(yīng)用文書(shū) > 項(xiàng)目管理

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

文獻(xiàn)網(wǎng)絡(luò)計(jì)算機(jī)網(wǎng)絡(luò) 外文文獻(xiàn) 英文文獻(xiàn) 外文翻譯探討搜索引擎爬蟲(chóng)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

文獻(xiàn)網(wǎng)絡(luò)計(jì)算機(jī)網(wǎng)絡(luò) 外文文獻(xiàn) 英文文獻(xiàn) 外文翻譯 探討搜索引擎爬蟲(chóng)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

文獻(xiàn)網(wǎng)絡(luò)計(jì)算機(jī)網(wǎng)絡(luò) 外文文獻(xiàn) 英文文獻(xiàn) 外文翻譯探討搜索引擎爬蟲(chóng)