




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
信息檢索與Web搜索
第1講概述授課人:高曙明
*改編自“現(xiàn)代信息檢索”網(wǎng)上公開課件(/~wangbin)信息檢索概念從大規(guī)模的具有非結(jié)構(gòu)化特性(通常是文本)的資料集合(通常保存在計算機(jī)上)中找出滿足用戶信息需求的資料(通常是文檔)的一門學(xué)科2大規(guī)模文檔集合信息需求查詢相關(guān)文檔列表信息檢索系統(tǒng)查找信息檢索概念文檔(Document):
指以文本內(nèi)容為主的信息源,如純文本、網(wǎng)頁、郵件、論文、專利、圖書等非結(jié)構(gòu)化文檔:指沒有清晰和明顯結(jié)構(gòu)的文檔,主要是純文本半結(jié)構(gòu)化文檔:指帶有簡單結(jié)構(gòu)表示的文檔,如網(wǎng)頁<title>李甲主頁</title><body>…</body>…34信息檢索概念GoogleWeb一般涉及信息的獲取、分析、組織、存儲、比對和展示信息檢索vs.關(guān)系數(shù)據(jù)庫IR系統(tǒng)主要用于查詢文檔RDB系統(tǒng)主要用于查詢結(jié)構(gòu)化數(shù)據(jù),即記錄集合,這些記錄中包含預(yù)先定義的語義屬性及屬性值,如一本書的作者、標(biāo)題、出版年份等5信息檢索vs.相關(guān)學(xué)科6信息檢索技術(shù)的重要性用戶需要信息檢索技術(shù):信息時代的信息量爆炸式增長、噪音太多,尋找所需要的信息非常不容易使用搜索引擎尋找所需要的信息已經(jīng)成為很多人的日常行為;使用專業(yè)信息檢索系統(tǒng),如專利、法律條文、科技論文等檢索系統(tǒng),則是專業(yè)人員的經(jīng)常行為但目前的搜索引擎和專業(yè)信息檢索系統(tǒng)還不盡如人意7信息檢索技術(shù)的重要性公司需要信息檢索技術(shù):Yahoo、Google、Baidu,還有Microsoft、Sina、Sohu、Tecent、Netease等都加入到搜索引擎的競爭行列包含搜索的應(yīng)用很多:電子商務(wù)(如亞馬遜網(wǎng)站、阿里巴巴)、社交網(wǎng)(微博、Facebook、twitter、校內(nèi)網(wǎng))、數(shù)字圖書館、大規(guī)模數(shù)據(jù)分析等都需要信息檢索技術(shù)搜索是未來操作系統(tǒng)的重要組成部分89搜索推薦挖掘
IR技術(shù)情報處理內(nèi)容安全輿情分析
信息檢索技術(shù)的發(fā)展歷史1960-70’s:開始探索使用計算機(jī)為一些小規(guī)??萍肌⒎珊蜕虡I(yè)文獻(xiàn)的摘要建立文本檢索系統(tǒng)形成最基本的概念、模型和算法Salton教授是奠基人1980’s:由公司主導(dǎo)開發(fā)大規(guī)模文檔數(shù)據(jù)庫系統(tǒng),如Lexis-Nexis,Dialog,MEDLINE10信息檢索技術(shù)的發(fā)展歷史1990’s:第一個網(wǎng)絡(luò)搜索工具:1990年加拿大McGill大學(xué)開發(fā)的FTP搜索工具Archie第一個WEB搜索引擎:1994年美國CMU開發(fā)的LycosYahoo搜索引擎:1995斯坦福大學(xué)博士生開發(fā)開始進(jìn)行IR軟件評測:NISTTREC推薦系統(tǒng)的出現(xiàn):Ringo,Amazon11信息檢索技術(shù)的發(fā)展歷史2000’s:Google搜索引擎:斯坦福大學(xué)博士生開發(fā),采用鏈接分析技術(shù)信息抽取:Whizbang,Fetch,BurningGlass問答系統(tǒng):TRECQ/Atrack跨語言IR:DARPATides知識圖譜的研發(fā)和使用12基于規(guī)模的信息檢索分類個人信息檢索:個人相關(guān)文檔的搜索,如桌面搜索(DesktopSearch),屬小規(guī)模企業(yè)級信息檢索:企業(yè)內(nèi)部文檔的搜索,行業(yè)文檔的搜索等,屬中大規(guī)模Web信息檢索:數(shù)萬億網(wǎng)頁的搜索,屬超大規(guī)模。13信息檢索的基本內(nèi)容信息檢索原理圖14信息檢索的基本內(nèi)容信息檢索原理圖15信息檢索的基本內(nèi)容文檔采集功能:自動獲取有用的文檔,用于建立文檔庫主要內(nèi)容:Web采集器(webcrawler)文本分析功能:文檔預(yù)處理,用于將文檔轉(zhuǎn)化成索引詞項或特征主要內(nèi)容:詞條化、去除停用詞、詞項歸一化、詞干還原和詞干歸并、鏈接分析等16信息檢索的基本內(nèi)容索引構(gòu)建功能:創(chuàng)建索引數(shù)據(jù)結(jié)構(gòu),用于支持快速搜索主要內(nèi)容:倒排索引、詞典索引、基于塊排序的索引構(gòu)建、單遍內(nèi)存式掃描構(gòu)建、分布式(MapReduce)及動態(tài)索引構(gòu)建索引壓縮功能:對索引數(shù)據(jù)結(jié)構(gòu)進(jìn)行壓縮表示,用于節(jié)省磁盤空間,提高檢索系統(tǒng)效率主要內(nèi)容:詞項的統(tǒng)計特性(Heaps定律、Zipf定律)、詞典的壓縮、倒排記錄表的壓縮17信息檢索的基本內(nèi)容檢索模型與排序算法功能:用于判斷查詢和文檔之間的關(guān)聯(lián)性主要內(nèi)容:布爾檢索模型、向量空間模型、概率檢索模型、TF-IDF詞項權(quán)重計算機(jī)制以及基于TF-IDF的文檔排序算法、概率排序原理、PageRank算法、HITS算法、基于向量空間模型的XML文檔排序算法18信息檢索的基本內(nèi)容用戶交互功能:支持用戶創(chuàng)建和精化查詢,支持檢索結(jié)果的展示主要內(nèi)容:查詢輸入、查詢變換、相關(guān)反饋和偽相關(guān)反饋、查詢擴(kuò)展及重構(gòu)、檢索結(jié)果展示等檢索評價功能:對檢索系統(tǒng)的效果和效率進(jìn)行評價主要內(nèi)容:正確率、召回率、正確率-召回率曲線、標(biāo)準(zhǔn)測試集及評測會議、用戶體驗及結(jié)果摘要等19課程目標(biāo)通過本課程的學(xué)習(xí),使同學(xué)們能夠掌握信息檢索和Web搜索的基本思想和基礎(chǔ)知識,包括基本的概念、原理、模型和算法,并具備一定的信息檢索系統(tǒng)和搜索引擎研發(fā)能力不是教同學(xué)們怎么使用信息檢索工具,而是了解信息檢索工具背后的基本原理和技術(shù),為今后能夠從事與信息檢索和Web搜索相關(guān)的研發(fā)工作打好基礎(chǔ)20老師介紹主講高曙明:浙江大學(xué)應(yīng)用數(shù)學(xué)系博士畢業(yè),教授,博士生導(dǎo)師?,F(xiàn)為浙江大學(xué)CAD&CG國家重點實驗室CAD方向?qū)W術(shù)帶頭人辦公電話:88206081-514Email:smgao@辦公地點:紫金港校區(qū)圖書信息B樓525室個人主頁:/smgao助教:秦孝廉,浙大計算機(jī)學(xué)院研究生qqz003@163.com,
注意要選第二次印刷的版本,可以直接上圖靈出版社的淘寶店訂購。網(wǎng)上有英文電子版(對照閱讀)/IR-book/28參考書籍及文獻(xiàn)--1ChristopherD.Manning,PrabhakarRaghavan&HinrichSchütze,IntroductiontoInformationRetrieval,CambridgeUniversityPress2008Electronicversion(draft)canbedownloadedfrom/~hinrich/information-retrieval-book.htmlB.Croft,D.Metzler,T.Strohman,SearchEngine:InformationRetrievalinPractice,PearsonEducation,2009(國內(nèi)機(jī)械工業(yè)出版社出版的影印版和中文翻譯版)張華平等譯.信息檢索:算法與啟發(fā)式方法.人民郵電出版社,2010Baeza-Yates,R.&B.Ribeiro-Neto.eds.ModernInformationRetrieval.ACMPress,1999(國內(nèi)有機(jī)械工業(yè)出版社出版的影印版和中文翻譯版)李曉明,閆宏飛,王繼民著,搜索引擎--原理、技術(shù)與系統(tǒng),北京:科學(xué)出版社,200529參考書籍及文獻(xiàn)--2李國輝等著,信息的組織與檢索,科學(xué)出版社,2003年Witten,Ianetal.ManagingGigabytes.Orlando,FL:MorganKaufmannPublishersIncorporated,1999WilliamFrakes&RicardoBaeza-Yates,InformationRetrievalDataStructuresandAlgorithms.PrenticeHa
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中國機(jī)械打漿機(jī)市場調(diào)查研究報告
- 2025年中國機(jī)動車動力系統(tǒng)市場調(diào)查研究報告
- 2025至2031年中國脫硫醇活化劑行業(yè)投資前景及策略咨詢研究報告
- 5.客運(yùn)值班員項目三運(yùn)輸生產(chǎn)管理車站基礎(chǔ)運(yùn)作34課件
- 2025屆河北省金太陽-邢襄聯(lián)盟高三上學(xué)期開學(xué)考(25-05C)-歷史試題(含答案)
- 2025年中國數(shù)顯鐘控全波段收音機(jī)數(shù)據(jù)監(jiān)測報告
- 新疆機(jī)電職業(yè)技術(shù)學(xué)院《細(xì)胞遺傳生物學(xué)技術(shù)》2023-2024學(xué)年第二學(xué)期期末試卷
- 襄陽汽車職業(yè)技術(shù)學(xué)院《大學(xué)生健康適能》2023-2024學(xué)年第一學(xué)期期末試卷
- 醫(yī)藥工業(yè)數(shù)智化轉(zhuǎn)型實施方案(2025-2030年)
- 新疆體育職業(yè)技術(shù)學(xué)院《鐵路旅客運(yùn)輸組織》2023-2024學(xué)年第二學(xué)期期末試卷
- 藍(lán)色北京師范大學(xué)4.3頂部導(dǎo)航欄博士復(fù)試模板
- 防汛減災(zāi)小知識
- 2024年四川宜賓環(huán)球集團(tuán)有限公司招聘考試真題
- 期中測試(范圍:第1-4章)(A卷·夯實基礎(chǔ))-北師大版七年級數(shù)學(xué)下冊(原卷版)
- 2025時政試題及答案(100題)
- 《旅行社經(jīng)營與管理》電子教案 5-2 旅行社接待業(yè)務(wù)2
- 醫(yī)療器械操作規(guī)范與安全知識培訓(xùn)試題庫
- 視力檢查方法課件
- 2025固體礦產(chǎn)地質(zhì)調(diào)查規(guī)范1:25000
- 2025-2030中國具身智能行業(yè)研發(fā)創(chuàng)新策略與未來前景展望報告
- 智慧樹知到《藝術(shù)與審美(北京大學(xué))》期末考試附答案
評論
0/150
提交評論