



版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、 多少人在使用搜索引擎 全球范圍內(nèi)84%的互聯(lián)網(wǎng)用戶使用搜索引擎,其中超過一半的人幾乎每天使用。 95%以上的中國網(wǎng)民使用過搜索引擎,84.5%的用戶將搜索引擎作為得知新網(wǎng)站的主要途徑。 商用搜索引擎競爭日趨激烈(市場(chǎng)規(guī)模約56億元)。 從2007年9月開始,中國成為全球首個(gè)每月搜索請(qǐng)求超過100億次的國家 搜索引擎與性能評(píng)價(jià) 對(duì)搜索引擎用戶:選擇最有效獲取信息的媒介 對(duì)廣告商:選擇最有效的盈利平臺(tái) 對(duì)研究人員:算法改進(jìn)、性能監(jiān)控 效果評(píng)價(jià)是信息檢索相關(guān)研究的基礎(chǔ)內(nèi)容 評(píng)價(jià)在信息檢索系統(tǒng)的研發(fā)中一直處于核心的地位,以致于算法與它們的效果評(píng)價(jià)方式是合二為一的。 (Saracevic, 1995)
2、 如何對(duì)網(wǎng)絡(luò)信息檢索系統(tǒng)進(jìn)行評(píng)價(jià) Cranfield評(píng)價(jià)方法 被應(yīng)用在包括TREC在內(nèi)的幾乎所有主流的信息檢索研究工作中。 評(píng)價(jià)組成 (核心:評(píng)價(jià)語料庫) 文本語料,查詢語料,標(biāo)注語料 Cranfield評(píng)價(jià)方式的優(yōu)勢(shì) 有效控制系統(tǒng)變量 可以跨系統(tǒng)比較的評(píng)價(jià)結(jié)果 網(wǎng)絡(luò)信息檢索評(píng)測(cè)語料庫 建立評(píng)測(cè)語料庫的必要性 信息檢索是實(shí)證學(xué)科 真實(shí)規(guī)模的評(píng)測(cè)語料是算法有效性的保證 研究人員各自獨(dú)立構(gòu)建存在困難 海量網(wǎng)絡(luò)資源抓取 真實(shí)用戶需求獲取 大規(guī)模用戶查詢的答案標(biāo)注 建立評(píng)測(cè)語料庫的可能性 產(chǎn)業(yè)界與研究界的合作 搜索引擎日志被合理應(yīng)用 文本信息檢索會(huì)議(TREC) NIST組織的研討文本檢索技術(shù)的國際性
3、論壇 大規(guī)模文本檢索系統(tǒng)的標(biāo)準(zhǔn)評(píng)測(cè)平臺(tái) 與網(wǎng)絡(luò)信息檢索相關(guān)的評(píng)測(cè)語料 VLC track (VLC, VLC2, WT2g, WT10g) 6 years, 300 topics, 100gB Web track (.GOV corpus) 3 years, 550 topics, 1.25 M pages, 18gB Terabyte track (.GOV2 corpus) 3 years, 1800 topics, 27 M pages, 400gB 863中文信息處理與智能人機(jī)接口評(píng)測(cè) 語料庫規(guī)模 30G 數(shù)據(jù) 30個(gè)查詢,pooling方式確定答案 4個(gè)系統(tǒng)參加評(píng)測(cè) 現(xiàn)場(chǎng)評(píng)測(cè) 參與系
4、統(tǒng)少 側(cè)重系統(tǒng)穩(wěn)定性和效率 SEWM評(píng)測(cè) 北京大學(xué)網(wǎng)絡(luò)實(shí)驗(yàn)室組織 類似TREC的評(píng)測(cè)架構(gòu) 文本語料庫:CWT100g, CWT200g 去重、去除垃圾,37M網(wǎng)頁 查詢語料庫:來自天網(wǎng)查詢?nèi)罩?2005-2007 三年的時(shí)間 1185 導(dǎo)航類查詢 285 信息類查詢 標(biāo)注方式:人工標(biāo)注,pooling方法 經(jīng)驗(yàn)總結(jié) 文本語料 抓取相對(duì)高質(zhì)量的網(wǎng)絡(luò)數(shù)據(jù) VLC2 = WT10g,.GOV, .GOV2, CWT200g 查詢語料 真實(shí)反映用戶需求 TREC Web, Terabyte, SEWM 標(biāo)注語料 規(guī)模保證 TREC million query track: efficiency, no
5、t effectiveness 主要困難 文本語料庫構(gòu)建 規(guī)模問題 Google (8 billion +), Yahoo! (20 billion +), Sogou (10 billion +) 與中文用戶實(shí)際需求量匹配:100 Million量級(jí) 達(dá)到100 Million/Terabyte量級(jí),保證研究成果的可信性 網(wǎng)頁質(zhì)量篩選 網(wǎng)頁質(zhì)量相對(duì)較高:重復(fù)語料、垃圾語料的處理。 輔助語料的構(gòu)建問題 鏈接關(guān)系語料 點(diǎn)擊日志信息 主要困難 查詢語料庫構(gòu)建 規(guī)模問題 有充分的代表性 考慮到標(biāo)注工作量 查詢樣例選擇 真實(shí)用戶需求 有充分的代表性 覆蓋不同用戶信息需求 主要困難 標(biāo)注語料庫構(gòu)建 Vo
6、orhees 估計(jì),對(duì)一個(gè)規(guī)模為800萬的文檔集合進(jìn)行針對(duì)1個(gè)查詢主題的相關(guān)性評(píng)判需要耗費(fèi)1名標(biāo)注人員9個(gè)月的工作時(shí)間 TREC提出pooling方法,在保證評(píng)價(jià)結(jié)果可靠性的基礎(chǔ)上大大減少了評(píng)判工作量 缺點(diǎn):處理的查詢數(shù)目少,針對(duì)小規(guī)模的查詢集合,仍需要耗費(fèi)十余名標(biāo)注人員1-2個(gè)月的工作時(shí)間 設(shè)計(jì)思路 海量規(guī)模、符合大多數(shù)研究機(jī)構(gòu)的處理能力 能夠代表中文互聯(lián)網(wǎng)的基本情況 能夠代表中文搜索引擎用戶的需求情況 客觀全面評(píng)價(jià)網(wǎng)絡(luò)信息檢索系統(tǒng)性能 實(shí)現(xiàn)思路 利用搜索引擎資源 網(wǎng)頁抓取、查詢?nèi)罩精@取、網(wǎng)頁質(zhì)量評(píng)估數(shù)據(jù)獲取 使用自動(dòng)化的查詢語料標(biāo)注方法 構(gòu)建過程網(wǎng)頁文本語料庫標(biāo)注語料庫查詢語料庫檢索結(jié)果結(jié)
7、果池手工標(biāo)注網(wǎng)頁文本語料庫查詢語料庫標(biāo)注語料庫用戶查詢?nèi)罩咀ト鹘y(tǒng)方式傳統(tǒng)方式SogouT構(gòu)建方式構(gòu)建方式自動(dòng)標(biāo)注生成 查詢語料庫構(gòu)建 用戶查詢頻度的分布情況 2008年6月的日志數(shù)據(jù) 查詢頻度最高的前10000個(gè)查詢?cè)~ 用戶查詢總數(shù)的萬分之六點(diǎn)五,覆蓋超過56%的用戶需求 抽樣方式 2008年6月搜狗搜索引擎查詢?nèi)罩?選取查詢量最高的10000個(gè)用戶查詢 用戶查詢需求 抽樣標(biāo)注 導(dǎo)航類約占30.6%,信息類約占69.4% 具有充分的代表性 規(guī)模大: 我們所知最大規(guī)模的信息檢索評(píng)測(cè)查詢集合 覆蓋率高:覆蓋56%以上的用戶查詢需求 核心:提高標(biāo)注語料構(gòu)建的自動(dòng)化程度 前人工作 利用偽相關(guān)反饋的方
8、法進(jìn)行結(jié)果自動(dòng)標(biāo)注 偽相關(guān)反饋的結(jié)果被認(rèn)為是答案 Soboroff et.al, 2001; Nuray et.al, 2003; Beitzel et.al., 2003 標(biāo)注的準(zhǔn)確程度和可靠性不高 對(duì)查詢?cè)~的近義詞集合進(jìn)行標(biāo)注 根據(jù)結(jié)果網(wǎng)頁的查詢?cè)~及近義詞詞頻進(jìn)行評(píng)判 Amitay et.al, 2004 初始標(biāo)注工作量大,評(píng)判的可靠性不高 前人工作 基于個(gè)體用戶行為分析 Joachims et.al.(1997) 創(chuàng)建了一個(gè)元搜索接口,將不同搜索引擎的結(jié)果加以混雜,把用戶點(diǎn)擊不同結(jié)果的情況加以記錄,并以此作為評(píng)判依據(jù) 用戶行為分析的思路值得肯定 缺點(diǎn):改變用戶檢索習(xí)慣、個(gè)體用戶行為不可靠
9、等 我們的研究思路 通過對(duì)搜索引擎記錄下的用戶行為日志進(jìn)行分析,不額外增加用戶負(fù)擔(dān)。 隱式反饋信息 用戶群體,而不是個(gè)體的點(diǎn)擊行為作為依據(jù) 個(gè)體用戶可能在點(diǎn)擊過程中出現(xiàn)謬誤 用戶群體的點(diǎn)擊信息則是很大程度上可靠的 統(tǒng)計(jì)用戶群體的點(diǎn)擊行為,進(jìn)而對(duì)查詢對(duì)應(yīng)的結(jié)果進(jìn)行標(biāo)注 對(duì)導(dǎo)航類查詢 結(jié)果唯一,不存在“找不全”的問題 搜索引擎檢索性能高,點(diǎn)擊準(zhǔn)確度較可靠 能夠發(fā)現(xiàn)用戶的關(guān)注熱點(diǎn),如“163” = “搜狗” = 適合作為搜索性能自動(dòng)評(píng)測(cè)的對(duì)象 針對(duì)導(dǎo)航類查詢的結(jié)果自動(dòng)標(biāo)注 利用單個(gè)搜索引擎的點(diǎn)擊信息即可完成 焦點(diǎn)假設(shè):不同用戶具有相同的導(dǎo)航類別檢索需求時(shí),他們的點(diǎn)擊都會(huì)集中在其檢索目標(biāo)網(wǎng)頁(或其鏡像
10、)上。 網(wǎng)頁r 針對(duì)查詢q的點(diǎn)擊集中度 q的點(diǎn)擊集中度最高的r即為其檢索目標(biāo)頁面)(#)(#),(qofSessionrclicksthatqofSessionrResultqQueryClickFocus 針對(duì)導(dǎo)航類查詢的結(jié)果自動(dòng)標(biāo)注 標(biāo)注算法:尋找針對(duì)q的ClickFocus值最大的r 標(biāo)注樣例查詢自動(dòng)標(biāo)注的URL讀寫網(wǎng)http:/ 對(duì)信息事務(wù)類查詢 查詢?cè)~”電影” 不同搜索引擎的點(diǎn)擊分布差異大 存在著搜索引擎對(duì)用戶行為的偏置性影響 索引數(shù)據(jù)偏置 檢索策略偏置 結(jié)果不唯一,全面性難以保證 不適合使用單一搜索引擎的日志信息,作為完全自動(dòng)評(píng)測(cè)的對(duì)象00.00.250.30
11、.35123456789 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27baidugoogleyahoosogou 針對(duì)信息事務(wù)類查詢需求的答案自動(dòng)標(biāo)注 基于多搜索引擎用戶行為挖掘1. 利用單搜索引擎標(biāo)注方式,進(jìn)行各自獨(dú)立的標(biāo)注2. 借鑒Pooling做法,綜合不同標(biāo)注者(這里為搜索引擎用戶的宏觀行為)的意見 需要考慮的因素 用戶點(diǎn)擊行為差異 用戶訪問量差異 搜索引擎相對(duì)重要性的差異 計(jì)算結(jié)果對(duì)于查詢的置信度)/(qurlPi 合并計(jì)算結(jié)果url對(duì)于查詢q的置信度 基于單搜索引擎進(jìn)行答案標(biāo)注的可信度 依據(jù)查詢用戶數(shù)來計(jì)算jjjiiqS
12、EPqSEurlPqurlP)|(),|()|()|(qSEPjjjjjSEinqofsessionSEinqofsessionqSEP)(log(#)(log(#)|( 單獨(dú)某個(gè)搜索引擎標(biāo)注答案的可信程度 依據(jù)此搜索引擎的用戶點(diǎn)擊的宏觀集中程度來確定),|(qSEurlPji)(#)(#),|(),|(jjijijiSEinqofSessionSEinurlclickthatqofSessionsqSEurlCDqSEurlP 查詢點(diǎn)擊分布合并模型其中, 反映不同搜索引擎的在結(jié)果標(biāo)注中的重要程度jjjijjjjjjjiiSEinqofSessionSEinurlclickthatqofSes
13、sionsSEinqofsessionSEinqofsessionqSEPqSEurlPqurlP)(#)(#)(log(#)(log(#)|(),|()|(j 例:查詢“瘋狂英語”BaiduGoogleY/ / // Sogou合并后的答案標(biāo)注結(jié)果合并后的答案標(biāo)注結(jié)果/ / 實(shí)驗(yàn)數(shù)據(jù) Sogou搜索8個(gè)月查詢?nèi)罩?超過7億條日志信息) 針對(duì)其中高頻導(dǎo)航類查詢進(jìn)行自動(dòng)標(biāo)注 對(duì)每個(gè)時(shí)
14、間段抽取約5%的數(shù)據(jù)進(jìn)行手工檢查時(shí)間段時(shí)間段標(biāo)注查詢數(shù)標(biāo)注查詢數(shù)檢驗(yàn)樣例檢驗(yàn)樣例數(shù)數(shù)準(zhǔn)確度準(zhǔn)確度Jun. 06 - Aug. 0613,902695 98.13%Sept.06 - Nov. 0613,884694 97.41%Dec. 06 - Jan. 0711,296565 96.64% 與手工評(píng)價(jià)結(jié)果類似 利用用戶群體行為分析方法進(jìn)行搜索引擎自動(dòng)性能評(píng)價(jià)是可行的 SogouT自動(dòng)標(biāo)注語料庫 10000個(gè)查詢主題,65465個(gè)標(biāo)注答案 抽樣其中5%的查詢進(jìn)行檢查(500個(gè)) 由兩名標(biāo)注人員手工檢查(1人標(biāo)注,1人檢查)總數(shù)標(biāo)注錯(cuò)誤 標(biāo)注正確正確率信息類查詢對(duì)應(yīng)的答案10114296995
15、.85%導(dǎo)航類查詢對(duì)應(yīng)的答案3652534093.15% 文本語料庫構(gòu)建 網(wǎng)絡(luò)爬蟲種子選取策略 標(biāo)注語料庫所包含的65465個(gè)網(wǎng)頁 Sogou網(wǎng)絡(luò)爬蟲種子集合所包含的網(wǎng)站 防止爬蟲黑洞 必要的垃圾網(wǎng)頁過濾 必要的低質(zhì)量頁面、無內(nèi)容網(wǎng)頁過濾 只抓取HTML網(wǎng)頁內(nèi)容 滿足抓取量時(shí)停止 文本語料庫構(gòu)成 1.387億網(wǎng)頁 存儲(chǔ)空間約5 Terabyte,gzip壓縮后約1.01 Terabyte 鏈接關(guān)系圖 鏈接關(guān)系數(shù)目約33.4億條 存儲(chǔ)空間約24 Gigabyte (gzip壓縮) 網(wǎng)頁質(zhì)量評(píng)估數(shù)據(jù) 所有網(wǎng)頁對(duì)應(yīng)的SogouRank值(site-based PageRank) SogouT語料獲取
16、 文本語料:http:/ 7z壓縮后約500G,硬盤方式發(fā)布,需交納硬盤成本費(fèi)約500元。 鏈接關(guān)系:http:/ 與文本語料共同發(fā)布 查詢語料與標(biāo)注語料 訓(xùn)練集:http:/ 500個(gè)經(jīng)過手工檢驗(yàn)的查詢及對(duì)應(yīng)答案 更大規(guī)模的查詢與標(biāo)注語料如何獲?。?“搜索儀”在線評(píng)測(cè)系統(tǒng) 搜索引擎評(píng)測(cè):http:/searchE 檢索系統(tǒng)評(píng)測(cè):http:/ SogouE1:500個(gè)查詢對(duì)應(yīng)的標(biāo)注語料 SogouE2:3000個(gè)查詢對(duì)應(yīng)的標(biāo)注語料 SogouE3:6500個(gè)查詢對(duì)應(yīng)的標(biāo)注語料 “搜索儀”在線評(píng)測(cè)系統(tǒng) 用戶注冊(cè)后,即可獲取SogouE1 SogouE3對(duì)應(yīng)的查詢語料(只有SogouE1對(duì)應(yīng)的標(biāo)注
17、語料) 用戶根據(jù)SogouE1對(duì)檢索系統(tǒng)進(jìn)行訓(xùn)練,并改進(jìn)系統(tǒng)設(shè)計(jì)與算法 用戶隨時(shí)提交對(duì)查詢語料進(jìn)行檢索得到的檢索結(jié)果,并獲得根據(jù)SogouE2即時(shí)反饋的檢索評(píng)價(jià) 搜索儀網(wǎng)站根據(jù)評(píng)價(jià)結(jié)果對(duì)用戶系統(tǒng)進(jìn)行排名并隨時(shí)公布、更新。 “搜索儀”在線評(píng)測(cè)系統(tǒng) 定期召開的信息檢索與內(nèi)容安全全國會(huì)議(NCIRCS)上,組織專門的評(píng)測(cè)論壇 使用SogouE3對(duì)用戶提交的結(jié)果進(jìn)行進(jìn)一步驗(yàn)證 邀請(qǐng)系統(tǒng)性能領(lǐng)先的研究人員進(jìn)行交流 Http:/searchE 主要特點(diǎn) 客觀真實(shí)反映搜索引擎總體性能 近似即時(shí)反饋 查詢語料規(guī)模大,且隨用戶關(guān)注情況更新,反映熱點(diǎn) 功能演示!搜狗實(shí)驗(yàn)室網(wǎng)站:http:/ Online at: http:/ Liu, Yupeng Fu, Min Zhang, Shaoping Ma, Liyun Ru. Automatic
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年江蘇省揚(yáng)州市中考語文試卷及答案
- 2025年仿制藥一致性評(píng)價(jià)對(duì)藥品生產(chǎn)設(shè)備更新的推動(dòng)報(bào)告
- 元宇宙社交平臺(tái)虛擬社交互動(dòng)體驗(yàn)優(yōu)化與用戶粘性提升策略
- 國際教育咨詢服務(wù)在中國的發(fā)展現(xiàn)狀與競爭格局研究報(bào)告2025版
- 財(cái)富管理行業(yè)數(shù)字化轉(zhuǎn)型:金融科技如何優(yōu)化客戶服務(wù)體驗(yàn)報(bào)告
- 科技與互聯(lián)網(wǎng)融合下的互聯(lián)網(wǎng)金融服務(wù)風(fēng)險(xiǎn)控制技術(shù)體系構(gòu)建報(bào)告
- 深度解讀2025年制造業(yè)數(shù)字化轉(zhuǎn)型數(shù)據(jù)治理戰(zhàn)略與實(shí)施
- 護(hù)理禮儀與人際溝通教學(xué)課件第九章護(hù)理工作中的人際溝通
- 核酸耗材運(yùn)送管理制度
- 擔(dān)保公司抵押物管理制度
- 2025年云南省中考語文試卷真題
- 2025春季學(xué)期國開電大??啤稒C(jī)械制圖》一平臺(tái)在線形考(形成性任務(wù)1至4)試題及答案
- 文具店創(chuàng)業(yè)計(jì)劃書文具店創(chuàng)業(yè)準(zhǔn)備計(jì)劃書范文
- 銀川永寧縣社區(qū)工作者招聘筆試真題2024
- 單位辦公室文員考試試題及答案
- 浙江省強(qiáng)基聯(lián)盟2024-2025學(xué)年高二下學(xué)期5月聯(lián)考試題 物理 PDF版含解析
- 自來水考試試題大題及答案
- (2025)發(fā)展對(duì)象考試題庫與答案
- 北京師范大學(xué)《微積分(2)》2023-2024學(xué)年第二學(xué)期期末試卷
- 海關(guān)總署在京直屬事業(yè)單位招聘考試真題2024
- 大學(xué)生自殺統(tǒng)計(jì)報(bào)告和多重因素分析
評(píng)論
0/150
提交評(píng)論