




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、星辰系統(tǒng):百萬量級細(xì)粒度查詢意圖識別目錄動(dòng)機(jī)與目標(biāo)現(xiàn)有方法框架與方法效果與應(yīng)用動(dòng)機(jī)與目標(biāo) 搜索廣告的現(xiàn)狀 當(dāng)前的搜索廣告中,搜索引擎主要基于關(guān)鍵字匹配的搜索模式。 問題 查詢短、特征稀疏、歧義強(qiáng) 字面匹配缺乏意圖相關(guān)特征 廣告缺乏相關(guān)性 傷害用戶體驗(yàn)、造成客戶無效消耗動(dòng)機(jī)與目標(biāo) 目標(biāo) 挖掘海量細(xì)粒度查詢意圖 建立查詢與意圖間映射關(guān)系 處理高頻與長尾查詢 高精確性與較高覆蓋率現(xiàn)有方法 Google的Google Rephil系統(tǒng) Google廣告相關(guān)性的頭號秘密武器 對詞或短語片段聚類發(fā)現(xiàn)概念 百萬量級的概念 基于Bayesian網(wǎng)絡(luò)的推斷方法 細(xì)節(jié)不公開現(xiàn)有方法 識別意圖的3類方法 短文本聚類
2、 Topic Modeling 查詢分類 特點(diǎn) 可發(fā)現(xiàn)細(xì)粒度意圖、難覆蓋長尾查詢 不同數(shù)據(jù)集Topic難對應(yīng),短文本分析精確不足 一般含幾十到上千個(gè)類,粒度較粗框架與方法 細(xì)粒度意圖識別方法框架與方法 星辰系統(tǒng)整體框架查詢聚類 構(gòu)建Query同點(diǎn)擊網(wǎng)絡(luò) 基本假設(shè):點(diǎn)擊相同網(wǎng)頁的查詢意圖相似 對網(wǎng)絡(luò)進(jìn)行社團(tuán)劃分 查詢間的意圖會有細(xì)微差別、誤點(diǎn)情況 聚類算法要具有一定抗噪性 圖挖掘中的社團(tuán)發(fā)現(xiàn)算法社團(tuán)發(fā)現(xiàn)算法 社團(tuán)的定義 網(wǎng)絡(luò)中一群節(jié)點(diǎn)集合。 集合中節(jié)點(diǎn)間的內(nèi)部鏈接很多,而集合中節(jié)點(diǎn)與外部網(wǎng)絡(luò)的鏈接卻很少。 傳統(tǒng)方法 主要發(fā)端于 Girvan 與 Newman 于 2002 年提出的開創(chuàng)性工作 定
3、義了一個(gè)質(zhì)量函數(shù)M. Girvan and M. E. J. Newman, PNAS 99, 7821 (2002).M. E. J. Newman and M. Girvan, Phys. Rev. E 69, 026113 (2004).MMO算法MMO算法MMO算法的優(yōu)點(diǎn) 易于實(shí)現(xiàn) 時(shí)間復(fù)雜度近似線性,空間復(fù)雜度為線性。 推廣到 Hadoop 并行環(huán)境中的運(yùn)行 避免生成極大的社團(tuán)同點(diǎn)擊網(wǎng)絡(luò)構(gòu)造 數(shù)據(jù)集 2年的匿名點(diǎn)擊日志 具體步驟 抽取query-URL的關(guān)系(1300萬查詢,1650萬URL) 如果兩個(gè)query間有一個(gè)同點(diǎn)擊,則在兩個(gè)query間連接一條邊 得到查詢同點(diǎn)擊網(wǎng)絡(luò)(13
4、00萬查詢節(jié)點(diǎn),8億條邊)概念質(zhì)量優(yōu)化 聚類存在的問題 過大的不純類 太多的細(xì)粒度聚類 聚類質(zhì)量評估 聚類純度 聚類間的相關(guān)性查詢意圖推斷 問題定義 將query的意圖識別變?yōu)橐粋€(gè)大規(guī)模多分類問題 關(guān)鍵步驟 候選分類概念 拒絕分類結(jié)果查詢意圖推斷 候選概念的發(fā)現(xiàn)查詢意圖推斷 拒絕項(xiàng) Query側(cè)相關(guān)性: 概念側(cè)相關(guān)性:概念發(fā)現(xiàn)的結(jié)果 概念分布 概念舉例精確性與覆蓋率 星辰系統(tǒng)的精確性與覆蓋率 統(tǒng)計(jì)查詢次數(shù) 精確性 97.4% 覆蓋率 61.3%查詢意圖追蹤查詢意圖追蹤線上Demo系統(tǒng)線上Demo系統(tǒng)線上Demo系統(tǒng)線上Demo系統(tǒng)廣告召回中的應(yīng)用 廣告召回應(yīng)用 訓(xùn)練針對概念的商業(yè)性分類器 判斷每個(gè)概念是否適合召回廣告 線下計(jì)算每個(gè)概念和關(guān)鍵詞的相關(guān)性 線下選擇每個(gè)概念適合召回的關(guān)鍵詞鏈 線上判斷query所屬概念,根據(jù)概念召回廣告質(zhì)量保
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 國際商業(yè)設(shè)計(jì)師創(chuàng)意流派考核題及答案
- 快閃項(xiàng)目在廣告設(shè)計(jì)中的應(yīng)用探討試題及答案
- 復(fù)習(xí)一覽表的紡織工程師試題及答案
- 檢驗(yàn)招聘筆試試題及答案
- 2024年紡織工程師證書考試高效學(xué)習(xí)試題及答案
- 2024年紡織品檢驗(yàn)員證書考試形式試題及答案
- 2024年國際商業(yè)美術(shù)設(shè)計(jì)師考試品牌設(shè)計(jì)思考試題及答案
- 淮北中考英語試題及答案
- 廣告設(shè)計(jì)的市場營銷策略 試題及答案
- 洛陽一模語文試題及答案
- 大學(xué)生志愿服務(wù)西部計(jì)劃考試復(fù)習(xí)題庫(筆試、面試題)
- 《建筑制圖與識圖》課程標(biāo)準(zhǔn)
- 客貨線鐵路隧道錨桿施工作業(yè)指導(dǎo)書
- 箱涵工程監(jiān)理實(shí)施細(xì)則
- 公路養(yǎng)護(hù)的高級工復(fù)習(xí)題
- 三人合伙經(jīng)營協(xié)議書 doc 三人合伙經(jīng)營協(xié)議書實(shí)用版(六篇)
- 葡萄酒品嘗學(xué)第八章-2013
- JJF 1793-2020海水營養(yǎng)鹽測量儀校準(zhǔn)規(guī)范
- GB/T 20080-2017液壓濾芯技術(shù)條件
- 超音速流動(dòng)與燃燒的大渦模擬基礎(chǔ)課件
- 歸檔文件目錄
評論
0/150
提交評論