




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
機器學習在美團用戶畫像中的應(yīng)用付晴川fuqingchuan@2015-11-213W什么是用戶畫像?為什么要做用戶畫像?如何做用戶畫像?什么是用戶畫像?什墻么籌是騰用末戶膽畫或像爬?什扎么由是壁用命戶出畫趨像僵?數(shù)劇據(jù)撲簽萌化為春什臉么忌需將要用毀戶冰畫僑像棒?為蒜什禮么暈需曠要用棒戶繡畫貪像底?用戶用戶體驗商戶營收提升工程師自動化美團運營效率在飯對氣的拿時請間鄭獲群取籠對惡的泛服崇務(wù)麗!獲禽取挺更熄多擊的李潛援在歪優(yōu)貸質(zhì)熟客嶼戶汁!更至精非準烘高下效帝的普活灰動骨策用略幫制號定價!數(shù)團據(jù)晉應(yīng)姓用換接蒙口說標跟準贏化/通資用狹化蹈!如攝何刃來拐做盼用醋戶顏畫愈像堆?架構(gòu)算法特征模型實踐問題架釘構(gòu)–系抹統(tǒng)伐概私覽架潔構(gòu)—感—細乖節(jié)港解盤讀MT
dmspa項目統(tǒng)一特征提取框架動機1.多工程師/多個模型“自給自足”,特征分散。2.存在人力/計算資源冗余。實現(xiàn)1.特征統(tǒng)一提取/集中存儲——大一統(tǒng)特征庫。2.支持no-coding/配置化提特征。效果1.建模周期:
3~4周下降到1~2周。2.人力/計算冗余減少2倍(估算值)架騾構(gòu)—黃—細戚節(jié)剪解小讀MT
utvs系列項目用戶畫像統(tǒng)一接口多系統(tǒng)項目動機
1.數(shù)據(jù)挖掘成果需要友好統(tǒng)一的輸出接口:
可視化+API實現(xiàn)
1.用戶標簽體系WEB可視化
2.用戶標簽索引/實時查詢3.報表自動化效果1.成果推廣加速/溝通成本降低
2.傳統(tǒng)用戶問卷調(diào)查報報告周期1個月,utvs系統(tǒng)10分鐘!算宜法–用摸戶貪特偶征需也要君做慰橫研跨患多縣個闊產(chǎn)近品叛線瀉的歷特抄征桿提充取猴!算胞法–用忘戶萍特鳳征抗體掏系用戶特征體系一級/業(yè)務(wù)基本團購?fù)赓u酒店電影上門……
二級/行為注冊登陸瀏覽下單搜索收藏評論消費分享LBS……三級/時間年月日周早中晚周末工作日節(jié)假日……+每+最近自由級/可選品類品牌詞條…MxNxKxL=?特答征膨脹算撫法–用互戶肢特些征算書法–用亮戶狼特考征算慨法–特粘征蝴與趁效椅果蹈實旋例用盤戶急職貝業(yè)擇標皆簽:學儀生資身挽份悅識敲別算呼法-問異題述及膝常求用拉模鍵型實如踐-問渠題檢及弦常換用廉模類型我-紹-打-么實萌例模型實例一項目有車一族標簽挖掘需求
1.汽車服務(wù)推廣活動需要精準圈定有車人群降低營銷成本。實現(xiàn)
1.樣本:問卷調(diào)查正樣本+隨機負樣本
2.特征:信息增益特征離散化+卡方/信息增益/互信息等特征選擇
3.模型:
try
SVM/MaxEnt/LR
=>
SVM效果1.離線評測:P93%,R85%
2.線上對比:推送打開率提升3倍,下單率提升5倍!實沸踐-問棟題套及牛常炎用峽模抹型扶-禍-順-援實說例模型實例一項目常住地標簽挖掘需求
1.決策支持:酒店需要分析用戶下單與地域關(guān)系,決定是否上異地推薦模塊。實現(xiàn)
1.樣本:問卷調(diào)查
2.模型:
try
LR/SVM/RF/GBDT=>
LR3.多個LR模型組合效果1.離線評測:P96%,R73%
2.線上對比:新上異地模塊點擊率超越歷史最佳“名店搶購”1個百分點!實搞踐-關(guān)謠于榨算及法等工叢程津師晶的夢段仍子…革…理想中的算法工程師提出假設(shè)->收集數(shù)據(jù)->訓練模型->解釋結(jié)果實際中的算法工程師提出假設(shè)->收集數(shù)據(jù)->預(yù)處理->預(yù)處理->訓練模型->調(diào)試->調(diào)試->重新收集數(shù)據(jù)->預(yù)處理->收集更多數(shù)據(jù)->調(diào)試->調(diào)試->調(diào)試->…>放棄實堪踐-分攀享頌:鐵那協(xié)些青年阻踩柏過競的怠坑…廳…目標效果現(xiàn)實效果分享一數(shù)據(jù)挖掘的天花板實數(shù)據(jù)本身!ToDo:努力逼近這個效果而不是較勁!實棕踐-分端享慎:臟那針些層年衣踩高過勵的擴坑…瀉…分享二實際應(yīng)用中特征作用遠大于模型!ToDo:在深度優(yōu)化模型之前,先榨干數(shù)據(jù)特征的增益吧!特征至少帶來80%+的收益。模型LR
SVM特征瀏覽次數(shù)消費頻次下單品類搜索分詞實遺踐-分切享社:李那亂些彼年銳踩辦過冒的悅坑…疤…分享三關(guān)于樣本:樣本少/不均衡!ToDo:1)
SVM或TSVM,
2)
under
sampling/over
sampling/SMOTE。不均衡?實在無樣本:可以考慮隨機+規(guī)則過濾方法挑樣本!Smote要用到KNN,高維不靠譜!收集樣本才是王道!實乘踐-分憤享止:非那室些串年燒踩途過錄的值坑…頑…分享四訓練集特征分布和自然待測數(shù)據(jù)不一致。ToDo:特征如果跟Label有直接關(guān)聯(lián)就不要用了。建模訓/測效果好的離譜自然結(jié)果一塌糊涂實振踐-分奧享牌:躁那被些口年覺踩蠻過醬的防坑…舊…分享五不要有把錘子,就把所有的問題當釘子。ToDo:多了解模型的優(yōu)缺點,選擇合適的模型!考察點分類/回歸/…樣本大小異常點敏感度效果/性能tradeoff容易過擬合?線性/非線性Q樂&懼AT歸h秧e元m踏e膚r縱e搏f蟻o孤r宅m榨u日l歪a篩t語i拌o姿n旅o翼f裙a煎p火r蹲o繼b住l規(guī)e臣m值i醬s率f雹a面r菜m項o足r博e蔥e去s張s犯e酒n閱t
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 離婚房產(chǎn)稅費結(jié)算及雙方承擔協(xié)議文本
- 影視劇組專用休息椅租賃及場地布置服務(wù)合同
- 歐式畫廊設(shè)備購置與藝術(shù)品收藏管理服務(wù)合同
- 住宅小區(qū)物業(yè)維修基金管理與使用協(xié)議
- 國際展覽安保服務(wù)及安全設(shè)施維護合同
- 血液凈化系統(tǒng)核心濾芯年度戰(zhàn)略合作協(xié)議
- 離婚房產(chǎn)過戶稅費支付及雙方責任約定協(xié)議
- 網(wǎng)絡(luò)美食小說改編美食節(jié)目及出版授權(quán)合同
- 紅籌企業(yè)股權(quán)激勵計劃與員工股權(quán)激勵協(xié)議書
- 交通事故交通事故賠償和解協(xié)議補充協(xié)議
- 鎮(zhèn)掃黑除惡培訓
- IDC基礎(chǔ)知識培訓課件
- 第三類醫(yī)療器械崗前培訓
- GB/T 23444-2024金屬及金屬復(fù)合材料吊頂板
- 2024用電信息采集系統(tǒng)技術(shù)規(guī)范第2部分:集中器和采集器
- 代理招商合作合同樣本
- 2023年非車險核保考試真題模擬匯編(共396題)
- 人作與天開-中國古典園林藝術(shù) 課件-2024-2025學年高中美術(shù)人美版(2019)美術(shù)鑒賞
- 2024年重慶市中考化學試題(A卷)含答案
- 你比我猜題庫課件
- 貴州省遵義市2024-2025學年高三上學期10月第一次適應(yīng)性考試 物理 含答案
評論
0/150
提交評論