林春教學(xué)提綱_第1頁
林春教學(xué)提綱_第2頁
林春教學(xué)提綱_第3頁
林春教學(xué)提綱_第4頁
林春教學(xué)提綱_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

林春2012.08.30FindingquestionmicroblogpostandrecommendanswersforitBackgroundMicroblogrevolutionChangesurfinghabitofInternet:usersfirstloginingmicroblogreach20%MaketheweblikearealsocialworldCharacteristicsofmicroblogdataMassiveuser-generatedcontent(containrareinformation)Complexandunderlyingrelationships(authorityuserorexpert)FastInformationpropagation(getfirst-handinformationabouthottopic)ChangesofinformationseekingapproachAskingquestioninsocialnetworkbecomeapopularform.這幾天海鮮吃多了,上火了,臉上冒痘痘了,嗚嗚…怎么辦?

MissionofmicroblogminingIdentifyingwhetheronepoststatessomethingbothersomeinstantlyandrecommendingasolutionorananswerforit.UnderlyingdemandIdentifyValuablesolutionRecommend1Copyright2012FUJITSUR&DCENTERCO.,LTDOurworkDemandIdentificationContentrecommendationUserrecommendationidentifythepostexpressingsomethingbothersomeoraskingforinformationcontent-basedmodel:topic&setimentdetectionclassifier-basedmodel:featureextraction&classifyrecommendlatestorexactcontentfromwebormicroblogmicroblogre-ranktogetbestanswercontent-based&collaborative

recommendationrecommendauthoritativeandinteresteduserauthoritativeuser:content-basedrecommendationinteresteduser:collaborativefilteringrecommendationCopyright2012FUJITSUR&DCENTERCO.,LTD什么是問題微博?首先必須滿足是原創(chuàng)微博,其次滿足以下條件之一:1.微博內(nèi)容明確提出問題或詢問建議,對(duì)于此類微博,如果其所提出的問題是客觀的,可以回答,則認(rèn)為是可推薦微博。問題的客觀性是指其答案比較統(tǒng)一,導(dǎo)致問題的原因比較普遍和客觀。如:“上火了,怎么辦?”上火是普遍現(xiàn)象,可以為其推薦解決方法;而微博“社會(huì),還真TMD有不要臉的,打壞了人,還不賠錢!我該怎么辦,才可以讓媽媽不上火”指明導(dǎo)致問題的原因是社會(huì)不公現(xiàn)象導(dǎo)致,因主觀性較強(qiáng),所以不為其做推薦。2.微博內(nèi)容是陳述形式,陳述的內(nèi)容不是記錄型(記錄完成某件事情)、評(píng)價(jià)型的(對(duì)某種現(xiàn)象的看法),分析內(nèi)容的側(cè)重點(diǎn),如果其陳述的重點(diǎn)是將要或最近發(fā)生的事,且陳述的事實(shí)具有客觀性和普遍性(客觀性描述與1相同),并且該事實(shí)困擾著用戶,還沒有有效的解決方法或好的建議。例子心若閑,事多人忙心不忙;心不閑,事少心忙人不忙。(非問題微博)天氣干燥,嘴唇上火起泡,怎么辦?(問題微博)Copyright2012FUJITSUR&DCENTERCO.,LTD數(shù)據(jù)集數(shù)據(jù)集是從新浪微博中抓取,其中正例微博是通過關(guān)鍵字搜索,再進(jìn)行人工標(biāo)注得到,負(fù)例微博是從微博中隨機(jī)抓取得到。訓(xùn)練集有6426條微博,正例662條,負(fù)例5764條,其中正例涉及的主題有:“胃好疼難受”、“頭昏喉嚨痛”、“脖子疼”、“牙疼”、“熬夜傷不起”等。測(cè)試集有3753條微博,正例302條,負(fù)例3453條,其中正例涉及主題有:“上火怎么辦”、“油滴到衣服上”、“眼袋好重”、“紐曼怎么樣”、“自動(dòng)關(guān)機(jī)自動(dòng)重啟”、“佳能多少錢”、“父親節(jié)送什么”、“快速消腫”等。Copyright2012FUJITSUR&DCENTERCO.,LTD系統(tǒng)實(shí)現(xiàn)原理本系統(tǒng)分為兩大模塊:?jiǎn)栴}微博識(shí)別模塊和答案推薦模塊。問題微博識(shí)別模塊采用SVM分類器,提取微博4種不同的特征:情感特征(emotion)、事件特征(event)、詞語情感特征(percent)以及外部特征(external),分類器在不同的特征實(shí)例集上訓(xùn)練模型,預(yù)測(cè)時(shí),加載各種模型,采用投票方式得到最終類別。答案推薦模塊:分別從web和weibo中獲取相關(guān)內(nèi)容推薦給用戶。web推薦是將去除表情信息的微博作為查詢,在百度知道中搜索,然后對(duì)其結(jié)果重新計(jì)算相似度,將最相關(guān)問題的答案返回給用戶。weibo推薦是提取微博的關(guān)鍵字將其作為查詢主題,在新浪微博中搜索,并對(duì)檢索結(jié)果重排序,將前5條微博作為推薦內(nèi)容。Copyright2012FUJITSUR&DCENTERCO.,LTD微博識(shí)別特征提取內(nèi)部特征表情特征、事件特征、關(guān)鍵詞情感特征外部特征知道特征、百科特征、微博特征分類使用SVM分類器進(jìn)行分類集成預(yù)測(cè)對(duì)內(nèi)部特征的預(yù)測(cè)結(jié)果進(jìn)行相對(duì)投票結(jié)合相對(duì)投票結(jié)果與外部特征結(jié)果做絕對(duì)投票Copyright2012FUJITSUR&DCENTERCO.,LTD內(nèi)部特征表情特征提?。╡motion特征)輸入:微博和悲觀表情文檔處理:判斷微博是否含有悲觀表情輸出:含有,則返回1;否則,返回0事件特征提?。╡vent特征)輸入:微博處理:分詞和詞性標(biāo)注,判斷是否含有詞性為t(時(shí)間),nr(人名),ns(地名),nt(機(jī)構(gòu))的詞輸出:四個(gè)二值數(shù)字(由0或1組成),如果包含以上詞性,則返回1,否則,返回0.關(guān)鍵詞情感特征提?。╬ercent特征)輸入:訓(xùn)練集和微博處理:1)將訓(xùn)練集根據(jù)表情符號(hào)分為3個(gè)部分:包含正面表情微博,包含負(fù)面表情微博和不包含表情微博。然后對(duì)其分詞并統(tǒng)計(jì)各集合單詞詞頻。2)對(duì)于輸入的微博,將其分詞和詞性標(biāo)注,提取詞性為v,n,a,vn的詞作為關(guān)鍵詞,取其在(1)中提到的3個(gè)集合中出現(xiàn)的詞頻,并歸一化,則單詞w會(huì)返回三個(gè)值neg_ratio、pos_ratio、neu_ratio,整體微博的關(guān)鍵詞情感特征即為其比值之和。輸出:返回neg_ratio/pos_ratio和neg_ratio/neu_ratioCopyright2012FUJITSUR&DCENTERCO.,LTD外部特征:知道特征輸入:整體微博信息(去除表情符號(hào))處理:(1)將整體微博輸入百度知道搜索,提取搜索結(jié)果第一個(gè)頁面的所有問題,然后對(duì)其進(jìn)行分詞和詞性標(biāo)注,去除詞性為w(標(biāo)點(diǎn)符號(hào))、r(代詞)、u(助詞)和沒有被標(biāo)注的詞,統(tǒng)計(jì)剩余單詞的詞頻,均值化(除以問題個(gè)數(shù)),并排序,得到問題單詞列表(QuestionWordList)。(2)對(duì)微博分詞和詞性標(biāo)注,去除詞性為w、r、u和沒有被標(biāo)注的詞,得到微博單詞列表(PostWordList),其中每個(gè)單詞詞頻為1;計(jì)算其長(zhǎng)度L,從QuestionWordList中獲取topL個(gè)單詞,然后計(jì)算PostWordList與其之間的余弦距離。輸出:余弦距離:浮點(diǎn)型Copyright2012FUJITSUR&DCENTERCO.,LTD外部特征:百科特征首先根據(jù)百科開放分類爬取其下的詞條,最終保存詞條及其上層類別(第一層類別或第二層類別)。如:詞條:魚香肉絲→烹飪→飲食→生活(目前只劃分到“飲食”那一層的類別),則烹飪是第二層類別,飲食是第一層類別。輸入:微博處理:1)統(tǒng)計(jì)其含悲觀表情的個(gè)數(shù),保存為e_count;

2)然后將其去除后,分詞和詞性標(biāo)注,獲取詞性為n(名詞)、vn(名動(dòng)詞)、v(動(dòng)詞)、a(形容詞)的詞,將其作為關(guān)鍵詞,統(tǒng)計(jì)其個(gè)數(shù)key_count,并獲取其對(duì)應(yīng)的主題類別。則統(tǒng)計(jì)主題類別的數(shù)目topic_count和可以找到主題的關(guān)鍵詞數(shù)目topic_key_count.;3)最后根據(jù)已有的疑問詞列表,提取微博包含的疑問詞個(gè)數(shù)r_count.4)最后根據(jù)以下公式,為微博打分。微博統(tǒng)計(jì)包含的

輸出:處理過程得到的value值Copyright2012FUJITSUR&DCENTERCO.,LTD外部特征:微博特征輸入:微博處理:1)去除表情符號(hào),分詞,詞性標(biāo)注,如果其長(zhǎng)度小于等于5,則將具有詞性標(biāo)注的詞作為關(guān)鍵詞;否則,提取詞性為n,vn,v的詞,按照規(guī)則v+n,v+v,v+vn,n+v,n+n,n+nv及其組合提取關(guān)鍵詞。2)將每個(gè)關(guān)鍵詞作為輸入,在微博搜索中檢索結(jié)果,獲取前10個(gè)頁面的微博。返回的結(jié)果包括微博ID、微博內(nèi)容、發(fā)送微博博主的分?jǐn)?shù),是否轉(zhuǎn)發(fā)等。3)統(tǒng)計(jì)微博中轉(zhuǎn)發(fā)條數(shù)比例(RT_ratio),名人微博比例(celeb_ratio),樂觀微博比例(Positive_ratio),悲觀微博比例(Negative_ratio),URL微博比例(URL_ratio)。4)每條微博的這5個(gè)信息量則是取關(guān)鍵詞信息量的平均值輸出:RT_ratio,celeb_ratio,Positive_ratio,Negative_ratio,URL_ratioCopyright2012FUJITSUR&DCENTERCO.,LTD分類器訓(xùn)練SVM分類器,其參數(shù)設(shè)置為“-S0-K2-D3-G0.16-R0.0-N0.5-M40.0-C1.0-E0.0010-P0.1”。訓(xùn)練集中存在正負(fù)實(shí)例不平衡現(xiàn)象,通過多倍復(fù)制正例使得訓(xùn)練集中正例、負(fù)例條數(shù)均衡來避免。Copyright2012FUJITSUR&DCENTERCO.,LTD答案推薦答案推薦包含兩部分:基于web推薦和基于weibo推薦基于web推薦將除去表情符號(hào)的微博內(nèi)容作為查詢?cè)诎俣戎乐兴阉?,返回的第一個(gè)頁面中的所有問題及其對(duì)應(yīng)的第一個(gè)答案最為web返回的相關(guān)內(nèi)容返回。具體流程圖如下:Copyright2012FUJITSUR&DCENTERCO.,LTD基于weibo推薦目的:將微博搜索結(jié)果中最相關(guān)且信息量最大的微博內(nèi)容返回。具體策略:(1)獲取查詢?cè)~首先,將除去表情符號(hào)的微博內(nèi)容作為查詢?cè)诎俣戎乐兴阉?,得到第一個(gè)頁面中的所有問題集合,然后計(jì)算集合中所有詞的詞頻并排序。其次,對(duì)微博內(nèi)容分詞,標(biāo)注詞性,取出詞性為n,v,a,vn的詞作為關(guān)鍵詞,然后根據(jù)上一步得到的詞頻序列對(duì)候選關(guān)鍵詞排序,最多取前5個(gè)詞作為查詢?cè)~。(2)微博搜索結(jié)果排序?qū)⒉樵冊(cè)~在微博搜索中進(jìn)行搜索,取結(jié)果中的所有微博內(nèi)容,對(duì)每條微博內(nèi)容提取特征,打分,然后根據(jù)分?jǐn)?shù)進(jìn)行排序,取top5條微博結(jié)果最為推薦內(nèi)容返回。Copyright2012FUJITSUR&DCENTERCO.,LTD實(shí)驗(yàn)結(jié)果分析問題微博識(shí)別根據(jù)以上介紹的分類器方法,微博識(shí)別精度為0.6822034,召回率0.52960527,其中關(guān)于健康類的微博其識(shí)別率相比其他類別高。其可能原因與訓(xùn)練集有關(guān),訓(xùn)練集中正例包含的主題大部分是關(guān)于健康類別。答案推薦目前,基于百度知道返回的答案推薦結(jié)果要比基于微博搜索的推薦好,其主要原始是用于微博搜索的關(guān)鍵詞不能

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論