



下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、中文微博情感分析系統(tǒng)-LTLAB上海交通大學(xué)中德語言技術(shù)聯(lián)合實驗室報告人:周霄簡介在本屆評測設(shè)立的3個評測任務(wù)中,LTLAB分別參加了任務(wù)1(觀點句識別)和任務(wù)3(情感要素抽?。?。對于任務(wù)1:采用了基于分類器的方案,特征抽取時考慮到了多種詞性和句法特征。對于任務(wù)3:參評系統(tǒng)結(jié)合了基于分類器的抽取和基于模板的抽取兩種方案,考慮到了詞的統(tǒng)計信息和微博特有的話題信息。1. 預(yù)處理預(yù)處理過程主要進行句子的分詞、句法分析、以及評價詞抽取。鑒于微博文本的特殊性,預(yù)處理不直接對整句操作,而是將每個句子劃分成四種不同的成分:URL用戶名及轉(zhuǎn)發(fā)標(biāo)志:變現(xiàn)為:“ + 用戶名”,或“| + 用戶名”話題:即一對“#
2、”包裹的非空格字符正常文本信息分詞和句法分析分詞使用了中科院的分詞系統(tǒng)ICTCLAS,句法分析使用了Stanford Parser。為了改善分詞效果,評測小組成員從網(wǎng)絡(luò)和評測樣例數(shù)據(jù)中收集了一部分常用網(wǎng)絡(luò)用語,加入用戶詞典中。1. 預(yù)處理評價詞抽取基于評價詞詞典對詞或詞組進行匹配分為正面評價詞詞典和負面評價詞詞典詞典來源由3部分構(gòu)成:Hownet情感詞集合、NTUSD情感詞集合、來自網(wǎng)絡(luò)和評測數(shù)據(jù)樣例的評價詞詞典加入正則表達式模板,如“丟.1,4的臉”可以匹配“丟我的臉”對于抽取出的評價詞,首先設(shè)定初始評價極性為詞典中的極性;然后向前一個范圍內(nèi)尋找是否含有表否定的詞語,如“不”、“沒有”等,每
3、找到一個詞就對當(dāng)前評價極性進行一次反轉(zhuǎn)。2. 觀點句識別基于VFI(Voting Feature Interval)分類器進行二值分類,正例即為觀點句:人工標(biāo)注了評測樣例數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)。VFI分類器的原理較簡單,它假設(shè)各維特征獨立,每維特征對所有類標(biāo)識進行投票,每類的得分正比于該類得到的票數(shù)。VFI分類器不顯式考慮先驗概率。由于訓(xùn)練數(shù)據(jù)不平衡(正例較少),因此有助于提高結(jié)果的召回率。下表是我們在小范圍數(shù)據(jù)上使用各種分類器得到的結(jié)果。準(zhǔn)確率準(zhǔn)確率召回率召回率F值值SVM0.7790.7260.7516NB0.7080.7230.7154Tree0.7190.6890.7037VFI0.7480
4、.7760.76172. 觀點句識別對于微博中的每一句,抽取如下幾種特征:基于詞性的特征。選取了在觀點句中常出現(xiàn)的詞性或詞性組合作為特征,如:連詞個數(shù)、代詞個數(shù)、副詞+形容詞個數(shù)、“不”+形容詞個數(shù)等等基于標(biāo)點符號的特征:問號的數(shù)量和感嘆號的數(shù)量句中評價詞的個數(shù)純粹表達主觀意愿詞的個數(shù)。評測要求純粹表達主觀意愿的句子不算作觀點句。針對這一要求,我們?nèi)斯な占艘恍┘兇獗磉_主觀意愿詞(如“祝愿”),并將句中該類詞的數(shù)量作為一個特征根據(jù)實驗結(jié)果,人工調(diào)整了個別特征的權(quán)重,調(diào)低了分類器判分的閾值3. 情感要素抽取主要使用基于分類器的方法,輔以基于模板的方法。使用評價對象與評價詞間的位置關(guān)系判別極性。分
5、類器同樣采用VFI分類器。對于一條微博,首先抽取其中的候選評價對象,然后對于微博中的每個觀點句,分別判斷每個候選評價對象是否是其正確評價對象。對微博m,抽取其中所有候選評價對象對微博中的每一句,分別構(gòu)建分類實例對每一個分類實例,輸出二值結(jié)果:true/false3. 情感要素抽取候選評價對象抽取有兩種情況:句子中長度小于閾值的、句法成分為NN、NR、NP、IP、FW之一的詞組;當(dāng)前話題的關(guān)鍵詞之一。使用了兩種方法抽取話題關(guān)鍵詞:方法一:使用話題中的名詞。如“#假和尚摟女子#”,則抽取關(guān)鍵詞“和尚”、“女子”方法二:使用話題中的名詞詞組,以及整個話題。即“假和尚”、“女子”、“假和尚摟女子”第二
6、種方法的評測結(jié)果略好于方法一3. 情感要素抽取構(gòu)建分類實例對于每一個候選評價對象t,將其與微博中的每一句s分別組合構(gòu)成分類實例。系統(tǒng)需要對每個分類實例判斷true/false,對應(yīng)t 是/不是 s的評價對象每個分類實例抽取以下特征:t的句法成分t與s的距離,即t與s間隔的字數(shù)。若t在s中,則距離為0;若t在s之前,則為一負值;若t在s之后,則為一正值t是否是話題關(guān)鍵詞t是否出現(xiàn)在一對“#”之間t在話題相關(guān)微博中出現(xiàn)的頻次3. 情感要素抽取基于模板的方法評測小組借鑒了史興等人在COAE 2011論文集中使用的方法,對微博中所有都滿足下表的三元組進行抽取成分成分允許的類型允許的類型依存關(guān)系依存關(guān)系rcmod, nsubj, amod, assmod, nn, vmod評價對象評價對象FW, NR, NT, NN評價詞評價詞VA, JJ, VV評價對象的極性判別對每個評價對象,在一個窗口范圍內(nèi)尋找最近的評價詞,若找到則使用該評價詞的極性若窗口內(nèi)無評價詞,則計算句子中正負評價詞的個數(shù),以此判斷評價對象極性4. 總結(jié)經(jīng)驗 兩個任務(wù)中都使用到了VFI分類器,在保證準(zhǔn)確率變化不大的情況下獲得了較高的召回率。 構(gòu)建適合網(wǎng)絡(luò)語言的分詞詞表和情感詞典較大程度的改善了結(jié)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2030大理石行業(yè)市場深度調(diào)研及發(fā)展趨勢與投資報告
- 2025至2030船舶機電設(shè)備行業(yè)市場深度研究及發(fā)展前景投資可行性分析報告
- 攀枝花市市直機關(guān)遴選公務(wù)員考試真題2024
- 關(guān)鍵期中考試數(shù)學(xué)試卷
- 高二金牌考卷數(shù)學(xué)試卷
- 高考卷理科數(shù)學(xué)試卷
- 廣東高職期中考數(shù)學(xué)試卷
- 安全生產(chǎn)培訓(xùn)成本效益與企業(yè)管理水平關(guān)系研究考核試卷
- 光學(xué)計量在光學(xué)系統(tǒng)光束整形技術(shù)中的應(yīng)用探討考核試卷
- 醫(yī)療器械臨床數(shù)據(jù)統(tǒng)計分析的交叉驗證技術(shù)考核試卷
- 日語被動態(tài)練習(xí)
- 鋼板樁安全技術(shù)交底
- 旅游大數(shù)據(jù)與智慧旅游教學(xué)大綱
- 金屬廢棄物生物冶金提取與利用
- 湖南省長沙2024年七年級下冊生物期末試卷附答案
- 2023-2024學(xué)年第二學(xué)期期末學(xué)業(yè)質(zhì)量檢測八年級語文試卷
- 農(nóng)村房子繼承人放棄繼承協(xié)議書
- WS 329-2024 麻醉記錄單標(biāo)準(zhǔn)
- 2024-2029全球及中國福利管理系統(tǒng)行業(yè)市場發(fā)展分析及前景趨勢與投資發(fā)展研究報告
- 新標(biāo)準(zhǔn)英語小學(xué)五年級下各模塊習(xí)題
- 開票稅點自動計算器
評論
0/150
提交評論