




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
基于情感情感詞典的情感分析國內(nèi)外文獻綜述目錄TOC\o"1-2"\h\u3210基于情感情感詞典的情感分析國內(nèi)外文獻綜述 1224661.1基于情感詞典的情感研究現(xiàn)狀 1213761.2基于機器學習的情感研究現(xiàn)狀 37545參考文獻 5互聯(lián)網(wǎng)的快速發(fā)展豐富了人們的業(yè)余生活,越來越多的人們選擇互聯(lián)網(wǎng)通過來關注國內(nèi)外的時事熱點并借助社交平臺表達自己的想法和意見[4],這些攜帶了網(wǎng)民情感的文本數(shù)據(jù)蘊含著巨大的價值,對于個人形象維護、商業(yè)決策和輿情監(jiān)控有著重要意義。因此,很多致力于自然語言處理的學者都對網(wǎng)絡文本進行研究并根據(jù)文本極性進行情感分類,近些年來逐漸成為研究熱點。文本情感分類的重點是去判斷文本所表達的情感極性,而微博也是使用文本對觀點進行表述,因此,對微博文本進行情感分類仍是基于傳統(tǒng)的文本情感分析。目前對文本進行情感分析的研究方式主要是基于情感詞典的情感研究方法和基于機器學習的情感研究方法。1.1基于情感詞典的情感研究現(xiàn)狀基于情感詞典的研究方法主要思路是先標注詞典中的情感詞語,分為包括正向(積極)和負向(消極),對情感詞語賦予相應權值,接著利用情感詞典將文本中的正向和負向情感詞語數(shù)目和權值進行累加并判斷文本極性。情感詞典的基礎形態(tài)是褒貶二元詞典,是詞語經(jīng)過時代的變遷產(chǎn)生情感含義,經(jīng)過學者們不斷的研究而創(chuàng)建的。由于國外對文本情感研究開始較早,現(xiàn)有的通用情感詞典資源較為成熟,如意大利信息科技研究所發(fā)布的SentiWordNet詞典[5][6]、哈佛大學建立的GeneralInquirer(GI)詞典[7]、MPQA詞典[8]、普林斯頓大學實驗室的WordNet詞典等。國內(nèi)中文情感詞典的完備性參差不齊而且數(shù)量很少,常用的主要有知網(wǎng)發(fā)布的HowNet詞典[9]、臺灣大學研究的簡體中文詞典[10]以及其他研究者的情感詞典。SentiWordNet是在WordNet的基礎上構(gòu)建的,主要是將WordNet中的詞語注釋作為詞語特征,并標注出了詞語極性和權值,在英文情感分析中得到了廣泛應用。GI情感詞庫中包含了1915個褒義詞和2293個貶義詞,為了適應更多的應用場景,分別對情感極性、情感強度和詞性做了標注。HowNet詞典是由知網(wǎng)公布的常識知識庫,其中包含了中文和英文的正負情感詞和程度詞。臺灣大學自然語言實驗室的研究人員將國外GI詞典中的情感詞進行翻譯,結(jié)合中文網(wǎng)絡情緒詞典CNSD,經(jīng)過研究者的篩選整合得到,更適合網(wǎng)絡環(huán)境下的情感分析。1997年,Hatzivassiloglou等人[11]在計算機語言會議上最早提到了英文情感詞語的研究,他們在整理華爾街日報語料庫時發(fā)現(xiàn)英文文本中連詞連接的形容詞表達的情感傾向是一致的,轉(zhuǎn)折詞連接的形容詞情感傾向是截然相反的,從而對連詞連接的形容詞展開了文本的情感研究,在此基礎上首次提出了根據(jù)語料庫作為實驗材料來構(gòu)建情感詞典的方法。2003年,Nasukawa等人[12]首次對情感傾向性分析的概念進行了詮釋。他指出情感分析也可以稱之為觀點挖掘,目標是挖掘出人們在文本中所想要表達的情感信息并判斷情感信息的正負向。為了進行理論驗證,他們首先利用包含了3513個極性詞的情感詞表對文本進行詞語匹配,然后對匹配到的情感詞進行個數(shù)統(tǒng)計,最后提出了利用極性詞表可以提高情感特征提取的效果。2005年,Wilson[13]認為情感分析的任務是提取出含有情感極性的情感信息,并詳細闡述了詞語極性的自動判別和英語文本上下文依賴的問題,針對長距離搭配形成的特征短語在情感分析中的作用進行了研究,系統(tǒng)的分析了不同的特征提取方法和分類學習算法對傾向性判別的影響。2009年,王素格等人[14]從現(xiàn)有的中文情感資源中選擇了五種具有代表性的情感詞典進行融合,構(gòu)建了相對完善的情感詞表并對詞表中的詞賦予對應的權值,最后利用線性加權組合的方法構(gòu)造出判斷語句極性的分類函數(shù),從而實現(xiàn)對文本的情感傾向分類。2010年,楊鼎等人[15]在進行中文文本情感分類時,以攜程網(wǎng)的賓館評論作為實驗數(shù)據(jù)庫,使用情感詞典和樸素貝葉斯對文本進行情感特征選擇,研究表明,在進行特征選擇時情感詞典可以獲取到更多的情感信息,從而使情感分類取得更好的效果。2011年,Maite等人[16]在利用情感詞典進行文本傾向性的研究中,對多種可能影響文本情感的因素進行了分析,考慮到語氣詞和否定詞對文本情感的影響,通過量化和設置門限值的方法來計算詞語、句子、篇章的情感傾向性。2012年,王振宇[17]針對情感詞在文檔中出現(xiàn)次數(shù)少,導致不能有效情感識別的問題,使用知網(wǎng)HowNet詞典作為基準詞集,選擇點互信息法(PointwiseMutualInformation,PMI)對待定詞進行極性判別,對HowNet詞典進行擴充,從而減小低頻情感詞誤差較大所帶來的影響。2013年,Weichselbraun[18]為了解決手工建立情感詞典耗費人力較大的問題,提出了一種半自動化構(gòu)建英文情感詞典的方法。該方法將眾包算法(Crowd-sourcing)和機器學習相結(jié)合為情感詞賦權值并進行詞典的拓展,之后將該詞典應用在了情感分類之中取得了較好的效果。2013年,Li[19]針對歧義情感詞和國內(nèi)詞典數(shù)目少的問題,使用機器翻譯系統(tǒng)對英文情感分析取得的成果進行翻譯,結(jié)合中文特征,利用標簽傳播算法對文本中詞語的情感值進行計算,構(gòu)建了一個覆蓋領域相對較廣的中文情感詞典。2014年,Rao等人[20]為了能夠向讀者提供個性化信息推送服務,使用了三種剪枝優(yōu)化算法構(gòu)建了一個無關語言和細粒度的社會情感詞典,利用該詞典進行社會情緒檢測和新聞報道情感預測。2015年,Karanasou等人[21]從Twitter平臺獲取實驗數(shù)據(jù),重點對評論文本中的比喻句做了情感研究,根據(jù)英文文本表達的句法規(guī)則對比喻和非比喻的評論文本進行標注,利用現(xiàn)有的SentiWordNet情感詞典對情感詞賦權值,之后和WordNet詞典計算詞語相似度,最后利用進行語句情感分析取得了較好的效果。2015年,梁亞偉[22]將情感詞、連接詞和支持向量機相結(jié)合,考慮到表情對該條文本情感分析的影響并利用文本情感曲線的方法計算表情情感強度,完成了自動構(gòu)建表情情感詞典,從而判別微博文本的情感極性。2016年,劉德喜[23]從微博平臺獲取數(shù)據(jù)并利用中科院NLPIR中文分詞系統(tǒng)進行數(shù)據(jù)處理構(gòu)成微博數(shù)據(jù)集,通過PageRank算法搭建基礎情感詞的量化圖模型,從而判斷出基礎情感詞的褒貶含義,并運用到情感分類之中完成情感詞分類,這是根據(jù)分類思想首次使用和語言無關的通用情感詞選擇方法。2018年,閆曉東等人[24]通過對藏文文本進行研究,提出了一種基于藏文情感詞典的藏文文本情感分類方法,首先通過人工標注將藏文情感詞語按照極性構(gòu)建詞典,然后利用情感詞典和修飾詞組的搭配規(guī)則生成情感短語,最后設計評分規(guī)則計算情感短語的情感值,判斷藏語文本的情感傾向性。2019年,He[25]在中文基礎情感詞典的構(gòu)建研究中考慮到文本語義的影響和情感詞典構(gòu)建問題,設計了一種利用文本語義自動構(gòu)建情感詞典的算法模型,利用知網(wǎng)HowNet詞典和SentiWordNet詞典作為種子詞典,通過對文本進行語義分析完成了情感詞典的自動構(gòu)建,之后用于情感分析,取得了較好的效果。2020年,薛興榮等人[26]提出了一種基于語義詞典的網(wǎng)絡評論文本情感分類方法,首先對網(wǎng)絡數(shù)據(jù)進行采集處理,然后使用基于詞典的無監(jiān)督分類方法對獲取到的網(wǎng)絡文本數(shù)據(jù)進行極性值計算,實驗結(jié)果表明基于詞典的情感識別方法對于網(wǎng)絡評論文本的分類結(jié)果準確度較高。1.2基于機器學習的情感研究現(xiàn)狀2002年,Turney等人[27]首次使用了一種基于互信息的篇章級情感分類方法。首先從Epinions平臺上選取了手機、電影等不同領域的410條評論作為實驗數(shù)據(jù)集,以基礎情感詞語作為基準詞抽取文本中包含情感的短語,然后計算所有情感短語的互信息,最后根據(jù)全部情感短語的平均情感值作為情感分類的依據(jù)。雖然該方法實現(xiàn)簡單,但是依賴褒貶詞庫,而且詞語的含義可能也會隨著語境的不同而改變。2005年,Pang等人[28]將有監(jiān)督的機器學習方法應用在了情感分析上,采用布爾權值法對英文電影評論進行文本表示,然后使用了最大熵模型、支持向量機和樸素貝葉斯三種方法進行分類實驗,實驗結(jié)果表明,支持向量機在電影評論情感分類的效果優(yōu)于其他兩種。2007年,Shami等人[29]在比利時的VUB大學實驗室將四個實驗數(shù)據(jù)庫分為兩組,分別采用K近鄰(K-nearestNeighbour,KNN)等三種機器學習方法和兩種特征提取技術對語音數(shù)據(jù)集進行情感識別。實驗表明,用一組數(shù)據(jù)庫進行訓練,另一組數(shù)據(jù)庫進行測試的方法并不理想,但將兩組數(shù)據(jù)庫結(jié)合,取其中部分數(shù)據(jù)用于訓練,另一部分用于測試可以取得較好的效果。2008年,Ye等人[30]使用了三種機器學習方法對旅游評論文本進行分類測試,分別是樸素貝葉斯算法NB、支持向量SVM和基于文本特征的N-gram模型,實驗結(jié)果表明支持向量機SVM的準確度要更高。但是當實驗數(shù)據(jù)集規(guī)模逐漸擴大,三種機器學習方法的準確度都能達到80%以上。2010年,Davidov等人[31]利用Twitter評論的數(shù)據(jù)作為實驗數(shù)據(jù),通過使用標簽和表情符號作為情感標簽,提出了一種基于KNN算法對Twitter文本數(shù)據(jù)進行情感分類,這種方法需要的人力注釋成本較小。2010年,Zhou等人[32]針對半監(jiān)督深度網(wǎng)絡分類中標記數(shù)據(jù)獲取難度高的問題,引入了主動深度網(wǎng)絡(Activedeepnetwork,ADN)的概念。即在對數(shù)據(jù)文本進行半監(jiān)督分類中,應用主動學習來選取待標記的數(shù)據(jù)進行標記并用于解決情感分類問題,實驗表明主動學習深度網(wǎng)絡在文本情感分類中取得了良好的分類效果。2013年,Socher[33]對向量空間矩陣VSM和遞歸神經(jīng)網(wǎng)絡(RNN)等方法做了對比實驗后,在RNN的基礎上提出了語義依賴樹遞歸神經(jīng)網(wǎng)絡(SDT-RNN),該方法將圖像和文本映射到相同空間,通過在神經(jīng)網(wǎng)絡模型中引入語義依存樹來進行語義分析。將該方法應用在情感分類中可以得到遠高于遞歸神經(jīng)網(wǎng)絡的準確度。2014年,冀俊忠等人[34]對文檔級文本情感分類進行了研究,提出了一種知識語義權值特征和樸素貝葉斯相結(jié)合的情感分類算法,該算法首先使用特征選擇的方法來對文檔情感詞進行特征提取,并根據(jù)詞語的語義重要程度賦予不同權值,然后加入到建立的樸素貝葉斯分類器中,實驗表明該算法提高了文檔級文本情感分類的準確度。2015年,Karanasou等人[35]以Twitter文本為實驗數(shù)據(jù),從句法和形態(tài)特征兩個方面對比喻句進行情感分析,利用情感詞典對詞語賦予權值和計算相似度,并預測細粒度的情感評分,最后使用樸素貝葉斯,決策樹和SVM三種分類算法進行實驗,結(jié)果表明具有SVM分類器可以取得更好的效果。2015年,Jin等人[36]研究發(fā)現(xiàn)用戶對金融市場的積極性和市場波動存在關聯(lián),但是該領域情感分析研究仍然相對較少的問題對金融領域文本進行情感分析,利用支持向量機和依存句法相關性進行金融文本情感分析,取得了較好的效果。2016年,Xu等人[37]在使用LSTM進行長文本極性判斷時,為了解決處理長文本時情感信息流失的問題,通過引入緩存機制來模擬計算機的緩存cache功能,設計了一種對記憶單元進行改進的緩存長短時記憶神經(jīng)網(wǎng)絡,該方法按照遺忘率之間的差異劃分為若干數(shù)目的分組,在循環(huán)單元中能夠更完整的保留長文本的情感語義信息。2016年,朱憲瑩[38]使用微博文本作為實驗數(shù)據(jù)將各種特征提取方法進行了實驗對比,針對傳統(tǒng)特征選擇方法未考慮語義對極性影響的問題,采用多種特征提取方法將文本各層次的語義特征相融合,構(gòu)建多特征融合的特征向量,實驗結(jié)果表明,利用層次結(jié)構(gòu)情感分類方法構(gòu)建的多特征融合的特征向量,在對微博文本進行情感分析時能有效提高微博情感分類的準確性。2019年,吳潔等人[39]針對文本分析時評論人主觀情感傾向容易被忽略的問題,對現(xiàn)有的微博情感分類方法進行改進。他們將評論人觀點攜帶的情感進行建模得到情感值,再將微博文本表示成特征向量后作為長短期記憶網(wǎng)絡(LongShort-TermMemory,LSTM)的輸入,然后將LSTM的輸出情感值一起輸入到全連接層,最后在Softmax層得到文本極性分類的結(jié)果,實驗表明,和傳統(tǒng)方法相比該方法在情感分類可以實現(xiàn)更好的效果。然而,機器學習在對微博進行情感分析時卻存在不足[40]:其一,由于機器學習的準確度和訓練語料質(zhì)量呈正相關,只有在規(guī)模足夠大且正確標注的實驗數(shù)據(jù)下才能滿足準確度要求;其二,新浪微博自2009年上線至今,每天會產(chǎn)生超過1億條的海量文本數(shù)據(jù),并且微博受眾主要是國內(nèi)的年輕群體,博文充斥著大量的表情符號和口語化表達,微博內(nèi)容涉及到社會的各個領域,因此依靠人力難以對這些數(shù)據(jù)進行及時篩選及標注;其三,機器學習受訓練語料領域的限制較大,如文本涉及的領域不同,在一個語料環(huán)境下訓練的分類器并不能適用于所有領域,泛化能力較差;而基于情感詞典的情感分析算法依舊是非常具有代表性的分析算法,因此本文選擇基于情感詞典的情感分析方法。參考文獻:參考文獻張敏.網(wǎng)絡傳播的困境與協(xié)商民主的規(guī)制——桑斯坦《網(wǎng)絡共和國:網(wǎng)絡社會中的民主問題》的評述與思考[J].領導科學,2015,622(29):13-15.董光恒.積極情緒和消極情緒對沖動控制過程影響差異的ERP研究[C].中國心理學會.第十一屆全國心理學學術會議論文摘要集.中國心理學會:中國心理學會,2007:200.MedhatW,HassanA,KorashyH.Sentimentanalysisalgorithmsandapplications:Asurvey[J].AinShamsEngineeringJournal,2014,5(4):1093-1113.曹毅梅,李真奇.微博輿論對熱點事件發(fā)展的影響[J].新聞愛好者,2020(01):47-49.EsuliA,SebastianiF.SentiWordNet:APubliclyAvailableLexicalResourceforOpinionMining[C].ProceedingsoftheFifthInternationalConferenceonLanguageResourcesandEvaluation.Genoa,Italy,2006:417-422.BaccianellaS,EsuliA,SebastianiF.SentiWordNet3.0:AnEnhancedLexicalResourceforSentimentAnalysisandOpinionMining.[C].InternationalConferenceonLanguageResourcesandEvaluation,Lrec2010,17-23May2010,Valletta,Malta.DBLP,2010:83-90.GriebWE.Thegeneralinquirer:Acomputerapproachtocontentanalysis:PhilipJ.Stone,DexterC.Dunphy,MarshallS.Smith,DanielM.Ogilvie,withassociates.TheMITPress,Cambridge,Massachusetts,1966.651pp.plusxx[J].InformationStorageandRetrieval,1968,4(4):375-376.WilsonT,Wiebe,Hoffmann.Recognizingcontextualpolarityinphrase-levelsentimentanalysis[C].ProceedingsoftheConferenceonHumanLanguageTechnologyandEmpiricalMethodsinNaturalLanguageProcessing.Vancouver,Canada,2005:347-354.Neviarouskaya,Alena,HelmutPrendinger,andMitsuruIshizuka.SentiFul:Alexiconforsentimentanalysis[J].IEEETransactionsonAffectiveComputing.2011.2(1):22-36.BlairGoldensohnS,HannanK,McDonaldR,etal.Buildingasentimentsummarizerforlocalservicereviews[C].ProceedingsoftheWWW2008Workshop:NLPintheInformationExplosionEra.Beijing,China:NLPIX,2008:200-207.HatzivassiloglouV,McKeownKR.Predictingthesemanticorientationofadjectives[C].ProceedingsoftheThirty-FifthAnnualMeetingoftheAssociationforComputationalLinguisticsandtheEighthConferenceoftheEuropeanChapteroftheAssociationforComputationalLinguistics.AssociationforComputationalLinguistics,1997:174-181.Nasukawa,Yi,Jeonghee,Tetsuya,Bunescu,Razvan.Sentimentanalyzer:extractingsentimentsaboutagiventopicusingnaturallanguageprocessingtechniques[C].ThirdIEEEInternationalConferenceonDataMining(ICDM),MelBourne,Florida,USA,IEEEPress,2003:427-434.TheresaWilson,JanyceWiebe.RecognizingContextualPolarityinPhrase-LevelSentimentAnalysis[C].ProceedingofConferenceonHumanLanguageTechnologiesandEmpiricalMethodsinNaturalLanguageProcessing.Morristown:ACL,2005:347-354.王素格,楊安娜,李德玉.基于漢語情感詞表的句子情感傾向分類研究[J].計算機工程與應用,2009,45(24):153-155.楊鼎,陽愛民.一種基于情感詞典和樸素貝葉斯的中文文本情感分類方法[J].計算機應用研究,2010,27(10):3737-3739.Taboada,Maite,BrookeJ,TofiloskiM,etal.Lexicon-basedmethodsforsentimentanalysis[J].ComputationalLinguistics,2011,37(2):267-307.王振宇,吳澤衡,胡方濤.基于HowNet和PMI的詞語情感極性計算[J].計算機工程,2012,38(15):187-189,193.WeichselbraunA,GindlS,ScharlA.ExtractingandGroundingContext-AwareSentimentLexicons[J].IEEEIntelligentSystems,2013,28(2):39-46.LiSS,SuYan.Chinesesentimentdictionaryconstructionmethodbasedonbilingualinformationandlabelpropagationalgorithm[J].JournalofChineseInformationProcessing,2013,27(06):75-81.RaoY,LeiJ,WYL,etal.Buildingemotionaldictionaryforsentimentanalysisofonlinenews[J].WorldWideWeb,2014,17(4):723-742.KaranasouM,DoulkeridiscC.DsUniPi:anSVM-basedapproachforsentimentanalysisoffigurativelanguageontwitter[C].InternationalWorkshoponSemanticEvaluation,Denver,Colorado,2015:709-713.梁亞偉.基于情感詞典的中文微博情感分析模型研究[J].現(xiàn)代計算機,2015(18):13-17.劉德喜.情感詞擴展對微博情感分類性能影響的實驗分析[J].小型微型計算機系統(tǒng),2016,37(5):957-965.閆曉東,黃濤.基于情感詞典的藏語文本句子情感分類[J].中文信息學報,2018,32(2):75-80.YuqiansiHe.ChineseSentenceEmotionClassificationMethodBasedonSemanticAnalysis[C].InstituteofManagementScienceandIndustrialEngineering.Proceedingsof20197thInternationalEducation,Economics,SocialScience,Arts,SportsandManagementEngineeringConference(IEESASM2019).InstituteofManagementScienceandI
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025二手車銷售合同范本
- 公共藝術設計
- 小班活動安全教育
- 2025合同簽署注意事項
- 2025年網(wǎng)站會員商務信息服務合同范本
- 2025燈光音響租賃合同范本
- 2025年金融危機背景下:合同法執(zhí)行所面臨的挑戰(zhàn)及應對策略
- 2025餐飲服務合同范本
- 2024-2025蘇教版科學一年級下冊第三單元測試卷及答案
- 2025小學道德與法治教師課標考試模擬試卷及答案
- 專利代理師考試題庫含答案2024
- DB12 T1230-2023 政務信息資源共享 總體框架
- 管道拆除專項施工方案
- 廣西壯族自治區(qū)馬山縣實驗高中-雙休背后:從“要我學”到“我要學”的轉(zhuǎn)變-高三家長會【課件】
- GB/Z 27021.13-2025合格評定管理體系審核認證機構(gòu)要求第13部分:合規(guī)管理體系審核與認證能力要求
- 湖南省長沙市四大名校2024-2025學年高三2月月考語文試題(原卷版+解析版)
- 《政府采購管理研究的國內(nèi)外文獻綜述》5500字
- 糖尿病護理查房提出問題
- 2024年國網(wǎng)浙江省電力有限公司招聘考試真題
- 微專題2 質(zhì)量守恒定律的應用(解析版)
- 分析化學考試題(附參考答案)
評論
0/150
提交評論