论文摘要
随着网络技术的迅猛发展,网络已成为越来越多的人们获取信息的重要来源,同时,也成为人们表达自己观点的平台。对迅速增长的网上文本资源,尤其对用户主动发布的评论进行挖掘和分析,识别出其情感倾向及演化规律,可以更好地理解用户的行为,分析热点舆情,也可以为政府,企业和其他机构在决策时提供重要的依据。本文首先介绍了情感分析的研究背景和应用前景;然后以中文Web评论为研究对象,对其概念、特点进行了介绍;接下来按照Web评论的情感分析流程,分别从Web评论的获取和预处理、Web评论的情感分析方法两方面进行了深入研究。其中,对于Web评论的情感分析,本文分别研究了基于文本分类技术和基于情感词典的文本情感分析方法。文本情感分析的价值在于从某一主题的评论中分析得出总结性的结论,这首先涉及到从网络上获取大量的评论数据。同一主题的评论通常集中在某些站点,同一站点的网页呈现高度结构化。针对这一特点,本文设计了基于消息中间件的网页实时处理技术来并行下载和预处理网页,得到可供情感分析的评论数据。接着,本文运用了两种基于不同思想的情感分析方法:(1)基于文本分类技术:首先在传统特征选择方法基础上提出了基于相关性和冗余度的联合特征选择算法,旨在删除冗余特征,保留有利于分类的特征,从而提高文本情感分类效果;最后采用支持向量机的文本分类方法进行情感极性分类。(2)基于情感词典技术:利用《知网》建立情感词典,并计算中文词语的情感倾向,接着根据短语结构进一步计算文本中短语的情感倾向值,最后通过求和获得整个评论的情感倾向值。最后,以网络上的公开评论数据集和课题获取的手工标注数据集为实验测试数据,对文中提出的两种情感分析方法进行对比分析,实验结果表明:本文提出的两种情感分析方法均是有效的,而且基于情感词典的方法在性能上要略优于基于文本分类的方法。
论文目录
摘要ABSTRACT第一章 绪论1.1 研究背景1.2 国内外研究现状和发展趋势1.2.1 国外研究现状1.2.2 国内研究现状1.2.3 发展趋势1.3 本文主要研究工作1.4 本文的组织结构第二章 中文Web评论获取和预处理2.1 网络爬虫2.2 网页信息提取2.3 评论文本预处理2.3.1 中文分词2.3.2 停用词过滤2.4 基于消息中间件的网页实时处理技术2.4.1 消息中间件2.4.2 网页实时处理系统的设计2.4.3 性能测试2.5 本章小结第三章 基于文本分类技术的Web评论情感分析3.1 文本分类相关技术3.1.1 特征选择方法3.1.2 文本表示3.1.3 特征权重计算3.1.4 文本分类算法3.2 基于相关性和冗余度的联合特征选择方法3.2.1 组合特征选择方法3.2.2 相关概念定义3.2.3 算法描述3.3 基于文本分类的评论情感分析方法3.4 本章小结第四章 基于情感词典的Web评论情感分析4.1 《知网》介绍4.1.1 概念和义原4.1.2 HowNet中的情感词典4.2 情感词典的构建4.2.1 基于HowNet的情感词典构建4.2.2 动态情感词词典的构建4.2.3 未登录情感词的情感倾向计算4.3 基于情感词典的评论情感分析方法4.3.1 修饰副词处理4.3.2 动态情感词处理4.3.3 评论的整体情感倾向分析4.4 本章小结第五章 实验及结果分析5.1 实验数据集5.1.1 手工标注数据集5.1.2 公开数据集5.2 文本情感分析的评价指标5.2.1 准确率与召回率5.2.2 微平均和宏平均1指标'>5.2.3 F1指标5.3 基于文本分类技术的情感分析实验5.3.1 实验流程5.3.2 实验结果与分析5.4 基于情感词典的情感分析实验5.4.1 实验流程5.4.2 实验结果与分析5.5 本章小结第六章 结论6.1 主要工作与创新点6.2 进一步研究工作致谢参考文献作者在学期间取得的学术成果
相关论文文献
标签:中文评论论文; 情感分析论文; 文本分类论文; 情感词典论文;