面向中文Web评论的情感分析技术研究

面向中文Web评论的情感分析技术研究

论文摘要

随着网络技术的迅猛发展,网络已成为越来越多的人们获取信息的重要来源,同时,也成为人们表达自己观点的平台。对迅速增长的网上文本资源,尤其对用户主动发布的评论进行挖掘和分析,识别出其情感倾向及演化规律,可以更好地理解用户的行为,分析热点舆情,也可以为政府,企业和其他机构在决策时提供重要的依据。本文首先介绍了情感分析的研究背景和应用前景;然后以中文Web评论为研究对象,对其概念、特点进行了介绍;接下来按照Web评论的情感分析流程,分别从Web评论的获取和预处理、Web评论的情感分析方法两方面进行了深入研究。其中,对于Web评论的情感分析,本文分别研究了基于文本分类技术和基于情感词典的文本情感分析方法。文本情感分析的价值在于从某一主题的评论中分析得出总结性的结论,这首先涉及到从网络上获取大量的评论数据。同一主题的评论通常集中在某些站点,同一站点的网页呈现高度结构化。针对这一特点,本文设计了基于消息中间件的网页实时处理技术来并行下载和预处理网页,得到可供情感分析的评论数据。接着,本文运用了两种基于不同思想的情感分析方法:(1)基于文本分类技术:首先在传统特征选择方法基础上提出了基于相关性和冗余度的联合特征选择算法,旨在删除冗余特征,保留有利于分类的特征,从而提高文本情感分类效果;最后采用支持向量机的文本分类方法进行情感极性分类。(2)基于情感词典技术:利用《知网》建立情感词典,并计算中文词语的情感倾向,接着根据短语结构进一步计算文本中短语的情感倾向值,最后通过求和获得整个评论的情感倾向值。最后,以网络上的公开评论数据集和课题获取的手工标注数据集为实验测试数据,对文中提出的两种情感分析方法进行对比分析,实验结果表明:本文提出的两种情感分析方法均是有效的,而且基于情感词典的方法在性能上要略优于基于文本分类的方法。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景
  • 1.2 国内外研究现状和发展趋势
  • 1.2.1 国外研究现状
  • 1.2.2 国内研究现状
  • 1.2.3 发展趋势
  • 1.3 本文主要研究工作
  • 1.4 本文的组织结构
  • 第二章 中文Web评论获取和预处理
  • 2.1 网络爬虫
  • 2.2 网页信息提取
  • 2.3 评论文本预处理
  • 2.3.1 中文分词
  • 2.3.2 停用词过滤
  • 2.4 基于消息中间件的网页实时处理技术
  • 2.4.1 消息中间件
  • 2.4.2 网页实时处理系统的设计
  • 2.4.3 性能测试
  • 2.5 本章小结
  • 第三章 基于文本分类技术的Web评论情感分析
  • 3.1 文本分类相关技术
  • 3.1.1 特征选择方法
  • 3.1.2 文本表示
  • 3.1.3 特征权重计算
  • 3.1.4 文本分类算法
  • 3.2 基于相关性和冗余度的联合特征选择方法
  • 3.2.1 组合特征选择方法
  • 3.2.2 相关概念定义
  • 3.2.3 算法描述
  • 3.3 基于文本分类的评论情感分析方法
  • 3.4 本章小结
  • 第四章 基于情感词典的Web评论情感分析
  • 4.1 《知网》介绍
  • 4.1.1 概念和义原
  • 4.1.2 HowNet中的情感词典
  • 4.2 情感词典的构建
  • 4.2.1 基于HowNet的情感词典构建
  • 4.2.2 动态情感词词典的构建
  • 4.2.3 未登录情感词的情感倾向计算
  • 4.3 基于情感词典的评论情感分析方法
  • 4.3.1 修饰副词处理
  • 4.3.2 动态情感词处理
  • 4.3.3 评论的整体情感倾向分析
  • 4.4 本章小结
  • 第五章 实验及结果分析
  • 5.1 实验数据集
  • 5.1.1 手工标注数据集
  • 5.1.2 公开数据集
  • 5.2 文本情感分析的评价指标
  • 5.2.1 准确率与召回率
  • 5.2.2 微平均和宏平均
  • 1指标'>5.2.3 F1指标
  • 5.3 基于文本分类技术的情感分析实验
  • 5.3.1 实验流程
  • 5.3.2 实验结果与分析
  • 5.4 基于情感词典的情感分析实验
  • 5.4.1 实验流程
  • 5.4.2 实验结果与分析
  • 5.5 本章小结
  • 第六章 结论
  • 6.1 主要工作与创新点
  • 6.2 进一步研究工作
  • 致谢
  • 参考文献
  • 作者在学期间取得的学术成果
  • 相关论文文献

    标签:;  ;  ;  ;  

    面向中文Web评论的情感分析技术研究
    下载Doc文档

    猜你喜欢