基于特征强化的中文产品评价挖掘研究

基于特征强化的中文产品评价挖掘研究

论文摘要

随着电子商务的蓬勃发展和网络购物用户的增加,作为消费者反馈信息的在线产品评论也呈现快速增长之势。实现产品评论的自动挖掘对商家和潜在的消费者有着重要意义。由于产品评论挖掘中的任务大多可被转化为分类问题,因此利用现有的监督学习方法解决产品评论挖掘中的问题逐渐成为一种趋势。然而,由于评论文本篇幅较短、描述信号弱的特点,使得现有监督学习方法在评论挖掘中的应用受到很大的限制。为了解决这个问题,本文以中文产品评论为主要研究对象,采用特征强化的方法,从评论整体的情感分类和细粒度的观点挖掘两个层面进行分析研究。论文的主要工作如下:(1)在评论整体的情感分类方面,针对评论文本特征信息弱的特点,提出一种基于关联特征的情感分类方法。该方法首先利用关联规则挖掘算法挖掘关联共现特征集,然后利用获取的关联共现特征增强评论文本的特征信息。最后结合IG特征选择法和SVM分类算法完成情感分类。实验证明,与基于传统布尔权重的评论情感分类方法相比较,基于关联特征的产品评论情感分类方法的宏平均F1值和微平均F1值都得到了很大的提高。(2)在细粒度的观点挖掘方面,针对词对信息弱而导致传统的分类器F1值不高的问题,本文提出一种基于多特征多分类器的方法识别主观评价关系。一方面,为了强化词对的上下文特征,该方法除了抽取特征观点词对的上下文词特征与位置特征,还引入了词对上下文的句式特征共同构建词对的特征空间;另一方面,为了减弱词对特征信息弱对分类器精度的影响,该方法使用加权投票机制构建集成分类器来识别词对之间的主观评价关系。实验结果表明,句式特征的引入可以大大提高分类器的召回率;基于加权投票机制的集成分类器模型在均衡子分类器准确率和召回率的同时,也提高了识别器的F1值。(3)基于上述两种方法,本文构建了一个中文产品评论挖掘原型系统,实现对评论网页或评论文本的挖掘与结果展示。

论文目录

  • 摘要
  • Abstract
  • 致谢
  • 插图清单
  • 表格清单
  • 第一章 绪论
  • 1.1 研究背景及意义
  • 1.2 本文的工作
  • 1.3 本文的结构
  • 第二章 产品评论挖掘的研究现状
  • 2.1 产品评论挖掘通用框架
  • 2.2 主客观分析
  • 2.2.1 基于情感知识的方法
  • 2.2.2 基于特征分类的方法
  • 2.3 情感分类
  • 2.3.1 基于情感知识的方法
  • 2.3.2 基于特征分类的方法
  • 2.3.3 基于顺序回归的方法
  • 2.4 细粒度观点挖掘
  • 2.4.1 产品特征提取
  • 2.4.2 观点词抽取及极性分析
  • 2.4.3 主观评价关系识别
  • 2.5 产品评论挖掘应用系统
  • 2.6 本章小结
  • 第三章 基于关联特征的产品评论情感分类方法
  • 3.1 引言
  • 3.2 基于关联特征的产品评论情感分类方法
  • 3.2.1 基本框架
  • 3.2.2 关联特征获取
  • 3.2.3 基于关联特征的文本表示方法
  • 3.3 实验结果及分析
  • 3.3.1 实验语料及评估指标
  • 3.3.2 实验结果及分析
  • 3.4 本章小结
  • 第四章 基于多特征多分类器的主观性关系识别方法
  • 4.1 引言
  • 4.2 基于多特征多分类器的主观评价关系识别方法
  • 4.2.1 候选特征-观点词对提取
  • 4.2.2 词对特征提取
  • 4.2.3 多分类器的构建
  • 4.3 实验结果及分析
  • 4.3.1 句式特征在词对特征提取中的作用
  • 4.3.2 集成分类器与单分类器的实验对比
  • 4.4 本章小结
  • 第五章 中文产品评论挖掘原型系统
  • 5.1 系统框架
  • 5.2 系统展示
  • 5.2.1 评论网页处理
  • 5.2.2 单条评论处理
  • 5.3 本章小结
  • 第六章 总结与展望
  • 6.1 论文工作的主要成果
  • 6.2 后续研究工作的展望
  • 参考文献
  • 攻读硕士学位期间参加研究的课题和发表的论文
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于特征强化的中文产品评价挖掘研究
    下载Doc文档

    猜你喜欢