论文摘要
随着电子商务的蓬勃发展和网络购物用户的增加,作为消费者反馈信息的在线产品评论也呈现快速增长之势。实现产品评论的自动挖掘对商家和潜在的消费者有着重要意义。由于产品评论挖掘中的任务大多可被转化为分类问题,因此利用现有的监督学习方法解决产品评论挖掘中的问题逐渐成为一种趋势。然而,由于评论文本篇幅较短、描述信号弱的特点,使得现有监督学习方法在评论挖掘中的应用受到很大的限制。为了解决这个问题,本文以中文产品评论为主要研究对象,采用特征强化的方法,从评论整体的情感分类和细粒度的观点挖掘两个层面进行分析研究。论文的主要工作如下:(1)在评论整体的情感分类方面,针对评论文本特征信息弱的特点,提出一种基于关联特征的情感分类方法。该方法首先利用关联规则挖掘算法挖掘关联共现特征集,然后利用获取的关联共现特征增强评论文本的特征信息。最后结合IG特征选择法和SVM分类算法完成情感分类。实验证明,与基于传统布尔权重的评论情感分类方法相比较,基于关联特征的产品评论情感分类方法的宏平均F1值和微平均F1值都得到了很大的提高。(2)在细粒度的观点挖掘方面,针对词对信息弱而导致传统的分类器F1值不高的问题,本文提出一种基于多特征多分类器的方法识别主观评价关系。一方面,为了强化词对的上下文特征,该方法除了抽取特征观点词对的上下文词特征与位置特征,还引入了词对上下文的句式特征共同构建词对的特征空间;另一方面,为了减弱词对特征信息弱对分类器精度的影响,该方法使用加权投票机制构建集成分类器来识别词对之间的主观评价关系。实验结果表明,句式特征的引入可以大大提高分类器的召回率;基于加权投票机制的集成分类器模型在均衡子分类器准确率和召回率的同时,也提高了识别器的F1值。(3)基于上述两种方法,本文构建了一个中文产品评论挖掘原型系统,实现对评论网页或评论文本的挖掘与结果展示。
论文目录
相关论文文献
标签:产品评论挖掘论文; 观点挖掘论文; 情感分类论文; 主观评价关系识别论文;