中文产品评论的意见挖掘研究

中文产品评论的意见挖掘研究

论文摘要

随着电子商务的迅猛发展,用户购买和使用产品之后会在Web上发表对产品的评论,产品评论的自动挖掘对于商家和潜在的消费者有着重要意义。本文以中文产品评论为主要研究对象,从评论的整体褒贬分类和细颗粒的产品意见挖掘两个层面进行分析研究,论文主要内容如下:采用机器学习的方法对产品评论进行整体褒贬分类研究。构建用于产品评论褒贬分类的语料库;采用基于N-Gram文本特征抽取(分为基于词的unigram, bigram和基于字的unigram, bigram, trigram),结合不同的特征权重计算方法(TF,BOOL, TFIDF),在不同的分类算法(朴素贝叶斯、最大熵和支持向量机)进行分类实验。实验表明使用基于字的bigram特征表示并结合基于词频的加权方法在支持向量机分类器下取得了最好的分类性能,准确率为94.74%。在特征抽取上,采用基于后缀树结构的特征提取算法,提取关键子串组作为文本特征。实验表明基于后缀树的关键子串组的特征表现能力强而且特征维度低,分类的准确率略高于基于N-Gram文本特征表示的分类效果。设计并实现了基于依存句法分析的细颗粒意见挖掘算法和基于关键字匹配的细颗粒意见挖掘算法,并构建产品特征库和中文极性词典。实验表明关键字匹配方法好于基于依存句法分析方法。最后,设计并实现了一个产品评论意见挖掘系统,该系统可以自动抓取指定的评论页面并抽取评论内容,可从整体和细颗粒两个层面对产品评论进行意见分析,并将意见分析结果存入产品意见库中,提供可视化的统计展现。

论文目录

  • 致谢
  • 摘要
  • ABSTRACT
  • 1 绪论
  • 1.1 研究背景
  • 1.2 选题意义
  • 1.3 研究现状
  • 1.3.1 文本情感分类研究现状
  • 1.3.2 词的极性分类研究现状
  • 1.3.3 产品特征抽取研究现状
  • 1.3.4 产品评论挖掘系统构建研究现状
  • 1.4 论文主要工作
  • 1.5 论文组织结构
  • 2 文本分类相关基础理论
  • 2.1 文本表示
  • 2.2 特征权重计算
  • 2.3 文本分类算法
  • 2.3.1 朴素贝叶斯
  • 2.3.2 最大熵
  • 2.3.3 支持向量机
  • 2.4 文本分类性能评价
  • 2.4.1 查全率、查准率和F-测度值
  • 2.4.2 宏平均和微平均
  • 2.5 本章小结
  • 3 产品评论整体褒贬分类研究
  • 3.1 整体设计
  • 3.2 产品评论褒贬分类实验
  • 3.2.1 文本预处理
  • 3.2.2 特征向量抽取及权重计算
  • 3.2.3 特征选择
  • 3.2.4 分类算法选择
  • 3.3 产品评论语料库的构建
  • 3.4 基于N-Gram的特征提取分类实验结果
  • 3.4.1 基于词的unigram和bigram
  • 3.4.2 基于字的unigram,bigram和trigram
  • 3.4.3 实验结论
  • 3.5 基于Suffix Tree特征抽取的褒贬义分类
  • 3.5.1 Suffix Tree介绍
  • 3.5.2 关键子串组的特征提取和算法实现
  • 3.5.3 基于Suffix Tree的特征提取分类实验结果
  • 3.5.4 实验结论
  • 3.6 本章小结
  • 4 产品评论细颗粒意见挖掘研究
  • 4.1 研究目标
  • 4.2 整体设计
  • 4.3 产品特征库的构建
  • 4.3.1 从产品规格说明书提取特征
  • 4.3.2 从产品评论中提取特征
  • 4.4 中文极性词典构建
  • 4.4.1 极性词典构建
  • 4.4.2 极性修饰词典构建
  • 4.4.3 产品特征相关极性词典构建
  • 4.5 中文产品评论语言特点分析
  • 4.5.1 中文句子分析
  • 4.5.2 产品评论特点分析
  • 4.6 基于依存句法的意见挖掘
  • 4.6.1 句法分析器
  • 4.6.2 SBV极性传递算法
  • 4.7 基于关键字匹配的意见挖掘
  • 4.8 意见挖掘实验
  • 4.8.1 测试语料
  • 4.8.2 实验结果和分析
  • 4.9 本章小结
  • 5 产品评论意见挖掘系统设计与实现
  • 5.1 系统整体设计
  • 5.2 系统开发环境
  • 5.3 可视化界面生成
  • 5.4 产品特征库和极性词典的管理
  • 5.4.1 产品特征库维护
  • 5.4.2 极性词库维护
  • 5.5 评论页面下载与内容提取
  • 5.5.1 评论的页面下载
  • 5.5.2 评论内容抽取
  • 5.6 评论意见挖掘
  • 5.6.1 整体褒贬分类
  • 5.6.2 细颗粒评论分析
  • 5.7 评论意见查询
  • 5.7.1 产品意见查询
  • 5.7.2 产品意见比较查询
  • 5.7.3 文本评论分析查询
  • 5.8 本章小结
  • 6 总结
  • 6.1 研究工作总结
  • 6.2 进一步工作
  • 参考文献
  • 作者简历
  • 学位论文数据集
  • 相关论文文献

    • [1].西中文作品[J]. 中国书法 2011(09)
    • [2].《国际中文教育学报》征稿启事[J]. 世界汉语教学 2020(02)
    • [3].2019年国际中文教育大会闭幕[J]. 孔子学院 2020(01)
    • [4].基于文化产业振兴背景的高职院校中文教育研究[J]. 科学咨询(教育科研) 2020(04)
    • [5].印度的中文教育:综述与评估[J]. 南亚东南亚研究 2020(05)
    • [6].紡織月刊[J]. 纺织服装周刊 2018(21)
    • [7].紡織月刊[J]. 纺织服装周刊 2017(44)
    • [8].中文塑造了我的人生[J]. 孔子学院 2018(02)
    • [9].中文版音乐剧的价值和意义[J]. 上海艺术评论 2018(05)
    • [10].基于中英文可比较语料的中文零指代消解[J]. 北京大学学报(自然科学版) 2017(02)
    • [11].增强中文自信 助推中华文化复兴——周善甫的中文观述评[J]. 云南师范大学学报(对外汉语教学与研究版) 2017(02)
    • [12].在邕高校泰国留学生阅读中文书籍现状调查研究与分析[J]. 才智 2017(28)
    • [13].西中文作品欣赏[J]. 美与时代(中) 2014(12)
    • [14].论在外语院系中加强中文课教育的意义[J]. 戏剧之家 2015(10)
    • [15].全家都来学中文[J]. 廉政瞭望(上半月) 2015(10)
    • [16].《高校应用数学学报》第三十卷A辑(中文版)总目次[J]. 高校应用数学学报A辑 2015(04)
    • [17].“厦大中文百年”征稿启事[J]. 厦大中文学报 2020(00)
    • [18].香港中文大学宾馆[J]. 金山 2019(08)
    • [19].香港中文大學[J]. 英语画刊(高级版) 2019(25)
    • [20].中文、悟性和悟性享受[J]. 基础教育论坛 2013(20)
    • [21].中文教育之痛[J]. 教师博览 2010(04)
    • [22].该死的中文秘书台[J]. 教师博览 2011(02)
    • [23].探析文化产业振兴与高校中文教育改革[J]. 长江丛刊 2018(02)
    • [24].唐中文作品[J]. 文化月刊 2015(35)
    • [25].好惨的中文课[J]. 课外阅读 2016(05)
    • [26].一不留神,我要读中文系的博士了[J]. 大学生 2016(17)
    • [27].重建中文之美[J]. 百花洲 2016(01)
    • [28].学中文的骄傲[J]. 快乐作文 2015(Z3)
    • [29].孙中山(银奖)[J]. 上海集邮 2015(S1)
    • [30].我和中文做朋友[J]. 快乐作文 2014(Z5)

    标签:;  ;  ;  ;  

    中文产品评论的意见挖掘研究
    下载Doc文档

    猜你喜欢