基于主题模型的文本倾向性分析研究

基于主题模型的文本倾向性分析研究

论文摘要

文本倾向性分析是自然语言处理领域中的一个新兴研究课题,它旨在分析文本中的主观性信息。目前,国内外已开展了很多相关研究工作,并得到广泛应用。然而,现有方法主要集中在发现文本中的全局情感或主观性,并未充分考虑文本中的主题信息,导致呈现给用户的结果缺乏具体的语义信息。与此同时,主题模型能从大规模文档集合中自动发现潜在的具有语义的主题结构,但是,现有工作大多集中在发现主题,而未充分考虑主题情感结合。因此,本文结合主题和情感,将概率主题模型应用于文本倾向性分析中,进行了以下三方面的工作:(1)针对现有研究工作大多把主题情感分析和时间演化分开考虑,尚未对主题情感时间演化进行统一建模这一问题,提出主题情感时间演化模型。该模型结合情感先验知识同时考虑主题、情感和时间三方面因素,采用概率主题模型统一建模,能挖掘文档集合中的多个子主题及其情感时间演化规律。通过构建带有时间标记的中文博客数据集,结果表明主题情感时间演化模型能有效地从文档集合中抽取具有语义的主题信息,同时也能有效地抽取出主题情感时间演化规律。(2)针对现有句子主观性识别模型未考虑文档集合中多子主题的问题,本文综合考虑主题对主观性句子识别的影响,采用概率主题模型,提出结合主题的句子主观性识别模型。该模型将主观性句子识别看成一种弱监督生成模型,仅需小部分领域独立的主观性词典作为先验知识来修改模型中主题-主观性-词分布的Dirichlet先验。在MPQA数据集的实验结果表明,结合主题的句子主观性识别能有效提高识别的召回率和F值,也能抽取出具有语义信息的主观性主题。(3)综合(1)(2)的模型,设计了基于主题模型的文本倾向性分析原型系统框架。该系统框架将不同的数据集分配到不同的机器上处理,最终将结果汇总,可有效降低单台计算机的运算负荷,提高整个系统的可靠性、可用性和扩展性。

论文目录

  • 中文摘要
  • Abstract
  • 第一章 引言
  • 1.1 选题背景和意义
  • 1.2 研究思路
  • 1.3 本文主要贡献
  • 1.4 组织结构
  • 第二章 国内外研究现状
  • 2.1 句子主观性识别相关研究现状
  • 2.2 倾向性时间演化相关研究现状
  • 2.3 概率主题模型相关研究现状
  • 2.3.1 概率潜在语义分析(PLSA)
  • 2.3.2 潜在Dirichlet分布(LDA)
  • 2.3.3 联合情感主题模型
  • 2.3.4 动态主题模型
  • 2.4 本章小结
  • 第三章 基于概率主题模型的倾向性时间演化分析
  • 3.1 引言
  • 3.2 模型介绍
  • 3.2.1 定义描述
  • 3.2.2 文档生成过程
  • 3.2.3 模型推导
  • 3.3 实验设置
  • 3.3.1 实验数据集
  • 3.3.2 模型先验
  • 3.3.3 参数设置
  • 3.4 实验及结果分析比较
  • 3.4.1 主题抽取结果
  • 3.4.2 主题及情感演化结果
  • 3.5 本章小结
  • 第四章 基于概率主题模型的主观性句子识别
  • 4.1 引言
  • 4.2 模型介绍
  • 4.2.1 文档生成过程
  • 4.2.2 模型推导
  • 4.3 实验设置
  • 4.3.1 实验数据集
  • 4.3.2 模型先验
  • 4.3.3 超参数设置
  • 4.3.4 评价指标
  • 4.4 实验及结果分析
  • 4.4.1 主观性句子识别结果
  • 4.4.2 主观性主题抽取结果
  • 4.5 本章小结
  • 第五章 基于主题模型的文本倾向性分析系统设计
  • 5.1 基于主题模型的文本倾向性分析系统结构
  • 5.2 系统功能描述
  • 5.3 本章小结
  • 第六章 总结与展望
  • 6.1 总结
  • 6.2 展望
  • 参考文献
  • 致谢
  • 附录
  • 个人简历
  • 在学校期间的研究成果以及发表的学术论文
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    基于主题模型的文本倾向性分析研究
    下载Doc文档

    猜你喜欢