论文摘要
文本倾向性分析是自然语言处理领域中的一个新兴研究课题,它旨在分析文本中的主观性信息。目前,国内外已开展了很多相关研究工作,并得到广泛应用。然而,现有方法主要集中在发现文本中的全局情感或主观性,并未充分考虑文本中的主题信息,导致呈现给用户的结果缺乏具体的语义信息。与此同时,主题模型能从大规模文档集合中自动发现潜在的具有语义的主题结构,但是,现有工作大多集中在发现主题,而未充分考虑主题情感结合。因此,本文结合主题和情感,将概率主题模型应用于文本倾向性分析中,进行了以下三方面的工作:(1)针对现有研究工作大多把主题情感分析和时间演化分开考虑,尚未对主题情感时间演化进行统一建模这一问题,提出主题情感时间演化模型。该模型结合情感先验知识同时考虑主题、情感和时间三方面因素,采用概率主题模型统一建模,能挖掘文档集合中的多个子主题及其情感时间演化规律。通过构建带有时间标记的中文博客数据集,结果表明主题情感时间演化模型能有效地从文档集合中抽取具有语义的主题信息,同时也能有效地抽取出主题情感时间演化规律。(2)针对现有句子主观性识别模型未考虑文档集合中多子主题的问题,本文综合考虑主题对主观性句子识别的影响,采用概率主题模型,提出结合主题的句子主观性识别模型。该模型将主观性句子识别看成一种弱监督生成模型,仅需小部分领域独立的主观性词典作为先验知识来修改模型中主题-主观性-词分布的Dirichlet先验。在MPQA数据集的实验结果表明,结合主题的句子主观性识别能有效提高识别的召回率和F值,也能抽取出具有语义信息的主观性主题。(3)综合(1)(2)的模型,设计了基于主题模型的文本倾向性分析原型系统框架。该系统框架将不同的数据集分配到不同的机器上处理,最终将结果汇总,可有效降低单台计算机的运算负荷,提高整个系统的可靠性、可用性和扩展性。
论文目录
相关论文文献
标签:文本倾向性分析论文; 主题模型论文; 主题情感时间演化论文; 句子主观识别论文; 弱监督生成模型论文;