论文摘要
随着互联网和信息处理技术的发展,人们可以从新闻评论、论坛、博客等来源得到海量的评论信息,只有通过对信息的深入分析和提炼,信息才能更有效的为人所用。正是在这一背景下,文本的情感倾向研究成为当前一个具有广泛应用前景且十分新颖的研究领域。本文工作主要围绕着“细颗粒度”情感倾向分析中若干关键技术展开研究,包括:被评价对象抽取、评价关系抽取、情感倾向判定、知识库半自动构建以及半监督学习在情感倾向分析中的应用等方面。在文章和句子级倾向极性分析任务中,我们将条件最大熵算法和熵正则化框架结合,提出了半监督条件最大熵算法。该方法在句子级MPQA语料库中,可以达到78.2%的精度,比有监督方法有5.2%的相对提高。在被评价对象抽取方面,提出了基于条件随机场的被评价对象识别算法。该算法将被评价对象抽取问题转化为序列标注问题,通过上下文、词性、知识库等一系列特征完成被评价对象抽取。通过上述方法被评价对象识别精度可以达到91.17%。在评价关系方面,提出了一种将关系识别问题转化为序列标注问题的方法。利用条件随机场和一系列特征完成评价关系抽取。这一算法结合了语法层信息、词语层信息,并利用相邻关系的分类结果,因而具有更高的准确性。实验结果表明该方法的F值比最近邻方法有15%的提高。在模型自适应方面,提出了一种基于最大后验的条件随机场模型自适应算法。通过实验结果说明这种算法可以有效通过背景模型和适应语料,自适应到另外一个领域中,在被评价对象抽取实验中,经过适应的模型比未经适应的模型有34%的相对提高。此外,在知识库构建方面,我还提出了基于图互增理论的自举学习算法,利用弱监督分类器,从少量种子词和大量未标记语料中自动学习出符合要求的数据,再结合人工判断,半自动的构成所需知识库。最后,我们结合上述研究实现了面向汽车领域的情感倾向分析系统。
论文目录
中文摘要英文摘要第一章 前言1.1 问题描述1.1.1 倾向性检测和极性分析1.1.2 "细颗粒度"情感倾向分析1.1.3 领域迁移1.2 本文的工作内容1.3 本文组织第二章 相关工作2.1 倾向极性分析2.1.1 有监督分类算法应用2.1.2 特征选取2.1.3 无监督分类算法应用2.2 "细颗粒度"情感倾向分析2.3 领域迁移第三章 基于半监督条件最大熵的倾向极性分析3.1 介绍3.2 半监督学习算法相关工作3.3 MPQA语料集数据分析3.4 半监督条件最大熵算法3.4.1 条件最大熵3.4.2 特征选择3.4.3 半监督条件最大熵算法3.4.4 时间和空间复杂度3.5 实验3.5.1 数据集3.5.2 特征对比实验3.5.3 SCME实验3.6 结论第四章 基于条件随机场的评价单元抽取4.1 系统框架4.2 条件随机场介绍4.2.1 参数估计4.3 被评价对象以及评价词识别4.3.1 评价词抽取4.3.2 被评价对象抽取4.4 评价关系抽取4.5 评价单元构成4.6 实验4.6.1 语料库4.6.2 实验结果4.7 本章小结第五章 基于MAP的条件随机场模型自适应算法5.1 模型自适应相关工作5.2 算法介绍5.3 实验5.3.1 被评价对象抽取5.3.2 组块分析实验5.3.3 大写字母识别实验5.4 本章小结第六章 本体库半自动构建方法6.1 简介6.2 相关工作6.3 基于图互增强模型的自举学习算法6.3.1 GMR-Bootstrapping算法结构6.3.2 抽取模板6.3.3 GMR评分6.3.4 多组种类同时学习6.4 实验6.4.1 MUC4语料库实验结果6.4.2 中文语料库实验结果6.5 本章小结第七章 面向汽车领域的"细颗粒度"情感倾向分析系统7.1 系统框架7.2 知识库构建7.2.1 品牌型号知识库7.2.2 属性知识库7.2.3 评价词知识库7.2.4 半自动知识库构建7.3 系统展现7.4 结论第八章 总结与展望8.1 本文工作总结8.2 工作展望参考文献攻读博士期间的主要工作致谢
相关论文文献
标签:情感倾向分析论文; 条件随机场论文; 关系抽取论文; 自举学习算法论文; 半监督条件最大熵论文;