面向金融信息检索的体裁分类与情感分析技术研究

面向金融信息检索的体裁分类与情感分析技术研究

论文摘要

互联网的高速发展使得网络信息变得越来越丰富,但对用户来说,海量信息反而使得高效的信息获取变得困难。目前,基于主题的网页分类和聚类技术常被用来管理和组织海量网页数据,从而帮助用户定位相关和有用信息。本文的研究则是面向金融领域垂直检索应用,在传统的主题分析基础上,从文本体裁和情感两个新的非主题维度入手,对金融文本进行体裁、情感和相关性分析,通过结合网页文本分析和学习排序等信息检索技术,改进搜索性能。协助用户更准确定位所需信息,从而提高搜索效率和信息的相关性。在信息检索系统中,体裁可以作为一个显著特征,帮助用户快速定位所需信息。本文在金融网页的检索结果上,研究了体裁分类特征选择、提取以及自动体裁分类方法。基于似然比检验,本文提出了两种新的特征选择算法,用于优选具有较好体裁区分能力的特征,同时,设计了三种用于金融网页文本体裁自动分类的结构化特征:上下文特征、频繁特征和模式特征。本文采用机器学习方法结合上述特征集合实现了金融文本体裁自动分类。实验结果证明了本文提出的特征选择算法和结构化特征选取是有效的。金融文本中包含的情感倾向有助于金融信息检索结果的相关性排序,帮助确定信息的重要程度。因此,本文研究了金融新闻文本的情感分析方法,分别设计和实现了基于贝叶斯语言模型和相似度语言模型的中文金融新闻文本自动情感分类方法。实验结果显示,与传统机器学习方法相比,语言建模方法更为简单、直接和有效。本文提出了利用股评文本进行自动构建可靠的训练语料集,此外,在本文的研究中,还利用股票价格作为指示器,半自动构建金融新闻情感分类的测试语料集。这些资源可为本领域情感分析研究的深入提供支持。缺少可靠的标注资源是情感分析研究瓶颈之一。如何将其它语言(源语言)情感资源用于目标语言的情感分析研究,即跨语言情感分析是本文另一个研究内容。本文创新性地提出将实例级别迁移学习方法用于跨语言的情感分析,评估和选择高质量翻译样本用于目标语言情感分类器的辅助训练,解决跨语言情感分析中遇到的不同语言训练和测试数据特征/类别概率分布不一致、翻译错误传递等难题。本文提出了三种用于跨语言情感分析的迁移学习算法。第一种算法基于TrAdaBoost(Transfer AdaBoost),通过对源和目标样本采用不同权重迭代更新策略,进而减少低质量翻译样本对分类性能的负面影响。考虑到TrAdaBoost存在过度丢弃源语言训练样本的风险,我们提出了第二种迁移学习算法TrBB(TransferBoostingwithBagging),利用Bagging对TrAdaBoost进行平滑。与Boosting迁移策略减少低质量翻译样本被选中参与训练概率不同,第三种方法是迁移自学习(TransferSelf-training),算法通过结合预测标签和原标签进行自学习,直接从翻译语料中选择更多的高质量样本用于目标语言情感分类器的训练。本文分别在文档和语句级的跨语言情感分析任务上对本文提出的方法进行实验验证,实验结果显示迁移学习方法可以有效地利用其它语言标注语料,改善目标语言情感分类器的性能。专业金融信息检索系统需要对行业和股票等金融产品提供对象级别的信息服务,而传统的信息检索模型不能直接用于计算对象和网页的相关性。本文结合用户的搜索意图,从对象主题、金融领域、情感趋势和行业四个方面度量金融产品与网页的相关性,分别设计了对应的四类特征,并结合网页文档和查询对象给出了特征的量化表示,最后通过训练判别式模型SVM来计算查询对象和网页的相关性。实验结果显示,相对于语言模型方法,学习排序方法能够通过训练,有效结合领域内多方面特征,大幅度提高搜索结果质量。针对行业训练语料缺少不相关训练语料集问题,本文提出了一个用于行业信息检索和推荐的单类检索模型,研究比较了三种不同的单类分类方法在行业信息检索和推荐任务上的性能。实验表明,单类信息行业检索模型结合单类SVM方法,能够为用户提供高召回率和高精度行业信息检索服务。本文的研究显示,在传统主题分析之外,对网页文本进行有效的体裁分类和情感分析,能够帮助用户迅速定位所需信息,提高搜索引擎的搜索效率。本文的研究内容在金融信息检索领域尚属首次,研究的成果已被实际应用到海天园知识服务平台。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题背景及意义
  • 1.2 相关技术及研究现状
  • 1.2.1 体裁分类
  • 1.2.2 情感分析
  • 1.2.3 文本分析技术在金融领域的应用
  • 1.3 本文的研究内容
  • 1.4 本文的内容安排
  • 第2章 金融文本体裁分类方法研究
  • 2.1 引言
  • 2.2 体裁分类
  • 2.2.1 问题描述
  • 2.2.2 金融文本的体裁
  • 2.3 体裁分类的特征
  • 2.3.1 基于似然比检验的特征选择
  • 2.3.2 结构特征选取
  • 2.4 分类方法
  • 2.4.1 朴素贝叶斯
  • 2.4.2 支持向量机
  • 2.5 实验验证与结果分析
  • 2.5.1 实验设置
  • 2.5.2 实验结果和分析
  • 2.6 本章小结
  • 第3章 基于语言模型的金融新闻文本情感分类
  • 3.1 引言
  • 3.2 基于语言模型的金融新闻情感分类
  • 3.2.1 方法概述
  • 3.2.2 基于贝叶斯语言模型的金融新闻情感分类
  • 3.2.3 基于相似度语言模型的金融新闻情感分类
  • 3.2.4 语言模型的估计和平滑技术
  • 3.3 金融新闻情感分类语料库构建
  • 3.3.1 利用股评构建训练语料库
  • 3.3.2 测试新闻语料库构建
  • 3.4 实验验证与结果分析
  • 3.4.1 实验设置
  • 3.4.2 实验结果
  • 3.4.3 实验分析
  • 3.5 本章小结
  • 第4章 基于迁移学习的跨语言情感分析
  • 4.1 引言
  • 4.2 跨语言情感分析迁移学习算法
  • 4.2.1 TrAdaBoost算法
  • 4.2.2 Bagging和Boosting相结合的迁移学习算法
  • 4.2.3 迁移自学习算法
  • 4.3 情感分类器的设计
  • 4.3.1 观点句的识别
  • 4.3.2 评论的情感分类
  • 4.4 实验验证与结果分析
  • 4.4.1 实验设置
  • 4.4.2 实验结果和讨论
  • 4.5 本章小结
  • 第5章 基于学习排序的金融信息检索
  • 5.1 引言
  • 5.2 相关性和检索模型
  • 5.3 对象级别的金融信息检索
  • 5.3.1 金融信息检索相关性模型
  • 5.3.2 特征集合
  • 5.3.3 实验验证与结果分析
  • 5.4 基于单类分类模型的金融行业信息检索和推荐
  • 5.4.1 单类行业信息检索和推荐模型
  • 5.4.2 行业描述词的选择
  • 5.4.3 实验验证与结果分析
  • 5.5 专业金融信息检索系统
  • 5.5.1 金融信息检索系统特点
  • 5.5.2 系统架构和核心技术
  • 5.6 本章小结
  • 结论
  • 参考文献
  • 攻读博士学位期间发表的学术论文及其它成果
  • 致谢
  • 个人简历
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    面向金融信息检索的体裁分类与情感分析技术研究
    下载Doc文档

    猜你喜欢