论文摘要
互联网的高速发展使得网络信息变得越来越丰富,但对用户来说,海量信息反而使得高效的信息获取变得困难。目前,基于主题的网页分类和聚类技术常被用来管理和组织海量网页数据,从而帮助用户定位相关和有用信息。本文的研究则是面向金融领域垂直检索应用,在传统的主题分析基础上,从文本体裁和情感两个新的非主题维度入手,对金融文本进行体裁、情感和相关性分析,通过结合网页文本分析和学习排序等信息检索技术,改进搜索性能。协助用户更准确定位所需信息,从而提高搜索效率和信息的相关性。在信息检索系统中,体裁可以作为一个显著特征,帮助用户快速定位所需信息。本文在金融网页的检索结果上,研究了体裁分类特征选择、提取以及自动体裁分类方法。基于似然比检验,本文提出了两种新的特征选择算法,用于优选具有较好体裁区分能力的特征,同时,设计了三种用于金融网页文本体裁自动分类的结构化特征:上下文特征、频繁特征和模式特征。本文采用机器学习方法结合上述特征集合实现了金融文本体裁自动分类。实验结果证明了本文提出的特征选择算法和结构化特征选取是有效的。金融文本中包含的情感倾向有助于金融信息检索结果的相关性排序,帮助确定信息的重要程度。因此,本文研究了金融新闻文本的情感分析方法,分别设计和实现了基于贝叶斯语言模型和相似度语言模型的中文金融新闻文本自动情感分类方法。实验结果显示,与传统机器学习方法相比,语言建模方法更为简单、直接和有效。本文提出了利用股评文本进行自动构建可靠的训练语料集,此外,在本文的研究中,还利用股票价格作为指示器,半自动构建金融新闻情感分类的测试语料集。这些资源可为本领域情感分析研究的深入提供支持。缺少可靠的标注资源是情感分析研究瓶颈之一。如何将其它语言(源语言)情感资源用于目标语言的情感分析研究,即跨语言情感分析是本文另一个研究内容。本文创新性地提出将实例级别迁移学习方法用于跨语言的情感分析,评估和选择高质量翻译样本用于目标语言情感分类器的辅助训练,解决跨语言情感分析中遇到的不同语言训练和测试数据特征/类别概率分布不一致、翻译错误传递等难题。本文提出了三种用于跨语言情感分析的迁移学习算法。第一种算法基于TrAdaBoost(Transfer AdaBoost),通过对源和目标样本采用不同权重迭代更新策略,进而减少低质量翻译样本对分类性能的负面影响。考虑到TrAdaBoost存在过度丢弃源语言训练样本的风险,我们提出了第二种迁移学习算法TrBB(TransferBoostingwithBagging),利用Bagging对TrAdaBoost进行平滑。与Boosting迁移策略减少低质量翻译样本被选中参与训练概率不同,第三种方法是迁移自学习(TransferSelf-training),算法通过结合预测标签和原标签进行自学习,直接从翻译语料中选择更多的高质量样本用于目标语言情感分类器的训练。本文分别在文档和语句级的跨语言情感分析任务上对本文提出的方法进行实验验证,实验结果显示迁移学习方法可以有效地利用其它语言标注语料,改善目标语言情感分类器的性能。专业金融信息检索系统需要对行业和股票等金融产品提供对象级别的信息服务,而传统的信息检索模型不能直接用于计算对象和网页的相关性。本文结合用户的搜索意图,从对象主题、金融领域、情感趋势和行业四个方面度量金融产品与网页的相关性,分别设计了对应的四类特征,并结合网页文档和查询对象给出了特征的量化表示,最后通过训练判别式模型SVM来计算查询对象和网页的相关性。实验结果显示,相对于语言模型方法,学习排序方法能够通过训练,有效结合领域内多方面特征,大幅度提高搜索结果质量。针对行业训练语料缺少不相关训练语料集问题,本文提出了一个用于行业信息检索和推荐的单类检索模型,研究比较了三种不同的单类分类方法在行业信息检索和推荐任务上的性能。实验表明,单类信息行业检索模型结合单类SVM方法,能够为用户提供高召回率和高精度行业信息检索服务。本文的研究显示,在传统主题分析之外,对网页文本进行有效的体裁分类和情感分析,能够帮助用户迅速定位所需信息,提高搜索引擎的搜索效率。本文的研究内容在金融信息检索领域尚属首次,研究的成果已被实际应用到海天园知识服务平台。