受限领域中文情感问答系统研究

论文摘要

随着数字信息的膨胀,大量可用的数字信息对于回答用户的各种问题变成了可利用的资源。传统的信息检索通常会对用户的提问返回成百上千篇文档,而用户必须依靠自己在这些繁多而又充满重复的文档中筛选自己需要的有用信息。为了克服这些不足,近年来,越来越多的研究机构和公司致力于新一代信息检索系统的研究,其中一个很重要的方向就是问答系统。如今大多数的问答系统对于简单的事实性问题和常问问题的回答已经达到了很高的准确率,然而偏重于观点或情感的问答系统的研究却相对较少。人们不仅想要了解既定的事实,也想了解大众或他人对于某些特别的话题、人物,或者事件所持有的观点、想法和感情。我们发现人们对于焦点人物的关注度很高。人们喜欢了解焦点人物的喜好,也想要了解别人对这些公众人物是如何看待的。本文以娱乐焦点人物的喜好以及大众对其的情感作为研究对象,从比较新颖的情感角度来对问答系统进行研究。相对于事实性问答系统而言,观点或情感问答系统的研究除了需要考虑观点持有者及情感倾向性等与情感相关问题以外,其难点还在于答案形式更复杂更分散。本文从百度知道人工搜集了大量的情感问题,并根据情感问题的特征,统计并归纳了五大情感问题类型。问题分类模式与传统事实性问答系统不同,不能仅仅根据疑问词对其进行分类,还需要考虑到观点以及受众的反应。问题分类使用基于组块分析的CRF模型与规则相结合的情感问题分类方法。在答案抽取时结合组块识别的结果和情感的倾向性,并根据情感问题类型的不同采取不同的方法以获取答案。实验表明本文情感问答系统研究中所用方法是有效的。

论文目录

摘要

Abstract

1 绪论

1.1 研究背景

1.2 研究现状

1.3 论文的组织

2 问答系统相关技术

2.1 问答系统的通用体系结构

2.1.1 问题分析模块

2.1.2 信息检索模块

2.1.3 答案抽取模块

2.2 信息检索技术

2.2.1 布尔模型

2.2.2 概率模型

2.2.3 向量空间模型

2.3 句子相似度计算

2.3.1 基于分解的向量空间模型句子相似度计算方法

2.3.2 基于依存的句子相似度计算方法

2.3.3 基于编辑距离的句子相似度计算方法

2.4 问答系统的评测方法

2.4.1 TREC评测方法

2.4.2 基于阅读量的评测方法

2.4.3 模块化的评测方法

3 情感计算相关资源及技术

3.1 情感资源

3.1.1 知网的情感分析用词语集

3.1.2 信息检索实验室的情感词汇本体

3.2 情感计算模型

3.2.1 关键词统计方法

3.2.2 基于语义特征的情感分析

3.2.3 条件随机域

4 情感问答研究框架及所用策略

4.1 情感问答研究框架

4.2 情感问题获取与划分

4.2.1 中文情感问题获取

4.2.2 情感问题类型的划分

4.3 情感问题的自动分类策略

4.3.1 事实与情感问题分类

4.3.2 基于SVM的情感问题分类策略

4.3.3 基于Chunk-CRF模型与规则相结合的情感问题分类策略

4.4 答案抽取

4.4.1 答案抽取策略

4.4.2 FAQ模块

5 情感问答实验与分析

5.1 情感问题分类

5.1.1 SVM分类实验

5.1.2 Chunk-CRF模型结合规则的分类实验

5.2 答案抽取

5.2.1 答案抽取实验及分析

5.2.2 答案表示形式

结论

参考文献

攻读硕士学位期间发表学术论文情况

致谢

受限领域中文情感问答系统研究

论文摘要

论文目录

相关论文文献

猜你喜欢