论文摘要
随着数字信息的膨胀,大量可用的数字信息对于回答用户的各种问题变成了可利用的资源。传统的信息检索通常会对用户的提问返回成百上千篇文档,而用户必须依靠自己在这些繁多而又充满重复的文档中筛选自己需要的有用信息。为了克服这些不足,近年来,越来越多的研究机构和公司致力于新一代信息检索系统的研究,其中一个很重要的方向就是问答系统。如今大多数的问答系统对于简单的事实性问题和常问问题的回答已经达到了很高的准确率,然而偏重于观点或情感的问答系统的研究却相对较少。人们不仅想要了解既定的事实,也想了解大众或他人对于某些特别的话题、人物,或者事件所持有的观点、想法和感情。我们发现人们对于焦点人物的关注度很高。人们喜欢了解焦点人物的喜好,也想要了解别人对这些公众人物是如何看待的。本文以娱乐焦点人物的喜好以及大众对其的情感作为研究对象,从比较新颖的情感角度来对问答系统进行研究。相对于事实性问答系统而言,观点或情感问答系统的研究除了需要考虑观点持有者及情感倾向性等与情感相关问题以外,其难点还在于答案形式更复杂更分散。本文从百度知道人工搜集了大量的情感问题,并根据情感问题的特征,统计并归纳了五大情感问题类型。问题分类模式与传统事实性问答系统不同,不能仅仅根据疑问词对其进行分类,还需要考虑到观点以及受众的反应。问题分类使用基于组块分析的CRF模型与规则相结合的情感问题分类方法。在答案抽取时结合组块识别的结果和情感的倾向性,并根据情感问题类型的不同采取不同的方法以获取答案。实验表明本文情感问答系统研究中所用方法是有效的。
论文目录
摘要Abstract1 绪论1.1 研究背景1.2 研究现状1.3 论文的组织2 问答系统相关技术2.1 问答系统的通用体系结构2.1.1 问题分析模块2.1.2 信息检索模块2.1.3 答案抽取模块2.2 信息检索技术2.2.1 布尔模型2.2.2 概率模型2.2.3 向量空间模型2.3 句子相似度计算2.3.1 基于分解的向量空间模型句子相似度计算方法2.3.2 基于依存的句子相似度计算方法2.3.3 基于编辑距离的句子相似度计算方法2.4 问答系统的评测方法2.4.1 TREC评测方法2.4.2 基于阅读量的评测方法2.4.3 模块化的评测方法3 情感计算相关资源及技术3.1 情感资源3.1.1 知网的情感分析用词语集3.1.2 信息检索实验室的情感词汇本体3.2 情感计算模型3.2.1 关键词统计方法3.2.2 基于语义特征的情感分析3.2.3 条件随机域4 情感问答研究框架及所用策略4.1 情感问答研究框架4.2 情感问题获取与划分4.2.1 中文情感问题获取4.2.2 情感问题类型的划分4.3 情感问题的自动分类策略4.3.1 事实与情感问题分类4.3.2 基于SVM的情感问题分类策略4.3.3 基于Chunk-CRF模型与规则相结合的情感问题分类策略4.4 答案抽取4.4.1 答案抽取策略4.4.2 FAQ模块5 情感问答实验与分析5.1 情感问题分类5.1.1 SVM分类实验5.1.2 Chunk-CRF模型结合规则的分类实验5.2 答案抽取5.2.1 答案抽取实验及分析5.2.2 答案表示形式结论参考文献攻读硕士学位期间发表学术论文情况致谢
相关论文文献
标签:问答系统论文; 情感问答论文; 组块分析论文; 知网论文;