导读:本文包含了中文自动问答论文开题报告文献综述及选题提纲参考文献,主要关键词:中文自动问答,语句相似度,知识图谱,实体关系抽取
中文自动问答论文文献综述
汤柳君[1](2018)在《基于深度学习的中文自动问答与校对研究》一文中研究指出随着互联网的迅猛发展,海量的信息与数据在不断产生,人们对快速并准确获取信息以及对语言规范使用的需求,使中文自动问答与自动校对成为自然语言处理领域中备受瞩目的研究方向。其中,中文自动问答是指对用户以自然语言方式提问的问题,计算机自动返回简洁准确的答案。中文自动校对则是利用计算机来自动识别与纠正文本中的书写错误以及语法错误。针对中文自动问答,本文首先研究了基于语句相似度的自动问答。由于问句中的关键词可能与文本语句中的关键词不同,在限定领域中,对问句中所有关键词进行扩展会导致结果答非所问。针对该不足,本文首先利用依存句法分析来找到问句的核心关键词,然后利用深度学习模型对其进行语义扩展。通过实验发现,对问句核心关键词进行扩展能提高自动问答的查准率与查全率。为了真正实现语义检索,本文又研究了基于知识图谱的自动问答。由于开放领域文本的特点,知识图谱的构建采用了实体抽取和实体关系识别技术。其中,实体抽取的实现是基于经过序列标注过的语料,而序列标注的颗粒度大小会影响实体抽取的准确率。为了增大序列标注的颗粒度,本文首先利用依存句法分析来提取序列中的短语,然后结合领域词库来共同完成序列标注。通过实验发现,该方法将提高实体抽取的准确率。实体关系识别技术是用来识别实体对之间的语义关系。在限定领域中,由于语句结构存在多样性,当关系标签无法覆盖该领域时,将会影响实体间关系的预测准确率。因此,本文在HowNet定义的关系标签基础上增加了若干新的关系标签。同样通过实验发现,关系标签的增加将提高实体关系的识别准确率。本文同时研究了中文自动校对。现在的自动校对研究均通过大规模词库来对文本进行词语的校对,很难实现句法语义校对,并且不支持大批量的自由文本处理。因此,本文利用实体抽取技术与知识图谱来对文本进行句法语义校对,其中校对的语义错误类型有错别字、成分缺失、定义矛盾与内容遗漏这四种。通过与常用的中文自动校对系统比较发现,本文的语义校对方法具有较高的查全率。最后,本文以数据结构课程为例开发了中文自动问答原型系统以及自动校对原型系统。对于中文自动问答原型系统,集成了常见问答库搜索、基于语句相似度的搜索以及基于知识图谱的搜索这叁种搜索方法。并且增加了交互模块与模型训练模块,使得该自动问答原型系统变得更准确和智能。对于中文自动校对原型系统,集成了错别字、成分缺失、定义矛盾与综合校对这四种校对功能。在实现语义校对的同时将文本与校对结果逐行显示,增加可读性。(本文来源于《浙江工商大学》期刊2018-12-01)
肖大军[2](2018)在《中文历史人物亲属关系自动问答研究》一文中研究指出在人们对快速、准确获取信息的需求下,搜索引擎和检索方式不断地更新迭代。一方面,伴随着数字化产业的蓬勃发展,产生出了越来越多有待开发的数字资源。另一方面,伴随着自动问答技术的发展,用户已不再满足于关键字匹配的查询,开始寻求更简洁、准确的检索引擎。中国历代人物传记资料库就是数字化产业的冰山一角,如何将数字化的产物倾注智能问答的灵魂,使得合成的产品更好地为用户服务,本文进行了初步的研究与探索。本文研究了推理补全缺失关系的方法,设计并实现了一个基于知识图谱的人物亲属关系自动问答系统,解决了搜索引擎不支持自然语言检索,返回结果不简洁的问题。本文的主要工作如下:第一,研究了知识库表示学习中的翻译模型,通过现有多种翻译模型的对比实验,找出一种合适的知识库表示方法,实现了历史人物亲属关系自动推理,有效解决了中国历代人物传记资料库中人物亲属关系大量缺失的问题。之后对比分析了人物亲属关系推理补全前后的结果,以及产生推理错误可能的原因。第二,改进了翻译模型。翻译模型是将知识库中的实体和关系转化为低维向量的方法。本文在现有翻译模型的基础上,通过改进负采样的方式融合实体特征,使得实体和关系向量在空间上分布更加合理,更加具有表现力,通过实验证明此方法能有效提高关系推理的准确性,其可行性在中国历代人物传记资料数据中得到有效验证。第叁,利用改进了的翻译模型方法,设计并实现了一个中文历史人物亲属关系自动问答系统。该系统以中国历代人物传记资料库(CBDB)为语料来源,将存储于access关系型数据库中的中文历史人物亲属关系,转化为通过Neo4j图数据库存储的人物亲属关系知识图谱,便于可视化展示与分析人物关系。针对用户提出的自然语言的问题,本系统利用自然语言处理相关技术生成问题叁元组,然后转换为Cypher查询语句在图数据库中查询、或利用人物关系推理返回问题答案。(本文来源于《华中师范大学》期刊2018-05-01)
李玲[3](2017)在《基于句子相似性度量的中文自动响应问答系统的研究与实现》一文中研究指出大规模在线开放课程(Massive Open Online Course,MOOC)是基于网络和移动智能技术的新型在线学习课程形式,它作为一种全新的学习方式,不仅推动了现代远程教育,更是给传统教育,尤其是给高等教育带来了巨大变革。但是,由于地理上的分离,基于网络的MOOC学习中,师生之间缺乏直接的互动。而答疑工作,作为教学活动过程中的一项必不可少的环节,开展效果将直接影响到教学质量的高低。目前,大多数MOOC课程利用在讨论区提问的方式或社交、通信平台进行答疑,学习者碰到问题无法在第一时间得到教师的辅导,学习者缺乏及时的指导,难以达到好的学习效果。同时,MOOC课程最主要的特征是大规模和开放性,为数众多的学习者导致教师没有足够的时间和精力回答每一个提问。如何快速准确地找到某一问题的答案,成为提升MOOC平台用户体验的一个挑战。自动问答(Question Answering Track)系统的作用和搜索引擎相似,能够为用户提供相关问题的答案,能够让学习者用自然语言提问,不需要将问句分解为关键字,又能够返回一个简洁、准确的答案,而不是一些相关的网页,能够比搜索引擎更准确地找出用户所需要的答案,满足检索需求。将自动问答技术应用于MOOC学习平台,在一定范围内自动回答学习者提出的问题,使学习者能够及时解决疑难问题,便于后续学习,不仅提高了时效性和资源复用率,而且能够帮助教师进行分析、统计,发现学习者的薄弱之处,改善教学中的不足,提高教学效果。为此,本文设计了面向常问问题集(Frequently Asked Question,FAQ)的问答系统,通过计算问句的相似性实现系统的自动问答。本文在现有的句子相似性度量方法基础上,设计了基于语义依存关系的度量方法,并结合句长、词形、词义、向量空间、编辑距离等多种特征度量句子之间的相似性,实验结果表明,该方法能够较好地反映句子之间的语义差别,是一种可行有效的方法,且提高了系统的响应准确率。该系统具有较高应答准确率,具有较强使用价值和广阔的应用前景。本文的主要研究工作如下:(1)通过对现有的文献的研究,分析问答系统相关技术和句子相似性度量的相关概念、理论、方法。(2)提出了基于句子语义依存分析的句子相似性度量方法,跨越句子表层句法结构的束缚,直接获取深层的语义信息,根据句子各个语言单位之间的语义关联评价句子相似性。(3)实现了基于相同词语、句长、语义词典、关系向量、编辑距离、语义依存分析的句子相似性度量方法,提出了融合句子多重信息的相似性度量方法,并对该方法效果进行了测试和评估,找出了使本系统响应正确率最高的度量方法。(4)设计并开发了自动问答系统。使用本文设计的句子相似性度量方法,完成了中文自动响应问答系统原型,辅助教师教学,实现应用价值。(本文来源于《陕西师范大学》期刊2017-05-01)
赵洁[4](2016)在《基于搜索引擎的中文自动问答系统的设计与实现》一文中研究指出我们处于一个信息极其丰富的时代,人们对于快速准确地获取信息产生极大的需求。搜索引擎以其使用方便、反应迅捷而备受人们欢迎,成为信息获取的最主要方式。然而搜索引擎以关键词的检索方式很难清晰表达用户的意图,并且以网页集合的方式返回结果仍然需要用户自己手动查找答案。因此自动问答系统应运而生,但是传统的自动问答系统存在信息覆盖不全面、更新不及时的缺陷,并且需要维护一个庞大的知识库。为了发挥两者的优势,本文拟将两者结合起来,设计与实现一个改进的基于搜索引擎的中文自动问答系统。本文的主要工作如下:(1)改进Site Q算法,提出Topic-Site Q算法:首尾段落和首尾语句对语义有着较大的贡献,本文将其以恰当权重融入Site Q算法,提出关联首尾段落和首尾语句的多特征融合段落检索算法Topic-Site Q:采用多特征融合的算法计算首尾语句的语义相似度,并以一定的权值体现它们对段落相关度的贡献,同时提高首尾段落的评分值,最后根据该评分值进行段落排序并返回候选段落集。(2)改进基于语义依存树的答案抽取算法:基于语义依存树的答案抽取算法主要对语义和语法结构进行考察,考察方式单一不够全面。词频作为重要的语义特征之一,应该在答案抽取算法中体现该特征。本文对基于语义依存树的答案抽取算法进行改进,将关键词出现的频率考虑进去,利用对数线性模型将两者融合在一起,提出改进的基于语义依存树的答案抽取算法。(3)设计并实现了一个改进的基于搜索引擎的中文自动问答系统,并根据改进的两个算法对该系统进行优化。先是详细的分析了系统的需求,然后描述系统的总体结构并给出系统结构图。在详细设计与实现部分,分模块详细论述各个模块的功能、处理流程、实现细节以及使用的核心算法及其改进。(4)为了验证提出的优化方法的有效性,人工构建问题测试集对算法和系统的改进效果进行实验,计算两个算法改进前后以及系统使用改进后的算法的MRR值、查准率、召回率和F1值并进行对比分析。实验结果表明,算法的改进效果良好,使用改进的算法后系统性能有所提高。(本文来源于《北京工业大学》期刊2016-06-01)
韩文颖[5](2015)在《面向问答的中文语法错误自动检测方法研究》一文中研究指出在这个高度信息化的时代,问答系统在人机交互中发挥的作用越来越大,而人们日益高涨的信息交互需求也使得对问答系统的功能要求不断提高。作为信息检索与自然语言处理的综合产物,问答系统可以正确地响应用户提出的自然语言形式的问题,而包含语法错误的自然语言描述往往会导致问答系统做出错误的响应,因此对语法错误的自动检测是问答系统必需的重要功能。中文作为我们日常生活、工作的语言,对其进行语法错误自动检测研究的意义重大。传统上对语法错误自动检测研究,主要集中在文本编辑、文本识别、语音输入、语言学习等方面。近年来,人们又将语法错误自动检测技术应用于机器翻译、问答系统中的问句预处理和答案生成等领域。当前语法错误自动检测研究的方法比较单一,即只基于规则或统计方法,或只基于单一机器学习方法进行研究,很少将叁者综合起来进行分析。针对这一问题,本课题提出一种基于n-gram模型、句子词性特征和依存句法树结构特征的方法,并分别从分类和序列标注两个方向对句子进行语法错误检测分析。本课题的研究内容主要包括以下叁个部分:语料分析与扩充、基于分类的语法错误检测、基于序列标注的语法错误检测。首先,通过分析数据集中不同语法错误类型的特点,构建启发式规则并扩充语料;其次,在采用分类方法进行语法错误检测时,分别抽取出语句级别的二元和叁元词性组合、基于词性统计的n-gram模型等叁类特征构建单分类和集成分类模型,然后采用卷积神经网络从不同角度构建分类模型;最后,在采用基于序列标注的方法进行语法错误检测时,主要使用依存句法树特征,通过构建条件随机场模型实现语法错误检测,这种方法在自动检测语法错误的同时,也能够标识出语句的出错位置。上述所有模型中,基于线性加权的集成分类方法构建的模型具有最高的F-Score值(36.28%),将该模型和基于规则的模型相结合,F-Score值可以进一步提升(37.87%);而基于SVM的方法,具有最高的召回率(44.11%),基于CRF的方法则取得了最高的精确度(40.00%)。本课题综合考虑多种模型的特点,构建了一个可以高效地检测句子语法错误,并对其错误类型进行正确归类的模型。在此基础上,本课题实现了一个简单的中文语法错误自动检测平台,可以为问答系统中问句和答案的优化提供帮助。(本文来源于《哈尔滨工业大学》期刊2015-12-01)
李臻贤[6](2015)在《中文问答系统知识库的自动构建问题研究》一文中研究指出随着互联网的不断发展,数据量日益增大,问答系统在我们的生活中发挥了越来越重要的作用。当前问答系统知识库主要是人工构建为主,耗费大量的人力物力,影响问答系统从单一领域扩展到全领域的应用。因此本文立足于前人的研究成果,着力于领域词典构建和知识库构建技术,提出邻位词共现算法扩展领域关键词库,将自定义的语义词典与关键词抽取技术相结合,提出基于词语语义计算SWR算法,抽取段落的主体词和特征词,自动构建一个以主体词和特征词标注的知识库。本文的主要研究内容有:(1)选取信息展示类网站为领域关键词抽取数据源,利用互信息加上词性规则过滤方式得到候选关键词库。利用邻位词共现算法扩展领域关键词库。构建了一个基于《知网》的领域词典。(2)对当前段落关键词提取算法进行研究,提出SWR算法,抽取段落描述主体词和特征词,构建领域知识库。(3)实现中文问答系统的知识库构建框架,验证理论方法的有效性,并应用到问答系统中。本文的创新点有:(1)提出邻位词共现算法。利用候选关键词库词语作为引导词,根据网页特征提出邻位词共现算法,挖掘已知词语的邻位词,对候选关键词库进行扩展,有效的提高了领域关键词抽取的准确率和召回率。(2)提出基于语义计算的SWR算法。本文对段落中词语的语义关系进行研究,提出SWR算法,将词语得分分为自身权重和投票权重两部分,把基于《知网》的语义相关度计算作为词语间投票权重权值分配矩阵的依据,将语义关系添加到关键词提取中,添加词语频率到自身权重中。算法有效的提高了主体词和特征词抽取的准确率,使构建的知识库更加科学合理。基于以上的研究成果,本文设计并实现了以山东财经大学为例构建的中文问答系统知识库构建框架,构建了一个领域词典和问答系统知识库。实验结果表明,算法抽取的主体词和特征词效果良好,可以用来构建知识库。以主体词和特征词标注构建知识库在信息展示类网站有着极为广阔的应用前景。(本文来源于《山东财经大学》期刊2015-05-01)
侯丽敏,张永强[7](2014)在《面向课程的中文FAQ自动问答系统模型》一文中研究指出面向课程的中文FAQ自动问答系统作为网络教学平台中的子系统,可以实现课程自动答疑,具有较强的实用性,该类问答系统的FAQ库大都人工构建,费时费力,针对此种状况,本文提出一种新的问答系统模型,从"百度知道"自动获取不同课程FAQ库的问答对,并根据提出的融合语义词典和句法依存关系的句子相似度算法,实现学生问句与根据问句关键字向量得到的FAQ库检索子集中的问句之间的相似度计算,自动应答,其他情况采用人工解答,并更新FAQ库。实验结果表明,本系统模型,具备根据不同课程自动构建高质量FAQ库的能力,具备更高的应答准确率,具备不断增强答疑效果的能力,具有广阔的应用前景。(本文来源于《计算机与现代化》期刊2014年10期)
郭磊[8](2012)在《基于领域本体中文自动问答系统相关技术的研究与实现》一文中研究指出随着互联网技术的发展,信息量暴增,给人们的生活发生了翻天覆地的变化。现在,人们已经习惯于在互联网上获取各种各样的信息。这主要归功与搜索引擎技术的发展。然而,传统的搜索引擎仍然有一些缺陷。比如,用户只能通过关键字词进行检索,这并不能充分表达用户的搜索意图;又比如,传统索索引擎返回许多相关的候选结果,待用户从中找到其目标结果,这样的召回率往往很低,用户体验较差。针对以上问题,自动问答系统运用而生。用户使用自然语言问句向自动问答系统提问,系统返回的是对问句最直接最简单的答案。本文首先对现在已有的问答系统中的技术理论进行了分析,阐述了各个模块所使用技术的优势和不足。然后,参照国外一些本体构建工程,按照这些本体工程提出的构建方法论和经验,构建了小型的零售领域本体知识库,用于检索面向受限领域的知识。以本体在问答系统中的应用为出发点,提出了基于零售领域本体库的问答系统的答案抽取方法。用户使用自然语言问句向系统提问,经过分词、去停用词、语义标注等步骤,使用浅层语义分析技术对问句进行分析,得到问句中的已知和未知信息,在此基础上生成问句向量。最后使用SPARQL查询语言从本体库中查找问题答案。由于是直接查找问题的答案,有效地提高了系统的召回率,改善了用户体验。基于以上理论,设计并实现了面向零售领域的自动问答系统模型。通过应用验证了本文提出的相关技术,证明了本系统相关理论的可行性。(本文来源于《华东理工大学》期刊2012-12-30)
祖永亮[9](2010)在《基于多特征融合的中文自动问答系统研究与设计》一文中研究指出随着以计算机与互联网为代表的信息采集、存储和处理技术的飞速发展和广泛应用,现代社会的信息急剧膨胀,如何更准确、快捷地从海量信息中获取用户真正需要的信息成了一个越来越重要的课题。问答系统由于具有能理解用自然语言表达的问题、可精确定位和抽取问题的正确答案的特点,成为解决此问题的有效手段,是该领域研究的热点之一。本文从设计实用中文自动问答系统的角度出发,在分析现有问答系统不足的基础上,针对中文语言和中文问题的特点,围绕问答系统的问题理解、信息检索和答案抽取等部分的关键技术问题展开研究,以期提高问答系统的性能。本文的主要工作如下:(1)针对问题理解中的问题分类技术,在分析中文问题中的疑问词、中心词与问题类型之间关系的基础上,结合中文语言和中文问题的特点,提出了基于疑问词-中心词启发式规则的问题分类方法,并通过实验验证了这种分类方法的有效性。(2)对于信息检索部分的设计问题,在分析现有信息检索技术的基础上,建议在开源全文检索框架Lucene的基础上,通过改进其中的文档评分方法,来构造适合于中文问答系统的文档检索器。(3)为提高答案抽取部分的准确性,在参考句子全信息特征的基础上,提出了一种基于多特征融合的答案抽取方法。该方法充分利用问题与答案之间存在的相似信息,在词形、句法、语义叁个层次上同时考察问题句与候选答案句的相似度,把问题与答案在语义上的意相似性和句法上的形相关性统一起来,以更精确的完成答案检索以及答案抽取工作。实验证明,这种方法能够提高答案抽取的精度。(4)在以上研究基础上,本文开发了一个中文问答原型系统。(本文来源于《合肥工业大学》期刊2010-04-01)
郭金刚[10](2010)在《面向数字图书馆中文自动问答系统的设计与实现》一文中研究指出随着互联网的快速发展,为人们提供了丰富的信息资源。利用搜索引擎可以帮助人们搜索自己想要的信息,但是目前的搜索引擎存在一些缺点,并不能满足人们方便、快速、准确地获取信息的需要。自动问答系统正是为了满足人们的这种愿望而发展起来的,它通过采用自然语言处理技术,用简洁准确的语言回答用户用自然语言提出的问题。自动问答系统的研究受到国内外很多科研机构的重视,已经开发出相对成熟的英文自动问答系统,但是参与中文自动问答系统研究的科研机构还不是很多,而且还没有出现成熟的中文自动问答系统。本文对中文自动问答系统的研究进行了一些探索,主要研究一个面向数字图书馆的问答系统,它为用户提供一种新型的利用数字资源的方式。在建立数字图书馆本体和对数字资源的元数据描述的基础上,采用自然语言解析的技术,对用户问题解析,通过与句模匹配得到用户的问题焦点,检索本体和图书资源库,从而提供给用户有关数字图书馆中的数字资源的服务。用户只需输入自然语言的问句,就可以得到答案。我们还提供常用问题集的管理和检索应用,使得对于关于数字图书馆中的常用的问题,用户可以快速,准确地得到答案。(本文来源于《电子科技大学》期刊2010-03-01)
中文自动问答论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
在人们对快速、准确获取信息的需求下,搜索引擎和检索方式不断地更新迭代。一方面,伴随着数字化产业的蓬勃发展,产生出了越来越多有待开发的数字资源。另一方面,伴随着自动问答技术的发展,用户已不再满足于关键字匹配的查询,开始寻求更简洁、准确的检索引擎。中国历代人物传记资料库就是数字化产业的冰山一角,如何将数字化的产物倾注智能问答的灵魂,使得合成的产品更好地为用户服务,本文进行了初步的研究与探索。本文研究了推理补全缺失关系的方法,设计并实现了一个基于知识图谱的人物亲属关系自动问答系统,解决了搜索引擎不支持自然语言检索,返回结果不简洁的问题。本文的主要工作如下:第一,研究了知识库表示学习中的翻译模型,通过现有多种翻译模型的对比实验,找出一种合适的知识库表示方法,实现了历史人物亲属关系自动推理,有效解决了中国历代人物传记资料库中人物亲属关系大量缺失的问题。之后对比分析了人物亲属关系推理补全前后的结果,以及产生推理错误可能的原因。第二,改进了翻译模型。翻译模型是将知识库中的实体和关系转化为低维向量的方法。本文在现有翻译模型的基础上,通过改进负采样的方式融合实体特征,使得实体和关系向量在空间上分布更加合理,更加具有表现力,通过实验证明此方法能有效提高关系推理的准确性,其可行性在中国历代人物传记资料数据中得到有效验证。第叁,利用改进了的翻译模型方法,设计并实现了一个中文历史人物亲属关系自动问答系统。该系统以中国历代人物传记资料库(CBDB)为语料来源,将存储于access关系型数据库中的中文历史人物亲属关系,转化为通过Neo4j图数据库存储的人物亲属关系知识图谱,便于可视化展示与分析人物关系。针对用户提出的自然语言的问题,本系统利用自然语言处理相关技术生成问题叁元组,然后转换为Cypher查询语句在图数据库中查询、或利用人物关系推理返回问题答案。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
中文自动问答论文参考文献
[1].汤柳君.基于深度学习的中文自动问答与校对研究[D].浙江工商大学.2018
[2].肖大军.中文历史人物亲属关系自动问答研究[D].华中师范大学.2018
[3].李玲.基于句子相似性度量的中文自动响应问答系统的研究与实现[D].陕西师范大学.2017
[4].赵洁.基于搜索引擎的中文自动问答系统的设计与实现[D].北京工业大学.2016
[5].韩文颖.面向问答的中文语法错误自动检测方法研究[D].哈尔滨工业大学.2015
[6].李臻贤.中文问答系统知识库的自动构建问题研究[D].山东财经大学.2015
[7].侯丽敏,张永强.面向课程的中文FAQ自动问答系统模型[J].计算机与现代化.2014
[8].郭磊.基于领域本体中文自动问答系统相关技术的研究与实现[D].华东理工大学.2012
[9].祖永亮.基于多特征融合的中文自动问答系统研究与设计[D].合肥工业大学.2010
[10].郭金刚.面向数字图书馆中文自动问答系统的设计与实现[D].电子科技大学.2010