论文摘要
问句分类是问答系统中很重要的一个组成模块,是问答系统处理的基础与核心,分类准确性直接影响问答系统的性能。目前很多研究主要集中在有监督学习问句分类研究,并已经取得比较好的效果。但在现实应用中,对大量的样本数据进行人工标记是代价高昂的,本文围绕基于半监督学习的问句分类展开研究,取得了以下成果:首先,提出了一种面向问句分类的特征提取方法。采用特征向量来表示问句特征,从语料库中选取高频关键词、领域词汇及疑问词作为特征向量的特征项,通过句法依存分析,提取问句主干词,利用语义相似度计算方法,计算这些词与特征项的相似度,获得其特征值,以构建问句特征向量。其次,提出了基于半监督学习的问句分类方法。该方法在问句特征提取的基础上,采用具有协同训练的Co-forest学习算法,利用已标记的问句样本对无标记的问句样本进行标记,并选取高置信的新标记问句添加入已标记的问句样本中,以此构建问句分类模型。该方法在云南旅游领域5个大类和23个小类的分类实验中比监督学习方法准确率分别提高了8.28个百分比和1.19百分比,结果表明提出的方法能够有效利用无标记样本提高问句分类的准确率。最后,在云南旅游领域问句语料库的基础上,设计并实现了中文问句分类原型系统,并在实验的基础上,对问句分类器进行评测。
论文目录
相关论文文献
- [1].基于差异性和重要性的问句特征组合[J]. 电子学报 2014(05)
- [2].基于KNN的汉语问句分类[J]. 微电子学与计算机 2008(01)
- [3].融合基本特征和词袋绑定特征的问句特征模型[J]. 中文信息学报 2012(05)
- [4].一种加权的KNN中文问句分类方法研究[J]. 安徽广播电视大学学报 2010(03)
- [5].藏文问答系统中问句的分类方法研究[J]. 计算机工程与科学 2015(07)
- [6].中文问答系统中时间敏感问句的识别和检索[J]. 计算机研究与发展 2013(12)
- [7].基于词袋绑定的问句新特征自动生成[J]. 北京理工大学学报 2012(06)
- [8].基于Bi-LSTM和CNN并包含注意力机制的社区问答问句分类方法[J]. 计算机系统应用 2018(09)
- [9].多领域自然语言问句理解研究[J]. 计算机科学 2017(06)
- [10].自动问答系统中问句分类研究综述[J]. 安徽工业大学学报(自然科学版) 2015(01)
标签:问句分类论文; 特征提取论文; 语义相似度论文; 标记样本论文; 无标记样本论文; 半监督学习论文; 协同训练论文; 算法论文;