基于半监督学习的中文问句分类研究

基于半监督学习的中文问句分类研究

论文摘要

问句分类是问答系统中很重要的一个组成模块,是问答系统处理的基础与核心,分类准确性直接影响问答系统的性能。目前很多研究主要集中在有监督学习问句分类研究,并已经取得比较好的效果。但在现实应用中,对大量的样本数据进行人工标记是代价高昂的,本文围绕基于半监督学习的问句分类展开研究,取得了以下成果:首先,提出了一种面向问句分类的特征提取方法。采用特征向量来表示问句特征,从语料库中选取高频关键词、领域词汇及疑问词作为特征向量的特征项,通过句法依存分析,提取问句主干词,利用语义相似度计算方法,计算这些词与特征项的相似度,获得其特征值,以构建问句特征向量。其次,提出了基于半监督学习的问句分类方法。该方法在问句特征提取的基础上,采用具有协同训练的Co-forest学习算法,利用已标记的问句样本对无标记的问句样本进行标记,并选取高置信的新标记问句添加入已标记的问句样本中,以此构建问句分类模型。该方法在云南旅游领域5个大类和23个小类的分类实验中比监督学习方法准确率分别提高了8.28个百分比和1.19百分比,结果表明提出的方法能够有效利用无标记样本提高问句分类的准确率。最后,在云南旅游领域问句语料库的基础上,设计并实现了中文问句分类原型系统,并在实验的基础上,对问句分类器进行评测。

论文目录

  • 摘要
  • Abstract
  • 目录
  • 第一章 引言
  • 1.1 研究背景及意义
  • 1.2 国内外研究现状
  • 1.3 问题的提出及解决方法
  • 1.4 本文的主要研究内容
  • 1.5 论文的组织
  • 第二章 中文问句的特征提取
  • 2.1 引言
  • 2.2 中文问句特征空间构建
  • 2.2.1 特征维词语的提取
  • 2.2.2 特征词条组的提取
  • 2.3 利用词袋方法获取问句特征向量
  • 2.4 利用TF-IDF获取问句特征向量
  • 2.4.1 TF-IDF方法基本定义
  • 2.4.2 采用TFIDF方法进行特征值处理
  • 2.5 利用字面相似度计算方法获取问句特征向量
  • 2.5.1 字面相似度计算方法基本定义
  • 2.5.2 采用字面相似度计算方法进行特征值处理
  • 2.6 利用语义相似度计算方法获取问句特征向量
  • 2.6.1 词汇语义相似度计算基本定义
  • 2.6.2 采用语义相似度计算方法进行特征值处理
  • 2.7 本章小结
  • 第三章 基于监督学习的问句分类模型
  • 3.1 引言
  • 3.2 决策树方法
  • 3.3 C4.5与Random Forest算法的选择
  • 3.4 基于监督学习的问句分类方法
  • 3.4.1 决策树C4.5算法
  • 3.4.2 随机森林(Random Forest)算法
  • 3.5 实验结果与分析
  • 3.6 本章小结
  • 第四章 基于半监督学习的问句分类模型
  • 4.1 引言
  • 4.2 相关研究
  • 4.3 Co-forest协同学习算法
  • 4.4 基于半监督学习问句分类模型的实现方法
  • 4.5 实验结果与分析
  • 4.5.1 不同特征维度的半监督学习
  • 4.5.2 不同中文问句分类特征提取方法比较
  • 4.5.3 不同半监督学习算法比较
  • 4.5.4 不同无标记比例的半监督学习比较
  • 4.6 本章小结
  • 第五章 云南旅游问句分类模型的设计与实现
  • 5.1 引言
  • 5.2 云南旅游领域问句的收集与组织
  • 5.3 实验结果与评价
  • 5.4 本章小结
  • 第六章 结束语
  • 6.1 当前研究工作总结
  • 6.2 下一步研究设想
  • 致谢
  • 参考文献
  • 附录A 攻读硕士期间发表论文及参与项目
  • 附录B 攻读硕士学位期间申请的专利及软件著作权
  • 相关论文文献

    • [1].基于差异性和重要性的问句特征组合[J]. 电子学报 2014(05)
    • [2].基于KNN的汉语问句分类[J]. 微电子学与计算机 2008(01)
    • [3].融合基本特征和词袋绑定特征的问句特征模型[J]. 中文信息学报 2012(05)
    • [4].一种加权的KNN中文问句分类方法研究[J]. 安徽广播电视大学学报 2010(03)
    • [5].藏文问答系统中问句的分类方法研究[J]. 计算机工程与科学 2015(07)
    • [6].中文问答系统中时间敏感问句的识别和检索[J]. 计算机研究与发展 2013(12)
    • [7].基于词袋绑定的问句新特征自动生成[J]. 北京理工大学学报 2012(06)
    • [8].基于Bi-LSTM和CNN并包含注意力机制的社区问答问句分类方法[J]. 计算机系统应用 2018(09)
    • [9].多领域自然语言问句理解研究[J]. 计算机科学 2017(06)
    • [10].自动问答系统中问句分类研究综述[J]. 安徽工业大学学报(自然科学版) 2015(01)

    标签:;  ;  ;  ;  ;  ;  ;  ;  

    基于半监督学习的中文问句分类研究
    下载Doc文档

    猜你喜欢