面向互联网的中文问题分类技术研究

面向互联网的中文问题分类技术研究

论文摘要

随着信息加速膨胀,人们发现越来越难找到自己需要的信息。搜索引擎的诞生,在一定程度上缓解了这个矛盾。但是,搜索引擎返回的结果太多,而且有时候结果并不是用户所需要的。问答系统试图直接返回人们最关心的结果,可是现灾害处于实验室研究阶段。腾讯、百度、雅虎等著名互联网公司,推出一个在线问答系统,不过用户所提问题是由其他用户回答。人们浏览其他用户所提问题时,习惯按照一定的类别浏览,如何将用户所提的各种各样的问题自动分类,成为本文研究的重点。面向互联网的中文问题分类系统,是由语料构建、特征选择、权值计算和分类器等几个部分组成。在类别多,层次多,而且没有标准的训练与测试语料的情况下,如何保证较高的分类准确率,是整个系统的关键所在。腾讯公司提供问答对作为语料。在对该语料去除噪声和平衡处理后,作为训练和测试集。本文采用基于密度的聚类算法去除噪声,使用OverSample和UnderSmaple方法平衡语料。引入规则分类器解决一些类别召回率低的问题。由于类别多而细,采用层次分类方法,每层分类器相互独立。而层次分类有大类分错,小类一定分错的缺点。因此,层次分类器通过采用输出概率值,将各个层次的概率值加权相乘的方法,减少分类时因层次传递导致的错误。同时,根据用户特点,采用返回三个候选结果,供用户选择的方式,既可以提高分类的准确率,又可以便于用户浏览。实验表明,聚类算法有效地处理了不均衡数据集的样本噪声问题,OverSample和UnderSample方法的简单可行性。层次分类在解决多类别分类问题时有较好效果,推荐多个类别结果会极大地提高系统性能。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题研究的背景和意义
  • 1.2 问题分类研究现状
  • 1.3 问题分类的关键技术
  • 1.3.1 问题表示
  • 1.3.2 特征选择
  • 1.3.3 分类算法
  • 1.3.4 评价指标
  • 1.4 本文内容安排
  • 第2章 中文问题分类系统体系结构
  • 2.1 引言
  • 2.2 系统结构概述
  • 2.3 关键技术
  • 2.3.1 语料构建
  • 2.3.2 分类模型训练
  • 2.3.3 层次分类
  • 2.4 分类体系
  • 2.5 本章小结
  • 第3章 语料构建相关技术
  • 3.1 引言
  • 3.2 噪声处理相关研究
  • 3.3 基于聚类算法的噪声处理方法
  • 3.4 噪声处理实验
  • 3.4.1 实验设计
  • 3.4.2 实验结果与分析
  • 3.5 不均衡语料处理相关研究
  • 3.6 不均衡语料处理实验
  • 3.6.1 实验设计
  • 3.6.2 实验结果与分析
  • 3.7 本章小结
  • 第4章 问题分类相关技术
  • 4.1 引言
  • 4.2 特征选择
  • 4.2.1 引言
  • 4.2.2 特征选择相关研究
  • 4.3 权值计算
  • 4.3.1 引言
  • 4.3.2 权值计算相关研究
  • 4.4 分类算法
  • 4.4.1 规则方法
  • 4.4.2 统计方法
  • 4.5 基于规则和统计结合的分类方法
  • 4.5.1 方法描述
  • 4.5.2 实验设计
  • 4.5.3 实验结果与分析
  • 4.6 本章小结
  • 第5章 层次分类技术
  • 5.1 引言
  • 5.2 层次分类相关研究概述
  • 5.3 多分类结果层次分类方法
  • 5.3.1 方法描述
  • 5.3.2 实验设计
  • 5.3.3 实验结果与分析
  • 5.4 本章小结
  • 结论
  • 参考文献
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  

    面向互联网的中文问题分类技术研究
    下载Doc文档

    猜你喜欢