论文摘要
随着信息加速膨胀,人们发现越来越难找到自己需要的信息。搜索引擎的诞生,在一定程度上缓解了这个矛盾。但是,搜索引擎返回的结果太多,而且有时候结果并不是用户所需要的。问答系统试图直接返回人们最关心的结果,可是现灾害处于实验室研究阶段。腾讯、百度、雅虎等著名互联网公司,推出一个在线问答系统,不过用户所提问题是由其他用户回答。人们浏览其他用户所提问题时,习惯按照一定的类别浏览,如何将用户所提的各种各样的问题自动分类,成为本文研究的重点。面向互联网的中文问题分类系统,是由语料构建、特征选择、权值计算和分类器等几个部分组成。在类别多,层次多,而且没有标准的训练与测试语料的情况下,如何保证较高的分类准确率,是整个系统的关键所在。腾讯公司提供问答对作为语料。在对该语料去除噪声和平衡处理后,作为训练和测试集。本文采用基于密度的聚类算法去除噪声,使用OverSample和UnderSmaple方法平衡语料。引入规则分类器解决一些类别召回率低的问题。由于类别多而细,采用层次分类方法,每层分类器相互独立。而层次分类有大类分错,小类一定分错的缺点。因此,层次分类器通过采用输出概率值,将各个层次的概率值加权相乘的方法,减少分类时因层次传递导致的错误。同时,根据用户特点,采用返回三个候选结果,供用户选择的方式,既可以提高分类的准确率,又可以便于用户浏览。实验表明,聚类算法有效地处理了不均衡数据集的样本噪声问题,OverSample和UnderSample方法的简单可行性。层次分类在解决多类别分类问题时有较好效果,推荐多个类别结果会极大地提高系统性能。