基于类别结构的文本层次分类方法研究

论文摘要

文本分类是文本数据挖掘中的一项关键技术,其主要任务是在预先给定的类别标记集合下,根据文本内容利用有监督学习的方法判定它的类别。文本分类在自然语言处理、信息组织与管理等领域都有着广泛地应用。但是,近年来文本分类的类别规模越来越庞大,如Yahoo! Directo、Open Direct Project （ODP）等都已经有成千上万个类别,如果把这些类别并列组织,那么将一个文本进行正确分类的难度非常大,同时用户从中找到感兴趣的类别也需要花费大量的时间。因此,现实生活中的分类体系往往将类别组织成层次结构。由于这种层次结构经常以树的形式,因此被称作“类树”。基于这种类树结构,研究者们引入了层次型文本分类方法,它不但能够符合用户的行为习惯,方便用户检索、浏览文档,而且可以通过限制搜索范围减少分类过程中的计算量,提高分类质量。由于在层次型文本分类中,类别被组织成层次结构,在某一层中对类别有较好区分作用的特征词可能在其他层中对类别的区分作用不大,而且在能减少阻滞的阈值降低策略中,阈值降低的度一直很难把握；而在类树中不仅各个类别之间存在着一定的联系,其训练样本之间也都存在着一定的联系,这些在层次分类的特征选择、层次分类模型的训练以及分类器阈值的确定方面都是不可忽视的因素。相对于爆发式方法,自顶向下式层次分类方法由于能够更好的利用层次结构所提供的信息而备受关注,然而这种方法却存在着“阻滞”问题,而且由于分类器自身性能的限制,“阻滞”问题又是不可避免的,那么,如何利用这些类树和样本的层次结构信息和“阻滞”问题中携带的一些隐含信息来减少“阻滞”带来的影响,提高分类质量仍然是一个值得研究的课题。本文的主要研究内容和创新点包括以下几个方面：1.提出了一种面向层次分类的文本特征选择方法在借鉴已有的特征选择方法的基础上,提出了一种面向层次分类的文本特征选择方法。首先根据类别在类树中的语义关系给出了类别层次相关和类别层次不相关的概念,并根据类树的层次结构和各类别的训练样本的分布情况,提出了一种利用数学手段进行度量的方法;然后,考虑到各层次的训练样本对特征词的类别区分能力的不同贡献和类别之间的层次相关性,根据提出的类别层次相关度的计算方法,可以为类树中每个类别根据其所在层次赋予不同的重要度；再利用概率的方法获得特征词的类别相关性；最后,基于前面的结果,计算每个特征对类别的识别能力。实验结果表明：该方法不管在选取的特征质量上还是在accuracy、F1和micro-Precision等分类测度上均优于传统方法。本部分的创新点：（1）通过分析类树中类别之间的语义关系,提出了类别层次相关的概念,并提出了一种度量方法。（2）根据类树的层次结构特点和各层次的训练样本对特征词的类别区分能力的不同贡献,为在类树中构建的每个分类器选择不同的特征词进行特征表示,为层次分类的特征选择开辟了一个新的思路。2.提出了一种基于类树全局信息的文本层次分类方法在自顶向下式层次分类过程中,由于“阻滞”现象的存在,使得在上层分类器中产生的错误分类将会在下层分类器中得到进一步增强,根据这一特点,定义了一种新的层次损失函数,可以对产生阻滞的分类器根据其所在的层次以及其影响范围给予不同的惩罚。以该层次损失函数最小化为目标,将“阻滞”现象中的一些隐含信息以及类树中类别和样本的层次结构信息引入boosting方法的框架中,通过调整各迭代过程中训练样本的质量来改进分类模型的质量,最后将在各个迭代过程中构建的分类器进行组合来建立一个更好的层次分类模型,以减少在高层结点上“阻滞”现象的产生,实现改善层次分类整体性能的目的。实验结果表明：训练出来的分类器在accuracy、precision、recall、F1和microPrecicion等分类测度上均优于传统的AdaBoost方法;同时也说明“阻滞”现象中所隐含的一些信息对训练层次分类器有一定的作用,可以在一定程度上提高层次分类的分类效果,减少在上层发生阻滞的机会,为以后对“阻滞”信息的使用提供了一定的借鉴作用。本部分的创新点：将层次型文本分类引入boosting框架中,并能结合层次型文本分类中类别和文档的层次结构信息以及发生“阻滞”时的一些隐含信息,提出一种新的层次损失函数和调整各训练样本权重的方法,以改进层次分类模型的质量,提高层次分类的整体性能。3.提出了一种基于回溯算法的文本层次分类方法考虑到不同层次的训练样本对特征词区分作用的不同贡献,我们将信息增益方法和文档的层次信息相结合进行特征选择,使得选取的特征词能更符合层次分类的特点。在能减少阻滞的阈值降低策略中,阈值降低的度一直很难把握。为了给每个分类器确定一个合适的阈值,通过对训练样本在各类中分布的特点进行分析,结合类别之间的关系,将在某类别结点上构建的分类器的训练样本分成三个子集对KNN分类器进行训练,使类树中的每个分类器都能获得一个阈值的取值范围,为阈值的选择提供了一定的依据。然后,利用回溯方法,获得文档的候选类别集合,最后利用文档与候选类别质心之间距离的远近来确定文档的最后类别。实验结果表明：该方法可以减少上层阻滞的发生,其整体分类效果要优于KNN方法。本部分的创新点：（1）根据类别和样本的层次分布特点,对信息增益特征选择方法进行了适当的改进,使选择的特征词能更适合层次分类的特点。（2）在阈值降低策略的基础上,通过分析层次型文本分类中各类别的训练样本的分布特点,结合KNN分类方法,提出了一种新的确定各结点阈值取值范围的方法。并结合回溯方法对文档进行层次分类获得文档的候选类别集合,最终根据文档和候选类别的质心之间的距离远近决定文档的最终类别。综上所述,本文主要围绕类别组成的层次结构进行展开,根据层次型文本分类的特点,在层次型文本分类的特征选择、“阻滞”信息的使用以及减少“阻滞”的策略方面做了更进一步研究,并通过实验进行了验证。本文的研究丰富和完善了层次型文本分类的内容,为更好的使用类树的层次结构信息提供了一个新的思路。

论文目录

摘要

ABSTRACT

第1章绪论

1.1 研究背景

1.2 目前存在的问题和挑战

1.3 主要研究内容

1.4 创新点

1.5 研究意义

1.6 本文的组织结构

第2章基础知识及相关研究

2.1 基础知识

2.1.1 类别层次结构的类型

2.1.2 层次型文本分类的类型

2.1.3 层次型文本分类的特点

2.1.4 层次型文本分类的评价标准

2.1.4.1 平面型文本分类的评价标准

2.1.4.2 基于类别相似度的评价方法

2.1.4.3 基于类别距离的评价方法

2.2 相关研究

2.2.1 基于爆炸式的层次分类方法

2.2.2 基于自顶向下式的层次分类方法

2.2.2.1 基于类树的层次分类方法

2.2.2.2 基于自学习类树结构的层次分类方法

2.2.3 大规模分类中的层次分类方法

2.3 本章小结

第3章面向层次分类的文本特征选择方法

3.1 问题描述

3.2 常用的文本特征选择方法

3.3 相关工作

3.4 目前研究中存在的问题

3.5 类别层次相关度

3.5.1 类别层次相关的概念

3.5.2 类别层次相关度

3.6 基于类别层次相关度的文本特征选择方法

3.6.1 类别的层次重要度

3.6.2 文档特征的类别相关性

3.6.3 特征词的类别区分能力

3.6.4 CHC算法的步骤

3.6.5 算法时间复杂度分析

3.7 实验

3.7.1 数据集

3.7.2 性能评价

3.7.3 实验结果

3.8 本章小结

第4章一种基于类树全局信息的文本层次分类方法

4.1 问题描述

4.2 相关工作

4.2.1 集成学习

4.2.2 Boosting方法及其应用

4.2.3 AdaBoost算法原理

4.3 层次型文本分类中的Blocking现象

4.4 一种基于类树全局信息的文本层次分类方法

4.4.1 样本的层次重要性

4.4.2 全局损失函数

4.4.3 样本的权重更新

4.4.4 训练层次分类器方法步骤

4.4.5 时间复杂度分析

4.5 实验

4.5.1 数据集

4.5.2 实验结果

4.6 本章小结

第5章基于回溯算法的文本层次分类方法

5.1 问题描述

5.2 相关工作

5.2.1 回溯算法

5.2.2 KNN算法

5.3 目前研究中存在的问题

5.4 基于回溯算法的文本层次分类方法

5.4.1 特征的选择方法

5.4.2 基于回溯算法的文本层次分类算法

5.4.2.1 阈值的确定

5.4.2.2 算法步骤

5.4.2.3 算法分析

5.5 实验

5.5.1 数据集

5.5.2 评价指标

5.5.3 实验结果

5.6 本章小结

第6章总结与展望

6.1 主要工作总结

6.2 未来工作展望

参考文献

致谢

攻读学位期间发表的学术论文目录

攻读学位期间参与科研项目情况

学位论文评阅及答辩情况表

外文论文

基于类别结构的文本层次分类方法研究

论文摘要

论文目录

相关论文文献

猜你喜欢