论文摘要
目前大量有用信息以文本形式存在,因此如何快速对大规模的文本分类成为亟待解决的问题。为应对这一问题,文本自动分类应用而生。文本自动分类结合了统计方法和机器学习理论,将文本划分到预先定义的类别,能较好地解决大量文档信息归类的问题并得到广泛应用。目前文本分类的研究主要集中在文本表示和分类器算法两个方面。首先文本经预处理得到的文本表示空间具有高维性和稀疏性,导致分类性能下降及效率较低。文本分类器有朴素贝叶斯分类器、k-近邻、支持向量机、神经网络等。本文绪论简要介绍文本分类的产生原因、基础理论以及研究进展;然后介绍主要文本表示模型的基础理论,并介绍文本分类算法中主流学习算法的基本思想和理论依据;介绍文本分类算法的评估标准和常用基准数据集。其次机器学习方法未充分考虑文本的语义信息,忽略了各条件属性之间以及条件属性与决策属性之间的关联,本文紧紧围绕属性间关联这一问题,在分析文本分类研究内容和当前研究存在问题的基础上,将重点研究三个问题:一是如何挖掘属性间关系以提高文本分类准确率;二是如何改进文本分类算法提高分类器性能;三是根据以上研究,通过大量对比实验验证了本文提出算法的有效性。本文开展并完成了以下工作:1.为提高朴素贝叶斯分类器的分类精度和泛化能力,提出了基于属性相关性的加权贝叶斯集成方法(WENB)。根据每个条件属性与决策属性的相关度对其赋以相应的权值,然后用AdaBoost训练属性加权后的Navie Bayes (NB)。该分类方法在16个UCI标准数据集上进行了测试,与NB、贝叶斯网和由AdaBoost训练出的NB进行比较。进一步将该方法应用到文本数据集中,将其与NB在4个文本数据集上进行比较。实验结果表明,该分类器具有更高的分类精度与泛化能力。2.NB算法是一种概率统计方法,它基于属性独立性假设,忽略了属性间关联度,致使分类精度降低。为充分利用属性间关系以提高分类性能.提出了基于属性对的朴素贝叶斯方法(NBA)。该算法在计算属性先验概率时,将相关属性同时计算,考虑属性间关联信息对分类的贡献,在一定程度上避免了属性独立性假设的弊端。10个UCI基准数据集和4个文本数据集上的实验结果表明,该算法明显优于NB算法。3.C4.5算法是一种自顶向下的一步贪婪搜索算法,该算法只能找到分类问题的局部最优解。为提高找到全局最优解的可能性,本文提出了向前两步的决策树构建算法。该算法在选择属性时,考虑同时选择两个属性带来的信息增益,而不是只考虑单一最优属性对于信息增益的贡献,从而在寻找问题全局最优方面比只考虑单一最优属性具有更大的可能性。10个UCI基准数据集和4个文本数据集上的实验结果表明,该算法明显优于C4.5算法。