论文摘要
网络技术的快速发展使得互联网上的信息呈现爆炸式的增长。为了有效地利用和管理海量信息,基于内容的信息检索和数据挖掘逐渐成为备受关注的领域。文本分类技术TC(Text Categorization)是信息检索和数据挖掘的核心内容。其中基于机器学习的文本分类方法被认为在分类精度和灵活性上达到了较为满意的效果,但是它仍然存在着譬如非线性、数据集偏斜、标注瓶颈、多层分类、算法的扩展性及Web网页分类等问题。本文在数据集不完整和类别关系复杂的情况下进行了一系列的研究,主要包括文本表示,特征提取,特征选择,以及文本分类算法等问题。重点的目标就是通过研究这些问题找到如何在不完整样本集下提高文本分类精度的方法,以及如何在样本集中类别无法确定的情况下,发现新的类别,避免错分,借此提高文本分类效果。现实世界中的数据往往是不完整的,因此对于不完整数据集的文本分类的研究,经常采用的方法是利用朴素贝叶斯分类模型与EM算法相结合的办法来得到最终的分类器。但由于朴素贝叶斯分类器和EM算法对初始数据值有很大的依赖性,特别是当样本集中的无标记文本即缺失数据数量所占比重较大时,分类器的测试精度会受到影响。为了改善文本分类的效果,本文在Bernoulli混合模型和EM算法的基础上进行了研究。首先通过朴素贝叶斯算法在已标记数据的基础上得到似然函数参数估计初始值,然后利用含有权值λ的EM算法和Bernoulli混合模型对分类器的先验概率模型进行参数估计,从而得到最终的分类器。实验结果表明,对于不完整数据集而言所提出的方法在准确率和查全率方面要优于朴素贝叶斯文本分类及结合了EM算法的朴素贝叶斯分类。在以上方法基础上对不完整数据集对于文本分类的影响进行了进一步的研究。发现适当的在测试集中加入未标记数据样本是在现实世界中是需要经常面对的问题,本文在这方面做了相关的工作,将网页分类看成文本分类的一种特殊情况,同时考虑了网页结构对文本分类造成的影响,重点研究了文本相似度算法在这类问题上的应用,简单的文本相似度算法无法区分出有类别文本和无类别文本的区别,本文的研究结合特征提取,特征选择,最优截尾法,提出了一种新的文本分类方法,首先对网页进行预处理,得到想要的网页内容,在此基础上借助特征向量在有类别文本和无类别文本上的不同分布,达到区分不同类别的目的。实验证明这种方法对于不完整数据而言,一方面可以改善分类精度,另一方面可以达到发现新类别的目的。