论文摘要
随着信息技术尤其是因特网相关技术的发展与成熟,人们可获得的信息越来越多。面对海量信息,一方面是人们对快速、准确且全面获取信息的渴望,而另一方面却是信息的杂乱无序。如何尽可能有效地组织和管理信息,是信息处理研究的重要问题之一。因此,文本分类得到了广泛关注,成为自然语言处理领域最重要的研究方向之一。本论文研究了文本分类中特征提取,大规模文本分类和跨语言文本分类等问题。我们主要解决下面三个问题,如何高效准确的进行分类、如何利用大规模的文本分类数据以及如何在多语言环境下利用某种语言的训练集,去分类另外一种语言的文本的问题。本文的主要研究工作及创新点体现在以下五个方面:(1)将一个基于概率解释的多类特征选择算法应用在文本分类中。与将每个特征作为一个单一的个体的信息增益和χ2统计量等传统方法相比,这种多类特征选择的优势在于它通过线性支持向量机所特有的结构风险最小化原则来选择一个好的特征集。实验中使用了三种常见的多类分类器测试了该特征提取方法。实验结果均显示了该方法的有效性。(2)将最近邻算法的不同投票策略应用于文本分类中,并结合最小最大模块化网络来处理大规模数据的文本分类。一般情况下,最近邻算法在文本中采用相似性累加投票法,类似于机器学习中的反距离投票策略。本文将机器学习研究领域中最近邻算法的不同投票策略引入到文本分类中进行研究,而且进一步将它们引入到最小最大模块化网络中来处理大规模的数据。实验结果显示,高斯投票能在文本分类中表现出较好的综合性能。(3)将最小最大模块化支持向量机中的超平面数据划分方法应用在大规模文本分类中。最小最大模块化网络在处理大规模数据时,通常有三个问题,一个是集成什么样的分类器,第二个是模块冗余消除问题,第三个是数据划分问题。这里研究了第三个问题,即使用超平面划分方法到文本分类领域进行研究。传统的数据划分方法,一般使用随机划分和聚类方法划分。然而,随机划分方法可能会破坏数据本身分布的空间属性,聚类方法划分又过于消耗计算资源。超平面划分方法一定程度上克服了这两种方法的缺点。实验结果验证了该方法的有效性。(4)首次提出使用双语词典解决跨语言文本分类问题。在进行多语言分析的时候,通常需要一些额外的双语资源来沟通两种语言的差异,像双语电子词典,大规模的平行语料库和自动机器翻译等等。但是,跨语言文本分类,至今没有使用双语电子词典方面的研究。本文提出了一种跨语言朴素贝叶斯算法。该算法借助双语电子词典,第一次将单语言的朴素贝叶斯算法扩展到了双语言上。初步的实验结果验证了该方法的有效性。(5)提出了一种跨语言文本分类的精细框架。考虑到使用双语电子词典的词汇覆盖率可能会影响到最终分类的性能,本文提出了在目标语言中利用其语料之间的结构属性更新初始自动标注信息的思想。初步的实验结果显示了该框架的有效性。
论文目录
相关论文文献
标签:文本分类论文; 特征选择论文; 最小最大模块化网络论文; 最近邻算法论文; 支持向量机论文; 跨语言文本分类论文; 朴素贝叶斯算法论文;