论文摘要
在信息技术不断向前发展的今天,计算机学科中的机器学习,模式识别的理论已经日趋成熟,在许多领域得到广泛应用,基于统计的自然语言处理也是其中一个重要的的研究方向。互联网的兴起使基于自然语言表述的电子文本信息呈爆炸式增长,海量的电子文本信息中,如何有效地获取和管理信息是基于自然语言的信息处理的一大目标。这些问题提出了大量的关于自然语言的研究和应用需求,这其中文本分类作为信息检索等问题的基础,尤其得到重视。自动分类最初是应信息检索要求而出现的。随着互联网的普及,文本分类应用在信息检索,信息获取,信息过滤,信息组织和存储管理上都有非常广泛的应用,通过自动信息分类,可以有效地提高信息服务的质量。本文对K最近邻方法(k-NN)与最小最大模块化网络结合,形成的M3-kNN分类器组合算法中,应用投票方法函数,在不增加运算负担的情况下,改进文本分类的精度方面做了研究。本文所涉及工作内容包括:在基于统计的自然语言处理的背景下,研究了最小最大模块化(M3)神经网络,学习这一模块化分类器组合的方法和思想。在此基础上,对最小最大模块化神经网络与K最近邻算法的结合而成的M3-kNN方法做深入的研究和分析,对K最近邻算法中常用的投票方法应用于M3-kNN的研究基础上,通过对四种新设计的投票函数在新闻文本集的文本分类实验,整理分析实验结果,对投票函数中距离和权重值的计算和变化趋势进行了研究,并做出了一些推论。本文通过对基于最小最大模块化网络的K最近邻算法中的投票函数设计与应用问题进行进一步深入研究,对不增加运算负担,通过投票函数来改进文本分类的识别精度的方法提出了新的方法,并通过实验检验。同时对文本分类的具体应用,专利文本自动分类也做了研究和分析,对文本分类方法的实际应用和将来的进一步改进有参考应用价值。
论文目录
相关论文文献
标签:文本分类论文; 最小最大模块化网络论文; 最近邻算法论文; 投票函数论文; 分类器组合论文; 专利文本自动分类论文;