M3-kNN网络方法研究及其在文本分类中的应用

M3-kNN网络方法研究及其在文本分类中的应用

论文摘要

在信息技术不断向前发展的今天,计算机学科中的机器学习,模式识别的理论已经日趋成熟,在许多领域得到广泛应用,基于统计的自然语言处理也是其中一个重要的的研究方向。互联网的兴起使基于自然语言表述的电子文本信息呈爆炸式增长,海量的电子文本信息中,如何有效地获取和管理信息是基于自然语言的信息处理的一大目标。这些问题提出了大量的关于自然语言的研究和应用需求,这其中文本分类作为信息检索等问题的基础,尤其得到重视。自动分类最初是应信息检索要求而出现的。随着互联网的普及,文本分类应用在信息检索,信息获取,信息过滤,信息组织和存储管理上都有非常广泛的应用,通过自动信息分类,可以有效地提高信息服务的质量。本文对K最近邻方法(k-NN)与最小最大模块化网络结合,形成的M3-kNN分类器组合算法中,应用投票方法函数,在不增加运算负担的情况下,改进文本分类的精度方面做了研究。本文所涉及工作内容包括:在基于统计的自然语言处理的背景下,研究了最小最大模块化(M3)神经网络,学习这一模块化分类器组合的方法和思想。在此基础上,对最小最大模块化神经网络与K最近邻算法的结合而成的M3-kNN方法做深入的研究和分析,对K最近邻算法中常用的投票方法应用于M3-kNN的研究基础上,通过对四种新设计的投票函数在新闻文本集的文本分类实验,整理分析实验结果,对投票函数中距离和权重值的计算和变化趋势进行了研究,并做出了一些推论。本文通过对基于最小最大模块化网络的K最近邻算法中的投票函数设计与应用问题进行进一步深入研究,对不增加运算负担,通过投票函数来改进文本分类的识别精度的方法提出了新的方法,并通过实验检验。同时对文本分类的具体应用,专利文本自动分类也做了研究和分析,对文本分类方法的实际应用和将来的进一步改进有参考应用价值。

论文目录

  • 摘要
  • ABSTRACT
  • 符号说明
  • 第一章 引言
  • 1.1 研究背景
  • 1.1.1 基于统计的自然语言处理
  • 1.1.2 自动文本分类应用
  • 1.1.3 模块化网络组合机器学习
  • 1.2 本文研究的主要内容及其意义
  • 1.3 本文的结构及其章节安排
  • 第二章 最小最大模块化分类器
  • 2.1 最小最大模块化网络
  • 2.2 算法过程描述
  • 2.2.1 任务分解
  • 2.2.2 分类器学习
  • 2.2.3 模块组合
  • 2.3 最小最大模块化分类器的特点
  • 2.4 本章小结
  • 第三章 最小最大模块化K-NN算法
  • 3.1 K最近邻算法及其发展
  • 3.2 K最近邻算法过程描述
  • 3.3 M3-kNN算法过程描述
  • 3.4 M3-kNN算法特点
  • 3.4.1 分类性能
  • 3.4.2 分类精度
  • 3.5 本章小结
  • 第四章 M3-KNN算法中投票方法的应用
  • 4.1 投票方法的应用
  • 4.2 传统投票方法
  • 4.2.1 线性投票方法
  • 4.2.2 倒数投票方法
  • 4.2.3 等级投票方法
  • 4.2.4 高斯投票方法
  • 4.2.5 四种投票方法的总结
  • 4.3 新的投票方法设计与改进
  • 4.3.1 改进思路
  • 4.3.2 高斯与等级组合
  • 4.3.3 高斯与线性组合
  • 4.3.4 等级与线性组合
  • 4.3.5 高斯与倒数的组合
  • 4.4 实验
  • 4.4.1 实验设置
  • 4.4.2 评价方法
  • 4.4.3 实验步骤和结果
  • 4.4.4 实验结论分析
  • 4.5 本章小结
  • 第五章 总结与展望
  • 5.1 本文的工作回顾
  • 5.2 实验总结
  • 5.3 专利文本分类应用
  • 5.3.1 专利文本自动分类问题
  • 5.3.2 IPC专利分类的特点和问题
  • 5.3.3 专利分类应用总结
  • 5.4 后续工作
  • 参考文献
  • 致谢
  • 攻读学位期间发表与录用的学术论文
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  

    M3-kNN网络方法研究及其在文本分类中的应用
    下载Doc文档

    猜你喜欢