中文文本自动分类相关技术的研究与实现

中文文本自动分类相关技术的研究与实现

论文摘要

随着Internet的高速发展,网络信息急剧膨胀。如何有效地组织和管理这些海量信息,并且能够快速、准确地找到用户所需要的信息成为近几年来研究的热点和焦点。文本分类技术就是在这种信息量异常庞大、信息载体纷繁复杂、瞬息万变的形势下应运而生的。文本分类涉及到模式识别、自然语言处理、统计学、机器学习等方面的内容,是一项重要的智能信息处理技术,在信息过滤、信息检索和数字图书馆等方面极具应用价值。本文在已有研究的基础上对中文文本自动分类及其相关技术进行了研究。论文首先介绍了文本自动分类在国内外的研究现状;其次对文本自动分类所涉及的关键技术进行了研究和探索,对中文分词、特征选择方法、文本分类算法进行了研究和实现。最后介绍了分类测试平台的系统框架,系统结构和功能模块。论文的贡献及主要成果体现在以下几个方面:(1)中文分词是中文文本自动分类的基础,其中歧义消除和未登录词识别一直是分词算法面临的两大难题,至今没有完全突破。本文对分词算法进行了研究,提出了一种改进的双向最大匹配方法,即IDMM方法,实现了基于IDMM方法并且能够进行歧义词切分和未登录词识别的分词系统,系统性能测试结果表明,该分词系统具有较高的分词正确率和未登录词识别能力,能够满足中文文本分类的需要。(2)对常用的特征选择方法进行了对比研究,分析了各种方法的优缺点。针对常用的特征选择方法都是以单一的特征评估函数作为度量标准的现状,提出了复方特征选择方法的问题,并给出了一种新的基于集合并思想的复方特征选择方法。在分类测试平台上的测试结果表明,这种方法的分类效果要好于传统的特征选择方法,提高了分类的精确度。另外,针对互信息分类效果较差的两个原因,对互信息的评价函数进行了改进,即CMI方法。在分类测试平台上的测试结果表明,改进的互信息方法所取得的分类效果远高于未经改进的互信息方法。(3)建立了一个中文文本自动分类测试平台,在此平台上应用KNN分类法对常用的特征选择方法及改进的互信息方法进行了实验分析,为研究中文文本自动分类技术提供了实验平台。

论文目录

  • 摘要
  • Abstract
  • 目录
  • 第一章 绪论
  • 1.1 研究背景和意义
  • 1.2 国内外文本自动分类研究现状
  • 1.3 本文工作
  • 1.4 本论文组织结构
  • 第二章 文本自动分类技术概述
  • 2.1 文本自动分类的概念
  • 2.2 文本表示模型
  • 2.3 文本自动分类的实现过程
  • 2.4 训练和分类算法
  • 2.4.1 支持向量机算法
  • 2.4.2 K最近邻居算法
  • 2.4.3 贝叶斯算法
  • 2.4.4 神经网络算法
  • 2.5 评估方法
  • 第三章 中文分词的研究与实现
  • 3.1 中文分词概述
  • 3.2 中文分词基本算法
  • 3.3 歧义处理
  • 3.4 未登录词的识别
  • 3.5 改进的双向最大匹配算法
  • 3.6 分词系统实现
  • 3.6.1 开发工具选择
  • 3.6.2 性能测试
  • 3.7 小结
  • 第四章 特征选择方法的比较研究
  • 4.1 常用特征选择方法
  • 4.1.1 文档频数
  • 4.1.2 信息增益
  • 4.1.3 互信息
  • 4.1.4 期望交叉嫡
  • 2统计量'>4.1.5 X2统计量
  • 4.1.6 文本证据权
  • 4.2 KNN分类器中K值对分类性能的影响
  • 4.3 常用特征选择方法在KNN分类器上的实验比较
  • 4.4 改进的特征选择方法
  • 4.4.1 复方特征选择方法
  • 4.4.2 改进的互信息
  • 4.4.3 改进的特征选择方法在KNN分类器上的实验分析
  • 4.5 小结
  • 第五章 分类测试平台的设计与实现
  • 5.1 系统框架
  • 5.2 系统模块结构
  • 5.3 功能模块说明
  • 5.3.1 文本预处理
  • 5.3.2 文本表示
  • 5.3.3 训练分类器和分类
  • 5.3.4 性能评估模块
  • 5.4 系统实现及运行环境
  • 5.5 小结
  • 第六章 总结与展望
  • 6.1 本文的主要工作和贡献
  • 6.2 下一步的工作和展望
  • 参考文献
  • 致谢
  • 个人简历、在学期间发表的学术论文与研究成果
  • 相关论文文献

    • [1].文本自动分类技术研究综述[J]. 情报理论与实践 2012(02)
    • [2].一种面向专利文献数据的文本自动分类方法[J]. 计算机应用 2008(01)
    • [3].中文文本自动分类技术的研究[J]. 理工高教研究 2008(04)
    • [4].基于数据挖掘的文本自动分类仿真研究[J]. 计算机仿真 2011(12)
    • [5].网络环境下文本自动分类方法研究综述[J]. 鸡西大学学报 2009(05)
    • [6].中文文本自动分类中特征词选择算法研究[J]. 硅谷 2009(20)
    • [7].文本自动分类研究——基于径向基函数[J]. 情报科学 2013(05)
    • [8].文本自动分类新探究[J]. 赤峰学院学报(自然科学版) 2011(04)
    • [9].一种面向专利信息的文本自动分类算法[J]. 科技创新导报 2009(15)
    • [10].中文文本自动分类中的特征选择改进与研究[J]. 工业控制计算机 2012(11)
    • [11].一种基于粗糙集文本自动分类的改进算法[J]. 计算机工程与应用 2011(24)
    • [12].文本自动分类算法的比较与研究[J]. 电脑知识与技术 2009(05)
    • [13].文本自动分类关键技术研究[J]. 微计算机信息 2008(06)
    • [14].一个中文文本自动分类器的设计[J]. 计算机应用与软件 2008(04)
    • [15].政媒融合问政平台非正式文本自动分类匹配研究[J]. 情报理论与实践 2020(06)
    • [16].数字文本自动分类中特征语义关联及加权策略研究综述与展望[J]. 现代图书情报技术 2016(09)
    • [17].基于TAN的文本自动分类框架[J]. 计算机工程 2010(16)
    • [18].基于CCIPCA-LSSVM的文本自动分类算法[J]. 科学技术与工程 2013(10)
    • [19].企业经营范围文本自动分类方法探究[J]. 标准科学 2012(01)
    • [20].基于量子自组织网络的Web文本自动分类方法[J]. 情报科学 2009(01)
    • [21].用于APP的缺陷文本自动分类与质量保证方法[J]. 电力系统及其自动化学报 2020(07)
    • [22].基于FastText的专利文本自动分类方法研究[J]. 仪器仪表标准化与计量 2020(04)
    • [23].基于机器学习的Web文本自动分类[J]. 软件导刊 2011(01)
    • [24].文本自动分类研究进展[J]. 软件导刊 2008(04)
    • [25].一种学科题目文本自动分类方法[J]. 中国索引 2015(04)
    • [26].基于word2vec的专利文本自动分类研究[J]. 信息技术 2020(02)
    • [27].一种基于词上下文向量的文本自动分类方法[J]. 情报科学 2008(07)
    • [28].基于KNN和SVM的中文文本自动分类研究[J]. 情报科学 2011(09)
    • [29].基于KNN算法的文本自动分类方法研究——以学术期刊栏目自动归类为例[J]. 图书情报知识 2010(04)
    • [30].网络教育资源的特征选择研究[J]. 教育与职业 2008(12)

    标签:;  ;  ;  

    中文文本自动分类相关技术的研究与实现
    下载Doc文档

    猜你喜欢