中文文本分类技术研究

中文文本分类技术研究

论文摘要

随着Internet技术的不断发展和成熟,各种数字化的信息越来越多并且还在不断增长,面对海量信息,人们已经不能简单地靠人工来处理所有的信息,况且手工分类已经对此无能为力,如何从巨量的信息中挖掘出用户感兴趣的信息已经成为当今研究的重要课题。而文本自动分类能够较好的解决大量文档信息归类的问题,并成为解决该问题的一项关键技术。目前对文本自动分类技术的研究主要集中在文本的表示、特征的选择和分类算法的改进这三个主要的研究方向。最大熵模型实际上是一个带约束的最优化问题。20世纪50年代E.T.Jaynes开创性的将最大熵原理作为一种原则或者方法应用于各个科技领域,也使信息熵的概念和原理走出了热力学的领域。而且最大熵模型是一个比较普遍的统计建模技术,自然语言处理中很多问题都可以归结为统计分类问题,很多机器学习方法在这里都能找到应用。最大熵具有较强的知识表达能力,它在数学上是一个十分完美的模型,被应用到自然语言处理领域后也取得了较好的成绩,因此被研究者们广泛的使用。本课题主要针对在中文文本分类任务中涉及到的特征生成(文本分词)和特征的选择算法进行了分析和研究。具体来说,论文首先阐述了中文文本的分词技术和分词算法,特征选择算法和几种经典的文本分类算法,接下来主要研究分析了统计语言模型,最大熵模型及相关的平滑技术和迭代算法,然后详细讨论了最大熵应用于文本分类任务中存在的问题,在深入研究最大熵理论的基础上,引入了不等式最大熵模型,将其应用于文本分类,并分析了现有特征选择方法生成特征数目过多而造成分类时间和精度不高等缺点,提出将信息增益、互信息及卡方统计这几种方法合理的结合起来进行特征选择的改进算法;实验也证明,这种基于不等式最大熵的特征选择算法是有效地,并具有较强的推广能力。最后阐述了中文文本原始特征集合的生成方法,即研究了如何通过基于无词典机制的中文自动分词方法,并结合汉语自身独有的特点,得到初始的特征集合,最后提出了基于无词典分词机制的中文自动分词算法。并通过实验验证了分词算法的高效性。最后,对本论文的内容进行了总结,并对中文文本分类涉及的特征选择方法,分词技术以及最大熵模型将来的应用和发展进行了展望。

论文目录

  • 摘要
  • ABSTRACT
  • 插图索引
  • 附表索引
  • 第1章 绪论
  • 1.1 研究背景和意义
  • 1.2 国内外研究的现状
  • 1.3 文本分类技术的应用领域
  • 1.4 本文的研究内容
  • 1.5 本文的结构组织
  • 第2章 文本分类的理论基础和技术
  • 2.1 文本挖掘和文本表示
  • 2.1.1 文本挖掘
  • 2.1.2 文本表示技术
  • 2.2 中文文本的词语切分技术
  • 2.2.1 汉语自动分词的必要性
  • 2.2.2 汉语自动分词的难度
  • 2.2.3 文本自动分词算法的分类
  • 2.2.4 分词目标及评价
  • 2.3 文本特征选择
  • 2.3.1 特征项粒度
  • 2.3.2 特征项选择方法
  • 2.3.3 特征项权重计算
  • 2.4 文本分类算法
  • 2.4.1 文本分类的过程
  • 2.4.2 传统的文本分类算法
  • 2.5 分类性能评估
  • 2.6 本章小结
  • 第3章 最大熵模型理论
  • 3.1 统计语言模型
  • 3.2 最大熵原理及其模型
  • 3.2.1 最大熵原理的引入
  • 3.2.2 最大熵的数学模型
  • 3.3 参数估计算法
  • 3.3.1 GIS算法
  • 3.3.2 IIS算法
  • 3.4 平滑技术
  • 3.4.1 Good-Turing估计
  • 3.4.2 Gaussian prior
  • 3.4.3 exponential prior
  • 3.5 本章小结
  • 第4章 用不等式约束改善最大熵模型的分类性能
  • 4.1 最大熵在中文文本分类中的应用
  • 4.2 不等式约束和不等式最大熵模型
  • 4.3 基于不等式最大熵的特征选择算法
  • 4.3.1 cut-off方法的问题
  • 4.3.2 顺序前进法的问题
  • 4.3.3 改进的顺序前进式特征选择算法
  • 4.4 实验结果及分析
  • 4.4.1 实验所用数据语料库
  • 4.4.2 实验结果分析
  • 4.5 本章小结
  • 第5章 面向中文文本分类的分词方法
  • 5.1 汉语自动分词现状
  • 5.2 中文文本自动分词算法
  • 5.3 词条筛选
  • 5.4 试验及结果分析
  • 5.4.1 实验所用数据语料库
  • 5.4.2 实验结果分析
  • 5.5 本章小结
  • 结论
  • 参考文献
  • 致谢
  • 附录A 攻读学位期间所发表的学术论文目录
  • 相关论文文献

    • [1].一种基于语音识别与文本分类技术的非法广播判别方法[J]. 中国无线电 2020(01)
    • [2].跨语言文本分类技术研究进展[J]. 情报理论与实践 2010(11)
    • [3].文本分类技术应用于学科导航分类的可行性探讨[J]. 情报科学 2009(07)
    • [4].短文本分类技术研究综述[J]. 软件 2020(02)
    • [5].面向监理工程的文本分类技术研究[J]. 重庆理工大学学报(自然科学) 2017(10)
    • [6].基于机器学习的文本分类技术研究[J]. 软件 2019(09)
    • [7].基于网络文本分类技术的应用研究[J]. 科协论坛(下半月) 2009(11)
    • [8].网页文本分类技术研究[J]. 科技创业家 2013(09)
    • [9].基于遗传算法的文本分类技术[J]. 电脑知识与技术 2011(22)
    • [10].文本分类技术在信息检索中的应用[J]. 科技资讯 2010(18)
    • [11].Web文本分类技术研究现状述评[J]. 图书情报知识 2008(03)
    • [12].基于fastText的股票咨询案例中文短文本分类技术[J]. 宝鸡文理学院学报(自然科学版) 2020(03)
    • [13].TextCNN文本分类技术在OA系统中的应用研究[J]. 办公自动化 2020(14)
    • [14].利用文本分类技术研究方剂分类[J]. 辽宁中医药大学学报 2010(02)
    • [15].基于文本分类技术计算中医方剂相似度[J]. 微计算机信息 2010(12)
    • [16].基于机器学习的文本分类技术的研究[J]. 计算机与现代化 2009(08)
    • [17].文本分类技术在海洋信息处理领域中的应用[J]. 计算机科学 2008(11)
    • [18].基于SVM算法的文本分类技术研究[J]. 计算机仿真 2013(02)
    • [19].文本分类技术[J]. 电脑知识与技术 2009(24)
    • [20].文本分类技术在名人数据筛选系统中的应用[J]. 电脑知识与技术 2019(03)
    • [21].基于Rocchio和KNN提出的新的文本分类技术[J]. 自动化与仪器仪表 2017(08)
    • [22].文本分类技术探究[J]. 宿州学院学报 2012(05)
    • [23].文本分类技术研究[J]. 电脑知识与技术 2009(32)
    • [24].文本分类技术研究进展[J]. 电脑编程技巧与维护 2009(S1)
    • [25].基于目标迁移的文本分类技术[J]. 科技信息(科学教研) 2008(15)
    • [26].基于朴素贝叶斯的文化旅游文本分类技术研究[J]. 福州大学学报(自然科学版) 2018(05)
    • [27].基于内容挖掘的博客推荐系统的设计与实现[J]. 科技情报开发与经济 2008(25)
    • [28].基于并行计算的文本分类技术[J]. 计算机应用 2013(S2)
    • [29].基于改进ATSVM算法的评审专家自动推荐模型[J]. 重庆科技学院学报(自然科学版) 2010(01)
    • [30].运营商客服通话信息的文本自动分类[J]. 江苏通信 2018(05)

    标签:;  ;  ;  ;  ;  

    中文文本分类技术研究
    下载Doc文档

    猜你喜欢