论文题目: 面向中文文本的特征值提取
论文类型: 硕士论文
论文专业: 计算机应用技术
作者: 邹娟
导师: 周经野
关键词: 文本处理,特征值,特征值提取,概念类,自然语言处理,模式识别
文献来源: 湘潭大学
发表年度: 2005
论文摘要: 随着网络的发展,文本分类作为信息整理的手段,在我们的生活中起着越来越重要的作用。特征值提取是文本处理中的关键技术,优秀的特征值才能真正反映出文本的属性。本文主要借助于自然语言语义学、模糊数学、粗糙集、概率论等方面的知识对中文文本的特征值提取作了系统的研究,提出了基于同义概念及多重加权的特征值提取系统(SMFS),具体工作如下: 首先,我们对于现在的特征值加权法做了一定的改进,不仅考虑了文本中的词汇概率信息,还结合文本语义等多方面信息,提出了一种基于多重启发式规则的特征值权值计算方法。我们认为词汇只是表示概念的语言单位,而同义词都可以归结为同一个概念,于是特征提取中我们定义了“同义概念”作为特征值的单位。从而解决了文本处理中的同义词和一词多义问题,在很大程度上降低了特征空间的维数,并且得到了较优的性能。值得指出的是,我们这里的“同义概念”是在训练过程中自动形成其隶属度。最后我们对现在的分类方法作了一定的总结。并且给出了比较试验结果以及SMFS 特征值提取方法在邮件分类系统的应用。
论文目录:
第一章 绪论
1.1 引言
1.2 特征值提取概述
1.2.1 定义
1.2.2 特征提取或选择的途径
1.2.3 文本特征值提取的发展
1.2.4 文本特征值的表示方法
1.3 本文的思想、目的
1.3.1 目前系统存在的问题
1.3.2 主要思想及目标
1.4 本文章节组织
第二章 基于多重启发式规则的特征值权值计算
2.1 基本定义
2.2 特征值提取的启发式规则及自动多重加权
2.2.1 概率启发式规则
2.2.2 语义启发式规则
2.3 基于多重启发式规则的特征值提取算法
第三章 同义词处理技术
3.1 现有的同义词处理方法
3.2 模糊集合基本概念
3.3 基于模糊集合的同义、多义词处理
3.3.1 基于模糊集合的同义词处理
3.3.2 基于模糊集合的多义词处理
3.4 基于模糊集合的文本特征值权值计算
3.5 小结
第四章 基于同义概念及多重加权的特征值提取系统
4.1 SMFS 特征值提取系统模型
4.1.1 分词模块
4.1.2 特征值提取模块
4.2 SMFS 特征值提取算法
4.3 小结
第五章 特征值提取在文本分类中的比较试验
5.1 分类方法概述
5.2 几种常用的分类方法
5.2.1 相似度分类法
5.2.2 kNN 分类法
5.2.3 基于支持向量机(SVM)的分类方法
5.3 比较试验
5.3.1 同义概念比较试验
5.3.2 基于多重式启发规则的特征值提取比较试验
5.3.3 SMFS 与其它特征值表示法的比较
第六章 基于SMFS 电子邮件分类系统
6.1 基于SMFS 电子邮件分类系统结构
6.2 邮件分类试验
6.3 小结
总结与展望
参考文献
攻读硕士学位期间公开发表的论文
致谢
详细摘要
发布时间: 2006-03-14
参考文献
- [1].基于贝叶斯算法的中文文本多标签分类的研究与实现[D]. 柯杜芹.厦门大学2017
- [2].中文文本情绪原因发现研究[D]. 胡健楠.哈尔滨工业大学2018
- [3].中文文本情感分析关键问题的研究和优化[D]. 曹康凯.北京邮电大学2018
- [4].基于深度神经网络的中文文本蕴含识别研究与实现[D]. 刘姝雯.北京邮电大学2018
- [5].字词级中文文本自动校对的方法研究[D]. 卓利艳.郑州大学2018
- [6].自然场景下文本提取方法的研究[D]. 戴舜.北方工业大学2018
- [7].中文文本自动校对系统设计与实现[D]. 张涛.西南交通大学2017
- [8].中文文本褒贬倾向性分类研究[D]. 朱万山.北方工业大学2015
- [9].基于深度学习的中文文本情感分类研究[D]. 肖登明.华中科技大学2017
- [10].面向自然场景图像中的中文文本定位技术研究[D]. 徐琼.南京邮电大学2014
相关论文
- [1].文本挖掘关键技术研究及实现[D]. 许高建.合肥工业大学2007
- [2].中文文本聚类中特征选择算法的研究[D]. 龚静.湘潭大学2006
- [3].中文文本分类相关算法的研究与实现[D]. 于瑞萍.西北大学2007
- [4].文本分类中特征选择方法的研究[D]. 余俊英.江西师范大学2007
- [5].基于语义中心的KNN文本分类算法研究[D]. 魏建.南京理工大学2007
- [6].中文网页获取及自动分类技术研究[D]. 吴虎子.武汉理工大学2007
- [7].基于SVM的中文文本分类系统的建模与实现[D]. 马宏伟.大连理工大学2006
- [8].一种文本聚类原型系统的设计与实现[D]. 刘延亮.大连理工大学2006
- [9].基于主动学习的中文文本分类[D]. 孙国欣.兰州大学2006
- [10].文本分类算法研究[D]. 杨昂.湖南大学2002