论文题目: 基于粗糙集理论的文本自动分类研究
论文类型: 博士论文
论文专业: 计算机应|
作者: 张雪英
导师: 刘凤玉
关键词: 文本表达,关键词抽取,粗糙集理论,语义异构性,分类算法,文本自动分类,分类规则,机器学习
文献来源: 南京理工大学
发表年度: 2005
论文摘要: 文本自动分类是目前信息检索和自然语言处理领域的研究热点之一。九十年代以后,机器学习方法逐步广泛应用于文本自动分类。基于机器学习的文本自动分类是一个非常复杂的信息处理任务,目前仍然面临着许多亟待解决的难题。本文将针对文本自动分类涉及的几个主要问题进行比较深入的研究和探索。具体研究内容和创新性研究成果概括如下: (1) 基于N-gram的中英文文本表达方法。文本表达是指将表达文献主题内容的词汇抽取出来的过程。常用的向量空间表达法主要采用TF/IDF等权重法。该类权重法普遍存在两大缺点:一是需要计算词汇在整个数据集中频率,标引效率较低;二是不能直接应用于中文等东方语种文献。否则,必须首先解决分词技术问题。本文的研究成果是提出了一种不需要进行中文分词,且不依赖文本数据集,能够同时适宜于中英文文献的文本表达方法。该方法的主要创新点包括:提出了基于N-Gram的GF/GL权重法,能够根据单篇文献中各个N-gram的出现频率和长度计算它们表达文献主题内容的重要性;提出了根据文献N-gram权重值和子父串关系筛选文献关键词的算法。该算法不需要复杂的参数定义,能够灵活控制文献标引深度和标引专指度。实验结果表明,本文提出的文本表达方法能够获得比TF/IDF更优的标引性能。 (2) 标引词的语义异构性处理。通过文本表达获得的标引词,通常是没有进行语义规范控制的自由词。如果直接将这些标引词作为特征项输入文本自动分类算法,会直接导致计算时间复杂度的增加和分类性能的降低。人工方法和经典相似度计算方法是目前建立标引词语义转换关系的主要方式。本文的研究成果是提出了一种基于粗糙集理论和索引语言理论的标引词语义转换模型,可以用于建立来源于多个索引语言的标引词之间的语义关系,解决标引词的语义异构性问题。该模型的优点表现在:克服了人工转换方法成本高、效率低的缺点;克服了经典相似度计算方法单向性和不能明确定义标引词之间语义关系的缺点;能够快速有效地实现多个索引语言在不同兼容水平上的标引词语义双向转换;能够较大范围地集成具有语义关系的标引词,克服特征抽取方法受限于数据集的缺点。该方法既可用于文本表达结果的规范控制,也可用于文献检索系统中多种索引语言的自动语义集成,从而实现应用单种索引语言进行跨数据库检索。 (3) 粗糙集理论在文本自动分类中的应用问题研究。决策树、神经网络、
论文目录:
摘要
ABSTRACT
目录
第1章 绪论
1.1 研究背景
1.1.1 文本自动分类研究的必要性
1.1.2 文本自动分类面临的主要问题
1.1.3 本文的选题背景及研究环境
1.2 本文的工作
1.2.1 本文的主要研究内容
1.2.2 本文的创新性工作
1.2.3 本文的结构与组织
1.3 结论
第2章 文本自动分类概述
2.1 文本自动分类一般过程
2.2 文本表达法
2.3 维度约简
2.3.1 特征选择
2.3.2 特征抽取
2.4 文本自动分类算法
2.4.1 Nalve Bayes
2.4.2 决策树
2.4.3 神经网络
2.4.4 支持向量机
2.4.5 Rocchio算法
2.4.6 k近邻分类器
2.4.7 阈值策略
2.5 标准数据集
2.5.1 英文数据集
2.5.2 中文数据集
2.6 分类性能评价
2.7 文本自动分类的应用
2.7.1 自动标引
2.7.2 词歧义切分
2.7.3 文本过滤
2.8 结论
第3章 粗糙集理论与方法
3.1 粗糙集基本理论
3.2 属性值离散化
3.3 属性约简
3.3.1 核约简
3.3.2 动态约简
3.3.3 近似约简
3.4 决策规则
3.4.1 标准决策规则
3.4.2 近似决策规则
3.5 规则匹配
3.5.1 完全匹配
3.5.2 部分匹配
3.6 粗糙集理论的特点
3.7 粗糙集在信息检索中的应用
3.7.1 信息查询
3.7.2 文本自动分类
3.7.3 粗糙集应用于文本自动分类面临的主要问题
3.8 结论
第4章 基于N-gram的文本表达方法
4.1 研究背景
4.2 方法概述
4.3 GF/GL权重法
4.4 关键词筛选算法
4.5 实验结果评估
4.5.1 相似度系数
4.5.2 文本自动分类
4.6 结论
第5章 基于粗糙集理论的标引词语义异构性处理
5.1 研究背景
5.2 RST模型
5.3 实例研究
5.3.1 一对一转换
5.3.2 一对多转换
5.3.3 多对多转换
5.3.4 转换结果整合
5.4 实验效果评估
5.5 结论
第6章 基于粗糙集理论的文本自动分类
6.1 概述
6.2 分类规则推导
6.2.1 同义词识别
6.2.2 属性约简算法
6.3 近似规则生成算法
6.4 规则匹配
6.4.1 完全匹配
6.4.2 部分匹配
6.5 动态类别扩展
6.5.1 动态类别扩展算法
6.5.2 实验及性能评估
6.6 结论
第7章 结论
7.1 总结
7.2 进一步的研究工作
致谢
参考文献
攻读博士期间发表的学术论文
发布时间: 2005-09-12
参考文献
- [1].中文文本自动分类中的关键问题研究[D]. 薛德军.清华大学2004
- [2].汉语文本自动分类[D]. 郝立柱.吉林大学2008
- [3].基于本体知识库的教学资源自动采集技术研究[D]. 田俊华.南京师范大学2011
标签:文本表达论文; 关键词抽取论文; 粗糙集理论论文; 语义异构性论文; 分类算法论文; 文本自动分类论文; 分类规则论文; 机器学习论文;