粗糙集理论在中文文本分类中的应用

粗糙集理论在中文文本分类中的应用

论文摘要

随着数据的爆炸式增长,信息处理已经成为人们获取信息和知识不可或缺的工具。文本分类是信息处理的重要研究方向,它是指在既定的分类体系下,根据文本的内容自动判别文本类别的过程。本文对文本分类中所涉及的关键技术,包括向量空间模型、实值词频向量模糊化、基于粗糙集理论的知识获取、知识库中规则强度的计算、各规则分类结果不一致时的冲突消解等内容进行了研究和探讨,并给出了该方法与其它分类方法的复杂度比较,最后应用该方法实现了一个文本分类系统,获得了分类准确程度方面的实验结果。本文的研究内容主要包括以下两个方面: 一.基于粗糙集理论的知识约简研究 1.Skowron区分矩阵的改进。对Skowron区分矩阵中元素应满足的条件作了改进,使得对条件的判断较原来更为简单,并且满足该条件的元素较原来更少,有效降低了借助区分函数计算知识约简的复杂度; 2.各种知识约简方法相互关系的研究。对于决策表,人们从不同的角度出发,提出了正域约简、熵约简、分布约简、分配约简、近似约简等约简理论与方法。本文证明了熵约简与分布约简等价,而对于协调决策表,正域约简、熵约简、分布约简、分配约简、近似约简相互等价; 3.知识约简的逻辑特征。决策表中的知识体现为规则的形式,可以理解为非经典逻辑系统中的公式,本文借助逻辑手段研究知识约简的逻辑特征,证明了在熵约简与分布约简之下,决策表约简前后所获得的规则是等价的。 二.粗糙集理论在文本分类中的应用研究 1.本文结合仅对一维空间进行划分的特点,对FCM算法进行了调整,使其能得到两相模糊数弱划分的结果,并将语言值引入规则,提高了知识的简洁性和可理解性,为人参与知识库的分析与修正提供了方便; 2.对应用粗糙集理论获取的规则提出了一种计算规则强度的方法,该方法综合考虑规则对应的实例数、规则与实例的匹配度以及规则前件的长度,为分析规则库中规则的重要性程度提供了一个指标,方便了不一致结果的冲突消解,使得分类结果更加准确有效; 3.在以上研究工作基础上,设计并实现了基于粗糙集理论的文本分类系统,经过查全率和查准率比较,分析了本文提出的文本分类系统的特点,并给出了冲突消解策略。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 选题背景与研究意义
  • 1.2 分类数据挖掘
  • 1.2.1 数据挖掘产生的背景
  • 1.2.2 构造分类器的主要步骤
  • 1.2.3 属性选择
  • 1.3 文本分类的研究现状
  • 1.4 粗糙集理论简介
  • 1.4.1 粗糙集理论的产生与发展
  • 1.4.2 粗糙集理论的特点
  • 1.4.3 粗糙集理论的研究方向
  • 1.4.4 粗糙集理论的应用现状
  • 1.5 基于粗糙集理论的信息系统分类规则挖掘简介
  • 1.5.1 信息系统
  • 1.5.2 不可区分关系
  • 1.5.3 下上近似
  • 1.5.4 属性依赖关系
  • 1.6 本文研究的目标、方法与主要内容
  • 1.6.1 本文主要研究内容
  • 1.6.2 拟解决的关键问题
  • 1.6.3 本文各章内容安排
  • 第2章 基于粗糙集理论的知识发现
  • 2.1 粗糙集理论的基本概念
  • 2.1.1 知识与知识库
  • 2.1.2 不精确范畴,近似与粗糙集
  • 2.1.3 粗糙度和分类质量
  • 2.1.4 不完备信息系统中粗糙集理论的扩充
  • 2.1.5 知识约简
  • 2.2 Skowron区分矩阵的改进
  • 2.2.1 改进思路
  • 2.2.2 理论证明
  • 2.2.3 实例说明
  • 2.3 几种决策表约简方法的关系
  • 2.4 决策表知识约简的逻辑特征
  • 2.4.1 关于决策表的规则获取
  • 2.4.2 基于正域理论的决策表约简与规则获取
  • 2.4.3 基于包含度理论的决策表约简与规则获取
  • 第3章 两相模糊数弱划分
  • 3.1 模糊集基本概念
  • 3.1.1 模糊集合
  • 3.1.2 模糊集合的截集
  • 3.1.3 凸模糊集
  • 3.1.4 模糊数
  • 3.2 语言变量
  • 3.3 数据预处理
  • 3.3.1 决策表离散化
  • 3.3.2 离散化问题的分类
  • 3.4 模糊划分
  • 3.5 模糊聚类
  • 3.5.1 聚类分析的基本概念
  • 3.5.2 模糊聚类分析方法的分类
  • 3.5.3 聚类分析的数学模型
  • 3.6 两相模糊数弱划分
  • 第4章 文本的形式化表示
  • 4.1 文本的向量空间模型
  • 4.1.1 分词
  • 4.1.2 去停用词
  • 4.1.3 文本索引
  • 4.1.4 一个例子
  • 4.2 文本特征的提取
  • 4.3 模糊决策表
  • 第5章 文本分类系统的实现
  • 5.1 产生式系统
  • 5.1.1 产生式规则的基本形式
  • 5.1.2 产生式系统
  • 5.1.3 产生式系统求解问题的基本步骤
  • 5.2 知识库的构建
  • 5.2.1 文本分类
  • 5.2.2 文本分类语料库
  • 5.3 决策规则及其不确定性表示
  • 5.3.1 决策规则的定义
  • 5.3.2 规则的不确定性表示和度量
  • 5.3.3 规则强度算法
  • 5.4 事实库
  • 5.5 推理机的实现
  • 5.5.1 逻辑推理系统
  • 5.5.2 不确定性的匹配算法
  • 5.5.3 不确定性的更新算法
  • 5.5.4 冲突消解
  • 5.5.5 分类算法
  • 5.6 文本分类系统性能评价
  • 5.6.1 复杂度分析
  • 5.6.2 准确度分析
  • 结论与展望
  • 致谢
  • 参考文献
  • 攻读博士学位期间发表论文及科研情况
  • 相关论文文献

    • [1].带权决策表的属性约简[J]. 计算机工程与应用 2020(12)
    • [2].面向非一致决策表的决策树构造方法研究[J]. 嘉兴学院学报 2019(06)
    • [3].不完备决策表中基于容差关系的属性约简方法[J]. 微电子学与计算机 2016(06)
    • [4].不一致决策表规则获取的粒计算方法[J]. 控制与决策 2015(04)
    • [5].带权决策表的变精度约简算法[J]. 小型微型计算机系统 2019(10)
    • [6].大数据环境下多决策表的区间值全局近似约简[J]. 软件学报 2014(09)
    • [7].一种基于非完备决策表的核特征计算方法[J]. 微电子学与计算机 2012(12)
    • [8].相对知识粒度序决策表的属性约简方法[J]. 计算机工程与应用 2011(08)
    • [9].一种基于特征矩阵的一致决策表的规则提取方法[J]. 电脑知识与技术 2010(13)
    • [10].连续值决策表的一种属性约简方法[J]. 宝鸡文理学院学报(自然科学版) 2010(03)
    • [11].新简化决策表的研究[J]. 计算机工程 2009(15)
    • [12].改进的简化决策表及属性约简[J]. 数学的实践与认识 2008(01)
    • [13].对决策表和简化决策表的研究[J]. 计算机技术与发展 2008(04)
    • [14].不完备决策表中条件属性的重要性度量[J]. 内江师范学院学报 2008(04)
    • [15].基于多特定类的序决策表下近似约简[J]. 计算机科学 2019(10)
    • [16].基于判别向量的不一致决策表规则提取算法[J]. 控制工程 2018(05)
    • [17].不一致决策表快速知识约简算法研究[J]. 小型微型计算机系统 2015(08)
    • [18].基于等价类的不一致决策表约简改进算法[J]. 阜阳师范学院学报(自然科学版) 2013(02)
    • [19].基于区分对象对的不完备决策表求核[J]. 计算机工程与应用 2013(19)
    • [20].一种基于不完备决策表的求核方法[J]. 计算机工程与应用 2012(01)
    • [21].基于服务决策表的产品配置规则研究[J]. 中国机械工程 2012(21)
    • [22].不协调决策表协调化的一种方法[J]. 黄山学院学报 2011(03)
    • [23].一种序决策表的特征选择算法[J]. 广西师范大学学报(自然科学版) 2010(03)
    • [24].一种不完备决策表的改进约简算法[J]. 甘肃科技 2010(24)
    • [25].多决策表缺失属性补齐算法的研究[J]. 计算机科学 2009(01)
    • [26].不完备决策表的几种属性约简方法的关系[J]. 海南师范大学学报(自然科学版) 2008(04)
    • [27].不相容决策表的属性约简与规则提取算法[J]. 福建电脑 2008(02)
    • [28].一种从海量不完备决策表中抽取规则的方法[J]. 计算机工程 2008(06)
    • [29].模糊优势关系下区间有序决策表的属性约简[J]. 模糊系统与数学 2013(06)
    • [30].决策表中基于对象的μ-约简方法研究[J]. 计算机科学与探索 2014(04)

    标签:;  ;  ;  ;  ;  

    粗糙集理论在中文文本分类中的应用
    下载Doc文档

    猜你喜欢