基于粗糙集的数据及文本挖掘方法研究

基于粗糙集的数据及文本挖掘方法研究

论文题目: 基于粗糙集的数据及文本挖掘方法研究

论文类型: 博士论文

论文专业: 管理科学与工程

作者: 王明春

导师: 王正欧

关键词: 粗糙集,数据挖掘,文本挖掘,属性约简,聚类,分类

文献来源: 天津大学

发表年度: 2005

论文摘要: 数据挖掘和文本挖掘是当前信息技术中的一个重要研究领域;将软计算方法之一的粗糙集理论应用于数据及文本挖掘方法研究,具有较大的理论意义和实用价值。本文研究了基于粗糙集的数据挖掘和文本挖掘方法,主要包括数据挖掘和文本挖掘中的属性约简问题、聚类问题;文本挖掘中的分类规则抽取问题;以及粗糙集同模糊集相结合的数据挖掘方法。所做主要工作内容包括:将粗集和遗传算法相结合成功应用于文本模糊聚类。在聚类过程中,将权重参数的设定也通过编码由遗传算法确定,从而使得权重参数的设定具有科学性和可操作性。给出了近似规则的定义,并对χ~2值的意义进行了讨论。在此基础上提出了一种将特征选取和粗集方法相结合的文本分类规则抽取方法。该方法大大提高了文本规则抽取的效率,并使其更趋实用化。对相关文献中隶属函数的定义进行了改进,并且利用隶属函数的性质提出了一种从定量决策表转换为定性决策表的转换规则,利用此转换规则可以将原来的定量决策表转换为一个同样大小的定性决策表,这样大大减少了后面利用粗集理论进行规则抽取的计算量,而且提取的规则质量也有了很大提高。将模式聚合理论和潜在语义索引理论相结合,提出了一种文本降维新方法。它首先用PA理论对文本特征进行初步降维,在此基础上利用LSI方法对文本特征进一步降维,抽取隐藏在文本中的主要语义信息。提出了一种改进的基于粗集和Tabu搜索的属性约简算法。改进后的算法既具有较高的算法效率,又能以较大的概率得到最小属性约简。提出了基于知识简洁度的粗集聚类方法,它首先计算对象集合在每个属性下的划分;然后在对初始划分进行合并时,引进了不可分辨度的概念;在形成最终聚类结果时,引进了知识简洁度作为凝聚的终止条件。将基于次胜对手惩罚的竞争学习算法应用于文本聚类,这种方法既能自动确定聚类的数目,又具有较好的算法复杂度。

论文目录:

第一章 绪论

1.1 选题的研究背景和意义

1.2 数据挖掘与文本挖掘概述

1.2.1 数据挖掘概述

1.2.2 文本挖掘概述

1.3 数据挖掘文本挖掘的主要技术

1.3.1 分类技术

1.3.2 聚类技术

1.4 基于粗糙集理论的数据及文本挖掘进展及评述

1.4.1 粗糙集理论概述

1.4.2 粗糙集中的属性约简问题

1.4.3 粗糙集在数据挖掘中的应用

1.4.4 粗糙集同其他方法相结合用于数据挖掘

1.4.5 基于粗糙集的数据挖掘系统[109]

1.5 本文的主要工作和创新点

第二章 数据挖掘及文本挖掘中的属性约简方法研究

2.1 引言

2.2 基于TABU搜索的属性约简算法

2.2.1 Tabu搜索算法

2.2.2 基于Tabu搜索的属性约简算法及其缺点

2.3 基于算法改进的属性约简方法

2.3.1 算法的原理和步骤

2.3.2 算法具体实现技术

2.4 仿真实验研究

2.4.1 实验1

2.4.2 实验2

2.5 模式聚合理论简介

2.5.1 CHI概率统计

2.5.2 模式聚合

2.6 基于模式聚合和潜在语义索引的文本降维新方法

2.7 仿真实验研究

2.7.1 实验一

2.7.2 实验二

2.8 结论

第三章 基于粗集和遗传算法相结合的文本模糊聚类方法

3.1 引言

3.2 粗糙集的几个性质

3.3 粗集和遗传算法相结合的文本聚类方法

3.3.1 文本的表示

3.3.2 评价函数

3.3.3 遗传编码

3.3.4 遗传算子的设计

3.3.5 运算终止条件

3.4 仿真实验研究

3.4.1 测试结果

3.4.2 对于权重的讨论

3.5 本章小结

第四章 一种基于χ值特征选取的粗糙集文本分类规则抽取方法

4.1 引言

4.2 基本原理

4.2.1 文本分类近似规则

4.2.2 χ~2 值的讨论

4.2.3 方法主要步骤

4.3 基于χ值特征选取和粗糙集的文本分类规则抽取方法

4.3.1 主算法

4.3.2 属性约简子算法

4.3.3 规则抽取子算法

4.4 仿真实验研究

4.4.1 实验一

4.4.2 实验二

4.5 本章小结

第五章 基于粗集和模糊集理论相结合的决策规则抽取方法

5.1 引言

5.2 定量数据的模糊表示

5.3 改进算法

5.3.1 隶属函数定义的改进

5.3.2 定量决策表到定性决策表的转换

5.4 仿真实验研究

5.5 本章小结

第六章 基于RPCL的文本聚类方法

6.1 引言

6.2 RPCL聚类算法

6.3 RPCL文本聚类的步骤

6.4 仿真实验研究

6.4.1 实验方案

6.4.2 实验过程

6.4.3 结果分析

6.5 本章小结

第七章 基于知识简洁度的粗集聚类方法

7.1 引言

7.2 基于知识简洁度的聚类算法

7.2.1 算法中的基本概念

7.2.2 基于知识简洁度的聚类算法

7.3 仿真实验研究

7.4 结论

第八章 总结与展望

参考文献

攻读博士期间发表的论文及参加的科研项目

致谢

发布时间: 2006-05-24

参考文献

  • [1].文本挖掘在中医药中的若干应用研究[D]. 周雪忠.浙江大学2004
  • [2].文本挖掘若干关键技术研究[D]. 陈晓云.复旦大学2005
  • [3].聚类/分类理论研究及其在文本挖掘中的应用[D]. 卜东波.中国科学院研究生院(计算技术研究所)2000
  • [4].文本挖掘预处理相关基础技术分析与应用研究[D]. 孙道军.北京邮电大学2008
  • [5].文本挖掘的若干关键算法研究[D]. 檀敬东.中国科学技术大学2010
  • [6].面向信息检索的Web文本挖掘方法研究[D]. 文翰.华南理工大学2012
  • [7].中医医案文本挖掘的若干关键技术研究[D]. 袁锋.山东师范大学2016
  • [8].特征耦合泛化及其在文体挖掘中的应用[D]. 李彦鹏.大连理工大学2011
  • [9].基于主题模型的专利文本挖掘方法及应用研究[D]. 陈虹枢.北京理工大学2015
  • [10].Web文本挖掘中若干问题的研究[D]. 王占一.北京邮电大学2012

标签:;  ;  ;  ;  ;  ;  

基于粗糙集的数据及文本挖掘方法研究
下载Doc文档

猜你喜欢