数据库中数据挖掘理论方法及应用研究

数据库中数据挖掘理论方法及应用研究

论文题目: 数据库中数据挖掘理论方法及应用研究

论文类型: 博士论文

论文专业: 控制理论与控制工程

作者: 罗可

导师: 吴杰,童调生

关键词: 数据库,数据挖掘,关联规则,分类,聚类,算法

文献来源: 湖南大学

发表年度: 2005

论文摘要: 数据挖掘是目前数据库和信息决策领域最前沿的研究方向之一。本文研究数据库中数据挖掘,主要包括以下内容: 1 介绍了数据库和数据挖掘技术的发展动态,讨论了数据挖掘技术的研究现状、存在的不足和发展方向。分析了海量数据库产生的原因和特点。讨论了适于在海量数据库中进行数据挖掘的算法的基本特征,即算法应该具有线性计算复杂度O(n)。 2 对挖掘关联规则的算法进行了研究。首先,我们分析了Apriori算法的某些不足;随后,我们提出了一种基于Apriori的改进算法,新算法在某些场合能减少扫描数据库的次数,提高了算法的效率;随后,我们又提出了一种基于事务树的高效算法,用该算法挖掘频繁项目集只需要一次扫描事务数据库,不需要产生候选项目集,该算法的速度大约是Apriori算法的10倍;最后,我们提出了一种用Visual FoxPro实现Apriori算法的方法。 3 对关联规则的衡量标准进行了研究,指出了原衡量标准和若干改进方法的不足。目前,关联规则常用的衡量标准是支持度和置信度,如果按现有标准来生成关联规则,可能会发现大量冗余的、虚假的关联规则。为了减少关联规则挖掘中的无效关联规则,我们分析了产生问题的根源,提出了三种改进方法,即在关联规则的衡量标准中增加影响度、相对置信度或有效度标准,并分别定义了影响度、相对置信度和有效度。根据影响度、相对置信度或有效度的大小,将强关联规则分为正关联规则、无效关联规则和负关联规则。一般来说,只有正关联规则才是有效的关联规则,有时,它们只占强关联规则总数的一小部分。此外,我们提供了用新衡量标准进行关联规则挖掘的改进算法,并进行了实验。实验表明,我们提出的方法能明显减少无效的关联规则。 4 对目前比较优秀的各种分类算法进行了介绍、分析和比较。综合提出了分类算法的评价标准。随后,我们讨论了SPRINT算法。针对SPRINT算法的不足,提出了二种处理离散属性的新方法。这些方法能明显减少求最优分割点的运算量,提高算法的执行速度。最后,我们提出了一种基于抽样的快速数据分类算法。该算法既是可伸缩的,也可并行化。实验表明,该算法的速度是SPRINT算法的10-50倍。 5 介绍、分析和比较了各种常用的聚类方法,综合提出了聚类算法的评价标准和今后的研究方向。随后,在分析BIRCH算法不足的基础上,提出了一种基于抽样的聚类算法。测试结果表明,该算法在聚类速度方面明显优于BIRCH算数据库中数据挖掘理论方法及应用研究法。 6为了提高数据挖掘的效率,提出了采用约束和多维技术的方法进行数据挖掘。分析了数据挖掘中可能的约束类型,用关联规则挖掘讨论了哪些约束可运用于数据挖掘过程中。设计出了一个采用约束与多维技术的数据挖掘系统结构。 7讨论了数据挖掘技术在电力系统中应用,重点研究了最优潮流问题的高效算法。我们根据电力系统的特点,把无功界约束与一般非线性不等式约束分开来考虑,提出了一类投影渐近半光滑Newton型算法,实验表明,我们提出的算法具有良好的计算性能。关键词:数据库;数据挖掘;关联规则;分类;聚类;算法八

论文目录:

摘要

ABSTRACT

第1章 绪论

1.1 数据库技术及其发展

1.1.1 数据库技术及其三个发展阶段

1.1.2 数据库的研究领域

1.1.3 数据库新技术

1.2 数据挖掘的有关概念

1.2.1 数据挖掘的诞生

1.2.2 什么是数据挖掘

1.2.3 数据挖掘的对象

1.2.4 数据挖掘系统的分类

1.3 数据挖掘技术和方法

1.3.1 统计方法

1.3.2 模糊集

1.3.3 支持向量机

1.3.4 粗糙集

1.3.5 规则归纳

1.3.6 决策树

1.3.7 范例推理

1.3.8 贝叶斯信念网络

1.3.9 公式发现

1.3.10 遗传算法

1.3.11 神经网络

1.3.12 可视化

1.4 数据挖掘发现的知识类型

1.4.1 概念/类描述:特征化和区分

1.4.2 关联规则

1.4.3 分类

1.4.4 聚类

1.4.5 孤立点分析

1.4.6 演变分析

1.5 数据挖掘的知识表示

1.6 兴趣度度量

1.7 数据挖掘系统

1.7.1 数据挖掘系统的结构

1.7.2 数据挖掘系统的发展

1.7.3 数据挖掘工具的评价标准

1.7.4 商用数据挖掘系统

1.8 数据挖掘的应用

1.9 数据挖掘研究的发展趋势

1.10 本文内容简介

第2章 关联规则高效挖掘算法的研究

2.1 引言

2.2 Apriori算法及其改进方法

2.2.1 Apriori算法

2.2.2 优化Apriori算法的方法

2.2.3 其它改进方法

2.3 一种基于Apriori的改进算法

2.3.1 问题的提出

2.3.2 改进算法

2.4 一种基于事务树的快速挖掘关联规则的算法

2.4.1 问题描述

2.4.2 构造事务树

2.4.3 挖掘事务树中频繁项目集的算法

2.4.4 实验结果

2.4.5 结论

2.5 用Visual FoxPro实现Apriori算法的方法

2.5.1 设计思路

2.5.2 程序清单

2.6 本章小结

第3章 关联规则衡量标准的研究

3.1 引言

3.2 关联规则衡量标准和一些改进方法的不足

3.2.1 衡量标准的不足

3.2.2 改进方法的不足

3.3 问题分析

3.4 方法一:增加影响度标准

3.4.1 影响度的定义

3.4.2 根据影响度将强关联规则分为三类

3.4.3 算法描述

3.4.4 实验结果

3.5 方法二:增加相对置信度标准

3.5.1 相对置信度的定义

3.5.2 根据相对置信度将强关联规则分为三类

3.5.3 算法描述

3.5.4 实验结果

3.6 方法三:增加有效度标准

3.6.1 有效度的定义

3.6.2 根据有效度将关联规则分为三类

3.6.3 算法描述

3.6.4 实验结果

3.7 本章小结

第4章 数据挖掘中分类算法的研究

4.1 引言

4.2 分类算法的种类及特性

4.2.1 决策树分类算法

4.2.2 贝叶斯分类算法

4.2.3 基于关联规则的分类算法

4.2.4 基于数据库技术的分类算法

4.2.5 其他分类算法

4.3 分类算法的评价标准

4.4 SPRINT算法及其改进方法

4.4.1 SPRINT算法

4.4.2 SPRINT算法的不足与改进方法

4.5 一种基于抽样的快速数据分类算法

4.5.1 设计思想

4.5.2 算法描述

4.5.3 算法的并行化

4.5.4 实验结果

4.5.5 结论

4.6 本章小结

第5章 数据挖掘中聚类算法的研究

5.1 引言

5.2 聚类分析中的数据类型和相异度

5.2.1 区间标度变量

5.2.2 二元变量

5.2.3 标称变量

5.2.4 序数型变量

5.2.5 比例标度型变量

5.3 聚类方法

5.3.1 划分方法

5.3.2 层次方法

5.3.3 基于密度的方法

5.3.4 基于网格的方法

5.3.5 基于模型的方法

5.4 聚类算法的研究方向和评价标准

5.5 一种基于BIRCH的抽样聚类算法

5.5.1 BIRCH算法

5.5.2 BIRCH算法的不足

5.5.3 改进方法

5.5.4 实验结果

5.5.5 结论

5.6 本章小结

第6章 采用约束与多维技术的数据挖掘

6.1 引言

6.2 特别的查询驱动系统

6.3 数据挖掘中的约束

6.4 基于约束的关联规则挖掘

6.4.1 反单调约束

6.4.2 简洁约束

6.4.3 维/层约束

6.5 结构设计

6.6 本章小结

第7章 最优潮流问题的一类新型算法

7.1 数据挖掘在电力系统中的应用

7.1.1 在电力系统中运用数据挖掘技术的必要性

7.1.2 电力系统中可用数据挖掘技术解决的问题

7.2 最优潮流综述

7.3 数学模型及新算法

7.3.1 数学模型

7.3.2 投影渐近半光滑Newton型算法

7.4 数值试验

7.4.1 试验说明

7.4.2 试验结果及分析

7.5 本章小结

结论

参考文献

致谢

附录A (攻读学位期间已发表或录用的学术论文)

发布时间: 2005-04-04

参考文献

  • [1].微博数据挖掘理论的若干关键技术研究[D]. 刘丽娜.哈尔滨工程大学2015

标签:;  ;  ;  ;  ;  ;  

数据库中数据挖掘理论方法及应用研究
下载Doc文档

猜你喜欢