论文摘要
当今的时代是一个信息的时代,随着科学技术的高速发展,大量的数据涌入到我们的面前,面对这样庞大的海量数据我们该如何应对,才能从茫茫的数据海洋中获取对我们有用的信息就成为了一个关键问题。数据挖掘是指从大量的数据中发现人们事先不知道的、有用的知识(或模式)的处理过程,它是继数据库、人工智能等领域之后发展起来的一门重要学科。随着计算机软、硬件技术的发展以及在各行各业中的应用,使得人们对数据挖掘技术的需求越来越迫切。由于挖掘到的知识能够给其领域以有力的支持,因此,数据挖掘技术得到了广泛的应用。本文首先介绍了数掘挖掘的基本任务和技术,接着对数据挖掘的前期重要环节一数据预处理进行了详细的说明,然后引出了关联规则的挖掘问题,重点介绍了挖掘关联规则的两种经典算法—Apriori算法和基于FP-growth的关联规则挖掘算法,并对FP-growth算法进行了改进,以提高算法的运行效率。围绕着高校贫困生评定数据平台的建立、数据分析、数据挖掘模型的应用以及评定流程的改进展开探讨。首先,分析目前高校贫困生资助项目的申请、审核、完成、最终审查的整体流程,提出基于数据仓库的数据分析平台的建立方案,并进行了建立数据平台的总体规划:其次,根据该平台的实施目标,建立高校贫困生评价项目的数据仓库、数据模型,并且通过数据预处理对数据源进行抽取,清洗和转换工作,实现了数据仓库的生成,为后面的数据分析提供了数据准备;最后,根据以上研究结论,将改进的关联规则算法应用到具体评测过程中。相对而言,改进后的FP-growth算法大大的减少了时间复杂度,特别针对数据量比较庞大的数据仓库进行挖掘的时候,效果尤其明显。
论文目录
摘要Abstract第1章 绪论1.1 研究的背景1.2 研究现状及发展趋势1.2.1 研究现状1.2.2 数据挖掘的发展趋势1.3 研究内容及意义1.3.1 本文研究的内容1.3.2 本文研究目的及理论和现实意义1.4 论文的组织结构第2章 数据仓库技术2.1 数据仓库2.1.1 数据仓库的定义和特点2.1.2 数据仓库的基本体系结构2.2 联机分析处理(OLAP)2.2.1 OLAP的特点2.2.2 OLAP的多维数据概念2.2.3 OLAP的多维数据结构2.2.4 OLAP的多维分析操作2.2.5 OLAP的实现方法2.3 数据挖掘2.4 本章小结第3章 数据预处理3.1 数据清理3.2 数据集成3.3 数据变换3.4 数据规约3.5 数据离散化和概念分层3.6 本章小结第4章 关联规则挖掘概念及算法4.1 概述4.2 知识发现与数据挖掘4.2.1 知识发现4.2.2 数据挖掘4.3 关联规则4.3.1 关联规则的定义4.3.2 关联规则的种类4.3.3 关联规则的挖掘算法4.3.4 不产生频集的算法FP-树频集算法4.4 本章小结第5章 高校贫困生界定信息预处理5.1 问题的提出5.2 目前贫困生界定中存在的问题5.3 联机分析处理的数据准备5.4 分析处理5.5 本章小结第6章 关联规则在贫困生认定中的应用6.1 算法及改进算法的引入6.1.1 经典的Apirori算法6.1.2 FP-Growth算法6.1.3 改进的INFP-Growth算法6.2 数据挖掘的过程及算法的应用6.2.1 数据挖掘过程6.2.2 数据处理6.3 试验结果及分析6.4 本章小结结论参考文献攻读硕士学位期间发表的论文和取得的科研成果致谢个人简历
相关论文文献
标签:数据挖掘论文; 数据仓库论文; 关联规则论文; 数据预处理论文;