科学数据网格中数据挖掘技术研究

科学数据网格中数据挖掘技术研究

论文摘要

网格计算的出现使得大规模跨组织、跨区域的数据共享和协同工作成为可能。在科学研究领域中,现代科学研究的问题空前复杂化,产生了一种崭新的科研协作模式和大科学工程,即“科学研究的信息化”。这就需要以网格为基础,通过Internet联合组成一个共同的虚拟研究团队,共享资源和成果,协同工作,共同完成大型现代科学研究。本文的工作以科学数据网格和科学数据库为背景,致力于在现有海量数据存储和强大计算能力的基础上,通过数据挖掘技术来进一步提升其服务水平。本文的主要研究内容和创新成果包括:(1)科学数据网格环境下的科学数据挖掘系统本文在分析科学数据网格环境下数据挖掘之特点的基础上,提出了网格环境下的数据挖掘解决方案——科学数据挖掘系统。该系统主要由三部分构成:科学数据挖掘系统结构描述了数据挖掘程序中基于多维模型的三层结构;科学数据挖掘工具集提供了大量的数据预处理算法和数据挖掘算法;科学数据挖掘网格服务以网格服务的形式提供了科学数据网格环境下的数据挖掘解决方案。与传统的数据挖掘系统相比,科学数据挖掘系统具有诸多优异的特点,更为适合科学数据网格和科学数据库环境。目前,科学数据挖掘系统已经实际应用于几个数据库中。该系统不仅具有简单的查询检索功能,而且可以进行数据统计分析及知识发现,从而能够进一步提高了数据库提供服务的水平。(2)基于聚类的量化关联规则挖掘算法聚类分析技术是一个把相似的对象分在相同簇、相异对象分在不同簇的分组过程。被发现的簇可以用来解释数据分布的特点。本文提出了一种新颖的量化关联规则挖掘方法,可以解决现有基于布尔型关联规则的挖掘算法不能直接处理类别型和数值型数据的问题。这种方法使用聚类算法把数据库中的交易记录分成若干个簇,然后把簇投影到数值型属性所在的域,形成重叠、有意义的区间。实验结果表明这种方法能够有效地挖掘量化关联规则,并且能够发现现有算法可能遗漏的重要规则。(3)基于过滤器的用户访问模式挖掘针对传统用户访问模式挖掘系统中用户识别和会话识别的复杂性和不准确性,本文提出了一个基于过滤器的用户访问模式挖掘系统,给出了日志过滤器的实现和部署机制,并在此基础上提出了相应的用户访问模式挖掘算法。该系统目前已实际应用于科学数据库系统中,能够准确地识别用户和会话,为挖掘算法提供优质的数据,效果明显优于以前直接挖掘Web日志的方法。

论文目录

  • 摘要
  • 图目录
  • 表目录
  • 第一章 绪论
  • 1.1 数据挖掘简介
  • 1.1.1 数据挖掘的功能
  • 1.1.2 数据挖掘过程
  • 1.1.3 数据挖掘分类
  • 1.1.4 数据挖掘工具
  • 1.2 网格简介
  • 1.2.1 网格的定义
  • 1.2.2 网格的特征
  • 1.2.3 网格的应用领域
  • 1.3 科学数据网格
  • 1.4 科学数据挖掘
  • 1.5 研究意义
  • 1.6 本文工作
  • 1.7 论文的组织
  • 第二章 数据挖掘系统的发展趋势
  • 2.1 数据挖掘系统
  • 2.1.1 按特征分类
  • 2.1.2 按耦合程度分类
  • 2.2 数据挖掘系统的应用
  • 2.2.1 商业应用
  • 2.2.2 Web 挖掘
  • 2.2.3 科学研究
  • 2.3 数据挖掘系统的要求及挑战
  • 2.4 数据挖掘系统的评价标准
  • 2.5 数据挖掘的标准化
  • 2.5.1 数据挖掘过程模型
  • 2.5.2 预言模型标记语言
  • 2.5.3 通用数据挖掘语言
  • 2.6 小结
  • 第三章 科学数据挖掘系统
  • 3.1 科学数据网格中数据挖掘的特点
  • 3.2 科学数据挖掘系统结构
  • 3.2.1 设计目标
  • 3.2.2 联机分析挖掘结构
  • 3.2.3 科学数据挖掘系统结构
  • 3.3 科学数据挖掘网格服务
  • 3.3.1 科学数据网格的目标
  • 3.3.2 网格体系结构
  • 3.3.3 网格服务
  • 3.3.4 科学数据挖掘服务
  • 3.4 科学数据挖掘系统的特点
  • 3.5 科学数据挖掘系统的应用
  • 3.5.1 数据库介绍
  • 3.5.2 统计功能
  • 3.5.3 数据挖掘功能
  • 3.6 小结
  • 第四章 科学数据挖掘工具集
  • 4.1 科学数据挖掘工具集简介
  • 4.1.1 工具集构成
  • 4.1.2 工具集特点
  • 4.2 数据预处理
  • 4.2.1 数据清理
  • 4.2.2 数据集成
  • 4.2.3 数据变换
  • 4.2.4 数据归约
  • 4.3 关联规则挖掘算法
  • 4.3.1 关联规则的定义
  • 4.3.2 两个子问题
  • 4.3.3 关联规则的解空间
  • 4.3.4 广度优先算法
  • 4.3.5 深度优先算法
  • 4.3.6 广度和深度结合的算法
  • 4.3.7 算法比较
  • 4.4 聚类算法
  • 4.4.1 基于分区的方法
  • 4.4.2 基于层次的方法
  • 4.4.3 基于密度的方法
  • 4.4.4 基于方格的方法
  • 4.4.5 基于模型的方法
  • 4.4.6 聚类方法的小结
  • 4.5 基于聚类的量化关联规则挖掘算法
  • 4.5.1 现有方法的不足
  • 4.5.2 问题定义
  • 4.5.3 挖掘算法
  • 4.5.4 实验结果
  • 4.6 分类与预测
  • 4.6.1 分类和预测简介
  • 4.6.2 分类算法
  • 4.7 序列模式
  • 4.7.1 问题定义
  • 4.7.2 挖掘算法
  • 4.8 小结
  • 第五章 用户访问模式挖掘
  • 5.1 传统的访问模式挖掘方案
  • 5.2 传统方案的缺点
  • 5.3 基于过滤器的用户访问模式挖掘系统
  • 5.3.1 过滤器的概念
  • 5.3.2 访问模式挖掘系统结构
  • 5.3.3 过滤器的实现
  • 5.3.4 过滤器的部署
  • 5.4 访问模式挖掘算法
  • 5.4.1 关于访问模式的一些定义
  • 5.4.2 用户访问模式挖掘算法
  • 5.5 小结
  • 第六章 结束语
  • 6.1 本文工作总结
  • 6.2 下一步研究方向
  • 参考文献
  • 致谢
  • 作者简历
  • 相关论文文献

    • [1].空间数据网格概念探析[J]. 内江科技 2016(11)
    • [2].中国科学院科学数据网格建设的进展[J]. 科研信息化技术与应用 2011(02)
    • [3].关于建立我国环境大数据网格组织标准的若干思路[J]. 中国环境管理 2015(06)
    • [4].人地系统科学数据网格[J]. 科研信息化技术与应用 2011(02)
    • [5].校园数据网格安全体系结构的研究与设计[J]. 内蒙古工业大学学报(自然科学版) 2011(04)
    • [6].本体在制造数据网格中的应用研究[J]. 机械工程师 2008(02)
    • [7].现代企业数据网格的研究与设计[J]. 消费导刊 2008(09)
    • [8].基于相似场境推荐的数据网格副本选择策略[J]. 微电子学与计算机 2012(09)
    • [9].树形数据网格中实现副本放置的一种优化算法[J]. 电子测量与仪器学报 2019(02)
    • [10].异地异构化学数据资源整合平台——化学数据网格[J]. 科研信息化技术与应用 2011(01)
    • [11].基于数据网格的视频点播的研究[J]. 怀化学院学报(自然科学) 2008(02)
    • [12].数据网格的存储资源预留方法[J]. 哈尔滨工业大学学报 2010(03)
    • [13].地学领域数据网格的构建与其应用案例分析[J]. 地球信息科学学报 2011(03)
    • [14].基于本体的禽流感科学数据网格的资源描述[J]. 计算机应用与软件 2008(05)
    • [15].基于数据网格的PACS数据备份和恢复研究[J]. 北京生物医学工程 2008(02)
    • [16].基于网格双层动态副本创建策略的改进[J]. 信息与电脑(理论版) 2012(18)
    • [17].基于jQuery EasyUI的可编辑数据网格功能分析与实现[J]. 信息与电脑(理论版) 2018(15)
    • [18].引入Ontology的制造数据网格相关问题探讨[J]. 煤炭技术 2012(06)
    • [19].浅谈数据网格技术[J]. 科学之友 2010(08)
    • [20].基于生产消耗模型与松弛时间的数据网格服务可靠性研究[J]. 计算机集成制造系统 2009(11)
    • [21].数据网格中一种QoS驱动的副本选择算法[J]. 北京交通大学学报 2010(02)
    • [22].云环境下一种兼顾成本与存储空间的副本策略[J]. 计算机工程 2018(03)
    • [23].基于内容分发的数据网格副本创建策略[J]. 计算机应用研究 2012(10)
    • [24].间隔执行的异步副本放置策略[J]. 计算机科学与探索 2018(08)
    • [25].数据网格中一种均衡性能的副本一致性算法[J]. 计算机工程与应用 2010(22)
    • [26].最新版Oracle Coherence 3.6上市[J]. 国防制造技术 2010(04)
    • [27].基于数据网格的经费决算系统研究与设计[J]. 电脑知识与技术 2014(15)
    • [28].基于网格技术的科学数据存储与共享[J]. 图书情报工作 2011(13)
    • [29].航运大数据是一座富矿[J]. 中国船检 2018(06)
    • [30].基于数据网格技术的研究与分析[J]. 电脑与信息技术 2008(02)

    标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

    科学数据网格中数据挖掘技术研究
    下载Doc文档

    猜你喜欢