区间数据库的构建及其在知识发现中的应用

区间数据库的构建及其在知识发现中的应用

论文摘要

关联规则挖掘是数据挖掘中的一个重要研究课题。它是搜索强相关的项集合的一个过程。挖掘一个超市数据库, 可以找到不同商品之间的销售联系(它反映了顾客的消费行为),例如:面包与牛奶、咖啡与方糖、牙膏与牙刷等通常被同时销售。这些是常识性知识。有趣的是, 关联规则挖掘能找到,像“啤酒与尿不湿”被同时销售, 这种非常识性知识。这导致关联规则挖掘被深入研究和广泛的应用。例如, 它被进一步用于解决库存控制(stock control) 、商品促销(Sales promotion) 、消费者行为分析(Customer behavior analysis)等问题。随着超市和日用品工业的发展,捆绑销售(Binding sale)方式——捆绑商品(Binding commodities)销售已成为方便顾客并提升利润的一种重要手段。这正是关联规则挖掘的用武之地。本论文深入细致地研究了这个问题,并提出了挖掘区间值规则:A→[B, C]的思想和方法。捆绑商品借助区间值(Interval values)来表示有很多优点。首先区间值包含了比单个具体数据更多的信息。因为单个数据提供的只是单个数据本身,而区间值提供的是一个分布,即, 可以取区间内的任意一个数。其次区间值比平均数有更强的表达能力,也就是说区间值的信息熵(Interval entropy)要大于平均数的信息熵(Mean entropy)。再者,区间值数据库挖掘可以发现哪些商品适合于捆绑、哪些商品不适合于捆绑。这有重要的实际应用价值。论文在对区间值聚类算法研究的基础上, 提出将传统关系数据库的两个字段看成一个新字段,并用其中一个来表示新字段的“左端点域”(区间值左端点)用另一个来表示新字段的“右端点域”( 区间值右端点),由此形成了区间值数据库。论文深入研究了强关联规则( 亲属关联规则) 的挖掘算法,给出了强关联规则的区间函数公式; 在对这些区间函数值研究的基础上,构建了一种完备区间格系统,并利用完备区间格满足的一个性质:A∧C=B∧C且A∨C=B∨C ?A=B 来对商品进行捆绑。区间值关联规则挖掘的实质是对捆绑商品的挖掘,也就是研究哪些商品应该被捆绑。本论文的主要工作分为如下四个部分: (1) 提出传统数据挖掘中存在许多模式遗漏问题,并从物理学、数学、生物学等角度论述研究这些遗漏模式的重要意义。(2) 针对这些遗漏模式构建一种新型的数据库结构来存放和处理它们,这种新型的数据库就称为区间值数据库。(3) 提出了区间值关联规则的概念,并深入研究了区间值规则的真正内涵。(4) 区间值规则挖掘算法的研究。最后对本论文的主要工作做了总结,指出今后的改进方向。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究背景
  • 1.1.1 区间算法的产生和发展
  • 1.1.2 捆绑商品的出现
  • 1.2 国内外研究现状
  • 1.2.1 数量型关联规则挖掘
  • 1.2.1.1 区间划分法
  • 1.2.1.2 交叉区间法
  • 1.2.1.3 模糊集法
  • 1.2.2 区间值“云规则”挖掘
  • 1.2.3 双区间聚类挖掘模型
  • 1.3 本论文研究内容
  • 1.4 论文结构
  • 第2章 区间值聚类的三种方法
  • 2.1 区间值聚类概述
  • 2.1.1 区间值基本概念
  • 2.1.2 区间值代数系统
  • 2.2 区间值聚类方法之一——点划分法
  • 2.2.1 基本方法
  • 2.2.2 实例
  • 2.3 区间值聚类方法之二——密度区间法
  • 2.3.1 基本方法
  • 2.3.2 实例
  • 2.4 区间值聚类方法之三——转换法
  • 2.4.1 基本方法
  • 2.4.2 实例
  • 第3章 区间值数据库的研究
  • 3.1 区间值数据库模型
  • 3.1.1 数据模型概述
  • 3.1.2 区间数据模型
  • 3.1.3 区间数据的规范化理论
  • 3.2 区间值数据库设计方法
  • 3.2.1 设计方法
  • 3.2.2 设计方案
  • 3.2.2.1 案例一:大学教师拥有小轿车数量统计
  • 3.2.2.2 案例二:视网膜脱落手术病例
  • 第4章 区间值关联规则的研究
  • 4.1 区间值关联规则的产生
  • 4.1.1 关联规则与区间值
  • 4.1.2 区间值关联规则产生的起因:捆绑商品
  • 4.2 区间值关联规则的形式
  • 4.2.1 一阶谓词形式
  • 4.2.2 产生式形式
  • 4.2.3 面向对象形式
  • 4.3 区间值数据库
  • 4.3.1 区间值数据挖掘
  • 4.3.2 区间值数据挖掘的设计
  • 第5章 区间值数据库挖掘模型与算法
  • 5.1 区间值数据库挖掘模型
  • 5.1.1 强关联模式的挖掘——用于构建区间值
  • 5.1.2 区间值数据库挖掘模型的实现
  • 5.2 模型效果评估公式
  • 5.3 实验结果与分析
  • 第6章 总结与展望
  • 参考文献
  • 致谢
  • 攻读硕士学位期间发表的学术论文
  • 相关论文文献

    • [1].基于统计分析的分享型数据库需求无约束估计模型[J]. 淮阴工学院学报 2019(05)
    • [2].基于数据库的网络课题开发策略[J]. 通讯世界 2019(12)
    • [3].基于陕西省地质调查数据库融合理论方法[J]. 陕西地质 2019(02)
    • [4].中国核心期刊(遴选)数据库收录证书[J]. 防护工程 2019(05)
    • [5].面向异地双活系统的数据库改造方法[J]. 微型电脑应用 2020(01)
    • [6].危险化学品数据库的发展现状与展望[J]. 合成材料老化与应用 2020(01)
    • [7].舰船电磁环境数据库的设计与实现[J]. 装备环境工程 2020(03)
    • [8].中国核心期刊(遴选)数据库收录证书[J]. 防护工程 2019(06)
    • [9].欧洲职业培训发展中心启动新职业教育和培训数据库[J]. 世界教育信息 2020(02)
    • [10].大数据思维下数据库教育模式改革探索[J]. 计算机产品与流通 2020(03)
    • [11].数据库的安全重要性以及带来的风险[J]. 计算机产品与流通 2020(04)
    • [12].中国核心期刊(遴选)数据库收录证书[J]. 防护工程 2020(01)
    • [13].政治学跨国比较研究中的数据库及其运用[J]. 信息系统工程 2020(04)
    • [14].关于中国数据库调查方法与资本化核算方法研究[J]. 统计研究 2020(05)
    • [15].实现灾备数据库同步[J]. 网络安全和信息化 2020(01)
    • [16].基于全局目录的集中型数据库分布式加锁仿真[J]. 计算机仿真 2020(04)
    • [17].中国核心期刊(遴选)数据库收录证书[J]. 防护工程 2020(02)
    • [18].医院围术期麻醉专科数据库的建设与思考[J]. 中国卫生信息管理杂志 2020(03)
    • [19].基于分布式的数据库分库与分表策略研究[J]. 电脑知识与技术 2020(14)
    • [20].主报警数据库在报警管理的应用探讨[J]. 当代化工研究 2020(15)
    • [21].最新版《中国评价核数据库》发布[J]. 中国核电 2020(03)
    • [22].数据库的知识产权保护范式研究[J]. 政法学刊 2020(04)
    • [23].中国核心期刊(遴选)数据库收录证书[J]. 防护工程 2020(03)
    • [24].海洋细菌基质辅助激光解吸电离飞行时间质谱鉴定数据库的建立[J]. 解放军医学院学报 2020(07)
    • [25].大数据时代临床数据库在肿瘤研究中的应用[J]. 传染病信息 2020(04)
    • [26].数据库在计算软件开发中的管理分析[J]. 电脑编程技巧与维护 2020(08)
    • [27].基于语义标注的数据库元数据质量评估方法[J]. 计算机产品与流通 2020(11)
    • [28].基于数据库视角下解读大数据的研究进展与趋势[J]. 计算机产品与流通 2020(11)
    • [29].《感染、炎症、修复》杂志检索数据库[J]. 感染、炎症、修复 2018(03)
    • [30].《感染、炎症、修复》杂志检索数据库[J]. 感染、炎症、修复 2018(04)

    标签:;  ;  ;  ;  ;  

    区间数据库的构建及其在知识发现中的应用
    下载Doc文档

    猜你喜欢