不确定数据上的关联分类器

不确定数据上的关联分类器

论文摘要

关联分类器具有易于被人类所理解,在很多分类问题上的性能优于决策树分类器等诸多优点。现有的关联分类器只能解决确定数据的分类问题,然而在很多现实应用中不确定数据普遍存在,例如传感器网络,基于位置的服务,市场分析,医疗诊断等场景。不确定性数据产生的原因比较复杂,包括不精确的测量,网络延迟,数据源过时,决策错误等诸多因素。目前,研究界鲜见有关于不确定数据上的关联规则挖掘和关联分类的相关研究工作的报道。针对此研究现状,本研究提出一个新的关联分类算法来挖掘不确定数据上的关联规则以解决不确定数据上的关联分类问题。本论文的主要研究内容如下:(1)提出了不确定数据上的关联分类的相关概念及关联规则的评估指标。本研究将不确定数据管理领域研究者提出的可能世界模型应用到不确定数据的关联规则挖掘中,基于Chui等人对期望支持度的定义,首先给出了不确定数据上的关联规则的期望支持度和置信度的定义;针对不确定数据的特点,本研究提出了关联规则所覆盖不确定样本的权重的概念,并给出了不确定数据上的多规则分类算法。在构造分类器算法中,该规则覆盖样本权重的定义能保证训练集中的每个不确定样本能被至少一条规则所匹配;同时,在不确定数据的多关联规则分类中,该定义能保证uCBA算法找到多条匹配的关联规则,从而综合多条匹配样本的关联规则来预测样本的类别,提高分类的性能。另外,该定义可以进一步控制用于预测未知不确定样本类别的关联规则的数目的上限,以防止那些匹配但预测或分类能力较弱的规则影响分类效果。(2)本研究还扩展C4.5算法中给出悲观错误估计(PER)的定义,得到不确定数据上的悲观错误估计。实验表明,本研究扩展的PER定义能有效地裁剪掉在训练集上预测能力弱或不显著的关联规则,从而大大减少关联规则的数目,提高了uCBA分类器的构造效率和分类的性能。(3)基于U-Apriori算法和CBA算法,本研究提出了不确定数据上的一个关联分类器,uCBA,以解决不确定数据上的关联分类问题;提出的uCBA分类器也能处理确定数据上的分类与预测问题。针对不确定数据的特点,本研究提出综合多条关联规则来预测未知不确定样本的类别,得到uCBA-Multi算法。在UCI机器学习库的20个数据集上的大量实验表明,提出的uCBA算法具有较好的分类性能,并在数据集的不确定程度较高时仍能取得令人满意的分类准确率;同时,与uCBA-Single算法相比,uCBA-Multi算法能显著地提高分类性能,并且uCBA-Multi算法对于数据的不确定性具有较好的鲁棒性。本研究提出的关于不确定数据上的关联分类的一些基本概念和定义,例如,关联规则的期望支持度和置信度的定义,规则覆盖不确定样本权重的定义,不确定数据上的关联规则的剪枝策略,多规则分类策略等,对其他研究者的相关研究具有一定的理论参考价值。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究目的与意义
  • 1.2 不确定数据挖掘的研究现状
  • 1.2.1 不确定数据上的分类分析
  • 1.2.2 不确定数据上的聚类分析
  • 1.2.3 不确定数据上的孤立点检测
  • 1.2.4 不确定数据上的频繁模式挖掘
  • 1.3 研究的主要内容及方法
  • 1.3.1 研究主要内容及目标
  • 1.3.2 研究方法
  • 1.4 论文的组织结构
  • 第二章 分类分析及相关概述
  • 2.1 不确定数据概述
  • 2.2 可能世界模型
  • 2.3 相关工作
  • 2.3.1 基于决策树的分类
  • 2.3.2 基于关联规则的分类
  • 2.3.3 不确定数据上的分类
  • 2.4 本章小结
  • 第三章 不确定数据上的关联分类
  • 3.1 基本概念及相关定义
  • 3.2 不确定数据上的关联分类器
  • 3.2.1 规则构造算法
  • 3.2.2 构建分类器
  • 3.2.3 多规则分类算法
  • 3.3 不确定数据上的关联规则挖掘举例
  • 3.4 本章小结
  • 第四章 实验结果与分析
  • 4.1 不确定数据的获取
  • 4.2 uCBA 算法在不确定数据上的性能表现
  • 4.3 coverThreshold 参数分析
  • 4.4 uCBA 分类器的时空分析
  • 4.5 本章小结
  • 第五章 结论与展望
  • 5.1 结论
  • 5.2 展望
  • 参考文献
  • 致谢
  • 作者简介
  • 相关论文文献

    • [1].论关联企业的法律识别[J]. 晋阳学刊 2020(01)
    • [2].无题[J]. 书城 2020(04)
    • [3].正式与非正式政治关联对企业的差异化影响[J]. 中国商论 2019(06)
    • [4].政治关联对企业的影响研究综述[J]. 中国经贸导刊(中) 2019(09)
    • [5].独立学院大学生贫困程度与就业竞争力的关联度研究[J]. 智库时代 2018(29)
    • [6].银行关联如何缓解融资约束:直接机制还是间接机制[J]. 当代财经 2017(05)
    • [7].数据挖掘的关联分析及在道路交通事故中的应用[J]. 信息与电脑(理论版) 2017(10)
    • [8].从“人”与“神”的关联看文化的意义[J]. 教育文化论坛 2017(05)
    • [9].企业形成机理与政治关联的关系[J]. 商 2016(24)
    • [10].会计处理背景下关联交易非关联化问题的治理[J]. 经济视角(上旬刊) 2015(06)
    • [11].关联性·横与竖[J]. 美术界 2019(10)
    • [12].浅论单句中的关联词语[J]. 中国校外教育(理论) 2008(S1)
    • [13].从关联理论看话语冲突——以恋人间话语冲突为例[J]. 江苏外语教学研究 2017(04)
    • [14].关联性·黑与白[J]. 美术界 2018(08)
    • [15].零售药店关联销售的利与弊[J]. 现代养生 2014(12)
    • [16].“涉及到”的说法对吗?[J]. 中华活页文选(高一年级) 2012(09)
    • [17].找找有关联的东西[J]. 启蒙(0-3岁) 2010(08)
    • [18].连连看[J]. 启蒙(0-3岁) 2008(02)
    • [19].价格关联协议的基本类型及其竞争法控制初探[J]. 西部法学评论 2019(06)
    • [20].基于制衡股东角度规范关联交易的思考[J]. 会计师 2019(24)
    • [21].关联企业授信贷前尽职调查探析[J]. 中国商论 2020(07)
    • [22].政治关联会影响券商的经济后果吗?[J]. 投资研究 2019(11)
    • [23].政治关联、制度环境与企业绩效关系研究[J]. 市场研究 2020(04)
    • [24].基于关联规则的数据挖掘的研究与应用[J]. 粘接 2020(05)
    • [25].标准相对关联度的定义及基础算法[J]. 标准科学 2020(07)
    • [26].金融控股公司关联交易监管方略谈[J]. 经济师 2020(09)
    • [27].“民族—宗教—政治”负面关联性的内在逻辑剖析——基于反对“三股势力”的视角[J]. 中南民族大学学报(人文社会科学版) 2019(01)
    • [28].中国现当代文学研究中的“强行关联法”指谬[J]. 文艺研究 2018(04)
    • [29].关联理论及其在翻译当中的应用[J]. 海外英语 2018(07)
    • [30].反腐败影响了企业捐赠吗?——基于政治关联视角的微观解释[J]. 中央财经大学学报 2017(01)

    标签:;  ;  ;  ;  ;  

    不确定数据上的关联分类器
    下载Doc文档

    猜你喜欢