多维数据异常点识别方法的研究

多维数据异常点识别方法的研究

论文摘要

统计数据质量问题一直困扰着我国统计界,是政府和社会各界关心的问题,我们需要一种能检查和审核统计数据的可靠性和准确性、识别异常数据的定量方法和工具。在数据处理的过程中偶尔会出现一些异常的,不合逻辑的统计结果,这种结果的出现很可能是由于所处理的数据中包含异常数据造成的。但目前测量学中所提供的异常数据识别方法,都只针对一维数据,即只针对单一测量指标进行数据检查。然而,在统计实践中我们经常会感到仅仅使用单指标进行数据检查不能有效发现测量数据包含的全部异常。为了探索解决此类问题的方法,提高统计数据的准确性和可靠性,本文通过文献资料法、比较分析法和探究性实验法,在对常用异常数据识别方法进行分析的基础之上,尝试寻找一种可应用于多指标情形下的异常数据的识别方法,为数据分析提供便利的辅助工具。要建立异常点的识别方法,首先应寻找一个可以表达多指标情形下点与点之间关系的、简单易用的数量指标。距离是可以满足这个要求的指标之一,利用距离可以表示点与点间关系。如果某点是样本中的异常点,它必远离样本中的其它点,即与多数点的距离较大,其平均距离也必大。反之,若某点为正常值,则它必与样本中的某些点相邻较近,距离较小,则其平均距离必不大。基于此种思想,本文尝试利用点与点之间的平均距离作为识别多维指标下样本异常值的方法。并分别采用欧氏距离、马氏距离和斜交空间距离进行尝试。利用距离建立多指标情形下的异常点识别方法,虽然只是一种尝试,在简单直观的二维数据的运用效果比较好些,但在多维空间中应用是否有较好的表现,由于缺少直观有效的判据而无法验证,值得深入研究、继续完善。对于本例,三种距离获得的结果差别不大,但从距离定义的差别分析,马氏距离应更优于欧氏距离和斜交空间距离。该方法目前尚未完善,还存在许多问题需要在今后的研究中不断完善。

论文目录

  • 摘要
  • ABSTRACT
  • 1 前言
  • 1.1 选题的意义
  • 1.1.1 问题的提出
  • 1.1.2 异常值
  • 1.1.3 研究的目的
  • 1.2 研究方法
  • 1.2.1 研究思路
  • 1.2.2 研究对象与方法
  • 1.3 论文创新点
  • 1.4 预期结果和意义
  • 2 常用的异常数据检验方法的比较与分析
  • 2.1 正态分布的异常数据检验法
  • 2.1.1 戈罗伯斯检验法
  • 2.1.2 狄克松检验法
  • 2.1.3 偏态检验法或峰态检验法
  • 2.2 指数分布的异常数据检验法
  • 2.2.1 检验异常小值的T 型统计量
  • 2.2.2 均值比检验法
  • 2.3 威布尔分布的异常数据检验法
  • 2.4 均匀分布检验法
  • 2.4.1 上下α/2 分位点检验法
  • 2.4.2 顺序统计量检验法
  • 2.5 多维统计数据对数正态分布异常点检验与识别
  • 2.6 对常用检验方法的总结
  • 3 寻找多指标情形下检查并发现异常点的方法
  • 3.1 统计数据中多指标情形下异常点的问题
  • 3.2 多指标情形下异常点识别的思路
  • 3.2.1 马氏距离
  • 3.2.2 斜交空间距离
  • 3.3 多指标情形下异常点识别方法的尝试
  • 3.3.1 利用欧氏距离
  • 3.3.2 利用马氏距离
  • 3.3.3 利用斜交空间距离
  • 3.4 小结
  • 4 结论
  • 参考文献
  • 致谢
  • 作者简介
  • 攻读学位期间的学术活动情况
  • 附录
  • 相关论文文献

    • [1].基于云计算的网络资源缺失信息识别方法[J]. 电子元器件与信息技术 2019(11)
    • [2].武汉市主城区现状用地自主识别方法探索[J]. 中国土地 2020(02)
    • [3].基于场景-部件的人体行为识别方法[J]. 测控技术 2020(02)
    • [4].基于人眼识别的人脸朝向识别方法[J]. 信息记录材料 2020(01)
    • [5].产品虚假评论文本识别方法研究述评[J]. 数据分析与知识发现 2019(09)
    • [6].网络谣言识别方法及展望[J]. 网络空间安全 2016(Z2)
    • [7].物联网智能终端设备识别方法[J]. 电信科学 2017(02)
    • [8].一种分布式人脸识别方法及性能优化[J]. 光学精密工程 2017(03)
    • [9].振动目标产生的瑞雷波的识别方法研究[J]. 沈阳理工大学学报 2017(02)
    • [10].松辽盆地二氧化碳气层录井识别方法[J]. 石化技术 2017(10)
    • [11].用于机动目标跟踪的分段机动识别方法[J]. 电波科学学报 2015(01)
    • [12].“特殊的平行四边形”易错点剖析[J]. 初中生世界 2017(15)
    • [13].基于深度学习的人脸识别方法研究进展[J]. 现代计算机 2020(01)
    • [14].基于典型相关分析特征融合的行人再识别方法[J]. 光电子·激光 2020(05)
    • [15].4G网络深度覆盖“283”识别方法研究[J]. 数字通信世界 2019(03)
    • [16].颠覆性技术识别方法研究与应用分析[J]. 军事医学 2018(01)
    • [17].一种大象流两级识别方法[J]. 电信科学 2017(03)
    • [18].多角度人脸检测与识别方法研究[J]. 电子设计工程 2017(11)
    • [19].卫星图像传输跟踪优化识别方法仿真研究[J]. 计算机仿真 2017(09)
    • [20].基于主题模型和情感分析的垃圾评论识别方法研究[J]. 计算机科学 2017(10)
    • [21].同形异义词机器辅助识别方法研究[J]. 数字图书馆论坛 2015(05)
    • [22].4G网络深度覆盖精确需求识别方法研究[J]. 电信工程技术与标准化 2015(09)
    • [23].基于深度流形表示学习的工业过程多故障识别方法[J]. 计算机与数字工程 2020(10)
    • [24].试分析基于区域生长的道路和桥梁识别方法的研究[J]. 科技创业家 2014(01)
    • [25].基于统计的人脸识别方法综述[J]. 安阳工学院学报 2012(04)
    • [26].基于情景分析的项目风险识别方法研究[J]. 理论观察 2012(05)
    • [27].基于深度学习的视频行为识别方法综述[J]. 电信科学 2019(12)
    • [28].基于深度学习的场景识别方法综述[J]. 计算机工程与应用 2020(05)
    • [29].基于特征的矢量图形符号渐进识别方法[J]. 软件导刊 2020(05)
    • [30].天然气管道泄漏的声-压耦合识别方法[J]. 应用声学 2020(03)

    标签:;  ;  ;  ;  

    多维数据异常点识别方法的研究
    下载Doc文档

    猜你喜欢