论文摘要
数据挖掘是一个热门的新兴领域,在经历了近10几年的高速发展之后,现已开发出了很多成熟的算法用于有效的处理海量数据,并且这些算法和技术在数据挖掘领域都有良好的表现。但是由于应用催生的数据挖掘技术绝大部分处理的都是现实生活中的问题,而对于算法需要使用的数据而言,现实生活中产生和搜集的数据通常都是充满各种各样的噪声、不一致和缺失等情况。因此数据预处理技术在数据挖掘过程中占有越来越重要地位。通常面临的各种现实数据的问题中,数据缺失是最常见的。在已经开发出的大部分经典算法中,处理带有缺失的数据是非常困难的。因为数据缺失产生的原因比较复杂,不同的应用中数据生成的过程迥异,所以算法开发和设计的时候通常假设数据是按照理想状态收集的。但是使用含有缺失的数据进行挖掘,会对挖掘过程和结果都产生严重的影响,甚至导致得出错误的模型和结论。因此数据挖掘算法和实际可用的数据之间存在一条巨大的鸿沟。针对数据缺失的预防、避免和处理等问题,国内外已经有很多学者进行了相关的研究,这些相关的研究吸收了统计、机器学习、概率等学科的成果,他们在缺失值填充领域开发出来的很多算法被实验和工业应用证明是非常成功的。在通常意义下,即使填充效果一般的填充算法,对挖掘算法的执行和挖掘效果的提高的作用都是明显的。本文主要是对应用最为广泛、可扩展性和适应性最好的算法之一——KNN算法的分析和改进。KNN算法是NN算法的推广形式。NN算法(最近邻算法)最早由Cover和Hart在1967年提出,最早用于分类的研究。其基本思想是使用距离待分类的事例最近的类标签来分类未知事例。由于该算法易于理解和编程,并且适用范围广泛,在提出之后被广泛用于分类、聚类、信息检索和查询、缺失值填充等领域,其中KNN算法就是NN算法在缺失值填充方面的改进版本。KNN算法使用缺失点附近的数据点对缺失值进行估计并进行填充。传统的KNN算法有很多的不足,例如计算量比较大等。已经有很多针对KNN的改进算法,这些算法通常专注于距离度量、距离计算、填充值的计算和计算结果存贮索引等方面的改进。在目前所参阅过的文献中,所有的补值算法均是使用某一特定算法或者使用某几种算法依次对整个数据集进行填充,而本文提出的缺失点分类思想指出,即使对于同一个数据集来说,不同的缺失点其适合的补值方法也是不同的,算法特别是基于密度和近邻等的局部算法,应该考虑对待填充的点进行分类,分别使用合适的方法进行填充,而不是简单的使用一种算法一视同仁的处理所有的数据。本文主要的工作是在分类填充的框架下,提出K-1NN算法和进一步的基于几何中心的CNN算法,并结合部分填充策略,提出两类不适合进行填充的缺失点,并将这两类点分离出来,在此基础上提出两个部分填充算法:PKNN和PCNN,通过实验证实分类填充思想和部分填充策略能够有效的提高KNN算法的填充准确率。
论文目录
相关论文文献
- [1].基于漫水填充算法的肺实质分割方法[J]. 电脑知识与技术 2016(18)
- [2].浅析区域填充算法[J]. 计算机光盘软件与应用 2014(09)
- [3].基于线的圆内区域快速填充算法[J]. 玉溪师范学院学报 2013(04)
- [4].新的种子点区域填充算法[J]. 计算机工程与应用 2009(06)
- [5].基于拓扑的填充算法的实现[J]. 煤炭技术 2010(09)
- [6].材料二维微结构仿真随机概率圆优化填充算法[J]. 图学学报 2015(06)
- [7].双游程编码的无关位填充算法[J]. 电子学报 2009(01)
- [8].六角网格系统下的多边形填充算法[J]. 计算机工程 2009(15)
- [9].基于最优邻域的区域填充算法[J]. 中国体视学与图像分析 2013(02)
- [10].熔丝沉积成形的混合路径填充算法及其G代码实现[J]. 锻压技术 2011(03)
- [11].基于深度学习的不完整大数据填充算法[J]. 微电子学与计算机 2014(12)
- [12].极大树及其区域填充算法[J]. 小型微型计算机系统 2012(03)
- [13].复合式路径填充算法的熔融沉积制造[J]. 现代制造工程 2010(08)
- [14].扫描线种子区域填充算法的研究与实现[J]. 信息记录材料 2018(10)
- [15].基于等值线分类的区域填充算法[J]. 气象科技 2009(05)
- [16].浅析《计算机图形学》中扫描线填充算法的讲授方法[J]. 现代计算机(专业版) 2008(07)
- [17].连续碳纤维3D打印的高效螺旋偏置填充算法[J]. 武汉理工大学学报 2017(12)
- [18].基于属性重要性的不完备数据填充算法[J]. 微电子学与计算机 2013(07)
- [19].区域填充算法在多重嵌套多边形图形中的应用[J]. 图学学报 2018(02)
- [20].并行区域填充算法研究[J]. 现代计算机(专业版) 2014(34)
- [21].基于距离最大化和缺失数据聚类的填充算法[J]. 电子设计工程 2018(01)
- [22].基于动态窗口的灰色加权填充算法及应用[J]. 指挥控制与仿真 2016(02)
- [23].不规则形状最佳填充算法及其实现[J]. 电脑知识与技术 2009(18)
- [24].顶点链编码图像的填充算法[J]. 计算机工程 2008(12)
- [25].缓解数据稀疏问题的协同过滤混合填充算法[J]. 模式识别与人工智能 2020(02)
- [26].基于VC++的等值线追踪与填充算法[J]. 兵工自动化 2011(04)
- [27].基于边界信息的孔洞填充算法[J]. 计算机工程与设计 2008(15)
- [28].基于顶点存储类型的多边形填充算法[J]. 电脑开发与应用 2008(10)
- [29].基于优化最大偏差相似性准则的KNN缺失数据填充算法[J]. 自动化与信息工程 2020(02)
- [30].基于局部线性重构的近邻填充算法[J]. 现代计算机(专业版) 2017(15)