缺失值处理论文-狄天一

缺失值处理论文-狄天一

导读:本文包含了缺失值处理论文开题报告文献综述及选题提纲参考文献,主要关键词:时间序列,数据预处理,时间配准,缺失值处理

缺失值处理论文文献综述

狄天一[1](2019)在《气象领域时间序列配准与缺失值处理方法研究与应用》一文中研究指出气象数据作为提供气象服务以及气象问题研究的主要依据,其质量从根本上影响着服务与研究的效果。通过传感器采集而来的气象数据是一类时间序列数据,往往存在着不一致、缺失等问题,因此需要对其进行有效的预处理。本文针对气象领域时间序列预处理中的配准问题与缺失值处理问题进行了深入研究,并提出了基于滑动窗口的平移配准方法与基于生成式对抗网络的缺失值处理方法,主要工作如下:1)基于滑动窗口的平移配准方法通过分析现有时间配准方法存在的精度不高、同步频率为最低频率等问题,结合大数据背景下时间序列的挖掘需求,设计了一种新型的基于滑动窗口的配准模型,并提出了一种基于滑动窗口的平移配准方法。该方法采用滑动窗口与邻域就近原则,通过计算偏移时间间隔,将低频采样时间数据向高频采样时间序列平移,配准拟合度可达96.7%,有效提高了配准精度,达到时间序列的配准目标。2)基于生成式对抗网络的缺失值处理方法针对当前缺失值处理方法中忽视时间序列在时间维度特点以及构建填补模型需要完整训练数据等问题,提出了一种基于生成式对抗网络的时间序列缺失值处理方法GAN-TSI。该方法采用时间序列模型BiLSTM作为填补模型中生成器与鉴别器的主要结构,并结合提出的自适应学习策略模拟原始数据分布,进而生成缺失值,缺失值填补的均方误差最低为0.771,能够有效达到填补目的。3)气象领域示范性应用通过部署的6台自主研发的空气质量与气象要素一体化监测设备,实地采集了若干数据,并将本文提出的两个预处理方法在该数据集上进行了实际的应用。通过所提出的方法进行预处理后的数据,能够有效地提高雾霾浓度预测的准确度,表明提出的基于滑动窗口配准方法与基于生成式对抗网络的缺失值处理方法具有较为重要的实际应用价值。(本文来源于《长春工业大学》期刊2019-06-01)

李琳,杨红梅,杨日东,胡珊,张学良[2](2018)在《基于临床数据集的缺失值处理方法比较》一文中研究指出目的:对于数据缺失的处理方法是基于数据集研究的重要组成部分,缺失数据不仅会增大统计分析的复杂性和难度,还会导致分析结果的偏倚。因此,需要提供有效的方法降低缺失数据对整体的影响。方法:基于医学临床数据集,针对不同数据类型,比较了KNN插补、随机森林插补、决策树插补、多重插补4种不同的插补方法在不同的缺失率下的插补效果,并采用均方根误差和错误率评价插补效果。结果:KNN插补和决策树插补对缺失率有较高要求,当缺失率≥50%时这两种方法不适用;多重插补和随机森林插补对不同的缺失率情况下的插补效果变化不明显。结论:各插补方法对不同缺失率和不同的数据类型的插补效果不同。在以上四种方法中,随机森林插补在本研究中表现出较好的插补效果。(本文来源于《中国数字医学》期刊2018年04期)

潘传快[3](2017)在《农业经济调查数据的缺失值处理:模型、方法及应用》一文中研究指出中国是农业大国,虽然农业产值占GDP的比重不到10%,但农业就业人口仍占到了总就业人口的28.3%,农业仍旧是国民经济和社会发展的基础。在科学研究中,农业经济以及农业管理的研究仍是必要和重要的,而这些农业经济管理研究很多都需要开展农业经济调查以获取数据,然后在数据分析的基础上得到结论。跟任何调查一样,农业经济调查会遇到一个几乎无可避免的问题:缺失值,农户的无回答或者调查人员的疏忽都会让农业经济调查数据产生缺失值。但跟其它调查,如市场调查、民意调查不同的是,农业经济调查有很强的特殊性,比如农业经济调查仍使用古老的人员访问方法、调查问卷中存在大量的开放性问题、能获得较多辅助信息、随机性不高但农户调查配合度较高等等。结合农业经济调查的特点和数据缺失的原因,提出本研究特定的假设条件:调查数据来自一个正态总体;调查数据是随机获得的;变量类型以数量变量为主;数据的缺失模式是单一缺失和一般缺失;数据的缺失机制是完全随机缺失(MCAR)和随机缺失(MAR)。基于这些基本假设,本研究提出了农业经济调查数据的缺失值处理构建一套较系统的模型和方法。这套模型其实是一个完整的逻辑体系,但为了叙述方便分成叁部分:删除模型、单一插补模型和多重插补模型,每一个模型又包括很多具体的方法。本研究的基本逻辑是,根据假设和条件提出一个模型,在这个模型中提出基本方法,利用理论分析和模拟分析其缺陷,然后改进提出新的方法;如果假设和条件改变,又使用新的模型,为新的模型寻求方法并分析改进。删除是缺失值处理的最基础模型。大部分农业经济调查人员都采取该模型将缺失值当作无效数据删除,大部分的数据分析软件也默认删除缺失值。删除一般是指成列删除,也就是删除所有含缺失值的个案,留下完整数据。当数据的缺失比重很低时,删除缺失值倒也无所谓,但是当数据缺失比重较大或者变量很多时,就会导致大量个案被删除。本文用不同的缺失比例模拟随机产生农业经济调查缺失数据,分析发现当变量很少时,缺失比重略高一点删除比例也不会太高,但当变量稍微多一点,哪怕很小的缺失比重都致使大量的数据被删除。一个可供替代的删除方法是,如果我们不需要完整数据,只要使用可用的个案计算参数估计,这样就可以尽量减少数据删除,这就是成对删除。但成对删除会让估计量来自不同大小的样本,造成很多参数估计麻烦。此外本文的模拟分析发现,其实成对删除在对缺失农业经济调查的相关关系估计上并没有显着超过成列删除。当数据不是完全随机缺失(MCAR)时,无论是成列删除还是成对删除都会产生有偏的估计。可以利用辅助信息将目标缺失变量分层,根据各层的完整观测数据计算各层均值,然后再将各层均值以缺失概率作权数加权平均,这样就可以一定程度上弥补成列删除估计的有偏性,这就是加权调整的方法。本文通过模拟生成随机缺失(MAR)下的目标缺失变量和与之正相关的辅助变量,然后加权调整方法的获得的均值估计非常接近真值,而成列删除的均值估计明显偏小。用删除方法删掉的数据信息也许是有用的,再者对农业经济调查数据因为缺失值的存在而粗暴地删除,从心理上也是难以接受的,对数据的缺失值进行插补也许是一种更好的模型。插补分为单一插补和多重插补,前者指为缺失值提供单一插补值,后者是指对每一个缺失值,其插补值不止一个。插补的基本思想是根据数据的后验分布,用数据的观测部分为缺失部分提供合理的填补值。简单均值插补是将目标缺失变量的观测部分的均值作为缺失值的插补,是最先能想到的单一插补方法。但简单均值插补的插补值完全集中于数据的中心位置,通过理论分析容易发现其显着低估了总体方差。一个解决方法是在其基础上加上随机误差项,这就是随机均值插补。进一步本文还做了一个模拟研究,那就是模拟产生变量正相关的农业经济调查缺失数据进行均值插补,最后发现其相关系数矩阵和协方差矩阵中的值明显小于真实相关系数矩阵和协方差矩阵的值。但无论是简单均值插补还是随机均值插补在数据非完全随机(MCAR)的情况下,估计都是有偏的。分层均值插补可以修正这个问题,分层均值插补是指将目标缺失变量按照辅助信息分层,然后再各层中进行均值插补,这样其估计是无偏的。分层均值插补虽然解决了一般均值插补的估计有偏问题,但插补值仍过于集中,回归插补可以解决这个问题。简单回归插补是指根据农业经济调查缺失数据的后验分布,利用数据的观测部分产生缺失部分的回归预测值,通过理论分析发现其对总体方差的估计仍偏小,可以加上随机残差项,这就是随机回归插补。将回归插补和均值插补对比模拟研究显示,回归插补是一个比均值插补更好的方法,尤其是随机回归插补有很好的插补效果,而简单均值插补是最不被推荐的。如果农业经济调查缺失数据没有明显的后验分布,热平台插补方法会是更好的选择。热平台方法直接从数据的完整部分产生缺失部分的插补值,其插补值一般比较稳健,不用担心像回归插补一样产生异常的插补值。一个简单的热平台插补是从完整观测数据中简单随机抽样产生插补值,这就是简单随机插补。如果数据是随机缺失(MAR)的一个更好的方法是利用辅助信息将目标缺失变量分层,然后在各层的完整观测数据中随机产生该层的插补值,这就是分层随机插补。热平台插补还有一个很有效率的方法,就是利用辅助变量,找到缺失值最接近的观测值作为自己的插补值,这就是最近距离方法。本文的一个针对热平台插补和均值插补、回归插补进行对比的模拟分析发现,在完全随机缺失(MCAR)下,基于热平台的随机插补效果显着好于均值插补,但可能比回归插补略差。根据单一插补后的数据进行估计检验时,其标准误差常常是被低估的,多重插补是解决这个问题的最有效的模型。多重插补的基本思想是,对同一缺失值产生多个插补值,这样就产生多个“完整”数据,然后对每一个“完整”数据估计检验,最后将其汇总成一个总的估计检验结果。基于单一缺失的一元正态模型仍然利用回归插补产生插补值,但其从两个角度让缺失值的不同插补值差异加大,一是跟回归插补一样在插补值中加入残差项,二是让每一次插补的回归模型参数随机产生。回归模型参数的随机产生方法有两个,一是根据回归模型参数的后验分布随机产生模型参数,这就是贝叶斯方法;二是用数据的Bootstrap样本来产生模型参数,这就是Bootstrap方法。本文首先研究分析了这两个方法的假设和理论,然后为了比较这两个方法的应用效果,在完全随机缺失的假设下模拟产生缺失数据,然后分别用贝叶斯法和Bootstrap法进行插补,并跟单一插补进行比较,结果发现无论是贝叶斯法还是Bootstrap方法,都有很好的估计检验效果,其估计的准确性显着超过单一插补。多元正态模型是基于一般缺失模式的农业经济调查缺失数据的插补。多元正态模型,由于其缺失模式的复杂性,为缺失值的插补提出了更大的挑战。本文研究了其中最为广泛应用的联合分布方法以及条件分布方法的假设和理论。更进一步本文模拟了一个多变量随机缺失的农业经济调查数据,然后运用这两个方法进行插补,结果显示两者都有很好的估计检验效果,而且两者之间差异并不大,都是很好的方法。在理论和模拟分析的基础上,本文对一个实际农业经济调查缺失数据进行了应用分析并取得较好的效果。通过实际应用分析可以得到一个基本的结论,那就是如果数据基本符合缺失值处理模型的假设,多重插补优于单一插补,而单一插补又优于删除;如果不符合假设,比如出现极端值,那么基于明确后验分布的缺失值插补效果会大打折扣,而此时基于热平台的插补方法会得到更稳健的结果。基于本研究,为农业经济管理研究人员在缺失值处理前和缺失值处理中两个阶段分别给出了一定的具体建议。在缺失值处理前建议:调查前通过良好的问卷设计减少缺失值产生;调查中与通过农户良好的沟通减少缺失值产生;及时处理无意义值,以免跟缺失值混淆;不要用不科学的方法消除缺失值。在缺失值处理中建议:正视缺失值问题;尽量不要删除缺失值;善于利用分类变量处理缺失值;插补缺失值前对缺失数据进行描述考察;单一插补时选择回归插补;在数据一般缺失时使用多重插补。本研究可能的创新有:(1)本文率先关注了农业经济调查数据的缺失值处理问题,并基本厘清其学理。虽然在农业经济调查中缺失值无可避免,但绝大部分农业经济管理研究人员都将其忽略,更鲜有人对其系统研究,使得该领域的研究特别是国内研究基本空白,这也是作者开启这项研究的重要原因。(2)本文专门针对中国农业经济调查的特点模拟缺失数据进行分析,具有一定创新性和开创性。本文针对中国农业经济调查数据的缺失值处理,提出了一整套具体而又可行的模型和方法体系,为了分析这些方法的可行性和使用条件,并对不同模型和方法的效果进行比较,采用了理论分析和模拟分析。而其中的很多模拟分析针对中国农业经济调查特点、缺失模式、缺失机制进行了专门的设计。(3)本文为农业经济调查数据中缺失值实际处理和应用自编了一套具体的基于R软件的程序代码,并用于实际案例应用分析,效果较好。该语言程序包括农业经济调查缺失数据的预分析、缺失值的处理和处理结果的定量分析。实际案例的处理结果显示,对于基本达到假设条件的农业经济调查缺失数据,本套语言程序能达到较好的缺失值处理效果。(本文来源于《华中农业大学》期刊2017-06-01)

康菊[4](2016)在《基于核函数的成分数据缺失值处理》一文中研究指出由于人们的科学意识不断进步,分析研究的科学精神逐渐深入人心,现代生活中常常需要面对数据的收集与处理,以便更高效地完成日常工作。在所有可能出现的数据中,成分数据是一种满足特殊性质的复杂多维数据,一般用于研究一个整体中各部分间关于指定因素下的比例关系。随着经济发展水平不断提高,各行各业越来越意识到精确数据统计带来的好处,成分数据因此也应用得越来越广泛。然而实际问题中,我们发现收集统计的数据常常会存在缺失,例如问卷中的无效或空白信息,收集中的遗漏等等都会产生缺失数据。统计质量会受到缺失数据的影响,导致估计偏差,产生不良结果。故而我们希望数据能够完整,因此对缺失数据的补全显得尤为重要。目前国内外在缺失数据的处理方面已有不少成果,本文在前人的研究基础上,尝试利用核函数的方法进行缺失值填补,研究对比不同方法的优劣。本文分为五章:第一章说明了本文的研究意义,阐述了当前的研究背景,国内外的研究现状,并对一些基本情况作了概述。第二章简要叙述了成分数据的基本概念,以及需要用到相关的相关知识,对研究过程中的大致操作进行描述,并对已有的一些方法给予介绍。第叁章是本文重点,提出了基于核函数的几种成分数据缺失值填补法,阐明了提出方法的原因、过程以及具体实现步骤。第四章通过对提出的几种基于核函数的缺失值填补方法与已有常见方法的模拟实验对比,得出实验结果,并对真实数据进行实例分析,以验证方法的可行性。最后一章进行了总结,提炼本文的研究结论,以及对今后研究的展望。(本文来源于《山西大学》期刊2016-06-01)

武瑞仙,邓子兵,谯治蛟,李晓松[5](2015)在《利用Monte Carlo技术模拟研究不同缺失值处理方法对完全随机缺失数据的处理效果》一文中研究指出目的以医疗卫生机构年报资料为数据来源,采用成组删除法、极大似然估计法、多重填补法分别对模拟的完全随机缺失数据集缺失值进行处理,比较不同缺失率下叁种方法的缺失处理效果。方法运用SAS9.3,采用Monte Carlo技术模拟完整数据集及不同缺失比例数据集,利用成组删除法、EM算法、MCMC算法对缺失数据进行处理,得到不同处理方法后的参数估计结果,与完整数据集参数估计进行比较。结果对于完全随机缺失数据,不同缺失率下,成组删除法的准确率均比较好;缺失率小于10%,叁种方法处理效果差异不大;缺失率在10%~30%,成组删除法精确度逐渐降低,EM与MCMC准确度与精确度较好,缺失率大于30%,MCMC准确度与精确度相对较好。结论对于不同缺失率的数据,综合考虑准确度和精确度,采用不同的方法进行处理。(本文来源于《中国卫生统计》期刊2015年03期)

黄耀华,唐欣然,王杨,李卫[6](2013)在《诊断试验缺失值处理方法的比较研究及应用》一文中研究指出目的探讨诊断试验中缺失值的处理方法并进行比较。方法分别介绍诊断试验常用的4种缺失值处理方法:完整数据法(complete case,CC),随机缺失法(missing at random,MAR),最差值法(worst case,WC)以及无信息结转法(non-informative imputation,NI),采用不同方法对实例数据进行填充,分别从诊断试验灵敏度、特异度、阳性预测值和阴性预测值四个方面评价缺失值的填充效果。结果无信息结转法与传统缺失值处理方法比较,相对保守且假设简单。结论当诊断试验中诊断结果存在缺失值时,无信息结转方法可以较保守地估计真实的诊断效果。(本文来源于《中国卫生统计》期刊2013年04期)

鲁纯[7](2013)在《灰色建模中数据缺失值处理方法探讨》一文中研究指出为解决在利用灰色理论建模中出现的数据缺失问题,提出利用SPSS软件的缺失值处理模块和稳健估计计算模块的合成,对数据的缺失机制进行处理。通过该方法对数据缺失的处理,保证了模型能够正常进行数据拟合。利用SPSS软件对某一实例中缺失值进行估计,并对缺失值填充后的结果进行评价,以达到客观、准确的结果。(本文来源于《测绘通报》期刊2013年07期)

鲁纯[8](2013)在《灰色建模中数据缺失值处理方法探讨》一文中研究指出为解决在利用灰色理论建模中,出现的数据缺失问题,本文提出综合利用SPSS软件的缺失值处理模块和稳健估计模块,针对数据的缺失机制进行处理的方法。使用该方法对缺失数据进行处理,以保证模型能够正常进行数据拟合。本文还利用了SPSS软件对某一实例中的缺失值进行了估计,并对缺失值填充后的结果进行了评价。(本文来源于《辽宁省交通高等专科学校学报》期刊2013年02期)

赵富强[9](2013)在《顾客满意度测评中的缺失值处理方法》一文中研究指出文章通过对缺失值处理方法分析,提出基于分类的叁种缺失值处理方法:分类的均值插补法、分类的多重插补法和分类的K-means方法;该方法先对被调查对象问卷中的满意度关键字段按照分值进行分类,然后在同类中的缺失值用该类的平均值、多重插补值和聚类中心值替代。最后,以某食品公司为研究对象,对顾客满意度测评模型进行带缺失值的实证分析。结果表明:基于分类的叁种缺失值处理方法优于均值插补法、多重插补法和K-means方法,为顾客满意度指数测评中的缺失值处理提供了实用方法。(本文来源于《统计与决策》期刊2013年06期)

陈郁馨,程序,赵鹏,孟必平,李红燕[10](2012)在《云环境中一种面向海量稀疏数据存储的缺失值处理方法》一文中研究指出如何处理缺失值一直是数据库领域中一个值得关注的问题,缺失值问题的研究对于提高运算效率和保证系统健壮性具有重要意义.云环境中海量数据的稀疏性使缺失值问题变的更加突出,现有的处理方法要么语义表达能力有限,要么未考虑到云环境对其的影响.针对这些问题,提出了一种面向海量稀疏数据存储的缺失值处理方法:首先结合现实的云环境应用,把缺失值归纳为未知值和不存在值两类;其次基于该语义定义了算术运算及比较运算;然后利用规约的方法降低四值逻辑的复杂性,以定义其逻辑运算.最后在真实的大规模稀疏数据集上进行了多组实验,证明了所提出的缺失值语义具有较好的语义表达能力和存储性能.(本文来源于《第29届中国数据库学术会议论文集(B辑)(NDBC2012)》期刊2012-10-12)

缺失值处理论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

目的:对于数据缺失的处理方法是基于数据集研究的重要组成部分,缺失数据不仅会增大统计分析的复杂性和难度,还会导致分析结果的偏倚。因此,需要提供有效的方法降低缺失数据对整体的影响。方法:基于医学临床数据集,针对不同数据类型,比较了KNN插补、随机森林插补、决策树插补、多重插补4种不同的插补方法在不同的缺失率下的插补效果,并采用均方根误差和错误率评价插补效果。结果:KNN插补和决策树插补对缺失率有较高要求,当缺失率≥50%时这两种方法不适用;多重插补和随机森林插补对不同的缺失率情况下的插补效果变化不明显。结论:各插补方法对不同缺失率和不同的数据类型的插补效果不同。在以上四种方法中,随机森林插补在本研究中表现出较好的插补效果。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

缺失值处理论文参考文献

[1].狄天一.气象领域时间序列配准与缺失值处理方法研究与应用[D].长春工业大学.2019

[2].李琳,杨红梅,杨日东,胡珊,张学良.基于临床数据集的缺失值处理方法比较[J].中国数字医学.2018

[3].潘传快.农业经济调查数据的缺失值处理:模型、方法及应用[D].华中农业大学.2017

[4].康菊.基于核函数的成分数据缺失值处理[D].山西大学.2016

[5].武瑞仙,邓子兵,谯治蛟,李晓松.利用MonteCarlo技术模拟研究不同缺失值处理方法对完全随机缺失数据的处理效果[J].中国卫生统计.2015

[6].黄耀华,唐欣然,王杨,李卫.诊断试验缺失值处理方法的比较研究及应用[J].中国卫生统计.2013

[7].鲁纯.灰色建模中数据缺失值处理方法探讨[J].测绘通报.2013

[8].鲁纯.灰色建模中数据缺失值处理方法探讨[J].辽宁省交通高等专科学校学报.2013

[9].赵富强.顾客满意度测评中的缺失值处理方法[J].统计与决策.2013

[10].陈郁馨,程序,赵鹏,孟必平,李红燕.云环境中一种面向海量稀疏数据存储的缺失值处理方法[C].第29届中国数据库学术会议论文集(B辑)(NDBC2012).2012

标签:;  ;  ;  ;  

缺失值处理论文-狄天一
下载Doc文档

猜你喜欢