缺失值插补论文-陈小波,陈程,陈蕾,韦中杰,蔡英凤

缺失值插补论文-陈小波,陈程,陈蕾,韦中杰,蔡英凤

导读:本文包含了缺失值插补论文开题报告文献综述及选题提纲参考文献,主要关键词:智能交通,最小二乘回归,缺失值插补,低秩矩阵补全

缺失值插补论文文献综述

陈小波,陈程,陈蕾,韦中杰,蔡英凤[1](2019)在《基于改进低秩矩阵补全的交通量数据缺失值插补方法》一文中研究指出提出了一种低秩矩阵补全的改进方法以研究道路交通量数据缺失值插补问题。应用基于核范数的低秩矩阵补全对交通量数据矩阵中的缺失值进行第1轮插补;通过层次聚类算法将交通量数据划分为不同类别,使得同类中的数据具有较强相关性,异类中的数据具有较弱的相关性;在每类样本上应用低秩矩阵补全得到缺失值的第2轮插补;为了减少聚类数的影响,提出最小二乘回归集成学习方法将不同聚类数下的插补结果进行融合,得到最终的交通量数据插补结果;用美国俄勒冈州波特兰市的交通量数据比较了5种方法的插补误差,并分析了不同聚类数和距离度量方法的影响。研究结果表明:在完全随机缺失模式下,缺失率为10%~60%时,其相对于传统的低秩矩阵补全模型的插补误差降低了5.93%~9.11%;在随机缺失和混合缺失模式下,插补误差也分别降低了8.32%~9.55%和8.14%~9.20%;集成不同聚类数下的多个插补结果比单一聚类数下的插补误差降低2.62%~4.76%。可见,在3种数据缺失模式下,改进低秩矩阵补全方法降低了交通量数据的插补误差,能有效提高插补后交通量数据的有效性。(本文来源于《交通运输工程学报》期刊2019年05期)

褚刚[2](2019)在《调查数据中缺失值的推理插补——以CGSS2013为示例》一文中研究指出推理插补是一类基于调查数据的已知信息,通过分析缺失项目与相关项目的逻辑关系,合理推断项目缺失值的插补方法。该方法无须对缺失机制、模式以及缺失值的分布做过多假设,极大地降低了插补方法的使用成本。本文以2013年中国综合社会调查数据为例,分别展示了分类变量和连续变量的插补过程,并通过模拟分析比较了不同插补方法的处理效果,希望借此引起学界对推理插补的重视,逐步将其应用到实际研究当中。(本文来源于《调研世界》期刊2019年05期)

程万伟[3](2018)在《时间序列缺失值插补方法研究》一文中研究指出随着信息时代的高速发展,大量的数据被用于机器学习和数据挖掘等热门研究领域,其中大多数算法以及相关模型都是面向完整数据集构造的,然而在实际生产生活中,数据的缺失现象大量存在于数据的收集、整理、传输、存储等各个环节,由于数据存在缺失,给数据分析和应用带来的许多不便和困难。传统的缺失值处理方法为简单的删除、均值或者零值替代等简单方式,这些处理缺失值的手段会带来两个严重的问题:1)减少了可用的数据集,尤其是在缺失率较高的情况下,会造成数据集规模大量减少。2)容易引入偏差,均值替代零值替代的方式降低了数据集方差,扭曲了数据集的分布特征。为了解决相关问题,针对单变量的时间序列数据和多变量时间序列的数据,本文依据稀疏表示的理论和灰度相关度最邻近算法设计了缺失值处理算法,并通过实验验证了本文所提算法的优越性。本文完成的主要工作包括以下几点:(1)利用稀疏表示的相关理论,提出了一种新的基于稀疏恢复的缺失值插补算法,同时对一种PM2.5时间序列数据设计了相关的验证实验,通过对不同缺失率下各个插补算法的实验效果分析,证明了本文所提算法的优越性,验证了不同参数下对缺失值插补算法的影响。(2)根据稀疏主成分分析和K-邻近算法相关理论,在对多变量数据相关分析研究的基础上,提出了一种新的基于稀疏主成分分析(SPCA,Sparse Principal Component Analysis)和灰度衡量最邻近算法(GKNN,Grey K-Nearest Neighbor)的缺失值插补算法,针对K值选择的问题,本文依据截断距离设计了自适应的K值选择算法,避免了传统的K值选择方法的局限。(3)利用本文提出的SPCA+GKNN插补算法,对两种多变量数据设计了插补实验,对比不同插补算法的插补效果,证明了本文所提相关插补算法能够很好的处理多变量的数据缺失问题,对比传统的KNN插补算法以及SVD和BPCA的插补算法在插补精度上有了一定的提升。(本文来源于《湖南大学》期刊2018-05-23)

吴桐雨,吴少雄[4](2018)在《基于核主成分分析和粒子群优化支持向量机的统计数据缺失值插补》一文中研究指出文章利用核主成分分析法对统计数据进行特征提取,将获得的主成分作为最小二乘支持向量机的特征向量建立支持向量机模型,应用粒子群算法对最小二乘支持向量机参数进行优化,并应用于福建省流通产业统计数据的缺失值插补。研究结果表明,应用核主成分分析与粒子群优化最小二乘支持向量机的方法具有较高的的精度,可以应用于统计数据缺失值的插补。(本文来源于《统计与决策》期刊2018年08期)

潘传快,祁春节,李思璇[5](2017)在《正态线形模型下缺失值的Bootstrap多重插补与比较》一文中研究指出缺失值是调查中普遍存在的问题,对缺失值进行插补是处理缺失值的较好方法。如果变量之间存在相关关系,可以通过正态线形模型利用不存在缺失值的变量对有存在缺失值的变量进行插补。较之单一插补,多重插补更能有效地估计总体方差,因此更多地被使用。文章借助Bootstrap法,让模型的参数和残差来自完全观测的Bootstrap样本的最小平法估计,可进一步准确估计总体方差。通过大量模拟试验,发现Bootstrap多重插补较之单一插补和一般多重插补能构建更宽的置信区间从而有更准确的总体参数覆盖率,这点在数据缺失比重很大时优势更明显。(本文来源于《统计与决策》期刊2017年10期)

田莹[6](2017)在《成分数据中基于LASSO的缺失值插补方法研究》一文中研究指出在实际生活众多领域中,经常会收集到大量的缺失数据;尤其是在经济等相关领域中,随着计算机技术的不断发展可获数据的维数越来越高,人们需要处理的数据都是大量的高维数据.维数的增加就会伴随着数据的缺失,那么传统的统计分析方法就不再适合.于是,如何在数据缺失且维数较高的情况下,进行更为有效地统计推断也引起了 多统计学者的关注.成分数据主要用来研究的是构成某个整体的各部分之间的比重,一般解决成分数据的方法是将单形空间上的成分数据转换为欧氏空间上的普通数据,再进一步对普通数据进行统计分析.当成分数据在变换过程中,由于一些主客观等原因会导致成分数据中含有大量的缺失值.如何对成分数据中的缺失数据进行插补,得到完整的数据集是成分数据统计分析研究的首要任务.本文引入一个新的插补方法来处理高维成分数据,并对新的方法进行模拟和实证分析,再与MEAN插补法、knn插补法、ILSR插补法和ILTSR插补法进行比较研究.本文主要研究的是如何处理缺失数据并进行变量选择,包括以下几个工作:(1)了解数据缺失机制和缺失模式;(2)研究处理缺失数据的常用插补方法;(3)提出基于LASSO方法的缺失数据的处理方法;(4)通过模拟研究和实例分析对各种方法的插补效果进行比较分析,分析各方法的优劣和适用范围;(5)归纳总结缺失数据的插补效果的优劣.(本文来源于《山西大学》期刊2017-06-01)

廖祥超[7](2017)在《九种常用缺失值插补方法的比较》一文中研究指出数据集中缺失值的存在是一个常见但难于处理的问题,它会增大统计分析的复杂性和难度,导致分析结果的偏倚,降低统计工作的效率。虽然事前预防是避免缺失值最简单有效的方法,但是由于种种常规原因和现实条件,事前预防并不能完善地解决问题。因此,对缺失值的事后处理显得尤为重要,也越来越受到研究者们的高度重视。常见的缺失值的处理方法主要有直接删除法和数据插补法两种,鉴于直接删除法会导致数据信息的再次损失,所以本文主要从数据插补方面入手,先对统计学中常用的九种缺失值的插补方法——均值插补、随机插补、回归插补、多重插补、k最近邻插补、决策树插补、支持向量机插补和神经网络插补等方法的插补原理作了介绍;接着按数据量从小到大的顺序选取3个数据集salary、iris和Airfoil,以10%的样本量缺失率,在R中按单个变量随机缺失和多个变量随机缺失两种模式生成相应的缺失数据集(这里随机缺失的含义是将其中随机抽取的10%的数据替换为缺失值),然后用上述九种插补方法对两种缺失模式的数据集进行插补。为评价和比较各种插补方法的插补效果,本文从两方面进行比较:(1)从数据插补误差的角度,把单个变量缺失模式下的3个数据集的九种插补方法生成的诸插补值与对应的数据真值(随机缺失前)进行比较,计算对应的平均绝对误差(MAE)和均方误差(MSE),按这两个指标的大小评价比较这九种插补方法的优劣。(2)从模型的角度,用缺失前的完整数据集和先缺失再插补后的诸数据集各自建立多元线性回归模型,估计相应的回归系数(向量),计算出相应的判定系数,再进行比较和评价。最后指出了各插补方法的特点和异同,对本文的研究结果进行归纳总结,并说明有待改进之处和可以进一步研究的内容。(本文来源于《云南师范大学》期刊2017-05-25)

潘传快,熊巍,祁春节[8](2017)在《正态线形模型下缺失值的贝叶斯多重插补——基于柑橘数据的分析》一文中研究指出缺失值是调查中普遍存在的问题,利用变量之间的相关关系,可以通过正态线形模型利用不存在缺失值的变量对存在缺失值的变量进行插补。较之单一插补,多重插补更能有效地估计总体方差,因此更多地被使用;特别是采用贝叶斯多重插补,其模型的差数和残差估计均来自相应后验分布的随机抽取,这样对总体方差的估计更为精确。通过大量模拟试验,发现贝叶斯多重插补较之单一插补和一般多重插补能构建更宽的置信区间从而有更准确的总体参数覆盖率,这点在数据缺失比重很大时优势更明显。(本文来源于《华中农业大学学报(社会科学版)》期刊2017年01期)

张晓琴,王敏[9](2016)在《基于主成分分析的成分数据缺失值插补法》一文中研究指出本文针对成分数据的特殊几何结构,提出了两种新方法对成分数据缺失值进行插补.一种是用单形空间的均值进行插补,主要是用Aitchison足巨离找到含缺失值样本的k个近邻样本,再结合单形空间中的加法运算与数乘运算,用单形空间上的均值对成分数据的缺失值进行插补;另一种是用主成分回归方法进行插补,先将用第一种方法进行初始插补的成分数据经过等距对数比变换变成普通数据,再用主成分回归进行第二次插补.实例分析和实验模拟结果表明:与k近邻插补法、迭代的最小二乘插补法相比较,本文提出的主成分插补法更优.(本文来源于《应用概率统计》期刊2016年01期)

徐青,王超,周璐,刘菲菲[10](2015)在《用插补分析解决营利性服务业缺失值》一文中研究指出当前世界正在经历一场伟大的“数据革命”,迎来快速发展、充满变革的“大数据”时代,数据已成为国家发展的重要战略资源。作为数据重要生产者和使用者的政府统计,也面临着大数据时代的挑战和机遇。在鼓励“双创”的大环境下,日常监测发展活跃、变化快、创新度强的行业,如(本文来源于《中国信息报》期刊2015-11-30)

缺失值插补论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

推理插补是一类基于调查数据的已知信息,通过分析缺失项目与相关项目的逻辑关系,合理推断项目缺失值的插补方法。该方法无须对缺失机制、模式以及缺失值的分布做过多假设,极大地降低了插补方法的使用成本。本文以2013年中国综合社会调查数据为例,分别展示了分类变量和连续变量的插补过程,并通过模拟分析比较了不同插补方法的处理效果,希望借此引起学界对推理插补的重视,逐步将其应用到实际研究当中。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

缺失值插补论文参考文献

[1].陈小波,陈程,陈蕾,韦中杰,蔡英凤.基于改进低秩矩阵补全的交通量数据缺失值插补方法[J].交通运输工程学报.2019

[2].褚刚.调查数据中缺失值的推理插补——以CGSS2013为示例[J].调研世界.2019

[3].程万伟.时间序列缺失值插补方法研究[D].湖南大学.2018

[4].吴桐雨,吴少雄.基于核主成分分析和粒子群优化支持向量机的统计数据缺失值插补[J].统计与决策.2018

[5].潘传快,祁春节,李思璇.正态线形模型下缺失值的Bootstrap多重插补与比较[J].统计与决策.2017

[6].田莹.成分数据中基于LASSO的缺失值插补方法研究[D].山西大学.2017

[7].廖祥超.九种常用缺失值插补方法的比较[D].云南师范大学.2017

[8].潘传快,熊巍,祁春节.正态线形模型下缺失值的贝叶斯多重插补——基于柑橘数据的分析[J].华中农业大学学报(社会科学版).2017

[9].张晓琴,王敏.基于主成分分析的成分数据缺失值插补法[J].应用概率统计.2016

[10].徐青,王超,周璐,刘菲菲.用插补分析解决营利性服务业缺失值[N].中国信息报.2015

标签:;  ;  ;  ;  

缺失值插补论文-陈小波,陈程,陈蕾,韦中杰,蔡英凤
下载Doc文档

猜你喜欢