论文摘要
在各个领域的调查研究中,由于各种因素的影响,经常会导致缺失数据的存在。它不仅影响研究人员后续工作的有效展开,也会干扰估计精度。有关缺失数据的处理方法一直是应用统计界的一个研究热点。如何进行科学处理,以便充分利用已有资料,减少缺失数据带来的负面影响,已经成为信息社会各个科学实验领域研究的一个难点和热点话题。本文以工业过程中的缺失数据问题为背景,采用填补的方法对缺失数据问题进行处理,形成完整的数据集,然后再进行后续工作。主要研究内容为以下几个方面:(1)在深入了解工业过程数据特点的基础上,总结了工业过程中缺失数据产生的原因并对缺失数据进行分类。(2)针对缺失数据的各种类型,提出或总结了有效的缺失数据填补方法,包括单值填补和多重填补两大类。并给出了填补的原理和应用实例。实例表明在不同缺失类型下选择适当的填补方法可以得到较理想的结果。(3)以青霉素生物发酵软测量建模过程为背景,首先人为地任意构造具有一定缺失率的训练数据集,然后选择合适的填补方法对缺失数据集进行填补。最后针发酵过程中难以在线测量的菌体浓度、基质浓度、产物浓度,利用原始训练数据集、删除法所得到的数据集以及填补后的完整数据集建立预测模型,验证数据填补方法在软测量建模中的有效性。仿真结果表明,当建模数据集存在缺失数据时,对缺失数据进行填补可以大大提高软测量模型的预测精度。
论文目录
摘要Abstract第1章 绪论1.1 课题背景及意义1.2 缺失数据问题的研究现状1.2.1 国内外研究情况1.2.2 缺失数据的处理方法概述1.3 本文的研究内容第2章 工业过程中缺失数据的原因及分类2.1 缺失数据产生的原因2.2 缺失数据的分类2.2.1 根据生产过程的特性分类2.2.2 根据缺失数据的模式分类2.2.3 根据变量数据的分布特点分类2.2.4 根据缺失数据的机制分类2.3 本章小结第3章 缺失数据填补方法的选择3.1 改进的均值填补方法3.1.1 单一均值填补3.1.2 分段均值填补3.1.3 均值填补实例分析3.2 核密度估计填补3.2.1 核密度估计技术3.2.2 核密度估计填补实例分析3.3 回归填补3.3.1 线性回归填补3.3.2 非线性回归填补3.3.3 回归填补实例分析3.4 灰插值填补3.4.1 灰预测模型3.4.2 灰插值模型3.4.3 插值组合系数的选取3.4.4 灰插值实例分析3.5 多重填补3.5.1 理论基础3.5.2 填补步骤3.5.3 多重填补实例分析3.6 本章小结第4章 缺失数据的填补方法在软测量建模中的应用4.1 支持向量机及其扩展方法4.1.1 SVM算法4.1.2 LS-SVM算法4.2 基于LS-SVM的软测量建模及比较4.2.1 青霉素发酵过程简介4.2.2 辅助变量和模型参数的选取4.2.3 模型的建立及仿真结果对比4.3 本章小结第5章 总结与展望5.1 工作总结5.2 工作展望参考文献致谢
相关论文文献
标签:缺失数据论文; 单值填补论文; 多重填补论文; 软测量论文; 青霉素发酵过程论文;