论文摘要
数据挖掘技术被广泛地应用于社会各个领域,数据挖掘的成功与否和适用性能在很大程度上取决于数据质量。在获取数据的过程中,无法避免空缺值的产生。空缺值的存在对数据质量影响很大,因此,空缺值预测是数据预处理中的重要工作,是提高数据质量的关键一步。本文首先分析和研究了具有代表性的灰色GM(1,1)预测空缺值算法和MVC预测空缺值算法。灰色GM(1,1)预测空缺值算法需要分别对各序列建立GM(1,1)模型,且不能充分利用序列之间的关联性,无法解决其间的复杂非线性关系,导致对空缺值的预测精度不高。MVC预测空缺值算法具有以关联规则所预测空缺值的精准率,但仍然有部分空缺值无法用已挖掘得到的关联规则来预测,未能够再深一层的解决空缺值的填补率及正确率的问题。本文对灰色GM(1,1)预测空缺值算法进行了改进,将灰色GM(1,1)模型和三层BP神经网络相结合,然后提出了灰色神经网络组合预测空缺值算法。灰色神经网络组合预测空缺值算法适合于小样本时序数据集,不仅考虑各序列数据之间的关系,还考虑了各序列之间的关系,省去了多个序列进行预测时对单个模型的检验,降低了运算的复杂度,提高了空缺值的预测精度,优于单一的预测模型。本文对MVC预测空缺值算法进行改进,引入了BP神经网络,然后提出了MVC-神经网路组合预测空缺值算法。MVC-神经网路组合预测空缺值算法适合于大样本数据集,充分利用了关联规则与BP神经网络的优点,考虑了填充空缺值的精准率,提高了空缺值的填补率及正确率。