论文摘要
复杂样品的定性定量分析在分析化学及工业生产中一直是具有挑战性的课题。近红外光谱技术有着样品预处理简单、分析速度快、非破坏性等优点,已经被广泛地应用到医药、石油化工、食品、农业等领域。但是近红外光谱谱峰宽且重叠严重,因此必须要借助多元校正获得某一组分的定量信息,如多元线性回归(MLR)、主成分回归(PCR)、偏最小二乘法(PLS)等。PCR的主要目的是要提取隐藏在矩阵X中的相关信息,然后用于预测变量Y的值。这种做法可以保证让我们只使用那些独立变量,噪音将被消除,从而达到改善预测模型质量的目的。但是,主成分回归仍然有一定的缺陷,当一些有用变量的相关性很小时,我们在选取主成分时就很容易把它们漏掉,使得最终的预测模型的可靠性下降,如果我们对每一个成分进行挑选,那样又太困难了。PLS可以解决这个问题。它采用对变量X和Y都进行分解的方法,从变量X和Y中同时提取成分(通常称为因子),再将因子按照它们之间的相关性从大到小排列。但是,当在X空间中有很多的变量与Y无关时,就会出现PLS模型性能不佳的状况。这种(X中的变量)与Y不相干的规律,例如基线漂移和光谱数据中的不重要区域,使PLS模型解释起来更复杂。在某些情况下,甚至会产生不必要的巨大的预测误差。针对这个缺陷毕一鸣等人提出SLT-PLS算法,使得该缺陷得以解决。但是一旦当样本分布不均匀的时候,STL-PLS不能够很好地进行预测,不能够达到理想的预测结果。为了解决这个缺陷,本文将引进集成学习的算法。自从二十世纪九十年代开始到现在,集成学习(Ensemble Learning)已经成为机器学习四大研究方向中最主要的方向。它可以有效地提高机器学习算法的泛化能力和整体性能,已经在web信息检索与过滤,数据挖掘分析等多个领域取得了成功的应用。本文提出了一个新的组合式算法,用来进行近红外光谱数量分析。该算法是由bagging和SLT-PLS相结合的,名为bagging-sltpls(BSPLS)。首先利用bagging算法中的随机取样原则,能够利用较少的样本建立模型,节省了建模时间,增加了模型的数量。在建立每个子模型的时候,使用了SLT-PLS算法,这样可以解决当在X空间中有很多的变量与Y无关时,SLT-PLS不能够很好地进行预测的问题。最后,应用平均数权重规则和带有选择性集成的交互检验权重规则把各个模型结果结合起来。权重规则能够排除贡献小的模型,留下贡献大的模型,从而解决了一旦当样本分布不均匀的时候,STL-PLS不能够很好地进行预测,不能够达到理想预测结果的问题。在本文提出的BSPLS算法的实验中,分析了两个权重分配的规则。最后通过四个公共的近红外光谱数据集的实验证明了本文提出的BSPLS算法能够提供更高级的预测,胜过传统的PLS算法,SLT-PLS和几个基于PLS的集成组合算法,包括Bagging PLS和Stacking PLS。