论文摘要
研究背景:经验似然是近几年兴起的一种非参数统计推断方法,由于其对模型假设条件较少,而且在许多方面有着参数似然的性质,因而在统计学的各个领域得到了广泛的应用。然而,该方法在数据分布拟合效果并不明确,而且计算过程尚有不足之处,我们在这方面进行了探讨。此外,我们研究发现对于重复测量数据的核平滑半参数模型,当固定设计矩阵维数超过2时会出现不可逆的情况,这会导致估计的不唯一,而经验似然对回归模型的误差变异的适应性提示我们可以引入经验似然估计来规避该问题。随着Bayesian方法的计算技术的不断改进,其应用日益广泛,从经验似然多方面与参数似然相似的性质促使我们将经验似然纳入Bayesian分析框架中,这方面的研究可以扩展经验似然进一步的应用。作为生物信息学一个重要研究方向——基因表达调控网络,已有众多的模型描述其过程,特别是结构方程的引入对参数的性质、结果的解释都提供了一个新的框架。然而,传统的结构方程对于误差项的限制较为严格,而且如何利用已有的生物学知识作为先验的扩展性还不够,而引入经验似然估计模型有可能解决这些问题。方法:我们的研究分三部分:①对Weibull分布的拟合,我们采用遗传算法与经验似然结合的方法,应用于不同参数和不同样本量的模拟数据,并比较最大似然和分位数估计;对于核平滑的半参数模型,我们结合岭方法与经验似然方法来估计其参数,并比较加入限制条件的最小二乘估计和经验似然估计的结果。②我们首先引入Bayesian分析的“合适似然”概念,并验证在不同条件下,经验似然能够作为Bayesian分析的“合适似然”的把握程度;接着,提出随机游走Metropolis算法计算经验似然后验分布,并考察其性质,主要对最大估计似然进行了讨论。进一步,我们采用经验似然的Bayesian分析方法研究线性回归模型参数的估计,提出了与Metropolis结合的Gibbs算法估计后验分布的参数,分别对同方差和变方差的模拟数据进行了计算。③我们利用7个时期人胎儿发育的中枢神经系统的10080个基因的芯片表达数据进行了结构方程模型的构建。首先筛选大脑皮质表达信息量最大的基因投射GO数据库,最终确定与发育功能相关的候选基因集。接着,我们采用线性回归模型的经验似然方法对参数进行估计,而模型结构的确定则采用遗传随机算法进行,并应用经验似然相关的AIC准则作为判断标准进行。此外,针对发育数据集我们先将基因表达分为平稳表达和突然表达两种模式,分别采用Lotka-Volterra方程和脉冲函数分别描述其相关基因的调控形式。结果:①对于Weibull分布的数据拟合,对于大样本模拟数据而言遗传算法+经验似然估计效果与最大似然估计相当,但与序列二次规划法的经验似然相比对初始值要求不高;而小样本估计效果两方法均不算好。关于重复测量的半参数模型,岭方法+经验似然估计可以解决估计矩阵不可逆的问题,其残差平方和比其他方法小,并且非参数项的估计优于其他方法。②经验似然函数能作为Bayesian分析的似然部分与样本量和估计参数有关系,在均数估计的情况下,样本量越大其作为“合适似然”函数的把握越大。利用这一结论,随机游走的Metropolis算法能够较好的模拟经验似然的后验分布,其模拟分布的正态性得到验证,所得到的后验分布的样本自相关性不高,并且后验分布的均值与最大经验似然估计相当。采用经验似然的Bayesian模型的线性回归模型参数的估计,对于同方差模拟数据Gibbs算法结果与最小二乘估计相当,而对于变方差模拟数据经验似然方法的表现更好些。③整理人胎儿发育的中枢神经系统基因芯片表达数据,通过GO数据库最终筛选出30个候选基因,经过500次循环的遗传算法计算,获得由9个基因组成的结构方程调控网络,其中基因ACTG1作为外源性变量对其他基因的表达起到了抑制作用。利用相同的候选基因集,我们构建了Lotka-Volterra方程调控网络,结果提示WASF1和DCX对NOS2的表达表现为抑制作用,DCX和PRKCB1对FHL1的表达有促进作用。最后,我们利用聚类方法从10080个基因中筛选出2302个可能“突然表达”基因,通过脉冲函数筛选出最有意义的四个基因:KIAA0332、PEG10、MYH11和FRAP1。结论:通过我们的研究结果,可得到如下结论:①对于大样本的参数模型经验似然拟合效果同最大似然估计相似,而利用遗传算法可以解决初始值的选择问题。而结合岭方法的经验似然方法可以能够解决估计矩阵不可逆的问题,并能作为核平滑半参数模型有效估计的方法。②在一定条件下,经验似然可作为Bayesian分析的似然部分,而随机游走的Metropolis算法可以利用这一结论求解最大经验似然估计。③结合经验似然的结构方程可以在模型中加入先验信息,并且可以放宽正态误差的限制。通过三个模型我们选择出基因(ACTG1,KIAA0332、PEG10、MYH11,FRAP1)和调控关系对(WASF1和DCX对NOS2,DCX和PRKCB1对FHL1)提示有意义,值得生物学的进一步探讨。