论文摘要
两正态与多正态分布的参数估计问题是统计中的经典问题.人们很早也就开始了对它的研究.两正态与多正态分布数据在很多领域有着广泛的应用.例如,生物学、物理学、医学、经济学等.参数估计问题是最常见的一类统计推断问题.参数估计的形式有两种:点估计和区间估计.其中点估计指的是用一个统计量去估计未知参数的方法.点估计的方法很多,最常用也是最重要的有两种.一是极大似然估计.另一个是矩估计.EM算法是不完全数据问题中很常用的一种迭代算法,并主要用于计算后验分布的众数(极大似然估计).在实际的统计应用中,为分析完全的矩阵型数据已经发展了许多标准的统计方法.传统上,在数据矩阵中,每个矩阵元的位置上均有实际数据,他们表示的大部分是连续变量的值,如年龄收入等.而很多时候某些量是无法观测的,有时候观测到的数据也会部分遗失,这时候我们就必须面对数据缺失问题.本文运用EM算法的基本思想,并对传统的EM算法进行了一定的改进.对缺失数据下两正态混合分布的参数进行了估计.本文主要内容可概括如下,第一部分:概括了两正态与多正态分布的参数估计问题的发展状况以及应用价值.介绍了数据缺失问题以及我们要做的工作.第二部分:回顾了EM算法的基本理论以及主要步骤,介绍了人们针对它的推广如ECM算法、ECME算法和AECM算法.以及这些推广所针对的问题.第三部分:运用EM算法对完整数据下两正态混合分布的参数进行了估计.然后用我们改进后的新EM算法对缺失数据下两正态混合分布的参数进行了估计.第四部分:用MATLAB编程进行数据模拟检验估计的性质.