论文数据缺失用什么方法估计

论文数据缺失用什么方法估计

问:数据缺失想要补齐有什么方法,用spss的替换缺失值和缺失值分析完全不会用
  1. 答:如果缺失值只占数据的5%不到,那么缺失值对数据的影响不大,各种缺失处理方式差异不大,简单点处理就好,比如均值填补,或者索性直接删除有缺失的个案,但均值填补无法利用缺失数据里面可能含有的有效信息,而删除个案有可能导致对数据的结构产生不利影响(比如绩效考核的时候不合格者没有成绩,形成缺失,这样删掉缺失就会让数据缺乏代表性,只有合格者,没有不合格者)。相较于均值填补,回归填补法要更准确一些(这只限于并非大量缺失的情况,否则回归也会产生有偏的估计
    如果确实数量较大,建议用EM算法,有不少研究者通过模拟研究表明这种填补法得到的结果最为准确,其操作是spss菜单里选择 分析——缺失值分析,会弹出下面这个对话框
    然后将需要填补缺失的数据选入右边的变量框(要注意变量类型),然后在估计方法那里选EM,然后点击EM按钮,将填补后的数据保存为新数据集就OK
问:聚类分析中有数据缺失怎么处理
  1. 答:(1)删除有遗漏值的数据。如果一个数据集只有少量的数据具有遗漏值,则忽略它们可能是合理的。但是如果给定的数据集中有很多数据具有遗漏值,则采取这种策略很难对数据进行可靠分析,并且具有遗漏值的数据中也包含一定的信息,或许这些信息对分析是至关重要的,因此忽略它们是要非常小心,要保证对分析没有影响。(2)估计遗漏值。有时,根据数据的特点能够可靠的估计遗漏值。具体就是根据邻近点的属性值对遗漏值进行估计,常常选取邻近的平均属性值代替遗漏值,有时选取数据集的平均值代替遗漏值,或者进行曲线拟合,根据拟合的结果选择合适的属性值。(3)忽略遗漏值。许多聚类算法都可以用来直接处理具有遗漏值的数据,例如计算对象间的相似性,对保护遗漏值的数据可以使用没有遗漏值的属性值来计算相似性,这种相似性只是近似的,除非整个的数据属性很少,或者遗漏值的数据很多,否则其误差影响很小。
  2. 答:楼主去图书馆查阅《华北工学院学报》2003年05期 的一篇论文吧 名字叫 带有缺失数据的聚类分析方法 希望对你有帮助
    传统的聚类分析方法需要完全数据集,但有些情况下数据是不完全的,即包含缺失数据,这给聚类分析带来了一定的困难.这里给出了一种迭代算法为缺失数据确定一个合理的替补值,构造出一个"完全"的数据集,逐步迭代进行聚类分析,并用实例详细阐述了该方法的步骤.
问:SPSS处理问卷出现系统缺失值,怎样处理
  1. 答:缺失值处理简单说就是两种处理,一种是删缺失,一种是填补缺失
    在缺失值只占总样本量中很小的比例时,各种处理方式都可以用,区别不大
    最简单的,找到那3个缺失的数据,将包含缺失的个案也就是被试都整个删掉不用。
    第二种方法是用的人比较多的,均值填补法,在spss菜单中选择:转换——替换缺失值,将含缺失的变量选入右边分析框中,默认的方法就是均值填补,OK即可
    第三种就是比均值填补高明一点的方法,在spss菜单中选择:分析——缺失值分析,将含缺失的变量选入右边分析狂,注意类别变量和定量变量之分在估计方法中,提供了四种方法,前两种是删除法,后两种是填补法,推荐的最优方法是EM,选择EM复选框后,下方的EM按钮由灰变黑,点击该按钮,选择保存完成数据复选框,然后给新的数据命名,OK之后,spss将生成一个新的数据集,数据集中的数据就是缺失值填补后的
  2. 答:缺失值处理简单说就是两种处理,一种是删缺失,一种是填补缺失
    在缺失值只占总样本量中很小的比例时,各种处理方式都可以用,区别不大
    最简单的,找到那3个缺失的数据,将包含缺失的个案也就是被试都整个删掉不用。
    第二种方法是用的人比较多的,均值填补法,在spss菜单中选择:转换——替换缺失值,将含缺失的变量选入右边分析框中,默认的方法就是均值填补,OK即可
    第三种就是比均值填补高明一点的方法,在spss菜单中选择:分析——缺失值分析,将含缺失的变量选入右边分析狂,注意类别变量和定量变量之分在估计方法中,提供了四种方法,前两种是删除法,后两种是填补法,推荐的最优方法是EM,选择EM复选框后,下方的EM按钮由灰变黑,点击该按钮,选择保存完成数据复选框,然后给新的数据命名,OK之后,spss将生成一个新的数据集,数据集中的数据就是缺失值填补后的
  3. 答:对缺失值的处理:
    (1) 剔除有缺失值的观测单位, 即删除SPSS 数据列表中缺失值所在的数据行; 在SPSS 的统计分析程序中, 打开op t ions 按钮, 便会出现缺失值的处理栏(m issing values) , 可分别选择下列选项: exclude cases analysis by analysis (剔除正在分析的变量中带缺失值的观察单位) ; exclude case list w ise (剔除所有分析变量中带缺失值的观察单位) ;
    (2) 对缺失值进行估计后补上. 主要有两种方法:一是根据文献报道等知识经验进行估计; 二是用SPSS 提供的工具进行估计. 在“transfo rm ”菜单下的“rep lace m issing values”列出了5 种替代的方法: (a) series mean: 以列的算术平均值进行替代; (b)mean of nearly po int: 以缺失值邻近点的算术平均值进行替代; (c)M edian of nearly po int: 以缺失值临近点的中位数替代; (d) linear interpo lat ion: 根据缺失值前后的2 个观察值进行线性内查法估计和替代; (e) linear t rend at po int: 用线形回归法进行估计和替代;
    (3) 将缺失值作为常数值, 如: 作为“0”.
论文数据缺失用什么方法估计
下载Doc文档

猜你喜欢