基于HSK数据对核等值法与其他等值方法的比较研究

基于HSK数据对核等值法与其他等值方法的比较研究

论文摘要

对测验的试卷进行等值具有重要的意义。等值处理可以提高测验分数报告和解释的精确性,保证评价标准的稳定性,从而保证测验的质量。核等值法(the kernel method of test equating,KE)是一种新的等值方法。核等值法将基于经典测验理论(Classic Testing Theory,CTT)的线性等值法和等百分位等值方法纳入到统一的框架之中。核等值法通过转换给定考生总体在X卷上的观察分分布,得到Y卷上的观察分分布,因此其本质是观察分等值。一般说来,核等值法有五个步骤,分别是前平滑处理、估计分数概率、连续化、等值、计算等值标准误。核等值法已经在美国教育测验服务中心(Educational Test Service,ETS)得到了应用。在试卷难度相近和考生样组水平相近的假设下,核等值框架下的新方法与CTT方法等值结果存在哪些差异?核等值法框架下的不同方法等值结果是否存在差异?差异程度如何?它是否可以用于HSK考试的等值?为了回答这些问题,本研究基于HSK考试,构建了虚拟的测验,在最大程度上消除误差,根据一定的等值标准,将核等值框架下的新方法与传统的CTT等值方法进行了对比。本研究比较的基于CTT的锚测验设计下的等值方法包括:Tucker、Levine、Braun-Holland、链式线性方法、经过及未经过平滑的链式频数估计等百分位方法、经过及未经过平滑的频数估计等百分位等值方法;基于核等值框架下的等值方法包括:核链式优化值等值法、核链式线性大h值方法、核后分层优化h值方法、核后分层大h值等值法。核框架下每种方法都包含平滑及未平滑两种处理。比较的结论是:在试卷难度有差异且考生样组水平也有差异情况下,在以随机组等百分位等值方法作为标准时,两种框架下的等百分位等值方法有较好的表现,但小样本上链式方法表现欠佳;核等值法与一些基于CTT的等值方法具有一一对应的关系,线性方法无需进行平滑就可以得到与对应的传统线性方法相同的结果;核等值框架下大样本上核链式方法与核后分层方法、核链式等百分位方法与核链式线性方法、核后分层等百分位方法与核后分层线性方法之间都有较大差异;在小样本上,核链式方法与对应后分层方法、核链式等百分位方法与线性方法、核后分层等百分位方法与线性方法之间大部分时候差异较小,但是经过平滑后可能差异增大。由于现在的HSK考试比1989年时的考试难度大而且考生水平也提高了,因此当样本较小时,可采用CTT框架下经过平滑的频数估计等百分位方法或者核框架下经过平滑的核后分优化h值方法,避免使用链式方法;当样本较大时,可采用的方法有:CTT框架下频数估计等百分位方法以及链式等百分位方法、核框架下的核后分层优化h值方法以及链式优化h值方法。研究还讨论了不同的等值标准和统计指标。根据这些不同的标准,等值方法的比较得到了不同的结论。

论文目录

  • 摘要
  • Abstract
  • 目录
  • 表格目录
  • 图表目录
  • 1 研究背景、目的及意义
  • 2 文献综述
  • 2.1 关于等值的基本理论
  • 2.1.1 等值的5个性质(或要求)
  • 2.1.2 连接、预测、量表化和等值
  • 2.1.3 数据收集设计和等值方法
  • 2.2 国外有关等值研究的综述
  • 2.2.1 等值和测验开发
  • 2.2.2 等值中的数据收集设计以及样本
  • 2.2.3 等值方法的选择
  • 2.2.4 从等值结果中选择
  • 2.2.5 标准化条件和质量控制程序与等值的关系
  • 2.2.6 基于计算机测验的等值问题
  • 2.3 我国的等值研究综述
  • 2.4 对目前研究的评价
  • 3 有关核等值法的研究
  • 3.1 核等值法研究的缘起
  • 3.2 核等值法概要
  • 3.3 核等值法的步骤
  • 3.3.1 对目标总体进行前平滑处理
  • 3.3.2 估计目标总体上的分数分布概率
  • 3.3.3 将离散的分数分布连续化
  • 3.3.4 计算和分析等值函数
  • 3.3.5 计算等值标准误及相关的精度测量
  • 3.4 核等值法与其他等值方法
  • 3.4.1 核等值法与线性等值法
  • 3.4.2 核等值法与等百分位等值法
  • 3.5 ETS的实证研究
  • 3.6 对核等值法的评价
  • 4 HSK考试的情况以及研究目标和内容
  • 4.1 关于HSK初中等考试的情况
  • 4.2 研究假设、目标和内容
  • 4.3 研究方法
  • 4.3.1 数据收集设计
  • 4.3.2 所比较的等值方法
  • 4.4 实验数据
  • 4.4.1 试卷的构建
  • 4.4.2 考生总体的构建
  • 4.4.3 比较的标准
  • 4.4.4 比较的步骤
  • 5 研究过程和结果
  • 5.1 试卷拆分后的主要统计数据
  • 5.1.1 标准卷样组Q的试卷QYA以及锚测验QA统计数据
  • 5.1.2 新卷样组P的试卷PXA及锚测验PA的统计数据
  • 5.1.3 总体T标准卷TYA、新卷TXA及锚测验TA统计数据
  • 5.2 前平滑处理的结果
  • 5.2.1 标准卷和新卷数据前平滑处理结果
  • 5.2.2 等值标准:总体T各分测验的前平滑处理
  • 5.3 等值标准的计算结果
  • 5.4 各种等值方法在各分测验上的等值结果
  • 5.5 总误差指标的比较
  • 5.5.1 不同等值标准下分测验总误差比较
  • 5.5.2 总测验以四种等值方法为等值标准的加权总误差排名结果
  • 5.6 核等值法与基于CTT的对应等值方法成对比较
  • 5.6.1 核链式优化h值方法与基于CTT的链式等百分位方法
  • 5.6.2 核后分层优化h值方法与基于CTT的频数估计等百分位方法
  • 5.6.3 核链式大h值方法与基于CTT的链式线性方法
  • 5.6.4 核后分层大h值方法与三种基于CTT的线性方法
  • 5.7 核等值框架下各种方法等值结果比较
  • 5.7.1 核等值框架下链式方法结果比较
  • 5.7.2 核等值框架下后分层方法结果比较
  • 5.7.3 核等值框架下链式方法与后分层方法结果成对比较
  • 5.7.4 核等值框架下优化h值及大h值方法等值结果成对比较
  • 5.7.5 核等值框架下平滑与未平滑等值结果成对比较
  • 5.8 部分等值方法在各分测验上的等值标准误均值比较
  • 5.9 各等值方法在分测验上的等值分统计指标
  • 6 稳定性检验
  • 6.1 小样本试卷拆分后的主要统计数据
  • 6.1.1 小样本标准卷统计数据
  • 6.1.2 小样本新卷统计数据
  • 6.2 总误差指标的比较
  • 6.2.1 不同等值标准下分测验总误差比较
  • 6.2.2 总测验以四种等值方法为等值标准的加权总误差排名结果
  • 6.3 核等值法与基于CTT的对应等值方法成对比较
  • 6.3.1 核链式优化h值方法与基于CTT的链式等百分位方法
  • 6.3.2 核后分层优化h值方法与基于CTT的频数估计等百分位方法
  • 6.3.3 核链式大h值方法与基于CTT的链式线性方法
  • 6.3.4 核后分层大h值方法与三种基于CTT的线性方法
  • 6.4 核等值框架下各种方法等值结果比较
  • 6.4.1 核等值框架下链式方法结果比较
  • 6.4.2 核等值框架下后分层方法结果比较
  • 6.4.3 核等值框架下链式方法与后分层方法结果成对比较
  • 6.4.4 核等值法框架下优化h值及大h方法等值结果成对比较
  • 6.4.5 核等值框架下平滑与未平滑等值结果成对比较
  • 6.5 部分等值方法在各分测验上的等值标准误均值比较
  • 6.6 各等值方法在小样本分测验上的等值分统计指标
  • 7 讨论
  • 7.1 等值所依据的定义问题
  • 7.2 等值必要性问题
  • 7.3 等值标准的确定
  • 7.4 比较结果
  • 7.4.1 与等值标准比较的结果
  • 7.4.2 等值标准误指标比较情况
  • 7.4.3 等值分数分布统计指标
  • 7.5 核等值方法与基于CTT等值方法的成对比较
  • 7.6 核等值框架下各种等值方法的成对比较
  • 7.7 与以前的等值研究一致性问题
  • 7.8 关于HSK等值采用核等值法的建议
  • 7.9 本研究的创新
  • 7.10 本研究的不足以及有待于进一步研究的问题
  • 8 结论
  • 9 参考文献
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    基于HSK数据对核等值法与其他等值方法的比较研究
    下载Doc文档

    猜你喜欢