论文摘要
标准化测验也称标准化考试,是今天的主流考试模式,它一般分为四个步骤:命题、施测、评分和分数解释。为了解释考试分数,就需要建立分数的参照系,就需要保持分数之间的可比性。等值是使各试卷分数具有可比性的一个统计过程,是保证考试公平性和维护考试声誉的重要环节,也是实现计算机自适应考试的关键步骤。1980年,等值的重要作用引起关注,心理测量者们开始对其进行相关研究,在经典测验理论下,先后研发出了线形等值、等百分位等值等方法。核等值是一种较新的、系统性较强的等值方法。它是建立在等百分位等值基础上的、对观察分数进行等值的一种方法,它比等百分位等值更优的地方就是对数据运用一些特定的数学方法进行平滑处理,从而减小误差,并可以对等值误差进行计算。把核等值与其他等值方法进行比较的研究主要是一种验证性质的研究,本文以1997年HSK(中国汉语水平考试)初中等考试一次共同组等值结果作为效标,在共同题设计中,通过比较线性方法、等百分位方法和核等值方法的等值结果,来分析各自优劣,并着重对核等值这种方法的等值效果进行研究。在进行作为效标的共同组等值时,本文采用了2种方法,一种是线性等值,另一种是核等值。结果表明:共同组中以核等值结果为效标时,共同题设计中核等值的效果最好,等百分位效果最差。而共同组中以线性等值结果为效标时,共同题设计中线性等值的效果最好,等百分位效果仍然最差。HSK初中等考试包括4个分测验,分别是听力、语法、阅读和综合。就分测验而言,以共同组核等值结果为效标时,线性等值和核等值的等值效果相差不大,相差最大的是阅读部分,误差也仅为.16。而以共同组线性等值结果为效标时,在听力和语法部分,线性方法与核等值的结果相差不大,误差控制在.1左右,在阅读和综合部分,两者的误差相对大一点,最高达1.3。本文对研究结果进行了讨论,并通过匹配组T检验的方法对小样本核等值结果进行统计,以此来检验核等值对样本的依赖程度。