混合题型的IRT等值问题研究

论文摘要

等值的研究对于考试的公平性、题库建设、教学质量评价和计算机自适应测验都具有重要的意义。在IRT框架下,常用的项目反应模型有0-1评分的Logistic模型和多级评分的等级反应模型（Graded Response Model,GRM）或拓广的分部评分模型（Generalized Partial Credit Model,GPCM）。随着教育测验评价形式的不断丰富,越来越多的试卷不仅有0-1评分题,又有多级评分题,我们称这种试卷为混合题型试卷,简称为混合题型（Multiple Item Type）,我国也常常使用这种题型进行测试,例如医生资格考试。以往国内对混合题型的测验等值采用的方法是将Logistic模型看成是GRM或GPCM的特例。为确定起见,本文假设多级评分项目适合GRM。由于GRM中不含有猜测度,所以当0-1评分项目存在猜测时,这种处理方式就忽略了项目的猜测因素。为了解决这一问题,本文将三参数的逻辑斯蒂克模型和等级反应模型进行扩展得到混合模型,此模型解决了0-1评分项目猜测度被忽略的问题,并针对此模型开发了相应的等值程序。另外,为了检验某次测验0-1评分项目存在猜测,而人为将其忽略所带来的误差大小。本文给出了利用IRT特征曲线法求解等值系数的方法和具体步骤,以等值系数估计值的误差大小作为衡量标准,进行了大量的Monte Carlo模拟实验,使用相同的模拟数据将混合模型与GRM进行比较,其中GRM是忽略了0-1评分项目猜测度的。实验结果表明,若某测验中0-1评分项目存在猜测而等值时忽略这一事实误用GRM,在绝大部分情况下都比混合模型等值的误差大而且有显著性差异,并且等值的误差会随着猜测度的的增大而增大。最后,考虑到多级评分项目同样会存在猜测,本文还对IRT新模型—三参数等级反应模型进行了等值研究。分别用5种不同的等值准则考察三参数等级反应模型的有效性和适应性。结果表明,当等值系数A取值在0.5～1.4之间SLcrit表现更好,1.5～2.0之间Hcrit表现稍好,SQRcrit、Wcrit、SREcrit占优的情况不多,胜出的范围也没有规律。

论文目录

摘要

Abstract

第一章引言

1.1 研究目的与意义

1.2 国内等值问题的研究现状

1.3 本文研究内容

1.4 论文主要创新点

1.5 论文组织结构

第二章项目反应理论及等值综述

2.1 经典测验理论的局限性

2.2 项目反应理论

2.2.1 项目反应理论优缺点

2.2.2 常用项目反应模型

2.3 等值基本概念

2.3.1 等值性质

2.3.2 等值步骤

2.3.3 等值设计

2.4 项目反应理论（IRT）等值的基本方法

2.4.1 项目反应理论量表的变换

2.4.2 确定等值系数的常用方法

2.4.3 国内外等值准则简介

第三章混合题型的 IRT 等值研究方法

3.1 新模型介绍

3.1.1 混合模型

3.1.2 三参数等级反应模型

3.2 GRM 和MM 等值过程中的参数对比

3.3 Monte Carlo 模拟方法

3.4 求取等值系数A、B 的步骤

3.5 新模型求解等值系数的处理

3.5.1 混合模型求解等值系数的处理

3.5.2 三参数等级反应模型求解等值系数的处理

第四章实验设计与结果分析

4.1 等值的评价指标

4.2 实验设计

4.2.1 目标一的实验设计

4.2.2 目标二的实验设计

4.3 实验结果与分析

4.3.1 GRM 和 MM 等值的比较实验

4.3.2 不同准则用3PL-GRM 等值的比较实验

第五章回顾与展望

5.1 研究成果

5.2 展望

参考文献

附录

致谢

混合题型的IRT等值问题研究

论文摘要

论文目录

相关论文文献

猜你喜欢