论文摘要
项目反应理论在心理和教育测量领域的应用越来越广泛。而题库建设也吸引了越来越多的考试机构的注意力。但是,题库并不是一些题目的简单集合,而是在教育测量理论的指导下、经过等值处理的、具有必要参数和较大信息量的题目的有机组合。本研究旨在利用项目反应理论来建设大学英语分级测试的题库。数据来源于湖南大学英语分级测试,利用项目反应理论对分级测试的题目进行参数估计,即区分度、难度等参数的估计,然后再进行单位系统转换即等值处理,这样,这些经过等值的题目就可以放置到题库中去了。基于项目反应理论的题库具有巨大潜力,利用题库中的题目去测试考生时,尽管生成的试卷所含题目不尽相同,但由于平行试题之间的难度都已经过调整,所以考生之间的分数都可以直接进行比较,无需再进行单位系统的转换了。为了一次性地对尽可能多的题目进行等值转换,本研究的实验设计分为连续性的两步:第一步是固定试题模式,采用共同题非共同组的等值设计方案;共有2461名考生参加了测试。第二步是分级测试采用的计算机随机配题模式,另外2830名考生参加了计算机随机配题形式的测试,即每一名考生都抽取一份由计算机程序随机生成的试卷,在这种情况下,没有任何两名考生所考的是同一份试卷。主要研究结果如下:同时估计两参数逻辑斯蒂模型适用于两套固定试题,两套不同试卷上的题目参数经过等值后转换到同一量表即同一单位系统上来,这一量表就作为大学英语分级测试题库的“标准”。又利用通过共同题等值到已标刻题库法,EAP估计法和固定参数估计法对随机朽配题模式中的题目进行有效地等值处理,尽管样本量小,但结果证明估计值合理、真实。最后,共有听力和阅读理解部分747道试题通过了参数估计和等值转换,完成了利用项目反应理论对题库进行标刻。题库的试题量适中,题目区分度较大,难度中等。目前,国内对项目反应理论在题库建设中的应用研究,尤其是对计算机自适应测试题库的研究还处于初级阶段。只有极少数考试运用项目反应理论建设了题库,如汉语水平考试采用单参数逻辑斯蒂模型,经济专业资格考试采用等级反应模型。本研究利用项目反应理论的两参数逻辑斯蒂模型一次性地完成了747道试题的等值转换和参数标刻,建立了基于项目反应理论的大学英语分级测试题库。利用项目反应理论建设的题库,能够确保不同年份之间的新生入学分级测试成绩、不同试卷之间的连续性、稳定性、可比性以及公平合理性。同时也利于分级教学的实施,并为实行计算机自适应测试打下基础。
论文目录
摘要AbstractChapter 1 Introduction1.1 Background1.2 Statement of the Problem1.3 Purpose of the Study1.4 Importance of the Study1.5 Organization of the StudyChapter 2 Review of the Literature2.1 Item Response Theory2.1.1 Dichotomous IRT Models2.1.2 Estimation Procedures of Item Parameters2.1.3 Estimation Procedures of Ability Parameter2.1.4 Assessing Model-Data Fit2.2 IRT-Based Equating2.2.1 Data Collection Design2.2.2 Separate and Concurrent Calibration2.2.3 Fixed Parameter Calibration2.2.4 IRT True Score Equating2.3 Item Banking2.4 Computer-Based Test2.5 SummaryChapter 3 Methodology3.1 Data3.2 Test Designs3.3 Correlation between Different Item Types3.4 Testing of Model Assumption3.5 Evaluation of Item Response Models3.5.1 Estimation of Listening Open-Ended Items3.5.2 Estimation of Listening Multiple-Choice Items3.5.3 Estimation of Listening Items3.5.4 Estimation of Reading Multiple-Choice Items3.5.5 Estimation of Reading ItemsChapter 4 Results and Discussion4.1 Correlation between Different Item Types4.2 Model Assumption4.3 Validation of Item Response Model4.4 Equating of Two Alternate Test Forms4.4.1 Omitted, Not-Presented Items, and Speededness4.4.2 Common Items4.5 Item Banking of Items in Two Alternate Test Forms4.5.1 Item and Ability Parameter Estimation in Equating4.5.2 Concurrent Calibration of Items in Two Alternate Test Forms4.6 Calibration of Random Test Form Items4.6.1 Fixed Parameter Calibration4.6.2 Calibration of Listening Items4.6.3 Calibration of Reading Items4.7 SummaryConclusionReferencesAppendix A Rescaled Item Parameters of Two Alternate Test FormsAppendix B Item Parameters of Random Test FormsAppendix C Some Examples of Different Standard Scores with the Same Right Answer NumberApendix D 详细中文摘要Acknowledgements
相关论文文献
标签:项目反应理论论文; 题库建设论文; 等值论文; 参数估计论文;