项目反应理论在大学英语分级测试题库建设中的应用

论文摘要

项目反应理论在心理和教育测量领域的应用越来越广泛。而题库建设也吸引了越来越多的考试机构的注意力。但是,题库并不是一些题目的简单集合,而是在教育测量理论的指导下、经过等值处理的、具有必要参数和较大信息量的题目的有机组合。本研究旨在利用项目反应理论来建设大学英语分级测试的题库。数据来源于湖南大学英语分级测试,利用项目反应理论对分级测试的题目进行参数估计,即区分度、难度等参数的估计,然后再进行单位系统转换即等值处理,这样,这些经过等值的题目就可以放置到题库中去了。基于项目反应理论的题库具有巨大潜力,利用题库中的题目去测试考生时,尽管生成的试卷所含题目不尽相同,但由于平行试题之间的难度都已经过调整,所以考生之间的分数都可以直接进行比较,无需再进行单位系统的转换了。为了一次性地对尽可能多的题目进行等值转换,本研究的实验设计分为连续性的两步:第一步是固定试题模式,采用共同题非共同组的等值设计方案;共有2461名考生参加了测试。第二步是分级测试采用的计算机随机配题模式,另外2830名考生参加了计算机随机配题形式的测试,即每一名考生都抽取一份由计算机程序随机生成的试卷,在这种情况下,没有任何两名考生所考的是同一份试卷。主要研究结果如下:同时估计两参数逻辑斯蒂模型适用于两套固定试题,两套不同试卷上的题目参数经过等值后转换到同一量表即同一单位系统上来,这一量表就作为大学英语分级测试题库的“标准”。又利用通过共同题等值到已标刻题库法,EAP估计法和固定参数估计法对随机朽配题模式中的题目进行有效地等值处理,尽管样本量小,但结果证明估计值合理、真实。最后,共有听力和阅读理解部分747道试题通过了参数估计和等值转换,完成了利用项目反应理论对题库进行标刻。题库的试题量适中,题目区分度较大,难度中等。目前,国内对项目反应理论在题库建设中的应用研究,尤其是对计算机自适应测试题库的研究还处于初级阶段。只有极少数考试运用项目反应理论建设了题库,如汉语水平考试采用单参数逻辑斯蒂模型,经济专业资格考试采用等级反应模型。本研究利用项目反应理论的两参数逻辑斯蒂模型一次性地完成了747道试题的等值转换和参数标刻,建立了基于项目反应理论的大学英语分级测试题库。利用项目反应理论建设的题库,能够确保不同年份之间的新生入学分级测试成绩、不同试卷之间的连续性、稳定性、可比性以及公平合理性。同时也利于分级教学的实施,并为实行计算机自适应测试打下基础。

论文目录

摘要

Abstract

Chapter 1 Introduction

1.1 Background

1.2 Statement of the Problem

1.3 Purpose of the Study

1.4 Importance of the Study

1.5 Organization of the Study

Chapter 2 Review of the Literature

2.1 Item Response Theory

2.1.1 Dichotomous IRT Models

2.1.2 Estimation Procedures of Item Parameters

2.1.3 Estimation Procedures of Ability Parameter

2.1.4 Assessing Model-Data Fit

2.2 IRT-Based Equating

2.2.1 Data Collection Design

2.2.2 Separate and Concurrent Calibration

2.2.3 Fixed Parameter Calibration

2.2.4 IRT True Score Equating

2.3 Item Banking

2.4 Computer-Based Test

2.5 Summary

Chapter 3 Methodology

3.1 Data

3.2 Test Designs

3.3 Correlation between Different Item Types

3.4 Testing of Model Assumption

3.5 Evaluation of Item Response Models

3.5.1 Estimation of Listening Open-Ended Items

3.5.2 Estimation of Listening Multiple-Choice Items

3.5.3 Estimation of Listening Items

3.5.4 Estimation of Reading Multiple-Choice Items

3.5.5 Estimation of Reading Items

Chapter 4 Results and Discussion

4.1 Correlation between Different Item Types

4.2 Model Assumption

4.3 Validation of Item Response Model

4.4 Equating of Two Alternate Test Forms

4.4.1 Omitted, Not-Presented Items, and Speededness

4.4.2 Common Items

4.5 Item Banking of Items in Two Alternate Test Forms

4.5.1 Item and Ability Parameter Estimation in Equating

4.5.2 Concurrent Calibration of Items in Two Alternate Test Forms

4.6 Calibration of Random Test Form Items

4.6.1 Fixed Parameter Calibration

4.6.2 Calibration of Listening Items

4.6.3 Calibration of Reading Items

4.7 Summary

Conclusion

References

Appendix A Rescaled Item Parameters of Two Alternate Test Forms

Appendix B Item Parameters of Random Test Forms

Appendix C Some Examples of Different Standard Scores with the Same Right Answer Number

Apendix D 详细中文摘要

Acknowledgements

项目反应理论在大学英语分级测试题库建设中的应用

论文摘要

论文目录

相关论文文献

猜你喜欢