面向大学英语教学的通用计算机作文评分和反馈方法研究

面向大学英语教学的通用计算机作文评分和反馈方法研究

论文摘要

由于师生比例过大,我国大学英语写作教学急需计算机作文评分和反馈系统,以减轻教师的评卷负担和促进学生的写作训练,并最终达到提高学生写作能力的目标。目前的研究集中在特定题目的作文评分方面,对于面向大学非英语专业英语教学、通用的、带反馈的计算机作文评阅方法,还未见有研究。非英语专业大学生在我国人数众多,但整体英语写作水平不高,亟需大量的写作训练以提高语言运用能力。但由于大学英语教师数量相对较少,根本没有时间和精力评阅大量的作文。所以,一种较为准确的计算机作文评分方法可以解决很大的问题。所谓通用,就是设计一套方法,适用于非特定题目的作文评阅。在大学英语写作教学中,大量的平时练习和各种考试涉及的作文题目是多样的。如果对于每次练习、每次考试都要为了取得评分模型而进行语料训练,那么人工标注的工作量就相当大,而且由于样本集合小,样本特征的统计意义差,训练效果可能不尽如人意。这两个因素影响了计算机自动评分方法的实用性。因此,研究非特定题目的通用评分系统非常有必要。反馈在大学英语写作教学的作文评阅中的重要性甚至高过作文的评分,因为分数只是说明这篇作文写得好坏,是对已完成作品的评价,但是有价值的反馈能告诉写作者作文中存在的问题,使其能明白自己语言使用的偏误,并在以后的写作中自觉地更正或者规避。鉴于以上研究目标,本文分析了中国非英语专业大学生英语作文通用计算机评分和反馈的局限性及解决方法。对于作文评分,第一个困难就是作文评分的信度。由于作文评分的主观性本质,目前只能以多人评分所达到的一致意见作为客观标准。其次,是自然语言处理中所存在的问题,包括了作文的语言和内容问题。由于自然语言处理技术的局限以及通用评分的研究目标,目前只能以作文语言研究为主,内容研究为辅。最后,对于中国学生英语作文这种错误种类和数量繁多的汉英“中介语”,目前比较准确的处理技术只有词汇统计和模式匹配。对于作文反馈,最重要的就是对于语言错误的准确反馈。本研究收集的作文语料包括CLEC语料库的大学英语四级考试作文和《大学生英语作文》中的写作范文。通过组织三名有经验的评分员对作文进行评分,选取了其中5个分数档(2分,5分,8分,11分和14分)660篇257个不同题目的作文,构成本研究的作文集合。该集合又进一步分为440篇的训练集和220篇的测试集。训练集用于构建计算机评分和反馈模型,测试集用于验证所构建模型的性能。本文的工作包括计算机评分和反馈两方面。在计算机评分方面,针对一次训练多次使用的通用非特定题目作文评分的研究目标,根据以往研究并在本文研究确认的基础上,选取了三个重要的词汇特征(作文长度、词汇多样性、分级词汇分布)、一个动词短语数量特征和具体短语使用与否的特征作为自变量,作文成绩作为因变量,采用多元回归和特征概率分类相结合的方法构建评分模型,并采用测试集验证评分模型的性能,得到模型在各分数档的评分精确率、召回率和误判率,总体准确率和误判率,以及评分结果信度矩阵。研究发现,模型评分总体准确率达到75.45%,总体误判率只有10%。各分数档评分精确率最高达到100%(2分档),最低也超过65%(11分档)。各分数档的评分召回率呈现明显的随分数升高而升高的趋势,从最低的2分档的30%逐步升高到最高的14分档的94%。各分数档的误判率也呈同样趋势,2分和5分档是0,而14分档超过16%。尽管由于通用评分的目标,只能选择内容无关的评分特征,但此评分模型对于大学英语写作的日常教学已具有参考价值。作文反馈包括两个方面,一个是词汇共现错误,另一个是短语使用错误。词汇共现错误的识别是依据从英语作为本族语的大型语料库中提取词汇二元接续知识。其中接续较低或不接续的两个词汇若在作文中邻接共现,则为疑似错误,并反馈给教师和学生作最后的判断。短语使用错误的识别是通过研究大学英语写作中常用短语,构建短语错误使用模板,然后用这些模板与作文中的句子进行匹配,从而发现短语的错误使用情况。在查错的反馈结果中,考察了最经常使用的前1000词中的词汇共现情况。大型语料库中共现频次低于10次的词汇对,在学生作文中的含错率超过70%;共现频次低于30次的词汇对,在学生作文中的含错率也接近57%。短语模式匹配中,抽样统计得到的短语识别召回率为84.77%,准确率为96.45%。该研究结果表明,在高频词语范围内,反馈的准确率和召回率都比较高。由于高频词语正是非英语专业学生学习的基础和重点,所以这种反馈对纠正学生语言使用中相应的偏误会起到较大的作用。尽管针对通用评分的目标,本论文主要研究学生英语写作语言,但也同时兼顾作文内容。通过对同一题目多篇作文的自动聚类,可以发现少数与其它大多数作文用词不同的作文,即可能的跑题作文。实验显示该方法对于题目相近但内容不尽相同的作文具有一定的识别能力。本文工作的创新性表现为以下方面:(1)局限性分析:分析了计算机作文评分及反馈的局限性,对能够解决的问题,提出可行的解决方法;目前难以解决的,分析其原因,供以后研究的参考。(2)目标定位:探索非英语专业、非特定题目、一次训练多次使用的通用评分方法;探索计算机对于中介语作文自动查错反馈的可行性和具体方法;探索中介语作文无训练过程内容评分的可行性和具体方法。(3)评阅技术:a)小量的词汇特征(作文长度、词汇多样性、分级词汇分布)。其中词汇分布中剔除了题目词和改进了词表。对于面向大学英语写作教学通用评分的目标,小而精的词汇特征集合更具有针对性,而且效果不差。b)引入短语特征,包括动词短语数量和每个短语的使用与否。短语特征的选取基本都是内容无关的。两项特征都对作文评分具有较大贡献,而且短语模板的使用对学生作文中短语使用情况的反馈达到了较高的准确率。c)引入一级词语的二元接续特征。对于学生作文中最常用词汇的共现错误进行检查,报错准确率较高,对学生语言使用错误的反馈具有针对性。d)采用聚类方法发现跑题作文本文的工作说明,计算机在统计、匹配和存储方面有远胜于人的能力。只要恰当地选定应用目标并设计好方法,许多看似智能性十分强的工作也可以由计算机完成。计算机在面向大学英语教学的汉英中介语一次训练多次使用的非特定题目作文评阅领域是大有可为的。但是,另一方面,本文将各种特征集成以后,自动评分的准确率只有75%左右。查错反馈仅限于高频词语的邻接及常用短语的使用形式,而且即使在这十分狭窄的范围内,反馈的准确率和召回率也比较有限。本文的研究实践说明,中介语作文评阅完全由机器来自动完成是不现实的。这是由自然语言处理和中介语处理这双重的复杂性所决定的。因此,研究人机结合的中介语评阅方法,设计一种人和机器最佳结合的评阅流程,使人和机器最大限度地相互取长补短,应该是中介语作文评阅的发展方向。

论文目录

  • 摘要
  • Abstract
  • 第一章 引论
  • 1.1 通用计算机辅助作文评分和反馈的必要性
  • 1.2 通用计算机辅助作文评分和反馈在大学英语写作教学中的意义
  • 1.3 通用计算机辅助作文评分和反馈技术在中介语研究中的作用
  • 1.4 本文研究工作概述
  • 1.4.1 创新点和应用效果
  • 1.4.2 论文组织
  • 第二章 国内外相关研究述评
  • 2.1 语言测试
  • 2.2 自动作文评分研究
  • 2.2.1 国外主要自动作文评分系统
  • 2.2.2 外语自动作文评分研究
  • 2.2.3 自动作文评分系统的应用目标
  • 2.3 机助作文评估研究
  • 2.4 语法检查器研究
  • 2.5 智能计算机辅助语言教学系统(ICALL)研究
  • 2.6 英语作文写作研究
  • 2.7 中国学生英语作文错误情况调查
  • 2.8 大学非英语专业学生外语作文通用计算机评分和反馈研究
  • 2.9 本章小结
  • 2.9.1 各方面研究对本课题的指导及借鉴意义
  • 2.9.2 各方面研究相对本课题的不足
  • 第三章 计算机在作文评分和反馈中的局限性及解决方法
  • 3.1 计算机在英语作文评分和反馈中的应用现状
  • 3.2 计算机在作文评分的局限性及解决方法
  • 3.2.1 作文评分标准的问题及解决方法
  • 3.2.2 计算机作文评分中自然语言处理的问题及解决方法
  • 3.2.3 计算机作文评分中中介语(外语写作)计算机处理的问题及解决方法
  • 3.3 计算机在写作反馈中的局限性及解决方法
  • 3.3.1 外语写作需要的反馈
  • 3.3.2 作文中的错误类型和计算机反馈策略
  • 3.4 计算机在作文评分和反馈中的功能定位
  • 3.4.1 计算机作文评分和反馈作为教师作文评阅的补充
  • 3.4.2 计算机作文评分的标准以人工评分为参考
  • 3.4.3 计算机作文评分和反馈以词汇和短语特征为主
  • 3.5 计算机作文评分和反馈方法的发展前景
  • 第四章 自动作文评分和反馈研究的前期准备
  • 4.1 作文语料收集与加工
  • 4.2 作文语料的预处理
  • 4.2.1 作文评分和集合划分
  • 4.2.2 词性标注
  • 4.3 评分特征选取原则
  • 第五章 作文的词汇研究
  • 5.1 词汇分布研究
  • 5.1.1 重要概念界定和相关研究
  • 5.1.2 语料处理和分析
  • 5.1.3 传统方法词汇分布的数据分析
  • 5.1.4 去除题目词方法词汇分布的数据分析
  • 5.1.5 词表改进方法词汇分布的数据分析
  • 5.1.6 综合改进方法词汇分布的数据分析
  • 5.2 词汇分布特征的自动评分效果
  • 5.2.1 传统方法词汇分布特征的自动评分
  • 5.2.2 去除题目词方法词汇分布特征的自动评分
  • 5.2.3 词表改进方法词汇分布特征的自动评分
  • 5.2.4 综合改进方法词汇分布特征的自动评分
  • 5.3 词汇多样性研究
  • 5.3.1 重要概念界定和相关研究
  • 5.3.2 作文长度研究
  • 5.3.3 原始公式法的作文词汇多样性分析
  • 5.3.4 改进公式法的作文词汇多样性分析
  • 5.3.5 曲线拟合法的作文词汇多样性分析
  • 5.4 词汇多样性特征的自动评分效果
  • 5.5 词汇分布和多样性特征的评分和反馈
  • 5.5.1 词汇分布小结
  • 5.5.2 词汇多样性小结
  • 5.5.3 反馈
  • 第六章 词汇的二元接续研究
  • 6.1 N元语法模型及二元接续的概念和应用
  • 6.2 本族语语料库数据的提取
  • 6.3 作文语料的标注及二元接续合法性数据分析
  • 6.4 标注语料及结合规则和词频的二元接续合法性数据分析
  • 6.4.1 词汇共现错误误报规律发掘
  • 6.4.2 结合规则的二元接续数据分析
  • 6.4.3 结合词频的二元接续数据分析
  • 第七章 作文的短语研究
  • 7.1 短语的定义
  • 7.2 短语使用与作文成绩的相关性研究
  • 7.3 大学英语写作常用短语模板库的构建
  • 7.3.1 变形和可替换成分列表
  • 7.3.2 短语正确使用模板
  • 7.3.3 短语错误使用模板
  • 7.4 大学英语写作中短语数量与作文成绩的相关研究
  • 7.4.1 大学英语写作中各分数档短语总数的差异研究
  • 7.4.2 大学英语写作中各分数档动词短语数量的差异研究
  • 7.4.3 短语数量的自动评分效果
  • 7.4.4 评分结果可信度
  • 7.5 结合具体短语使用特征的自动评分效果
  • 7.5.1 文本分类方法概述
  • 7.5.2 多特征的集成
  • 7.5.3 文本分类法的评分步骤
  • 7.5.4 评分结果及讨论
  • 7.6 短语使用的相关反馈及其评测
  • 第八章 作文的聚类研究
  • 8.1 通用计算机辅助作文评分研究中作文聚类的必要性
  • 8.2 聚类综述
  • 8.2.1 聚类的定义与过程
  • 8.2.2 分类与聚类
  • 8.2.3 硬聚类和软聚类
  • 8.2.4 层级聚类与非层级聚类
  • 8.2.5 聚类流程
  • 8.3 本文采用的聚类方法
  • 8.3.1 聚类步骤
  • 8.3.2 特征选择和相似度计算
  • 8.4 聚类结果及反馈
  • 第九章 通用计算机辅助作文评分及反馈方法的工作流程
  • 9.1 作文语言使用的评分和反馈
  • 9.1.1 训练过程
  • 9.1.2 评分和反馈过程
  • 9.2 作文内容的反馈
  • 第十章 结束语
  • 10.1 全文总结
  • 10.2 进一步的工作
  • 参考文献
  • 附录
  • 攻读博士学位期间发表的学术论文和参加的学术活动
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    面向大学英语教学的通用计算机作文评分和反馈方法研究
    下载Doc文档

    猜你喜欢