论文摘要
由于师生比例过大,我国大学英语写作教学急需计算机作文评分和反馈系统,以减轻教师的评卷负担和促进学生的写作训练,并最终达到提高学生写作能力的目标。目前的研究集中在特定题目的作文评分方面,对于面向大学非英语专业英语教学、通用的、带反馈的计算机作文评阅方法,还未见有研究。非英语专业大学生在我国人数众多,但整体英语写作水平不高,亟需大量的写作训练以提高语言运用能力。但由于大学英语教师数量相对较少,根本没有时间和精力评阅大量的作文。所以,一种较为准确的计算机作文评分方法可以解决很大的问题。所谓通用,就是设计一套方法,适用于非特定题目的作文评阅。在大学英语写作教学中,大量的平时练习和各种考试涉及的作文题目是多样的。如果对于每次练习、每次考试都要为了取得评分模型而进行语料训练,那么人工标注的工作量就相当大,而且由于样本集合小,样本特征的统计意义差,训练效果可能不尽如人意。这两个因素影响了计算机自动评分方法的实用性。因此,研究非特定题目的通用评分系统非常有必要。反馈在大学英语写作教学的作文评阅中的重要性甚至高过作文的评分,因为分数只是说明这篇作文写得好坏,是对已完成作品的评价,但是有价值的反馈能告诉写作者作文中存在的问题,使其能明白自己语言使用的偏误,并在以后的写作中自觉地更正或者规避。鉴于以上研究目标,本文分析了中国非英语专业大学生英语作文通用计算机评分和反馈的局限性及解决方法。对于作文评分,第一个困难就是作文评分的信度。由于作文评分的主观性本质,目前只能以多人评分所达到的一致意见作为客观标准。其次,是自然语言处理中所存在的问题,包括了作文的语言和内容问题。由于自然语言处理技术的局限以及通用评分的研究目标,目前只能以作文语言研究为主,内容研究为辅。最后,对于中国学生英语作文这种错误种类和数量繁多的汉英“中介语”,目前比较准确的处理技术只有词汇统计和模式匹配。对于作文反馈,最重要的就是对于语言错误的准确反馈。本研究收集的作文语料包括CLEC语料库的大学英语四级考试作文和《大学生英语作文》中的写作范文。通过组织三名有经验的评分员对作文进行评分,选取了其中5个分数档(2分,5分,8分,11分和14分)660篇257个不同题目的作文,构成本研究的作文集合。该集合又进一步分为440篇的训练集和220篇的测试集。训练集用于构建计算机评分和反馈模型,测试集用于验证所构建模型的性能。本文的工作包括计算机评分和反馈两方面。在计算机评分方面,针对一次训练多次使用的通用非特定题目作文评分的研究目标,根据以往研究并在本文研究确认的基础上,选取了三个重要的词汇特征(作文长度、词汇多样性、分级词汇分布)、一个动词短语数量特征和具体短语使用与否的特征作为自变量,作文成绩作为因变量,采用多元回归和特征概率分类相结合的方法构建评分模型,并采用测试集验证评分模型的性能,得到模型在各分数档的评分精确率、召回率和误判率,总体准确率和误判率,以及评分结果信度矩阵。研究发现,模型评分总体准确率达到75.45%,总体误判率只有10%。各分数档评分精确率最高达到100%(2分档),最低也超过65%(11分档)。各分数档的评分召回率呈现明显的随分数升高而升高的趋势,从最低的2分档的30%逐步升高到最高的14分档的94%。各分数档的误判率也呈同样趋势,2分和5分档是0,而14分档超过16%。尽管由于通用评分的目标,只能选择内容无关的评分特征,但此评分模型对于大学英语写作的日常教学已具有参考价值。作文反馈包括两个方面,一个是词汇共现错误,另一个是短语使用错误。词汇共现错误的识别是依据从英语作为本族语的大型语料库中提取词汇二元接续知识。其中接续较低或不接续的两个词汇若在作文中邻接共现,则为疑似错误,并反馈给教师和学生作最后的判断。短语使用错误的识别是通过研究大学英语写作中常用短语,构建短语错误使用模板,然后用这些模板与作文中的句子进行匹配,从而发现短语的错误使用情况。在查错的反馈结果中,考察了最经常使用的前1000词中的词汇共现情况。大型语料库中共现频次低于10次的词汇对,在学生作文中的含错率超过70%;共现频次低于30次的词汇对,在学生作文中的含错率也接近57%。短语模式匹配中,抽样统计得到的短语识别召回率为84.77%,准确率为96.45%。该研究结果表明,在高频词语范围内,反馈的准确率和召回率都比较高。由于高频词语正是非英语专业学生学习的基础和重点,所以这种反馈对纠正学生语言使用中相应的偏误会起到较大的作用。尽管针对通用评分的目标,本论文主要研究学生英语写作语言,但也同时兼顾作文内容。通过对同一题目多篇作文的自动聚类,可以发现少数与其它大多数作文用词不同的作文,即可能的跑题作文。实验显示该方法对于题目相近但内容不尽相同的作文具有一定的识别能力。本文工作的创新性表现为以下方面:(1)局限性分析:分析了计算机作文评分及反馈的局限性,对能够解决的问题,提出可行的解决方法;目前难以解决的,分析其原因,供以后研究的参考。(2)目标定位:探索非英语专业、非特定题目、一次训练多次使用的通用评分方法;探索计算机对于中介语作文自动查错反馈的可行性和具体方法;探索中介语作文无训练过程内容评分的可行性和具体方法。(3)评阅技术:a)小量的词汇特征(作文长度、词汇多样性、分级词汇分布)。其中词汇分布中剔除了题目词和改进了词表。对于面向大学英语写作教学通用评分的目标,小而精的词汇特征集合更具有针对性,而且效果不差。b)引入短语特征,包括动词短语数量和每个短语的使用与否。短语特征的选取基本都是内容无关的。两项特征都对作文评分具有较大贡献,而且短语模板的使用对学生作文中短语使用情况的反馈达到了较高的准确率。c)引入一级词语的二元接续特征。对于学生作文中最常用词汇的共现错误进行检查,报错准确率较高,对学生语言使用错误的反馈具有针对性。d)采用聚类方法发现跑题作文本文的工作说明,计算机在统计、匹配和存储方面有远胜于人的能力。只要恰当地选定应用目标并设计好方法,许多看似智能性十分强的工作也可以由计算机完成。计算机在面向大学英语教学的汉英中介语一次训练多次使用的非特定题目作文评阅领域是大有可为的。但是,另一方面,本文将各种特征集成以后,自动评分的准确率只有75%左右。查错反馈仅限于高频词语的邻接及常用短语的使用形式,而且即使在这十分狭窄的范围内,反馈的准确率和召回率也比较有限。本文的研究实践说明,中介语作文评阅完全由机器来自动完成是不现实的。这是由自然语言处理和中介语处理这双重的复杂性所决定的。因此,研究人机结合的中介语评阅方法,设计一种人和机器最佳结合的评阅流程,使人和机器最大限度地相互取长补短,应该是中介语作文评阅的发展方向。