论文摘要
二语习得方面的很多研究都指出大规模的写作测试是必然要与高科技相结合的.这是不可避免的潮流和趋势。国际上,许多作文电子评分系统已经被开发出来并商业运作了很多年。但在中国,汉语作文的电子评分系统这一领域还很少有人涉足。由于中英文有着非常大的差异,直接借用外国的作文电子评分系统是不现实的。全世界学习汉语的人越来越多,参加汉语水平考试HSK的人也越来越多。如果在足够多的数据基础上研发出一个汉语作文电子评分系统,就可以大大减轻阅卷老师的负担,也可通过避免人工评分的评分员效应来提高作文分数的有效性和可靠性,还可以应用于网上的自助学习。这个研究的主要目的是提取和发掘出更多的能有效测量汉语作文水平的文本特征变量,以构建一个能为大规模汉语作文考试进行电子评分的统计模型。构建这样一个模型,不仅需要丰富的相关理论知识和概念模型,也需要强大的技术支持贯穿模型的始终。由于时间、资源和专业知识的限制,本研究并不构建一个能测量作文各方面水平的完整模型,只是给出一个完整的概念模型,主要研究概念模型中的其中一个模块——作文语言质量方面的统计模型。更详细地说,是尽量挖掘能反映汉语L2作文的语言质量的文本特征变量,并验证其预测能力。本文的第二章主要回顾了二语习得以及作文评分方面的国内外文献并简单介绍了国外四个有代表性且已广泛应用于大型考试的电子评分系统:Project Essay Grade (PEG), Intelligent Essay Assessor (IEA), Electronic Essay Rater (E-rater)和IntelliMetric。文章主要从三方面对这些研究进行概述和整理,分别是:语言质量、内容质量和结构质量。在语言流利性方面,经国外实验证明比较有效的指标主要有:文章长度、文章长度的四次方根、不重复字数和句子数;在文章准确性方面主要指标是介词数和冠词数。文章复杂性又可分为词汇复杂性和语法复杂性。前者的主要指标有:类符一形符比、长词个数、词频分布、常用词个数与不常用词个数、常用词个数与不常用词个数之比、单词长度的平均值、单词长度的标准差和名词化个数;后者的主要指标有:平均句长、长句百分比和短句百分比、从句个数、简单句百分比、可读性指数和T单位。奇异值分解(SVD)相似度指标可用来测量话题相关度,即测量内容质量;段落数、代词数和连词数常用来测试结构质量。国内学者曹亦薇和杨晨(2007)是第一个使用潜在语义分析技术对汉语作文进行电子评分研究的学者。李亚男以中国少数民族汉语水平考试三级作文为研究样本,研究了汉语作为第二语言测试的作文电子评分要提取哪些客观性指标,得到了8个回归方程并进行了比较。张晋军、任杰也用这样的文本做过汉语电子评分系统的研究,得到一个有5个变量的回归方程。第三章主要讨论了构建汉语L2电子评分系统时所需要使用的理论和技术。经过讨论,笔者认为汉语电子评分系统的模型建构可以学习E-rater的框架,框架中的语言分析模块可以学习PEG的语言质量分析方法和技术;而内容分析模块作为Erater的弱点,需要向IEA学习,使用潜在语义分析技术,同时结合自然语言处理技术兼顾语言质量评分。待中国的人工智能发展到比较高的水平时,也可以借鉴IntelliMetric的分析技术。在选取文本特征方面,则可以借鉴英语作文评分研究中的某些可适用于汉语的文本特征指标,如T单位、总字数的四次方根等,并增加一些汉语特有的文本特征指标。第四章的第一部分主要从语言质量的流利性、准确性、复杂性和多样性,以及内容质量、结构质量几个方面讨论了在本研究中采用和提取的各项文本指标,建议提取和使用128个文本特征指标,并创新性地提出了一些新的文本特征指标。第四章的第二部分是实证研究部分的数据处理和分析。在阅读了大量国内外相关文献以及研究分析已有的几大国外的作文电子评分系统的基础上,尝试提取了128个文本特征,进行多元线性回归分析。分析时运用了两种多元回归的变量选取方法:“顺向选择法”和“逐步法”。最后得到两个具有较高的有效性且拟合度较好的多元线性回归方程和11个能够有效预测汉语作文质量的文本特征项。在文章的最后,作者总结了本文的创新之处,并提出了今后中国汉语电子评分系统研究方向的一些建议。虽然本文还存在很多不足,但就其创新性而言,仍然是一个对汉语电子评分的研究有启发和借鉴意义的探索性研究。