汉语中介语偏误的计算机处理方法研究

汉语中介语偏误的计算机处理方法研究

论文摘要

本文的研究目标是让计算机辅助人来处理汉语中介语中的偏误。辅助的方式有四种:偏误的自动识别及提示;偏误的交互式识别及提示;偏误的自动标注;偏误标注的自动管理和检索。其中自动识别及提示的智能性最高,是本文研究的重点,其处理过程首先是自动发现偏误,在发现的基础上,计算机还可以进一步在不同程度上给出提示:直接修改、给出修改建议、指出偏误原因或提出疑问。目前,有关计算机查错的研究领域中,只有英语拼写检查技术比较成熟,汉语字词错误的校对系统刚刚达到具有实用价值的水平,其他方面的应用技术还在研究过程中,汉语中介语偏误的计算机处理还没有见到有相关研究成果发表。本文的工作集中在以下三方面:第一,面向计算机进行了偏误分析的理论研究。分析了计算机的长处和局限性,结合HSK动态作文语料库的偏误标注体系以及《外国人学汉语语法偏误分析》中的偏误类别体系,根据计算机处理自然语言的能力及所需知识,对各类偏误自动识别及提示的可行性进行了分析,特别指出语法偏误自动识别及提示的可行性较强,提出了计算机进行偏误处理的指导思想。第二,进行了偏误自动识别及提示的实践研究。依据出错率较高、可形式化程度较高等标准,选择了“把”字句、“比”字句、“有”字句和“被”字句四种特殊句型偏误作为切入点,采用规则的方法进行了偏误自动识别及提示的实验,通过与人工标注的结果相比较,证实了计算机能够在这些特殊句型偏误的识别和提示方面发挥很好的辅助作用。第三,进行了偏误自动标注的实践研究。利用了经典的求解字符串间编辑距离的算法,以汉语的词为单位通过进一步求解仿人的编辑路径发现修正原句所需要的基本编辑操作,从而实现了原句和修正句的自动比对。此外,基于自动比对的结果还让计算机在一定程度上参与偏误的归类。这样,能够较好地弥补偏误人工标注的缺陷,体现了人机的优势互补。与以往的一些相关研究比较起来,本文工作的创新性体现在:(1)研究侧重点在汉语的偏误分析方面,以往的研究是面向人的,目的是寻找让学生减少、避免偏误的教学策略;本文的研究是面向计算机的,目的是寻找让计算机自动或半自动地识别、修正偏误的方法。在汉语的中介语语料库建设方面,以往的工作主要是人工标注偏误;本文的研究是探讨如何让计算机尽可能地参与其中,与人形成优势互补。在中文文本查错方面,以往的研究针对的是汉语母语写作中出现的偶然性错误;本文的研究针对的是汉语非母语写作中出现的规律性偏误。在计算机辅助汉语教学方面,以往的研究热衷于计算机如何向学生单向地传授知识;而本文的研究重点是计算机如何对学生输入的信息给出反馈。(2)技术思想分析了计算机处理自然语言的能力以及处理各类偏误的能力,提出了利用计算机处理偏误时应遵循的指导思想。(3)技术方法基于HSK动态作文语料库,对“把”字句、“比”字句、“有”字句和“被”字句四种特殊句型的各种偏误做了具体分析,给出了识别及提示的规则,实验结果表明有较高的识别准确率和召回率。提出了采用编辑距离算法进行偏误自动标注的方法,实验证明能明显提高标注的质量和速度。本文的意义在于:理论方面,探讨了计算机辅助语言教学的可能性,既不能停留在简单的多媒体教学手段方面,又不能希冀计算机能全自动地处理各类偏误,而是实事求是地指出在这一领域计算机能力所及的范围。此外,面向计算机进行偏误分析为汉语语法研究、对外汉语教学研究提出了新的关注视角。应用方面,本文提出的方法可以辅助教师教学,减轻教师的负担;可以辅助科研人员进行中介语语料库的标注,提高标注的质量和速度;可以辅助有一定汉语基础的学生自学;有助于提高汉语作文评分的自动化程度。

论文目录

  • 摘要
  • Abstract
  • 第一章 引论
  • 1.1 计算机辅助语言教学
  • 1.2 中介语和偏误
  • 1.3 研究目标
  • 1.4 相关研究
  • 1.4.1 汉语中介语偏误分析
  • 1.4.2 汉语中介语语料库建设
  • 1.4.3 计算机查错研究
  • 1.4.4 计算机辅助语言教学系统研发
  • 1.4.5 本文工作与各相关研究的比较
  • 1.5 研究意义
  • 1.6 全文组织
  • 第二章 面向计算机的偏误分析
  • 2.1 计算机处理自然语言的能力
  • 2.1.1 两类计算问题
  • 2.1.2 自然语言处理的定位
  • 2.2 计算机所需的知识
  • 2.2.1 语料
  • 2.2.2 电子词典
  • 2.2.3 规则
  • 2.3 偏误自动识别及提示的可行性分析
  • 2.3.1 偏误的定性问题
  • 2.3.2 HSK作文库中各类偏误自动识别及提示的可行性分析
  • 2.3.3 常见语法偏误自动识别及提示的可行性分析
  • 2.3.4 可行性分析小结
  • 2.4 偏误识别实验的定位
  • 2.4.1 查错对象范围的限定
  • 2.4.2 查错能力的定位
  • 2.4.3 应用领域的定位
  • 第三章 工具、资源、知识准备
  • 3.1 工具
  • 3.2 资源
  • 3.3 各类列表的自动获取
  • 3.3.1 从北大词典中直接筛选
  • 3.3.2 从语料库中自动抽取
  • 3.3.3 词典、语料库双方获取
  • 3.4 正则表达式
  • 第四章 "把"字句偏误的自动识别及提示
  • 4.1 语言学知识总结
  • 4.1.1 句式特点
  • 4.1.2 常见病句分析
  • 4.2 HSK作文库中"把"字句偏误的细分类
  • 4.2.1 小类划分
  • 4.2.2 分类总结
  • 4.2.3 研究范围
  • 4.3 识别模式及规则
  • 4.3.1 识别模式
  • 4.3.2 识别规则
  • 4.4 实验结果及分析
  • 4.4.1 实验步骤
  • 4.4.2 实验结果
  • 4.4.3 结果分析
  • 第五章 "比"字句偏误的自动识别及提示
  • 5.1 语言学知识总结
  • 5.1.1 句式特点
  • 5.1.2 常见病句分析
  • 5.2 研究范围
  • 5.3 识别模式及规则
  • 5.4 实验结果及分析
  • 5.4.1 实验步骤
  • 5.4.2 实验结果
  • 5.4.3 结果分析
  • 第六章 "有"字句偏误的自动识别及提示
  • 6.1 语言学知识总结
  • 6.1.1 "有"字句的界定
  • 6.1.2 句式特点
  • 6.1.3 常见病句分析
  • 6.2 HSK作文库中"有"字句偏误的细分类
  • 6.3 识别模式
  • 6.4 实验结果及分析
  • 6.4.1 实验步骤
  • 6.4.2 实验结果
  • 6.4.3 结果分析
  • 第七章 "被"字句偏误的自动识别及提示
  • 7.1 语言学知识总结
  • 7.1.1 句式特点
  • 7.1.2 常见病句分析
  • 7.2 HSK作文库中"被"字句偏误的细分类
  • 7.2.1 小类划分
  • 7.2.2 分类总结
  • 7.3 识别模式及规则
  • 7.3.1 识别模式
  • 7.3.2 识别规则
  • 7.4 实验结果及分析
  • 7.4.1 实验步骤
  • 7.4.2 实验结果
  • 7.4.3 结果分析
  • 第八章 偏误标注方法研究
  • 8.1 人工标注的缺陷
  • 8.2 自动标注方法
  • 8.3 基于编辑距离算法的中文句子自动比对
  • 8.3.1 编辑距离算法
  • 8.3.2 编辑路径的求解
  • 8.3.3 中文句子自动比对
  • 8.4 偏误自动归类的可行性分析
  • 8.5 偏误自动归类的目的
  • 8.6 本章小结
  • 第九章 结语
  • 9.1 全文工作总结
  • 9.1.1 研究内容总结
  • 9.1.2 可取之处
  • 9.1.3 不足之处
  • 9.2 下一步工作
  • 参考文献
  • 附录
  • 附录1
  • 附录2
  • 附录3
  • 博士期间发表论文
  • 致谢
  • 相关论文文献

    • [1].俄罗斯汉语传播动因及模式研究[J]. 佳木斯大学社会科学学报 2019(06)
    • [2].美国华裔子女汉语继承语教育现状与问题[J]. 比较教育研究 2019(12)
    • [3].“一带一路”倡议与东南亚国家汉语推广策略[J]. 西部学刊 2019(21)
    • [4].人民本位:瞿秋白汉语规划的基本特征[J]. 名作欣赏 2020(11)
    • [5].留学生高级汉语综合课课程研究现状与展望[J]. 国际汉语教学研究 2020(01)
    • [6].孔子学院发展中的“汉语+”和“+汉语”[J]. 国际汉语教学研究 2020(01)
    • [7].国际生汉语网络流行语的习得研究[J]. 西安电子科技大学学报(社会科学版) 2020(01)
    • [8].汉语复句研究回顾与展望[J]. 绥化学院学报 2020(05)
    • [9].中亚地区汉语传播现状浅析[J]. 文化产业 2020(06)
    • [10].“满式汉语”及其他——答戴昭铭先生之五[J]. 满语研究 2020(01)
    • [11].中亚来华留学生的汉语认同研究[J]. 文学教育(上) 2020(09)
    • [12].浅谈如何进行汉语国际教学中“敏感问题”的跨文化沟通[J]. 国际公关 2019(11)
    • [13].汉语方言文白异读研究述评[J]. 北极光 2019(10)
    • [14].3-5岁汉语儿童叙事能力发展的实验研究[J]. 中国特殊教育 2017(11)
    • [15].汉语的百年沉浮[J]. 华夏文化 2018(02)
    • [16].汉语请求行为潜层内容类别初探[J]. 文化学刊 2018(07)
    • [17].新媒体环境下汉语生态的优化与保护[J]. 新媒体研究 2016(23)
    • [18].俄、汉语数词语用意义的对比研究[J]. 辽宁师范大学学报(社会科学版) 2017(01)
    • [19].印尼学生汉语习得的偏误类型和成因[J]. 海外华文教育 2017(01)
    • [20].基于对比的对泰汉语助动词研究[J]. 江西科技师范大学学报 2017(02)
    • [21].“一带一路”战略下汉语国际传播探索与思考[J]. 传播力研究 2017(03)
    • [22].日据时期朝鲜汉语官话会话书《增补改正汉语独学》音系标记[J]. 东疆学刊 2017(03)
    • [23].东南亚汉语传播与政治生态适应研究[J]. 云南师范大学学报(哲学社会科学版) 2017(02)
    • [24].学好汉语才回家[J]. 孔子学院 2017(04)
    • [25].汉语重数[J]. 中国行政管理 2017(09)
    • [26].汉语与南亚语关系研究百年回顾与展望[J]. 百色学院学报 2017(04)
    • [27].浅析大众传媒在汉语国际化历程中的推动作用[J]. 新闻世界 2015(08)
    • [28].汉语网络流行语的特点及翻译方法[J]. 山西青年 2020(02)
    • [29].汉语 “水”[J]. 福建文学 2020(04)
    • [30].藏区小学汉语实践教学现状与改进策略研究[J]. 科幻画报 2020(05)

    标签:;  ;  ;  ;  ;  

    汉语中介语偏误的计算机处理方法研究
    下载Doc文档

    猜你喜欢