基于词界字分词技术的机器评卷系统研究

基于词界字分词技术的机器评卷系统研究

论文摘要

术语解释题目是人工考试系统中常用的一类题型,它要求答题者用简明的答案对试题进行作答。由于术语解释题目既具有客观性试题的排它性,又具有论文性试题的灵活性,因此,它容易取得测试的高信度,所以一直被命题者看重。通过对目前比较成熟的机器考试和评分系统的调查和研究,发现术语解释题目还没有真正进入机器考试系统。因此,对术语解释题目机器评卷系统进行研究具有重要的实用价值。本文选取语言学概论中相关的术语解释题目作为实验对象,以彭泽润的词理论和罗海清的PC汉语、EAC汉语理论为基础,并在这个基础上运用中文信息处理的相关技术对术语解释题目的机器评卷系统进行研究。其中对词的处理,本系统主要应用词界字分词技术以及词匹配技术;词界字分词技术的基本原理是利用非汉字符号和汉字中的词界字作为词的界限识别标准,可以用来进行汉语文本分词,这类文字符号具有词的边界性质。对于单句的处理,本系统主要涉及汉语的知识表达以及句模匹配技术。通过对实验数据和结果的分析得知,基于词界字分词技术的机器评卷系统虽然不能完全保证术语解释题目机器评卷的准确性,但是,它为这个问题的解决提出了一条可行途径,并可以在一定程度上解决这个问题。

论文目录

  • 摘要
  • ABSTRACT
  • 0 绪论
  • 0.1 研究内容
  • 0.2 研究意义
  • 0.3 研究方法和主要语料来源
  • 0.4 研究现状和文献概述
  • 1 机器评卷系统可行性和系统结构
  • 1.1 评卷系统可行性研究
  • 1.2 标准答案处理过程
  • 1.3 考生答案处理过程
  • 2 词界字技术的GH基础
  • 2.1 GH规则及其应用
  • 2.1.1 增加汉语拼音的元音字母
  • 2.1.2 字母顺序隐含带调韵母的信息
  • 2.1.3 借用长读元音隐含汉语后鼻音ng
  • 2.1.4 用介母紧缩汉语拼音的长韵母
  • 2.1.5 PC汉语连词方法
  • 2.2 GH语言标志原理及其应用
  • 2.2.1 GH意标的性质
  • 2.2.2 GH语义标记方法
  • 2.2.3 GH语义标记技术的应用
  • 3 词界字分词技术的分词原理
  • 3.1 分词词表原理
  • 3.1.1 "生成隐性小词表"的基本原理
  • 3.1.2 分词程序中用到的专业小词表
  • 3.1.3 分词程序中用到的同义专业术语
  • 3.2 分词程序代码分析
  • 3.2.1 分词程序的操作对象和属性描述
  • 3.2.2 分词程序流程
  • 3.2.3 分词程序中需要改进的地方
  • 4 关键词匹配
  • 4.1 关键词匹配预处理
  • 4.1.1 把考生答案转化成GH语义标记
  • 4.1.2 形成标准答案的关键词集
  • 4.2 关键词匹配算法
  • 4.2.1 算法流程
  • 4.2.2 模式串自动机构造流程
  • 4.2.3 算法不足的地方
  • 4.2.4 对模式中出现多个相同字符的改进
  • 4.2.5 待比较字符a不存在于模式串中的改进
  • 4.2.6 算法的时间复杂度分析
  • 5 句模匹配
  • 5.1 句模的形成
  • 5.1.1 句模的基本概念
  • 5.1.2 句模形成的基本原则
  • 5.1.3 句模的表示方式
  • 5.2 关键词扩展
  • 5.3 句模匹配算法
  • 6 实验结果及其分析
  • 6.1 分词结果及其分析
  • 6.2 关键词匹配结果及其分析
  • 6.3 句模匹配结果及其分析
  • 参考文献
  • 攻读硕士期间发表的学术论文
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  ;  

    基于词界字分词技术的机器评卷系统研究
    下载Doc文档

    猜你喜欢