中文语料库分词不一致现象的分层校验

中文语料库分词不一致现象的分层校验

论文摘要

在中文信息语言处理领域里,以大规模真实文本为基础的语料库研究和知识自动获取越来越受到重视,建设大规模高质量的语料库成为首要的任务。然而由于现阶段语料库的建立,需要人工来校验,不可避免的会有一定的疏忽和错误,导致了对同一字段在相同的语言环境下的切分结果不一致。这些不一致现象不仅影响了语料库分词的正确率,而且将错误带到了利用语料库资源进行加工的下一步骤。因此,对语料库加工时,必须对其进行一致性的检查和校正,保证语料库加工的质量。因此,应将分词后的语料库是否具有一致性作为衡量语料库质量的重要标准。本文针对大规模语料库分词一致性存在的问题,通过研究山大和微软语料库中所出现的不一致字段,提出分词不一致逐层解决的方法,先对语料使用规则的处理策略,然后针对规则处理的缺点使用统计模型进行校验。该方法通过研究语料库不一致字段及其上下文环境,应用规则和统计模型的方法对不一致字段进行自动校对,实验取得预期的目标,证明两者相结合的方法可以更好的解决分词一致性这个问题。主要工作如下:1.对400万熟语料进行了统计分析,总结了语料库中分词结果不一致的主要结构类型,确定论文的研究对象,将影响分词正确率的主要因素作为规则库建立的根据;2.研究利用规则和实例来解决分词一致性问题,提取出初始规则库及大量实例,并将获取的规则和实例应用于分词结果校对中。最后通过对规则库进行自学习来提高语料的分词质量;3.提出统计的方法,将提取出的不一致字段及其上下文信息使用向量空间模型表示,并使用相似度计算等方法获得不一致字串的概率分布,在计算相似度时引入同义词词林。最后通过定量的方法对不一致字串进行分类。4.基于以上的思想和方法,分别对基于规则、基于统计以及将两种方法相结合的方法设计实验模型,对模型进行了实验后,详细分析了实验结果。在统计与分析数据的基础上,对具有不同特征的不一致字串提出了多种处理方法,层层递进的处理策略,取得较好的分类效果。对一个语料库中发生了切分不一致的字串进行分类处理,把相同结构的、具有相似词法或语法作用的切分单位分成一类,可以方便地对同类的不一致字串采取一致的处理策略,在一定程度上能够使具有相同结构字串的切分形式趋于一致。在2007年SIGHAN评测中,山西大学提供的语料库在使用系统校对后,语料库的质量得到很大的提升,在评测中取得了很好的效果。对语料库切分一致性校验系统进行开放测试后,一致性检查的准确率为84.50%,召回率为70.39%,可见采用该系统后能够确实提高语料库的质量。

论文目录

  • 中文摘要
  • ABSTRACT
  • 第一章 引言
  • 1.1 课题背景
  • 1.2 分词不一致产生的原因分析
  • 1.3 研究现状及分析
  • 1.4 论文的主要工作及结果
  • 1.5 论文结构
  • 第二章 分词不一致现象的分析
  • 2.1 相关概念
  • 2.2 不一致现象的类型
  • 2.3 不一致现象的分析
  • 2.4 字符串长度对分类的影响
  • 第三章 基于规则的处理方法
  • 3.1 人工抽取规则
  • 3.1.1 基于内部信息的规则
  • 3.1.2 基于构词的规则
  • 3.1.3 基于实例的规则
  • 3.2 基于自学习的规则
  • 3.2.1 规则库的自学习系统
  • 3.2.2 规则提取算法
  • 3.2.3 规则库自学习算法:
  • 第四章 基于统计方法的处理策略
  • 4.1 相似度计算方法
  • 4.1.1 相似度计算方法介绍
  • 4.1.2 基于统计的词语相似度计算
  • 4.2 同义词词林
  • 4.3 基于统计方法的处理策略
  • 第五章 实验结果与分析
  • 5.1 一致性检验系统设计
  • 5.2 评价方法
  • 5.3 实验结果
  • 5.3.1 校验系统处理效果
  • 5.3.2 采用规则模型的效果
  • 5.3.3 采用统计模型的效果
  • 5.4 实验结果分析
  • 结论与展望
  • 参考文献
  • 致谢
  • 发表文章
  • 个人简历
  • 相关论文文献

    • [1].从六字串的自然音步看汉语音步与超音步的张力[J]. 现代语文(学术综合版) 2013(02)
    • [2].基于外部排序的字串左右熵快速计算方法[J]. 计算机工程与应用 2011(19)
    • [3].一种基于逐层扫描的频繁字串快速提取算法[J]. 计算机科学 2008(05)
    • [4].基于重复字串的微博新词非监督自动抽取[J]. 合肥工业大学学报(自然科学版) 2014(06)
    • [5].中国梦 我的梦 《开心老年》邀请100位读者 讲述您独一无二的故事——为您圆出书梦[J]. 开心老年 2016(01)
    • [6].中国梦 我的梦 《开心老年》邀请100位读者 讲述您独一无二的故事——为您圆出书梦[J]. 开心老年 2016(03)
    • [7].中国梦 我的梦 《开心老年》邀请100位读者讲述您独一无二的故事——为您圆出书梦[J]. 开心老年 2016(04)
    • [8].中国梦 我的梦 《开心老年》邀请100位读者讲述您独一无二的故事——为您圆出书梦[J]. 开心老年 2016(05)
    • [9].汉语字串的结构模式研究[J]. 佳木斯职业学院学报 2016(10)
    • [10].序数短语“(第)+数/数字串+量+名”中量词的隐现机制[J]. 语言教学与研究 2015(01)
    • [11].基于数字串加密算法的研究与实现[J]. 红河学院学报 2011(04)
    • [12].“相”字串讲[J]. 语文学习 2011(09)
    • [13].字串结合紧密度的计算方法研究[J]. 计算机光盘软件与应用 2012(02)
    • [14].Lyndon字串在结合代数中的一个应用[J]. 高校应用数学学报A辑 2015(02)
    • [15].奇特的算式[J]. 发明与创新(中学时代) 2010(01)
    • [16].中古漢語分詞不一致原因探討[J]. 汉语史研究集刊 2015(01)
    • [17].Internet中的新词识别[J]. 北京邮电大学学报 2008(01)
    • [18].基于Mastrovito乘法的字串行特征二域乘法器[J]. 清华大学学报(自然科学版)网络.预览 2009(10)
    • [19].“第+数/数字串+名”的语义要素分析[J]. 中南大学学报(社会科学版) 2017(03)
    • [20].一种非直线倾斜的打印体汉字串图像矫正方法[J]. 信息技术 2017(10)
    • [21].愿望[J]. 绿风 2009(03)
    • [22].基于字串切分统计词典的繁体中文拼写检错方法[J]. 计算机应用研究 2016(05)
    • [23].《在家里》教学反思[J]. 新课程(小学) 2014(01)
    • [24].多音字 有点难 集中学 乐翻天[J]. 小学生优秀作文 2015(26)
    • [25].汉语序数标记“第”的隐现机制[J]. 世界汉语教学 2015(04)
    • [26].删除“计算机”中的多余项[J]. 电脑爱好者 2013(20)
    • [27].不懈的阅读才是提升写作能力的途径[J]. 作文教学研究 2013(05)
    • [28].基于Mastrovito乘法的字串行特征二域乘法器[J]. 清华大学学报(自然科学版) 2009(10)
    • [29].一种玻璃钢八字串的山区抗上拔输电线路直线塔[J]. 玻璃钢 2017(04)
    • [30].难忘的十岁生日派对[J]. 作文成功之路(作文交响乐) 2019(05)

    标签:;  ;  ;  ;  

    中文语料库分词不一致现象的分层校验
    下载Doc文档

    猜你喜欢