中文语料库分词不一致现象的分层校验

论文摘要

在中文信息语言处理领域里,以大规模真实文本为基础的语料库研究和知识自动获取越来越受到重视,建设大规模高质量的语料库成为首要的任务。然而由于现阶段语料库的建立,需要人工来校验,不可避免的会有一定的疏忽和错误,导致了对同一字段在相同的语言环境下的切分结果不一致。这些不一致现象不仅影响了语料库分词的正确率,而且将错误带到了利用语料库资源进行加工的下一步骤。因此,对语料库加工时,必须对其进行一致性的检查和校正,保证语料库加工的质量。因此,应将分词后的语料库是否具有一致性作为衡量语料库质量的重要标准。本文针对大规模语料库分词一致性存在的问题,通过研究山大和微软语料库中所出现的不一致字段,提出分词不一致逐层解决的方法,先对语料使用规则的处理策略,然后针对规则处理的缺点使用统计模型进行校验。该方法通过研究语料库不一致字段及其上下文环境,应用规则和统计模型的方法对不一致字段进行自动校对,实验取得预期的目标,证明两者相结合的方法可以更好的解决分词一致性这个问题。主要工作如下:1.对400万熟语料进行了统计分析,总结了语料库中分词结果不一致的主要结构类型,确定论文的研究对象,将影响分词正确率的主要因素作为规则库建立的根据;2.研究利用规则和实例来解决分词一致性问题,提取出初始规则库及大量实例,并将获取的规则和实例应用于分词结果校对中。最后通过对规则库进行自学习来提高语料的分词质量;3.提出统计的方法,将提取出的不一致字段及其上下文信息使用向量空间模型表示,并使用相似度计算等方法获得不一致字串的概率分布,在计算相似度时引入同义词词林。最后通过定量的方法对不一致字串进行分类。4.基于以上的思想和方法,分别对基于规则、基于统计以及将两种方法相结合的方法设计实验模型,对模型进行了实验后,详细分析了实验结果。在统计与分析数据的基础上,对具有不同特征的不一致字串提出了多种处理方法,层层递进的处理策略,取得较好的分类效果。对一个语料库中发生了切分不一致的字串进行分类处理,把相同结构的、具有相似词法或语法作用的切分单位分成一类,可以方便地对同类的不一致字串采取一致的处理策略,在一定程度上能够使具有相同结构字串的切分形式趋于一致。在2007年SIGHAN评测中,山西大学提供的语料库在使用系统校对后,语料库的质量得到很大的提升,在评测中取得了很好的效果。对语料库切分一致性校验系统进行开放测试后,一致性检查的准确率为84.50%,召回率为70.39%,可见采用该系统后能够确实提高语料库的质量。

论文目录

中文摘要

ABSTRACT

第一章引言

1.1 课题背景

1.2 分词不一致产生的原因分析

1.3 研究现状及分析

1.4 论文的主要工作及结果

1.5 论文结构

第二章分词不一致现象的分析

2.1 相关概念

2.2 不一致现象的类型

2.3 不一致现象的分析

2.4 字符串长度对分类的影响

第三章基于规则的处理方法

3.1 人工抽取规则

3.1.1 基于内部信息的规则

3.1.2 基于构词的规则

3.1.3 基于实例的规则

3.2 基于自学习的规则

3.2.1 规则库的自学习系统

3.2.2 规则提取算法

3.2.3 规则库自学习算法:

第四章基于统计方法的处理策略

4.1 相似度计算方法

4.1.1 相似度计算方法介绍

4.1.2 基于统计的词语相似度计算

4.2 同义词词林

4.3 基于统计方法的处理策略

第五章实验结果与分析

5.1 一致性检验系统设计

5.2 评价方法

5.3 实验结果

5.3.1 校验系统处理效果

5.3.2 采用规则模型的效果

5.3.3 采用统计模型的效果

5.4 实验结果分析

结论与展望

参考文献

致谢

发表文章

个人简历

中文语料库分词不一致现象的分层校验

论文摘要

论文目录

相关论文文献

猜你喜欢