规则与统计相结合的中文分词方法研究

论文摘要

随着信息时代的到来,计算机在人们生产生活的各个方面作用越来越突显。目前,在机器翻译、语音识别、信息检索等许多领域对语料库的使用越来越多,要求也越来越高,对语料库进行分词成为建立汉语语料库资源的首要任务。随着中文信息处理研究的深入,中文文本自动分词问题已经引起相当程度的重视,成为中文信息处理的一个前沿课题。经过几十年的研究,中文文本自动分词技术取得了令人瞩目的成果,出现了一些实用的自动分词系统,这些分词系统在分词的精确度和分词速度方面都具有相当水平,但无论按照人的智力标准,还是同实用的需要相比较,还有一定的差距。在本文中,我们以加工后的训练语料为研究对象,提出了一种规则与统计相结合的中文分词方法。该方法根据中文分词中所遇到的问题,对其进行归类并利用规则与统计相结合的思想对分词结果进行逐步的优化,最终达到一个较理想的结果。主要的研究内容有以下几方面:1.通过对大量训练语料的统计与分析,建立歧义字段资源库,深入分析了歧义字段的内部特征和上下文环境特征,为解决歧义字段问题建立了语言学基础。对训练语料中所出现的歧义字段进行真伪歧义分析,建立相应的真歧义库和伪歧义库。2.统计并分析真歧义与伪歧义各自不同的语言现象和规律,对其进行进一步的分类,为歧义字段的处理策略提供依据,进而为概率模型的建立提供支持。此外,在概率模型的建立过程中,使用了《同义词词林》作为语义资源,对歧义字段的上下文环境进行了语义扩充。3.通过对海量真实语料的分析和统计,提取其中所出现的未登录词,充分考虑未登录词的内部结构,抽取和统计未登录词的内部信息,建立了未登录词资源库,并利用内部信息建立未登录识别的概率模型。4.通过对未登录词的上下文环境信息的分析,提取未登录词识别的实用规则,建立未登录词识别的规则库,进而提高概率模型的识别效果。我们通过对微软亚洲研究院2005年提供的SIGHAN简体中文语料库(MSR)的400万语料进行模型的训练和检测,发现该策略在歧义字段的处理上有较好的效果。为了进一步检验规则与统计相结合的分词方法的有效性,我们参加了SIGHAN第四届国际中文自然语言处理Bakeoff SIGHAN 2008国际分词评测,并参加了NCC分词的开放测试,并在词表词识别率上达到96.9%,进一步证明该模型在解决歧义字段问题是有效的。

论文目录

中文摘要

ABSTRACT

第一章引言

1.1 研究背景

1.1.1 问题概述

1.1.2 中文自动分词的重要性

1.2 中文自动分词的困难

1.3 中文分词的研究现状及其分析

1.4 论文的主要工作及论文结构

第二章资源库的建立

2.1 伪歧义字段资源库

2.2 真歧义字段资源库

2.2.1 真歧义字段的分类

2.2.2 真歧义字段资源库的建立

2.3 未登录词资源库

第三章歧义字段的处理策略

3.1 伪歧义字段的处理策略

3.2 真歧义字段1的处理策略

3.3 真歧义字段2的处理策略

3.3.1 问题描述

3.3.2 特征的提取

3.3.3 特征模板的筛选

3.3.4 影响因子（特征参数bi）

3.4 举例

第四章未登录词的识别

4.1 未登录词识别的难点

4.2 未登录词识别的概率模型

4.3 未登录词识别的规则库

4.3.1 姓名的规则库建造

4.3.2 地名识别规则库的建造

4.3.3 机构名称的自动识别技术

4.4 未登录词识别过程

第五章实验结果与分析

5.1 基本流程

5.2 实验语料

5.3 评价方法

5.4 实验结果

5.4.1 实验结果分析

5.4.2 错误识别举例与分析

结论与展望

参考文献

致谢

发表文章

个人简历

规则与统计相结合的中文分词方法研究

论文摘要

论文目录

相关论文文献

猜你喜欢