基于类比学习的人名识别方法研究

论文摘要

在人们利用计算机技术自动处理海量信息的大背景下，信息检索、信息抽取、机器翻译、文摘生成等技术应运而生。命名实体识别是对文本自动处理的前提工作，它的质量会直接影响到后续的一系列工作。虽然命名实体识别技术已经相当成熟，然而从评测的结果来看，中文命名实体的识别还远不能满足应用的需求。因为这里存在着技术、资源、应用需求之间有机结合的问题。人名和其它命名实体一样，具有开放性和发展性的特点，而且表现形式极其丰富，给其识别带来了一定的困难。包括人名识别在内的命名实体识别问题已经成为词法分析使用化的主要瓶颈。人名识别作为命名实体识别的子任务，是自然语言处理领域的一个重要而困难的问题。在本文中，我们以人名(包括汉族人名和译名)为研究对象，提出了一种基于类比学习的人名识别方法。该方法通过用人名实例描述语言现象，尝试性的将类比学习的方法应用于人名识别问题，取得了较好的效果。主要的研究内容有以下几方面：1．通过对真实语料的统计，深入分析了人名的内部特征和上下文环境特征，为类比学习方法应用到人名识别问题建立了语言学基础。同时，建立了基于真实语料的人名资源库，包括姓氏用字库、名字用字库、译名用字库和特征词库等。此外，还使用了《知网》作为语义资源，对特征词进行了语义扩充。2．建立了人名实例库。在实例向量化的过程中，不仅考虑了人名的内部结构，而且加入了人名上下文环境信息，即实例向量中包含了人名的内部结构和上下文结构，较好地综合利用了各种启发信息。3．按照类比学习识别人名的策略，设计实现了一个人名识别实验系统。通过计算实例间的相似度，选择最为相似的实例，进行类比匹配，从而识别人名。4．提出了一种改进的实例相似度计算方法。我们针对人名识别过程中的不同阶段，提出了两个层次的实例相似度计算方法。在实例库的构建阶段，实例相似度以公共子序列来衡量；在人名识别阶段，不仅考虑了公共子序列，而且加入了结构信息。我们从人民日报语料中选取50万字的文本进行开放测试，其实验结果表明该方法识别人名的召回率达到90.86％，准确率达到86.45％，从而证明基于类比学习的人名识别方法的有效性。

论文目录

中文摘要

ABSTRACT

第一章引言

1.1 研究背景

1.2 人名识别的研究现状及其分析

1.3 论文的主要工作及结果

1.4 论文结构

第二章基础理论介绍

2.1 类比学习的相关知识

2.1.1 关于类比学习

2.1.2 类比学习的过程以及关键问题

2.1.3 基于类比学习的人名识别问题概述

2.2 句子相似度计算方法介绍

第三章人名资源库的建立

3.1 相关语言现象统计与分析

3.1.1 人名内部特征

3.1.2 人名上下文环境特征

3.2 特征词的获取及语义扩充

3.3 人名资源库的构成

第四章人名实例库的构建

4.1 人名内部向量的生成

4.2 实例向量的生成

4.2.1 初始实例的预处理

4.2.2 实例向量的自动生成

4.2.3 实例向量的选择

第五章基于类比学习的人名识别

5.1 人名识别基本流程

5.2 人名的初筛选算法

5.3 类比学习的人名识别算法

5.3.1 匹配算法

5.3.2 相似实例选取方法

5.3.3 人名识别算法

5.4 实例库的评价和维护

5.5 人名识别举例

第六章实验结果与分析

6.1 实验语料

6.2 评价方法

6.3 实验结果

6.3.1 封闭测试与开放测试的比较

6.3.2 特征词语义扩展对开放测试结果的影响

6.3.3 实验结果分析

结论与展望

参考文献

致谢

发表文章目录

个人简况及联系方式

基于类比学习的人名识别方法研究

论文摘要

论文目录

相关论文文献

猜你喜欢