论文摘要
在人们利用计算机技术自动处理海量信息的大背景下,信息检索、信息抽取、机器翻译、文摘生成等技术应运而生。命名实体识别是对文本自动处理的前提工作,它的质量会直接影响到后续的一系列工作。虽然命名实体识别技术已经相当成熟,然而从评测的结果来看,中文命名实体的识别还远不能满足应用的需求。因为这里存在着技术、资源、应用需求之间有机结合的问题。人名和其它命名实体一样,具有开放性和发展性的特点,而且表现形式极其丰富,给其识别带来了一定的困难。包括人名识别在内的命名实体识别问题已经成为词法分析使用化的主要瓶颈。人名识别作为命名实体识别的子任务,是自然语言处理领域的一个重要而困难的问题。在本文中,我们以人名(包括汉族人名和译名)为研究对象,提出了一种基于类比学习的人名识别方法。该方法通过用人名实例描述语言现象,尝试性的将类比学习的方法应用于人名识别问题,取得了较好的效果。主要的研究内容有以下几方面:1.通过对真实语料的统计,深入分析了人名的内部特征和上下文环境特征,为类比学习方法应用到人名识别问题建立了语言学基础。同时,建立了基于真实语料的人名资源库,包括姓氏用字库、名字用字库、译名用字库和特征词库等。此外,还使用了《知网》作为语义资源,对特征词进行了语义扩充。2.建立了人名实例库。在实例向量化的过程中,不仅考虑了人名的内部结构,而且加入了人名上下文环境信息,即实例向量中包含了人名的内部结构和上下文结构,较好地综合利用了各种启发信息。3.按照类比学习识别人名的策略,设计实现了一个人名识别实验系统。通过计算实例间的相似度,选择最为相似的实例,进行类比匹配,从而识别人名。4.提出了一种改进的实例相似度计算方法。我们针对人名识别过程中的不同阶段,提出了两个层次的实例相似度计算方法。在实例库的构建阶段,实例相似度以公共子序列来衡量;在人名识别阶段,不仅考虑了公共子序列,而且加入了结构信息。我们从人民日报语料中选取50万字的文本进行开放测试,其实验结果表明该方法识别人名的召回率达到90.86%,准确率达到86.45%,从而证明基于类比学习的人名识别方法的有效性。