论文摘要
命名实体识别是信息抽取的子任务,同时也是机器翻译、自动问答等多种自然语言处理技术的基础。由于受中文自身特点的限制,中文命名实体识别一直相当困难。为了促进其它中文自然语言处理技术和应用的发展,研究中文命名实体的识别技术是很有意义,也是非常重要的。本文利用最大熵模型(Maximum Entropy,ME)进行中文命名实体识别。尝试了在不同特征模板集下,命名实体识别的性能,深入研究了最大熵模型在中文命名实体识别中的特点,发现最大熵模型不能自动组合特征,模型性能很大程度上依赖于特征模板。因此,设计合理的特征模板是基于最大熵模型中文命名实体识别的关键。汉语中存在大量的隐含语义特征,可以帮助命名实体的识别,而最大熵模型的一个重要优点就是能融合不同粒度和不同层次的特征。针对这一特点,本文通过从语料库中抽取信息的方式,建立了大量的中文命名实体语义知识库。但是,由于语料库的规模有限,并且基于统计的方法普遍存在数据稀疏的问题,导致很多重要的知识不能被挖掘出来。为了解决这一问题,本文首次将语义扩展的思想应用在命名实体识别中,充分发挥了有限语言资源的作用,深度挖掘了有限资源的信息和知识,在不扩大语料库的前提下,挖掘出更丰富的知识,一定程度上缓解了数据稀疏问题。实验证明,相对于扩展前的知识库,利用扩展后的知识库,平均识别召回率提高了1.17%,F值提高了0.41%。特别是结构比较复杂的机构名识别准确率提高了0.24%,召回率提高了1.39%,F值提高了0.86%。