论文摘要
随着计算机的快速普及,互联网的迅猛发展,各式各样的信息呈爆炸式增加,如何从海量数据中准确、快速地获取用户真正需要的信息成为人们关注的话题。信息抽取的主要目的是将非结构化的自然语言文本转化成半结构化或结构化的数据,方便人们准确、快速地获取关键信息。关系抽取作为信息抽取的子任务和关键技术之一,已经逐渐发展成为众多自然语言处理任务的重要支撑技术。传统的关系抽取方法需要预先定义关系类型,依赖于大量人工标注的训练语料库,难以满足互联网海量信息处理的需求。本文提出了一种新的关系抽取研究框架,探索最大程度地避免人工参与,且具有较强领域自适应能力的关系抽取解决方案,提高关系抽取的自动化程度,增强可移植性。首先,通过分析关系实例上下文语言现象发现,绝大多数产生语义关系的实体对均可以由其上下文中的一般动词和一般名词触发描述(统称为特征词),由此,本文提出基于特征词聚类的方法,在一定规模的未标注语料库上实现关系类型的自动发现,实验中达到了与人工预定义关系类型相当的效果;其次,针对大量待处理的关系类型,本文提出基于Web Mining的关系种子集自动抽取方法,充分利用搜索引擎收集和处理大规模真实数据的能力和优势,抽取具有代表性的实体关系核心网,经过在选取的9种关系类型上进行实验,平均准确率达到了90.91%;再次,根据中文语言学特点,本文定义了启发式上下文模式及其泛化策略,引入Bootstrapping方法,以实体关系核心网作为输入,在未标注语料库上迭代地挖掘关系描述模式,并抽取关系元组,通过对采样的关系元组进行人工评价,平均准确率达到了88.24%,满足了实用系统的需求。最后,本文设计并实现了领域自适应的关系抽取平台XInfo,在该平台上,研究人员可以专注于算法的改进和研究,快速进行实验,为自然语言处理相关领域研究和应用提供支持。另外,本文以人物社会关系抽取作为应用任务,开发了一套人物社会关系在线演示系统,以直观、清晰的方式展示关系抽取效果。