论文摘要
随着计算机的普及互联网的迅猛发展,知识获取的形式、来源和数量也随之发生了根本变化。庞大的网络中蕴藏着大量的知识,同时也包括大量的垃圾知识,采用人工的方法来获取知识是远远不能满足需求的,研究各种知识获取方法,以减少人工的工作量是必然趋势。如何从海量的信息源中获取用户想要的知识,同时,对获取的海量知识采用何种方式进行管理、共享、重用,都成为人工智能研究的一个重要课题。目前,领域本体能很好解决知识的管理、共享、重用等问题,从而领域本体自动或半自动构建是当前信息检索和知识库构建领域的主要研究热点,其主要任务包括领域术语的获取、关系的获取、层次体系的建立、属性及属性值的获取、实例的获取以及后续的领域本体的维护,其中关系识别是为层次体系的建立服务的。这就使领域本体自动或半自动构建中的各项子任务也成了众多学者研究的热点对象。近几年,随着自然语言处理技术和信息抽取技术的快速发展,可以利用这些技术来完成领域本体自动或半自动构建中的各项任务。本文围绕领域术语的抽取、领域术语上下位关系和同位关系的抽取等关键环节的实现过程展开了研究和探讨,主要完成以下几个方面的工作:(1)领域术语的抽取任务,针对未登录词中的领域术语和长字词中的领域术语获取问题,采用基于领域纯文本CRFs的领域术语抽取方法,该方法综合考虑中文的词和词性特征,实现了对领域术语的识别,同时和传统的基于互信息的领域术语抽取方法作比较,并在云南旅游领域做了验证,取得了较好的效果。(2)领域术语上下位关系和同位关系的获取,目前获取上下位关系和同位关系主要是采用模式的方法,其关键在于模式的获取,本文采用基于离散式使用条件随机场机器学习方法,获取特征信息,即通过特征选择,人工标记一定量的语料训练构建关系分类器模型,然后利用该模型来识别领域术语间的上下位关系和同位关系。并在云南旅游领域进行实验,也证明该方法的有效性,在此基础上验证了组合特征对识别效果的影响。(3)设计实现两个原型系统:领域术语抽取原型系统和领域术语上下位关系和同位关系抽取原型系统,并对两个系统进行测评。