论文摘要
在全球信息化时代背景下,企业组织比以往更加强大,企业信息也更加的丰富。企业中的数据主要包括结构化数据和非结构化数据,其中结构化数据指可在关系数据库中有效存储和访问的数据,非结构化数据指本身不适用于关系数据库存储和检索的数据。据美林证券(Merrill Lynch)最近估计,超过80%的有潜在商业价值的信息都是存储在非结构化数据中,这就意味着企业中的大部分有价值信息数据都没有被有效分析和利用。这个问题在证券股票领域尤为明显,当今证券股票领域信息化高度发展,各种证券股票业务支撑系统逐渐完善,但是对于企业各种业务产生的海量非结构化电子数据仍无法有效分析和利用,如各种业务报表,业界最新动态、资讯,各种政策信息等,这些数据大部分以电子文档形式存在,是企业决策的重要依据。因此,如何快速地从海量的电子文档信息中快速获取所需信息成为企业在信息管理的重大问题。传统的全文检索技术只能从字面上对查询关键字进行匹配,没有充分利用数据之间的语义关系,检索结果存在过多与用户所需不符的信息,导致查准率和查全率都比较低,而且无法对输入信息进行知识推理和关联挖掘。针对上述问题,本文在本体技术和全文检索技术的基础上,提出了一种基于领域本体的股票数据语义检索方法,该方法首先基于Lucene全文检索引擎对海量股票相关电子信息数据建立倒排索引,在传统的全文检索中引入本体,充分利用本体的知识表现、知识共享、逻辑推理等功能提出基于本体的语义检索模型。在本体构建上,本文用Protege工具构建一个股票领域本体S0(Stock Ontology),基于SO本体从新浪财经网上抽取各支股票相关知识并以OWL本体文件形式存储,与SO本体共同构成股票领域本体知识库。在概念语义相似度计算方面,本文充分考虑本体概念间语义距离、语义重合度、概念层次差、概念所处区域密度、本体概念对象属性关联等因素,提出一种基于领域本体的概念语义相似度和相关度的计算方法。此外,在中文分词方面,针对IKAnalyzer分词在新词发现方面的不足,本文采用基于汉字成词能力的隐马尔可夫模型对新词进行识别、发现,取得不错的新词发现效果。基于上述工作基础本文开发了一个基于领域本体SO的股票数据语义检索系统SISRS-SO(Stock Information Semantic Retrieval System-base Stock Ontology),对系统进行分层设计、模块划分设计与实现,最后,本文搭建实验环境对SISRS-SO系统进行测试,与传统的基于关键字全文检索系统相比,SISRS-SO系统通过引入本体,在检索中支持语义分析扩展功能,实验结果表明,该系统较传统全文检索系统在查准率和查全率方面有显著的提高。