论文摘要
随着计算机网络的飞速发展和信息化建设的大力推进,各种网络中可供利用的信息总量正以惊人的速率增长。但这些为不同应用服务的信息都存储在许多不同的数据源之中,其数据内容、数据格式和数据质量千差万别,且其管理系统也各不相同。为更有效地利用这些信息,需要对多个分布、异构和自治的数据源中的信息进行集成,向用户隐藏这些差异,提供给用户一个统一和透明的数据访问接口,同时还需要保持数据在不同系统上的完整性和一致性。因此,在信息集成过程中,如何有效解决这些差异是信息集成研究与应用领域所面临的一大挑战。近年来,随着XML这样一种文档结构描述语言的不断发展和壮大,以XML及其相关技术为基础的半结构化信息表示技术正在影响着信息技术领域和计算机技术领域发生着重大的变化,本文探讨了如何运用XML技术,集成结构化和非结构化的问题。论文从以下几个方面的内容进行了阐述:(1)对集成的数据进行了分类,一类是结构化数据,另一类是非结构化的数据。在这里我们把半结构化的数据看做是非结构化数据的特殊情况。本文提出一种对数据进行分类集成的策略,在Mediator/Wrapper的方式下,单独构建一个数据集成池,专门用来整合集成结构化数据。(2)详细论述了XHDIS信息集成系统原型的各个功能模块和系统构架。(3)对信息集成中的相关技术进行了深入分析,如模式集成及公共数据模型和包装器(Wrapper)模板生成等。(4)由于采用分类集成的策略,因而在非结构化数据的处理,本文的重点放在了如何通过定制非结构化数据的提取规制,通过转化成XML数据的形式来进行集成。重点讨论了以HTML/XML的Web页面的提取规则。最后在总结全文的基础上,结合其它与集成系统相关技术的发展趋势,提出了若干有待进一步深入研究和探讨的问题。
论文目录
相关论文文献
- [1].基于特征提取的分类集成在脾虚证诊断中的应用[J]. 计算机应用与软件 2010(03)
- [2].基于多视图分类集成的高铁工况识别[J]. 山东大学学报(工学版) 2017(01)
- [3].一种新的模糊多球分类算法及其集成方法[J]. 计算机科学 2008(06)