论文题目: 异构数据库语义集成技术研究
论文类型: 博士论文
论文专业: 计算机软件与理论
作者: 强保华
导师: 吴中福,吴开贵
关键词: 异构数据库语义集成,属性匹配,实体匹配,神经网络,二步检查法,信息熵,互信息
文献来源: 重庆大学
发表年度: 2005
论文摘要: 信息技术的迅猛发展和Internet 技术的广泛应用,给人们的生活、工作和学习带来了极大的方便。但随着人们对信息综合利用需求的进一步提高,Internet的局限性也凸现出来,因为计算机互连网络实现的是一种硬件的连通,所连接起来的信息大部分是异构的,形成了一个个信息孤岛,很难达到互联互通,真正实现数据的共享。信息的不一致造成有限的信息共享、缺少数据交换是制约实现数据综合利用的主要瓶颈。因此,如何找出并消除异构数据库中数据的冲突、异常,进行数据库集成,是实现综合信息应用必须解决的问题。数据库集成技术可以有效地检测数据异常、尽早地调整数据、消除数据的不完整和不一致,从而有助于提高信息综合利用的质量。异构数据库集成的关键问题是找出异构数据库间相同的语义对象,即语义集成,具体到关系数据库中,就是要找出异构数据库间相同的属性和实体(记录),即属性匹配和实体匹配问题。本篇论文主要在分析研究了现有异构数据库语义集成技术特点的基础上,针对目前方法的不足,考虑到神经网络具有较强的自学习能力和推广能力,比较适合处理语义集成这类不确定性问题,将神经网络理论应用到异构数据库语义集成中的属性匹配和实体匹配领域。同时,在解决实体匹配问题时,针对属性权重难以准确计算的问题,我们分别考虑了属性的信息熵和互信息来估算属性的权重。从提高识别相同语义对象的查准率和查全率两个重要指标出发,提出了新的属性匹配和实体匹配算法,并在具体应用环境中的数据库上进行了实验,取得了理想的效果。本论文主要研究工作如下: ①全面地综述了目前异构数据库集成所涉及的主要问题,详细地介绍了异构数据库语义集成的任务、语义异构的类型和解决语义异构问题主要采用的方法,并对目前方法的特点和不足之处进行了研究,分析了将神经网络理论、信息熵和互信息理论引入异构数据库语义集成领域中解决属性匹配和实体匹配问题的可行性。②分析了目前文献中基于BP 神经网络的属性匹配方法的不足,指出不同的输入在神经网络上可能对应相同的输出是影响神经网络结果准确性的主要因素之一,并进行了理论上的证明和具体实验环境的验证。为了解决该问题,在论文中提出了用相同的训练数据在不同的初始权值和阈值的情形下多次训练神经网络,从而构建不同于一般多级分类器方法的多个分类器的思想,可以实现对干扰数据的有效过滤。该思想在本文的第三章和第五章得到了很好的体现。
论文目录:
中文摘要
英文摘要
1 绪论
1.1 目前的信息资源利用现状
1.2 异构数据库语义集成的任务
1.3 异构数据库语义集成的研究意义
1.4 论文的主要研究内容及创新点
1.5 论文的组织结构
2 异构数据库语义集成技术研究综述
2.1 异构数据库集成涉及的主要问题
2.2 异构数据库集成系统的数据组织方式
2.2.1 虚拟的方式
2.2.2 物化视图的方式
2.3 异构数据库集成采用的典型体系结构
2.3.1 全局概念视图
2.3.2 联邦数据库系统
2.3.3 多数据库系统
2.4 异构数据库中数据异构的类型
2.4.1 数据异构
2.4.2 语义异构
2.5 异构数据库集成的步骤
2.6 解决异构数据库间语义异构问题主要采用的方法
2.6.1 异构数据库间相同属性的识别方法
2.6.2 异构数据库间相同实体的识别方法
2.6.3 解决异构数据库间语义异构的其它方法
2.7 存在的问题
2.8 本章小结
3 异构数据库语义集成中属性匹配研究
3.1 问题的提出
3.2 目前属性匹配方法的局限性
3.3 基于BP 神经网络的属性匹配方法研究
3.3.1 目前基于BP 神经网络的属性匹配方法介绍
3.3.2 目前基于BP 神经网络的属性匹配方法的不足
3.3.3 影响基于BP 神经网络的属性匹配方法准确率的原因分析
3.3.4 一种改进的基于BP 神经网络的属性匹配方法
3.4 实验与结论
3.4.1 SQL Server 样本数据库测试
3.4.2 实例数据库测试
3.4.3 SQL Server 和Access 上的样本数据库测试
3.4.4 实验结果讨论与分析
3.5 本章小结
4 基于信息熵和互信息的实体匹配研究
4.1 问题的提出
4.2 目前实体匹配主要采用的方法及不足
4.3 基于信息熵的实体匹配决策模型
4.3.1 实体匹配的形式化定义
4.3.2 属性值相似性的评价准则
4.3.3 基于信息熵的属性权重计算
4.3.4 基于信息熵的异构实体匹配算法
4.3.5 实验与结论
4.4 基于信息熵的实体匹配方法改进
4.4.1 问题的提出
4.4.2 互信息的计算
4.4.3 属性的最终熵计算
4.4.4 实验与结论
4.5 本章小结
5 基于 BP 神经网络的实体匹配研究
5.1 问题的提出
5.2 基于BP 神经网络的实体匹配方法的思想
5.3 BP 网络解决数据分类问题研究及性能分析
5.3.1 问题描述
5.3.2 设计BP 网络结构
5.3.3 实验结果
5.3.4 BP 算法的优化
5.3.5 影响BP 神经网络分类结果准确率的原因分析
5.4 BP 神经网络解决实体匹配问题
5.4.1 BP 网络结构
5.4.2 属性值相似性的评价准则
5.4.3 数据的规范化
5.4.4 基于BP 神经网络的实体匹配算法
5.4.5 基于BP 神经网络的实体匹配改进算法
5.4.6 基于BP 神经网络的二步检查法实体匹配算法
5.5 综合实验结果对比分析
5.6 信息熵实体匹配方法与BP 神经网络实体匹配方法对比
5.7 本章小结
6 总结与展望
6.1 总结
6.2 进一步的工作与展望
致谢
参考文献
附录 攻读博士学位期间参加的科研和发表的学术论文
独创性声明
学位论文版权使用授权书
发布时间: 2005-11-07
参考文献
- [1].开放式异构数据库复制框架的研究与实现[D]. 者敬.中国科学院研究生院(软件研究所)2002
相关论文
- [1].开放式异构数据库复制框架的研究与实现[D]. 者敬.中国科学院研究生院(软件研究所)2002
- [2].多数据库系统中关键技术的研究[D]. 韩伟红.中国人民解放军国防科学技术大学2000
- [3].基于关系数据库的XML数据存储、更新和检索[D]. 胥正川.复旦大学2003
- [4].文档数据库若干关键技术研究[D]. 刘永丹.复旦大学2004
- [5].数据库中数据挖掘理论方法及应用研究[D]. 罗可.湖南大学2005
- [6].异构信息集成中的查询处理与优化研究[D]. 李瑞轩.华中科技大学2004
- [7].数据库加密技术及其应用研究[D]. 王正飞.复旦大学2005
- [8].XML数据的查询、转换和集成[D]. 郭志懋.复旦大学2005
- [9].主动数据库理论研究[D]. 左万利.吉林大学2005
- [10].XML数据库查询及其模式集成研究[D]. 徐德智.中南大学2004
标签:异构数据库语义集成论文; 属性匹配论文; 实体匹配论文; 神经网络论文; 二步检查法论文; 信息熵论文; 互信息论文;