论文摘要
语义集成可以消除异构数据库中的数据冲突和异常,实现同一行业不同企业和机构之间的异构数据集成。异构数据的语义集成对于国家进行宏观调控、建立公共数据平台具有十分重要的作用。采用语义一致性检测的迭代流程,在同一迭代流程中,通过结合属性和元组语义的检测提高语义集成的精度。采用聚类方法分析属性之间的语义一致性,根据直接从属性的数据值中提取的特征,分别采用K-means聚类算法、模糊聚类算法和改进的chameleon凝聚层次聚类算法,得到三种属性的语义匹配结果进行投票,以得票数不低于2的属性对作为语义一致属性对,用作迭代流程的初始属性语义匹配结果。在聚类分析中,属性特征只从属性的数据值中提取;在改进的chameleon算法中,以Normalized Cut准则取代原算法的Min-cut准则。在迭代过程中,首先依据属性语义匹配的结果,采用分类方法检测元组之间的语义一致性。手工挑选数量相同的匹配元组对和不匹配元组对,作为训练样本数据集训练logistic回归分类器,并对分类结果进行分析和评价;然后对分类所得匹配元组对做相关分析和线性回归分析,通过皮尔逊相关系数和线性回归拟合参数发现新的语义一致属性对,更新属性匹配结果并用于下一步迭代。使用三峡医院和南漳医院的药品表作为实验数据,药品表的属性个数分别为20和27个,从中各挑选603个匹配元组对和不匹配元组对,用作研究中的实验数据。实验结果表明,在语义集成迭代流程中,随着迭代次数的增加,能够不断发现新的匹配属性和匹配元组,且识别出的属性对和元组对具有很高的正确率。
论文目录
相关论文文献
- [1].一种基于元组空间的智能传感器协同感知机制[J]. 软件学报 2015(04)
- [2].面向数据流处理的元组跟踪方法[J]. 电信科学 2013(10)
- [3].一种无中心元组空间副本管理方法[J]. 清华大学学报(自然科学版) 2011(01)
- [4].N元组和翻译单位对英译汉自动评分作用的比较研究[J]. 现代外语 2010(02)
- [5].分布式元组空间协同模型的设计与描述[J]. 计算机工程 2008(17)
- [6].消息分发系统中的元组空间分解算法研究[J]. 计算机工程与设计 2010(01)
- [7].联合元组空间和位图设计的二维分组分类算法[J]. 通信学报 2011(09)
- [8].基于功能结构元组的技术文档的特征提取研究[J]. 计算机技术与发展 2019(05)
- [9].一种基于情感依存元组的简单句情感判别方法[J]. 中文信息学报 2017(03)
- [10].基于多元组提高射频仿真角度精度的方法[J]. 系统工程与电子技术 2016(10)
- [11].基于动态簇大小的多元组聚集匿名数据发布[J]. 太原师范学院学报(自然科学版) 2013(04)
- [12].基于情感依存元组的新闻文本主题情感分析[J]. 山东大学学报(理学版) 2014(12)
- [13].对基于元组向量折叠的包分类算法的改进[J]. 合肥工业大学学报(自然科学版) 2009(08)
- [14].基于元组相似度的不完备数据填补方法研究[J]. 计算机科学 2017(02)
- [15].一种基于元组空间的Web服务模型[J]. 电子技术与软件工程 2013(23)
- [16].基于CBF的分布式元组空间叉积算法[J]. 计算机工程 2010(01)
- [17].DTSArch:一种基于分散式元组空间的软件体系结构模型[J]. 计算机科学 2009(10)
- [18].关系数据库中近似查询的自动采样改进方法研究[J]. 湖南人文科技学院学报 2011(02)
- [19].基于hash散列映射的多元组表改进储存方法[J]. 福建电脑 2018(07)
- [20].不确定关系数据属性级溯源表示与概率计算[J]. 软件学报 2014(04)
- [21].关系数据库上基于元组组合的关键字查询[J]. 计算机研究与发展 2011(10)
- [22].采用元组聚类的增量式数据分区方法[J]. 计算机科学与探索 2011(08)
- [23].基于服务元组链的Web服务组合方法[J]. 吉林大学学报(理学版) 2009(01)
- [24].不确定数据库中基于x-tuple的高效Top-k查询处理算法[J]. 计算机研究与发展 2010(08)
- [25].TKEP:海量数据上一种有效的Top-K查询处理算法[J]. 计算机学报 2010(08)
- [26].基于元组空间通信的扩展呼叫处理语言协同技术[J]. 高技术通讯 2010(05)
- [27].两种新的非确定数据库上的Top-k查询[J]. 华东师范大学学报(自然科学版) 2017(01)
- [28].基于游标的元组重构应用研究[J]. 四川职业技术学院学报 2016(04)
- [29].浅谈分布式数据库系统查询优化[J]. 电脑知识与技术 2010(04)
- [30].基于元组存在性的概率数据模型研究[J]. 计算机科学 2012(S1)