论文摘要
计算机的出现及网络技术的发展使得人们之间可以便捷的分享信息,而信息技术的高速发展使得这种信息分享日渐频繁。人们面对不再是稳定的信息量,而是不断增长的海量数据。海量数据由于来源不同,其数据格式的互不相同,因而很难高效的利用这些数据。为了更充分地利用已有的数据资源,减少资料收集、数据采集等重复劳动和相应费用,人们需要从多个分布、异构和自治的数据源中集成数据。这就需要确立一种具有普遍意义的、可操作性强的分布异构数据源的集成方法。从文件系统到数据库技术,再到集成技术,这些技术依然无法满足人们对海量数据管理的要求,因而一种新的海量数据管理模式——数据空间,便应运而生。数据空间作为一种管理异质异构数据的方法,要求以一种Pay-as-you-go的形式对数据源进行管理。而大量数据,从本质上来看是对现实世界的客观存在的实体的描述信息。用户对数据源的访问,主要是对这些实体信息的查询。因而抽取数据空间中命名实体及其描述信息加以集成,可以使用户更有效的管理和访问他们的数据。本文提出一种数据空间中的中文命名实体集成方法。通过抽取数据空间中数据源包含的命名实体及其描述信息,来提升用户对数据源访问体验,并完成部分实体集成的算法。本文主要完成的工作包括:(1)提出了一个数据空间人名实体及其描述信息的集成模型;(2)提出了数据空间异构数据源与命名实体的集成映射方法;(3)提出了数据空间命名实体统一的方法(4)在项目组研究成果的基础上,实现了一个数据空间原型系统。
论文目录
相关论文文献
- [1].数据时代的大数据数据源垄断法律规范[J]. 网络空间安全 2019(12)
- [2].乡村大数据源类型研究[J]. 当代农村财经 2020(02)
- [3].单位名录库更新:互联网大数据源及其数据质量评估[J]. 统计研究 2017(01)
- [4].一种基于数据源分解判定业务回归测试范围的分析方法[J]. 科技创新导报 2016(34)
- [5].基于分层抽样的重叠深网数据源选择[J]. 软件学报 2017(05)
- [6].数据源总线化布局解决方案[J]. 化工自动化及仪表 2015(03)
- [7].基于用户反馈的深网数据源选择[J]. 小型微型计算机系统 2012(11)
- [8].基于本体的单一产品数据源组织研究[J]. 中国制造业信息化 2011(01)
- [9].高职图书馆数字参考咨询数据源建设研究[J]. 当代图书馆 2011(01)
- [10].基于主题与概率模型的非合作深网数据源选择[J]. 软件学报 2017(12)
- [11].基于数据源向图的数据库设计中数据关系的表示工具[J]. 计算机科学 2017(S1)
- [12].基于真值发现的冲突数据源质量评价算法[J]. 浙江大学学报(工学版) 2015(02)
- [13].动态多数据源的研究与实现[J]. 电脑学习 2010(03)
- [14].高校社会科学用户数据源选择偏好研究[J]. 图书馆理论与实践 2018(12)
- [15].基于真值发现的冲突数据源质量评价算法[J]. 浙江大学学报(工学版) 2015(01)
- [16].信息技术在“数字油田”数据源建设中的基础作用分析[J]. 科技创新导报 2011(22)
- [17].基于分布对象的大规模多数据源互操作机制[J]. 计算机科学 2008(10)
- [18].一种基于休眠调度的数据源拥塞控制方法[J]. 计算机研究与发展 2015(08)
- [19].基于主题模型的深层网数据源选择算法[J]. 计算机应用 2015(09)
- [20].基于本体的专利数据源集成的研究及应用[J]. 计算机技术与发展 2009(07)
- [21].高效的数据源选择方式[J]. 计算机科学与探索 2010(10)
- [22].面向多数据源的数据清洗关键技术的研究[J]. 科技资讯 2009(01)
- [23].浅析多数据源自动化报表的研究与开发[J]. 数字技术与应用 2020(01)
- [24].多数据源招聘信息采集的爬虫系统实现[J]. 福建电脑 2019(11)
- [25].异构专利数据源集成系统中查询的研究[J]. 计算机应用与软件 2010(08)
- [26].分布数据源两级分类转换处理的技术研究[J]. 机械与电子 2017(03)
- [27].面向医学领域实体关联检索的深网数据源选择[J]. 计算机工程与应用 2016(10)
- [28].面向专利数据的多数据源集成与表达[J]. 魅力中国 2009(36)
- [29].面向农民的问答系统数据源构建[J]. 农业图书情报学刊 2014(05)
- [30].非合作结构化深网数据源摘要的动态更新[J]. 微电子学与计算机 2014(04)