识别和抽取Web中的关系信息及其出现模式

识别和抽取Web中的关系信息及其出现模式

论文摘要

Internet的飞速发展以及它开放式的特点使得网上的信息不断的膨胀,Web已成为人们不可缺少的信息源。Web中存在着大量的描述实体间相互关联的信息,与此同时实体之间的相互关系隐藏着非常丰富的、有价值的信息。而目前的搜索引擎依靠关键字匹配的方式查找信息,缺乏知识处理能力和理解能力,从而无法对Web中的关系信息进行识别。 本文以Web中信息发布与交换的新标准XML作为研究对象,提出了一种从Web上发布的XML文档中识别和抽取关系信息及其出现模式的方法。该方法按照用户的挖掘请求搜集XML文档;通过计算XML文档的相似度来识别包含了用户需求的目标文档;建立用户挖掘模式并与目标文档进行模式匹配实现关系数据的抽取。 实验结果表明本文提出的XML相似度计算方法能较好的实现目标文档的识别,同时本文采用的模式表达和匹配方式也能较准确地从目标文档中抽取出用户所需的关系数据。

论文目录

  • 第一章 绪论
  • 1.1 课题背景、意义
  • 1.2 本课题的研究内容
  • 1.2.1 本课题的主要工作
  • 1.2.2 国内外的相关研究
  • 1.2.3 本课题的特色和创新点
  • 1.3 论文结构
  • 第二章 相关技术
  • 2.1 Web数据挖掘
  • 2.1.1 Web数据挖掘的定义
  • 2.1.2 半结构化数据概述
  • 2.1.3 Web数据挖掘的分类
  • 2.2 XML相关技术
  • 2.2.1 XML概述
  • 2.2.2 XML的主要特点
  • 2.2.3 XML文档
  • 2.2.4 XML的编程接口
  • 第三章 关系数据挖掘方法及实现算法设计
  • 3.1 关系数据挖掘目标
  • 3.2 关系数据挖掘方法
  • 3.3 关系数据挖掘的主要算法
  • 3.3.1 相似度计算
  • 3.3.1.1 语义相似度的计算
  • 3.3.1.2 结构相似度的计算
  • 3.3.1.3 XML文档相似度
  • 3.3.2 相似度阈值的自动发现
  • 3.3.3 数据抽取
  • 3.3.3.1 树匹配问题
  • 3.3.3.2 查询匹配算法
  • 3.3.3.3 XML标记层次信息的提取
  • 第四章 关系数据挖掘系统的实现及实验结果
  • 4.1 关系数据挖掘系统的设计
  • 4.2 系统开发环境
  • 4.3 XML相似度计算的实现
  • 4.3.1 实现语义相似度计算
  • 4.3.2 实现结构相似度计算
  • 4.4 使用五次曲线拟合发现相似度阈值
  • 4.5 实现数据抽取
  • 4.5.1 创建用户的挖掘模式userpattern
  • 4.5.2 创建XML文档树模式xmlpattern
  • 4.5.3 抽取关系数据
  • 4.6 实验
  • 第五章 结束语
  • 5.1 论文总结
  • 5.2 后续研究方向
  • 参考文献
  • 致谢
  • 相关论文文献

    • [1].基于曲线相似度的飞行着陆操作评价方法[J]. 交通信息与安全 2019(06)
    • [2].基于域间相似度序数的迁移学习源领域的选择[J]. 科学技术与工程 2020(20)
    • [3].一种图文组合相似度算法的设计与优化[J]. 软件工程 2020(08)
    • [4].基于超网络的微博相似度及其在微博舆情主题发现中的应用[J]. 图书情报工作 2020(11)
    • [5].一种双层的微博用户相似度算法[J]. 情报杂志 2018(06)
    • [6].基于情景的结构化突发事件相似度研究[J]. 中国管理科学 2017(01)
    • [7].基于混合相似度的协同过滤推荐[J]. 软件导刊 2017(02)
    • [8].基于干扰相似度的多话题演化模型[J]. 电信科学 2017(09)
    • [9].软件相似度在成本估算中的应用[J]. 计算机应用与软件 2015(06)
    • [10].一种基于函数依赖的属性相似度调整算法[J]. 上海交通大学学报 2015(08)
    • [11].河马找亲戚[J]. 学生之友(童花果) 2016(12)
    • [12].十个中文流行语翻译[J]. 初中生辅导 2016(36)
    • [13].母爱[J]. 少年月刊 2017(05)
    • [14].说之以理[J]. 人力资源 2020(21)
    • [15].基于多种测度的术语相似度集成计算研究[J]. 情报学报 2013(06)
    • [16].基于余弦相似度分类负荷预测[J]. 电力设备管理 2020(09)
    • [17].基于多尺度相似度特征的答案选择算法[J]. 系统工程与电子技术 2018(06)
    • [18].基于服务相似度的移动用户近似邻居选取方法[J]. 计算机工程 2018(05)
    • [19].基于文本属性的微博用户相似度研究[J]. 计算机技术与发展 2018(05)
    • [20].基于属性相似度的碎多边形自动聚合处理[J]. 测绘与空间地理信息 2013(11)
    • [21].基于共同邻居相似度的社区发现算法[J]. 信息系统工程 2014(05)
    • [22].色谱指纹图谱相似度方法的适应性研究[J]. 中国中医药信息杂志 2012(05)
    • [23].基于向量空间模型附加词义特征的句子相似度研究[J]. 成都信息工程学院学报 2012(03)
    • [24].中国-东盟自贸区二周年的比较研究——基于出口相似度与显性比较优势的分析[J]. 安徽行政学院学报 2012(03)
    • [25].色谱指纹图谱相似度方法的研究进展[J]. 中国实验方剂学杂志 2011(02)
    • [26].基于元相似度的推荐算法[J]. 计算机应用研究 2011(10)
    • [27].互信息启发的相似度组合图像检索算法[J]. 中国图象图形学报 2011(10)
    • [28].相似度法在综合分析投资环境中的应用[J]. 统计与决策 2009(15)
    • [29].一种改进相似度的协同过滤算法实现[J]. 电子科技 2020(02)
    • [30].基于曲线相似度的步态识别研究[J]. 中国新技术新产品 2020(07)

    标签:;  ;  ;  ;  

    识别和抽取Web中的关系信息及其出现模式
    下载Doc文档

    猜你喜欢