Deep Web下不确定数据处理的研究

Deep Web下不确定数据处理的研究

论文摘要

随着Web相关技术的日益成熟和Deep Web所蕴含信息量的快速增长,通过对Web数据库的访问逐渐成为获取信息的主要手段,对Deep Web的研究也越来越受到人们的关注。Deep Web蕴藏了更加丰富,更加“专业”(专注于某一领域)的信息。为了帮助人们快速、准确地利用Deep Web中的海量信息,数据集成成为Deep Web研究领域的一个重要方向。在Deep Web数据集成过程中,数据级、映射级、查询级都会产生不确定数据。首先,由于系统处理的数据多种多样,有些数据本身就具有不确定性,并且从文本或半结构化的数据源中抽取信息等技术都会产生不确定数据;其次,当数据源与中介模式进行映射时,也很有可能产生不确定性的映射关系;最后,用户查询的关键字和结构化查询内容之间对应关系也同样不确定。面对海量的不确定数据,为了满足用户得到感兴趣的信息的要求,本文提出了在Deep Web下不确定数据的处理模型。即首先分析不确定数据的不同来源,对相似度计算方法分类,选择合理的匹配相似度算法或语义相似度算法来得到属性值对应的概率值。再利用数据挖掘相关知识来获得用户感兴趣的信息。关联规则挖掘是数据挖掘一个重要的研究方向,目前大多数的算法集中于提高挖掘包含确定数据的事务频繁集效率。本文改进经典的Apriori和FP-growth数据挖掘算法,得到UD-Apriori算法和UD-FP-growth算法进行不确定数据的处理。其中,UD-Apriori算法是使用一种称作逐层搜索的迭代方法,k-项集用于探索(k+1)-项集。同时利用Apriori性质的反单调性,压缩运算的时间和空间。UD-FP-growth算法继承了FP-growth算法,采用分而治之的策略。该算法基本思想是将整个数据库压缩表示成树结构UD-FP-tree,并将频繁模式挖掘过程转化为递归产生条件子树的过程。UD-Apriori算法和UD-FP-growth算法能高效挖掘不确定数据频繁集,发现不确定数据之间的关联关系,为数据库中缺失的信息提供参考数据,为用户从未知到已知提供更多信息。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  • 1.1 引言
  • 1.2 国内外研究现状
  • 1.3 本文要讨论的问题
  • 1.4 本文的组织结构
  • 第2章 相关知识介绍
  • 2.1 Deep Web介绍
  • 2.2 相似度度量方法
  • 2.2.1 基于字符匹配的相似度度量方法
  • 2.2.2 基于语义的相似度度量方法
  • 2.3 数据挖掘简介
  • 2.3.1 对不确定数据挖掘的必要性
  • 2.3.2 关联规则相关的算法
  • 2.4 本章小结
  • 第3章 DEEP WEB下不确定数据处理模型
  • 3.1 研究不确定数据的必要性
  • 3.2 Deep Web数据集成结构
  • 3.3 数据集成中产生不确定的三个层次
  • 3.4 Deep Web下不确定数据的来源
  • 3.5 Deep Web下不确定数据处理模型
  • 3.6 本章小结
  • 第4章 DEEP WEB下不确定数据描述
  • 4.1 不确定数据表示类型
  • 4.2 不确定数据的描述和分类
  • 4.3 基于字符匹配的不确定数据概率值计算方法
  • 4.3.1 Q-grams相似度度量方法
  • 4.3.2 WHIRL和Q-grams with tf.idf度量方法
  • 4.3.3 Jaro-Winkler distance相似度度量方法
  • 4.4 基于语义不确定数据概率值计算方法
  • 4.5 本章小结
  • 第5章 不确定数据频繁集的挖掘
  • 5.1 相关概念
  • 5.2 挖掘关联规则经典算法
  • 5.2.1 经典的关联规则挖掘算法——Apriori算法
  • 5.2.2 不产生候选集的挖掘算法——FP-growth算法
  • 5.3 基于不确定数据的关联规则算法
  • 5.3.1 不确定数据挖掘方法——UD-Apriori算法
  • 5.3.2 不确定数据挖掘方法——UD-FP-growth算法
  • 5.4 本章小结
  • 第6章 算法实现和测试
  • 6.1 UD-Apriori算法与UD-FP-growth算法比较
  • 6.2 领域内参数的确定
  • 6.3 本章小结
  • 第7章 总结和展望
  • 7.1 总结
  • 7.2 展望
  • 参考文献
  • 致谢
  • 攻读硕士期间发表的论文
  • 相关论文文献

    • [1].基于结果模式的Deep Web数据标注方法[J]. 计算机应用 2011(07)
    • [2].基于启发式信息的Deep Web结果模式获取方法[J]. 计算机应用研究 2011(08)
    • [3].Deep Web语义搜索系统设计[J]. 武汉理工大学学报 2010(16)
    • [4].Deep Web中基于聚类的复杂模式匹配[J]. 微计算机信息 2009(06)
    • [5].Deep Web数据源的发现和分类[J]. 上海师范大学学报(自然科学版) 2016(05)
    • [6].一种基于领域本体的Deep Web实体信息提取的后处理方法[J]. 安徽工程大学学报 2016(05)
    • [7].基于领域本体的Deep Web内容获取技术研究[J]. 广西师范大学学报(自然科学版) 2011(01)
    • [8].半结构化的Deep Web信息抽取技术[J]. 电脑知识与技术 2010(15)
    • [9].结合匹配度和语义相似度的Deep Web查询接口模式匹配[J]. 计算机应用 2012(06)
    • [10].一种面向Deep Web数据源的重复记录识别模型[J]. 电子学报 2010(02)
    • [11].基于Deep Web挖掘的搜索策略[J]. 福建电脑 2008(03)
    • [12].Deep Web集成服务的不确定模式匹配[J]. 计算机学报 2008(08)
    • [13].Deep Web搜索技术进展综述[J]. 山东大学学报(工学版) 2009(02)
    • [14].一种deep web数据源下重复记录识别模型(英文)[J]. Journal of Southeast University(English Edition) 2008(03)
    • [15].基于模板和领域本体的Deep Web信息抽取研究[J]. 计算机工程与设计 2014(01)
    • [16].基于蚂蚁算法的Deep Web页面信息抽取方法研究[J]. 煤炭技术 2013(02)
    • [17].基于伪属性语义匹配的Deep web信息抽取[J]. 四川大学学报(工程科学版) 2009(02)
    • [18].基于循环策略和动态知识的deep Web数据获取方法[J]. 通信学报 2012(10)
    • [19].基于布尔矩阵的Deep Web复杂模式匹配[J]. 计算机工程 2011(12)
    • [20].基于结果模式的Deep Web数据集成[J]. 小型微型计算机系统 2010(05)
    • [21].Deep Web下基于中文分词的聚类算法[J]. 计算机工程与应用 2011(04)
    • [22].基于本体和语义相似度的Deep Web数据源发现技术[J]. 计算机光盘软件与应用 2012(20)
    • [23].基于Deep Web的主题搜索引擎的系统设计[J]. 数字技术与应用 2011(02)
    • [24].Deep web在个性化信息服务中的应用[J]. 电子商务 2010(08)
    • [25].Deep Web数据集成中模式匹配算法的研究[J]. 西安欧亚学院学报 2009(01)
    • [26].基于潜在语义分析的Deep Web查询接口聚类研究[J]. 计算机科学 2013(11)
    • [27].基于抽样的Deep Web模式匹配框架[J]. 计算机工程与应用 2015(03)
    • [28].基于规则集的Deep Web信息检索[J]. 计算机工程 2008(13)
    • [29].Deep web站点查询界面的潜在语义分析(英文)[J]. Journal of Southeast University(English Edition) 2008(03)
    • [30].基于主题Deep Web数据挖掘的研究与探索[J]. 电脑知识与技术 2012(16)

    标签:;  ;  ;  

    Deep Web下不确定数据处理的研究
    下载Doc文档

    猜你喜欢