面向Web的XML文档数据管理及分类检索技术研究

面向Web的XML文档数据管理及分类检索技术研究

论文摘要

随着计算机和互联网技术的发展,网络已经成为资源数量最多、种类最全、规模最大的综合信息库,这些信息大致可分为两类:结构化数据和非结构化数据,据统计,非结构化数据占有整个信息量的80%以上,在信息传递过程中,80%的时间是用来获取信息,因此,如何从Web网上科学高效地获取信息即是本文研究的意义所在。XML数据库技术和Web搜索引擎技术的发展为提高Web信息检索特别是非结构化数据的检索效率带来了希望。因为XML数据库技术提供了信息存储和管理的技术保障,而搜索引擎技术为Web信息检索构建了操作平台。基于此,本文针对XML文档数据管理技术及面向Web的分类检索技术做了深入细致的研究。本文主要研究内容和创新性工作如下:首先,综述和分析了纯XML数据库和使能XML数据库的管理技术及索引机制,在分析各种数据模型特点基础上,研究讨论了以关系数据库作为存储源、扩展XQuery作为数据模型的优势,通过对XQuery数据模型的扩展,提出了基于Schema模式约束的XML数据存储和索引结构SBXI,从用户逻辑层面定义了XML文档更新语言XUL,并应用Kweelt查询系统和JAVA技术实现了文档更新的关键技术。然后,解决了XML网页分类的关键技术-信息检索模型问题。由于传统的向量空间模型不能适用于XML文档结构相似度比较,提出了基于TreeMiner算法的频繁结构向量模型,构建了文档特征矩阵的表示方法和相似度函数;并对该模型拓展,进一步提出频繁结构层次向量模型,不仅挖掘XML文档的结构信息,同时抽取表征文档内容的关键词信息,提高了相似度量的准确率。通过对频繁结构挖掘算法TreeMiner进行改进,使其更适合大文档集合的频繁结构挖掘,实验证明基于频繁模式的检索模型具有很好的网页分类效果。最后,提出了分类检索与全文检索结合的二次检索策略,从系统设计角度构架了以频繁结构层次向量模型作为信息检索模型、SBXI作为索引结构的基于主题分类的Web文献全文检索搜索引擎的系统结构,并讨论了其主要构件的功能和工作流程。

论文目录

  • 中文摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 选题的研究背景和意义
  • 1.2 XML 数据库相关技术及国内外研究现状
  • 1.2.1 XML 数据库管理系统
  • 1.2.2 XML 数据库分类及存储
  • 1.2.3 XML 数据索引
  • 1.2.4 XML 数据模式
  • 1.2.5 XQuery 查询语言及查询代数
  • 1.3 Web 信息检索技术
  • 1.4 XML 为Web 信息检索带来的希望和挑战
  • 1.5 本文的主要工作和创新点
  • 1.5.1 主要研究内容和成果
  • 1.5.2 论文安排
  • 1.5.3 创新点
  • 第二章 XML 数据库的存储结构和索引技术
  • 2.1 纯 XML 数据库的存储结构和检索技术
  • 2.1.1 纯XML 数据库的存储结构
  • 2.1.2 纯XML 数据库的索引技术
  • 2.2 使能 XML 数据库的存储结构和检索技术
  • 2.2.1 基于关系的XML 数据存储
  • 2.2.2 X-RESTORE 数据模型
  • 2.2.3 一种基于关系的XML 数据索引和查询
  • 2.3 纯 XML 数据库和使能 XML 数据库技术的比较
  • 2.4 本章小结
  • 第三章 基于关系数据库的XML 文档管理技术
  • 3.1 XML 数据模型
  • 3.1.1 对象交换模型
  • 3.1.2 XQuery数据模型
  • 3.2 基于 Schema 约束的 XML 文档存储和索引技术
  • 3.2.1 对现有 XML 数据存储管理技术的分析
  • 3.2.2 基于 Schema 约束的 XML 数据存储和索引
  • 3.3 基于 SBXI 存储策略的 XQuery 查询处理
  • 3.3.1 查询路径有效性检验
  • 3.3.2 XML文档查询处理
  • 3.4 基于关系存储的 XML 文档更新
  • 3.4.1 基于扩展XQuery 数据模型的文档更新操作
  • 3.4.2 XUL 操作语义和实例
  • 3.4.3 基于触发器机制的更新实现
  • 3.5 本章小结
  • 第四章 面向Web 的XML 信息检索模型
  • 4.1 信息检索模型(IR-Model)
  • 4.2 信息检索模型的分类
  • 4.2.1 集合模型
  • 4.2.2 代数模型
  • 4.2.3 概率模型
  • 4.2.4 概念模型
  • 4.3 向量空间模型
  • 4.3.1 向量空间
  • 4.3.2 权重
  • 4.3.3 文档与查询之间的相关性
  • 4.4 频繁结构向量模型
  • 4.4.1 问题的提出
  • 4.4.2 频繁结构向量模型的相关概念
  • 4.4.3 XML文档的结构向量表示
  • 4.4.4 文档相似性度量
  • 4.5 本章小节
  • 第五章 频繁模式挖掘算法TreeMiner
  • 5.1 频繁模式挖掘算法 TreeMiner
  • 5.1.1 频繁子树扩展的相关技术
  • 5.1.2 TreeMiner频繁子树挖掘算法
  • 5.2 TreeMiner算法的改进
  • 5.3 TreeMiner算法挖掘处理实例
  • 5.4 文档结构的相似度计算处理实例
  • 5.5 TreeMiner 挖掘算法及结构相似度量实验
  • 5.5.1 数据集与实验设计
  • 5.5.2 实验结果分析
  • 5.6 本章小结
  • 第六章 基于频繁模式挖掘的XML 网页分类技术
  • 6.1 基于结构和内容联合提取的XML 文档相似度量
  • 6.1.1 XML 文档模型及特征分析
  • 6.1.2 频繁结构层次向量模型
  • 6.1.3 XML 文档结构和内容联合相关度计算
  • 6.2 基于粗糙集理论的网页分类技术
  • 6.2.1 基于结构的分类
  • 6.2.2 基于内容的分类
  • 6.2.3 基于结构和内容联合的分类
  • 6.3 实验结果及分析
  • 6.3.1 实验数据和实验结果
  • 6.3.2 实验分析
  • 6.4 本章小结
  • 第七章 基于频繁模式的Web 信息分类检索
  • 7.1 Web 信息检索(WebIR)的特点
  • 7.2 Web 搜索引擎的工作原理和检索技术
  • 7.2.1 各种搜索引擎的工作原理
  • 7.2.2 全文检索和目录检索的优势融合
  • 7.2.3 搜索引擎的检索技术
  • 7.3 检索结果的排序和反馈
  • 7.4 按主题分类的文献全文检索系统
  • 7.4.1 基于结构和内容特征提取的网页分类器
  • 7.4.2 基于SBXI 索引结构的索引器
  • 7.4.3 搜索引擎的工作流程
  • 7.5 本章小结
  • 参考文献
  • 攻读博士期间发表的论文和参加的科研项目
  • 致谢
  • 相关论文文献

    • [1].基于WEB的通信电源远程监控系统研究[J]. 中国设备工程 2019(24)
    • [2].基于自适应遗传算法的考虑服务质量感知Web服务发现[J]. 电子测量技术 2019(22)
    • [3].面向Web系统热点数据预测及缓存管理的研究[J]. 信息技术与信息化 2019(12)
    • [4].基于页面对象的Web应用测试用例生成方法[J]. 计算机应用 2020(01)
    • [5].运用物联网和Web服务搭建院际转运信息平台[J]. 电子技术与软件工程 2020(02)
    • [6].延迟加载在web开发中的应用心得[J]. 视听 2020(02)
    • [7].基于Web的期刊采编系统的设计与实现[J]. 电脑知识与技术 2020(06)
    • [8].Web服务软件测试技术的研究与实现[J]. 电脑知识与技术 2020(02)
    • [9].移动互联网时代的Web性能优化实践[J]. 信息通信 2020(01)
    • [10].基于Web的校园个人自行车租赁系统[J]. 卫星电视与宽带多媒体 2020(02)
    • [11].基于网站制作的Web前端开发技术与优化[J]. 数字技术与应用 2020(01)
    • [12].基于Web应用的网络安全漏洞发现与研究[J]. 无线互联科技 2020(05)
    • [13].基于Web的动态几何软件领域模型及其应用[J]. 计算机应用 2020(04)
    • [14].基于web技术支持下网络多媒体课件的制作原则及优点[J]. 科技风 2020(13)
    • [15].基于Web的网上教学平台的设计与实现[J]. 科技与创新 2020(07)
    • [16].1+X证书制度与Web前端开发专业融合的探索[J]. 信息与电脑(理论版) 2020(04)
    • [17].基于《web前端页面设计》在线开放课程自主学习探讨[J]. 计算机产品与流通 2020(05)
    • [18].基于WEB的计算机课程辅助教学系统的设计与实现[J]. 计算机产品与流通 2020(05)
    • [19].基于Web的时变体数据的体绘制方法[J]. 计算机测量与控制 2020(04)
    • [20].Web浏览器中数据安全配置的研究[J]. 电脑编程技巧与维护 2020(04)
    • [21].基于实践应用的Web开发技术教学改革研究初探[J]. 科学大众(科学教育) 2020(05)
    • [22].基于Web的桥梁健康监测系统设计与实现[J]. 计算机技术与发展 2020(04)
    • [23].基于Web技术的计算机实验室综合管理系统设计[J]. 电子制作 2020(11)
    • [24].分析校园网中Web服务器的配置及安全防护[J]. 江西电力职业技术学院学报 2020(01)
    • [25].基于Web的研究生学位信息管理系统技术研究[J]. 创新创业理论研究与实践 2020(07)
    • [26].WEB技术在地质资料二次开发中的应用探讨[J]. 中国非金属矿工业导刊 2020(03)
    • [27].基于Web技术的医疗图像脱敏系统的设计与实现[J]. 宁夏工程技术 2020(02)
    • [28].网站制作的Web前端开发设计的相关研究[J]. 卫星电视与宽带多媒体 2020(07)
    • [29].Web开发提高网站性能的技巧[J]. 电脑编程技巧与维护 2020(06)
    • [30].随钻测井地质导向服务WEB版[J]. 国外测井技术 2020(03)

    标签:;  ;  ;  ;  ;  ;  

    面向Web的XML文档数据管理及分类检索技术研究
    下载Doc文档

    猜你喜欢