论文题目: 面向Web的XML检索关键技术研究
论文类型: 博士论文
论文专业: 计算机应用技术
作者: 梁作鹏
导师: 董逸生
关键词: 索引结构,信息检索,文档聚类,检索模型
文献来源: 东南大学
发表年度: 2005
论文摘要: Web作为一个全球化信息空间,蕴含着海量的信息和知识。随着Web上资源的日趋丰富,各种基于Web的信息检索服务应运而生并得到了迅速发展。实践证明,Web搜索引擎是一个非常有用的信息检索工具。但对任一用户查询,搜索引擎都将返回成千上万个所谓的“匹配”文档,其中可能只有一小部分与用户的查询目标有关,而绝大部分毫无关系。如何组织和消化如此大量的信息,一直是困扰着最终用户的难题。如何帮助用户准确提出信息需求,并快速获得“满意”的查询结果,从而提高检索的效率,一直是研究的热点。尽管目前有大量的研究工作关注于Web数据检索,但现有的技术还远不能令人满意。目前XML已经成为表示Web上多样性数据的事实标准,可以预见Web上的数据将主要以XML形式存在。XML规范的提出,使得信息的组织更加规范,使更准确的信息查询成为可能。随着XML获得越来越广泛的应用以及Web技术的不断发展,如何检索Web上海量的XML数据受到学术界越来越多的重视。在对目前国内外研究现状进行深入剖析的基础上,本文提出了一种面向Web的XML信息检索系统解决方案,对其中的检索模型、文档聚类、索引以及检索等关键技术进行了深入研究。本文的主要工作可以概括为以下几个方面:1.提出了检索模型X2VSM。针对Web上XML信息检索的特点,本文对目前信息检索系统中应用最广泛的信息检索模型-向量空间模型(VSM)进行了扩展,提出了适合XML的信息检索模型X2VSM。与VSM中的关键词term对应,加入相应的路径限定信息,提出了XTerm的概念;针对XML的元素嵌套的特点,提出逻辑文档的概念;提出逻辑XML文档和XML查询的统一向量表示方法;定义了XTerm的权重计算方法,并给出了文档和查询向量的相似度计算方法。X2VSM支持对XML文档进行内容和结构查询,支持任意嵌套层次的元素作为返回结果,还支持基于内容和结构相关性的查询结果排序,同时继承和保持了VSM简单易用等优点。2.研究了XML文档的聚类。分析和比较了直接和间接的聚类策略,在此基础上提出一种基于路径信息的XML文档间接结构聚类算法PBSC。它没有直接计算文档的结构距离,而是采用间接聚类的策略。与其它基于编辑距离的算法相比,具有算法简单、效率较高以及聚类过程直观等优点。聚类结果可用于用户导航以及提高检索的效果。3.研究了XML的结构索引问题。提出一种基于广义后缀树的XML结构索引PIGST。通过PIGST,把对XML文档的路径查询转换为后缀树中的字符串匹配,显著提高了查询处理效率;对传统的后缀树构建算法做了改进,使之能够用来创建由路径集合转换得到的字符串集合的广义后缀树;提出了间接包含路径查询,即查询式包含子孙-后代关系(含有“//”)的高效处理算法。PIGST的构造时间复杂度和空间复杂度是线性的,只与查询字符串的长度有关。4.研究了查询处理算法。基于我们提出的XML信息检索模型X2VSM,提出了一种支持XML元素相关性计算的查询处理算法;对传统的倒排索引进行了扩展,提出了一种带Dewey编码的倒排索引;结合结构索引PIGST,提出了一种高效的内容索引和结构索引的联合索引结构,以支持对XML文档的检索及权重的动态计算;研究了路径的相似性问题,给出相应的计算方法,并将其集成于查询处理算法XRank,使XRank不仅支持内容相关排序,同时还支持结构(路径)相关性排序。
论文目录:
摘要
ABSTRACT
第一章 绪论
1.1 研究背景
1.1.1 信息检索技术的发展
1.1.2 Web 技术发展为信息检索带来新的挑战
1.1.3 XML 为Web 信息检索带来新的希望
1.2 研究现状
1.2.1 现有的解决方案及存在的问题
1.2.2 需要解决的问题
1.3 研究方案
1.3.1 我们的解决方案
1.3.2 主要研究内容
1.4 主要成果
1.5 论文的组织
第二章 研究基础
2.1 WEB 的发展
2.2 XML
2.2.1 XML 的特点及应用
2.2.2 XML 数据的有关概念
2.2.3 XML 数据模式及其相关概念
2.2.4 应用程序接口
2.3 XML 信息检索
2.3.1 信息检索概念
2.3.2 XML 文档的类别
2.3.3 XML 文本文档检索策略的选择
2.3.4 XML 信息检索返回的结果
2.4 本章小结
第三章 XML 信息检索模型
3.1 信息检索模型
3.2 信息检索模型的分类
3.3 向量空间模型
3.3.1 向量空间
3.3.2 权重
3.3.3 文档与查询之间的相关性
3.4 支持XML 的扩展向量模型(EXTENSIBLE VSM FOR XML, X2VSM)
3.5 本章小结
第四章 XML 文档聚类
4.1 引言
4.2 基于结构信息的XML 文档聚类
4.2.1 XML 文档结构距离定义
4.2.2 类间距离定义
4.2.3 聚类算法
4.3 基于路径的间接聚类算法(PBSC)
4.4 实验与结果分析
4.4.1 准确率测试
4.4.2 效率测试
4.5 本章小结
第五章 XML 结构索引
5.1 引言
5.2 相关工作
5.3 基于广义后缀树的路径索引PIGST
5.3.1 后缀树
5.3.2 后缀树的构造算法
5.3.3 基于广义后缀树的路径索引PIGST
5.4 查询处理
5.5 实验
5.6 本章小结
第六章 查询处理与结果排序
6.1 引言
6.2 内容索引
6.2.1 倒排索引
6.2.2 结合Dewey ID 的倒排索引
6.3 结构和内容的联合索引
6.4 路径相似性
6.5 权重的动态计算
6.6 查询处理算法XRANK
6.7 实验与分析
6.8 本章小结
第七章 总结与展望
7.1 论文总结
7.2 未来工作展望
参考文献
致谢
附录
附录1 参与的科研项目
附录2 攻读博士学位期间发表及录用的论文
发布时间: 2007-06-11
参考文献
- [1].基于场论的信息检索模型的研究[D]. 杨为民.安徽大学2007
- [2].基于术语关系的贝叶斯网络信息检索模型扩展研究[D]. 徐建民.天津大学2007
- [3].基于商空间理论的海量信息检索模型的研究[D]. 陈圣兵.安徽大学2010
- [4].基于排序学习的信息检索模型研究[D]. 程凡.中国科学技术大学2012
- [5].信息检索中Markov网络图模型研究[D]. 左家莉.江西财经大学2011
- [6].基于语义处理技术的信息检索模型研究[D]. 王瑞琴.浙江大学2009
相关论文
- [1].基于关系数据库的XML数据存储、更新和检索[D]. 胥正川.复旦大学2003
- [2].XML非完全结构查询处理中若干关键技术的研究[D]. 李晓光.东北大学2006
- [3].XML内容路由关键技术研究[D]. 王桐.哈尔滨工程大学2006