XML内容路由关键技术研究

XML内容路由关键技术研究

论文摘要

随着信息高速公路的发展,互联网上出现了大量采用事件-驱动模式的应用,如主动服务中的发布订阅系统、基于内容的XML路由、XML文档分发以及新闻传递等。这类应用中,信息以XML流的形式由一系列生产者经过事件代理传递到另一些消费者手中;消费者通过过滤引擎进行订阅。由于仅与XML的内容本身有关,而与信息在何处发布无关,这种路由方式常被称作内容路由。然而,现有的内容路由技术在高效匹配算法、对异构事件处理等方面尚存一些问题。扩展标记语言XML作为一种数据表示和交换的标准,具有自描述性、可扩展性、利于异构数据交换等诸多优点。本文以XML为事件模型、XPath作为多用户订阅模型来研究内容路由的若干关键技术。本文提出了一种基于hedge文法的HXFA机来处理XML发布流事件,并给出了HXFA机的过滤优化算法及算法正确性分析。最后,将多个HXFA机合并作为系统的过滤引擎。从算法的效率和可扩展性方面进行实验分析,提出的方法优于著名的内容过滤引擎YFilter。分析了现有XML相似性模型的优缺点,针对这些模型的不足,扩展了向量空间模型,提出了基于语义和支持度的层次路径模型,并给出其生成算法及复杂度分析。模型首先挖掘文档集中频繁出现的路径,通过文档中的语义信息来合并重复节点、路径,同时对文档特征向量进行维数规约。最后给出基于语义和支持度的距离测度方法。该方法兼顾了XML文档的结构信息和语义信息两个方面的相似性。与树编辑距离模型相比,不但每个文档具有“类原型”描述,而且在时间开销上有较大优势。根据H path模型,提出一种基于改进粒子群优化的XML文档聚类方法。首先将文档集映射到粒子群模型问题空间,然后利用粒子群聚类方法进行聚类,最终权衡了时间和准确性两方面因素,进一步提出混合的粒子群聚类方法,增强了聚类收敛程度和准确程度。尽管提出的模型在提取时已进行了数据归约,然而对于冗余的、异构的XML文档而言,高维灾难问题仍然存在。针对此问题,提出一种独立分量分析的预分类方法。该方法首先对文档矩阵进行维数归约,随后在独立分量张成的空间中进行聚类分析。采用本方法有两个优点:第一,去除相关冗余,挖掘更具有区分能力的特性并尽量刻画潜在的数据分布,从而增加聚类准确性。第二,通过有效降低向量空间的维数,大大压缩了搜索空间规模,减小开销。最后,提出了一个支持异构事件处理的XML发布/订阅系统体系结构。该系统反应了本研究中提出的内容路由技术是如何应用的。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题研究目的及意义
  • 1.2 内容路由技术存在的问题
  • 1.3 XML背景介绍
  • 1.4 论文的主要工作
  • 1.5 论文的组织结构
  • 第2章 XML内容路由相关技术
  • 2.1 XML数据模型及查询语言
  • 2.1.1 XML数据模型
  • 2.1.2 XML文档类型定义
  • 2.1.3 XPath查询语言
  • 2.2 XML流
  • 2.2.1 XML解析方式
  • 2.2.2 数据流简介
  • 2.2.3 XML解析事件流
  • 2.3 内容路由及发布/订阅系统
  • 2.3.1 内容路由
  • 2.3.2 发布订阅系统
  • 2.4 本章小结
  • 第3章 基于hedge文法的内容过滤引擎
  • 3.1 引言
  • 3.2 hedge文法及其扩展
  • 3.2.1 森林相关定义及扩展hedge文法
  • 3.2.2 基于hedge文法的XML自动机
  • 3.3 基于HXEA机XML流过滤算法
  • 3.3.1 相关工作
  • 3.3.2 HXFA机构造算法
  • 3.3.3 HXFA机工作方式
  • 3.3.4 DTD的简化
  • 3.3.5 森林模式约束下HXEA机优化方法
  • 3.3.6 算法分析
  • 3.4 支持多用户查询MHXEA机
  • 3.5 实验分析
  • 3.5.1 实验环境设置
  • 3.5.2 时间测量标准
  • 3.5.3 实验比较分析
  • 3.6 本章小结
  • 第4章 基于改进粒子群优化的XML混合聚类分析
  • 4.1 引言
  • 4.2 相似性测度研究
  • 4.2.1 基于树模型方法
  • 4.2.2 基于向量空间模型方法
  • 4.2.3 其他相似性测度模型
  • 4.3 基于语义和支持度的层次路径度量方法
  • 4.3.1 频繁序列挖掘算法
  • 4.3.2 基于语义和支持度的层次路径模型
  • 4.3.3 模型相似性测度方法
  • 4.3.4 模型生成算法及实例
  • 4.3.5 算法分析
  • 4.4 基于改进粒子群优化的XML文档聚类分析
  • 4.4.1 K均值方法
  • 4.4.2 粒子群优化
  • 4.4.3 混沌运动
  • 4.4.4 改进粒子群聚类算法CIP
  • 4.4.5 混合聚类算法MCPX
  • 4.5 实验结果及分析
  • 4.5.1 实验准备
  • 4.5.2 算法准确性测试
  • 4.5.3 算法收敛性测试
  • 4.6 本章小结
  • 第5章 基于独立成分分析的高维预处理方法
  • 5.1 引言
  • 5.2 针对嵌套路径的数据清理
  • 5.3 基于独立成分分析的维数约简方法
  • 5.3.1 动机
  • 5.3.2 独立分量分析
  • 5.3.3 文档矩阵的独立分量描述
  • 5.3.4 FastICA算法
  • 5.3.5 实验分析
  • 5.4 本章小结
  • 第6章 基于hedge文法的发布/订阅系统体系结构
  • 6.1 发布/订阅系统设计目标
  • 6.2 发布/订阅系统的关键技术
  • 6.3 MHXEA系统体系结构
  • 6.3.1 过滤引擎
  • 6.3.2 异构事件预处理模块
  • 6.3.3 事件分发模块
  • 6.3.4 MHXEA系统体系结构的特点
  • 6.4 本章小结
  • 结论
  • 参考文献
  • 攻读博士学位期间发表的论文和取得的科研成果
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    XML内容路由关键技术研究
    下载Doc文档

    猜你喜欢