论文摘要
随着信息高速公路的发展,互联网上出现了大量采用事件-驱动模式的应用,如主动服务中的发布订阅系统、基于内容的XML路由、XML文档分发以及新闻传递等。这类应用中,信息以XML流的形式由一系列生产者经过事件代理传递到另一些消费者手中;消费者通过过滤引擎进行订阅。由于仅与XML的内容本身有关,而与信息在何处发布无关,这种路由方式常被称作内容路由。然而,现有的内容路由技术在高效匹配算法、对异构事件处理等方面尚存一些问题。扩展标记语言XML作为一种数据表示和交换的标准,具有自描述性、可扩展性、利于异构数据交换等诸多优点。本文以XML为事件模型、XPath作为多用户订阅模型来研究内容路由的若干关键技术。本文提出了一种基于hedge文法的HXFA机来处理XML发布流事件,并给出了HXFA机的过滤优化算法及算法正确性分析。最后,将多个HXFA机合并作为系统的过滤引擎。从算法的效率和可扩展性方面进行实验分析,提出的方法优于著名的内容过滤引擎YFilter。分析了现有XML相似性模型的优缺点,针对这些模型的不足,扩展了向量空间模型,提出了基于语义和支持度的层次路径模型,并给出其生成算法及复杂度分析。模型首先挖掘文档集中频繁出现的路径,通过文档中的语义信息来合并重复节点、路径,同时对文档特征向量进行维数规约。最后给出基于语义和支持度的距离测度方法。该方法兼顾了XML文档的结构信息和语义信息两个方面的相似性。与树编辑距离模型相比,不但每个文档具有“类原型”描述,而且在时间开销上有较大优势。根据H path模型,提出一种基于改进粒子群优化的XML文档聚类方法。首先将文档集映射到粒子群模型问题空间,然后利用粒子群聚类方法进行聚类,最终权衡了时间和准确性两方面因素,进一步提出混合的粒子群聚类方法,增强了聚类收敛程度和准确程度。尽管提出的模型在提取时已进行了数据归约,然而对于冗余的、异构的XML文档而言,高维灾难问题仍然存在。针对此问题,提出一种独立分量分析的预分类方法。该方法首先对文档矩阵进行维数归约,随后在独立分量张成的空间中进行聚类分析。采用本方法有两个优点:第一,去除相关冗余,挖掘更具有区分能力的特性并尽量刻画潜在的数据分布,从而增加聚类准确性。第二,通过有效降低向量空间的维数,大大压缩了搜索空间规模,减小开销。最后,提出了一个支持异构事件处理的XML发布/订阅系统体系结构。该系统反应了本研究中提出的内容路由技术是如何应用的。
论文目录
摘要Abstract第1章 绪论1.1 课题研究目的及意义1.2 内容路由技术存在的问题1.3 XML背景介绍1.4 论文的主要工作1.5 论文的组织结构第2章 XML内容路由相关技术2.1 XML数据模型及查询语言2.1.1 XML数据模型2.1.2 XML文档类型定义2.1.3 XPath查询语言2.2 XML流2.2.1 XML解析方式2.2.2 数据流简介2.2.3 XML解析事件流2.3 内容路由及发布/订阅系统2.3.1 内容路由2.3.2 发布订阅系统2.4 本章小结第3章 基于hedge文法的内容过滤引擎3.1 引言3.2 hedge文法及其扩展3.2.1 森林相关定义及扩展hedge文法3.2.2 基于hedge文法的XML自动机3.3 基于HXEA机XML流过滤算法3.3.1 相关工作3.3.2 HXFA机构造算法3.3.3 HXFA机工作方式3.3.4 DTD的简化3.3.5 森林模式约束下HXEA机优化方法3.3.6 算法分析3.4 支持多用户查询MHXEA机3.5 实验分析3.5.1 实验环境设置3.5.2 时间测量标准3.5.3 实验比较分析3.6 本章小结第4章 基于改进粒子群优化的XML混合聚类分析4.1 引言4.2 相似性测度研究4.2.1 基于树模型方法4.2.2 基于向量空间模型方法4.2.3 其他相似性测度模型4.3 基于语义和支持度的层次路径度量方法4.3.1 频繁序列挖掘算法4.3.2 基于语义和支持度的层次路径模型4.3.3 模型相似性测度方法4.3.4 模型生成算法及实例4.3.5 算法分析4.4 基于改进粒子群优化的XML文档聚类分析4.4.1 K均值方法4.4.2 粒子群优化4.4.3 混沌运动4.4.4 改进粒子群聚类算法CIP4.4.5 混合聚类算法MCPX4.5 实验结果及分析4.5.1 实验准备4.5.2 算法准确性测试4.5.3 算法收敛性测试4.6 本章小结第5章 基于独立成分分析的高维预处理方法5.1 引言5.2 针对嵌套路径的数据清理5.3 基于独立成分分析的维数约简方法5.3.1 动机5.3.2 独立分量分析5.3.3 文档矩阵的独立分量描述5.3.4 FastICA算法5.3.5 实验分析5.4 本章小结第6章 基于hedge文法的发布/订阅系统体系结构6.1 发布/订阅系统设计目标6.2 发布/订阅系统的关键技术6.3 MHXEA系统体系结构6.3.1 过滤引擎6.3.2 异构事件预处理模块6.3.3 事件分发模块6.3.4 MHXEA系统体系结构的特点6.4 本章小结结论参考文献攻读博士学位期间发表的论文和取得的科研成果致谢
相关论文文献
标签:内容路由论文; 发布论文; 订阅论文; 粒子群优化论文; 森林自动机论文;