论文摘要
随着网络时代的快速发展,信息资源的快速增加,用户对信息资源的筛选和利用,已经成为人们信息生活中的一个日趋严重的问题,而信息资源的相似度计算则能对这个问题的解决提供很好的帮助。现在的语义相似度计算已经取得了很多进展,但同时其还有一些缺点是由其先天性的技术缺陷造成的,其忽略了节点中的语义。每一个节点都含有特定的语义,不同的节点其结构、定义、所处文档的层次可能不同,但其语义可能是相似的。为了解决这些问题,本论文分析了XML的语义问题,并提出了一个基于XML2OWL的从XML文档到OWL文档的生成方法。在该方法的基础上我们提出了一个改进后的基于本体的语义相似度计算方法,由于XML的结构性,该公式充分考虑了影响语义相似度的五大主要因素——概念,密度,语义权重,深度,和非层次结构下的语义权重,并通过实例比较设定了因素中的影响参数,使其能够适用于大多数文档情况。为验证该公式相比传统的语义距离公式的效果的提升,我们应用实例仿真对该公式进行了验证。实验结果表明,该方法在文本的语义相似度处于[0.4,0.8]时,改进后的计算方法能够更好的区分出文档节点之间的相似度,给予文档更好的聚类。
论文目录
摘要ABSTRACT主要符号说明第一章 绪论1.1 研究背景1.2 国内外研究现状1.2.1 本体抽取及构建技术1.2.2 语义本体相似度算法1.3 主要研究内容1.4 相关工作第二章 语义网及XML 技术2.1 语义 Web2.2 XML 技术2.2.1 XML 的特点2.2.2 XML 的隐式语义表达2.2.3 XML 片段2.2.4 XML Schema 原理简介2.3 XML Schema 挖掘算法2.3.1 元素聚类效果判断算法2.3.2 Schema 的生成2.3.3 实例说明及实验2.3.4 实验结果2.4 本章小结第三章 基于 XML 的本体生成方法3.1 实现框架3.2 XML Schema 到 OWL Model 的转换3.2.1 简单 XML Schema 数据类型3.2.2 属性3.2.3 元素3.2.4 复杂类型3.2.5 特定顺序和选择顺序3.2.6 引用3.3 本章小结第四章 基于本体的语义相似度4.1 语义的概念4.1.1 语义在计算机中的表示形式4.1.2 数据的语义4.2 基于本体的web 文档聚类4.2.1 DOM 简介4.2.2 文档聚类流程改进4.3 对传统语义本体相似度算法的改进4.3.1 传统语义本体相似度算法4.3.2 影响算法精确度的因素4.3.3 算法改进4.4 本章小结第五章 计算公式演示及其应用5.1 θ、R 公式运算过程演示及参数设定5.1.1 θ、R 运算过程演示5.1.2 θ、R 中的参数的设定5.2 语义关系权重和密度公式的运算演示及参数设定5.2.1 公式运算演示5.2.2 参数设定5.3 仿真实验结果及分析5.4 本章小结第六章 结束语6.1 工作回顾6.2 本课题今后需进一步研究的地方参考文献个人简历 在读期间发表的学术论文致谢
相关论文文献
标签:语义论文; 节点相似度论文; 语义相似度论文; 文档聚类论文;