Web信息语义特征获取技术

Web信息语义特征获取技术

论文摘要

随着网络的发展及个人电脑的普及,越来越多的信息被发布到因特网上。Web信息门类齐全、数据量庞大,几乎无所不包,然而面对如此庞大的信息海洋,用户关心的只是其中很小的一部分信息,需要提供有效的搜索引擎或信息集成工具,帮助用户快速、准确地找到其所感兴趣的信息。在海量Web数据空间中,Web信息通常以网站的形式进行组织,各网站设置自己的分类目录以实现信息页面按类别组织和发布。然而不同网站进行类别划分时,标准不统一,分类用语不规范,存在明显的语义差异,难以相互兼容、合并,更无法实现多源Web信息的有效集成。因此迫切需要提供一种有效的Web信息语义特征表示方式,以解决网站分类语义异构问题。为解决网站分类信息的语义异构问题,本文阐述了基于向量空间模型和基于重复模式的语义特征表示方法及两种表示方法的语义更新策略。在分类体系中,将分类概念作为描述Web信息类别的原子节点,通过标准化的分类概念语义特征体现Web信息类别的潜在语义信息,从而实现Web信息的统一理解和规范性描述。以网站分类语义统一理解及规范性描述为核心,为实现Web信息语义特征标准化,本文的研究内容包括:Web页面信息获取技术,Web信息语义特征表示方法研究及Web信息语义特征时效性及更新策略研究。首先,完成Web页面信息下载和HTML标签解析,从Web页面及其结构中提取出描述及表示语义特征的有用信息,改进现有TF-IDF权重计算算法,提高特征项权重的准确度;其次,分别采用两种表示方法进行Web信息语义特征规范化描述。基于向量空间模型的语义特征表示方法通过对样本网页分词、数据清理、特征权重计算、特征选取、生成特征向量等操作将每个分类概念表示成特征向量。基于重复模式的Web信息语义特征表示方法采用相关矩阵法发现Web网页中所有的重复模式,通过γ近似匹配算法对不同类别中相似的重复模式进行归一化处理,得到分类体系中每个分类概念的重复模式及重复次数对语义特征进行表示;最后,根据Web信息变化性和时效不确定性,制定语义特征更新策略,在相应时间内更新所属分类概念的语义特征,使语义特征的表示更加准确。

论文目录

  • 摘要
  • Abstract
  • 第一章 前言
  • 1.1 研究背景
  • 1.2 研究内容
  • 1.3 本文工作及结构框架
  • 第二章 研究基础
  • 2.1 Web信息语义特征表示方法
  • 2.1.1 向量空间模型表示方法
  • 2.1.2 音频数据检索中的重复片断搜索算法
  • 2.2 Web信息分类技术
  • 2.3 基于分类概念模型的Web系统描述
  • 2.4 小结
  • 第三章 基于向量空间模型的语义特征描述及获取方法
  • 3.1 Web页面位置信息获取技术
  • 3.1.1 HTML文档解析技术
  • 3.1.2 Web信息预处理过程
  • 3.1.3 抽取位置信息算法
  • 3.2 基于向量空间模型的语义特征表示方法
  • 3.2.1 Web信息分词技术
  • 3.2.2 特征权重计算算法及改进
  • 3.2.3 特征抽取机制
  • 3.2.4 Racchio公式计算核心向量过程
  • 3.2.5 特征向量相似度计算算法
  • 3.3 对比实验
  • 3.3.1 特征选取对比实验
  • 3.3.2 带有位置信息Web页面与自由文本式Web页面分类对比实验
  • 3.4 小结
  • 第四章 基于重复模式的语义特征描述及获取方法
  • 4.1 基于重复模式的语义特征表示方法
  • 4.1.1 概念定义
  • 4.1.2 建立相关矩阵抽取重复模式过程
  • 4.1.3 重复模式抽取规则
  • 4.1.4 归一化重复模式的γ近似匹配算法
  • 4.1.5 计算重复模式权重并进行测试集分类过程
  • 4.2 重复模式表示法实验分析
  • 4.2.1 实验样例
  • 4.2.2 实验结果
  • 4.3 小结
  • 第五章 Web信息语义特征的更新
  • 5.1 Web信息时效性研究
  • 5.2 Web信息语义特征更新机制
  • 5.3 小结
  • 第六章 结束语
  • 参考文献
  • 致谢
  • 相关论文文献

    • [1].基于重复模式的信息语义表示方法的研究[J]. 小型微型计算机系统 2009(01)
    • [2].基于本体的地理信息语义共享方法[J]. 测绘工程 2012(06)
    • [3].网络舆情信息语义识别关键技术分析[J]. 图书情报工作 2015(21)
    • [4].基于领域本体的区域临床信息语义共享方法研究[J]. 包头医学院学报 2015(10)
    • [5].“内容因果作用的外在主义难题”及其信息语义学解答[J]. 自然辩证法研究 2014(07)
    • [6].孪生地球思想实验的信息语义学解读及其争论[J]. 自然辩证法研究 2011(08)
    • [7].网络信息语义组织及检索研究[J]. 图书馆学研究 2010(17)
    • [8].突发事件驱动的信息语义组织与跨领域协同处理模型[J]. 情报理论与实践 2014(11)
    • [9].基于可拓论的SDN管理信息语义不匹配问题研究[J]. 广东工业大学学报 2017(04)
    • [10].管网材料腐蚀信息语义检索系统的设计与实现[J]. 南华大学学报(自然科学版) 2012(01)
    • [11].统一数据标准实现业务协同[J]. 信息技术 2010(06)
    • [12].地理信息语义的LOD表达与相似性度量[J]. 武汉大学学报(信息科学版) 2016(10)
    • [13].基于知识情境协作的企业竞争信息语义获取与过滤研究[J]. 东北师大学报(哲学社会科学版) 2013(04)
    • [14].地理信息语义尺度及其变换机制问题研究[J]. 河南大学学报(自然科学版) 2010(03)
    • [15].基于领域本体的文本信息语义检索研究[J]. 科技资讯 2009(36)
    • [16].继电保护信息语义智能识别算法的研究与应用[J]. 电力系统保护与控制 2018(03)
    • [17].语义网中基于本体的语义信任计算研究[J]. 计算机应用 2008(02)
    • [18].法律信息语义检索方法研究[J]. 法律文献信息与研究 2009(04)
    • [19].面向政府决策需求的社会舆情信息语义组织研究[J]. 现代图书情报技术 2016(Z1)
    • [20].网络舆情语义倾向性的隶属度研究[J]. 图书情报工作 2015(21)
    • [21].领域本体学习资源分配模型设计[J]. 计算机教育 2008(16)
    • [22].浅析企业信息公开的风险及规避办法[J]. 北方经贸 2008(04)
    • [23].一种新的地理本体构建方法分析[J]. 测绘科学 2013(03)
    • [24].社会关系网络分析基础理论:现状与展望[J]. 武汉理工大学学报(信息与管理工程版) 2016(01)

    标签:;  ;  ;  ;  ;  

    Web信息语义特征获取技术
    下载Doc文档

    猜你喜欢