基于语义的网页相似性研究

基于语义的网页相似性研究

论文摘要

随着计算机网络的高速发展,网络用户以指数级速度增长。一般来说,通过搜索工具,用户使用关键字就可以查找所需资料。搜索工具根据关键字机械地匹配包含该关键字的网页信息。由于在这些网页中包含着大量重复的信息,而用户为避免失去重要的信息,仍旧需要逐一查看。因此,极大的浪费了时间和精力,严重降低了工作效率。本文的研究工作就是为用户提供一个快速精准找到其所需信息的有效途径。因此,本文主要对搜索工具在网页相似性的判断中引入了语义分析技术,可以使搜索工具人性化地了解人的需求,更好的为用户服务。本文在基于语义词典Hownet的基础上,结合词语特征IDF(Inverse Document Frequency),对网页文本进行相似性判断。这种基于语义的网页相似性算法的实现,需要完成以下几个方面的工作:首先,对网页文本进行预处理,包括去除噪声、中文分词和去除停用词。接着对网页进行同义词替换。提取出《同义词词林》中的同义词,对进行相似性判断的关键词进行替换,这样可以提高判断的精确性。然后,采用语义资源Hownet,来计算词汇的相似度。在知网中,词汇所表达的语义知识被描述为概念,概念由一种语言来描述,称之为义原。义原是用于描述一个概念的最小意义单位。首先要在知网中找到词语所对应的概念,因为一个词语的概念一般有多个,那么词语与词语之间的相似度就是各个概念之间相似度的最大值。这样可以看出,词语与词语之间的相似度就转化为了义原之间的相似度。在此基础上,又引入了词语特征IDF。在语义资源的基础上,再与词语特征相结合,取得比较满意的结果。最后,实验验证了把基于语义资源同词语特征相结合算法的优越性,显示了该算法在精确率和召回率方面,都能取得比较满意的效果。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 选题背景及意义
  • 1.1.1 选题背景
  • 1.1.2 选题研究的意义
  • 1.2 网页相似性算法的起源和研究现状
  • 1.3 本文的贡献
  • 1.4 本文的组织
  • 1.4.1 本文的内容安排
  • 1.4.2 存在的问题及解决方法
  • 第二章 网页相似性算法介绍
  • 2.1 网页相似性特点
  • 2.2 经典的网页相似性算法介绍
  • 2.2.1 向量空间模型和 SCAM
  • 2.2.2 基于数字的相似性算法
  • 2.2.3 北大天网网页相似性算法
  • 2.2.4 基于汉明距离的相似性算法
  • 2.2.4.1 汉明码的定义
  • 2.2.4.2 相似性的计算
  • 2.3 各种算法的优缺点
  • 2.4 网页相似性研究存在的问题
  • 2.5 本章小结
  • 第三章 基于语义的网页相似性算法的研究现状
  • 3.1 国外的语义相似性算法的研究
  • 3.1.1 隐性语义索引模型
  • 3.1.2 基于 WORDNET 的语义相似度的计算
  • 3.2 国内的语义相似性算法的研究
  • 3.2.1 基于改进编辑距离的句子相似度的算法
  • 3.2.2 基于语义理解的文本相似度算法
  • 3.2.3 基于知网的语义相似度算法
  • 3.2.4 基于语义树的中文词语相似度计算
  • 3.3 本章小结
  • 第四章 基于语义的网页相似性计算
  • 4.1 对网页进行净化
  • 4.1.1 网页净化方法
  • 4.1.1.1 基于 DOM 树的划分算法
  • 4.1.1.2 基于位置的划分方法
  • 4.1.1.3 基于可视化的去噪方法
  • 4.2 中文分词
  • 4.3 去除停用词
  • 4.4 同义词词林
  • 4.5 基于语义的网页相似性计算
  • 4.5.1 相似性
  • 4.5.2 基于语料库和词语特征的文本相似性算法
  • 4.6 本章小结
  • 第五章 实验设计与试验结果
  • 5.1 实验设计
  • 5.2 实验语料
  • 5.3 实验的衡量方法
  • 5.3.1 综合衡量值
  • 5.4 实验结果对比及数据分析
  • 5.5 本章小结
  • 第六章 总结与展望
  • 6.1 论文的工作总结
  • 6.2 展望
  • 参考文献
  • 致谢
  • 个人简历
  • 相关论文文献

    • [1].打造网页设计创新创业示范课程[J]. 河南教育(职成教) 2019(12)
    • [2].网页设计中计算机图像处理技术的应用[J]. 无线互联科技 2019(21)
    • [3].高职院校网页设计与制作课程教学改革研究[J]. 教育现代化 2019(95)
    • [4].浅谈网页设计与制作课程[J]. 电脑知识与技术 2020(01)
    • [5].浅析水墨元素融入网页设计的架构技巧[J]. 辽宁经济职业技术学院.辽宁经济管理干部学院学报 2019(06)
    • [6].分析计算机图像处理技术在网页设计中的应用价值[J]. 计算机产品与流通 2020(01)
    • [7].网页设计中计算机图像处理技术的应用[J]. 电子技术与软件工程 2019(24)
    • [8].“环球佳”医疗设备企业网页设计[J]. 出版发行研究 2019(12)
    • [9].网页设计在视觉传达设计中表现的形式[J]. 西部皮革 2020(03)
    • [10].论网页设计中计算机图像处理技术的应用[J]. 计算机产品与流通 2020(02)
    • [11].色彩节奏在网页设计中的应用研究[J]. 计算机产品与流通 2020(02)
    • [12].计算机图像处理技术在网页设计中的应用分析[J]. 电子世界 2020(04)
    • [13].网页设计中计算机图像处理技术的应用[J]. 科技风 2020(11)
    • [14].网页设计作品[J]. 上海纺织科技 2020(01)
    • [15].浅析网页设计中的色彩搭配[J]. 农家参谋 2020(01)
    • [16].党政网页电子文件采集与管理研究[J]. 办公室业务 2020(04)
    • [17].基于翻转课堂的《商务网页设计与制作》课程设计研究[J]. 中国多媒体与网络教学学报(中旬刊) 2020(03)
    • [18].水墨动画在网页设计中的应用思考[J]. 中外企业家 2020(12)
    • [19].网页设计中的色彩搭配探讨[J]. 信息与电脑(理论版) 2020(02)
    • [20].浏览器的神奇玩法[J]. 计算机与网络 2020(04)
    • [21].网页欣赏精品分析教学平台的设计[J]. 黑龙江科学 2020(07)
    • [22].关于网页设计与制作方法与应用的探讨[J]. 河北农机 2020(03)
    • [23].基于修辞资源与受众的高校网页简介英译失误分析——以东南地区部分985高校为例[J]. 黑龙江教师发展学院学报 2020(04)
    • [24].关于“网页设计与制作”教学的中高职衔接问题初探[J]. 电脑知识与技术 2020(09)
    • [25].网页设计中计算机图像处理技术的应用[J]. 中外企业家 2020(16)
    • [26].网页档案信息长期保存策略研究[J]. 档案时空 2019(12)
    • [27].中职《网页设计与制作》课程教学综述[J]. 信息记录材料 2020(03)
    • [28].基于眼动跟踪的教育网页“优势区域”论证研究[J]. 现代计算机 2020(13)
    • [29].基于校企合作的《网页设计》课程教学改革研究[J]. 科技创新导报 2019(31)
    • [30].计算机网页设计中的布局与排版[J]. 信息与电脑(理论版) 2020(09)

    标签:;  ;  ;  ;  

    基于语义的网页相似性研究
    下载Doc文档

    猜你喜欢