基于社会化标注的网页检索研究

基于社会化标注的网页检索研究

论文摘要

随着互联网的快速发展,越来越多的新生网页资源开始涌入互联网,这给人们带来了更多的信息量。同时,搜索引擎的出现与发展也给人们从网上获取特定的信息带来了巨大的帮助。但是,网络资源的高速增长给搜索引擎带来了巨大的压力,单纯依靠网页文本信息作为网页元数据的检索方法已经遇到了一些瓶颈。另一方面,随着web2.0的技术的兴起,互联网上出现了越来越多的社会化标注系统。这些系统允许用户通过添加标签的形式来分享自己所喜欢的互联网资源。系统中的标签是用户对网页内容的描述,它们可以当成一种新的网页元数据来使用。本文研究如何利用社会化标注系统中的数据来改善搜索引擎的网页检索效果。.目前关于搜索引擎中网页检索的研究主要集中在以下两个方面:一是利用查询扩展,查询重构,伪相关反馈等技术对原始查询进行处理;二是改进网页的排序顺序。本文所关注的是网页的排序效果。影响网页排序效果的因素主要是网页本身的质量和网页与查询的相关性这两个方面。本文中通过对社会化标注系统中数据进行深入分析的基础上,提出两个算法来改进网页检索的效果。(1)加权的社会化SimRank算法。首先,用社会化标注系统中的数据构建一个只有标注的和网页的二部图,并对边的权值进行合理的量化。然后,根据二部图的特点提出一种基于SimRank的改进算法,即加权的社会化SimRank算法。该算法用于从之前构造的二部图中挖掘标签以及网页之间的相似度。标签之间的相似度用于从网页的相关性方面来改善网页检索。网页之间的相似度用于从网页的质量方面改善网页检索。(2)社会化质量算法。该算法可用于计算社会化标注系统中用户和网页的质量。用户的质量主要取决于用户提交的标注词与相应资源的语义相关性。资源的质量则取决于标注过它的用户的数量。标注一个资源的用户数越多,则该资源越受欢迎,其质量越高。同时,在用户和资源之间存在一个互增强关系。对于高质量的用户来说,其所标注过的资源的质量往往也比较高。同时,对于高质量的资源来说,其标注者往往质量也比较高。该算法计算得到的网页质量可以融合到网页的排序过程当中,从而提高检索效果。本文的实验是在从del.icio.us网站上抽取的真实标注数据集上进行的,通过多种方式对实验结果进行了评价,实验结果表明本文提出的两个算法较传统方法有较大的改进,网页检索效果令人满意。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 研究背景
  • 1.2 研究现状
  • 1.3 本文的工作
  • 1.4 本文的结构
  • 2 网页检索技术
  • 2.1 查询扩展
  • 2.1.1 基于关键词的查询扩展技术
  • 2.1.2 基于语义概念的查询扩展技术
  • 2.2 相关性计算模型
  • 2.2.1 布尔模型
  • 2.2.2 向量空间模型
  • 2.2.3 概率模型
  • 2.2.4 语言模型
  • 2.3 网页质量评价
  • 2.3.1 PageRank算法
  • 2.3.2 HITS算法
  • 2.4 本章小结
  • 3. 社会化标注
  • 3.1 社会化标注简介
  • 3.2 社会化标注的结构和特点
  • 3.3 社会化标注存在的问题
  • 3.4 社会化标注的相关研究
  • 3.4.1 社会化标注数据特点的研究
  • 3.4.2 社会化标注的具体应用
  • 3.5 本章小结
  • 4 基于标签以及网页相似度的网页检索技术
  • 4.1 相关方法简介
  • 4.1.1 SSR算法
  • 4.1.2 FolkRank算法
  • 4.2 基于加权的社会化SimRank算法的网页检索技术
  • 4.2.1 标签和网页之间的边上权值的量化
  • 4.2.2 WSSR算法的提出
  • 4.2.3 基于WSSR算法的网页检索
  • 4.3 实验设计
  • 4.3.1 实验语料
  • 4.3.2 对比实验
  • 4.4 实验结果和分析
  • 4.4.1 网页标签信息的作用
  • 4.4.2 WSSR算法的改进效果
  • 4.4.3 网页静态质量的作用
  • 4.5 本章小结
  • 5. 基于网页质量的网页检索技术
  • 5.1 相关方法简介
  • 5.2 基于社会化质量算法的网页检索技术
  • 5.2.1 社会化质量算法
  • 5.2.2 用户和资源的初始质量值
  • 5.2.3 用户与资源之间的转移概率
  • 5.3 实验设计
  • 5.3.1 实验数据
  • 5.3.2 LDA模型估计
  • 5.3.3 多种算法模型
  • 5.3.4 用户质量评价
  • 5.3.5 网页质量评价
  • 5.4 实验结果和分析
  • SQ vs. USERSQ'>5.4.1 LDASQ vs. USERSQ
  • 5.4.2 SQ vs. FR and SPR
  • 5.5 本章小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表学术论文情况
  • 致谢
  • 相关论文文献

    • [1].打造网页设计创新创业示范课程[J]. 河南教育(职成教) 2019(12)
    • [2].网页设计中计算机图像处理技术的应用[J]. 无线互联科技 2019(21)
    • [3].高职院校网页设计与制作课程教学改革研究[J]. 教育现代化 2019(95)
    • [4].浅谈网页设计与制作课程[J]. 电脑知识与技术 2020(01)
    • [5].浅析水墨元素融入网页设计的架构技巧[J]. 辽宁经济职业技术学院.辽宁经济管理干部学院学报 2019(06)
    • [6].分析计算机图像处理技术在网页设计中的应用价值[J]. 计算机产品与流通 2020(01)
    • [7].网页设计中计算机图像处理技术的应用[J]. 电子技术与软件工程 2019(24)
    • [8].“环球佳”医疗设备企业网页设计[J]. 出版发行研究 2019(12)
    • [9].网页设计在视觉传达设计中表现的形式[J]. 西部皮革 2020(03)
    • [10].论网页设计中计算机图像处理技术的应用[J]. 计算机产品与流通 2020(02)
    • [11].色彩节奏在网页设计中的应用研究[J]. 计算机产品与流通 2020(02)
    • [12].计算机图像处理技术在网页设计中的应用分析[J]. 电子世界 2020(04)
    • [13].网页设计中计算机图像处理技术的应用[J]. 科技风 2020(11)
    • [14].网页设计作品[J]. 上海纺织科技 2020(01)
    • [15].浅析网页设计中的色彩搭配[J]. 农家参谋 2020(01)
    • [16].党政网页电子文件采集与管理研究[J]. 办公室业务 2020(04)
    • [17].基于翻转课堂的《商务网页设计与制作》课程设计研究[J]. 中国多媒体与网络教学学报(中旬刊) 2020(03)
    • [18].水墨动画在网页设计中的应用思考[J]. 中外企业家 2020(12)
    • [19].网页设计中的色彩搭配探讨[J]. 信息与电脑(理论版) 2020(02)
    • [20].浏览器的神奇玩法[J]. 计算机与网络 2020(04)
    • [21].网页欣赏精品分析教学平台的设计[J]. 黑龙江科学 2020(07)
    • [22].关于网页设计与制作方法与应用的探讨[J]. 河北农机 2020(03)
    • [23].基于修辞资源与受众的高校网页简介英译失误分析——以东南地区部分985高校为例[J]. 黑龙江教师发展学院学报 2020(04)
    • [24].关于“网页设计与制作”教学的中高职衔接问题初探[J]. 电脑知识与技术 2020(09)
    • [25].网页设计中计算机图像处理技术的应用[J]. 中外企业家 2020(16)
    • [26].网页档案信息长期保存策略研究[J]. 档案时空 2019(12)
    • [27].中职《网页设计与制作》课程教学综述[J]. 信息记录材料 2020(03)
    • [28].基于眼动跟踪的教育网页“优势区域”论证研究[J]. 现代计算机 2020(13)
    • [29].基于校企合作的《网页设计》课程教学改革研究[J]. 科技创新导报 2019(31)
    • [30].计算机网页设计中的布局与排版[J]. 信息与电脑(理论版) 2020(09)

    标签:;  ;  ;  ;  

    基于社会化标注的网页检索研究
    下载Doc文档

    猜你喜欢