基于页面划分的网面预测

基于页面划分的网面预测

论文摘要

面向主题的爬行技术目前已经成为网络信息检索领域新的研究热点之一。而如何让计算机来模拟人在预测未下载的网页与查询主题是否相关时的行为,即通过学习相关领域的知识不断提高对网页预测的准确度是面向主题的爬行技术中的核心问题。传统的网页预测方法主要是以已下载网页的内容信息和链接信息等作为网页预测的依据,并且在预测的过程中把整个页面作为最小的处理单元。这种处理方式在互联网的早期,即网页大多数属于静态的单一主题模式时的效果是比较理想的。但是随着互联网中的网页复杂度大大增高,网页转向动态的多元主题模式,传统的网页预测方法得到的准确度大大降低。本论文提出一种适用性更好的网页预测的方法,即基于页面划分的网页预测方法。它综合运用了页面划分和网页预测的技术,首先运用适当的页面划分技术,将待爬行页面划分为若干个只具有一个明确的主题或者功能的最大化的页面块,我们称之为“pagele 块”;然后引入了“兴趣度”的概念来度量待爬行页面与用户查询主题的相关程度,我们通过爬行过程中积累的相关的领域知识,比如说页面的内容信息、地址信息、父亲链接信息和兄弟连接信息等,计算pagelet 块与用户查询主题的兴趣度;接着我们利用实验得到的概率模型对基于各种信息得到的兴趣度进行加权处理,得到“加权兴趣度”;最后根据相应的加权兴趣度进行网页预测。这种方法将传统方法中以整个页面的所有信息作为最小处理单元的粗粒度的处理方式细化,充分的利用网页中相关的细节信息获得更多的领域知识,更适应目前互联网中网页复杂度增高的趋势。初步实验的结果是令人鼓舞的,同时我们又对未来的工作提出了一些新的挑战和技术可能性。

论文目录

  • 提要
  • 第1章 引言
  • 1.1 关于搜索引擎技术和面向主题的爬行技术
  • 1.2 网页预测面临的技术挑战
  • 1.3 论文的主要工作
  • 第2章 网页预测的相关技术
  • 2.1 相关术语
  • 2.1.1 离线初始化阶段
  • 2.1.2 在线爬行阶段
  • 2.2 网页预测的相关技术
  • 2.2.1 获取相关的领域知识
  • 2.2.2 穿越隧道(tunnel)页面
  • 2.2.3 在线进行机器学习
  • 2.3 总结
  • 第3章 基于页面划分的网页预测
  • 3.1 分析现有的网页预测方法
  • 3.2 页面划分方法
  • 3.3 基于页面划分的网页预测
  • 3.3.1 算法的基本模型
  • 3.3.2 基于内容信息的预测
  • 3.3.3 基于页面地址(URL)信息的预测
  • 3.3.4 基于父链接信息的预测
  • 3.3.5 基于兄弟链接信息的预测
  • 3.3.6 加权兴趣度
  • 3.4 总结
  • 第4章 算法的系统实现和相关的实验分析
  • 4.1 系统实现
  • 4.1.1 系统组件
  • 4.1.2 算法描述
  • 4.2 实验分析
  • 4.2.1 与随机爬行算法的性能对比
  • 4.2.2 基于不同类型信息进行预测的对比
  • 4.2.3 基于不同的爬行起始页面进行预测的对比
  • 4.2.4 相关领域知识的复用
  • 4.3 新算法可能的改进
  • 第5章 结束语
  • 5.1 所作工作总结
  • 5.2 对未来工作的展望
  • 参考文献
  • 摘要
  • ABSTRACT
  • 致谢
  • 导师及作者简介
  • 相关论文文献

    • [1].打造网页设计创新创业示范课程[J]. 河南教育(职成教) 2019(12)
    • [2].网页设计中计算机图像处理技术的应用[J]. 无线互联科技 2019(21)
    • [3].高职院校网页设计与制作课程教学改革研究[J]. 教育现代化 2019(95)
    • [4].浅谈网页设计与制作课程[J]. 电脑知识与技术 2020(01)
    • [5].浅析水墨元素融入网页设计的架构技巧[J]. 辽宁经济职业技术学院.辽宁经济管理干部学院学报 2019(06)
    • [6].分析计算机图像处理技术在网页设计中的应用价值[J]. 计算机产品与流通 2020(01)
    • [7].网页设计中计算机图像处理技术的应用[J]. 电子技术与软件工程 2019(24)
    • [8].“环球佳”医疗设备企业网页设计[J]. 出版发行研究 2019(12)
    • [9].网页设计在视觉传达设计中表现的形式[J]. 西部皮革 2020(03)
    • [10].论网页设计中计算机图像处理技术的应用[J]. 计算机产品与流通 2020(02)
    • [11].色彩节奏在网页设计中的应用研究[J]. 计算机产品与流通 2020(02)
    • [12].计算机图像处理技术在网页设计中的应用分析[J]. 电子世界 2020(04)
    • [13].网页设计中计算机图像处理技术的应用[J]. 科技风 2020(11)
    • [14].网页设计作品[J]. 上海纺织科技 2020(01)
    • [15].浅析网页设计中的色彩搭配[J]. 农家参谋 2020(01)
    • [16].党政网页电子文件采集与管理研究[J]. 办公室业务 2020(04)
    • [17].基于翻转课堂的《商务网页设计与制作》课程设计研究[J]. 中国多媒体与网络教学学报(中旬刊) 2020(03)
    • [18].水墨动画在网页设计中的应用思考[J]. 中外企业家 2020(12)
    • [19].网页设计中的色彩搭配探讨[J]. 信息与电脑(理论版) 2020(02)
    • [20].浏览器的神奇玩法[J]. 计算机与网络 2020(04)
    • [21].网页欣赏精品分析教学平台的设计[J]. 黑龙江科学 2020(07)
    • [22].关于网页设计与制作方法与应用的探讨[J]. 河北农机 2020(03)
    • [23].基于修辞资源与受众的高校网页简介英译失误分析——以东南地区部分985高校为例[J]. 黑龙江教师发展学院学报 2020(04)
    • [24].关于“网页设计与制作”教学的中高职衔接问题初探[J]. 电脑知识与技术 2020(09)
    • [25].网页设计中计算机图像处理技术的应用[J]. 中外企业家 2020(16)
    • [26].网页档案信息长期保存策略研究[J]. 档案时空 2019(12)
    • [27].中职《网页设计与制作》课程教学综述[J]. 信息记录材料 2020(03)
    • [28].基于眼动跟踪的教育网页“优势区域”论证研究[J]. 现代计算机 2020(13)
    • [29].基于校企合作的《网页设计》课程教学改革研究[J]. 科技创新导报 2019(31)
    • [30].计算机网页设计中的布局与排版[J]. 信息与电脑(理论版) 2020(09)

    标签:;  ;  ;  

    基于页面划分的网面预测
    下载Doc文档

    猜你喜欢