专题型网页搜集器关键算法的研究及实现

专题型网页搜集器关键算法的研究及实现

论文摘要

随着互联网技术的迅速发展,万维网上的可用信息越来越多。但是互联网也为有效进行其中的相关信息发现提出了以下的问题:1.网页的复杂性要远远大于任何传统的文本文档。2.互联网是一个高度动态的信息源。3.互联网所服务用户群体的多样性。4.对于不同的用户互联网上的信息只有一小部分是真正有用的或相关的。 这些问题促使了有效发现和利用互联网信息资源的相关研究工作开展。面向主题搜集技术就是针对这些问题而提出的,它为不同的用户提供不同的服务,以满足他们不同的需求。 这篇论文主要研究了面向主题的搜索中的两个关键算法——网页过滤和链接排序,同时研究了搜索器的实现技术。 在网页过滤方面:针对“互联网上的信息只有一小部分是真正有用的或相关”的这一特点提出一种快速过滤网页的系统过滤算法。这种算法将分类体系组织成一个多层的树状结构,对网页逐层过滤,可以将大量不相关的网页快速的过滤。 在链接排序方面:已有的研究表明网页的分布满足两种局部性,即链接分布的局部性和兄弟分布的局部性。根据这两种局部性的启发,我们提出了一种增量学习的链接相关性估计算法。这种算法简单高效并在不断的搜集过程中增量学习,使其在系统运行一段时间后表现出较好的稳定性。 本文的创新点在于: 在算法方面:1)将层次聚类算法与基于密度的聚类算法思想相结合提出一种基于动态密度的多层聚类算法。2)提出一种简单高效的链接相关性估计算法。 在系统方面:设计并实现一个中文的面向主题的搜索器。

论文目录

  • 摘要
  • ABSTRACT
  • 目录
  • 第一章 引言
  • 1.1 研究背景
  • 1.1.1 面向主题的搜集技术
  • 1.1.2 国内外发展状况
  • 1.2 论文的工作
  • 1.2.1 论文的研究工作
  • 1.2.2 论文内容概述
  • 第二章 网页预处理及特征提取
  • 2.1 网页预处理
  • 2.1.1 网页信息提取
  • 2.1.2 文本分词
  • 2.2 网页特征提取及权重计算
  • 2.3 文档表示模型-VSM模型
  • 第三章 基于DDBCUR聚类算法的网页过滤
  • 3.1 聚类中的数据类型
  • 3.2 主要聚类方法
  • 3.3 基于动态密度的层次聚类算法
  • 3.3.1 层次聚类方法
  • 3.3.2 密度聚类方法
  • 3.3.3 基于动态密度的层次聚类算法(DDBCUR)
  • 3.4 基于聚类模型的网页过滤
  • 第四章 基于增量学习的链接排序算法
  • 4.1 基于链接结构的链接相关性估计
  • 4.1.1 利用已访问的父网页估计链接相关性
  • 4.1.2 利用已访问的兄弟链接估计链接相关性
  • 4.1.3 相关性合并
  • 4.2 基于链接文本的链接相关性估计
  • 4.2.1 利用链接文本估计
  • 4.2.2 利用链接周围文本(Anchor文本)估计
  • 4.2.3 利用搜索结果增量学习
  • 4.3 基于链接结构的链接排序
  • 第五章 系统设计与实现
  • 5.1 系统总体设计
  • 5.2 数据库结构设计
  • 5.3 网页采集模块
  • 5.3.1 网页采集子模块
  • 5.3.2 信息提取子模块
  • 5.4 页过滤模块
  • 5.4.1 样本聚类子模块
  • 5.4.2 网页过滤子模块
  • 5.5 链接分析模块
  • 第六章 实验与评价
  • 6.1 网页聚类实验
  • 6.1.1 聚类训练实验——类模型生成
  • 6.1.2 类训练——类模型应用
  • 6.1.3 评价
  • 6.2 系统整体性能实验
  • 6.2.1 实验内容
  • 6.2.2 实验结果与评价
  • 第七章 总结与展望
  • 参考文献
  • 致谢
  • 本人简历
  • 相关论文文献

    • [1].打造网页设计创新创业示范课程[J]. 河南教育(职成教) 2019(12)
    • [2].网页设计中计算机图像处理技术的应用[J]. 无线互联科技 2019(21)
    • [3].高职院校网页设计与制作课程教学改革研究[J]. 教育现代化 2019(95)
    • [4].浅谈网页设计与制作课程[J]. 电脑知识与技术 2020(01)
    • [5].浅析水墨元素融入网页设计的架构技巧[J]. 辽宁经济职业技术学院.辽宁经济管理干部学院学报 2019(06)
    • [6].分析计算机图像处理技术在网页设计中的应用价值[J]. 计算机产品与流通 2020(01)
    • [7].网页设计中计算机图像处理技术的应用[J]. 电子技术与软件工程 2019(24)
    • [8].“环球佳”医疗设备企业网页设计[J]. 出版发行研究 2019(12)
    • [9].网页设计在视觉传达设计中表现的形式[J]. 西部皮革 2020(03)
    • [10].论网页设计中计算机图像处理技术的应用[J]. 计算机产品与流通 2020(02)
    • [11].色彩节奏在网页设计中的应用研究[J]. 计算机产品与流通 2020(02)
    • [12].计算机图像处理技术在网页设计中的应用分析[J]. 电子世界 2020(04)
    • [13].网页设计中计算机图像处理技术的应用[J]. 科技风 2020(11)
    • [14].网页设计作品[J]. 上海纺织科技 2020(01)
    • [15].浅析网页设计中的色彩搭配[J]. 农家参谋 2020(01)
    • [16].党政网页电子文件采集与管理研究[J]. 办公室业务 2020(04)
    • [17].基于翻转课堂的《商务网页设计与制作》课程设计研究[J]. 中国多媒体与网络教学学报(中旬刊) 2020(03)
    • [18].水墨动画在网页设计中的应用思考[J]. 中外企业家 2020(12)
    • [19].网页设计中的色彩搭配探讨[J]. 信息与电脑(理论版) 2020(02)
    • [20].浏览器的神奇玩法[J]. 计算机与网络 2020(04)
    • [21].网页欣赏精品分析教学平台的设计[J]. 黑龙江科学 2020(07)
    • [22].关于网页设计与制作方法与应用的探讨[J]. 河北农机 2020(03)
    • [23].基于修辞资源与受众的高校网页简介英译失误分析——以东南地区部分985高校为例[J]. 黑龙江教师发展学院学报 2020(04)
    • [24].关于“网页设计与制作”教学的中高职衔接问题初探[J]. 电脑知识与技术 2020(09)
    • [25].网页设计中计算机图像处理技术的应用[J]. 中外企业家 2020(16)
    • [26].网页档案信息长期保存策略研究[J]. 档案时空 2019(12)
    • [27].中职《网页设计与制作》课程教学综述[J]. 信息记录材料 2020(03)
    • [28].基于眼动跟踪的教育网页“优势区域”论证研究[J]. 现代计算机 2020(13)
    • [29].基于校企合作的《网页设计》课程教学改革研究[J]. 科技创新导报 2019(31)
    • [30].计算机网页设计中的布局与排版[J]. 信息与电脑(理论版) 2020(09)

    标签:;  ;  ;  ;  ;  

    专题型网页搜集器关键算法的研究及实现
    下载Doc文档

    猜你喜欢