基于特征短语的网页在线聚类方法

基于特征短语的网页在线聚类方法

论文摘要

随着互联网技术的飞速发展,网络为我们提供了多元化的海量信息,越来越多的人开始使用搜索引擎来获取所需要的信息。然而,虽然搜索引擎发展迅速,但其效果远未达到令人满意的程度,因为用户不得不逐页浏览检索结果,效率非常低。面对搜索引擎返回的成百上千的结果,如何从中快速定位所需信息就成了一个特别棘手的问题。通过对检索结果进行网页在线聚类就可以解决这个问题,网页聚类能帮助用户快速准确地定位信息,但对所使用的聚类算法的复杂度有严格限制,许多传统的聚类算法并不适合网页在线聚类。为此,本文提出了一种基于特征短语的快速网页在线聚类算法,该方法利用后缀数组提取网页特征短语,在此基础上进行快速聚类以及类别标注,提供清晰、易于理解的类别内容概括,并对聚类结果进行了类间以及类内排序。本文的研究内容主要包括以下几个方面:(1)设计并实现了一种基于特征短语的网页在线聚类系统。本文采用基于重复串的文本特征提取方法来提取特征短语,特征短语具有相对完整的上下文语义,能够作为网页内容的特征来进行聚类;(2)根据特征短语快速确定基类,并对基类进行类别合并以及类别排序,实现网页的在线聚类;(3)设计并实现聚类的缓存功能,提高了聚类系统的效率;(4)通过与其它聚类算法的实验对比,验证了本文提出的聚类方法在网页聚类方面的优越性,并展望未来的研究方向。最后,本系统已成功应用在本实验中心构建的智能化Web信息检索平台Inar搜索引擎中。实验结果表明,本文提出的方法能够满足在线聚类的要求,在时间复杂度和聚类精度上都达到了很好的预期效果。本文提出的方法在网页在线聚类方面具有一定的参考价值,为进一步开发个性化的网络搜索工具打下了良好的基础。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题背景
  • 1.2 课题目的及意义
  • 1.3 国内外相关技术发展现状
  • 1.3.1 信息检索研究现状
  • 1.3.2 搜索引擎研究现状
  • 1.3.3 网页在线聚类技术研究现状
  • 1.4 本文主要内容
  • 第2章 网页聚类方法介绍
  • 2.1 聚类概述
  • 2.1.1 基本概念
  • 2.1.2 向量空间模型和相似性度量
  • 2.1.3 聚类算法
  • 2.2 网页聚类
  • 2.2.1 后缀树聚类
  • 2.2.1.1 后缀树定义
  • 2.2.1.2 构建后缀树
  • 2.2.1.3 抽取短语
  • 2.2.2 有向图聚类
  • 2.2.2.1 数据模型
  • 2.2.2.2 有向图的构造
  • 2.2.2.3 高频短语识别
  • 2.2.2.4 短语扩展与聚类
  • 2.3 本章小结
  • 第3章 基于特征短语的网页在线聚类算法
  • 3.1 算法基本结构
  • 3.2 网页信息抽取与内容表示
  • 3.2.1 网页正文信息抽取
  • 3.2.2 网页标记信息抽取
  • 3.2.3 网页内容表示
  • 3.3 特征短语提取
  • 3.3.1 基于后缀数组的特征短语提取方法
  • 3.3.2 特征短语抽取
  • 3.3.3 特征短语中重复子串的过滤
  • 3.4 网页在线聚类
  • 3.4.1 算法流程
  • 3.4.2 确定基类
  • 3.4.3 类别合并
  • 3.4.4 类别排序
  • 3.5 本章小结
  • 第4章 系统实现与评测
  • 4.1 引言
  • 4.2 网页聚类系统的实现
  • 4.3 聚类缓存的设计与实现
  • 4.3.1 web缓存技术
  • 4.3.2 缓存实现策略
  • 4.3.3 缓存替换算法
  • 4.4 实验环境
  • 4.5 实验结果与分析
  • 4.5.1 评价标准
  • 4.5.2 实验方案
  • 4.5.3 实验分析
  • 4.6 下一步研究工作
  • 4.7 本章小结
  • 结论
  • 参考文献
  • 攻读学位期间发表的学术论文
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    基于特征短语的网页在线聚类方法
    下载Doc文档

    猜你喜欢