论文摘要
随着互联网技术的飞速发展,网络为我们提供了多元化的海量信息,越来越多的人开始使用搜索引擎来获取所需要的信息。然而,虽然搜索引擎发展迅速,但其效果远未达到令人满意的程度,因为用户不得不逐页浏览检索结果,效率非常低。面对搜索引擎返回的成百上千的结果,如何从中快速定位所需信息就成了一个特别棘手的问题。通过对检索结果进行网页在线聚类就可以解决这个问题,网页聚类能帮助用户快速准确地定位信息,但对所使用的聚类算法的复杂度有严格限制,许多传统的聚类算法并不适合网页在线聚类。为此,本文提出了一种基于特征短语的快速网页在线聚类算法,该方法利用后缀数组提取网页特征短语,在此基础上进行快速聚类以及类别标注,提供清晰、易于理解的类别内容概括,并对聚类结果进行了类间以及类内排序。本文的研究内容主要包括以下几个方面:(1)设计并实现了一种基于特征短语的网页在线聚类系统。本文采用基于重复串的文本特征提取方法来提取特征短语,特征短语具有相对完整的上下文语义,能够作为网页内容的特征来进行聚类;(2)根据特征短语快速确定基类,并对基类进行类别合并以及类别排序,实现网页的在线聚类;(3)设计并实现聚类的缓存功能,提高了聚类系统的效率;(4)通过与其它聚类算法的实验对比,验证了本文提出的聚类方法在网页聚类方面的优越性,并展望未来的研究方向。最后,本系统已成功应用在本实验中心构建的智能化Web信息检索平台Inar搜索引擎中。实验结果表明,本文提出的方法能够满足在线聚类的要求,在时间复杂度和聚类精度上都达到了很好的预期效果。本文提出的方法在网页在线聚类方面具有一定的参考价值,为进一步开发个性化的网络搜索工具打下了良好的基础。
论文目录
摘要Abstract第1章 绪论1.1 课题背景1.2 课题目的及意义1.3 国内外相关技术发展现状1.3.1 信息检索研究现状1.3.2 搜索引擎研究现状1.3.3 网页在线聚类技术研究现状1.4 本文主要内容第2章 网页聚类方法介绍2.1 聚类概述2.1.1 基本概念2.1.2 向量空间模型和相似性度量2.1.3 聚类算法2.2 网页聚类2.2.1 后缀树聚类2.2.1.1 后缀树定义2.2.1.2 构建后缀树2.2.1.3 抽取短语2.2.2 有向图聚类2.2.2.1 数据模型2.2.2.2 有向图的构造2.2.2.3 高频短语识别2.2.2.4 短语扩展与聚类2.3 本章小结第3章 基于特征短语的网页在线聚类算法3.1 算法基本结构3.2 网页信息抽取与内容表示3.2.1 网页正文信息抽取3.2.2 网页标记信息抽取3.2.3 网页内容表示3.3 特征短语提取3.3.1 基于后缀数组的特征短语提取方法3.3.2 特征短语抽取3.3.3 特征短语中重复子串的过滤3.4 网页在线聚类3.4.1 算法流程3.4.2 确定基类3.4.3 类别合并3.4.4 类别排序3.5 本章小结第4章 系统实现与评测4.1 引言4.2 网页聚类系统的实现4.3 聚类缓存的设计与实现4.3.1 web缓存技术4.3.2 缓存实现策略4.3.3 缓存替换算法4.4 实验环境4.5 实验结果与分析4.5.1 评价标准4.5.2 实验方案4.5.3 实验分析4.6 下一步研究工作4.7 本章小结结论参考文献攻读学位期间发表的学术论文致谢
相关论文文献
标签:搜索引擎论文; 文本聚类论文; 信息检索论文; 在线聚类论文; 特征短语论文;