基于混合聚类的个性化搜索研究

基于混合聚类的个性化搜索研究

论文摘要

随着计算机技术和网络技术的发展,互联网已经发展成为一个巨大的信息空间。如何在这样一个包含丰富数据的信息海洋中准确查找自己所需要的信息成为越来越多学者研究的内容。搜索引擎的出现为用户提供了一种有效、方便的从互联网上检索信息的方法,但伴随着信息媒体的层出不穷和当前用户需求的日益复杂,一个搜索引擎适合所有用户的搜索模型已不能满足当前的需要,个性化搜索引擎在这样的背景下应运而生。聚类是数据挖掘技术的一个重要分支,聚类算法所具有的特性对个性化搜索引擎的发展有着特殊的意义,本文分析了不同聚类算法的聚类过程和聚类数据的特性,重点研究了能识别不规则形状簇的密度聚类算法和聚类过程简单、高效的层次聚类算法,在分析个性化搜索引擎技术特点的基础上,设计了基于密度和层次的混合聚类算法HCPS(Hybrid Clustering in Personalized Search)。网页排序算法的研究在优化搜索结果方面发挥着重要作用,有助于提高个性化搜索引擎的准确率,本文设计了基于PageRank的个性化排序算法PRPS (Personalized Ranking in Personalized Search)。HCPS算法是在层次聚类的框架下,定义了簇间距离、簇的合并规则和算法迭代所需满足的条件,引入离群度作为数据隶属一个类簇的标准,HCPS算法在聚类的过程中考虑了个性化搜索引擎中用户兴趣这一关键因素,使聚类结果经排序后输出的数据更接近用户搜索意图。PRPS算法通过分析PageRank算法的迭代过程,结合用户兴趣模型和HCPS算法聚类结果,根据各自的影响程度分配不同的系数,重新计算PRank值来代替原来的Page-Rank值,是一种基于PageRank的改进算法。PRPS算法根据用户对网页兴趣的大小及网页的重要程度对搜索结果进行排序,解决了PageRank主题漂移问题,使排序后的数据按照网页的重要程度和与用户搜索的相似度大小排序。本文设计并实现了一个基于密度和层次聚类的个性化搜索引擎实验系统,通过对实验数据结果的分析,HCPS和PRPS算法在搜索的准确性上取得了较好的效果。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 研究背景
  • 1.2 研究现状
  • 1.3 本文研究内容及组织结构
  • 第二章 搜索引擎的综合研究
  • 2.1 搜索引擎的工作原理
  • 2.2 搜索引擎分类
  • 2.3 搜索引擎的评价标准
  • 2.4 搜索引擎发展趋势
  • 2.5 本章小结
  • 第三章 聚类技术与个性化技术研究
  • 3.1 聚类技术
  • 3.1.1 聚类的形式化定义
  • 3.1.2 聚类算法的评价标准
  • 3.1.3 常见聚类算法综述
  • 3.2 个性化搜索主要技术
  • 3.2.1 Web挖掘技术
  • 3.2.2 向量空间模型
  • 3.2.3 基于词频统计的TF*IDF算法
  • 3.2.4 用户模型及表示方法
  • 3.2.5 相似度计算
  • 3.3 本章小结
  • 第四章 基于混合聚类算法的个性化搜索
  • 4.1 算法设计框架
  • 4.2 基于混合聚类算法的个性化搜索
  • 4.2.1 密度聚类
  • 4.2.2 层次聚类
  • 4.2.3 HCPS算法相关定义
  • 4.2.4 聚类的扩张、合并规则
  • 4.2.5 查询扩展
  • 4.2.6 HCPS算法框架
  • 4.3 本章小结
  • 第五章 基于PageRank的个性化排序
  • 5.1 搜索引擎的经典排序算法
  • 5.1.1 PageRank算法
  • 5.1.2 HITS算法
  • 5.1.3 PageRank算法和HITS算法的比较
  • 5.1.4 PageRank算法相关研究
  • 5.2 改进PageRank算法
  • 5.2.1 算法的提出
  • 5.2.2 PRPS算法框架
  • 5.3 本章小结
  • 第六章 实验系统设计与实现
  • 6.1 Nutch介绍
  • 6.2 实验系统设计及实现
  • 6.2.1 系统设计总体框架
  • 6.2.2 数据结构设计
  • 6.2.3 算法实现
  • 6.3 实验测试及结果分析
  • 6.3.1 实验环境及参数配置
  • 6.3.2 实验结果分析
  • 6.4 本章小结
  • 第七章 总结与展望
  • 7.1 研究总结
  • 7.2 研究展望
  • 参考文献
  • 致谢
  • 作者在攻读硕士期间主要研究成果
  • 相关论文文献

    • [1].基于用户画像的个性化搜索推荐系统[J]. 电子技术与软件工程 2020(16)
    • [2].专业图书馆个性化搜索工具研究及其原型设计[J]. 图书馆论坛 2010(03)
    • [3].企业内部基于角色协作的个性化搜索系统[J]. 计算机工程 2009(03)
    • [4].基于多边缘服务器的个性化搜索隐私保护方法[J]. 通信学报 2019(02)
    • [5].基于用户行为的个性化搜索建模[J]. 智能计算机与应用 2017(06)
    • [6].拟合用户偏好的个性化搜索[J]. 情报科学 2008(08)
    • [7].个性化搜索中一种基于位置服务的隐私保护方法[J]. 电子与信息学报 2018(08)
    • [8].基于聚类算法的个性化搜索研究[J]. 计算机系统应用 2009(01)
    • [9].个性化搜索背景下的淘宝网店差异化运营策略探讨[J]. 中国商论 2018(26)
    • [10].基于Agent的农业个性化搜索系统研究与应用[J]. 中国农学通报 2009(24)
    • [11].Web页面个性化搜索系统设计[J]. 软件导刊 2015(01)
    • [12].商经书舍[J]. 中国商贸 2012(10)
    • [13].个性化搜索[J]. 科技创业 2011(08)
    • [14].一种基于用户配置文件的个性化检索方法[J]. 计算机应用研究 2016(02)
    • [15].基于用户兴趣挖掘的个性化搜索引擎研究[J]. 科技信息 2011(11)
    • [16].基于情境模式的个性化搜索初探[J]. 内蒙古科技与经济 2011(15)
    • [17].支持个性化检索的User Profile研究概述[J]. 小型微型计算机系统 2008(10)
    • [18].移动图书馆服务探讨[J]. 河南图书馆学刊 2014(04)
    • [19].基于用户兴趣的个性化搜索系统研究[J]. 软件导刊 2010(01)
    • [20].从“B2C”转型“C2B”,定制个性化搜索课堂[J]. 创新时代 2018(03)
    • [21].网络信息资源个性化推荐中隐私保护的研究[J]. 软件 2015(04)
    • [22].基于用户行为模型的搜索引擎[J]. 计算机工程 2008(04)
    • [23].基于加权本体的个性化语义搜索[J]. 计算机工程与设计 2008(19)
    • [24].品友互动:中国版Double Click[J]. 创业家 2012(02)
    • [25].基于用户聚类的框计算改进模型研究[J]. 科技通报 2012(12)
    • [26].搜索引擎二次开发的设计与实现[J]. 上海工程技术大学学报 2010(01)
    • [27].个性化搜索中隐私保护技术的探讨与研究[J]. 河北工程大学学报(自然科学版) 2011(01)
    • [28].一种个性化移动搜索技术的研究[J]. 计算机应用研究 2010(09)
    • [29].基于时间的个性化微博搜索模型[J]. 微型电脑应用 2017(02)
    • [30].基于用户兴趣的个性化搜索引擎研究[J]. 合肥师范学院学报 2010(03)

    标签:;  ;  ;  ;  ;  

    基于混合聚类的个性化搜索研究
    下载Doc文档

    猜你喜欢