面向博客的检索排序算法研究

面向博客的检索排序算法研究

论文摘要

随着博客影响力的不断增加,博客被更多领域的人作为交互和表达思想的工具,并以站点的形式在万维网上形成了博客空间。面对博客空间的急剧膨胀,博客搜索也变得必要迫切。尽管现有的针对普通网页的传统搜索已比较成熟,但对博客检索的效率并不高,因为博客站点在内容本身和之间的关系上不同于传统网站。如何在众多的博客中找到对用户来说重要的博客网页(或博文)或博客站点,最重要就是:如何定义博文或博客站点的“重要性”,并根据这种重要性对博客进行排序。博客是由一系列的博文组成的,用户搜索的一般目的就是寻找感兴趣的博文。因此可以把博文“重要性”作为博客排序的依据。影响博文重要性的因素有内容相关,链接关系或发表时间。本文从前两个因素出发分析博文与查询的相关度。本文提出了依据证据排序的SGRM (Space Graph Ranking Model)算法。首先提出了证据BE (Blog Evidence)的定义,并给出了根据博文证据进行博客排序的框架。博文通过三元组融合了“博文-博客”关系信息和“博文-词条”内容信息,并分别用矩阵表示。“博文-博客"关系矩阵信息的表示是通过实现从博文与博文关系再到博客关系的转移,“博文-词条"内容矩阵通过经典的VSM (Vector Space Model)表示的。接着,对得到的“博文-博客”矩阵和“博文-词条,,内容矩阵,先使用主成分分析PCA(Principle Component Analysis)法对这两个矩阵进行降维,之后使用了共轭梯度法对降维得到的两个低维矩阵进行联合,优化得到一个表示博文隐含语义空间LSS (Latent Semantic Space)矩阵;最后对LSS矩阵,用KNN (K Near Neighbour)法构建了一个隐义图LSG (Latent Sematic Graph)。最后,结合重排序思想和拉普拉斯特征映射LE (Laplacian Eigenmaps)的方法,构建了一个正规化排序框架,该框架包含初次查询的相关博文的相关度及其LSG子图。经过实验分析,得到最优排序性能下排序框架参数的设置;并在该参数下与其它排序方法进行比较,显示了较好的性能;同时分析隐含语义空间图对排序的影响,得到了较优排序性能下的参数设置。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究背景
  • 1.2 国内外发展现状
  • 1.3 研究内容
  • 1.4 论文组织结构
  • 第2章 相关技术研究
  • 2.1 基于内容相关的排序
  • 2.1.1 向量空间模型
  • 2.1.2 统计语言模型
  • 2.1.3 概率检索模型
  • 2.2 基于链接关系的排序
  • 2.2.1 PageRank排序算法
  • 2.2.2 HITS排序算法
  • 2.2.3 EigenRumor排序算法
  • 2.3 数据降维的方法
  • 2.3.1 主成分分析法
  • 2.3.2 隐含语义标引
  • 2.3.3 流行学习方法
  • 第3章 基于证据的博客排序算法
  • 3.1 基于证据的博客检索模型
  • 3.1.1 博客查询相关度分析
  • 3.1.2 基于证据的博客排序框架
  • 3.2 基于三元组的BE分析
  • 3.2.1 博文的页面特征
  • 3.2.2 内容特征矩阵表示
  • 3.2.3 博客的链接抽取
  • 3.2.4 博客关系矩阵表示
  • 3.3 基于KNN的隐义图构建
  • 3.3.1 基于共轭梯度的隐含语义空间表示
  • 3.3.2 基于KNN的隐义图构建
  • 3.4 基于证据的博客排序算法
  • 3.4.1 基于证据的博客排序思想
  • 3.4.2 基于证据的博客正规化排序框架
  • 3.4.3 基于证据的博客排序算法
  • 第4章 算法分析和实验
  • 4.1 实验设置和评价指标
  • 4.1.1 实验环境和数据
  • 4.1.2 评价标准
  • 4.2 实验结果和分析
  • 1的设置'>4.2.1 参数μ1的设置
  • 4.2.2 排序方法间的比较
  • 4.2.3 隐义图的构建与排序性能
  • 第5章 结论
  • 5.1 本文工作总结
  • 5.2 进一步工作
  • 参考文献
  • 致谢
  • 相关论文文献

    • [1].基于C语言常用排序算法的比较与研究[J]. 电子世界 2019(24)
    • [2].常用排序算法的分析与比较[J]. 现代计算机 2020(25)
    • [3].基本排序算法研究[J]. 通讯世界 2018(05)
    • [4].排序算法对比研究[J]. 通讯世界 2018(09)
    • [5].基于时间感知的页面排序算法的改进[J]. 中华医学图书情报杂志 2017(01)
    • [6].基于图排序算法的自动文摘研究综述[J]. 计算机科学 2015(12)
    • [7].排序算法在某系统中的应用[J]. 商 2015(51)
    • [8].几种经典的排序算法综述[J]. 电脑编程技巧与维护 2016(14)
    • [9].几种常用排序算法的比较[J]. 福建电脑 2016(08)
    • [10].可逆排序算法的分析与实现[J]. 计算机仿真 2015(03)
    • [11].基于网络教学平台的信息技术“任务单”教学——以《排序算法》一课为例[J]. 教育研究与评论(中学教育教学) 2020(08)
    • [12].《排序算法》教学设计[J]. 中国信息技术教育 2009(09)
    • [13].常用排序算法的研究[J]. 新校园(上旬) 2017(08)
    • [14].基于内排序算法的优化策略探析[J]. 时代教育(教育教学版) 2009(05)
    • [15].数值排序算法比较分析[J]. 电脑编程技巧与维护 2015(23)
    • [16].双向选择排序算法[J]. 计算机系统应用 2016(01)
    • [17].选择排序算法的分析与改进[J]. 电子技术与软件工程 2016(15)
    • [18].基于超链接分析技术的排序算法的研究[J]. 中国校外教育 2012(34)
    • [19].浅谈常见排序算法实现原理及性能优化[J]. 中国校外教育 2018(06)
    • [20].不同排序算法的性能分析研究[J]. 电脑迷 2018(05)
    • [21].基于FPGA的并行全比较排序算法[J]. 数字技术与应用 2013(10)
    • [22].基于C语言的几种排序算法的分析[J]. 电子设计工程 2013(17)
    • [23].代价敏感的列表排序算法[J]. 计算机研究与发展 2012(08)
    • [24].基数排序算法的链表实现[J]. 科技创新导报 2011(23)
    • [25].一种基于页面时间的排序算法[J]. 郑州大学学报(理学版) 2009(01)
    • [26].一种新的高效基数排序算法[J]. 湖州职业技术学院学报 2008(01)
    • [27].排序算法的比较、选择及其改进[J]. 江西广播电视大学学报 2008(03)
    • [28].论排序算法的效率[J]. 中国管理信息化 2018(05)
    • [29].计算机程序语言中常用排序算法分析研究[J]. 漯河职业技术学院学报 2018(02)
    • [30].一种基于度排序的节点重要性排序算法[J]. 河南科技学院学报(自然科学版) 2015(02)

    标签:;  ;  ;  ;  

    面向博客的检索排序算法研究
    下载Doc文档

    猜你喜欢