网络原创文章优先的搜索引擎排序算法研究

网络原创文章优先的搜索引擎排序算法研究

论文摘要

随着网络规模的扩大,搜索引擎正在现代网络竞争中占据越来越重要的地位,而搜索引擎的核心——排序算法正在对网络竞争能否公平方面产生着巨大的影响。与此同时,网络文章轻易的被转载这一现实情况正使得原创站点在网络竞争中处于很不利的地位。通过改进搜索引擎排序算法,提高网络原创文章的搜索引擎排名无疑能使得现代网络竞争更为公平,具有很重要的现实意义和社会效益。本文提出了一种适用于专业搜索引擎的新型排序算法,此算法在排序时优先考虑了网络原创文章,可以使原创文章的搜索排名得到提高,有助于新兴原创网站的发展,从而能提高现代网络社会竞争的公平性。论文的主要工作有:①分析了现有的搜索引擎排序算法,对其进行了优缺点的比较,指出了它们对于原创文章的不利之处,提出了要通过改进搜索引擎排序算法来提高网络原创文章的搜索引擎排名,以提高搜索引擎的公平合理性。②构建了网络原创文章判定算法,通过网络上可见的信息,对网络文章的原创可能性进行量化。③说明了网络原创文章判定算法在搜索引擎中的应用方法,指出了如何利用网络原创文章的判定结果对原有搜索引擎排名结果进行修正。④综合网页关键词相关度计算方法、PageRank算法以及原创文章的判定算法,构造了搜索引擎的综合排序模型,使之可以应用到实际的搜索引擎之中。⑤构建原型系统,应用原创优先的搜索引擎排序模型,提高了网络原创文章的搜索引擎排名,实验统计结果良好。

论文目录

  • 摘要
  • ABSTRACT
  • 1 绪论
  • 1.1 搜索引擎的现状
  • 1.1.1 搜索引擎的发展历史
  • 1.1.2 搜索引擎的分类
  • 1.2 典型搜索引擎介绍
  • 1.2.1 Google
  • 1.2.2 Baidu
  • 1.2.3 Yahoo
  • 1.2.4 Sogou
  • 1.3 SEO 技术
  • 1.3.1 SEO 技术的主要方法和策略
  • 1.3.2 SEO 技术的发展趋势
  • 1.3.3 网页作弊的几种方式
  • 1.4 本文的主要工作
  • 1.5 本章小结
  • 2 经典排序算法及其比较
  • 2.1 PageRank 算法
  • 2.2 HITS 算法
  • 2.3 Hilltop 算法
  • 2.4 收费排名
  • 2.5 经典算法评价
  • 2.5.1 PageRank 算法的缺点与改进
  • 2.5.2 HITS 算法的缺点与改进
  • 2.5.3 经典排序算法对网络原创文章的不公平之处
  • 2.6 本章小结
  • 3 网络原创文章的判定算法
  • 3.1 网络文章的分类
  • 3.2 网站的三个“信用度”
  • 3.3 文章原创可能性的确定
  • 3.4 文章原创可能性对网站信用度的修正
  • 3.5 本章小结
  • 4 原创优先的搜索引擎排序算法
  • 4.1 内容重复网页的确定
  • 4.1.1 网页的重复特点
  • 4.1.2 现有网页去重的方法简介
  • 4.1.3 基于特征串重复网页判定方法
  • 4.2 原创文章判定结果对网页权威度的修正
  • 4.3 综合排序模型
  • 4.3.1 基于网页内容的相关度算法
  • 4.3.2 最终检索排名方法
  • 4.4 本章小结
  • 5 原型系统研究
  • 5.1 技术选型
  • 5.1.1 数据库选择
  • 5.1.2 搜索引擎平台选择
  • 5.1.3 开发平台选择
  • 5.2 Nutch
  • 5.2.1 Lucene
  • 5.2.2 Nutch 爬虫
  • 5.3 系统设计与实现
  • 5.3.1 系统用例
  • 5.3.2 系统构建流程
  • 5.3.3 系统结构分析
  • 5.3.4 主要数据表定义
  • 5.3.5 程序设计
  • 5.3.6 程序运行效果
  • 5.4 算法验证
  • 5.4.1 算法验证方法
  • 5.4.2 结果分析
  • 5.5 本章小结
  • 6 结论与展望
  • 6.1 总结
  • 6.2 展望
  • 致谢
  • 参考文献
  • 附录
  • 相关论文文献

    • [1].中国纤检微平台征集原创文章[J]. 中国纤检 2017(09)
    • [2].第三届科学仪器网络原创文章大奖赛[J]. 分析科学学报 2010(04)
    • [3].2019年第二季度微信原创文章阅读量排行[J]. 企业管理 2019(08)
    • [4].网络原创文章版权法律保护若干问题探究[J]. 编辑之友 2012(06)
    • [5].本刊征稿启事[J]. 种子科技 2013(05)
    • [6].2019企业管理杂志微信公众号受欢迎原创文章(前20)[J]. 企业管理 2020(02)
    • [7].企业管理杂志微信公众号2020年第二季度受欢迎原创文章(前25)[J]. 企业管理 2020(08)
    • [8].企业管理杂志2018年7-8月微信原创文章阅读量排行[J]. 企业管理 2018(11)
    • [9].三思而后“转”[J]. 中华魂 2020(08)
    • [10].爱的选择[J]. 河南教育(职成教) 2018(06)
    • [11].本刊征稿启事[J]. 种子科技 2013(02)
    • [12].《企业管理》杂志 微信原创文章阅读量排行 2019年第三季度[J]. 企业管理 2019(11)
    • [13].《中学生》开写手QQ群了![J]. 中学生 2009(10)
    • [14].图书馆微信公众平台推文研究[J]. 图书馆学研究 2019(24)
    • [15].别被思维模式安排了人生[J]. 互联网周刊 2018(21)
    • [16].不必担忧“佛系”,倒要提防让90后“被佛系”的人[J]. 黄金时代 2018(01)
    • [17].论坛SHOW场第016期[J]. 足球俱乐部 2010(09)
    • [18].话说“网络打赏”[J]. 小学生必读(高年级版) 2019(11)
    • [19].企业管理杂志2018年9-10月 微信原创文章阅读量排行[J]. 企业管理 2019(01)
    • [20].健身类微信公众号的应用现状与优化策略[J]. 湖北体育科技 2020(09)
    • [21].微信下一站[J]. 商界(评论) 2015(01)
    • [22].编辑会客厅[J]. 人生与伴侣(上半月版) 2014(06)
    • [23].克莱博体育论坛 论坛SHOW场 第十五期[J]. 篮球俱乐部 2010(06)
    • [24].“琪人琪语”:利用新媒体践行社会主义核心价值观[J]. 北京教育(德育) 2015(02)
    • [25].英语原创文章点滴体会[J]. 考试周刊 2019(66)
    • [26].我看《爱尚》[J]. 现代妇女 2013(01)
    • [27].微信原创文章阅读量排行[J]. 企业管理 2019(05)
    • [28].致父亲[J]. 祝你幸福(知心) 2009(11)
    • [29].细胞—宿主与微生物[J]. 科学新闻 2020(02)
    • [30].优秀的健康类新媒体有哪些特点?[J]. 戏剧之家 2019(23)

    标签:;  ;  ;  ;  

    网络原创文章优先的搜索引擎排序算法研究
    下载Doc文档

    猜你喜欢