基于实例学习的搜索引擎结果优化系统设计与实现

基于实例学习的搜索引擎结果优化系统设计与实现

论文摘要

搜索引擎是网络信息检索的主要工具,它的出现方便了人们对信息的查询,但现有搜索引擎返回的结果太多,用户很难查找到真正想要的资料。此外,人们通常无法用简单的几个词来描述自己的信息需求。对于一个查询词,搜索引擎往往会返回成千上万的网页,这些结果是动态而简单的,但绝大部分对于某个特定的用户而言都是不相关的。因此,用户必须通过浏览冗长的列表才能找到自己需要的信息。于是,信息检索中出现了“信息过载”和“信息迷失”等问题。如何提高搜索引擎的查准率是其亟待解决的问题,而如何推断用户的查询目的从而实现智能化搜索是未来搜索引擎的发展方向。此外,查询词也往往具有歧义,不同用户具有不同的背景、兴趣以及使用目的。就目前而言,对于特定的关键词查询,无论任何人得到的结果都是一样的。人们越来越希望得到的结果能够符合自己的意愿,目前出现了各种改进的搜索引擎,基于用户个性词典的搜索引擎、基于聚类技术的搜索引擎、面向主题的搜索引擎等等。在一定程度上起到一定的促进作用,究其原理,实际就是基于某种技术对通用搜索引擎搜索结果的处理,其中包括对搜索结果的过滤、聚类、分类等处理。实例学习是机器学习中较为成熟的分支,其基本思想是从某一概念的已给的正例集合和反例集合中归纳产生出描述所有正例并排除所有反例的一般规则,因而也被称作概念获取。本文正是基于对用户行为的跟踪,把其访问网页分为正例和反例,通过相关算法,得到描述用户查询目的规则,从而实现网页的过滤技术,返回与用户查询目的相关的网页,去除无关网页。从而有效的提高搜索引擎的查找精度,为用户提供高质量的、相关度较高的查询结果。本文在分析了通用搜索引擎和个性化搜索引擎的基础上,针对目前搜索引擎中的“信息过载”和“信息迷失”等问题,提出一种对搜索引擎进行改进的策略,该策略基于对用户行为的跟踪,对网页返回目录中的摘要信息进行文本挖掘,推断用户的搜索目的,对中文Web搜索结果进行优化。去除垃圾信息,返回给用户一个比较满意的结果。最后初步实现了一个简单的搜索引擎优化系统SEO,系统经过测试取得良好的运行效果。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 引言
  • 1.2 本文研究的内容
  • 1.3 本论文的内容安排
  • 第二章 搜索引擎概述
  • 2.1 搜索引擎的发展
  • 2.2 搜索引擎的相关分类
  • 2.3 搜索引擎基本原理与技术
  • 2.4 性能指标
  • 2.5 现代搜索引擎中存在的问题
  • 2.6 未来搜素引擎的发展方向
  • 第三章 相关知识和技术
  • 3.1 行为科学相关理论
  • 3.1.1 人类行为的概念和种类
  • 3.1.2 最小努力原则
  • 3.2 实例学习
  • 3.3 文本挖掘技术
  • 3.3.1 文本的表示
  • 3.4 特征选择和提取
  • 3.4.1 特征词的文档频率
  • 3.4.2 信息增益方法
  • 3.4.3 互信息
  • 3.4.4 期望交叉熵
  • 2统计法'>3.4.5 x2统计法
  • 3.4.6 特征词强度
  • 3.4.7 主成份分析
  • 3.5 MVC模式
  • 第四章 实例学习的相关算法
  • 4.1 扩张距阵理论
  • 4.2 决策树
  • 4.2.1 ID3算法
  • 4.2.2 ID3算法的实例描述
  • 4.2.3 ID3应用于搜索引擎结果的实例分析
  • 4.3 算法的对比分析
  • 第五章 基于用户行为的搜索引擎结果优化系统的分析与设计
  • 5.1 用户行为分析
  • 5.2 系统框架设计
  • 5.3 搜索结果获取
  • 5.3.1 获取Html文本
  • 5.3.2 提取搜索结果
  • 5.3.3 同步机制
  • 5.3.4 文本规范化
  • 5.4 中文分词及文本表示
  • 5.4.1 中文分词
  • 5.4.2 统计词频
  • 5.4.3 哈希表的引入
  • 5.4.4 文本特征表示
  • 5.5 示例学习产生决策树或者决策规则
  • 第六章 搜索引擎结果优化系统的实现
  • 6.1 实验环境
  • 6.2 相关模块的设计与实现
  • 6.2.1 查询模块
  • 6.2.2 搜索结果获取模块
  • 6.2.3 用户信息收集模块
  • 6.2.4 信息处理模块
  • 6.2.5 查询反馈模块
  • 6.3 结果测试及改进策略
  • 6.3.1 客观实验
  • 6.3.2 主观实验
  • 第七章 总结
  • 致谢
  • 参考文献
  • 攻读学位期间的研究成果
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    基于实例学习的搜索引擎结果优化系统设计与实现
    下载Doc文档

    猜你喜欢