面向丝绸领域的垂直搜索引擎关键算法研究

面向丝绸领域的垂直搜索引擎关键算法研究

论文摘要

垂直搜索引擎是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后以某种形式返回给用户。垂直搜索引擎与传统的网页搜索引擎最大的区别就是将网页中的信息进行结构化的抽取。使得信息在抽取的时候就建立了分类,更好的适应查询需求。近几年来,垂直搜索引擎已经被应用到某些专业的领域,如化学。本文从研究和设计的角度对垂直搜索引擎的相关技术作了详细的分析和讨论,论述了目前搜索引擎的国内外发展现状和趋势。分析了搜索引擎的工作原理及其各部分主要功能,抓住如何评价页面的主题相关性和设计高效的爬行策略这两个关键问题,提出一个基于丝绸信息的定题搜索器,它是垂直搜索引擎的核心。在文章的主体部分,以搜索引擎的设计流程为主线,重点论述垂直搜索引擎设计与实现时一些独特的信息识别方法,包括pagerank和HITS算法。从HTML页面解析的一般概念入手,结合网页之间的超链接分析,按照搜索引擎系统的要求,采用深度优先的搜索策略设计具有垂直搜索引擎功能的丝绸信息网站。并按照软件工程的方法,研究了丝绸信息搜索引擎的总体设计过程和实现过程,设计过程重点论述了需求分析、网站的功能规划和总体结构、数据库设计等内容,并通过编码实现设计阶段的各种算法和具体功能。最后的软件功能测试表明,此搜索引擎算法准确、确定、不会引起本地资源耗尽;它支持按指定站点搜索,按给定URL范围进行搜索的搜索策略。可以完成指定信息的自动搜索和下载。

论文目录

  • 中文摘要
  • ABSTRACT
  • 第1章 绪论
  • 1.1 课题的背景及意义
  • 1.2 垂直搜索引擎现存的问题
  • 1.2.1 垂直搜索引擎的产生
  • 1.2.2 存在的问题
  • 1.3 国内外垂直搜索引擎的发展
  • 1.4 垂直搜索引擎的发展前景
  • 1.5 课题的主要研究内容
  • 第2章 搜索引擎实现原理
  • 2.1 通用搜索引擎的工作流程
  • 2.2 网页信息采集技术和软件
  • 2.2.1 网页信息采集软件的工作方式
  • 2.2.2 网页采集软件的组成模块
  • 2.3 索引器
  • 2.3.1 实现原理
  • 2.3.2 索引数据组织
  • 2.3.3 索引文件导出过程
  • 2.4 网页存储器与分析索引器
  • 2.5 查询器和用户接口的设计
  • 2.5.1 查询器
  • 2.5.2 用户接口
  • 2.6 搜索引擎的性能评价指标
  • 2.7 小结
  • 第3章 垂直搜索引擎的关键技术
  • 3.1 页面分析技术
  • 3.2 超链接分析算法
  • 3.2.1 PageRank 算法
  • 3.2.2 HITS 算法
  • 3.3 网页信息的结构化抽取
  • 3.3.1 网页信息的结构化抽取方式
  • 3.3.2 结构化信息抽取系统的结构
  • 3.3.3 中文网页结构化信息抽取的难点
  • 3.4 暗藏网页的信息抽取
  • 3.5 小结
  • 第4章 面向丝绸领域垂直搜索引擎的总体设计
  • 4.1 基本功能需求
  • 4.2 丝绸产品信息搜索引擎系统的总体框架
  • 4.3 系统开发环境
  • 4.4 系统功能特点
  • 4.5 系统的逻辑功能模块设计
  • 4.6 系统的关键技术分析
  • 第5章 面向丝绸领域的垂直搜索引擎的具体实现
  • 5.1 丝绸信息网页自动搜索算法的具体实现
  • 5.1.1 元搜索算法
  • 5.1.2 自动搜索过程的实现
  • 5.1.3 网页爬行的控制模块实现
  • 5.1.4 HTML 标准化与页面解析
  • 5.1.5 网页爬行的控制模块的性能测试
  • 5.2 页面分析与丝绸产品信息的自动抽取
  • 5.3 Lucene 倒排文件索引结构
  • 5.4 用户查询功能的实现
  • 5.4.1 网页形式的丝绸产品信息查询与返回
  • 5.4.2 站内数据库中的丝绸产品信息查询与返回
  • 5.5 小结
  • 结论
  • 参考文献
  • 攻读学位期间公开发表的论文
  • 致谢
  • 详细摘要
  • 相关论文文献

    标签:;  ;  ;  ;  

    面向丝绸领域的垂直搜索引擎关键算法研究
    下载Doc文档

    猜你喜欢