论文摘要
垂直搜索引擎是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后以某种形式返回给用户。垂直搜索引擎与传统的网页搜索引擎最大的区别就是将网页中的信息进行结构化的抽取。使得信息在抽取的时候就建立了分类,更好的适应查询需求。近几年来,垂直搜索引擎已经被应用到某些专业的领域,如化学。本文从研究和设计的角度对垂直搜索引擎的相关技术作了详细的分析和讨论,论述了目前搜索引擎的国内外发展现状和趋势。分析了搜索引擎的工作原理及其各部分主要功能,抓住如何评价页面的主题相关性和设计高效的爬行策略这两个关键问题,提出一个基于丝绸信息的定题搜索器,它是垂直搜索引擎的核心。在文章的主体部分,以搜索引擎的设计流程为主线,重点论述垂直搜索引擎设计与实现时一些独特的信息识别方法,包括pagerank和HITS算法。从HTML页面解析的一般概念入手,结合网页之间的超链接分析,按照搜索引擎系统的要求,采用深度优先的搜索策略设计具有垂直搜索引擎功能的丝绸信息网站。并按照软件工程的方法,研究了丝绸信息搜索引擎的总体设计过程和实现过程,设计过程重点论述了需求分析、网站的功能规划和总体结构、数据库设计等内容,并通过编码实现设计阶段的各种算法和具体功能。最后的软件功能测试表明,此搜索引擎算法准确、确定、不会引起本地资源耗尽;它支持按指定站点搜索,按给定URL范围进行搜索的搜索策略。可以完成指定信息的自动搜索和下载。
论文目录
中文摘要ABSTRACT第1章 绪论1.1 课题的背景及意义1.2 垂直搜索引擎现存的问题1.2.1 垂直搜索引擎的产生1.2.2 存在的问题1.3 国内外垂直搜索引擎的发展1.4 垂直搜索引擎的发展前景1.5 课题的主要研究内容第2章 搜索引擎实现原理2.1 通用搜索引擎的工作流程2.2 网页信息采集技术和软件2.2.1 网页信息采集软件的工作方式2.2.2 网页采集软件的组成模块2.3 索引器2.3.1 实现原理2.3.2 索引数据组织2.3.3 索引文件导出过程2.4 网页存储器与分析索引器2.5 查询器和用户接口的设计2.5.1 查询器2.5.2 用户接口2.6 搜索引擎的性能评价指标2.7 小结第3章 垂直搜索引擎的关键技术3.1 页面分析技术3.2 超链接分析算法3.2.1 PageRank 算法3.2.2 HITS 算法3.3 网页信息的结构化抽取3.3.1 网页信息的结构化抽取方式3.3.2 结构化信息抽取系统的结构3.3.3 中文网页结构化信息抽取的难点3.4 暗藏网页的信息抽取3.5 小结第4章 面向丝绸领域垂直搜索引擎的总体设计4.1 基本功能需求4.2 丝绸产品信息搜索引擎系统的总体框架4.3 系统开发环境4.4 系统功能特点4.5 系统的逻辑功能模块设计4.6 系统的关键技术分析第5章 面向丝绸领域的垂直搜索引擎的具体实现5.1 丝绸信息网页自动搜索算法的具体实现5.1.1 元搜索算法5.1.2 自动搜索过程的实现5.1.3 网页爬行的控制模块实现5.1.4 HTML 标准化与页面解析5.1.5 网页爬行的控制模块的性能测试5.2 页面分析与丝绸产品信息的自动抽取5.3 Lucene 倒排文件索引结构5.4 用户查询功能的实现5.4.1 网页形式的丝绸产品信息查询与返回5.4.2 站内数据库中的丝绸产品信息查询与返回5.5 小结结论参考文献攻读学位期间公开发表的论文致谢详细摘要
相关论文文献
标签:垂直搜索引擎论文; 网页信息抽取论文; 抽取规则论文; 索引库论文;