论文摘要
众所周知,在浩如烟海的互联网上存在着大量的隐蔽网络资源,这些资源由于许多因素不容易被用户轻易地发掘,然而这些隐蔽信息在数量和质量上都优于普通的网络资源,所以对它们的发掘研究变得越来越重要。通用搜索引擎由于受到爬行深度的限制不可能全面地抓取这些信息,并且许多网站都设置了访问权限,一般爬虫(Crawler)被禁止访问;通用搜索引擎的页面解析也不能适应各具特色的网页形式的要求。相对于通用搜索引擎,具备特殊功能的垂直搜索引擎在挖掘隐蔽信息方面却能取得较好的效果。垂直搜索引擎采用针对资源特点的定制抓取策略和解析方法,能提取出精度非常高的网络信息,对于用户来讲,通过它可以在某一领域查询到经过精心筛选的信息。论文研究了搜索引擎的相关技术。通过分析研究聚焦爬虫的各种爬行策略,提出了基于树型网络结构的国外军事论坛网站资源的网络爬虫方法。通常论坛在网络分布上严格符合树型网络结构,可以针对性地加入爬行链路选择机制,使爬虫只抓取存有信息的贴子网页。在信息分类方面,论坛贴子内容含有大量的无用信息(回贴、恶意发贴),而这些无用信息通过统计发现,含有两个通常的特点:字数少、段落少。本文针对这一特点,提出了基于模糊模式识别的信息分类方法,将贴子信息的字数和段落数提取出来做为影响因子,采用样本分析法确定其影响度和权重,根据S型函数形态计算出分类隶属函数公式,有效地提高了分类的质量。在索引与检索方面,研究了垂直搜索引擎常用的索引软件Lucene的索引方法,提出了针对用户查询的结果缓存方法,通过OSCache进行了实现,大大提高了检索的响应速度。通过对搜索引擎的整体研究,使用Java建立了一个包含Military.com论坛的部分信息的军事资料搜索引擎,并将前面的研究结果进行了实现。最后研究了分布式搜索引擎的各种系统结构及运行机制,提出了基于分布式元搜索引擎系统的分布式垂直搜索引擎的系统框架,并提出了基于CORBA模式的分布式实现方法。
论文目录
摘要ABSTRACT第一章 引言1.1 课题研究背景1.2 Web搜索引擎研究综述1.2.1 搜索引擎研究现状1.2.2 垂直搜索引擎研究现状1.3 课题设计思路及论文安排第二章 垂直搜索引擎工作原理和相关技术2.1 垂直搜索引擎的体系结构2.2 信息搜集2.2.1 Crawler基本原理2.2.2 深度优先和广度优先2.2.3 不重复抓取策略2.2.4 网络爬虫Heritrix2.3 信息提取及索引2.3.1 页面解析原理2.3.2 倒排索引技术2.4 信息检索2.4.1 信息检索中的查询技术2.4.2 信息检索中的排序技术2.5 本章小结第三章 基于聚焦爬虫原理的垂直搜索引擎信息搜集方法3.1 聚焦爬虫基本概念3.1.1 聚焦爬虫的原理3.1.2 聚焦爬虫的结构3.2 基于树形超链结构的论坛聚焦爬虫方法3.2.1 主题页面的分布特征3.2.2 论坛树形网络结构3.2.3 基于树形超链结构的Heritrix爬虫实现3.2.4 利用爬虫程序抓取外国军事论坛3.2.5 Heritrix爬虫程序多任务扩展3.3 模板式网页信息提取3.3.1 HTMLParser页面提取技术3.3.2 页面解析3.3.3 信息提取3.4 基于模糊模式识别的信息分类方法3.4.1 模糊模式识别基本概念3.4.2 特征选择与样本类别统计3.4.3 最大隶属度原则下的因素权重估计3.4.4 基于S型隶属函数分类方法3.4.5 对贴子进行计算并分类3.5 本章小结第四章 垂直搜索引擎的信息索引及检索设计4.1 基于Lucene信息索引实现4.1.1 全文检索工具Lucene介绍4.1.2 运用Lucene建立论坛贴子文件索引4.1.3 Lucene索引的分布式应用及扩展性4.2 论坛信息的数据库存储4.3 基于用户查询的信息检索实现4.3.1 基于用户查询的索引缓存方法4.3.2 构建用户搜索4.4 本章小结第五章 分布式垂直搜索引擎系统设计5.1 分布式搜索引擎基本技术5.1.1 分布式基本原理5.1.2 大型通用搜索引擎的分布式系统框架5.2 基于分布式元搜索引擎的分布式垂直搜索引擎系统设计5.2.1 分布式垂直搜索引擎系统框架5.2.2 分布式爬虫方法5.2.3 数据同步备份和索引合并方法5.2.4 负载均衡方法5.3 分布式垂直搜索引擎用户接口单元方法5.3.1 CORBA运行机理5.3.2 基于CORBA方式的分布式用户检索方法5.4 分布式搜索引擎的扩展性分析5.5 本章小结结束语致谢参考文献作者在学期间取得的学术成果附录A 扩展Extractor类的末网页判定附录B 链接过滤的扩展schedule()方法附录C Lucene建立索引Document()和IndexProcesser()方法附录D 数据库添加数据方法附录E OSCache缓存类
相关论文文献
标签:垂直搜索引擎论文; 分布式论文; 聚焦爬虫论文; 模糊分类论文;