论文摘要
近年来,我国石油行业信息化建设发展迅速,但针对石油专业信息检索的主题搜索引擎却寥寥无几。现有的搜索引擎相关技术大多面向综合型搜索引擎,对主题信息检索的研究并不完善,因此研究和开发专业的石油主题搜索引擎具有很大的价值和意义。介绍了主题搜索引擎的发展现状和工作原理,阐述了主题爬虫的工作原理和搜索策略。在研究了国内外主题搜索引擎相关技术的基础上,分析了现有技术的不足之处,提出了几点改进。解析石油主题网页生成DOM树,设计了基于DOM的词共现模型。在该模型的基础上,根据共现信息扩充石油主题词表,从而建立石油主题词典。石油主题词典在原有词表的基础上加入了更多的石油主题词汇,具有更明显的石油主题特征。综合考虑了多种因素对权重的影响,分解了TFIDF权重公式。以文本段为单位计算相似度,改进了N层向量空间模型的权重计算公式,降低了向量空间的维数。提出了一种基于反向链接上下文的自适应主题爬行策略。利用相关网页的反向链接上下文来完善特征库,同时根据特征库来计算链接的优先值,优化了链接优先级的计算。实验证明,在性能上,基于反向链接上下文自适应算法要优于基于链接上下文的传统算法,没有主题漂移现象,且达到了自适应的效果。
论文目录
摘要Abstract第1章 前言1.1 课题的研究背景及意义1.2 国内外研究现状1.2.1 主题搜索引擎现状1.2.2 主题爬行技术的发展1.3 课题研究的主要内容1.3.1 主题搜索引擎工作原理的理论研究1.3.2 石油主题词典的建立1.3.3 相关度算法的研究与改进1.3.4 主题爬虫采集策略的理论研究与改进1.4 论文的组织结构第2章 主题搜索引擎相关技术2.1 主题搜索引擎概述2.1.1 主题搜索引擎的概念2.1.2 主题搜索引擎与通用搜索引擎的差别2.2 主题爬虫的工作原理2.3 主题爬虫搜索策略2.3.1 基于立即价值的评价方法2.3.2 基于未来价值的评价方法2.3.3 基于综合价值的评价方法2.3.4 基于动态价值的评价方法2.4 本章小结第3章 主题词典的建立3.1 词共现模型的相关知识3.1.1 词共现模型的应用3.1.2 词共现模型3.2 石油主题词典的建立3.2.1 基于DOM 树的词共现模型3.2.2 石油主题词典的建立3.3 本章小结第4章 向量空间模型的研究与改进4.1 向量空间模型回顾4.2 基于词频统计的TFIDF 算法的分析4.3 N 层向量空间模型的改进4.4 本章小结第5章 主题爬行技术的研究与改进5.1 传统链接上下文算法的介绍与分析5.2 链接上下文提取算法介绍5.3 基于反向链接上下文的自适应主题爬虫5.4 本章小结第6章 面向石油的主题搜索引擎的设计与实现6.1 系统总体框架6.2 系统的开发工具和平台6.3 数据库结构说明6.4 实验及结果分析6.4.1 建立面向石油的主题词典的实验和结果6.4.2 基于反向链接主题爬虫的实验和结果结论参考文献攻读硕士学位期间取得的学术成果致谢
相关论文文献
标签:主题搜索引擎论文; 石油主题词典论文; 向量空间模型论文; 反向链接上下文论文; 自适应主题爬虫论文;