面向石油的主题搜索引擎研究

面向石油的主题搜索引擎研究

论文摘要

近年来,我国石油行业信息化建设发展迅速,但针对石油专业信息检索的主题搜索引擎却寥寥无几。现有的搜索引擎相关技术大多面向综合型搜索引擎,对主题信息检索的研究并不完善,因此研究和开发专业的石油主题搜索引擎具有很大的价值和意义。介绍了主题搜索引擎的发展现状和工作原理,阐述了主题爬虫的工作原理和搜索策略。在研究了国内外主题搜索引擎相关技术的基础上,分析了现有技术的不足之处,提出了几点改进。解析石油主题网页生成DOM树,设计了基于DOM的词共现模型。在该模型的基础上,根据共现信息扩充石油主题词表,从而建立石油主题词典。石油主题词典在原有词表的基础上加入了更多的石油主题词汇,具有更明显的石油主题特征。综合考虑了多种因素对权重的影响,分解了TFIDF权重公式。以文本段为单位计算相似度,改进了N层向量空间模型的权重计算公式,降低了向量空间的维数。提出了一种基于反向链接上下文的自适应主题爬行策略。利用相关网页的反向链接上下文来完善特征库,同时根据特征库来计算链接的优先值,优化了链接优先级的计算。实验证明,在性能上,基于反向链接上下文自适应算法要优于基于链接上下文的传统算法,没有主题漂移现象,且达到了自适应的效果。

论文目录

  • 摘要
  • Abstract
  • 第1章 前言
  • 1.1 课题的研究背景及意义
  • 1.2 国内外研究现状
  • 1.2.1 主题搜索引擎现状
  • 1.2.2 主题爬行技术的发展
  • 1.3 课题研究的主要内容
  • 1.3.1 主题搜索引擎工作原理的理论研究
  • 1.3.2 石油主题词典的建立
  • 1.3.3 相关度算法的研究与改进
  • 1.3.4 主题爬虫采集策略的理论研究与改进
  • 1.4 论文的组织结构
  • 第2章 主题搜索引擎相关技术
  • 2.1 主题搜索引擎概述
  • 2.1.1 主题搜索引擎的概念
  • 2.1.2 主题搜索引擎与通用搜索引擎的差别
  • 2.2 主题爬虫的工作原理
  • 2.3 主题爬虫搜索策略
  • 2.3.1 基于立即价值的评价方法
  • 2.3.2 基于未来价值的评价方法
  • 2.3.3 基于综合价值的评价方法
  • 2.3.4 基于动态价值的评价方法
  • 2.4 本章小结
  • 第3章 主题词典的建立
  • 3.1 词共现模型的相关知识
  • 3.1.1 词共现模型的应用
  • 3.1.2 词共现模型
  • 3.2 石油主题词典的建立
  • 3.2.1 基于DOM 树的词共现模型
  • 3.2.2 石油主题词典的建立
  • 3.3 本章小结
  • 第4章 向量空间模型的研究与改进
  • 4.1 向量空间模型回顾
  • 4.2 基于词频统计的TFIDF 算法的分析
  • 4.3 N 层向量空间模型的改进
  • 4.4 本章小结
  • 第5章 主题爬行技术的研究与改进
  • 5.1 传统链接上下文算法的介绍与分析
  • 5.2 链接上下文提取算法介绍
  • 5.3 基于反向链接上下文的自适应主题爬虫
  • 5.4 本章小结
  • 第6章 面向石油的主题搜索引擎的设计与实现
  • 6.1 系统总体框架
  • 6.2 系统的开发工具和平台
  • 6.3 数据库结构说明
  • 6.4 实验及结果分析
  • 6.4.1 建立面向石油的主题词典的实验和结果
  • 6.4.2 基于反向链接主题爬虫的实验和结果
  • 结论
  • 参考文献
  • 攻读硕士学位期间取得的学术成果
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    面向石油的主题搜索引擎研究
    下载Doc文档

    猜你喜欢