基于Nutch的科技项目主题搜索引擎研究

基于Nutch的科技项目主题搜索引擎研究

论文摘要

随着互联网信息的日益增长,通用搜索引擎已经无法满足用户对于特定领域信息的查询需求。搜索引擎正在向个性化、主题化、智能化发展,其中基于某种特定主题的搜索引擎已成为一个研究热点。目前,在科技项目领域,科技项目信息获取基本靠通用搜索引擎查询和专家经验,通过科技项目主题搜索为用户提供相关项目信息的研究还比较少。本文针对通用搜索引擎查询无法为用户提供深入科技项目信息的问题,设计开发基于科技项目主题的搜索引擎系统,方便用户准确了解科技项目发展状况。论文研究工作如下:(1)分析主题爬行器的关键技术,研究提出基于科技项目主题的爬行器模型。模型通过选择权威页面作为初始URL种子页面,选取项目模板文档训练科技项目主题词库,应用改进的VSM余弦方法判定网页主题相关性,提出基于Shark Search和Hits的主题爬行策略。该模型过滤科技项目主题相关性差的网页,使爬行器能够更多的爬行主题相关网页,提高网页爬行质量。(2)针对PageRank算法容易产生“主题漂移”,偏重旧网页的问题,提出一种基于时间衰减因子的改进算法TD-PageRank (Time Decay PageRank)。该算法将网页内容表示为空间向量模型,运用TF-IDF计算关键词权值的基础上,给予网页不同区域关键词相应权值,减少“主题漂移”,加入时间衰减因子,以此来加速旧网页“沉淀”。实验表明,改进的算法相较于PageRank算法,主题相关的新网页在排序中上升,更多的主题相关的网页排在结果集前列。(3)基于以上两点研究成果,结合Nutch开源搜索引擎,设计基于科技项目的主题搜索引擎原型系统。系统对Nutch爬行模块进行改进,加入主题相关性判定模块和主题词库训练模块,加入IKAnalyzer中文分词,通过结合Nutch评分机制和TD-PageRank算法改进查询结果排序,设计用户查询接口。实验测试验证原型系统的可行性。在国内对于科技项目领域主题搜索引擎研究较少的背景上,本文在科技项目主题搜索引擎方面所做的研究成果对科技项目搜索领域起到“抛砖引玉”的作用。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  • 1.1 课题研究背景及意义
  • 1.2 研究现状与发展趋势
  • 1.2.1 搜索引擎历史
  • 1.2.2 主题搜索引擎的研究现状
  • 1.2.3 搜索引擎发展趋势
  • 1.3 本文研究内容
  • 1.4 本文组织结构
  • 第2章 搜索引擎相关技术
  • 2.1 通用搜索引擎工作原理
  • 2.2 通用搜索引擎关键技术
  • 2.2.1 网页爬行器
  • 2.2.2 网页索引模块
  • 2.2.3 网页检索模块
  • 2.3 通用搜索引擎的不足
  • 2.4 主题搜索引擎的系统结构
  • 2.5 中文分词技术
  • 2.5.1 基于字典匹配的分词方法
  • 2.5.2 基于词频统计的分词方法
  • 2.5.3 基于语义理解的分词方法
  • 2.6 搜索引擎相关软件
  • 2.6.1 Nutch介绍
  • 2.6.2 Cygwin介绍
  • 2.6.3 Tomcat简介
  • 2.6.4 JavaCC简介
  • 2.7 本章小结
  • 第3章 科技项目主题爬行器的研究
  • 3.1 主题爬行器模型
  • 3.2 主题相关性判定模型
  • 3.3 主题爬行策略
  • 3.3.1 基于链接的爬行策略
  • 3.3.2 基于内容的爬行策略
  • 3.3.3 其他相关爬行策略
  • 3.4 科技项目爬虫的研究
  • 3.4.1 科技项目主题爬行总体设计
  • 3.4.2 种子页面的设定
  • 3.4.3 科技项目主题描述与词库的建立
  • 3.4.4 科技项目相关性判定
  • 3.4.5 科技项目主题爬行策略
  • 3.5 本章小结
  • 第4章 网页排序算法研究
  • 4.1 网页排序相关研究
  • 4.1.1 PageRank算法
  • 4.1.2 主题相关性改进算法
  • 4.1.3 基于时间因子的PageRank改进算法
  • 4.2 基于时间衰减因子的TD-PageRank算法设计
  • 4.2.1 基于时间的网页更新策略
  • 4.2.2 内容相关性权值改进
  • 4.2.3 TD-PageRank算法
  • 4.3 实验
  • 4.3.1 实验环境搭建
  • 4.3.2 结果分析
  • 4.4 本章小结
  • 第5章 科技项目主题搜索引擎的实现
  • 5.1 开发环境介绍
  • 5.1.1 软硬件开发资源
  • 5.1.2 环境变量设置
  • 5.1.3 开发环境搭建
  • 5.2 系统体系结构
  • 5.3 科技项目主题爬行器
  • 5.3.1 科技项目主题词库实现
  • 5.3.2 科技项目爬行实现
  • 5.4 科技项目索引器
  • 5.4.1 中文分词修改
  • 5.4.2 科技项目索引
  • 5.5 科技项目查询器
  • 5.6 本章小结
  • 第6章 运行测试
  • 6.1 运行步骤
  • 6.1.1 爬行页面准备
  • 6.1.2 运行Crawl命令抓取页面
  • 6.1.3 部署项目到Tomcat上
  • 6.2 运行界面
  • 6.3 本章小结
  • 第7章 总结与展望
  • 7.1 总结
  • 7.2 展望
  • 致谢
  • 参考文献
  • 附录
  • 详细摘要
  • 相关论文文献

    • [1].基于Nutch的节能减排垂直搜索引擎设计与实现[J]. 计算机工程与设计 2016(09)
    • [2].Nutch搜索引擎的公安应用研究[J]. 中国刑警学院学报 2015(01)
    • [3].Nutch搜索引擎在网络舆情管控中的应用[J]. 警察技术 2015(03)
    • [4].Nutch中文分词的研究和改进[J]. 软件导刊 2011(06)
    • [5].Nutch的插件机制分析[J]. 广西师范大学学报(自然科学版) 2010(01)
    • [6].Nutch中文分词的设计与实现[J]. 河北北方学院学报(自然科学版) 2010(04)
    • [7].基于Nutch的搜索引擎的研究[J]. 电子技术与软件工程 2016(06)
    • [8].基于Nutch与元搜索引擎技术的高校网络舆情监测系统研究[J]. 计算机时代 2014(11)
    • [9].基于Nutch专题搜索引擎的研究[J]. 微计算机信息 2010(30)
    • [10].基于Nutch的农业垂直搜索引擎研究[J]. 计算机工程与设计 2014(06)
    • [11].基于Nutch的用户行为分析搜索引擎的实现[J]. 科技资讯 2009(15)
    • [12].Nutch中庖丁解牛中文分词的实现与评测[J]. 计算机与现代化 2010(06)
    • [13].基于Nutch海关主题搜索引擎的研究与设计[J]. 社科纵横(新理论版) 2012(04)
    • [14].基于Nutch农业搜索引擎的研究与设计[J]. 计算机工程与设计 2009(03)
    • [15].Nutch搜索引擎的页面排序修改方法研究[J]. 计算机工程与设计 2009(06)
    • [16].Nutch中文分词插件的编写与实现[J]. 信息技术 2010(02)
    • [17].基于Nutch的开放存取搜索引擎构建研究[J]. 现代图书情报技术 2010(10)
    • [18].Hadoop云平台下Nutch中文分词的研究与实现[J]. 小型微型计算机系统 2013(12)
    • [19].面向招聘信息主题搜索引擎的研究与设计[J]. 广西教育 2011(18)
    • [20].基于Nutch的医学信息搜索引擎研究与实现[J]. 软件导刊 2014(06)
    • [21].搜索引擎Nutch在校际Reminder中的应用与实现[J]. 软件导刊 2012(05)
    • [22].基于Nutch的Web数学公式提取[J]. 广西师范大学学报(自然科学版) 2011(01)
    • [23].基于Nutch搜索引擎的E-learning系统开发[J]. 湖北工业大学学报 2011(05)
    • [24].Nutch中PageRank的并行实现[J]. 计算机工程与设计 2010(20)
    • [25].Hadoop视角下的Nutch爬行性能优化[J]. 计算机应用 2013(10)
    • [26].基于Nutch的增量网页信息采集系统的设计与实现[J]. 软件 2015(11)
    • [27].Nutch中网页更新预测研究与优化[J]. 上海师范大学学报(自然科学版) 2016(04)
    • [28].基于用户兴趣模型的Nutch个性化搜索引擎研究[J]. 计算机时代 2015(09)
    • [29].基于Nutch的页面排序算法研究[J]. 杭州电子科技大学学报 2013(06)
    • [30].基于Nutch的就业垂直搜索引擎研究[J]. 计算机技术与发展 2019(02)

    标签:;  ;  ;  ;  

    基于Nutch的科技项目主题搜索引擎研究
    下载Doc文档

    猜你喜欢