互联网环境下基于专题内容的搜索系统的研究与设计

互联网环境下基于专题内容的搜索系统的研究与设计

论文摘要

互联网已经发展成为包含多种信息资源、站点遍布全球的巨大动态信息服务网络,为用户提供了一个极具价值的信息源,同时也给公安信息搜寻工作带来了不少的困难。为了能够在互联网上掌握警方需要了解的特殊信息,本文设计并架构了一个基于Java开放源代码系统的搜索系统,通过该系统可以真正地了解网络的第一手资料,以及互联网上的舆论情报,为公安机关提供决策性的参考资料。本文把这个系统划分为具有三个独立功能的模块,即网络抓取模块、网页分析模块、信息库存储和查询模块。并分别采用几种Java开发源代码的程序来实现这三个模块的功能,通过必要的修改源代码工作,就可以架构起一个符合实际需求的搜索引擎系统。本文所描述的搜索引擎系统,是一个正在逐步完善的系统,目前已经在公安专用网络上进行了初步的搜索试验,可以基本达到设计的要求。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  • 1.1 选题背景
  • 1.2 系统开发的目的与意义
  • 1.2.1 系统开发的目的
  • 1.2.2 系统开发的意义
  • 1.3 搜索引擎的发展动态
  • 1.4 市场前景和可行性分析
  • 1.4.1 市场前景分析
  • 1.4.2 可行性分析
  • 1.5 设计成果的应用价值
  • 1.6 本文的内容安排
  • 第2章 搜索引擎的系统分析和设计
  • 2.1 现有搜索引擎技术的分析
  • 2.1.1 搜索引擎的发展历史
  • 2.1.2 搜索引擎实现技术的分类
  • 2.1.3 全文检索技术
  • 2.1.4 常规的搜索引擎的架构
  • 2.2 基于专题内容搜索引擎的功能设计
  • 2.2.1 搜索引擎的模块设计
  • 2.2.2 网络抓取模块
  • 2.2.3 网页分析模块
  • 2.2.4 信息库存储和查询模块
  • 2.3 开发专用搜索引擎的软件选择
  • 2.3.1 搜索引擎的主要过程
  • 2.3.2 主要软件的选择
  • 2.4 搜索引擎开发环境的搭建
  • 2.4.1 Java环境的设置
  • 2.4.2 Eclipse集成开发平台的搭建和插件安装
  • 2.5 Tomcat的安装和Web服务器的建立
  • 2.5.1 WEB服务器Tomcat
  • 2.5.2 Tomcat的安装
  • 2.5.3 Tomcat的Eclipse插件的安装
  • 2.5.4 Eclipse中Tomcat工程的建立
  • 2.6 开始建立基于专题内容的搜索引擎工程
  • 2.6.1 建立Tomcat工程项目
  • 2.6.2 要生成的网页
  • 2.7 小结
  • 第3章 网络抓取模块的实现
  • 3.1 网络抓取模块的功能
  • 3.1.1 网络爬虫的主要功能
  • 3.1.2 网络爬虫的搜索策略
  • 3.2 Heritix的特点和及其安装
  • 3.2.1 Heritrix的特点
  • 3.2.2 Heritrix的安装
  • 3.3 Heritrix的架构
  • 3.3.1 Heritrix的执行步骤
  • 3.3.2 Heritrix的结构组成
  • 3.4 Heritrix对特殊信息搜索的实现
  • 3.4.1 处理器链的结构
  • 3.4.2 抽取链extrator的修改
  • 3.4.3 提交链PostProcessor的修改
  • 3.5 小结
  • 第4章 网页分析模块的实现
  • 4.1 网页排序的几种算法
  • 4.1.1 网页排序的PageRank算法
  • 4.1.2 网页排序的HITS算法
  • 4.1.3 Lucene的排序算法
  • 4.2 Lucene的介绍
  • 4.2.1 Lucene的特点
  • 4.2.2 Lucene的安装
  • 4.2.3 Lucene索引过程
  • 4.3 Lucene的结构分析
  • 4.3.1 Lucene的包结构
  • 4.3.2 Lucene的索引几个重要结构类
  • 4.4 Lucene的索引实现
  • 4.4.1 对文档的预处理
  • 4.4.2 分析
  • 4.4.3 索引的实现
  • 4.4.4 对关键词搜索的实现
  • 4.4.5 排序及后期处理
  • 4.5 小结
  • 第5章 信息库存储和查询模块的实现
  • 5.1 数据库的选择和安装
  • 5.1.1 MySQL数据库的功能
  • 5.1.2 MySQL数据库的安装
  • 5.1.3 JDBC的安装
  • 5.2 搜索引擎数据库的结构
  • 5.2.1 输入数据库的结构
  • 5.2.2 输出数据库的结构
  • 5.3 数据库的编程实现
  • 5.3.1 数据库的存储过程
  • 5.3.2 搜索引擎的一些存储过程的实现
  • 5.3.3 数据库的连接与更新
  • 5.4 用户查询的实现
  • 5.4.1 JTable的作用
  • 5.4.2 用JTable实现的用户查询
  • 5.5 小结
  • 第6章 搜索引擎的实现与改进
  • 6.1 搜索引擎在局域网环境中的测试和实现
  • 6.1.1 要搜索的网页和搜索内容设定
  • 6.1.2 搜索的结果和输出
  • 6.2 搜索引擎存在的问题和改进方法
  • 6.2.1 存在的一些主要缺陷
  • 6.2.2 再进一步的改进方法
  • 6.3 小结
  • 第7章 总结
  • 致谢
  • 参考文献
  • 个人简历 在读期间发表的学术论文与研究成果
  • 相关论文文献

    • [1].资源发现系统服务能力提升初探——以文津搜索系统为例[J]. 图书情报导刊 2020(03)
    • [2].新技术环境下图书馆搜索系统发展思考[J]. 图书馆杂志 2019(07)
    • [3].基于数字生物特征识别技术在罹难人员搜索系统的应用[J]. 中国数字医学 2011(10)
    • [4].多输入极值搜索系统预设性能控制[J]. 华中科技大学学报(自然科学版) 2017(01)
    • [5].票价搜索系统设计[J]. 电脑知识与技术 2016(29)
    • [6].含未知参数极值搜索系统预设性能控制[J]. 系统工程与电子技术 2017(10)
    • [7].依托百度搜索引擎的舆情信息搜索系统研究[J]. 计算机与数字工程 2019(11)
    • [8].基于病例转录组特征的精准用药搜索系统[J]. 基因组学与应用生物学 2018(02)
    • [9].要把“上帝”当“傻瓜”[J]. 中国农资 2016(18)
    • [10].硬盘搜索系统设计与实现[J]. 软件导刊 2013(12)
    • [11].一种自反馈式元搜索系统的设计[J]. 中原工学院学报 2011(04)
    • [12].基于深度学习的图像分类搜索系统[J]. 电子技术应用 2019(12)
    • [13].公共自行车出行搜索系统的设计与实现[J]. 长沙民政职业技术学院学报 2016(04)
    • [14].高并发搜索系统下内存池的设计和实现[J]. 西安工业大学学报 2016(03)
    • [15].面向异构数据源的专家搜索系统研究[J]. 计算机应用研究 2015(05)
    • [16].读秀学术搜索系统与文津搜索系统的比较分析及启示[J]. 大学图书情报学刊 2014(02)
    • [17].NSA:内部搜索系统曝光可查询全球通讯数据[J]. 移动通信 2014(16)
    • [18].浅谈救援飞机搜索系统设计与发展[J]. 黑龙江科技信息 2017(18)
    • [19].基于网页的医学信息搜索系统的分析与设计[J]. 医学信息 2009(03)
    • [20].基于垂直搜索的机票搜索系统的设计与实现[J]. 计算机应用与软件 2008(06)
    • [21].基于Eclipse Scripting API的放疗案例搜索系统的设计与实现[J]. 医疗卫生装备 2018(10)
    • [22].基于Ajax的聚合搜索系统[J]. 中国西部科技 2008(17)
    • [23].基于状态可行域约束的极值搜索系统预设性能控制[J]. 控制与决策 2018(01)
    • [24].基于Solr的人才职位搜索系统[J]. 福建电脑 2016(08)
    • [25].基于社会化网络标签的搜索系统设计[J]. 电子测试 2014(12)
    • [26].循环肿瘤细胞的检测[J]. 医学综述 2010(06)
    • [27].俄罗斯被遗忘权立法的意图、架构与特点[J]. 求是学刊 2016(05)
    • [28].Google霸权:无解的搜索系统[J]. 当代经理人 2008(09)
    • [29].基于Hadoop云计算平台的资源搜索系统[J]. 电脑知识与技术 2014(19)
    • [30].基于Compass框架的高级搜索系统的设计与实现[J]. 重庆理工大学学报(自然科学) 2011(08)

    标签:;  ;  ;  ;  

    互联网环境下基于专题内容的搜索系统的研究与设计
    下载Doc文档

    猜你喜欢