校园网数字资源搜索引擎的技术研究与实现

校园网数字资源搜索引擎的技术研究与实现

论文摘要

随着网络技术的迅猛发展,校园网络得到全面普及,并在学校的教学、科研、管理和生活服务等方面日益发挥着不可替代的重要作用。校园网络的广泛应用,支撑和促进了基于校园网络的各类数字化信息资源的快速增长,从文本到多媒体声音和图像资源,甚至网络服务(Web Service)等各类信息载体都得到迅速拓展,各种网页、媒体库、资源库等应运而生,校园网也因此成为学校数字信息资源共享与管理的重要平台。但是,随着校园网数字信息资源的急剧增长,数百万的网页信息,以及种类繁多的各类信息系统、特色网站等,一是信息资源相对分散而缺少关联,二是存在大量重复的原始数据,从而给使用者查阅信息或专题查找某一类资源带来了极大不便。解决这一问题的重要途径是部署一个高效、便捷的数字资源搜索引擎系统。目前,虽然互联网搜索引擎技术已经相对成熟,但由于网络构建者和网络构建目的不同,使得校园网与互联网之间还存在着较大差异,如果采用通用的互联网搜索引擎去搜索专门的门户网站或者特定范围内的网页,一是效率不高,二是使用不便,显得力不从心。比如要查阅一个特定学校内的某类网页信息,这些搜索引擎就很难进行全面高效的搜索。基于此,校园网搜索引擎系统的实现需要引进新的技术和方法,以提高搜索引擎在特定范围内查询的准确度,使校园网用户能够快速、准确的从海量的校园网数字资源中,抽取潜在、有价值的信息,使之有效的在学校的教、学及管理和决策中发挥积极作用。本文针对通用搜索引擎不能准确、高效检索校园网信息的不足,以及校园网信息检索的迫切需要,在统计分析校园网现有数字资源特点的基础上,分析比较了目前通用搜索引擎的实现技术,研究提出了校园网络搜索引擎系统的技术原理和系统框架,并采用.net2.0架构和C#语言及Microsoft SQL Server2005数据库,实现了一个专门面向校园网,具有搜索器、索引器、检索器、中文分词器和用户接口的,小型、高效的搜索引擎系统实例。该搜索引擎能较好的弥补通用搜索引擎对于校园网信息资源检索的不足,能轻松的部署、应用于校园网/LAN/Intranet等中小型网络,在特定范围的搜索具有自己独特的优势,表现出比通用搜索引擎更优的搜索性能。该搜索引擎系统的设计实现实例已经在我校校园网中投入使用,应用效果良好。论文主要由三部分内容构成:第一部分为搜索引擎的基础技术研究。主要对课题背景进行了阐述,介绍了搜索引擎的起源、发展现状、基本特性、基本原理、内容分类、应用领域和发展前景。具体分析了搜索引擎的组成和工作原理,并就当前流行的几类搜索引擎进行了分析比较。在此基础上,归纳总结了搜索引擎的未来发展趋势。第二部分为校园网搜索引擎主程序的研究设计与实现。主要从设计思路、数据库设计、服务端及蜘蛛端设计、工作流程等方面对搜索引擎主程序的设计与实现进行了详细叙述,并对蜘蛛端多线程采集网页信息资源的技术设计进行了重点阐述,提出了构建专题搜索的思路和实例。第三部分为校园网搜索引擎用户接口(即:Web端)的设计与实现。主要从Web端的用户查询接口和中文分词技术等两个方面进行了阐述。Web端的用户查询接口提供了关键词排行、结果排序等功能,综合运用最新的Microsoft Atlas架构、Web2.0等技术,有效保证了系统的先进性、稳定性和执行效率;同时,在对当前各种分词技术进行研究比较的基础上,提出了校园网搜索引擎系统中所用分词技术的具体方法,在实际应用中经比较测试,证明该分词技术具有较高的准确度,应用效果良好。

论文目录

  • 表目录
  • 图目录
  • 摘要
  • ABSTRACT
  • 第一章 引言
  • 1.1 搜索引擎的现状
  • 1.2 搜索引擎的基本概念
  • 1.3 搜索引擎的基本原理
  • 1.3.1 搜索器
  • 1.3.2 索引器
  • 1.3.3 检索器
  • 1.3.4 用户接口
  • 1.4 搜索引擎分类
  • 1.4.1 全文搜索引擎(Full Text Search Engine)
  • 1.4.2 目录式搜索引擎(Search Index/Directory)
  • 1.4.3 元搜索引擎(Meta Search Engine)
  • 1.5 搜索引擎的发展趋势
  • 1.6 本文主要内容
  • 第二章 搜索引擎主程序的设计与实现
  • 2.1 概述
  • 2.2 数据库设计
  • 2.3 服务端
  • 2.4 蜘蛛端(网络蜘蛛)
  • 2.4.1 蜘蛛身份验证
  • 2.4.2 基本搜索实现
  • 2.4.3 专题搜索实现
  • 2.5 主程序设计结果
  • 2.5.1 程序安装
  • 2.5.2 搜索引擎服务端
  • 2.5.3 网络蜘蛛
  • 2.6 本章小结
  • 第三章 搜索引擎 Web 端的设计与实现
  • 3.1 概述
  • 3.2 用户接口
  • 3.2.1 普通检索过程
  • 3.2.2 高级检索过程
  • 3.2.3 查询结果排序
  • 3.2.4 SQL 查询语句
  • 3.2.5 相关搜索
  • 3.3 中文分词
  • 3.3.1 基于字符串的分词方法
  • 3.3.2 未登陆词识别
  • 3.3.3 加载词典
  • 3.3.4 预分词
  • 3.3.5 IRule(分词规则)接口
  • 3.3.6 分词
  • 3.3.7 分词效率
  • 3.4 Web 端设计结果
  • 3.4.1 程序安装
  • 3.4.2 Web 端使用效果
  • 3.5 本章小结
  • 结束语
  • 致谢
  • 参考文献
  • 作者在学期间取得的学术成果
  • 相关论文文献

    • [1].搜索引擎系统中的蚁群算法分析[J]. 西安文理学院学报(自然科学版) 2016(04)
    • [2].基于语义主题搜索引擎系统研究[J]. 萍乡高等专科学校学报 2014(03)
    • [3].迷你搜索引擎系统的设计[J]. 信息与电脑(理论版) 2010(22)
    • [4].搜索引擎系统中热点问题的探讨[J]. 成都电子机械高等专科学校学报 2009(04)
    • [5].超级节点方式的搜索引擎系统的设计与实现[J]. 计算机与数字工程 2008(08)
    • [6].分布式搜索引擎系统效能建模与评价[J]. 软件学报 2012(02)
    • [7].蚁群算法在搜索引擎系统中的应用研究[J]. 计算机技术与发展 2009(12)
    • [8].几种典型网格搜索引擎系统的结构体系分析[J]. 图书情报工作 2008(05)
    • [9].基于用户兴趣的个性化搜索引擎系统[J]. 攀枝花学院学报 2009(03)
    • [10].“搜梅州”搜索引擎系统的设计与实现[J]. 嘉应学院学报 2011(02)
    • [11].一种基于云平台的局域网搜索引擎设计与实现[J]. 信息系统工程 2015(10)
    • [12].基于Lucene的小型搜索引擎系统的架构与实现[J]. 电脑编程技巧与维护 2010(11)
    • [13].核心业务性能优化模式在搜索引擎系统中的研究与应用[J]. 信息与电脑(理论版) 2014(04)
    • [14].基于Deep Web的图书搜索引擎系统设计[J]. 计算机与数字工程 2009(09)
    • [15].基于改进用户浏览行为个性化搜索引擎系统研究[J]. 软件导刊 2013(10)
    • [16].基于Memcached的日历搜索引擎系统优化设计与实现[J]. 计算机应用 2011(03)
    • [17].元搜索引擎系统的研究[J]. 科技创新导报 2009(35)
    • [18].基于网络爬虫的搜狐网新闻搜索引擎系统的实现[J]. 数字通信世界 2017(07)
    • [19].基于SQL Server的FTP搜索引擎系统的设计[J]. 软件导刊 2008(06)
    • [20].基于语义Web服务的分布式服装搜索引擎系统设计[J]. 计算机应用 2009(06)
    • [21].实现一个垂直育儿搜索引擎系统的探索[J]. 网友世界 2012(19)
    • [22].搜索引擎系统中网页抓取模块研究[J]. 现代计算机(专业版) 2010(03)
    • [23].丽水市网络图书馆建设的实践与思考[J]. 图书馆研究与工作 2011(03)
    • [24].基于本体的纺织服装主题搜索引擎系统研究[J]. 丝绸 2014(11)
    • [25].基于校园网的信息资源搜索引擎系统的设计[J]. 贵州工业大学学报(自然科学版) 2008(05)
    • [26].面向产业集群的协同商务系统构建研究[J]. 中国信息界 2010(05)
    • [27].基于Swing和Lucene的桌面搜索引擎系统设计与实现[J]. 电脑编程技巧与维护 2012(01)
    • [28].基于Zookeeper分布式搜索引擎系统的配置文件自动更新方法、装置及系统[J]. 广东通信技术 2015(05)
    • [29].基于本体的企业搜索引擎研究[J]. 工业控制计算机 2012(02)
    • [30].Geeking:基于胜者表的体育新闻搜索引擎系统[J]. 集成技术 2016(02)

    标签:;  ;  ;  

    校园网数字资源搜索引擎的技术研究与实现
    下载Doc文档

    猜你喜欢