面向远程教育的搜索引擎系统设计与实现

面向远程教育的搜索引擎系统设计与实现

论文摘要

面向远程教育的垂直搜索引擎系统是远程教育资源获取的主要途径。在爬取子系统中,通过对国内远程教育资源建设机制的分析,专用数据结构的设计,DNS解析、统一编码等问题的解决,提出了基于地址段控制和Content Graph层分类控制相结合的抓取机制,使抓取效率提高了36.1%;在预处理和检索子系统中,通过对Lex技术的分析,设计了基于Lex的网页内容提取器,提出了一种自适应字长的扩展异或哈希算法,构建了行业专用词典,使冲突率减少至0.03%,并依此构建索引系统;最后通过对信息检索基础理论和检索模型的分析,提出面向远程教育的检索模型,通过对服务接口实现完成搜索功能,为提高检索效率引入了Cache机制,使得80%的针对远程教育的检索为零耗时。实验表明,各子系统的实施使垂直搜索引擎在满足查全率的前提下达到查准率要求,在系统应用中带来了很好的效果。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 远程教育与搜索引擎
  • 1.1.1 教育技术
  • 1.1.2 远程教育的发展
  • 1.1.3 搜索引擎
  • 1.2 面向主题的搜索引擎
  • 1.2.1 主题搜索
  • 1.2.2 面向远程教育的搜索引擎
  • 1.3 论文工作
  • 1.4 论文组织
  • 第二章 面向远程教育的搜索引擎系统分析
  • 2.1 搜索引擎系统
  • 2.1.1 通用搜索引擎系统
  • 2.1.2 面向远程教育的垂直搜索引擎设计
  • 2.2 爬取子系统
  • 2.3 预处理与索引器系统
  • 2.4 服务子系统
  • 第三章 爬取子系统的设计与实现
  • 3.1 爬取子系统基础
  • 3.1.1 超文本传输协议与网络相关
  • 3.1.2 DNS 解析扩展
  • 3.1.3 Linux 下的Posix 多线程与信号机制
  • 3.1.4 Web 图及Web 数据挖掘
  • 3.1.5 一种广泛使用的数据结构在系统实施中的应用
  • 3.1.6 其他相关
  • 3.2 高性能爬取子系统的核心技术
  • 3.2.1 高效爬取算法和抓取机制
  • 3.2.2 基于Web 图的抓取机制的再探讨
  • 3.2.3 一致性编码问题
  • 3.2.4 数据存储
  • 3.3 爬取子系统的实施与实验
  • 3.4 本章小结
  • 第四章 预处理及索引器系统
  • 4.1 预处理和索引基础
  • 4.1.1 Lex 技术
  • 4.1.2 分词技术与中文词典
  • 4.1.3 其他
  • 4.2 内容抽取
  • 4.2.1 内容抽取模块的设计
  • 4.2.2 内容抽取子模块实验
  • 4.3 中文词典的建立
  • 4.3.1 异或哈希算法
  • 4.3.2 自适应异或哈希算法
  • 4.3.3 实验及结果
  • 4.4 索引建立
  • 4.4.1 正向索引
  • 4.4.2 倒排索引
  • 4.4.3 其他问题
  • 4.5 本章小结
  • 第五章 检索服务子系统
  • 5.1 检索系统概述
  • 5.1.1 信息检索
  • 5.1.2 检索模型
  • 5.1.3 检索模块的设计与实现
  • 5.2 Web 服务模块设计
  • 5.2.1 CGI
  • 5.2.2 服务模块设计
  • 5.2.3 Cache 机制的应用
  • 5.3 系统测试
  • 5.4 本章小结
  • 第六章 总结与展望
  • 6.1 论文总结
  • 6.2 展望
  • 致谢
  • 参考文献
  • 研究成果
  • 相关论文文献

    • [1].搜索引擎系统中的蚁群算法分析[J]. 西安文理学院学报(自然科学版) 2016(04)
    • [2].基于语义主题搜索引擎系统研究[J]. 萍乡高等专科学校学报 2014(03)
    • [3].迷你搜索引擎系统的设计[J]. 信息与电脑(理论版) 2010(22)
    • [4].搜索引擎系统中热点问题的探讨[J]. 成都电子机械高等专科学校学报 2009(04)
    • [5].超级节点方式的搜索引擎系统的设计与实现[J]. 计算机与数字工程 2008(08)
    • [6].分布式搜索引擎系统效能建模与评价[J]. 软件学报 2012(02)
    • [7].蚁群算法在搜索引擎系统中的应用研究[J]. 计算机技术与发展 2009(12)
    • [8].几种典型网格搜索引擎系统的结构体系分析[J]. 图书情报工作 2008(05)
    • [9].基于用户兴趣的个性化搜索引擎系统[J]. 攀枝花学院学报 2009(03)
    • [10].“搜梅州”搜索引擎系统的设计与实现[J]. 嘉应学院学报 2011(02)
    • [11].一种基于云平台的局域网搜索引擎设计与实现[J]. 信息系统工程 2015(10)
    • [12].基于Lucene的小型搜索引擎系统的架构与实现[J]. 电脑编程技巧与维护 2010(11)
    • [13].核心业务性能优化模式在搜索引擎系统中的研究与应用[J]. 信息与电脑(理论版) 2014(04)
    • [14].基于Deep Web的图书搜索引擎系统设计[J]. 计算机与数字工程 2009(09)
    • [15].基于改进用户浏览行为个性化搜索引擎系统研究[J]. 软件导刊 2013(10)
    • [16].基于Memcached的日历搜索引擎系统优化设计与实现[J]. 计算机应用 2011(03)
    • [17].元搜索引擎系统的研究[J]. 科技创新导报 2009(35)
    • [18].基于网络爬虫的搜狐网新闻搜索引擎系统的实现[J]. 数字通信世界 2017(07)
    • [19].基于SQL Server的FTP搜索引擎系统的设计[J]. 软件导刊 2008(06)
    • [20].基于语义Web服务的分布式服装搜索引擎系统设计[J]. 计算机应用 2009(06)
    • [21].实现一个垂直育儿搜索引擎系统的探索[J]. 网友世界 2012(19)
    • [22].搜索引擎系统中网页抓取模块研究[J]. 现代计算机(专业版) 2010(03)
    • [23].丽水市网络图书馆建设的实践与思考[J]. 图书馆研究与工作 2011(03)
    • [24].基于本体的纺织服装主题搜索引擎系统研究[J]. 丝绸 2014(11)
    • [25].基于校园网的信息资源搜索引擎系统的设计[J]. 贵州工业大学学报(自然科学版) 2008(05)
    • [26].面向产业集群的协同商务系统构建研究[J]. 中国信息界 2010(05)
    • [27].基于Swing和Lucene的桌面搜索引擎系统设计与实现[J]. 电脑编程技巧与维护 2012(01)
    • [28].基于Zookeeper分布式搜索引擎系统的配置文件自动更新方法、装置及系统[J]. 广东通信技术 2015(05)
    • [29].基于本体的企业搜索引擎研究[J]. 工业控制计算机 2012(02)
    • [30].Geeking:基于胜者表的体育新闻搜索引擎系统[J]. 集成技术 2016(02)

    标签:;  ;  ;  

    面向远程教育的搜索引擎系统设计与实现
    下载Doc文档

    猜你喜欢