基于SDD中文农业网页搜索系统的设计与实现

基于SDD中文农业网页搜索系统的设计与实现

论文摘要

由于我国数字鸿沟的存在,农业信息的获得非常困难,特别是急需农业科技信息和市场信息的企业、部门、农户,他们通过传统的综合搜索引擎,在这些海量的信息中,搜索一个准确的信息已非常困难,而使用通用的搜索引擎则搜索到很多无关的信息。要实现信息的精确搜索,就需要研究专业的搜索引擎。因此,针对于中文农业网页,研发专业化的搜索引擎,实现农业信息的精确搜索是本文研究的出发点。 本文通过研究背景的分析提出了一种“二次主题漂移”检索模式。详细介绍了全文检索与语义检索技术,为后面的研究奠定技术基础,提出了基于SDD算法的语义检索技术实现方法。根据SDD算法,构建了一个实验系统来验证SDD算法处理大规模文档的能力,同时利用国家农业科学数据中心10个主题数据库中的10万条记录,来进一步验证“二次主题漂移”技术的可行性。最后介绍了基于SDD中文农业网页搜索系统的设计与实现,包括系统的结构与功能以及实际运行的情况。 本文的主要成果: (1)研究并实践“二次主题漂移”检索模式,可以有效提高用户检索应用的体验。 (2)研究分析SDD算法,找出了该算法在windows平台上的运行瓶颈,并提出了性能改进的具体方法。 (3)构建了基于SDD算法的中文农业信息检索实验系统,验证大规模文档集下SDD算法的可行性和“二次主题漂移”模式的可行性。 (4)设计并实现了一个基于SDD中文农业网页搜索系统。

论文目录

  • 第一章 引言
  • 1.1 研究背景
  • 1.2 信息检索的相关性理论
  • 1.2.1 面向系统的相关性
  • 1.2.2 面向用户的相关性
  • 1.2.3 小结
  • 1.3 研究内容和方法
  • 1.3.1 问题的提出
  • 1.3.2 主要研究内容
  • 1.3.3 研究思路和方法
  • 1.4 论文的写作框架
  • 第二章 全文检索与语义检索
  • 2.1 全文检索与全文检索系统
  • 2.1.1 Lucene的应用、特点及优势
  • 2.1.2 Lucene系统结构分析
  • 2.1.3 Lucene使用心得
  • 2.1.4 全文检索的不足
  • 2.2 语义检索
  • 2.2.1 传统经典信息检索模型
  • 2.2.2 隐含语义索引(LSI)模型
  • 2.3 LSI数学描述
  • 2.3.1 符号
  • 2.3.2 文档匹配
  • 2.3.3 标引项匹配
  • 2.3.4 概念空间
  • 2.3.5 小结
  • 第三章 SDD算法及其改进
  • 3.1 SVD算法的不足
  • 3.2 SDD算法
  • 3.2.1 SDD的计算
  • 3.2.2 SDD算法的收敛性证明
  • 3.3 SDD算法的技术实现
  • 3.3.1 数据结构
  • 3.3.2 使用压缩存储的计算
  • 3.4 SDD算法性能瓶颈及其改进
  • 3.5 SDD算法应用范围
  • 3.5.1 数据压缩
  • 3.5.2 数据过滤
  • 3.5.3 特征抽取
  • 第四章 SDD改进算法及“二次主题漂移”检索模式验证
  • 4.1 中文网页测试集
  • 4.2 文本信息的预处理
  • 4.3 中文农业词典的构建
  • 4.4 中文文本的分词
  • 4.5 实验系统设计与实现
  • 4.5.1 系统设计
  • 4.5.2 系统实现
  • 4.6 SDD改进算法的验证
  • 4.6.1 进行向量空间模型(VSM)与矩阵分解后的索引文件比对
  • 4.6.2 Windows平台与Linux平台矩阵分解对比
  • 4.7 “二次主题漂移”检索模式验证
  • 4.7.1 研究方法
  • 4.7.2 实验数据
  • 4.7.3 实验结果与分析
  • 第五章 基于SDD中文农业网页搜索系统的设计与实现
  • 5.1 系统的结构与功能
  • 5.2 系统的实现
  • 5.2.1 中国农业网站名录网页集
  • 5.2.2 所采用的主要技术
  • 5.3 系统运行实例
  • 5.3.1 数据检索情况
  • 5.3.2 网站直达
  • 第六章 总结与展望
  • 6.1 论文总结
  • 6.2 未来工作展望
  • 参考文献
  • 致谢
  • 作者简历
  • 相关论文文献

    标签:;  ;  

    基于SDD中文农业网页搜索系统的设计与实现
    下载Doc文档

    猜你喜欢