基于SDD中文农业网页搜索系统的设计与实现

论文摘要

由于我国数字鸿沟的存在,农业信息的获得非常困难,特别是急需农业科技信息和市场信息的企业、部门、农户,他们通过传统的综合搜索引擎,在这些海量的信息中,搜索一个准确的信息已非常困难,而使用通用的搜索引擎则搜索到很多无关的信息。要实现信息的精确搜索,就需要研究专业的搜索引擎。因此,针对于中文农业网页,研发专业化的搜索引擎,实现农业信息的精确搜索是本文研究的出发点。本文通过研究背景的分析提出了一种“二次主题漂移”检索模式。详细介绍了全文检索与语义检索技术,为后面的研究奠定技术基础,提出了基于SDD算法的语义检索技术实现方法。根据SDD算法,构建了一个实验系统来验证SDD算法处理大规模文档的能力,同时利用国家农业科学数据中心10个主题数据库中的10万条记录,来进一步验证“二次主题漂移”技术的可行性。最后介绍了基于SDD中文农业网页搜索系统的设计与实现,包括系统的结构与功能以及实际运行的情况。本文的主要成果: (1)研究并实践“二次主题漂移”检索模式,可以有效提高用户检索应用的体验。 (2)研究分析SDD算法,找出了该算法在windows平台上的运行瓶颈,并提出了性能改进的具体方法。 (3)构建了基于SDD算法的中文农业信息检索实验系统,验证大规模文档集下SDD算法的可行性和“二次主题漂移”模式的可行性。 (4)设计并实现了一个基于SDD中文农业网页搜索系统。

论文目录

第一章引言

1.1 研究背景

1.2 信息检索的相关性理论

1.2.1 面向系统的相关性

1.2.2 面向用户的相关性

1.2.3 小结

1.3 研究内容和方法

1.3.1 问题的提出

1.3.2 主要研究内容

1.3.3 研究思路和方法

1.4 论文的写作框架

第二章全文检索与语义检索

2.1 全文检索与全文检索系统

2.1.1 Lucene的应用、特点及优势

2.1.2 Lucene系统结构分析

2.1.3 Lucene使用心得

2.1.4 全文检索的不足

2.2 语义检索

2.2.1 传统经典信息检索模型

2.2.2 隐含语义索引（LSI）模型

2.3 LSI数学描述

2.3.1 符号

2.3.2 文档匹配

2.3.3 标引项匹配

2.3.4 概念空间

2.3.5 小结

第三章 SDD算法及其改进

3.1 SVD算法的不足

3.2 SDD算法

3.2.1 SDD的计算

3.2.2 SDD算法的收敛性证明

3.3 SDD算法的技术实现

3.3.1 数据结构

3.3.2 使用压缩存储的计算

3.4 SDD算法性能瓶颈及其改进

3.5 SDD算法应用范围

3.5.1 数据压缩

3.5.2 数据过滤

3.5.3 特征抽取

第四章 SDD改进算法及“二次主题漂移”检索模式验证

4.1 中文网页测试集

4.2 文本信息的预处理

4.3 中文农业词典的构建

4.4 中文文本的分词

4.5 实验系统设计与实现

4.5.1 系统设计

4.5.2 系统实现

4.6 SDD改进算法的验证

4.6.1 进行向量空间模型（VSM）与矩阵分解后的索引文件比对

4.6.2 Windows平台与Linux平台矩阵分解对比

4.7 “二次主题漂移”检索模式验证

4.7.1 研究方法

4.7.2 实验数据

4.7.3 实验结果与分析

第五章基于SDD中文农业网页搜索系统的设计与实现

5.1 系统的结构与功能

5.2 系统的实现

5.2.1 中国农业网站名录网页集

5.2.2 所采用的主要技术

5.3 系统运行实例

5.3.1 数据检索情况

5.3.2 网站直达

第六章总结与展望

6.1 论文总结

6.2 未来工作展望

参考文献

致谢

作者简历

基于SDD中文农业网页搜索系统的设计与实现

论文摘要

论文目录

相关论文文献

猜你喜欢