
论文摘要
由于我国数字鸿沟的存在,农业信息的获得非常困难,特别是急需农业科技信息和市场信息的企业、部门、农户,他们通过传统的综合搜索引擎,在这些海量的信息中,搜索一个准确的信息已非常困难,而使用通用的搜索引擎则搜索到很多无关的信息。要实现信息的精确搜索,就需要研究专业的搜索引擎。因此,针对于中文农业网页,研发专业化的搜索引擎,实现农业信息的精确搜索是本文研究的出发点。 本文通过研究背景的分析提出了一种“二次主题漂移”检索模式。详细介绍了全文检索与语义检索技术,为后面的研究奠定技术基础,提出了基于SDD算法的语义检索技术实现方法。根据SDD算法,构建了一个实验系统来验证SDD算法处理大规模文档的能力,同时利用国家农业科学数据中心10个主题数据库中的10万条记录,来进一步验证“二次主题漂移”技术的可行性。最后介绍了基于SDD中文农业网页搜索系统的设计与实现,包括系统的结构与功能以及实际运行的情况。 本文的主要成果: (1)研究并实践“二次主题漂移”检索模式,可以有效提高用户检索应用的体验。 (2)研究分析SDD算法,找出了该算法在windows平台上的运行瓶颈,并提出了性能改进的具体方法。 (3)构建了基于SDD算法的中文农业信息检索实验系统,验证大规模文档集下SDD算法的可行性和“二次主题漂移”模式的可行性。 (4)设计并实现了一个基于SDD中文农业网页搜索系统。
论文目录
第一章 引言1.1 研究背景1.2 信息检索的相关性理论1.2.1 面向系统的相关性1.2.2 面向用户的相关性1.2.3 小结1.3 研究内容和方法1.3.1 问题的提出1.3.2 主要研究内容1.3.3 研究思路和方法1.4 论文的写作框架第二章 全文检索与语义检索2.1 全文检索与全文检索系统2.1.1 Lucene的应用、特点及优势2.1.2 Lucene系统结构分析2.1.3 Lucene使用心得2.1.4 全文检索的不足2.2 语义检索2.2.1 传统经典信息检索模型2.2.2 隐含语义索引(LSI)模型2.3 LSI数学描述2.3.1 符号2.3.2 文档匹配2.3.3 标引项匹配2.3.4 概念空间2.3.5 小结第三章 SDD算法及其改进3.1 SVD算法的不足3.2 SDD算法3.2.1 SDD的计算3.2.2 SDD算法的收敛性证明3.3 SDD算法的技术实现3.3.1 数据结构3.3.2 使用压缩存储的计算3.4 SDD算法性能瓶颈及其改进3.5 SDD算法应用范围3.5.1 数据压缩3.5.2 数据过滤3.5.3 特征抽取第四章 SDD改进算法及“二次主题漂移”检索模式验证4.1 中文网页测试集4.2 文本信息的预处理4.3 中文农业词典的构建4.4 中文文本的分词4.5 实验系统设计与实现4.5.1 系统设计4.5.2 系统实现4.6 SDD改进算法的验证4.6.1 进行向量空间模型(VSM)与矩阵分解后的索引文件比对4.6.2 Windows平台与Linux平台矩阵分解对比4.7 “二次主题漂移”检索模式验证4.7.1 研究方法4.7.2 实验数据4.7.3 实验结果与分析第五章 基于SDD中文农业网页搜索系统的设计与实现5.1 系统的结构与功能5.2 系统的实现5.2.1 中国农业网站名录网页集5.2.2 所采用的主要技术5.3 系统运行实例5.3.1 数据检索情况5.3.2 网站直达第六章 总结与展望6.1 论文总结6.2 未来工作展望参考文献致谢作者简历
相关论文文献
标签:二次主题漂移论文; 信息检索论文;