
论文摘要
随着网络的发展和Web资源的丰富,利用Web全文信息检索系统来获取所需信息己经成为人们日常生活的重要组成部分,用户也越来越关注如何能够更加准确、高效地查找信息。为了提高Web信息检索的准确率,对资源所显现的语义与结构进行分析,本文分析了中文分词方法的特点,采用一元、二元、词表分词索引相结合的方法,为提高后续检索效率提供有价值的帮助。为了提高用户查询需求的有效性,提出对查询条件进行概念扩展,采用了多种查询策略相结合的方式,对此进行深入的研究,对提高Web信息检索的查全率和查准率是有效而且必要的。用户进行Web信息检索的查询请求一旦过于宽泛、模糊甚至不够准确,得到的结果数目将会相当巨大,用户因时间所限不可能查看每一个结果。因此,通过相关研究,对概念检出的文档进行上下文聚类,采用STC对聚类进行有效的描述,利用检索上下文中的分类描述进行潜在概念的获取,通过SVD技术对构建的矩阵进行特征降维和聚类,实现了资源检索的实时聚类,将检索结果形成类别呈现出来,作为一种自动的、即时动态交互,能极大地提高用户检索效率,同时有益于帮助用户形成更为清晰的查询,对于以用户为中心的Web信息检索有很大的价值。本文最后介绍了上海教育资源库信息检索系统的设计和实现架构,主要组成模块的相关技术,对多种检索策略进行了多样本的查询对比和分析,实验证明检索算法提高了信息检索的针对性和聚焦度,且在此结果上的在线聚类能较好地改善信息检索结果的展现。
论文目录
摘要ABSTRACT第一章 绪论1.1 研究背景1.2 信息检索技术的研究现状1.3 研究的目的及意义1.4 本文的主要结构和内容1.5 本章小结第二章 信息检索的相关理论与关键技术2.1 信息检索的基本概念2.2 信息检索模型2.2.1 基于关键词的检索2.2.2 基于概念的检索2.2.3 基于内容的检索2.3 Web 信息检索2.3.1 全文信息检索2.3.2 Web全文信息检索2.3.3 搜索引擎技术2.3.4 全文检索引擎工具包2.4 Web 文本聚类技术2.5 检索系统的性能评价2.6 本章小结第三章 基于概念的检索技术研究3.1 文本预处理3.1.1 文档解析3.1.2 Stopping和Stemming3.1.3 中文分词3.2 检索策略3.2.1 同义词扩展3.2.2 查询方法3.3 本章小结第四章 基于检索上下文的聚类技术研究4.1 检索上下文的分析模型4.2 聚类过程4.2.1 特征提取和特征选择4.2.2 聚类算法4.3 上下文聚类4.3.1 基本策略4.3.2 文档特征项4.3.3 聚类描述4.3.4 实例4.4 本章小结第五章 应用案例:上海教育资源库信息检索系统5.1 项目背景5.2 系统架构5.3 系统设计和实现5.3.1 元信息描述与解析5.3.2 文档索引模块5.3.3 检索处理与展现模块5.3.4 在线聚类模块5.4 实验结果与实例分析5.4.1 索引时间比较5.4.2 检索比较5.4.3 聚类模块5.4.4 检索性能比较5.5 本章小结第六章 总结与展望6.1 总结6.2 进一步工作和展望参考文献致谢攻读学位期间已发表或录用的论文攻读学位期间参加的科研项目
相关论文文献
标签:信息检索论文; 聚类技术论文;