论文摘要
随着互联网(Internet)的出现和普及,人们的信息来源得到极大的丰富,获取信息的方式也随之改变。互联网成为人们获取信息的主要来源之一。在Web信息以指数级数增长的情况下,如何快速获取所需信息成为研究热点之一。搜索引擎技术(Search Engine)就是在这种情景下孕育而生。搜索引擎是传统的信息检索(Information Retrieval)技术与Web结合的产物。在互联网发展初期,网站相对较少,信息查找比较容易。在信息规模不断扩大的情况下,面对互联网上分散、动态变化的海量数据,传统信息检索技术无法让用户快速找到所需要的信息。这时面向领域的专业搜索网站便应运而生了,这种搜索引擎针对某一特定领域、某一特定人群或某一特定需求提供有一定价值的信息和相关服务。本系统就限定领域进行文本检索系统的研究,针对领域用户提出的查询,系统提供全面、准确的相关信息。本系统对基于向量模型、语言模型、依存语言模型的信息检索进行了研究,以从中选择最优的检索模型。通过试验数据的比较,最后得出结论:从语义出发,结合语义分析的依存语法,进行基于依存语言模型的文本检索,能在很大程度上改善系统的检索效果。在初次检索后,系统再采用“基于用户行为挖掘的查询扩展”方法。系统所使用的查询扩展算法建立在对用户以往搜索记录的分析的基础上,是众多用户使用检索系统时多次“反馈”结果的积累,提高了文本检索的查全率。总之,本文对文本检索的相关技术进行了探讨,探索性地提出如何在限定领域下建立一个有效的检索模型,并结合对文本分类、对关键词进行扩展等方法,使系统对用户的查询能找到最接近需要的信息,可为用户节省大量的时间和精力。
论文目录
摘要Abstract目录图表目录第一章 引言1.1 文本检索系统简介1.1.1 设计文本检索系统的目的1.1.2 文本检索系统的特性1.1.3 设计该系统的意义1.2 国内外的研究现状及发展动态1.2.1 国内研究现状及动态1.2.2 国外研究现状及动态1.3 本文的研究内容第二章 相关理论与技术2.1 传统的检索模型2.1.1 布尔模型(Boolean Model)2.1.2 模糊逻辑模型(Fuzzy Logic Model)2.1.3 向量模型(Vector-Based Model)2.1.4 概率模式(Probability Model)2.2 自动查询扩展2.2.1 查询扩展的全局分析方法2.2.2 查询扩展的局部分析方法2.2.3 局部上下文分析2.3 信息检索系统的评价(Performance Evaluation)2.3.1 评价信息检索系统的困难2.3.2 查全率和查准率2.4 基于语言模型的信息检索2.4.1 统计语言模型2.4.2 语言模型中的平滑技术2.4.3 基于语言模型的 IR 模型的概念第三章 限定领域的文本检索系统模型3.1 主要功能模块3.1.1 数据预处理模块3.1.2 索引生成模块3.1.3 查询处理和检索模块3.2 系统工作流程第四章 限定领域的文本检索系统的实现4.1 实验环境4.2 基于统计模型的文本检索4.2.1 汉语分词技术4.2.2 分词的形式模型4.2.3 分词中歧义问题的描述4.2.4 分词算法的分类4.2.5 统计模型思想的文本检索4.2.6 本系统文本的分类4.2.7 数据采集和关键词提取4.2.8 本系统文本分类的说明4.2.9 文本检索4.3 基于用户行为挖掘的查询扩展4.3.1 基本思想4.3.2 模型实现4.3.3 会话识别4.3.4 挖掘关联规则4.3.5 选择扩展用词4.4 依存语言模型的信息检索4.4.1 依存语法4.4.2 依存语言模型的 IR 的应用4.4.3 依存语言模型的建立4.4.4 带标记预料库的建立4.5 实验结果第五章 结论与未来研究方向5.1 全文总结5.2 对进一步研究的展望致谢参考文献
相关论文文献
标签:文本检索论文; 信息检索论文; 文本分类论文; 倒排索引论文; 查询扩展论文;