限定领域的文本检索系统

限定领域的文本检索系统

论文摘要

随着互联网(Internet)的出现和普及,人们的信息来源得到极大的丰富,获取信息的方式也随之改变。互联网成为人们获取信息的主要来源之一。在Web信息以指数级数增长的情况下,如何快速获取所需信息成为研究热点之一。搜索引擎技术(Search Engine)就是在这种情景下孕育而生。搜索引擎是传统的信息检索(Information Retrieval)技术与Web结合的产物。在互联网发展初期,网站相对较少,信息查找比较容易。在信息规模不断扩大的情况下,面对互联网上分散、动态变化的海量数据,传统信息检索技术无法让用户快速找到所需要的信息。这时面向领域的专业搜索网站便应运而生了,这种搜索引擎针对某一特定领域、某一特定人群或某一特定需求提供有一定价值的信息和相关服务。本系统就限定领域进行文本检索系统的研究,针对领域用户提出的查询,系统提供全面、准确的相关信息。本系统对基于向量模型、语言模型、依存语言模型的信息检索进行了研究,以从中选择最优的检索模型。通过试验数据的比较,最后得出结论:从语义出发,结合语义分析的依存语法,进行基于依存语言模型的文本检索,能在很大程度上改善系统的检索效果。在初次检索后,系统再采用“基于用户行为挖掘的查询扩展”方法。系统所使用的查询扩展算法建立在对用户以往搜索记录的分析的基础上,是众多用户使用检索系统时多次“反馈”结果的积累,提高了文本检索的查全率。总之,本文对文本检索的相关技术进行了探讨,探索性地提出如何在限定领域下建立一个有效的检索模型,并结合对文本分类、对关键词进行扩展等方法,使系统对用户的查询能找到最接近需要的信息,可为用户节省大量的时间和精力。

论文目录

  • 摘要
  • Abstract
  • 目录
  • 图表目录
  • 第一章 引言
  • 1.1 文本检索系统简介
  • 1.1.1 设计文本检索系统的目的
  • 1.1.2 文本检索系统的特性
  • 1.1.3 设计该系统的意义
  • 1.2 国内外的研究现状及发展动态
  • 1.2.1 国内研究现状及动态
  • 1.2.2 国外研究现状及动态
  • 1.3 本文的研究内容
  • 第二章 相关理论与技术
  • 2.1 传统的检索模型
  • 2.1.1 布尔模型(Boolean Model)
  • 2.1.2 模糊逻辑模型(Fuzzy Logic Model)
  • 2.1.3 向量模型(Vector-Based Model)
  • 2.1.4 概率模式(Probability Model)
  • 2.2 自动查询扩展
  • 2.2.1 查询扩展的全局分析方法
  • 2.2.2 查询扩展的局部分析方法
  • 2.2.3 局部上下文分析
  • 2.3 信息检索系统的评价(Performance Evaluation)
  • 2.3.1 评价信息检索系统的困难
  • 2.3.2 查全率和查准率
  • 2.4 基于语言模型的信息检索
  • 2.4.1 统计语言模型
  • 2.4.2 语言模型中的平滑技术
  • 2.4.3 基于语言模型的 IR 模型的概念
  • 第三章 限定领域的文本检索系统模型
  • 3.1 主要功能模块
  • 3.1.1 数据预处理模块
  • 3.1.2 索引生成模块
  • 3.1.3 查询处理和检索模块
  • 3.2 系统工作流程
  • 第四章 限定领域的文本检索系统的实现
  • 4.1 实验环境
  • 4.2 基于统计模型的文本检索
  • 4.2.1 汉语分词技术
  • 4.2.2 分词的形式模型
  • 4.2.3 分词中歧义问题的描述
  • 4.2.4 分词算法的分类
  • 4.2.5 统计模型思想的文本检索
  • 4.2.6 本系统文本的分类
  • 4.2.7 数据采集和关键词提取
  • 4.2.8 本系统文本分类的说明
  • 4.2.9 文本检索
  • 4.3 基于用户行为挖掘的查询扩展
  • 4.3.1 基本思想
  • 4.3.2 模型实现
  • 4.3.3 会话识别
  • 4.3.4 挖掘关联规则
  • 4.3.5 选择扩展用词
  • 4.4 依存语言模型的信息检索
  • 4.4.1 依存语法
  • 4.4.2 依存语言模型的 IR 的应用
  • 4.4.3 依存语言模型的建立
  • 4.4.4 带标记预料库的建立
  • 4.5 实验结果
  • 第五章 结论与未来研究方向
  • 5.1 全文总结
  • 5.2 对进一步研究的展望
  • 致谢
  • 参考文献
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    限定领域的文本检索系统
    下载Doc文档

    猜你喜欢