基于短语识别的自然语言理解搜索方法研究

基于短语识别的自然语言理解搜索方法研究

论文摘要

随着Internet的快速发展和网络应用范围的不断扩大,WEB信息量呈指数增长,而传统的搜索引擎仅能从词的层面上来进行搜索,造成人们从WEB信息海洋中及时、全面、准确获取信息越来越困难。目前,搜索引擎的查全率和查准率还比较低。如Google的网页索引量目前已经达到了33亿,但主要还是把用户的查询请求以关键词的形式与全文中的每一个词进行比较,而不考虑查询请求与文档语义上的匹配。类似的还有Baidu、Yahoo等。它们的检索方式都是基于词频分析技术,虽然返回信息很多,却有过多无关信息,用户必须从结果中进行筛选。本文针对传统的检索技术以及搜索引擎的弊端,对新一代的信息检索系统——基于自然语言理解的搜索引擎进行了研究。这是当前自然语言处理领域一个研究热点,同时也代表了将来搜索引擎的发展方向。该类搜索引擎综合运用了知识表示、信息检索、自然语言处理等技术,能够使用户以自然语言输入问题,而不是关键词的组合,大大方便了用户的操作。本文研究了在搜索引擎领域中一些自然语言处理上的相关技术,其中具体包括:①中文自动分词技术,分析了国内外分词技术的发展,列举并分析了比较经典的分词算法;②对现代汉语短语实现了机器识别,即通过短语优先合并算法将一个复杂短语实现了层次化的分解;③对动词谓语句的句法分析,定义了一种谓词链接法来分解自然语句,实现各块的分治,最终形成短语结构树;④概念提取和扩展检索技术,将短语树中的概念依次提取,并根据在树中的语义修饰关系,设定不同的权值,同时对这些提取出的概念实现了英语对照词的扩展检索;⑤聚类浏览技术,使用户的搜索结果不再是一组信息列表,而表现为具有类目和层次结构的新的信息反馈方式。本文的主要贡献是基本实现了基于自然语言理解的搜索引擎原型,并通过一系列测试来验证系统的查全率和查准率,具有工程实用价值。所做的研究工作及其结果对相关理论研究及实际系统的分析设计和实现也具有一定的参考价值和指导意义。

论文目录

  • 中文摘要
  • 英文摘要
  • 1 绪论
  • 1.1 课题的研究背景及意义
  • 1.2 国内外现状研究
  • 1.3 本文的研究内容和组织结构
  • 2 搜索引擎概述
  • 2.1 概述
  • 2.2 搜索引擎的工作原理与系统结构
  • 2.2.1 信息采集
  • 2.2.2 信息标引
  • 2.2.3 索引数据库
  • 2.2.4 信息检索
  • 2.3 搜索引擎的分类
  • 2.3.1 全文搜索引擎
  • 2.3.2 目录式搜索引擎
  • 2.3.3 元搜索引擎
  • 2.3.4 其他非主流搜索引擎形式
  • 2.3.5 智能搜索引擎
  • 2.4 搜索引擎的检索功能
  • 2.4.1 基本检索功能
  • 2.4.2 高级检索功能
  • 3 智能搜索关键技术研究
  • 3.1 概述
  • 3.2 中文自动分词技术
  • 3.2.1 引言
  • 3.2.2 分词算法研究
  • 3.2.3 ICTCLAS 介绍
  • 3.3 短语识别技术
  • 3.3.1 引言
  • 3.3.2 短语规则表
  • 3.3.3 语义词典
  • 3.3.4 短语识别策略
  • 3.4 句法结构分析
  • 3.4.1 引言
  • 3.4.2 谓词链接法
  • 3.4.3 问句处理
  • 3.5 概念提取与检索扩展
  • 3.5.1 引言
  • 3.5.2 概念提取
  • 3.5.3 概念扩展
  • 3.6 文本聚类算法
  • 3.6.1 引言
  • 3.6.2 聚类算法研究
  • 4 智能搜索系统的分析与设计
  • 4.1 概述
  • 4.2 需求分析
  • 4.3 系统总体设计思路
  • 4.4 数据库设计
  • 4.5 自然语言理解子系统设计
  • 4.6 检索子系统设计
  • 5 智能搜索系统的实现与测试
  • 5.1 概述
  • 5.2 系统开发与运行环境
  • 5.3 表示层实现
  • 5.4 逻辑层实现
  • 5.5 数据层实现
  • 5.6 系统测试
  • 5.6.1 引言
  • 5.6.2 短语合并模块的测试
  • 5.6.3 系统测试
  • 6 结论与展望
  • 6.1 本文工作总结
  • 6.2 未来工作展望
  • 致谢
  • 参考文献
  • 附录
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于短语识别的自然语言理解搜索方法研究
    下载Doc文档

    猜你喜欢