基于自然语言理解的智能检索接口技术的研究及其应用

论文摘要

随着互联网信息量的爆炸式增长,当今的时代已经成为了信息的时代,信息检索技术也在逐步趋向成熟,信息检索工具搜索引擎也层出不穷。但是用搜索引擎检索信息并不总是让用户满意,一方面由于任何一个搜索引擎都不可能覆盖互联网上的所有网页,这样就会致使用户检索不到所需要的信息;另一方面由于搜索引擎自身的因素,没能正确准确的理解用户的语意而导致的不满足用户的检索需求;另外,由于搜索引擎用户逐年增加,人群遍及各行各业,年龄从老到幼,他们使用搜索引擎的方法不当引起没能检索到有用信息。所以近年来研究搜索引擎技术的学者越来越多,最终的目的是使搜索引擎使用起来能够更加的方便。作为河北省教育厅2009年度科学研究计划,本课题研究的是基于自然语言的智能检索接口技术的研究以及在高等艺术教育网中的应用,在课题中主要针对自然语言的处理以及利用语音进行输入进行了研究,重点做了以下工作:1)数据采集,主要在网络上采集艺术类网页,并对网页内容进行分析提取,再将网页标题、正文等有用信息存入数据库。在网页采集过程中,使用了在网页中的去噪方法,将网页信息的标题和内容等有用信息提取出来,为后续的检索打下基础。2)利用语音进行检索输入,语音输入能让用户在检索过程中更加的方便。将语音识别技术引入到搜索引擎,不仅让用户在使用搜索引擎时更加的灵活,同时还能够使一部分特殊人群(如手部伤残者)使用搜索引擎检索信息。在研究过程中,采用了不同的方法进行尝试,语音识别功能实现后通过不断训练使识别准确率达到了一个用户可以接受的效果,并和其他的语音引擎进行了比较评判。3)自然语言处理,课题主要从疑问句的检索和重定向的研究两个方面进行设计,使得系统的搜索引擎有较高的使用价值,并通过实验证明了系统引擎的优劣。

论文目录

摘要

Abstract

第1章绪论

1.1 课题意义和应用前景

1.2 课题的主要工作

1.3 章节安排

第2章信息检索相关工作综述

2.1 信息检索概述

2.1.1 全文检索

2.1.2 信息检索的评价指标

2.2 概念检索

2.3 搜索引擎

2.3.1 全文搜索引擎

2.3.2 目录搜索引擎

2.3.3 元搜索引擎

2.4 自然语言处理

2.4.1 基于句模的技术

2.4.2 问答系统

2.5 语音技术概述

2.6 本章小结

第3章智能信息处理的信息采集

3.1 概述

3.1.1 网页爬取策略

3.1.2 网络爬虫概述

3.2 工作流程

3.3 信息的提取

3.3.1 去噪

3.3.2 有用信息的提取

3.4 有用信息的存储

3.5 实验结果与分析

3.5.1 WebLech 简介

3.5.2 抓取过程

3.5.3 实验结果比较

3.6 本章小结

第4章搜索引擎中对检索输入的研究

4.1 所需硬件环境

4.2 语音输入的实现

4.3 实验结果与分析

4.3.1 微软语音输入法简介

4.3.2 实验过程与结果的比较

4.3.3 实验结果的分析

4.4 本章小结

第5章自然语言处理

5.1 重定向

5.1.1 重定向的条件

5.1.2 重定向的实现

5.2 添加增删概念

5.2.1 添加增删概念的意义

5.2.2 添加增删概念的实现原理图

5.3 数据字典的扩充

5.3.1 数据的准备

5.3.2 扩充的实现

5.4 疑问句的检索

5.4.1 问答式提问句的分析

5.4.2 疑问句与问答式提问句的处理

5.5 实验结果与分析

5.5.1 重定向的实验比较

5.5.2 问答式提问句的实验结果比较与分析

5.6 本章小结

结论

参考文献

攻读硕士学位期间所发表的论文

致谢

基于自然语言理解的智能检索接口技术的研究及其应用

论文摘要

论文目录

相关论文文献

猜你喜欢