论文摘要
随着互联网信息量的爆炸式增长,当今的时代已经成为了信息的时代,信息检索技术也在逐步趋向成熟,信息检索工具搜索引擎也层出不穷。但是用搜索引擎检索信息并不总是让用户满意,一方面由于任何一个搜索引擎都不可能覆盖互联网上的所有网页,这样就会致使用户检索不到所需要的信息;另一方面由于搜索引擎自身的因素,没能正确准确的理解用户的语意而导致的不满足用户的检索需求;另外,由于搜索引擎用户逐年增加,人群遍及各行各业,年龄从老到幼,他们使用搜索引擎的方法不当引起没能检索到有用信息。所以近年来研究搜索引擎技术的学者越来越多,最终的目的是使搜索引擎使用起来能够更加的方便。作为河北省教育厅2009年度科学研究计划,本课题研究的是基于自然语言的智能检索接口技术的研究以及在高等艺术教育网中的应用,在课题中主要针对自然语言的处理以及利用语音进行输入进行了研究,重点做了以下工作:1)数据采集,主要在网络上采集艺术类网页,并对网页内容进行分析提取,再将网页标题、正文等有用信息存入数据库。在网页采集过程中,使用了在网页中的去噪方法,将网页信息的标题和内容等有用信息提取出来,为后续的检索打下基础。2)利用语音进行检索输入,语音输入能让用户在检索过程中更加的方便。将语音识别技术引入到搜索引擎,不仅让用户在使用搜索引擎时更加的灵活,同时还能够使一部分特殊人群(如手部伤残者)使用搜索引擎检索信息。在研究过程中,采用了不同的方法进行尝试,语音识别功能实现后通过不断训练使识别准确率达到了一个用户可以接受的效果,并和其他的语音引擎进行了比较评判。3)自然语言处理,课题主要从疑问句的检索和重定向的研究两个方面进行设计,使得系统的搜索引擎有较高的使用价值,并通过实验证明了系统引擎的优劣。
论文目录
摘要Abstract第1章 绪论1.1 课题意义和应用前景1.2 课题的主要工作1.3 章节安排第2章 信息检索相关工作综述2.1 信息检索概述2.1.1 全文检索2.1.2 信息检索的评价指标2.2 概念检索2.3 搜索引擎2.3.1 全文搜索引擎2.3.2 目录搜索引擎2.3.3 元搜索引擎2.4 自然语言处理2.4.1 基于句模的技术2.4.2 问答系统2.5 语音技术概述2.6 本章小结第3章 智能信息处理的信息采集3.1 概述3.1.1 网页爬取策略3.1.2 网络爬虫概述3.2 工作流程3.3 信息的提取3.3.1 去噪3.3.2 有用信息的提取3.4 有用信息的存储3.5 实验结果与分析3.5.1 WebLech 简介3.5.2 抓取过程3.5.3 实验结果比较3.6 本章小结第4章 搜索引擎中对检索输入的研究4.1 所需硬件环境4.2 语音输入的实现4.3 实验结果与分析4.3.1 微软语音输入法简介4.3.2 实验过程与结果的比较4.3.3 实验结果的分析4.4 本章小结第5章 自然语言处理5.1 重定向5.1.1 重定向的条件5.1.2 重定向的实现5.2 添加增删概念5.2.1 添加增删概念的意义5.2.2 添加增删概念的实现原理图5.3 数据字典的扩充5.3.1 数据的准备5.3.2 扩充的实现5.4 疑问句的检索5.4.1 问答式提问句的分析5.4.2 疑问句与问答式提问句的处理5.5 实验结果与分析5.5.1 重定向的实验比较5.5.2 问答式提问句的实验结果比较与分析5.6 本章小结结论参考文献攻读硕士学位期间所发表的论文致谢
相关论文文献
标签:信息检索论文; 搜索引擎论文; 数据采集论文; 语音识别论文; 自然语言处理论文;