论文摘要
在当今信息大爆炸的时代,快速从海量的信息中找到所求成为信息应用的核心任务。特别是企业级的数据散落在多种结构,不同的数据源之上,如何对数据进行结构化并提供统一的查询接口对于企业级的信息搜索是重大的挑战。企业内容搜索是一个较新的领域,它涉及到信息平台整合,数据管理,海量数据管理,信息检索等多种技术。目前的企业内容搜索技术,多是先将数据集中化,而后将搜索引擎技术融入到企业内容搜索中,通过构造全文索引来达到快速全面检索数据的目的。本文设计并完成了基于Lucene框架的全文索引系统。在Lucene只能处理文本文档的基础上,增加了对于Office系列文档,PDF文档,HTML文档的支持。全文索引系统通过对非结构化的本文进行分词,索引等处理构建反向索引。最终通过排名算法,将结果按照相关性的高低呈现给用户,从而达到快速精准的检索目的。最终系统向外提供统一的查询接口,提供简单的关键字搜索和带语法的高级搜索功能,增加了多字段搜索功能。提供给用户搜索界面这一对用户友好的检索方式,增加了对于拼音搜索的支持,用户通过输入拼音返回汉字来辅助搜索。返回的信息中包括关键字的高亮显示的功能,让用户能够从摘要中看到查询结果中是否为其所需。采用了基于词频统计的方法提取新词,提取后的新词将会被加入到系统的分词词典中,系统采用基于规则的中文分词方法,一个海量的词典可以提高分词的准确度。通过对于新词的识别,并将新词加入分词词典,提高了中文分词的准确度。加入拼音搜索功能提升用户体验。丰富的查询语法,使得检索功能更加强大。加入内容摘要使得用户能够更好的判断检索结果是否所需。