论文摘要
随着计算机技术的日益发展和网络的迅速普及,电子文档数目急剧膨胀,从大量的信息里面快速、全面、准确地查找所需要的资料信息已经成了人们关注的焦点,也成了研究领域内的一个热门课题。目前,信息检索技术的最新应用是国内外公司相继推出的桌面搜索引擎。桌面搜索的特点在于不需要通过浏览器来进行搜索,并且将搜索方位延伸到自己电脑硬盘中所存储的各种文档,能够让用户快速搜索他们的硬盘并且在不到一秒的时间里得到相关的搜索结果。桌面搜索引擎是集成信息检索技术的典型代表,信息检索的核心技术是全文检索技术。在基于P2PKM的学习支持平台系统下,我们需要一个更加完善的桌面搜索引擎,本文通过对全文检索技术、Lucene全文检索引擎工具包和近似镜像文本检测算法的分析和研究,对学习支持平台系统的桌面搜索引擎进行了扩展和完善:改进了Lucene的中文分词技术,支持多种文档格式文件的搜索,并提出应用MD5指纹的近似镜像文本检测算法对本学习支持平台中索引前的文档进行消重处理的方法。经过本文的扩展,使得学习支持平台的桌面搜索引擎能满足用户更多的需求。
论文目录
摘要ABSTRACT第一章 绪论1.1 研究基础1.2 研究内容1.3 本文组织第二章 相关技术研究现状2.1 桌面搜索引擎研究现状2.1.1 概述2.1.2 Lucene搜索引擎2.2 近似镜像网页检测算法的研究现状2.2.1 基于全文分段签名的近似镜像网页检测算法2.2.2 基于关键词匹配的近似镜像算法2.3 本章小结第三章 基于P2PKM的桌面搜索引擎3.1 引言3.2 基于P2PKM的桌面搜索引擎3.2.1 本地知识库的组织结构3.2.1.1 知识库的两级分类结构设计3.2.1.2 知识库两级分类之间映射关系的存储3.2.2 索引模块结构3.2.2.1 索引创建的算法3.2.2.2 单个知识包索引创建算法3.2.3 搜索模块结构3.2.3.1 搜索的算法3.2.3.2 知识库搜索算法3.3 Lucene搜索引擎开源包分析3.3.1 Lucene搜索引擎系统结构3.3.2 Lucene索引和搜索设计3.3.3 Lucene检索关键类的UML类图分析3.3.3.1 索引管理包3.3.3.2 查询分析包和检索包3.4 本章小结第四章 中文分词技术的优化4.1 Lucene对中文的支持4.2 中文分词技术及其分类4.3 正向最大匹配算法描述4.4 词表描述4.5 正向最大匹配算法的应用4.6 本章小结第五章 PDF、WORD和EXCEL文档检索扩展5.1 Lucene搜索引擎索引文件概念组成5.1.1 段(Segment)5.1.2 文档(Document)5.1.3 域(Field)5.1.4 项fTerm)5.1.5 文档结构包org.apache.lucene.document的UML类图分析5.1.6 小结5.2 使用PDFBox处理PDF文档5.3 使用POI处理WORD文档和EXCEL文档5.4 本章小结第六章 近似镜像检测算法的应用6.1 信息提取和元数据提取6.1.1 信息提取6.1.2 元数据提取6.2 对重复文本的定义6.3 近似镜像文本检测算法6.3.1 算法描述6.3.2 性能分析6.4 为本系统定制一个消重方法6.5 本章小结第七章 总结与展望7.1 本文工作总结7.2 下一步的工作及展望参考文献致谢在读期间参加的科研项目在读期间发表录用的学术论文
相关论文文献
标签:搜索引擎论文; 正向最大匹配算法论文; 近似镜像文本检测算法论文; 全文检索论文;