论文摘要
垂直搜索引擎是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对信息库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。垂直搜索引擎和普通的搜索引擎的最大区别是对信息进行了结构化抽取,也就是将信息的非结构化数据抽取成特定的结构化信息数据,垂直搜索就是以结构化数据为最小单位,将这些数据存储到数据库,进行进一步的加工处理,如:去重、分类等,最后分词、索引再以搜索的方式满足用户的需求。LUCENE是一个支持全文检索的开源工具包,它提供了查询引擎、索引引擎以及部分语言的分词器。在LUCENE提供的框架的基础上,可以方便地进行二次开发,轻易建立完整的桌面或WEB全文检索应用。随着国家信息化建设的不断深入,各行各业都加快了信息化建设的步伐,对于医学行业来说也是一样,海量的医学知识和信息多元化的增长,让医学行业不得不考虑如何快速有效的解决医学知识的管理,因此垂直搜索引擎的引入就成为了必然的趋势,再加上对于医学工作者的再教育和再学习和受打造全科医生的趋势影响,建立一套医学知识搜索系统就日趋迫在眉睫。论文结合一个医学知识搜索系统来介绍垂直搜索引擎在医学行业的应用。论文将搜索引擎应用到医学行业,是一个在LUCENE的基础上设计的专门针对医学行业的专业模型,论文分析设计了天爱医学搜索系统的主要功能模型,优化了LUCENE自带的索引机制,分词技术和搜索效率,并且结合医学领域特有的需求做了个性化的排序处理,且开发的系统无论从界面还是从功能都尽量做到让用户使用方便,搜索准确,系统现已设计实现,且得到医学行业的认可。
论文目录
摘要ABSTRACT1 绪论1.1 课题研究的目的和意义1.2 课题所研究的特点和要求1.3 课题研究的技术背景1.4 课题的主要工作1.5 本人所做的工作及论文的组织结构1.6 本章小结2 垂直搜索引擎的引入2.1 垂直搜索引擎简介2.2 垂直搜索引擎的主要技术2.2.1 Spider2.2.2 信息分析技术2.2.3 信息的结构化抽取2.2.4 索引技术2.3 垂直搜索引擎的突破与创新2.4 垂直搜索引擎的技术评估2.5 本章小结3 Lucene 工具包3.1 什么是Lucene3.2 Lucene 的分析与研究3.3 Lucene 主要功能和特点3.4 本章小结4 天爱医学搜索系统模型分析与设计4.1 天爱医学搜索模型分析4.1.1 需求分析4.1.2 用户对象分析4.1.3 功能分析4.1.4 基于用户的用例图4.1.5 系统目标4.2 天爱医学搜索系统功能模型设计4.2.1 天爱医学搜索系统的体系结构4.2.2 基于角色的权限设计4.2.3 系统的功能设计4.3 本章小结5 天爱医学搜索系统实现5.1 硬件需求5.2 开发软件安装和配置5.3 系统体系结构的实现5.4 天爱医搜系统的优化改进5.4.1 天爱医搜个性化算分5.4.2 天爱医搜优化分词组合5.4.3 天爱医搜查询效率优化5.4.4 冗余信息的去除5.5 天爱医搜系统主要模块实现5.5.1 用户管理模块实现5.5.2 索引模块实现5.5.3 搜索模块实现5.6 系统的运行5.7 系统数据备份5.8 本章小结6 结论6.1 结论6.2 工作展望致谢参考文献附录作者在攻读硕士学位期间发表的论文
相关论文文献
标签:垂直搜索论文; 结构化数据论文; 索引论文;