论文摘要
随着互联网技术的飞速发展,网络中的信息量呈爆炸式的增长。搜索引擎的出现解决了人们查找信息难的问题,但在面对某一专业领域的信息查询时,通用搜索引擎在追求更多的返回信息时,很难兼顾到搜索结果的准确度和相关性。于是主题(垂直)搜索引擎应运而生,它是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸。作为医学行业来说,普通用户一方面希望能够从海量的医学信息中准确地找到想要的医学信息,另一方面也希望能够方便地查看到自己和家人的病历。于是,设计一个能够查询到整合个人看病历史和网络中海量医学信息的专业医学搜索引擎系统迫在眉睫。本文提出了医学搜索引擎的设想和设计,旨在开源搜索引擎Lucene思想的基础上设计并实现一个分布式垂直搜索引擎—医搜网,该搜索引擎支持大数据量索引和查询,并且解决了个人隐私和个性化推荐的问题。论文首先介绍了搜索引擎的发展历史及其关键技术;接着介绍了开源搜索引擎Lucene的框架、索引结构和查询过程以及网络编程中的一些基本知识;之后重点阐述了(1)医搜网的服务器架构及其实现细节;(2)医搜网的网页和个人看病历史的索引结构及其查询过程;(3)医搜网的网页查询、个人信息查询以及个性化推荐的运行效果;最后对本文所做的工作进行了总结,指出了课题需要改进的方向。本论文是在国家自然基金项目“泄漏电磁波认知及视频信息挖掘技术研究”资助下完成的,基金编号:61072136。
论文目录
摘要ABSTRACT第一章 绪论1.1 研究的背景1.2 医学搜索引擎国内外研究现状1.2.1 国外医学搜索引擎1.2.2 国内医学搜索引擎1.3 研究的目的和意义1.4 论文的组织第二章 搜索引擎的基本知识2.1 搜索引擎的发展历史2.2 搜索引擎的分类2.3 搜索引擎的工作原理2.3.1 数据抓取2.3.2 建立索引2.3.3 检索器2.4 搜索引擎性能指标2.5 垂直搜索引擎技术分析2.6 本章小结第三章 Lucene的基本知识3.1 Lucene的简介3.2 Lucene的总体架构3.3 Lucene索引的数据结构3.3.1 Lucene索引文件的逻辑结构3.3.2 Lucene倒排索引原理3.4 Lucene的评分机制3.4.1 向量空间模型3.4.2 Lucene文档得分计算3.5 本章小结第四章 医搜网服务器的设计与实现4.1 网络编程基础4.1.1 套接字地址结构4.1.2 基本套接字函数4.1.3 进程与线程4.1.4 阻塞与非阻塞4.2 医搜网服务器的总体框架4.3 Web前端服务器的设计与实现4.3.1 login模块的设计与实现4.3.2 search模块的设计与实现4.4 代理服务器的设计与实现4.5 查询服务器的设计与实现4.6 本章小结第五章 医搜网搜索核心系统的设计与实现5.1 核心系统总体设计5.2 文档模块的设计与实现5.3 分词器模块的设计与实现5.4 索引模块的设计与实现5.4.1 全文索引的数据结构5.4.2 单字段索引的数据结构5.4.3 索引的创建过程5.5 查询模块的设计与实现5.6 本章小结第六章 系统的运行效果6.1 医搜网的网页搜索效果6.2 医搜网个人信息搜索和个性化推荐的效果6.3 本章小结第七章 总结与展望7.1 论文总结7.2 工作展望参考文献致谢攻读学位期间发表的学术论文目录
相关论文文献
标签:医学搜索引擎论文; 服务器论文; 个性化推荐论文;