基于数字有机体数据库的搜索引擎的理论研究与实现

基于数字有机体数据库的搜索引擎的理论研究与实现

论文摘要

随着互联网的飞速发展,以及人类对有用信息的需求猛烈增长,搜索引擎技术在过去的十年中取得了长足进步。流行的商业引擎如雅虎和谷歌等,其搜索对象仅仅限于超文本,而没有对其他信息资源进行覆盖。众所周知,数据库在信息的存储和检索上都具有至关重要的作用,在近几年,针对数据库的搜索引擎已经成为计算机科学领域极富吸引力的研究方向。本文在本实验室所开发的新一代分布式数据库系统——数字有机体数据库系统的基础上,设计并开发了一种针对数据库的搜索引擎。数字有机体数据库系统的设计目的是在由多个服务器节点构成的广域网络内,进行数据库的分布式存放和数据库检索的分布式调度。基于数字有机体数据库的搜索引擎使用户可以用一系列的关键字在多个数据库中检索同关键字相关的记录。基于分词、文本分类、信息压缩等广泛应用于传统搜索引擎的流行技术,本文提出了一些改进的算法和工程方法来提高数据库搜索引擎的性能表现。本文重点突出了其在理论和工程实现上对数据库搜索引擎所做出的创新和改进。其中主要的工作包括:1大规模中文信息处理是构建中文搜索引擎的基本环节,为了实现大规模中文信息处理,本文提出了一种改进的中文分词算法。基于前缀树和动态规划,该算法提高了中文分词速度,同时保持了相对较高的分词准确性。此外,该算法提供了一种灵活的机制来处理词典未收录的词汇,比如人名、地名、机构名称等。2传统的基于支持向量机的文本分类器需要大量的人工标注的训练文本,既包括正类训练文本也包括负类训练文本。为了解决负类训练文本缺乏的问题,本文提出了一种比较有效的解决方法。该方法将Rocchio算法和K均值文本聚类算法结合起来,从而获得足够的负类训练数据来构造文本分类器。实验证明,这种方法可以提高分类器的准确程度。3提出了一种具有良好定义的软件体系结构——分布式线程池体系,它在本文的分布式任务调度中具有关键作用。最后本文通过严格的实验验证了文中所提出的算法的性能,以及基于数字有机体数据库的搜索引擎的各项功能。

论文目录

  • 摘要
  • Abstract
  • 第一章 引言
  • 1.1 研究背景
  • 1.2 国内外研究现状
  • 1.2.1 DBXplore
  • 1.2.2 DISCOVER
  • 1.2.3 BANKS
  • 1.3 本文所做工作
  • 1.4 论文组织
  • 第二章 基于数字有机体数据库的搜索引擎概述
  • 2.1 基于数字有机体的搜索引擎的基本架构
  • 2.1.1 功能需求
  • 2.1.2 模块组织
  • 2.2 数字有机体数据库
  • 2.2.1 数字有机体数据库的拓扑结构
  • 2.2.2 数据库的定位和访问
  • 第三章 分词算法的研究与实现
  • 3.1 英文分词算法研究与实现
  • 3.1.1 英文文本扫描和单词获取
  • 3.1.2 英文单词的原形识别
  • 3.2 中文分词算法概述
  • 3.2.1 最大匹配算法
  • 3.2.2 最大概率算法
  • 3.3 基于前缀树和动态规划的新型中文分词算法
  • 3.3.1 中文构词特点
  • 3.3.2 中文命名识别
  • 3.3.3 前缀树结构在汉语分词中的使用
  • 3.3.4 基于动态规划和前缀树的汉语分词算法
  • 第四章 文本分类算法的研究和实现
  • 4.1 文本特征选择方法
  • 4.1.1 TF-IDF 度量方法
  • 2 统计量方法'>4.1.2 χ2统计量方法
  • 4.1.3 互信息度量
  • 4.2 常见文本分类算法介绍
  • 4.2.1 单纯贝叶斯分类算法
  • 4.2.2 K 均值聚类算法
  • 4.3 基于支持向量机的文本分类器
  • 4.3.1 支持向量机文本分类器的算法框架
  • 4.3.2 支持向量机文本分离器面临的问题和解决策略
  • 4.3.3 单纯Rocchio 算法
  • 4.3.4 基于Rocchio 的文本聚类算法
  • 4.3.5 基于文本聚类的支持向量机文本分类器
  • 4.4 支持向量机分类器的数值解法
  • 4.4.1 原始问题转换为对偶问题
  • 4.4.2 约束问题转换为无约束问题
  • 4.4.3 共轭梯度算法
  • 4.4.4 核心数据结构
  • 4.5 搜索请求分类
  • 第五章 搜索引擎的实现
  • 5.1 索引内容与存放方式
  • 5.1.1 索引组成与内容
  • 5.1.2 索引的分布式存放
  • 5.2 分布式线程池及其行为逻辑
  • 5.2.1 分布式线程池简介
  • 5.2.2 分布式线程池的启动逻辑
  • 5.2.3 分布式线程池的运转逻辑
  • 5.2.4 分布式线程池的退出逻辑
  • 5.3 分布式线程池的设计模式和类体系结构
  • 5.3.1 分布式线程池的类体系结构
  • 5.3.2 分布式线程池的设计模式
  • 5.4 搜索任务的调度和执行流程
  • 5.4.1 搜索任务的调度
  • 5.4.2 搜索任务的执行
  • 第六章 系统测试与分析
  • 6.1 测试环境
  • 6.2 测试标准
  • 6.3 汉语言分词算法测试
  • 6.4 文本分类算法测试
  • 6.5 搜索引擎整体性能测试
  • 第七章 结论
  • 致谢
  • 参考文献
  • 攻硕期间取得的研究成果
  • 相关论文文献

    • [1].基于统计分析的分享型数据库需求无约束估计模型[J]. 淮阴工学院学报 2019(05)
    • [2].基于数据库的网络课题开发策略[J]. 通讯世界 2019(12)
    • [3].基于陕西省地质调查数据库融合理论方法[J]. 陕西地质 2019(02)
    • [4].中国核心期刊(遴选)数据库收录证书[J]. 防护工程 2019(05)
    • [5].面向异地双活系统的数据库改造方法[J]. 微型电脑应用 2020(01)
    • [6].危险化学品数据库的发展现状与展望[J]. 合成材料老化与应用 2020(01)
    • [7].舰船电磁环境数据库的设计与实现[J]. 装备环境工程 2020(03)
    • [8].中国核心期刊(遴选)数据库收录证书[J]. 防护工程 2019(06)
    • [9].欧洲职业培训发展中心启动新职业教育和培训数据库[J]. 世界教育信息 2020(02)
    • [10].大数据思维下数据库教育模式改革探索[J]. 计算机产品与流通 2020(03)
    • [11].数据库的安全重要性以及带来的风险[J]. 计算机产品与流通 2020(04)
    • [12].中国核心期刊(遴选)数据库收录证书[J]. 防护工程 2020(01)
    • [13].政治学跨国比较研究中的数据库及其运用[J]. 信息系统工程 2020(04)
    • [14].关于中国数据库调查方法与资本化核算方法研究[J]. 统计研究 2020(05)
    • [15].实现灾备数据库同步[J]. 网络安全和信息化 2020(01)
    • [16].基于全局目录的集中型数据库分布式加锁仿真[J]. 计算机仿真 2020(04)
    • [17].中国核心期刊(遴选)数据库收录证书[J]. 防护工程 2020(02)
    • [18].医院围术期麻醉专科数据库的建设与思考[J]. 中国卫生信息管理杂志 2020(03)
    • [19].基于分布式的数据库分库与分表策略研究[J]. 电脑知识与技术 2020(14)
    • [20].主报警数据库在报警管理的应用探讨[J]. 当代化工研究 2020(15)
    • [21].最新版《中国评价核数据库》发布[J]. 中国核电 2020(03)
    • [22].数据库的知识产权保护范式研究[J]. 政法学刊 2020(04)
    • [23].中国核心期刊(遴选)数据库收录证书[J]. 防护工程 2020(03)
    • [24].海洋细菌基质辅助激光解吸电离飞行时间质谱鉴定数据库的建立[J]. 解放军医学院学报 2020(07)
    • [25].大数据时代临床数据库在肿瘤研究中的应用[J]. 传染病信息 2020(04)
    • [26].数据库在计算软件开发中的管理分析[J]. 电脑编程技巧与维护 2020(08)
    • [27].基于语义标注的数据库元数据质量评估方法[J]. 计算机产品与流通 2020(11)
    • [28].基于数据库视角下解读大数据的研究进展与趋势[J]. 计算机产品与流通 2020(11)
    • [29].《感染、炎症、修复》杂志检索数据库[J]. 感染、炎症、修复 2018(03)
    • [30].《感染、炎症、修复》杂志检索数据库[J]. 感染、炎症、修复 2018(04)

    标签:;  ;  ;  

    基于数字有机体数据库的搜索引擎的理论研究与实现
    下载Doc文档

    猜你喜欢