论文摘要
P2P网络是一种所有的网络节点都扮演相同角色的网络。在该网络中,各节点可以平等和直接地在网络中交换资源与服务,因此P2P网络被广泛应用于文件共享系统中。P2P网络通常分为结构化网络和非结构化网络两大类:在一个非结构化网络中,资源的检索通过洪泛查询的方式,该方式低效且网络负荷高;而基于DHT(Distributed Hash Table)的结构化网络具有很好的搜索效率和性能。然而,目前DHT网络主要针对精确关键字匹配来进行搜索,并不能有效地对多关键字进行搜索。因此,结构化P2P网络复杂搜索的研究是有必要的。本文的主要目的是研究基于结构化P2P网络的复杂搜索机制,并且在仿真环境中进行测试,基于仿真结果分析其性能指标和特点,并对进一步研究的方向进行了讨论。本文的创新点在于,从内容索引和物理索引映射的方式来研究结构化P2P的复杂搜索机制,并用文本分类来作为内容索引的基础,从而使内容相近的资源可以尽可能的在物理位置上接近,提高了搜索性能和资源发布性能。本文首先对几种现有的结构化P2P复杂搜索方案进行了深入研究,并将目前对结构化P2P复杂搜索研究方法分为四大类。研究分析表明,通过内容索引和物理节点索引相结合的方法是一种较为行之有效的研究方法。本文采用该方法,并结合DHT网络Kademlia,提出了一种支持多关键字搜索的DHT新机制:kNN-Kad。在介绍了kNN-Kad的机制的实现细节并分析了其可行性之后,阐述了在P2P的仿真平台Peersim上kNN-Kad的具体实现细节。通过分析仿真结果,得出kNN-Kad不仅相对现有的结构化P2P复杂搜索机制有更好的搜索性能,并且也同样具有更低的网络通信量、较好的负载均衡能力和低维护代价。
论文目录
摘要Abstract1 第一章 引言1.1 课题背景1.1.1 P2P网络的定位方式分类1.1.2 主流的基于DHT的P2P系统简介1.2 复杂搜索问题的课题意义1.2.1 结构化P2P复杂搜索机制国外研究现状1.2.1.1 基于经典DHT的复杂搜索扩展1.2.1.2 基于新拓扑结构的结构化P2P网络复杂搜索算法分析1.2.2 结构化P2P复杂搜索机制国内研究现状1.2.3 当前复杂搜索机制研究方法的分析与展望1.2.4 P2P复杂搜索现状小结1.3 研究目标1.4 论文概要2 第二章 课题理论基础2.1 文本分类基础2.1.1 文本的表示2.1.2 文本向量的表示方法2.1.3 文本向量的特征权重表示方法2.1.4 分词方法2.1.4.1 基于字符串匹配的分词方法2.1.4.2 基于统计的分词方法2.1.4.3 专家系统分词方法2.1.4.4 神经网络的分词方法2.1.4.5 ICTCLAS层叠式隐马尔科夫分词2.1.5 分类方法2.1.5.1 简单贝叶斯方法2.1.5.2 k-近邻方法2.1.5.3 决策树方法2.1.6 分类算法评估2.2 小结3 第三章 KNN-KAD的多关键字搜索机制3.1 文本的表示方式与识别算法3.2 关键字ID生成与发布算法3.2.1 词频文件与分类的特征词库文件的生成3.2.2 关键字的ID的生成和发布3.3 节点ID分配算法3.4 多关键字搜索算法3.4.1 双序搜索3.5 kNN-Kad的性能总结4 第四章 KNN-KAD在PEERSIM的仿真实现4.1 P2P仿真平台简介4.2 训练库和测试文本的收集4.3 分类算法的训练4.3.1 训练程序的模块组成4.3.2 ICTCLAS和Java的JNI连接4.3.3 训练程序4.3.4 词频文件的构造4.4 PeerSim仿真实现4.4.1 PeerSim所需要扩展的几个接口和抽象类4.4.2 仿真的初始化4.4.3 PeerSim的Kademlia扩展4.4.3.1 整体框架4.4.3.2 Kademlia节点-KadNode4.4.3.3 KadProtocol协议的实现4.5 小结5 第五章 仿真结果与性能分析5.1 实验参数和评价指标5.2 词频分类统计5.3 分类算法的性能以及对系统的影响5.4 搜索性能测测试5.4.1 搜索的时间复杂度5.4.2 搜索的通信量5.4.3 搜索的召回率5.4.4 搜索性能总结5.5 资源发布的通信量的测试5.6 负载均衡测试5.7 实验仿真总结6 第六章 结论和进一步的工作6.1 本文工作总结6.2 本文的创新点6.3 进一步的工作致谢参考文献作者在读研期间的科研成果、论文发表和获奖情况
相关论文文献
标签:结构化网络论文; 多关键字搜索论文; 最邻近法论文; 仿真论文;