论文摘要
Web是一个巨大的信息资源库,提供了各种各样的信息服务,随着网络的普及和网络信息的迅速膨胀,如何有效的从Web获取所需信息变得越来越重要。为此,在Web这样的分布式环境中找到有价值的信息,并从中提取出知识内容已经成为目前信息检索、数据挖掘重要课题。用户不仅希望得到相关的Web页面外,还希望检索到的页面具有高质量,即找到权威页面。网页的超链接是一个重要的研究途径,链接分析(即Web结构挖掘)的引入和应用为这些问题的解决提供了一条崭新的思路。HITS算法是一种应用广泛的基于链接分析的权威资源提取算法,具有很高的研究价值。Web结构挖掘是Web数据挖掘的一个重要方面,其重点在于信息检索,链接分析技术在该领域中扮演着极为重要的角色,并已经被成功的用于分析Web超链接数据来确定权威的信息源。在各种对网页进行链接分析并提取分组的算法中,HITS(Hyper-text-Induced-Topic Search)算法是应用的最为广泛的。本文对HITS算法进行了重点研究,对传统HITS算法易产生主题偏移问题这一缺点进行了分析,并针对这一问题,使用根集向量投影法和基本集缩减法对HITS算法加以改进,接着在根集向量投影法的基础上,提出了根集向量加权投影法和基本集向量加权投影法,以更好的实现权威网页搜索。对改进后的HITS算法与传统HITS算法进行了实验比较,发现根集向量投影法可以有效的避免主题偏移现象,基本集缩减法可以大大的缩减算法运算量,而根集向量加权投影法和基本集向量加权投影法则可以在使权威网页的提取结果更为合理的基础上,有效提高算法的灵活性。
论文目录
摘要Abstract第一章 绪论1.1 研究背景及意义1.2 研究内容及组织第二章 Web数据挖掘的基本理论2.1 Web数据挖掘的产生与发展2.2 Web数据挖掘概述2.3 Web结构挖掘概述第三章 WEB结构挖掘的相关算法理论3.1 文档超链结构3.2 PageRank算法3.3 HITS算法3.4 PageRank算法与HITS算法的比较分析3.5 Web结构挖掘算法的主要应用第四章 关于HITS算法的研究4.1 HITS算法简述4.1.1 HITS算法的基本思想4.1.2 HITS算法的伪代码描述及流程图4.2 HITS算法存在的一些主要问题4.3 现有的几种改进的HITS算法4.4 对HITS算法的研究改进4.4.1 利用根集向量投影法对HITS算法进行改进4.4.2 利用基本集缩减法对HITS算法进行改进4.4.3 将根集向量投影法与基本集缩减法相结合4.4.4 利用根集向量加权投影法对HITS算法进行改进4.4.5 基于用户满意度的基本集向量投影法对HITS算法的改进4.4.6 小结第五章 实验及性能分析5.1 传统HITS算法实验结果及其分析5.2 根集向量法的实验结果及其分析5.3 基本集缩减法的实验结果及其分析5.4 根集向量投影法与基本集缩减法的结合算法的实验结果及其分析5.5 根集向量加权投影法的实验结果及其分析5.6 基于用户满意度的基本集向量投影法的实验结果及其分析第六章 总结与展望6.1 总结6.2 进一步的工作致谢参考文献攻读学位期间主要的研究成果
相关论文文献
标签:结构挖掘论文; 算法论文; 向量投影法论文; 缩减法论文; 加权投影法论文;