一种抑制恶意网页的web权威结点挖掘算法研究

论文摘要

随着网络资源的爆炸式增长,web资源的海量性与复杂性使得对web资源的管理变得越来越困难。如今,大量含有非法广告、病毒程序、木马程序的恶意网页已经充斥着web网络,这些恶意网页根据搜索引擎的局限,采取作弊手段,常常在我们的搜索结果中占据较高的排名。目前对恶意网页的处理主要是通过病毒检测软件防止网页中恶意代码的运行,或是在用户通过搜索引擎定位到某个网页时,对恶意网页提示安全警告。这些方法都完全依赖于反病毒软件或网页过滤技术,存在一定的局限性。而基于链接分析的恶意网页抑制方法只是在屏蔽恶意网页的同时,删除恶意网页的所有链接,或对恶意网页的链接进行识别追踪和过滤,没有将恶意网页信息充分的应用到搜索引擎的网页排序算法中。文本主要研究存在恶意网页情况下的web权威网页结点的挖掘问题。文中首先介绍了web挖掘的一般理论和权威网页结点挖掘算法的研究现状。针对现有算法的不足,通过合理假设,不但滤除被发现的恶意网页结点,还将恶意网页结点的先验信息应用在web权威结点的排序算法中。一方面,在模型建立时充分考虑恶意网页的影响,建立了一种新的、考虑恶意网页结点影响的web资源随机浏览模型。通过模型对问题的抽象,将web权威网页结点的挖掘问题转化成一个Markov链状态空间平稳状态分布的求解问题,给模型的算法实现打下理论基础;另一方面,在算法实现过程中,提出了一种通过引入负权对指向恶意网页结点链接进行惩罚的web网页结点排序算法,通过惩罚机制来抑制一般网页对恶意网页的链接,达到抑制恶意网页的目的。理论分析和实验均表明,链接到恶意网页的行为将受到惩罚,与恶意网页链接越紧密,链接的恶意网页数量越大,其权威值降低越多;而不链接到恶意网页的页面权威值将得到一定的增加。这种奖惩机制,将有效抑制一般网页对恶意网页的链接,从链接分析的角度实现了对恶意网页的有效抑制。此外,本文还对算法进行了改进和推广,明确了算法的应用范围。并且在仿真实验中详细讨论了图的生成模型和仿真数据的生成过程,增加了实验数据和实验结果的可信度。

论文目录

摘要

ABSTRACT

第一章序论

1.1 研究背景

1.2 图挖据相关研究

1.3 权威结点挖掘方法相关研究

1.4 问题的提出

1.5 研究内容与文章结构

第二章基于链接分析的web权威结点挖掘方法

2.1 基于链接的web挖掘简介

2.2 基于链接分析的web资源结点排序模型与算法简介

2.2.1 PageRank算法

2.2.2 HITS算法

2.2.3 SALSE算法

2.3 考虑页面内容与链接的web资源随机浏览行为模型

2.4 本章小结

第三章考虑恶意网页影响的web资源浏览行为模型

3.1 问题分析

3.2 web资源随机浏览行为的Markov特性分析

3.3 模型分析与基本假设

3.4 基于恶意网页影响的web资源随机浏览行为模型

3.5 本章小结

第四章基于负权惩罚的web权威结点挖掘算法

4.1 算法思路分析

4.2 算法实现

4.2.1 web图的原始链接信息获取

4.2.2 web图的变换

4.2.3 引入负权惩罚的网页权威值计算

4.3 算法性质分析

4.4 算法合理性讨论

4.4.1 引入辅助结点的合理性

4.4.2 保证到达恶意网页时后退概率保持不变的合理性

4.5 算法改进与推广

4.5.1 算法改进

4.5.2 算法推广

4.6 本章小结

第五章仿真实验

5.1 实验设计分析

5.2 图的生成模型简介

5.2.1 随机图模型

5.2.2 偏好依附模型

5.3 模型比较实验

5.4 参数比较实验

5.5 实验总结

结束语

致谢

参考文献

作者在学期间取得的学术成果

附录A 攻读硕士期间参加科研情况

一种抑制恶意网页的web权威结点挖掘算法研究

论文摘要

论文目录

相关论文文献

猜你喜欢