论文摘要
Web在发展过程中存在着大量的社区,这些社区是Web组织中非常重要的信息,反映了Web中普遍存在的、复杂的聚团关系和层次关系,可以为用户提供可靠、及时的信息。人工发现和维护社区成本较高,修改困难,而且还存在着许多无法通过人工来发现的潜在的社区。因此,许多研究都在致力于社区的自动或半自动发现技术。链接分析是发现Web潜在社区的重要方法。本文分析了Web链接结构的特点,研究了传统最大流算法和基于HITS算法的边容量分配的最大流算法。重点研究了传统最大流算法和基于HITS的边容量分配最大流算法在社区挖掘中存在的问题。传统最大流算法虽然能较好地解决主题漂移问题,但对社区的质量带来许多不利的影响。而基于HITS的边容量分配算法采用以两个节点的中心值和权威值的平均值作为边容量,就是针对传统最大流存在的问题的,但仍然存在不足。本文在分析已有的链接相似度定义基础上,提出了新的链接相似度与主题相异度定义,以更好地描述链接的页面间关系,并根据链接相似度和主题相异度来衡量页面的相似性,从而给出了更合理有效的最大流边容量分配方案。网页的相似性与链接相似度成正比,与主题相异度成反比;网页之间的相似程度越高,相应边分配的边容量越大。通过24个主题的社区发现表明本文提出的利用链接相似度和主题相异度模型分配边容量的最大流算法能较好的解决已有算法存在的问题,显著提高了Web社区质量。本文对页面相似度衡量提出了新的方法和思路,为改进基于链接分析的Web社区发现算法提供了新的策略。因此,本文的研究具有一定的理论和实践意义。
论文目录
摘要Abstract1 绪论1.1 研究背景1.2 研究现状1.3 课题研究意义1.4 本文结构2 Web资源挖掘及技术2.1 Web挖掘分类2.1.1 Web内容挖掘2.1.2 Web结构挖掘2.1.3 Web使用挖掘2.2 Web挖掘步骤2.3 Web挖掘在搜索引擎中的应用2.3.1 Web内容挖掘在搜索引擎中的应用2.3.2 Web结构挖掘在搜索引擎中的应用2.3.3 Web日志挖掘在搜索引擎中的应用2.4 Web挖掘的前景3 Web的超链接分析和Web社区发现算法研究3.1 Web的超链接分析3.1.1 超链接节点的度的分布3.1.2 超链接节点对的平均最短距离3.1.3 超链接节点的聚集系数3.1.4 基于超链接分析的Web拓扑结构3.1.5 Web超链接结构的形成3.2 Web社区发现算法研究3.2.1 基于HITS算法的Web社区发现3.2.2 基于二分有向图的Web社区发现3.2.3 基于最大流的社区发现4 基于相似度的最大流社区发现算法4.1 最大流算法4.2 原始最大流社区发现算法存在的问题4.3 基于HITS的最大流的社区发现算法缺点4.4 相似度的定义4.5 原始超链接相似度介绍4.5.1 利用两个网页最短路径的长度计算相似度4.5.2 利用共同祖先计算相似度4.5.3 利用共同子孙计算相似度4.5.4 完整的链接相似度计算4.5.5 原始链接相似度的缺点4.6 改进的链接相似度4.7 主题相异度4.7.1 编辑距离4.7.2 计算距离4.7.3 主题相异度4.8 基于相似度的边的容量计算4.9 改进的最大流发现社区算法5 实验和评价5.1 实验体系结构5.2 开发环境5.3 构建Web图5.4 实验结果分析结论参考文献附录A 核心代码攻读硕士学位期间发表学术论文情况致谢
相关论文文献
标签:挖掘论文; 社区发现论文; 链接相似度论文; 主题相异度论文; 最大流算法论文;