基于Web结构挖掘的敏感社团发现

基于Web结构挖掘的敏感社团发现

论文摘要

随着万维网(WWW)的飞速发展,网络中充斥着各式各样的大量信息。面对如此大的信息量,人们已经不满足于从中简单地获取信息,而希望能够准确地从中找到自己感兴趣的信息,并得到这些信息的具体来源情况以及传播规律。Web敏感社团是指代表群体的共同利益或兴趣并自发联系起来的网站目录的集合。通过发现Web敏感社团可以对网络上的敏感信息进行准确的定位,得到网络中蕴藏的许多社会信息,还可以挖掘到许多隐含的社会行为。如何准确发现Web敏感社团已经成为当前Web智能领域的研究热点和难点之一。本文针对Web信息采集,Web结构挖掘和Web敏感社团提取等方面展开了深入的研究,主要工作和创新点包括以下几个方面:1.Web三层结构模型的建立。传统的Web敏感社团发现技术仅仅将网页作为研究对象,研究对象简单,挖掘模式单一,造成准确度较低、挖掘质量不高等问题。在对WWW中网站设计结构和网页内部视觉分块进行深入研究的基础上,建立了Web的三层结构模型,将Web结构挖掘的对象由原来单一的网络页面层扩展到网站目录层,网络页面层和网页分块层三个层次,为Web结构挖掘算法的改进以及敏感社团的发现奠定了模型基础。2.Web信息采集系统的设计与实现。为给三层结构模型准备充分的数据,设计并实现了一个Web信息采集原型系统,用于采集网站目录,网络页面和网页分块的信息,而且还对这三者之间的关系进行了一定的评价,为后期工作提供了充足的数据准备。3.基于三层结构的Web结构挖掘算法的提出。在Web三层结构模型的基础上,进一步提出了基于三层结构模型的Web结构挖掘算法(Three-Layer Based PageRank,Three-Layer-Based HITS和Three-Layer Based Salsa),将传统的Web结构挖掘算法与三层结构模型结合起来,在一定程度上提高了经典Web结构挖掘算法的准确度。实验验证了该算法的有效性。4.Web敏感社团的提取。通过三层结构的Web结构挖掘算法获取到敏感页面之后,本文提出了以网站目录为单位的敏感社团的提取方法,以及社团成员的敏感度属性和物理属性的获取策略,从多个角度分析衡量了Web敏感社团成员。最后,对本文工作进行了总结,对Web挖掘在社会分析方面的发展进行了展望,并提出了将来的研究方向和构想。

论文目录

  • 表目录
  • 图目录
  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 课题研究背景及意义
  • 1.2 Web敏感社团发现相关技术发展现状
  • 1.2.1 Web信息采集技术
  • 1.2.2 Web结构挖掘相关知识
  • 1.2.3 Web社团发现研究现状
  • 1.3 本文的工作和组织结构
  • 第二章 Web三层结构模型
  • 2.1 敏感社团概念
  • 2.2 Web三层结构模型
  • 2.3 本章小结
  • 第三章 Web信息采集技术研究
  • 3.1 网页采集技术
  • 3.1.1 种子集的选取
  • 3.1.2 网页中URL抽取策略
  • 3.2 Host提取技术
  • 3.2.1 网站目录(Host)名称提取
  • 3.2.2 Host-Page关系评价
  • 3.3 网页自动分块评分技术
  • 3.3.1 基于视觉的网页分块算法
  • 3.3.2 网页分块评估方法
  • 3.4 本章小结
  • 第四章 Web结构挖掘关键算法研究
  • 4.1 Web三层结构模型形式化描述
  • 4.2 基于三层结构的PageRank算法
  • 4.2.1 算法思想
  • 4.2.2 算法描述
  • 4.3 基于三层结构的HITS算法
  • 4.3.1 算法思想
  • 4.3.2 算法描述
  • 4.4 基于三层结构的SALSA算法
  • 4.4.1 算法思想
  • 4.4.2 算法描述
  • 4.5 敏感网页的确定
  • 4.6 实验结果及分析
  • 4.6.1 实验一:加权系数的确定
  • 4.6.2 实验二:与经典Web结构挖掘算法的比较
  • 4.7 本章小结
  • 第五章 敏感社团发现
  • 5.1 Web敏感社团发现思想
  • 5.2 Web敏感社团发现策略
  • 5.2.1 敏感社团成员权威特征提取
  • 5.2.2 敏感社团物理属性提取
  • 5.3 本章小结
  • 第六章 Web敏感社团发现原型系统的设计与实现
  • 6.1 系统设计框架
  • 6.2 原型系统实现
  • 6.2.1 数据库设计
  • 6.2.2 模块框架设计
  • 6.3 实现结果
  • 6.4 本章小结
  • 结束语
  • 参考文献
  • 作者简历 攻读硕士学位期间完成的主要工作
  • 致谢
  • 相关论文文献

    • [1].网络结构挖掘算法研究[J]. 计算机技术与发展 2009(05)
    • [2].基于Web结构挖掘中HITS算法的研究[J]. 中学教学参考 2018(15)
    • [3].面向微博签到数据的城市社区结构挖掘[J]. 地理信息世界 2019(04)
    • [4].云计算在Web结构挖掘算法中的运用研究[J]. 信息与电脑(理论版) 2010(20)
    • [5].Web结构挖掘算法研究[J]. 计算机与信息技术 2009(04)
    • [6].探究基于云计算的Web结构挖掘算法[J]. 电脑知识与技术 2015(06)
    • [7].Web结构挖掘算法模拟器设计[J]. 信息与电脑(理论版) 2014(24)
    • [8].学术网络空间的主题发现与信息组织研究的力作——评《学术Web主题结构挖掘研究》[J]. 情报探索 2020(06)
    • [9].基于最小社团链接度增量的社团结构挖掘算法[J]. 北京科技大学学报 2009(01)
    • [10].基于粗糙集的Web结构挖掘[J]. 计算机技术与发展 2008(03)
    • [11].视频结构挖掘方法改进模拟仿真培训系统[J]. 现代电子技术 2010(16)
    • [12].Web数据结构挖掘分析与研究[J]. 科技信息 2009(31)
    • [13].基于结构挖掘和使用挖掘的Web挖掘算法研究[J]. 武夷学院学报 2008(05)
    • [14].基于模拟退火的三维模型典型结构挖掘与相似性评价[J]. 农业机械学报 2018(03)
    • [15].一种基于云计算的Web结构挖掘算法[J]. 电脑知识与技术 2011(24)
    • [16].浅析Web挖掘技术[J]. 科技信息 2009(18)
    • [17].基于Web结构挖掘算法的网站构建[J]. 电脑知识与技术 2008(34)
    • [18].基于Web结构挖掘的HITS算法分析及改进[J]. 湖南农机 2011(01)
    • [19].社交网络中的社团结构挖掘[J]. 中文信息学报 2014(01)
    • [20].Web结构挖掘中HITS算法改进的研究[J]. 微计算机信息 2010(03)
    • [21].Web结构挖掘在搜索引擎中的应用[J]. 软件导刊 2008(12)
    • [22].云计算在Web结构挖掘算法中的运用研究[J]. 计算机时代 2012(10)
    • [23].浅谈万维网上的数据挖掘[J]. 现代营销(学苑版) 2011(11)
    • [24].网络化指挥控制的社团结构挖掘方法[J]. 计算机工程 2010(03)
    • [25].基于云计算的Pagerank算法的改进[J]. 福州大学学报(自然科学版) 2014(01)
    • [26].应用Web结构挖掘的PageRank算法的改进研究[J]. 计算机工程与应用 2010(09)
    • [27].基于Web结构挖掘的HITS算法研究[J]. 电脑知识与技术 2008(20)
    • [28].网络挖掘研究综述[J]. 电脑知识与技术 2011(32)
    • [29].链接分析研究综述[J]. 大学图书馆学报 2008(02)
    • [30].Web挖掘在网络教育中的应用研究[J]. 大学图书情报学刊 2008(03)

    标签:;  ;  ;  ;  ;  

    基于Web结构挖掘的敏感社团发现
    下载Doc文档

    猜你喜欢