主题驱动的Blog社区发现技术研究

主题驱动的Blog社区发现技术研究

论文摘要

Blog是一种基于RSS技术的信息交互平台,它是一种作者与读者以日志风格进行交互的中介,是一种崭新的信息传播和交互方式。与传统的网络信息相比,Blog领域链接关系更加丰富,Blog作者间交互更加频繁,Blog为用户在互联网上发布信息和进行交互提供了方便。传统的基于链接的Blog社区发现算法,通过链接信息,来发现那些链接紧密的人组成的潜在社区,但是,这种社区发现算法有一个缺点就是主题不明确,不利于我们挖掘信息。所以,我们提出了主题驱动的Blog社区发现算法。本文对基于主题的Blog的社区发现方法进行了研究,目标是发现潜在的社区和分析社区内的主题社区结构,为信息检索和社会性网络分析提供方便。本文从社会学的角度对Blog之间的关系进行了分析,因此发现的潜在的社区包含多个主题社区,每一个主题社区内成员间讨论相似的主题。本文在对Blog特点进行深入的研究之后,发现Blog日志内容具有丰富的语义,Blog作者之间通过这些日志和链接形成很多潜在的社区。为了发现和分析主题社区,本文先提出了一个基于主题的Blog关系计算模型,该模型从主题层定义Blog间的关系,并计算Blog关系强度。然后采用一个基于两层相似度的计算方法,该方法通过主题层与文字层的计算来确定博客间的关联系数,能够发现以种子Blog为中心的主题社区。基于以上的研究成果,本文设计并实现了一个Blog社区发现的实验原型系统,包括了数据解析、关系计算、社区发现等模块,为进行相关的算法实验和研究提供了一个基础平台。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究背景和意义
  • 1.2 国内外相关研究和综述
  • 1.2.1 社区发现技术的研究现状
  • 1.2.2 Blog社区应用的研究现状
  • 1.3 研究内容
  • 1.4 本文的结构安排
  • 第2章 Blog基本理论
  • 2.1 引言
  • 2.2 Blog相关概念
  • 2.2.1 Blog的定义
  • 2.2.2 Blog主题社区的定义
  • 2.3 Blog数据模型
  • 2.3.1 Blog链接数据模型
  • 2.3.2 Blog页面数据模型
  • 2.4 Blog的相关特征
  • 2.4.1 Blog的特征
  • 2.4.2 Blog行为的特征
  • 2.5 本章小结
  • 第3章 基于主题的Blog社区发现
  • 3.1 引言
  • 3.2 基于余弦相似度的Blog社区发现
  • 3.2.1 Blog日志的向量空间模型表示
  • 3.2.2 基于余弦相似度的主题相似度计算
  • 3.3 基于KL分歧的社区发现
  • 3.3.1 主题选取
  • 3.3.2 对称的KL分歧
  • 3.4 余弦相似度与KL分歧的改进
  • 3.5 基于余弦相似度与基于KL分歧的社区发现
  • 3.5.1 博客主题的提取
  • 3.5.2 博客选取
  • 3.5.3 确定博客主题相似度
  • 3.6 实验与分析
  • 3.6.1 评价标准
  • 3.6.2 实验结果与分析
  • 3.7 本章小结
  • 第4章 基于两层相似度的Blog社区发现
  • 4.1 引言
  • 4.2 主题层的余弦相似度
  • 4.2.1 博客主题预言
  • 4.2.2 构造主题向量
  • 4.2.3 计算博客相似度
  • 4.3 文字层的精确相似度
  • 4.4 基于两层相似度的Blog社区发现
  • 4.4.1 博客选取
  • 4.4.2 主题层的博客相似度
  • 4.4.3 文字层的博客相似度
  • 4.4.4 关于各主题的平均相似度
  • 4.5 实验与分析
  • 4.6 本章小结
  • 第5章 Blog社区发现系统实现
  • 5.1 系统设计与实现
  • 5.1.1 开发目的及意义
  • 5.1.2 开发平台及工具
  • 5.2 系统总体设计
  • 5.2.1 系统主要功能
  • 5.2.2 系统流程
  • 5.2.3 Blog数据仓库的设计
  • 5.3 系统主要模块
  • 5.3.1 链接特征分析模块
  • 5.3.2 Blog关系提取模块
  • 5.3.3 基于链接的社区发现模块
  • 5.3.4 主题社区发现模块
  • 5.4 系统展示
  • 5.4.1 参数设定
  • 5.4.2 结果展示
  • 5.5 本章小结
  • 结论
  • 参考文献
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    主题驱动的Blog社区发现技术研究
    下载Doc文档

    猜你喜欢