论文摘要
Blog是一种基于RSS技术的信息交互平台,它是一种作者与读者以日志风格进行交互的中介,是一种崭新的信息传播和交互方式。与传统的网络信息相比,Blog领域链接关系更加丰富,Blog作者间交互更加频繁,Blog为用户在互联网上发布信息和进行交互提供了方便。传统的基于链接的Blog社区发现算法,通过链接信息,来发现那些链接紧密的人组成的潜在社区,但是,这种社区发现算法有一个缺点就是主题不明确,不利于我们挖掘信息。所以,我们提出了主题驱动的Blog社区发现算法。本文对基于主题的Blog的社区发现方法进行了研究,目标是发现潜在的社区和分析社区内的主题社区结构,为信息检索和社会性网络分析提供方便。本文从社会学的角度对Blog之间的关系进行了分析,因此发现的潜在的社区包含多个主题社区,每一个主题社区内成员间讨论相似的主题。本文在对Blog特点进行深入的研究之后,发现Blog日志内容具有丰富的语义,Blog作者之间通过这些日志和链接形成很多潜在的社区。为了发现和分析主题社区,本文先提出了一个基于主题的Blog关系计算模型,该模型从主题层定义Blog间的关系,并计算Blog关系强度。然后采用一个基于两层相似度的计算方法,该方法通过主题层与文字层的计算来确定博客间的关联系数,能够发现以种子Blog为中心的主题社区。基于以上的研究成果,本文设计并实现了一个Blog社区发现的实验原型系统,包括了数据解析、关系计算、社区发现等模块,为进行相关的算法实验和研究提供了一个基础平台。
论文目录
摘要Abstract第1章 绪论1.1 研究背景和意义1.2 国内外相关研究和综述1.2.1 社区发现技术的研究现状1.2.2 Blog社区应用的研究现状1.3 研究内容1.4 本文的结构安排第2章 Blog基本理论2.1 引言2.2 Blog相关概念2.2.1 Blog的定义2.2.2 Blog主题社区的定义2.3 Blog数据模型2.3.1 Blog链接数据模型2.3.2 Blog页面数据模型2.4 Blog的相关特征2.4.1 Blog的特征2.4.2 Blog行为的特征2.5 本章小结第3章 基于主题的Blog社区发现3.1 引言3.2 基于余弦相似度的Blog社区发现3.2.1 Blog日志的向量空间模型表示3.2.2 基于余弦相似度的主题相似度计算3.3 基于KL分歧的社区发现3.3.1 主题选取3.3.2 对称的KL分歧3.4 余弦相似度与KL分歧的改进3.5 基于余弦相似度与基于KL分歧的社区发现3.5.1 博客主题的提取3.5.2 博客选取3.5.3 确定博客主题相似度3.6 实验与分析3.6.1 评价标准3.6.2 实验结果与分析3.7 本章小结第4章 基于两层相似度的Blog社区发现4.1 引言4.2 主题层的余弦相似度4.2.1 博客主题预言4.2.2 构造主题向量4.2.3 计算博客相似度4.3 文字层的精确相似度4.4 基于两层相似度的Blog社区发现4.4.1 博客选取4.4.2 主题层的博客相似度4.4.3 文字层的博客相似度4.4.4 关于各主题的平均相似度4.5 实验与分析4.6 本章小结第5章 Blog社区发现系统实现5.1 系统设计与实现5.1.1 开发目的及意义5.1.2 开发平台及工具5.2 系统总体设计5.2.1 系统主要功能5.2.2 系统流程5.2.3 Blog数据仓库的设计5.3 系统主要模块5.3.1 链接特征分析模块5.3.2 Blog关系提取模块5.3.3 基于链接的社区发现模块5.3.4 主题社区发现模块5.4 系统展示5.4.1 参数设定5.4.2 结果展示5.5 本章小结结论参考文献致谢
相关论文文献
标签:主题驱动论文; 主题相似性论文; 社区论文; 社区发现论文;