基于Topic的Blog隐含社区发现

基于Topic的Blog隐含社区发现

论文摘要

基于Topic的Blog的隐含社区发现为Blog的应用研究开辟了一个很有前途同时也具有相当挑战性的方向。随着Internet在人们生活中的广泛应用,Blog作为一种新型的网络媒介交流工具迅速的发展,它以其自身的独特的特点,深入到网络的每个角落,影响着主流媒体、政治等社会的各个方面。通过对Blog page的搜索虽然可以找到人们需要的Blog页面,但它在寻找人们讨论的Topic方面有很大的局限性,远远无法满足人们对Blog应用的真正需要,也无法发挥Blog自身所独有的功能,因此,通过对Blog网页的搜索,利用信息检索、数据挖掘、信息提取、自然语言处理技术进行Blog页面内容和Blog页面之间链接关系的解析,同时,也从Blog个人的行为和内容语言的表述特点进行研究、分析,探测、发现Blog上的言论、看法、观点对主流媒体和社会政治经济生活的影响,发现人们的兴趣及爱好、对某一类事物或产品的印象及其评价是什么,挖掘人们的潜在情感,所以,如何进行发现、探测、寻找互连网上潜在的、隐含的关于Blog的Topic社区就成为一个既有挑战性又有实际应用价值的课题。本文从理论探讨和实际系统开发两个不同的角度来对基于Topic的隐含社区发现进行了研究,主要完成了以下工作:1)提出了一种基于SPC方法的Topic隐含社区发现算法。首先从互联网上进行Blog page的爬行,利用种子URL进行种子URL的扩充并提取Blog page的内容,保存页面的特征,从Blog page的内容和Blog page之间的链接关系两个方面计算Topic和Blog page之间的相关度,本文在分析了相关研究资料的基础上,提出了一种计算Blog entry与Topic相关度的算法,同时,把SPC在图论中顶点权值和边的权值的理论方法的应用,引入到Blog社区隐含网络的探测和发现中,进行基于Blog的Topic的隐含网络的发现,并取得了比较满意的效果。试验结果表明社区的覆盖率和社区的粘合度都有明显的提高和改进。2)通过大量的试验分析了在Blog中隐含社区entry之间及BLOG链接指向之间的特点,探讨了它们对Blog隐含社区发现和探测的影响,同时,对特定Topic社区中的Blogger,从Topic的活跃度和重要度两个方面,根据各自的特征权值进行倒序排序,提取前10个结果,进行对比和分析Topic和Blogger的特征之间的关系、不同的Topic对Blogger的活跃度和重要度所产生的不同影响。3)将SPC算法对Topic隐含社区的分析应用于Blog搜索引擎的信息检索系统,自动的从互联网上进行Blog entry的数据采集和相应权值的计算,并在web检索界面以聚类的形式表示出来,结果表明对用户的查询请求,查询结果和相关度都有明显的提高和改进。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景
  • 1.2 研究的目的和意义
  • 1.3 论文主要工作
  • 1.4 论文组织结构
  • 第二章 研究现状
  • 2.1 Blog(Weblog)的定义、特点、分类
  • 2.1.1 Blog的定义
  • 2.1.2 Blog的特点
  • 2.1.3 Blog的分类
  • 2.2 Blog和其他网络媒体
  • 2.2.1 Blog与BBS
  • 2.2.2 Blog与个人网站
  • 2.2.3 Blog与个人网页
  • 2.3 Blog与社会网络
  • 2.4 Blog page与RSS
  • 2.5 Blog与搜索引擎
  • 2.5.1 Blog page与splog的识别
  • 2.5.2 Blog page的排序算法
  • 第三章 Blog社区网络的发现算法
  • 3.1 基于Information Spread Patterns的方法
  • 3.1.1 主要的特点及其计算
  • 3.1.2 SVM模型及逻辑回归的分类
  • 3.2 基于WP(The Weakest Pair)算法
  • 3.3 基于独立级联模型的方法
  • 3.3.1 用与EM相似的算法推导有向传播图的参数
  • 3.3.2 模型扩展
  • 3.3.3 算法的验证
  • 3.4 基于SPC(Search Path Count)和Blog Entry相似性的方法
  • 3.4.1 Blog Entry(或Post)的内容相似度计算方法
  • 3.4.2 基于SPC算法的链接结构提取
  • 3.5 隐含社区发现
  • 第四章 算法试验结果与讨论
  • 4.1 试验数据
  • 4.2 试验结果分析
  • 4.2.1 Topic与Blogger的特征关系分析
  • 4.2.2 Blog社区链接指向分析
  • 4.2.3 Topic社区覆盖率分析
  • 4.2.4 Blogger与topic社区的粘合度分析
  • 4.2.5 Blogger entry与topic社区的可持续分析
  • 4.2.6 Topic的时间趋势分析
  • 第五章 Blog Search Engine系统设计
  • 5.1 基本原理
  • 5.2 系统的结构
  • 第六章 结束语
  • 6.1 主要成果
  • 6.2 工作展望
  • 参考文献
  • 致谢
  • 攻读学位期间发表的学术论文
  • 相关论文文献

    • [1].高中物理Blog教研中存在的问题及解决策略[J]. 中国教育技术装备 2017(05)
    • [2].以Blog为平台的教育叙事研究与教师专业化发展[J]. 文教资料 2011(20)
    • [3].Blog在图书馆参考咨询工作中的应用[J]. 河南科技学院学报 2013(11)
    • [4].Blog在教师个人知识管理中的应用研究[J]. 中国科教创新导刊 2009(08)
    • [5].Blog档案袋评价的设计与实施[J]. 考试周刊 2011(45)
    • [6].草根的盛宴——基于Blog的教育叙事研究[J]. 时代教育(教育教学版) 2008(08)
    • [7].基于BLOG的艺术类学生网络交流应用研究[J]. 网友世界 2014(10)
    • [8].基于概率潜在语义分析的Blog个性化查询扩展研究[J]. 安阳师范学院学报 2013(02)
    • [9].基于Blog和Blog群组的网络协作学习研究[J]. 周口师范学院学报 2012(04)
    • [10].试论基于Blog的教育叙事与教师专业发展[J]. 科技视界 2012(33)
    • [11].Blog在医学信息检索教学中的辅助作用[J]. 医学信息学杂志 2011(07)
    • [12].基于Blog的教育叙事与教师专业发展研究[J]. 东方企业文化 2011(08)
    • [13].中学图书馆Blog应用现状及启示[J]. 图书情报工作 2011(S1)
    • [14].Blog在高等职业教育中的应用[J]. 电脑知识与技术 2010(11)
    • [15].基于博客(BLOG)的背越式跳高技术教学探索与实践[J]. 运城学院学报 2010(02)
    • [16].基于BLOG平台的教育叙事研究[J]. 河南科技学院学报(自然科学版) 2010(01)
    • [17].Blog——《文献检索与利用》课教学的辅助工具[J]. 情报探索 2010(05)
    • [18].博客(Blog)在“过程写作法”中的作用探究[J]. 长春理工大学学报(高教版) 2009(08)
    • [19].Blog在网络信息服务中的应用研究[J]. 潍坊学院学报 2009(04)
    • [20].基于博客(Blog)的过程写作法新探[J]. 陕西教育(高教版) 2009(05)
    • [21].博客(Blog)对大学生思想政治教育的影响及其对策[J]. 湖南医科大学学报(社会科学版) 2008(01)
    • [22].博客(Blog)技术在大学英语写作教学中的应用[J]. 西北医学教育 2008(05)
    • [23].博客(Blog)在成人教育中的应用研究[J]. 科技信息(学术研究) 2008(02)
    • [24].存在理论与blog虚拟学习社区的构建[J]. 湖北广播电视大学学报 2008(02)
    • [25].基于Blog的高校图书馆个性化服务[J]. 科技情报开发与经济 2008(17)
    • [26].博客(Blog)在图书馆中的应用探讨[J]. 电脑知识与技术 2008(19)
    • [27].基于Blog平台的高校学习型图书馆建设之思考[J]. 长春师范学院学报(自然科学版) 2008(08)
    • [28].基于BLOG的企业默会知识共享探讨[J]. 现代商贸工业 2008(09)
    • [29].Blog在初中物理教学中的应用[J]. 新课程(上) 2011(11)
    • [30].论Blog在个人知识管理中的应用[J]. 科技创新导报 2011(08)

    标签:;  ;  ;  ;  ;  

    基于Topic的Blog隐含社区发现
    下载Doc文档

    猜你喜欢