博客热点话题挖掘方法

博客热点话题挖掘方法

论文摘要

随着互联网的高速发展,网络信息成爆炸式增长。如何快速、准确的从这些海量数据中获得有用的信息成为了人们关注的焦点。话题检测与跟踪(TDT)一直是国内外网络信息处理研究的一个热点,具有广泛的应用前景。本课题的研究目标是通过对博客文章的内容进行挖掘,检测出当下网民正在讨论的热点话题,实时地反馈给用户。传统文本聚类算法对于热点话题挖掘问题不能给予很好的解决办法,使得热点话题挖掘大多数都仅限于研究阶段,难以具有实用价值。本文设计了一种新的热点话题挖掘算法,类似分组聚类的方法,但是分组不是以指定大小来分组,而是根据是否含有某一标题关键词来分组,组的大小也不是固定的。分别对组内的文档集进行Single-Pass聚类得到分组内部的事件,然后将不同组挖掘到的事件进行层次聚类获得话题。并通过引入事件模板,种子文档,时间窗口,增加重要特征(比如地点名词,出现在标题中的名词等)的权重以及改进相似度计算函数,来提高算法的性能。为了对本文的算法进行评测,我们根据新浪专题事件构造了三种数据集,数据集一包含13252篇各种类型的网页,包含28个事件;数据集二是只包含博客文章的1589篇网页,包含40个事件。数据集三是TDT4评测语料。实验表明,本算法针对数据集一的召回率和准确率分别为91.73%和93.04%,针对数据集二的召回率和准确率分别为82.37%和92.18%,针对数据集三的代价值为0.48。通过与传统聚类算法的实验对比显示,本文的方法优于其他传统聚类算法,能够满足实际应用需求。基于上述算法,本文实现了一个针对博客热点话题挖掘系统。该系统目前已经持续运行了近15个月,收集整理了超过3000个热点话题及相关的博客文章226,373篇,随机选取系统挖掘到的100个话题,并对话题的相关文档进行手工标注,发现系统的精确度达到83%,为热点话题的自动挖掘提供了可行性。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题背景
  • 1.2 课题目的及意义
  • 1.3 国内外研究现状
  • 1.3.1 TDT基本概念
  • 1.3.2 TDT任务划分
  • 1.3.3 TDT的发展历程
  • 1.3.4 国外研究现状
  • 1.3.5 国内研究现状
  • 1.3.6 博客领域话题挖掘
  • 1.4 本文主要研究内容
  • 1.4.1 本文内容
  • 1.4.2 本文的组织
  • 第2章 相关技术介绍
  • 2.1 引言
  • 2.2 话题检测技术
  • 2.2.1 时间窗口
  • 2.2.2 动态IDF
  • 2.2.3 动态阈值
  • 2.2.4 相似度计算函数
  • 2.2.5 Single-Pass算法
  • 2.2.6 GAC算法
  • 2.3 文本聚类
  • 2.3.1 概述
  • 2.3.2 聚类方法分类
  • 2.4 本章小结
  • 第3章 热点话题挖掘算法的研究
  • 3.1 引言
  • 3.2 算法总体结构
  • 3.3 算法描述
  • 3.4 候选热点特征词表
  • 3.5 事件列表的生成
  • 3.5.1 算法描述
  • 3.5.2 事件模板
  • 3.5.3 种子文档
  • 3.5.4 相似度计算
  • 3.6 话题列表的生成
  • 3.6.1 算法描述
  • 3.6.2 相似度计算
  • 3.7 相关文档的召回
  • 3.8 热点话题的识别
  • 3.9 本章小结
  • 第4章 博客热点话题挖掘系统实现
  • 4.1 引言
  • 4.2 系统框架
  • 4.3 各模块功能介绍
  • 4.3.1 数据采集模块
  • 4.3.2 热点话题挖掘模块
  • 4.4 系统演示
  • 4.5 本章小结
  • 第5章 实验评测与结果分析
  • 5.1 引言
  • 5.2 实验环境与工具
  • 5.3 实验数据
  • 5.4 评价方法
  • 5.5 实验结果及分析
  • 5.6 本章小结
  • 结论
  • 参考文献
  • 致谢
  • 相关论文文献

    • [1].我看小学生博客热[J]. 中国教师 2008(09)
    • [2].背包客热捧的新乐子[J]. 半岛新生活 2008(02)
    • [3].社会转型与教育创新——也谈创客教育[J]. 中小学信息技术教育 2015(11)
    • [4].青少年博客热现象透视[J]. 洛阳师范学院学报 2008(01)
    • [5].我的博客生涯[J]. 今日中学生 2009(36)
    • [6].大学生博客热现象的冷思考[J]. 石家庄经济学院学报 2008(02)
    • [7].口糜证治溯源之鬲肠不便论[J]. 陕西中医 2017(09)
    • [8].美国公共图书馆掀起“创客热”[J]. 当代图书馆 2016(02)
    • [9].基于箱线图的微博客热点话题发现[J]. 山西大学学报(自然科学版) 2014(01)
    • [10].小荷才露尖尖角——博客小才女吴漫莹访谈[J]. 七彩语文(习作) 2012(09)
    • [11].聚焦内核 创客教育才能走更远[J]. 课程教材教学研究(小教研究) 2018(Z3)
    • [12].让大脑翻墙[J]. 环球人物 2014(30)
    • [13].散客热潮冲击下旅行社的发展[J]. 重庆科技学院学报(社会科学版) 2014(03)
    • [14].中国宽客热了[J]. 股市动态分析 2012(08)
    • [15].浅谈网络博客的监督管理[J]. 牡丹江大学学报 2011(06)
    • [16].从百合病看古今医疗思想差异[J]. 中国医药导报 2020(30)
    • [17].海格H6V引领纯电动轻客热潮[J]. 商用汽车新闻 2014(44)
    • [18].国际资讯[J]. 世界博览 2018(13)
    • [19].浅谈网络博客的监督管理[J]. 知识经济 2014(23)
    • [20].四季养生枸杞子[J]. 食品与药品 2011(02)

    标签:;  ;  ;  

    博客热点话题挖掘方法
    下载Doc文档

    猜你喜欢