论文摘要
随着互联网的高速发展,网络信息成爆炸式增长。如何快速、准确的从这些海量数据中获得有用的信息成为了人们关注的焦点。话题检测与跟踪(TDT)一直是国内外网络信息处理研究的一个热点,具有广泛的应用前景。本课题的研究目标是通过对博客文章的内容进行挖掘,检测出当下网民正在讨论的热点话题,实时地反馈给用户。传统文本聚类算法对于热点话题挖掘问题不能给予很好的解决办法,使得热点话题挖掘大多数都仅限于研究阶段,难以具有实用价值。本文设计了一种新的热点话题挖掘算法,类似分组聚类的方法,但是分组不是以指定大小来分组,而是根据是否含有某一标题关键词来分组,组的大小也不是固定的。分别对组内的文档集进行Single-Pass聚类得到分组内部的事件,然后将不同组挖掘到的事件进行层次聚类获得话题。并通过引入事件模板,种子文档,时间窗口,增加重要特征(比如地点名词,出现在标题中的名词等)的权重以及改进相似度计算函数,来提高算法的性能。为了对本文的算法进行评测,我们根据新浪专题事件构造了三种数据集,数据集一包含13252篇各种类型的网页,包含28个事件;数据集二是只包含博客文章的1589篇网页,包含40个事件。数据集三是TDT4评测语料。实验表明,本算法针对数据集一的召回率和准确率分别为91.73%和93.04%,针对数据集二的召回率和准确率分别为82.37%和92.18%,针对数据集三的代价值为0.48。通过与传统聚类算法的实验对比显示,本文的方法优于其他传统聚类算法,能够满足实际应用需求。基于上述算法,本文实现了一个针对博客热点话题挖掘系统。该系统目前已经持续运行了近15个月,收集整理了超过3000个热点话题及相关的博客文章226,373篇,随机选取系统挖掘到的100个话题,并对话题的相关文档进行手工标注,发现系统的精确度达到83%,为热点话题的自动挖掘提供了可行性。
论文目录
相关论文文献
- [1].我看小学生博客热[J]. 中国教师 2008(09)
- [2].背包客热捧的新乐子[J]. 半岛新生活 2008(02)
- [3].社会转型与教育创新——也谈创客教育[J]. 中小学信息技术教育 2015(11)
- [4].青少年博客热现象透视[J]. 洛阳师范学院学报 2008(01)
- [5].我的博客生涯[J]. 今日中学生 2009(36)
- [6].大学生博客热现象的冷思考[J]. 石家庄经济学院学报 2008(02)
- [7].口糜证治溯源之鬲肠不便论[J]. 陕西中医 2017(09)
- [8].美国公共图书馆掀起“创客热”[J]. 当代图书馆 2016(02)
- [9].基于箱线图的微博客热点话题发现[J]. 山西大学学报(自然科学版) 2014(01)
- [10].小荷才露尖尖角——博客小才女吴漫莹访谈[J]. 七彩语文(习作) 2012(09)
- [11].聚焦内核 创客教育才能走更远[J]. 课程教材教学研究(小教研究) 2018(Z3)
- [12].让大脑翻墙[J]. 环球人物 2014(30)
- [13].散客热潮冲击下旅行社的发展[J]. 重庆科技学院学报(社会科学版) 2014(03)
- [14].中国宽客热了[J]. 股市动态分析 2012(08)
- [15].浅谈网络博客的监督管理[J]. 牡丹江大学学报 2011(06)
- [16].从百合病看古今医疗思想差异[J]. 中国医药导报 2020(30)
- [17].海格H6V引领纯电动轻客热潮[J]. 商用汽车新闻 2014(44)
- [18].国际资讯[J]. 世界博览 2018(13)
- [19].浅谈网络博客的监督管理[J]. 知识经济 2014(23)
- [20].四季养生枸杞子[J]. 食品与药品 2011(02)