论坛话题检测与追踪技术研究

论坛话题检测与追踪技术研究

论文摘要

随着互联网的飞速发展与普及,论坛正日益成为网络舆情的重要数据来源。论坛话题检测与追踪技术能够对海量、无序、分散的论坛数据进行有效组织,可以及时检测论坛中的热点话题并追踪重点话题的发展动态,为相关部门及时了解网络舆情并采取相应措施提供了必要的手段。本文借鉴传统新闻话题检测与追踪技术的理论和方法,针对论坛数据的自身特点,研究了论坛话题检测与追踪的关键技术,包括:论坛数据形式化表示,论坛热点话题检测和论坛重点话题追踪,取得了如下三个方面的研究成果:(1)分析了现有文本表示模型应用于论坛数据表示的局限性,根据论坛数据的特点,采用向量空间模型表示论坛数据,并提出了一种基于多因子加权策略的特征权重计算方法。该方法不仅考虑了特征的词频和逆文档频率,而且采用了实体信息加权和位置信息加权。实验结果表明,该方法能够有效表示论坛数据。(2)研究了论坛热点话题检测技术,提出了一种基于多策略的论坛热点话题检测方法。该方法首先提取候选热点话题特征集,并采用静态过滤和动态过滤相结合的方法对该集合进行过滤得到热点话题特征集;其次,对热点话题特征集中的每一特征,通过查找帖子线索进行聚类得到伪热点话题;然后,对伪热点话题内的数据进行层次聚类得到热点话题,并对热点话题之间的交集重新进行判断;最后,对热点话题的热度进行了定量计算。实验结果证明,该方法能够在保证话题检测准确率的前提下,降低传统话题检测方法的时间和空间复杂度,并能有效地检测论坛热点话题。(3)研究了论坛重点话题追踪技术,针对论坛数据存在“描述语义相近,形式截然不同”的问题,提出了一种基于语义相似度的论坛话题追踪方法。该方法首先利用《知网》实现词语语义相似度的计算;其次,分别采用针对话题和帖子线索的关键特征权重计算方法构建话题关键词表和帖子线索关键词表,得到话题模型和帖子线索模型;最后,计算两个关键词表之间的语义相似度,并以此作为帖子线索与话题之间的相关程度,从而完成论坛话题追踪。实验结果证明,该方法能够有效追踪与话题相关的论坛帖子线索。

论文目录

  • 表目录
  • 图目录
  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 课题背景及研究意义
  • 1.1.1 课题研究背景
  • 1.1.2 课题研究意义
  • 1.2 相关概念与定义
  • 1.3 研究现状
  • 1.3.1 话题检测与追踪的研究现状
  • 1.3.2 论坛话题检测与追踪的研究现状
  • 1.4 本文的结构安排
  • 第二章 论坛数据获取与形式化表示
  • 2.1 论坛数据获取
  • 2.1.1 论坛数据采集
  • 2.1.2 论坛数据抽取
  • 2.2 实验语料库构建及TDT 评测标准
  • 2.2.1 实验语料库构建
  • 2.2.2 TDT 评测标准
  • 2.3 论坛数据预处理
  • 2.3.1 论坛数据与新闻数据的区别
  • 2.3.2 论坛数据预处理
  • 2.4 论坛数据形式化表示
  • 2.4.1 文本表示的研究现状
  • 2.4.2 向量空间模型
  • 2.4.3 论坛数据的特点分析
  • 2.4.4 基于多因子加权策略的特征权重计算方法
  • 2.5 实验结果及分析
  • 2.5.1 实验准备
  • 2.5.2 实验结果与分析
  • 2.6 本章小结
  • 第三章 基于多策略的论坛热点话题检测
  • 3.1 论坛热点话题的定义
  • 3.2 论坛热点话题检测方法分析
  • 3.2.1 基于热点话题特征的方法
  • 3.2.2 基于传统TDT 的方法
  • 3.2.3 基于结构特性的方法
  • 3.2.4 三种方法的对比分析
  • 3.3 基于多策略的论坛热点话题检测方法
  • 3.3.1 热点话题特征提取策略
  • 3.3.2 基于层次聚类的热点话题检测策略
  • 3.3.3 论坛话题热度评分策略
  • 3.4 实验结果及分析
  • 3.4.1 实验准备
  • 3.4.2 热点话题特征提取实验
  • 3.4.3 热点话题检测实验
  • 3.4.4 话题热度排序实验
  • 3.5 本章小结
  • 第四章 基于语义相似度的论坛重点话题追踪
  • 4.1 研究基础
  • 4.1.1 论坛话题追踪与传统新闻话题追踪的区别
  • 4.1.2 TDT 技术应用于论坛话题追踪的分析
  • 4.2 词语语义相似度计算
  • 4.2.1 《知网》收录词语的语义相似度计算
  • 4.2.2 《知网》未收录词语的语义相似度计算
  • 4.3 基于语义相似度的论坛话题追踪方法
  • 4.3.1 话题和帖子线索的文本表示模型
  • 4.3.2 话题与帖子线索之间的相似度计算模型
  • 4.3.3 基于语义相似度的论坛话题追踪
  • 4.4 实验结果及分析
  • 4.4.1 实验准备
  • 4.4.2 实验结果与分析
  • 4.5 本章小结
  • 第五章 论坛话题检测与追踪技术的应用
  • 5.1 系统框架
  • 5.2 系统功能
  • 5.3 本章小结
  • 结束语
  • 参考文献
  • 作者简历 攻读硕士学位期间完成的主要工作
  • 致谢
  • 相关论文文献

    • [1].基于峰值密度聚类的电信业投诉热点话题检测方法[J]. 电信科学 2019(05)
    • [2].时间敏感的社交网络热点话题检测[J]. 计算机工程与设计 2014(12)
    • [3].社会化短文本及其技术研究[J]. 景德镇学院学报 2018(02)
    • [4].基于均衡段落和分话题向量的新闻热点话题检测研究[J]. 数据分析与知识发现 2020(10)

    标签:;  ;  ;  ;  ;  ;  ;  ;  

    论坛话题检测与追踪技术研究
    下载Doc文档

    猜你喜欢