论文摘要
随着互联网的飞速发展与普及,论坛正日益成为网络舆情的重要数据来源。论坛话题检测与追踪技术能够对海量、无序、分散的论坛数据进行有效组织,可以及时检测论坛中的热点话题并追踪重点话题的发展动态,为相关部门及时了解网络舆情并采取相应措施提供了必要的手段。本文借鉴传统新闻话题检测与追踪技术的理论和方法,针对论坛数据的自身特点,研究了论坛话题检测与追踪的关键技术,包括:论坛数据形式化表示,论坛热点话题检测和论坛重点话题追踪,取得了如下三个方面的研究成果:(1)分析了现有文本表示模型应用于论坛数据表示的局限性,根据论坛数据的特点,采用向量空间模型表示论坛数据,并提出了一种基于多因子加权策略的特征权重计算方法。该方法不仅考虑了特征的词频和逆文档频率,而且采用了实体信息加权和位置信息加权。实验结果表明,该方法能够有效表示论坛数据。(2)研究了论坛热点话题检测技术,提出了一种基于多策略的论坛热点话题检测方法。该方法首先提取候选热点话题特征集,并采用静态过滤和动态过滤相结合的方法对该集合进行过滤得到热点话题特征集;其次,对热点话题特征集中的每一特征,通过查找帖子线索进行聚类得到伪热点话题;然后,对伪热点话题内的数据进行层次聚类得到热点话题,并对热点话题之间的交集重新进行判断;最后,对热点话题的热度进行了定量计算。实验结果证明,该方法能够在保证话题检测准确率的前提下,降低传统话题检测方法的时间和空间复杂度,并能有效地检测论坛热点话题。(3)研究了论坛重点话题追踪技术,针对论坛数据存在“描述语义相近,形式截然不同”的问题,提出了一种基于语义相似度的论坛话题追踪方法。该方法首先利用《知网》实现词语语义相似度的计算;其次,分别采用针对话题和帖子线索的关键特征权重计算方法构建话题关键词表和帖子线索关键词表,得到话题模型和帖子线索模型;最后,计算两个关键词表之间的语义相似度,并以此作为帖子线索与话题之间的相关程度,从而完成论坛话题追踪。实验结果证明,该方法能够有效追踪与话题相关的论坛帖子线索。
论文目录
相关论文文献
- [1].基于峰值密度聚类的电信业投诉热点话题检测方法[J]. 电信科学 2019(05)
- [2].时间敏感的社交网络热点话题检测[J]. 计算机工程与设计 2014(12)
- [3].社会化短文本及其技术研究[J]. 景德镇学院学报 2018(02)
- [4].基于均衡段落和分话题向量的新闻热点话题检测研究[J]. 数据分析与知识发现 2020(10)
标签:论坛论文; 热点话题检测论文; 重点话题追踪论文; 向量空间模型论文; 热点话题特征论文; 话题热度评分论文; 关键词表论文; 语义相似度论文;