BBS热点话题挖掘与观点分析

BBS热点话题挖掘与观点分析

论文摘要

随着互联网的飞速发展,BBS(即网络论坛)已经成为人们自由发表言论,表达民意的重要平台。政府和网管部门需要利用有效的智能技术,对BBS进行舆情监控,以便及时掌握各个时期民众关心的热点话题,并了解民众对这些热点话题的观点和态度,从而做出正确、科学的决策。本文的主要研究内容如下:(1) BBS信息的自动抽取:为了实现对BBS网页的自动采集和信息抽取,本文采用HTML Parser包和正则表达式对HTML类型的BBS网页进行解析,从中抽取BBS帖子线索的各项信息,并将抽取结果存入XML文件中。(2)面向BBS文本的特征选择及权重计算:BBS文本的语言和结构与传统的文本有所不同,有着自己的特点。本文选取词条的出现次数、出现位置、词长以及包含该词条的帖子数目等四个因子来评估特征项,并用综合评估函数代替了TF-IDF公式中的TF项,来计算特征项在向量空间模型中的权重。(3) BBS热点话题挖掘:话题识别是热点话题挖掘的一个关键步骤,本文分别采用Single-Pass、K-Means以及K-Medoids聚类算法进行话题识别,在实际应用时根据原算法存在的缺陷做了相应改进,并给出实验结果及其分析。在话题识别的基础上,综合话题的线索数、精华线索数、回复数、单位时间浏览数等信息,对话题进行热度评分。(4) BBS帖子线索的观点分析:本文将帖子线索的特征项作为观点的评价对象,结合极性词词典和依存句法分析技术,采用了SBV(主谓关系)极性传递算法对BBS中的观点句进行观点分析。针对主谓关系和动宾关系之间存在连动关系的观点句,对SBV极性传递算法做了补充。在句子观点分析的基础上,对整个BBS帖子线索进行观点分析。最后,通过实验验证了观点分析算法的有效性。

论文目录

  • 摘要
  • Abstract
  • 第1章 引言
  • 1.1 课题的研究背景
  • 1.2 国内外研究现状
  • 1.2.1 热点话题挖掘
  • 1.2.2 文本观点分析
  • 1.3 论文组织
  • 第2章 Web文本挖掘技术
  • 2.1 Web文本挖掘的过程
  • 2.2 Web文本挖掘的关键技术
  • 2.2.1 Web信息抽取
  • 2.2.2 文本的特征表示
  • 2.2.3 文本的特征选择
  • 2.2.4 文本分类
  • 2.2.5 文本聚类
  • 2.3 本章小结
  • 第3章 BBS信息提取及预处理
  • 3.1 相关技术
  • 3.1.1 HTTP协议
  • 3.1.2 HTML简介
  • 3.1.3 开源项目HTML Parser
  • 3.1.4 正则表达式
  • 3.1.5 XML简介
  • 3.2 BBS网页信息提取
  • 3.2.1 BBS站点结构提取
  • 3.2.2 页面信息块的提取
  • 3.2.3 线索信息的存储
  • 3.3 BBS文本预处理
  • 3.3.1 中文词法分析(Chinese Lexical Analysis)
  • 3.3.2 停用词(Stop Words)的过滤
  • 3.4 本章小结
  • 第4章 热点话题挖掘
  • 4.1 BBS文本的表示
  • 4.1.1 无监督的特征选择
  • 4.1.2 面向BBS文本的特征选择及权重计算
  • 4.2 面向BBS的话题识别
  • 4.2.1 相似度计算
  • 4.2.2 基于聚类的话题识别算法
  • 4.2.3 话题识别的评测机制
  • 4.3 话题热度评分
  • 4.4 实验结果及其分析
  • 4.4.1 话题识别实验
  • 4.4.2 热度评分实验
  • 4.5 本章小结
  • 第5章 BBS帖子线索的观点分析
  • 5.1 句法分析器简介
  • 5.2 词语极性分析
  • 5.2.1 极性词词典的建立
  • 5.2.2 词语的上下文极性分析
  • 5.3 帖子线索的观点分析
  • 5.3.1 观点句的提取
  • 5.3.2 句子的观点分析
  • 5.3.3 帖子线索的观点分析
  • 5.4 实验结果及其分析
  • 5.4.1 词语极性分析实验
  • 5.4.2 句子观点分析实验
  • 5.4.3 线索观点分析实验
  • 5.5 本章小结
  • 第6章 结语
  • 6.1 论文工作总结
  • 6.2 下一步工作的设想
  • 参考文献
  • 攻读学位期间公开发表论文
  • 致谢
  • 研究生履历
  • 相关论文文献

    • [1].一种面向社会网络的热点话题数据挖掘算法[J]. 计算机应用与软件 2014(06)

    标签:;  ;  ;  ;  ;  

    BBS热点话题挖掘与观点分析
    下载Doc文档

    猜你喜欢