论文摘要
随着互联网的飞速发展,BBS(即网络论坛)已经成为人们自由发表言论,表达民意的重要平台。政府和网管部门需要利用有效的智能技术,对BBS进行舆情监控,以便及时掌握各个时期民众关心的热点话题,并了解民众对这些热点话题的观点和态度,从而做出正确、科学的决策。本文的主要研究内容如下:(1) BBS信息的自动抽取:为了实现对BBS网页的自动采集和信息抽取,本文采用HTML Parser包和正则表达式对HTML类型的BBS网页进行解析,从中抽取BBS帖子线索的各项信息,并将抽取结果存入XML文件中。(2)面向BBS文本的特征选择及权重计算:BBS文本的语言和结构与传统的文本有所不同,有着自己的特点。本文选取词条的出现次数、出现位置、词长以及包含该词条的帖子数目等四个因子来评估特征项,并用综合评估函数代替了TF-IDF公式中的TF项,来计算特征项在向量空间模型中的权重。(3) BBS热点话题挖掘:话题识别是热点话题挖掘的一个关键步骤,本文分别采用Single-Pass、K-Means以及K-Medoids聚类算法进行话题识别,在实际应用时根据原算法存在的缺陷做了相应改进,并给出实验结果及其分析。在话题识别的基础上,综合话题的线索数、精华线索数、回复数、单位时间浏览数等信息,对话题进行热度评分。(4) BBS帖子线索的观点分析:本文将帖子线索的特征项作为观点的评价对象,结合极性词词典和依存句法分析技术,采用了SBV(主谓关系)极性传递算法对BBS中的观点句进行观点分析。针对主谓关系和动宾关系之间存在连动关系的观点句,对SBV极性传递算法做了补充。在句子观点分析的基础上,对整个BBS帖子线索进行观点分析。最后,通过实验验证了观点分析算法的有效性。
论文目录
摘要Abstract第1章 引言1.1 课题的研究背景1.2 国内外研究现状1.2.1 热点话题挖掘1.2.2 文本观点分析1.3 论文组织第2章 Web文本挖掘技术2.1 Web文本挖掘的过程2.2 Web文本挖掘的关键技术2.2.1 Web信息抽取2.2.2 文本的特征表示2.2.3 文本的特征选择2.2.4 文本分类2.2.5 文本聚类2.3 本章小结第3章 BBS信息提取及预处理3.1 相关技术3.1.1 HTTP协议3.1.2 HTML简介3.1.3 开源项目HTML Parser3.1.4 正则表达式3.1.5 XML简介3.2 BBS网页信息提取3.2.1 BBS站点结构提取3.2.2 页面信息块的提取3.2.3 线索信息的存储3.3 BBS文本预处理3.3.1 中文词法分析(Chinese Lexical Analysis)3.3.2 停用词(Stop Words)的过滤3.4 本章小结第4章 热点话题挖掘4.1 BBS文本的表示4.1.1 无监督的特征选择4.1.2 面向BBS文本的特征选择及权重计算4.2 面向BBS的话题识别4.2.1 相似度计算4.2.2 基于聚类的话题识别算法4.2.3 话题识别的评测机制4.3 话题热度评分4.4 实验结果及其分析4.4.1 话题识别实验4.4.2 热度评分实验4.5 本章小结第5章 BBS帖子线索的观点分析5.1 句法分析器简介5.2 词语极性分析5.2.1 极性词词典的建立5.2.2 词语的上下文极性分析5.3 帖子线索的观点分析5.3.1 观点句的提取5.3.2 句子的观点分析5.3.3 帖子线索的观点分析5.4 实验结果及其分析5.4.1 词语极性分析实验5.4.2 句子观点分析实验5.4.3 线索观点分析实验5.5 本章小结第6章 结语6.1 论文工作总结6.2 下一步工作的设想参考文献攻读学位期间公开发表论文致谢研究生履历
相关论文文献
- [1].一种面向社会网络的热点话题数据挖掘算法[J]. 计算机应用与软件 2014(06)
标签:热点话题挖掘论文; 观点分析论文; 文本挖掘论文; 文本聚类论文; 依存句法分析论文;