论文摘要
在大数据时代,热点事件的发生、发展和高潮、消亡越来越快速,影响事件发展的因素趋向复杂,事件涉及信息更加多样。面对海量、复杂和快速更新的多媒体信息,如何有效剔除冗余,把握热点事件发展轨迹和影响因素,成为理解、引导和控制热点事件发展需要解决的重要问题。本文以网络热点事件为研究范畴,以热点事件所涉网页、图像、视频等多种媒体的分析为研究对象,首先分析提出了热点事件的处理方法和时序可视化模型,在此基础上重点研究了文本模型、特征选择、文本分类等关键算法并进行了实现。论文的主要贡献体现在以下几个方面:(1)提出了网络热点事件时序的可视化模型。本文在分析围绕网络热点事件的多种时序特征的基础上,从覆盖媒体时序性、相关性、高层统计特征、空间地理特征等角度,提出了网络热点事件时序可视化模型。模型以集成多媒体的层次河流图、成分标签云图和空间态势图为核心内容,实现以主要涉事方为主体,对涉及事件的关键内容进行实时表现和演变跟踪。(2)提出了一种基于改进TF-IDF算法的特征选择方法。采用SVM分类方法,利用训练集构建的有效分类器,将新闻分为多种既定类型。为提高分类效率和精度,改进了TF-IDF特征选择方法,根据网页新闻报道的“倒金字塔”结构,将新闻文本分为两部分,分别定义不同的权值比重,并运用在分类中。改进方法能够根据不同部分新闻特征词的信息熵计算特征项的权重,从而提高了文本分类的精度。(3)提出了一种基于词频统计规则的命名实体识别方法。结合网络热点事件报道的特征,根据事件中标题和正文中的相应词频信息,提出了基于词频统计规则的命名实体识别方法,对特定的网络热点事件的信息提取具有一定效果,运算速度快,为热点事件主体行为的空间态势演示提供数据支撑。论文最后构建了网络热点事件时序可视化系统,集成了以上各项算法,实现了可视化环境,可综合表示多种时序信息。验证了本文所提出的可视化模型的有效性,为研究的应用提供了基础。
论文目录
摘要ABSTRACT第一章 绪论1.1 引言1.2 课题研究背景和目标1.3 国内外研究现状1.4 本文的主要研究与工作1.5 本文组织第二章 网络事件信息处理与可视化问题分析2.1 网络热点事件基本概念及特点2.1.1 新闻事件的构成要素2.1.2 新闻事件信息实体的定义2.1.3 网络新闻的特征和结构分析2.2 网络热点事件信息处理技术2.2.1 特征选择2.2.2 文本分类2.3 时序可视化模型2.3.1 Card可视化模型2.3.2 RDV模型2.3.3 主题河流模型2.3.4 标签云图第三章 网络热点事件信息获取和分析算法研究3.1 基于SVM的信息分类方法3.1.1 最优分类面3.1.2 线性可分SVM3.1.3 核函数3.2 基于改进TF ? IDF的特征提取方法3.3 基于SVM的事件分类处理流程3.3.1 文本表示阶段3.3.2 构建SVM文本分类器3.3.3 测试集分类和性能测评3.3.4 实验分析3.4 基于词频统计规则的事件信息抽取3.4.1 命名实体识别方法3.4.2 基于词频统计规则的命名实体识别3.4.3 实验分析第四章 网络热点事件信息可视化4.1 网络热点事件时序可视化模型4.1.1 集成多媒体的热点事件层次河流图4.1.2 面向时序词频数据的成分标签云图4.1.3 热点事件主体行为的空间态势图4.2 数据组织和数据模型4.2.1 河流图数据结构含义4.2.2 标签云图数据组织模式4.2.3 态势图数据组织4.3 交互设计和实现第五章 网络热点事件时序可视化系统的设计与实现5.1 任务背景5.2 系统结构设计5.3 系统实现5.3.1 集成多媒体热点事件趋势分析平台5.3.2 面向时序词频数据的标签云图平台5.3.3 热点事件主体行为的空间态势平台5.4 系统应用验证总结与展望致谢参考文献附录A 在攻读硕士期间发表的论文
相关论文文献
标签:网络热点事件论文; 时序论文; 分类论文; 特征提取论文;