Web数据挖掘及其在信息监控中的应用研究

论文摘要

本文是针对开发网络监控部门所需的信息监控系统的实际研发过程拟就的。随着Web信息的速度增长,有害信息也随之增加。开发一个方便、快捷的监控系统,以便有效地发现Web网页上的有害信息,净化网络环境,是网络信息监控部门急需解决的课题。本文着重论述了开展这一课题研究过程中的相关技术与方法。本文在分析现有信息检索工具所存在的不足的基础上,着重论述了数据挖掘技术及其在Web信息发现中的巨大作用。详细论述了Web信息采集及其存储、文本分类模型的建立、基于文本分类模型的有害信息过滤,以及文本分类模型的不断更新过程中的相关技术与方法。对超链接分析算法用于Web结构挖掘、基于文本分类模型的文本数据挖掘,包括中文分词、向量空间模型、支持向量机方法和KNN方法的文本自动分类算法等,都作了较为深入的分析与研究,并给出了具体实现的算法思路以及实现了一个可以实际运行的系统。作为一个应用实例,本文还对系统的运行结果,作了较为详细的论述。实际结果表明,本文所论述的方法是切实可行的,它能够以较高的准确率和查全率来发现Web页面上的有害信息。这种方法可以推广到Web页面的其它信息的发现中,从而使Web数据挖掘技术具有更加广阔的应用。

论文目录

摘要

Abstract

第1章绪论

1.1 课题背景及其研究意义

1.2 信息服务模式

1.3 Web挖掘的概念

1.4 Web挖掘与Web信息检索

1.4.1 Web信息检索的定义

1.4.2 Web挖掘和信息检索间的关联关系

1.5 Web挖掘研究方向

1.5.1 Web文本挖掘

1.5.2 Web结构挖掘

1.5.3 Web使用记录挖掘

1.6 本文的主要研究内容与组织机构

第2章文本分类数据挖掘算法

2.1 支持向量机算法

2.2 向量空间模型

2.3 KNN（K-最近邻居）数据挖掘方法

第3章基于VSM信息检索算法的改进

3.1 信息检索方式

3.2 基于VSM的信息检索原理和实现算法

3.3 基于VSM的信息检索算法的改进思路

3.4 基于VSM的信息检索的改进算法

3.5 信息检索改进算法在信息监控中的应用

第4章信息监控系统的总体设计

4.1 系统设计思想

4.2 系统的体系结构

4.3 系统主要功能

4.3.1 Web数据采集

4.3.2 文本数据自动分类

4.3.3 文本类别判断

4.3.4 有害信息报警

4.3.5 辅助处理功能

第5章 WEB文本信息采集

5.1 半结构化数据的概念

5.2 Web结构挖掘——超链接分析算法思想

5.3 Web文本数据采集

5.3.1 Web文本数据的采集流程

5.3.2 Spider数据采集

5.3.3 页面分析，清除噪音

5.3.4 超链接提取

5.3.5 规范文本

第6章文本数据的自动分类

6.1 文本分类模型

6.2 语料搜集与建立专业词表

6.3 中文分词

6.3.1 分词匹配算法

6.3.2 匹配算法流程

6.4 文本训练参数的设置

6.4.1 训练参数配置窗口

6.4.2 训练文本分类模块的程序流程

6.5 特征项的抽取

6.5.1 特征项抽取算法

6.5.2 互信息量或信息增益量算法的程序实现

6.6 特征词权重的计算

6.7 相似度计算的程序实现

6.8 文本分类模块的程序实现

6.9 阈值的确定

6.10 应用实例

第7章结论与展望

7.1 论文期间的主要工作

7.2 进一步的工作

参考文献

致谢

研究生履历

Web数据挖掘及其在信息监控中的应用研究

论文摘要

论文目录

相关论文文献

猜你喜欢