
论文摘要
本文是针对开发网络监控部门所需的信息监控系统的实际研发过程拟就的。随着Web信息的速度增长,有害信息也随之增加。开发一个方便、快捷的监控系统,以便有效地发现Web网页上的有害信息,净化网络环境,是网络信息监控部门急需解决的课题。本文着重论述了开展这一课题研究过程中的相关技术与方法。本文在分析现有信息检索工具所存在的不足的基础上,着重论述了数据挖掘技术及其在Web信息发现中的巨大作用。详细论述了Web信息采集及其存储、文本分类模型的建立、基于文本分类模型的有害信息过滤,以及文本分类模型的不断更新过程中的相关技术与方法。对超链接分析算法用于Web结构挖掘、基于文本分类模型的文本数据挖掘,包括中文分词、向量空间模型、支持向量机方法和KNN方法的文本自动分类算法等,都作了较为深入的分析与研究,并给出了具体实现的算法思路以及实现了一个可以实际运行的系统。作为一个应用实例,本文还对系统的运行结果,作了较为详细的论述。实际结果表明,本文所论述的方法是切实可行的,它能够以较高的准确率和查全率来发现Web页面上的有害信息。这种方法可以推广到Web页面的其它信息的发现中,从而使Web数据挖掘技术具有更加广阔的应用。
论文目录
摘要Abstract第1章 绪论1.1 课题背景及其研究意义1.2 信息服务模式1.3 Web挖掘的概念1.4 Web挖掘与Web信息检索1.4.1 Web信息检索的定义1.4.2 Web挖掘和信息检索间的关联关系1.5 Web挖掘研究方向1.5.1 Web文本挖掘1.5.2 Web结构挖掘1.5.3 Web使用记录挖掘1.6 本文的主要研究内容与组织机构第2章 文本分类数据挖掘算法2.1 支持向量机算法2.2 向量空间模型2.3 KNN(K-最近邻居)数据挖掘方法第3章 基于VSM信息检索算法的改进3.1 信息检索方式3.2 基于VSM的信息检索原理和实现算法3.3 基于VSM的信息检索算法的改进思路3.4 基于VSM的信息检索的改进算法3.5 信息检索改进算法在信息监控中的应用第4章 信息监控系统的总体设计4.1 系统设计思想4.2 系统的体系结构4.3 系统主要功能4.3.1 Web数据采集4.3.2 文本数据自动分类4.3.3 文本类别判断4.3.4 有害信息报警4.3.5 辅助处理功能第5章 WEB文本信息采集5.1 半结构化数据的概念5.2 Web结构挖掘——超链接分析算法思想5.3 Web文本数据采集5.3.1 Web文本数据的采集流程5.3.2 Spider数据采集5.3.3 页面分析,清除噪音5.3.4 超链接提取5.3.5 规范文本第6章 文本数据的自动分类6.1 文本分类模型6.2 语料搜集与建立专业词表6.3 中文分词6.3.1 分词匹配算法6.3.2 匹配算法流程6.4 文本训练参数的设置6.4.1 训练参数配置窗口6.4.2 训练文本分类模块的程序流程6.5 特征项的抽取6.5.1 特征项抽取算法6.5.2 互信息量或信息增益量算法的程序实现6.6 特征词权重的计算6.7 相似度计算的程序实现6.8 文本分类模块的程序实现6.9 阈值的确定6.10 应用实例第7章 结论与展望7.1 论文期间的主要工作7.2 进一步的工作参考文献致谢研究生履历
相关论文文献
标签:数据挖掘论文; 文本挖掘论文; 信息检索论文; 文本分类模型论文; 向量空间模型论文;