论文摘要
随着Internet的日益普及和迅猛发展,人们对网络的依赖程度越来越高,但Internet的开放性、平等性、无界性等特征又导致了网络的无限制滥用,大量的垃圾及敏感信息充斥于网络,如何滤除这些垃圾及敏感信息,消除网络带来的消极及负面影响已成为Internet信息服务须解决的关键问题之一。解决这一问题的最有效技术手段就是进行信息过滤。文章在研究信息过滤一般原理及常用网页过滤技术的基础上,以需求为驱动,从功能的角度出发,提出并构建了一个基于主题的网页过滤体系,并对该体系进行了较为深入的研究,主要的研究工作和取得的创新成果有以下几个主要方面:首先,分析了目前Internet中传播的各种信息流,根据过滤需求对网络中需要过滤的信息进行了分类,明确定义了研究的主题领域,在此基础上,设计了一个面向主题的信息过滤系统TSIFS,该系统采用分层的网页过滤策略,在信息过滤的分类方案中引入了神经网络技术,利用神经网络的学习能力及适应性弥补一般过滤机制的不足,从而可以提高了网页过滤的准确性。其次,为了处理的方便性,通过归一化策略将Web页面包含的多类型数据变换为文本信息进行处理,在这一变换过程中结合了主题信息的过滤特征,利用主题专业词汇及人工编辑辞典完成了文本向量的表示,设计了一个新的特征词权重函数;另外还提出并设计了一种页面字符编码的判别算法。再次,利用BP网络构建了基于神经网络的过滤信息分类模型,构造了TSIFS中的过滤引擎处理机制,并对涉及的输入向量正规化、参数选择等关键问题进行了重点讨论。最后,文章通过仿真实验对构造的基于主题的过滤系统进行了可行性、有效性、准确性等方面的实验验证和分析。
论文目录
摘要Abstract第一章 绪论1.1 研究背景及意义1.2 主要研究内容及创新点1.3 论文组织结构第二章 相关理论与关键技术2.1 信息过滤的相关理论2.1.1 信息过滤的原理2.1.2 信息过滤技术的分类2.2 网页过滤技术2.2.1 URL过滤2.2.2 内容过滤2.2.3 网页分级2.2.4 几种常见过滤方式的比较2.3 神经网络的相关理论2.3.1 概述2.3.2 BP网络第三章 面向主题的信息过滤系统的体系结构3.1 主题领域范围的定义3.2 体系结构概述3.3 详细体系结构设计3.3.1 用户检索3.3.2 主题信息过滤3.3.3 主题数据更新3.3.4 分析统计3.3.5 检索结果3.4 体系结构的分析第四章 信息过滤中的网页分析4.1 基本架构4.2 信息组织4.2.1 原始资料采集4.2.2 重复链接过滤4.3 网页分析4.3.1 链接信息分析4.3.2 图像信息分析4.3.3 ICRA 分析4.3.4 文本分析4.3.5 小结4.4 文本分析处理及表示4.4.1 文本分析处理4.4.2 文本表示第五章 过滤中的信息分类机制5.1 基于神经网络的信息分类模型5.2 正规化处理5.3 参数选择5.4 网页存活自动检测第六章 TSIFS 的仿真实验验证6.1 实验环境及测试样本6.1.1 实验环境6.1.2 测试样本6.2 实验比较6.2.1 前置过滤与传统RBL的比较6.2.2 过滤引擎与前置过滤+过滤引擎处理效果比较6.2.3 过滤引擎与后置过滤组合测试结果6.2.4 准确率与误判率测试分析6.3 小结第七章 工作结论及下一步工作7.1 结论7.2 下一步工作参考文献硕士学习阶段参加的主要研究项目及成果致谢附录一 仿真实验采用的主题词
相关论文文献
标签:网页论文; 主题信息论文; 过滤论文; 神经网络论文;