论文摘要
互联网的高速发展已经使其成为世界上覆盖面最广、范围最大、内容最为丰富的资源库。人们在充分享受信息共享所带来的便利的同时,却也饱受着大量“垃圾信息”的困扰。特别是对于广大青少年学生,一些“有害信息”正在威胁着他们的身心健康,另外,企业员工的上网行为亟待规范。因此网页过滤应运而生。当前,许多商用网页过滤产品都使用了一种称为基于文本内容的网页过滤技术。它是从分析网页内容入手,获取网页有效文本信息,利用文本分类算法,在训练集合上学习网页分类器。在人们访问互联网时,通过预先或实时计算出的网页类别,做出允许或禁止的判断。由此可见,基于文本内容的网页过滤其核心在于网页分类的准确性。本文研究了基于文本内容的网页过滤技术,网页过滤的成效依赖于网页分类的精度,网页分类分为两个步骤,第一步是,分析网页内容,得到网页中的能够代表网页语义的文本信息,这个过程称为网页文本内容抽取。这类技术包括利用网页文档结构的方法、通过计算网页摘要的方法以及基于链接的算法等。但是这些算法都有一些不可避免的弱点,从而会影响到后续分类的准确度。本文提出了一种在同一网站中寻找相似网页的算法,它可以克服其他网页内容抽取方法中存在的弱点。第二步是,从网页中抽取出有用的文本之后,接着要对此文本分类,本文分析了一些成熟的文本分类技术,它们包括贝叶斯算法、支持向量机、kNN算法和决策树等等。贝叶斯分类的出错率最小,就试验结果来看,朴素贝叶斯在大型的数据集上表现出来难得的速度和准确度。本文在实验中选择了贝叶斯算法作为网页分类器的文本分类方法,以Surfcontrol网页分类器作为参照,以其两个分类结果集分别作为训练集和测试集。实验结果表明,利用本文提出的文本抽取方法能够在绝大多数类别上取得不错的分类效果。
论文目录
摘要Abstract1 引言1.1 网页过滤简介1.1.1 个人电脑过滤1.1.2 企业网络内容过滤1.1.3 联网骨干网页过滤1.2 基于文本内容的网页过滤技术1.3 网页过滤与网页分类、文本分类1.4 内容安排2 网页文本内容抽取2.1 网页文本抽取方法2.1.1 基于文档结构的文本抽取2.1.2 通过摘要的文本抽取2.1.3 基于链接的文本抽取2.1.4 基于相邻网页的文本抽取2.2 文本抽取中存在的问题2.3 基于相似度的网页文本抽取2.3.1 两种类型的网页2.3.2 宽度优先遍历树2.3.3 类别树2.4 小结3 网页文本内容过滤技术3.1 概述3.2 特征选择方法3.2.1 文档频次3.2.2 互信息3.2.3 信息增益3.2.4 相对熵3.2.5 统计量3.3 文本分类方法3.3.1 贝叶斯分类算法3.3.2 支持向量机3.3.3 k近邻方法3.3.4 决策树3.4 阈值策略3.4.1 位置截尾法(RCut)3.4.2 比例截尾法(PCut)3.4.3 最优截尾法(SCut)3.4.4 改进型截尾法(RTCut)3.5 评测指标3.6 小结4 实验4.1 训练、测试流程4.2 摘要4.3 贝叶斯方法4.3.1 贝叶斯文本分类算法的两种模型4.3.2 多变量贝努里事件模型4.3.3 多项式事件模型4.4 特征选择4.5 阈值策略4.6 实验结果4.7 实验结果分析4.8 小结5 网页内容类别库更新5.1 互联网的动态性5.1.1 互联网的增长特性5.1.2 互联网内容的更新特征5.2 链接结构5.2.1 Random模型5.2.2 Scale-free模型5.3 网页抓取策略5.3.1 选择策略5.3.2 再次访问策略5.3.3 友好的下载策略5.3.4 并行策略5.4 小结6 结束语6.1 结论6.2 未来的工作参考文献致谢个人简历参与的项目
相关论文文献
标签:网页过滤论文; 文本抽取论文; 文本分类论文; 贝叶斯论文;