基于粗糙集与支持向量机的Web文本分类

基于粗糙集与支持向量机的Web文本分类

论文摘要

随着Internet及其相关技术的迅速发展,网络上汇集了大量的信息资源,如何有效地利用这些资源,一直备受学者的关注。目前广泛使用的处理Web信息的方法是搜索引擎,但这种基于关键字的搜索方法存在着搜索效率、差全率和差准率低的问题。将数据挖掘的思想和方法应用于Web环境下,从Web文档和Web活动中发现感兴趣的、潜在的、有用的模式和隐藏的信息,可以很好地解决搜索引擎所存在的问题。Web文本分类是Web挖掘的一个重要研究方向,它是在通过经验数据训练得到的分类体系下,根据网页的文本内容自动判别网页类别的过程,它可以用来缩小用户搜索信息的范围,使用户可以快速准确地获取所需的信息。支持向量机是一种高效的分类识别方法,它是建立在结构风险最小化原则以及VC理论基础上的一种小样本统计学习理论,具有较强的学习泛化能力和良好的分类性能。但当它所处理的数据量较大时,会导致处理速度慢、训练时间过长等缺点,影响分类性能。为此引入粗糙集的方法,利用其的属性约简方法对大数据量进行处理,同时消除冗余信息,减少支持向量机的训练数据维数,提高效率。本文主要研究了基于粗糙集与支持向量机相结合的Web文本分类技术,主要的研究成果如下:在深入研究文本分类技术、支持向量机理论及粗糙集理论的基础上,将粗糙集与支持向量机相结合应用于Web文本分类,并给出分类系统的框架,该系统根据词条在文档中的位置对TF—IDF权重函数进行改进;利用粗糙集进行属性约简,约简方法采用一种改进的广义信息表求近似最小属性约简方法,减少信息表达的特征数量;进而提出一种综合考虑粗糙集属性约简以及测试的文本数量,结合多项式核函数及径向基核函数的组合核函数,采用基于二叉树的多类分类方法,利用支持向量机分类器进行训练和预测。通过实验证明该系统有效地提高了分类器的分类性能及效率。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 Web文本分类的研究背景和现状
  • 1.1.1 Web文本分类的研究背景
  • 1.1.2 Web文本分类的研究现状
  • 1.2 课题的研究意义
  • 1.3 课题的主要研究工作
  • 1.4 论文的组织
  • 第二章 Web文本分类综述
  • 2.1 Web文本分类
  • 2.1.1 Web文本分类的定义
  • 2.1.2 Web文本分类的过程
  • 2.2 Web文本分类中的关键技术
  • 2.2.1 Web文本分类的预处理
  • 2.2.2 Web文本的表示
  • 2.2.3 Web文本的降维处理
  • 2.3 Web文本分类的常用分类算法
  • 2.3.1 Rocchio方法
  • 2.3.2 KNN(K近邻)算法
  • 2.3.3 朴素贝叶斯算法
  • 2.3.4 支持向量机方法
  • 2.4 Web文本分类质量评价
  • 2.5 本章小结
  • 第三章 支持向量机
  • 3.1 机器学习的基本问题
  • 3.1.1 机器学习问题的表示
  • 3.1.2 经验风险最小化原则
  • 3.1.3 复杂性与推广能力
  • 3.2 统计学习理论
  • 3.2.1 VC维
  • 3.2.2 推广性的界
  • 3.2.3 结构风险最小化
  • 3.2.4 支持向量机法
  • 3.3 支持向量机模型
  • 3.3.1 线性可分支持向量机
  • 3.3.2 线性不可分支持向量机
  • 3.3.3 非线性支持向量机
  • 3.4 支持向量机训练算法
  • 3.5 支持向量机多类分类算法
  • 3.5.1 一对多法(1-a-r)
  • 3.5.2 一对一法(1-a-1)
  • 3.5.3 决策导向非循环图法(DDAG)
  • 3.6 本章小结
  • 第四章 粗糙集
  • 4.1 粗糙集的基本概念
  • 4.1.1 信息系统
  • 4.1.2 决策表信息系统
  • 4.1.3 不可分辩关系与上、下近似集
  • 4.2 知识约简
  • 4.2.1 约简与核
  • 4.2.2 相对约简与相对核
  • 4.2.3 区分矩阵与区分函数
  • 4.3 常用的知识约简算法
  • 4.3.1 基于属性重要性的约简算法
  • 4.3.2 基于区分矩阵和逻辑运算的约简算法
  • 4.3.3 基于属性频率函数启发的约简算法
  • 4.4 本章小结
  • 第五章 基于粗糙集与支持向量机的Web文本分类模型
  • 5.1 基于粗糙集和支持向量机的Web文本分类模型
  • 5.2 关键步骤的实现
  • 5.2.1 文本预处理
  • 5.2.2 特征项的选择
  • 5.2.3 权值离散化
  • 5.2.4 创建决策表
  • 5.2.5 决策表属性约简
  • 5.2.6 支持向量机核函数的选取
  • 5.2.7 支持向量机多类分类算法
  • 5.2.8 支持向量机的最优参数确定
  • 5.3 实验结果及分析
  • 5.4 本章小结
  • 第六章 总结与展望
  • 6.1 全文总结
  • 6.2 存在的问题和进一步的研究工作
  • 参考文献
  • 致谢
  • 相关论文文献

    • [1].基于WEB的通信电源远程监控系统研究[J]. 中国设备工程 2019(24)
    • [2].基于自适应遗传算法的考虑服务质量感知Web服务发现[J]. 电子测量技术 2019(22)
    • [3].面向Web系统热点数据预测及缓存管理的研究[J]. 信息技术与信息化 2019(12)
    • [4].基于页面对象的Web应用测试用例生成方法[J]. 计算机应用 2020(01)
    • [5].运用物联网和Web服务搭建院际转运信息平台[J]. 电子技术与软件工程 2020(02)
    • [6].延迟加载在web开发中的应用心得[J]. 视听 2020(02)
    • [7].基于Web的期刊采编系统的设计与实现[J]. 电脑知识与技术 2020(06)
    • [8].Web服务软件测试技术的研究与实现[J]. 电脑知识与技术 2020(02)
    • [9].移动互联网时代的Web性能优化实践[J]. 信息通信 2020(01)
    • [10].基于Web的校园个人自行车租赁系统[J]. 卫星电视与宽带多媒体 2020(02)
    • [11].基于网站制作的Web前端开发技术与优化[J]. 数字技术与应用 2020(01)
    • [12].基于Web应用的网络安全漏洞发现与研究[J]. 无线互联科技 2020(05)
    • [13].基于Web的动态几何软件领域模型及其应用[J]. 计算机应用 2020(04)
    • [14].基于web技术支持下网络多媒体课件的制作原则及优点[J]. 科技风 2020(13)
    • [15].基于Web的网上教学平台的设计与实现[J]. 科技与创新 2020(07)
    • [16].1+X证书制度与Web前端开发专业融合的探索[J]. 信息与电脑(理论版) 2020(04)
    • [17].基于《web前端页面设计》在线开放课程自主学习探讨[J]. 计算机产品与流通 2020(05)
    • [18].基于WEB的计算机课程辅助教学系统的设计与实现[J]. 计算机产品与流通 2020(05)
    • [19].基于Web的时变体数据的体绘制方法[J]. 计算机测量与控制 2020(04)
    • [20].Web浏览器中数据安全配置的研究[J]. 电脑编程技巧与维护 2020(04)
    • [21].基于实践应用的Web开发技术教学改革研究初探[J]. 科学大众(科学教育) 2020(05)
    • [22].基于Web的桥梁健康监测系统设计与实现[J]. 计算机技术与发展 2020(04)
    • [23].基于Web技术的计算机实验室综合管理系统设计[J]. 电子制作 2020(11)
    • [24].分析校园网中Web服务器的配置及安全防护[J]. 江西电力职业技术学院学报 2020(01)
    • [25].基于Web的研究生学位信息管理系统技术研究[J]. 创新创业理论研究与实践 2020(07)
    • [26].WEB技术在地质资料二次开发中的应用探讨[J]. 中国非金属矿工业导刊 2020(03)
    • [27].基于Web技术的医疗图像脱敏系统的设计与实现[J]. 宁夏工程技术 2020(02)
    • [28].网站制作的Web前端开发设计的相关研究[J]. 卫星电视与宽带多媒体 2020(07)
    • [29].Web开发提高网站性能的技巧[J]. 电脑编程技巧与维护 2020(06)
    • [30].随钻测井地质导向服务WEB版[J]. 国外测井技术 2020(03)

    标签:;  ;  ;  

    基于粗糙集与支持向量机的Web文本分类
    下载Doc文档

    猜你喜欢