垃圾图像特征提取与选择研究

垃圾图像特征提取与选择研究

论文摘要

垃圾图像识别是当前互联网络垃圾信息过滤研究领域的热点之一,目标是解决传统的垃圾信息过滤方法在过滤垃圾图像信息时,性能急剧下降甚至失效的问题。解决垃圾图像识别问题的关键是特征建模时采用的特征提取和特征选择方法。鉴于电子邮件是目前传播垃圾图像信息最主要的途径之一,本论文以电子邮件所含垃圾图像为研究对象,针对抗干扰的图像区域和图像边缘特征提取方法、基于信息度量准则的有监督特征选择方法、应对标注瓶颈问题的半监督特征选择方法进行了研究。本文主要的创新性成果包括以下四个方面:1.提出一种抗干扰的文本区域自动提取方法,削弱了现有相关方法对图像质量有较高要求的限制。该方法设计的八邻域细小区域去除算法和候选文本区域筛选机制,能有效降低复杂背景和不规整的图像文字对文本区域分割形成的干扰。在此基础上,该方法设计了一种基于霍夫变换求标记区域最小外接矩形的算法,克服了现有相关方法不能有效提取倾斜文本区域的不足。实验结果显示该方法能有效提高文本区域的提取精确度,从而获得更有效的文本区域特征。2.提出一种邮件图像边缘特征提取方法。该方法引入高阶局部自相关(Higher-order Local AutoCorrelation, HLAC)函数提取邮件图像的边缘特征,据此得到的HLAC特征能反映图像内容固有的边缘相关性,具有对位移和尺度变化不敏感的优点,表现出较强的抗干扰能力,克服了现有相关算法对图像边缘分布或者图像中的文字数量存在限制条件的不足。真实数据集上的实验结果证实HLAC特征是一种有效的判别特征。3.提出一种基于信息度量准则的特征选择算法。针对现有相关算法脱离分类环境评估冗余特征的问题,该算法提出分类冗余特征的定义,并设计了一个分类信息增益度量化指标,在评估候选特征之前删除分类冗余特征,降低对评估特征的干扰。针对大多数信息度量准则不能正确处理特征协作关系的问题,该算法运用条件互信息,设计了一个信息度量准则对特征进行评估。实验结果表明该算法能够有效降低特征空间的复杂度,提高分类模型的性能。4.提出一种基于图的半监督特征选择算法。该算法以聚类假设为理论基础,对基于谱图理论的无监督特征选择算法Laplacian Score进行扩展,通过构建样本数据的类内相似度和类间离散度矩阵,考察特征保持全局结构和局部结构的能力,并且利用分类信息增益度指标去除冗余特征,弥补了现有相关算法不能处理冗余特征的不足。实验结果显示该算法在样本标注程度很低的数据集上能有效去除冗余特征,选出预测力强的特征子集。上述研究成果为实现垃圾图像的自动判别,从而解决垃圾图像信息的过滤问题提供了新的研究思路和有希望的解决方案。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景与意义
  • 1.2 国内外研究现状
  • 1.2.1 垃圾图像识别方法概述
  • 1.2.2 基于图像内容的识别方法
  • 1.3 论文主要工作及创新点
  • 1.3.1 论文主要工作
  • 1.3.2 论文主要创新点
  • 1.4 论文章节安排
  • 第二章 相关研究基础
  • 2.1 垃圾图像识别模型
  • 2.1.1 垃圾图像的定义
  • 2.1.2 垃圾图像识别过程
  • 2.1.3 分类学习算法
  • 2.2 特征提取
  • 2.2.1 基于颜色的特征提取
  • 2.2.2 基于文本区域的特征提取
  • 2.2.3 基于边缘的特征提取
  • 2.3 特征选择
  • 2.3.1 相关特征与冗余特征
  • 2.3.2 特征选择类型
  • 2.3.3 基于信息度量的特征选择
  • 2.3.4 半监督特征选择
  • 2.4 本章小结
  • 第三章 图像的形状特征提取方法
  • 3.1 引言
  • 3.2 抗干扰的文本区域自动提取
  • 3.2.1 彩色边缘检测与二值化
  • 3.2.2 八邻域细小区域去除算法
  • 3.2.3 最小外接矩形提取方法
  • 3.2.4 文本区域筛选
  • 3.2.5 实验及分析
  • 3.3 基于HLAC 函数的边缘特征提取
  • 3.3.1 HLAC 函数
  • 3.3.2 HLAC 特征提取方法
  • 3.3.3 基于HLAC特征的SVM分类器
  • 3.3.4 实验及分析
  • 3.4 本章小结
  • 第四章 基于条件互信息的特征选择方法
  • 4.1 引言
  • 4.2 特征交互
  • 4.2.1 特征交互的信息度量
  • 4.2.2 特征交互类型
  • 4.3 分类冗余特征
  • 4.4 基于条件互信息的特征选择算法CMIFS
  • 4.4.1 信息度量准则
  • 4.4.2 CMIFS算法描述
  • 4.4.3 时间复杂度分析
  • 4.5 实验及分析
  • 4.5.1 实验一:标准数据集实验
  • 4.5.2 实验二:邮件图像数据集实验
  • 4.6 本章小结
  • 第五章 基于图的半监督特征选择方法
  • 5.1 引言
  • 5.2 半监督LAPLACIAN分值函数
  • 5.2.1 图的Laplacian
  • 5.2.2 半监督的s-Laplacian分值函数
  • 5.2.3 构建邻接矩阵
  • 5.3 半监督特征选择算法GSFS
  • 5.3.1 冗余特征去除
  • 5.3.2 GSFS算法
  • 5.4 实验及分析
  • 5.4.1 实验一:标准数据集实验
  • 5.4.2 实验二:邮件图像数据集实验
  • 5.5 本章小结
  • 第六章 垃圾图像识别方法在邮件过滤系统中的应用
  • 6.1 垃圾邮件防火墙AONE整体设计
  • 6.1.1 系统部署
  • 6.1.2 系统组成
  • 6.2 图像分类子系统
  • 6.2.1 子系统结构
  • 6.2.2 模型学习
  • 6.2.3 模型预测
  • 6.3 系统测试及分析
  • 6.3.1 测试数据集
  • 6.3.2 系统设置
  • 6.3.3 测试结果
  • 6.4 本章小结
  • 第七章 结束语
  • 致谢
  • 参考文献
  • 攻博期间取得的研究成果
  • 相关论文文献

    • [1].基于大数据分析的混合属性图像冗余特征聚类系统设计[J]. 现代电子技术 2020(13)
    • [2].大数据集合中冗余特征排除的聚类算法设计[J]. 现代电子技术 2018(14)
    • [3].删冗系统数据冗余特征挖掘[J]. 小型微型计算机系统 2014(10)
    • [4].一种用于文本分类的去冗余特征选择新方法(英文)[J]. Frontiers of Information Technology & Electronic Engineering 2018(02)
    • [5].优化K均值聚类在冗余特征剔除中的应用研究[J]. 计算机与数字工程 2019(11)
    • [6].面向分类的流特征在线特征选择算法[J]. 电子学报 2020(02)
    • [7].基于遗传算法的入侵检测特征选择[J]. 计算机应用研究 2012(04)
    • [8].基于Lasso与RFE特征消除的RVM旋转机械故障预测[J]. 计算机工程与应用 2018(08)
    • [9].基于SVM和优化特征集的MicroRNA靶标预测[J]. 生物医学工程学杂志 2013(06)
    • [10].基于遗传算法的多任务学习[J]. 计算机科学 2008(10)
    • [11].基于冗余分析的特征选择算法[J]. 北京邮电大学学报 2017(01)
    • [12].基于特征聚类集成技术的组特征选择方法[J]. 微型机与应用 2014(11)
    • [13].异常流量检测中的特征选择[J]. 计算机工程与应用 2010(28)
    • [14].基于特征选择的K-means聚类异常检测方法[J]. 网络安全技术与应用 2018(04)
    • [15].利用近似马尔科夫毯的最大相关最小冗余特征选择算法[J]. 西安交通大学学报 2018(10)
    • [16].应用于入侵取证的改进信息增益算法[J]. 计算机应用 2011(08)
    • [17].高维特征选择方法在近红外光谱分类中的应用[J]. 红外与激光工程 2013(05)
    • [18].基于数据对称打包的云计算并行核心失败校验缓解[J]. 微电子学与计算机 2017(05)
    • [19].一种基于中值思想的改进人脸识别方法[J]. 现代电子技术 2013(02)
    • [20].基于特征选择的洪水聚类分析[J]. 人民黄河 2011(12)
    • [21].基于ENCODER_ATT机制的远程监督关系抽取[J]. 广西师范大学学报(自然科学版) 2019(04)
    • [22].粗糙集在犯罪信息中的应用[J]. 智能计算机与应用 2016(05)
    • [23].基于改进SVM的网络流量分类方法研究[J]. 仪器仪表学报 2011(07)
    • [24].基于特征融合与冗余剔除的普洱茶种类电子鼻识别方法[J]. 江苏农业科学 2020(16)
    • [25].改进的深度置信网络分类算法研究[J]. 计算机科学与探索 2019(04)
    • [26].基于稳定区域梯度方向直方图的行人检测方法[J]. 计算机辅助设计与图形学学报 2012(03)
    • [27].适合于入侵检测的分步特征选择算法[J]. 计算机工程与应用 2010(11)
    • [28].基于Re-FCBF的入侵特征选择算法研究[J]. 激光杂志 2016(01)
    • [29].基于侧抑制频谱调谐的显著性检测方法[J]. 计算机科学 2011(12)
    • [30].一种改进的多阶段ReliefF特征选择算法[J]. 信息与电脑(理论版) 2019(16)

    标签:;  ;  ;  ;  

    垃圾图像特征提取与选择研究
    下载Doc文档

    猜你喜欢