数据流特征选择策略的研究

数据流特征选择策略的研究

论文摘要

随着信息技术尤其是网络技术的发展,越来越多的应用领域,如网络监控、垃圾邮件分类、传感器网络等,需要对其以每天数以百万Gbit增长的流数据进行实时处理。由于流数据经常呈现高维性,包含着大量无关特征和冗余特征,当对其进行直接处理时,有可能极大地影响学习算法的效率。利用属性相关性进行特征选择,消除无关特征和冗余特征,可以提高挖掘算法的效率,改善精确性等学习性能。然而,数据流的实时性、无限性以及概念漂移特点,也对传统的特征降维算法提出了严峻的挑战。针对数据流的这些特点,寻找适合于数据流的数据结构,研究有效度量属性相关性的方法对流数据进行降维,这已经成为目前数据流研究的一个热点。首先,本文深入探讨了特征选择的相关技术,研究了现有的特征选择方法在属性相关性度量方面存在的不足,结合流数据实时性,无限性、概念漂移的特点,提出了一种基于拟合的数据流特征选择算法FSCFFR,该算法可以有效地消除流数据中的冗余特征,提高了学习算法的性能。其次,本文针对数据流实时性的要求,提出了采用并行计算进行数据流特征选择的实施策略,传统的串行处理速度受限于单处理器的最大物理处理速度,而并行计算可以通过多处理器联合在一定程度上克服这种处理瓶颈。本文采用管理者/工作者模型,并在MPI环境下设计实现了两种通信策略的并行算法,实验表明,利用并行计算可以有效地提高流数据特征选择的效率和速度。最后,为了验证特征选择在实际应用场景下的表现,本文将整个处理方法运用到网络入侵检测中,对网络入侵检测系统中的数据进行在线分析处理,从而利用实际的示例验证了特征选择算法的可行性和实用性。综上所述,本文对数据流中特征选择技术的研究具有一定的现实意义,它不仅能消除流数据中的冗余特征,减小空间需求,而且能够改善学习算法的性能,提高数据挖掘的效率。另外,本文的示例验证也对相关的应用具有一定的参考价值。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 课题背景
  • 1.2 课题研究内容
  • 1.3 课题研究意义
  • 1.4 文章组织结构
  • 第二章 相关研究及其现状
  • 2.1 数据流上特征降维的应用
  • 2.2 数据流的相关概念
  • 2.2.1 数据流的定义
  • 2.2.2 数据摘要技术
  • 2.3 特征选择模型
  • 2.3.1 过滤模型( Filter Model )
  • 2.3.2 包裹模型( Wrapper Model )
  • 2.3.3 混合模型
  • 2.4 特征评价标准
  • 2.4.1 一致性度量
  • 2.4.2 相关性度量
  • 2.5 本章小结
  • 第三章 基于属性相关性的数据流特征选择算法
  • 3.1 引言
  • 3.2 相关定义及说明
  • 3.3 基于曲线拟合的属性相关性特征选择算法FSCFFR
  • 3.3.1 初始化阶段
  • 3.3.2 删除数据阶段
  • 3.3.3 增加数据阶段
  • 3.4 实验分析
  • 3.5 本章小结
  • 第四章 基于FSCFFR的并行数据流特征选择算法
  • 4.1 算法的工作模型
  • 4.2 算法的数据划分与通信策略
  • 4.2.1 数据划分
  • 4.2.2 通信策略
  • 4.3 算法的数据结构
  • 4.4 算法描述和实验分析
  • 4.4.1 算法描述
  • 4.4.2 实验分析
  • 4.5 本章小结
  • 第五章 特征选择应用示例
  • 5.1 引言
  • 5.2 系统架构
  • 5.3 实验
  • 5.3.1 实验数据简介
  • 5.3.2 数据特征描述
  • 5.3.3 实验结果分析
  • 5.4 本章小结
  • 第六章 总结与展望
  • 6.1 总结
  • 6.2 展望
  • 参考文献
  • 攻读硕士学位期间发表的论文
  • 致谢
  • 相关论文文献

    • [1].基于大数据分析的混合属性图像冗余特征聚类系统设计[J]. 现代电子技术 2020(13)
    • [2].大数据集合中冗余特征排除的聚类算法设计[J]. 现代电子技术 2018(14)
    • [3].删冗系统数据冗余特征挖掘[J]. 小型微型计算机系统 2014(10)
    • [4].一种用于文本分类的去冗余特征选择新方法(英文)[J]. Frontiers of Information Technology & Electronic Engineering 2018(02)
    • [5].优化K均值聚类在冗余特征剔除中的应用研究[J]. 计算机与数字工程 2019(11)
    • [6].面向分类的流特征在线特征选择算法[J]. 电子学报 2020(02)
    • [7].基于遗传算法的入侵检测特征选择[J]. 计算机应用研究 2012(04)
    • [8].基于Lasso与RFE特征消除的RVM旋转机械故障预测[J]. 计算机工程与应用 2018(08)
    • [9].基于SVM和优化特征集的MicroRNA靶标预测[J]. 生物医学工程学杂志 2013(06)
    • [10].基于遗传算法的多任务学习[J]. 计算机科学 2008(10)
    • [11].基于冗余分析的特征选择算法[J]. 北京邮电大学学报 2017(01)
    • [12].基于特征聚类集成技术的组特征选择方法[J]. 微型机与应用 2014(11)
    • [13].异常流量检测中的特征选择[J]. 计算机工程与应用 2010(28)
    • [14].基于特征选择的K-means聚类异常检测方法[J]. 网络安全技术与应用 2018(04)
    • [15].利用近似马尔科夫毯的最大相关最小冗余特征选择算法[J]. 西安交通大学学报 2018(10)
    • [16].应用于入侵取证的改进信息增益算法[J]. 计算机应用 2011(08)
    • [17].高维特征选择方法在近红外光谱分类中的应用[J]. 红外与激光工程 2013(05)
    • [18].基于数据对称打包的云计算并行核心失败校验缓解[J]. 微电子学与计算机 2017(05)
    • [19].一种基于中值思想的改进人脸识别方法[J]. 现代电子技术 2013(02)
    • [20].基于特征选择的洪水聚类分析[J]. 人民黄河 2011(12)
    • [21].基于ENCODER_ATT机制的远程监督关系抽取[J]. 广西师范大学学报(自然科学版) 2019(04)
    • [22].粗糙集在犯罪信息中的应用[J]. 智能计算机与应用 2016(05)
    • [23].基于改进SVM的网络流量分类方法研究[J]. 仪器仪表学报 2011(07)
    • [24].基于特征融合与冗余剔除的普洱茶种类电子鼻识别方法[J]. 江苏农业科学 2020(16)
    • [25].改进的深度置信网络分类算法研究[J]. 计算机科学与探索 2019(04)
    • [26].基于稳定区域梯度方向直方图的行人检测方法[J]. 计算机辅助设计与图形学学报 2012(03)
    • [27].适合于入侵检测的分步特征选择算法[J]. 计算机工程与应用 2010(11)
    • [28].基于Re-FCBF的入侵特征选择算法研究[J]. 激光杂志 2016(01)
    • [29].基于侧抑制频谱调谐的显著性检测方法[J]. 计算机科学 2011(12)
    • [30].一种改进的多阶段ReliefF特征选择算法[J]. 信息与电脑(理论版) 2019(16)

    标签:;  ;  ;  ;  

    数据流特征选择策略的研究
    下载Doc文档

    猜你喜欢