基于Hadoop的SVM的设计和实现

基于Hadoop的SVM的设计和实现

论文摘要

支持向量(Support Vector Machine, SVM)是数据挖掘中基于统计学习的分类算法,其优点体现在很少出现过度拟合、对于特征过多造成维数灾难不明显、收敛解是全局最优解以及灵活运用核函数特点,但SVM无法适用于大样本系统,在使用SVM对较大数据集进行分类训练时,训练速度特别慢,无法在有效的时间内得到训练结果或者训练模型;尤其是对于针对大规模数据集进行分类训练并进行预测时,其得到训练模型的代价是十分高昂的。针对大规模数据集处理,并行处理是一种提高数据处理的有效方法,基于Hadoop的并行存储处理数据是目前处理大规模数据集的一种可行的方案,并行处理SVM是指将数据集划分成子数据集的方式来迭代训练这些数据集以及由于数据集训练得到的支持向量进行逐次训练得到SVM训练的训练模型。本论文结合Hadoop的分布式存储以及并行计算的特点来设计和实现基于Hadoop的并行SVM训练,在不降低训练精度的情况下改善SVM针对大数据的训练时间效率。本论文解决的几个主要问题是首先是需要应对极端情况对数据集进行简单预处理,使得SVM训练集各个类别的数据分布比较均匀,来避免在Hadoop上训练SVM时在极端情况下不能得到训练结果的情况;其次是基于Hadoop的并行SVM训练是通过迭代的方式去训练的,所以需要使用相应的迭代停止条件去结束并行SVM训练算法的训练,本文结合停机准则条件去设计和实现判断整个并行SVM的训练进度:其他的问题则由于Hadoop的MapReduce本身的计算特点,即Map和Reduce计算都是只能处理一条记录以及迭代过程中会出现上一次结果的输出为下一次的输入,导致需要解决重新设计散列、在训练数据集上添加额外信息、转换输出格式以及指定特定的输出文件或文件夹等问题。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  • 1.1 研究出发点
  • 1.2 研究背景
  • 1.3 本文章节安排
  • 第2章 数据挖掘与分类算法
  • 2.1 数据挖掘
  • 2.1.1 数据挖掘概念
  • 2.1.2 数据挖掘的任务分类
  • 2.1.3 数据挖掘准备工作
  • 2.2 数据挖掘的分类算法
  • 2.2.1 分类算法概念
  • 2.2.2 分类算法过程
  • 2.2.3 分类结果的评估
  • 第3章 支持向量机
  • 3.1 VC维
  • 3.2 结构风险最小化
  • 3.3 支持向量机
  • 3.3.1 线性可分
  • 3.3.2 线性不可分
  • 3.4 停机准则
  • 3.5 支持向量机多分类
  • 3.5.1 一类对余类
  • 3.5.2 一对一分类
  • 3.6 支持向量机特点
  • 第4章 云计算平台-Hadoop
  • 4.1 Hadoop
  • 4.2 HDFS
  • 4.3 MapReduce
  • 第5章 基于Hadoop的SVM
  • 5.1 单机SVM
  • 5.2 并行SVM
  • 5.3 迭代停止条件
  • 5.4 数据集划分
  • 5.5 自定义MapReduce
  • 5.6 基于Hadoop的SVM实现
  • 5.7 算法描述和试验结果
  • 5.8 系统设计和实现
  • 5.9 系统界面
  • 第6章 结论和展望
  • 6.1 结论
  • 6.2 展望
  • 参考文献
  • 致谢
  • 相关论文文献

    • [1].六个全球历史土地覆盖数据集数据来源的对比分析[J]. 北京师范大学学报(自然科学版) 2019(06)
    • [2].基于多数据集动态潜变量的在线性能分级评估方法[J]. 控制理论与应用 2020(03)
    • [3].代表性人口空间分布数据集的精度评价——以2010年广东省为例[J]. 热带地理 2020(02)
    • [4].高速公路场景下基于深度学习的数据集建立[J]. 数字技术与应用 2020(02)
    • [5].构建图形图像数据集的方法概述[J]. 计算机产品与流通 2020(08)
    • [6].多国议会数据集及平台建设研究[J]. 情报工程 2020(02)
    • [7].国际主要科学数据集检索平台对比研究[J]. 情报工程 2020(01)
    • [8].实验室化学品纯化方法数据集[J]. 中国科学数据(中英文网络版) 2020(02)
    • [9].化学药物数据集[J]. 中国科学数据(中英文网络版) 2019(01)
    • [10].中亚地区陆表物候逐年数据集(1982–2015)[J]. 全球变化数据学报(中英文) 2020(01)
    • [11].南京百年人物数据集[J]. 中国科学数据(中英文网络版) 2020(03)
    • [12].替代计量学视角下科学数据集价值的定量测度研究[J]. 情报理论与实践 2020(09)
    • [13].数据集采器在临床护理工作中的应用价值探讨[J]. 基层医学论坛 2017(12)
    • [14].医院感染监测基本数据集的建立及作用[J]. 中华医院感染学杂志 2016(11)
    • [15].TextGen:用于新型存储系统基准测试的真实文本数据集生成方法(英文)[J]. Frontiers of Information Technology & Electronic Engineering 2016(10)
    • [16].卫星气候数据集的应用研究与发展分析[J]. 地球信息科学学报 2015(11)
    • [17].用于生命之树重建的数据集[J]. 中国科学数据(中英文网络版) 2017(03)
    • [18].中国有毒动物数据集[J]. 中国科学数据(中英文网络版) 2017(04)
    • [19].基于次序依赖的电力数据集修复[J]. 电测与仪表 2019(24)
    • [20].粤港澳湾区1:50000斗门镇幅工程地质调查及岩土样品试验数据集[J]. 中国地质 2019(S2)
    • [21].全集水网数据集更新方法研究[J]. 经纬天地 2020(01)
    • [22].智能城市产业资讯汇总[J]. 智能城市 2020(11)
    • [23].基于神经网络的机器阅读理解综述[J]. 软件学报 2020(07)
    • [24].2002–2010年中国典型生态系统辐射及光能利用效率数据集[J]. 中国科学数据(中英文网络版) 2019(01)
    • [25].基于镶嵌数据集的海量数据存储管理——以青海湖流域为例[J]. 地球环境学报 2013(04)
    • [26].基于数据集相似性的分类算法推荐[J]. 计算机应用与软件 2016(08)
    • [27].数字数据集揭示文化遗产促进城市可持续发展[J]. 世界遗产 2016(05)
    • [28].洞庭湖区堤垸1949—2013空间分布数据集[J]. 全球变化数据学报(中英文) 2017(01)
    • [29].云南省标准化降水蒸散指数数据集(1998-2012)[J]. 全球变化数据学报(中英文) 2017(04)
    • [30].1979~1998年工业腐蚀失效分析数据集[J]. 中国科学数据(中英文网络版) 2017(01)

    标签:;  ;  ;  

    基于Hadoop的SVM的设计和实现
    下载Doc文档

    猜你喜欢