基于Hadoop的健康物联网数据挖掘算法研究与实现

基于Hadoop的健康物联网数据挖掘算法研究与实现

论文摘要

医疗卫生体系的发展水平直接关系到人民群众的身心健康和中国梦的实现,是全社会关注的热点。在如今医疗改革的关键时期,应紧密结合物联网和云计算技术,切实加强医疗健康领域的信息化水平。健康物联网旨在通过先进的感知技术实现医疗信息的准确、实时感知,通过便捷全方位的通信技术实现医疗健康领域的互联互通,通过高效的数据处理技术实现医疗健康信息的全面、科学分析和预测。健康物联网数据处理总体流程是通过接收健康物联网智能采集终端的海量异构数据,对数据进行分布式存储,过滤进而对其进行分布式数据挖掘,让医学专家更有效的对病情进行分析。基于Hadoop平台对健康物联网数据进行处理挖掘时,本文首先对Hadoop源码进行研究,设计实现了分布式数据清洗算法以过滤冗余数据;接着重点研究设计了若干分布式数据挖掘算法,并对这些分布式算法进行了正确性验证。通过对这些算法的设计实现,可以为上层的健康服务应用提供良好的预测模型。对生理数据进行分布式数据挖掘时,首先分析了分布式聚类算法,又结合了蚁群的核心思想设计实现了基于Hadoop的分布式DKBAC(Distributed Kmeans Based on Ant Clustering)聚类算法。本文对病理信息数据进行聚类,通过实验将DKBAC算法与相关分布式聚类算法在准确率、平均查全率及时间效率等性能指标上做了比较和分析。为满足健康物联网各种预测分析的需要,需研究实现更多数据挖掘算法和模型,本文主要研究了基于Hadoop的分布式随机森林分类算法与分布式关联规则算法,并对算法进行具体的分布式设计,将其在Hadoop下进行部署实现并与相关算法进行了性能指标的比较和分析。通过研究实现这些主要的分布式数据挖掘算法,本文总结出分布式数据挖掘算法的一般设计原则及适用范围,为后续实现更多健康物联网分布式数据挖掘算法指明了万向。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究背景和意义
  • 1.2 国内外研究现状
  • 1.3 本文主要研究内容及贡献
  • 1.4 论文组织结构及课题来源
  • 第2章 健康物联网及相关技术概述
  • 2.1 健康物联网及其体系结构
  • 2.2 健康物联网中间件
  • 2.3 健康物联网感知层技术
  • 2.4 Hadoop及相关子模块概述
  • 2.4.1 分布式文件系统HDFS
  • 2.4.2 分布式编程模型MapReduce
  • 2.4.3 分布式数据仓库Hive
  • 2.4.4 Sqoop技术
  • 2.5 数据挖掘算法
  • 2.6 本章小结
  • 第3章 健康物联网数据处理总体流程和设计
  • 3.1 健康物联网数据处理的总体流程
  • 3.2 异构数据加载转换设计
  • 3.3 分布式数据清洗算法设计
  • 3.3.1 数据清洗的MR模型流程分析
  • 3.3.2 基于MR的数据清洗算法设计
  • 3.3.3 基于Hive的数据清洗设计
  • 3.4 分布式数据挖掘算法设计
  • 3.4.1 健康物联网数据挖掘的必要性
  • 3.4.2 数据挖掘模块算法设计与分析
  • 3.5 本章小结
  • 第4章 基于Hadoop的DKBAC聚类算法设计与实现
  • 4.1 蚁群算法机制原理
  • 4.2 基于蚁群的KBAC聚类算法
  • 4.3 DKBAC聚类算法的正确性验证
  • 4.4 基于MapReduce的DKBAC算法的具体实现
  • 4.4.1 DKBAC算法中MapReduce任务的模型结构
  • 4.4.2 统计蚁群信息素阶段的设计与实现
  • 4.4.3 蚁群信息素聚类的设计与实现
  • 4.4.4 统计更新聚类中心阶段的设计与实现
  • 4.5 本章小结
  • 第5章 基于Hadoop的数据挖掘算法设计与研究
  • 5.1 分布式随机森林算法设计与研究
  • 5.1.1 随机森林算法
  • 5.1.2 基于Hadoop的分布式随机森林算法设计
  • 5.1.3 分布式随机森林算法的评价分析
  • 5.2 基于Hadoop的分布式关联规则算法设计与研究
  • 5.2.1 FP-Growth算法
  • 5.2.2 基于Hadoop的分布式FP-Growth算法设计
  • 5.2.3 分布式关联规则算法的评价分析
  • 5.3 相关分布式数据挖掘算法及设计原则
  • 5.3.1 基于Hadoop的其他分布式数据挖掘算法
  • 5.3.2 基于Hadoop的数据挖掘算法设计原则
  • 5.4 本章小结
  • 第6章 实验部署及结果分析
  • 6.1 Hadoop实验平台搭建
  • 6.1.1 软硬件环境
  • 6.1.2 Hadoop数据处理平台搭建及部署
  • 6.2 数据清洗算法测试结果
  • 6.2.1 异常过滤清洗效果
  • 6.2.2 时间过滤清洗效果
  • 6.2.3 相似度过滤清洗效果
  • 6.3 分布式数据挖掘算法的性能指标
  • 6.4 DKBAC数据聚类结果及分析
  • 6.4.1 分布式聚类结果分析
  • 6.4.2 分布式聚类算法的复杂度分析
  • 6.5 并行随机森林分类及关联规则结果分析
  • 6.5.1 基于Hadoop的随机森林算法测试分析
  • 6.5.2 基于Hadoop的FP-Growth算法测试分析
  • 6.6 本章小结
  • 第7章 总结与展望
  • 7.1 工作总结
  • 7.2 工作展望
  • 参考文献
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  

    基于Hadoop的健康物联网数据挖掘算法研究与实现
    下载Doc文档

    猜你喜欢