论文摘要
朴素贝叶斯算法(Naive Bayes)是一种基于统计理论的分类算法,其在各种分类任务中有着广泛的应用。针对当前需要对海量的数据进行分类和用于训练的带标记的样本数据非常匮乏等问题,本文选取了文本分类任务作为应用场景,然后对朴素贝叶斯分类算法、半监督学习算法与MapReduce分布式计算模型展开研究,论文的主要工作有:首先,本文介绍了云计算技术的背景和现状。其中本文详细讨论了开源的Hadoop分布式计算系统和MapReduce分布式计算模型,特别是对其分布式原理进行了的解释,同时介绍了基于Hadoop系统的两个分布式数据库系统——Hive项目和HBase项目;其次,本文分析了当前基于朴素贝叶斯算法的几种分类方法,并根据各个方法的特点选择了一种比较适合与MapReduce分布式计算模型相结合从而应用于海量数据的半监督的朴素贝叶斯算法,本文将该算法与MapReduce分布式计算模型相结合提出了一种并行化的半监督的朴素贝叶斯分类算法。然后本文将该算法应用于真实的文本数据,并对实验结果进行了分析,从实验结果可以看出该算法可以有效地应对海量的文本数据,同时利用无标记的文本提高分类器的分类性能;最后,本文介绍了一个基于Hadoop分布式平台的面向海量数据的挖掘工具——Dodo工具箱的设计,本文将会介绍如何使用该工具箱的各项功能、该工具箱的设计开发过程及其技术细节与创新点。
论文目录
摘要Abstract第一章 绪论1.1 引言1.2 云计算及并行计算技术1.3 朴素贝叶斯算法应用于文本分类任务1.4 数据挖掘工具1.5 本文的主要内容及意义1.6 本文组织第二章 云计算技术2.1 Hadoop的起源及其发展过程2.2 HDFS分布式文件系统2.2.1 HDFS的愿景和目标2.2.2 HDFS的系统架构2.2.3 HDFS系统的高容错性2.3 MapReduce分布式编程模型2.3.1 MapReduce编程模型概述2.3.2 编程模型的架构2.3.3 Hadoop的MapReduce编程模型的特点2.4 两个基于Hadoop的分布式应用2.4.1 HBase简介2.4.2 Hive项目2.5 本章小结第三章 一种并行化的半监督朴素贝叶斯分类算法3.1 贝叶斯学习与朴素贝叶斯分类器3.2 两种基于半监督学习的朴素贝叶斯算法3.2.1 基于EM的半监督朴素贝叶斯文档分类算法3.2.2 一种不基于EM的半监督朴素贝叶斯分类算法3.3 并行化的半监督朴素贝叶斯算法——PSNB3.3.1 PSNB-算法总体框架3.3.2 PSNB-MR训练阶段算法描述3.3.3 PSNB-构造分类器及预测阶段描述3.4 实验设计与运行过程3.4.1 实验环境3.4.2 选用的数据集及其格式3.4.3 实验运行过程3.5 算法运行结果及其分析3.5.1 准确度比较3.5.2 训练时间分析3.6 本章小结第四章 面向海量数据的数据挖掘工具的设计与开发4.1 Dodo工具箱的需求分析与目标4.1.1 从传统数据挖掘工具到Dodo工具箱4.1.2 Dodo工具箱的需求分析4.1.3 Dodo工具箱的目标4.2 在Dodo工具箱中应用PSNB算法4.2.1 启动/置Hadoop4.2.2 上传数据集4.2.3 选择PSNB算法/置参数4.2.4 提交任务/取结果4.3 Dodo工具箱的总体架构与设计细节4.3.1 Dodo工具箱的总体架构4.3.2 集群控制模块4.3.3 数据集管理模块4.3.4 算法管理模块4.3.5 任务管理及可视化模块4.4 Dodo工具箱所应用的关键技术及创新点4.4.1 为Hadoop系统提供图形化界面4.4.2 为大数据建立元数据管理系统4.4.3 将常用的数据挖掘算法并行化4.4.4 应用MVC编程架构来开发软件4.5 本章小结第五章 总结与展望5.1 总结5.2 展望参考文献攻读硕士学位期间完成的学术成果攻读硕士学位期间参与的科研课题致谢
相关论文文献
标签:朴素贝叶斯论文; 分布式计算论文; 数据挖掘论文;