多示例学习算法及其应用研究

论文摘要

随着人类收集和存储数据能力的不断增长以及计算机运算能力的飞速发展，利用计算机来分析数据的要求越来越广泛和迫切，使得机器学习的重要性越来越显著。多示例学习是一种新的机器学习方法，近年来逐渐成为机器学习领域关注的一个研究热点。它有别于传统的有监督学习、无监督学习和近年来提出的半监督学习方法，被认为是一种新的学习框架。在多示例学习中，训练集由若干个具有标签的包组成，每个包含有若干个没有标签的示例。若一个包中至少有一个示例为正类，则该包被标记为正包；若一个包中所有示例都为负类，则该包被标记为负包。希望学习系统通过对训练包的学习，能够正确预测出新包的标签。由于它的训练样本的层次性表示结构，相较于平板式的单样本属性对表示，更能反映一些现实问题的逻辑结构，使得它在区分“粗标签”对象上具有独特的优势，已经得到广泛的应用，例如：药物活性分子预测，图像检索、分类和标注，文本分类，蛋白质家族预测，目录网页和链接推荐、计算机安全、计算机辅助医学诊断等领域。本文在分析了多示例学习算法国内外研究现状和目前仍存在问题的基础上，对多示例学习算法中依赖于单个示例、包特征的构造、包特征的降维、并行算法进行研究，提出了几个多示例学习算法，并把它们应用于图像检索和分类。主要研究成果如下：1、针对已有的多示例学习算法应用于图像检索时存在依赖于单个示例和耗时较长的缺陷，本章提出一个基于多示例学习和贝叶斯分类的图像检索方法（MIL-Bayesian）。首先，将每幅图像分割成多个区域，把图像看作多示例学习中的包，区域看作为包中的示例；其次，计算所有图像中每个区域的多样性密度（DD）函数值，提取出可能的正区域组成一个集合，使用高斯混合函数逼近估计正区域的类条件概率密度；接着，使用贝叶斯分类器为每幅图像计算一个相对于正类图像的后验概率，并根据后验概率值大小排序返回给用户；最后，经过几轮的用户相关反馈后，用户得到一组满意的图像。在Corel图像集上的实验表明，提出的方法具有好的检索精度和高的检索效率。2、针对多示例学习中构造包特征依赖于少数示例特征的缺陷和缩窄图像的低级特征表示与高级概念之间的语义鸿沟，本章利用密度聚类获得的簇分布信息和多示例学习框架在区分歧义性对象上的特点，提出一个基于区域特征密度聚类和多示例学习的图像分类方法（DCRF-MIL）。该方法首先将每个图像分割为多个区域，将所有区域组成一个集合，在这个区域集合上，使用密度聚类算法学习到区域特征的簇分布信息；其次，将图像看作包，区域看作包中的示例，基于区域特征的簇分布信息，将包映射为簇分布空间上的一个向量作为包的特征，使得包特征带有图像区域的语义信息；最后，使用支持向量机算法，在带有包特征的训练集上训练分类器，对测试图像进行分类。在Corel图像集和MUSK分子活性预测数据集上的实验表明，DCRF-MIL算法具有分类精度高和参数易于选择等特点。3、针对多示例学习中变换示例空间后获得的包特征的高维问题，本章提出一个基于多个子空间集成的多示例学习算法（MSEMIL），和它的并行实现算法（PMSEMIL）。该方法首先将多示例学习中的包，向所有示例组成的示例空间映射得到一个包特征；其次，通过融合bagging法选取训练样本子集和随机选取特征子集的方法，将训练集和测试集划分成多个子空间，在每个子空间上训练一个半监督子分类器；随后，通过集成策略合并多个子分类器的分类结果，得到一个多示例学习集成分类器。最后，在机群计算系统上，应用基于Java的分布式并行计算中间件ProActive，实现这个集成分类器的并行算法。在MUSK和Corel数据集上的实验表明，与其它同类算法相比，MSEMIL具有分类精度高、对标签噪声健壮的特点。实验还表明，PMSEMIL具有小的计算耗时和较高的加速比等特点。

论文目录

摘要

ABSTRACT

图索引

表索引

第一章绪论

1.1 课题的研究背景及意义

1.2 多示例学习的国内外研究现状

1.2.1 轴平行矩形（APR）算法

1.2.2 基于概率统计类的 MIL 算法

1.2.3 “算法适应”类的 MIL 算法

1.2.4 “问题转换”类的 MIL 算法

1.2.5 其他的 MIL 算法

1.2.6 一些比较重要的 MIL 文献

1.2.7 需要进一步研究的问题

1.3 论文的主要研究内容

1.4 本文的组织结构

第二章多示例学习的研究概述

2.1 多示例学习（MIL）的概念和数学描述

2.1.1 多示例学习的概念

2.1.2 多示例学习的数学描述

2.2 多示例学习与传统的有监督学习的区别

2.3 经典的多示例学习算法的介绍

2.4 多示例学习算法应用于图像检索和分类

2.5 小结

第三章基于多示例学习和贝叶斯分类器的图像检索方法

3.1 引言

3.2 相关工作研究

3.2.1 贝叶斯分类器

3.2.2 图像的特征表示

3.3 基于多示例学习和贝叶斯分类的图像检索方法（MIL-Bayesian）

3.3.1 图像分割与特征提取

3.3.2 计算包中每个示例的 DD 函数值，选取出可能的正示例组成一个集合

3.3.3 使用高斯混合函数去逼近估计正示例的类条件概率密度

3.3.4 贝叶斯分类器

3.3.5 相关反馈技术

3.4 实验结果与分析

3.4.1 在 Corel 2000 数据集上的图像检索

3.4.2 在 MUSK 数据集上的药物分子预测分类

3.5 小结

第四章基于密度聚类和多示例学习的图像分类方法

4.1 引言

4.2 相关工作研究

4.2.1 多示例学习

4.3 DCRF-MIL 算法

4.3.1 图像分割和特征提取

4.3.2 区域特征密度聚类

4.3.3 构造包的特征

4.3.4 SVM 分类器

4.3.5 DCRF-MIL 算法描述

4.4 实验结果与分析

4.4.1 DCRF-MIL 算法在 Corel 图像库上的分类精度

4.4.2 附加的第 10 维特征、密度聚类参数邻域半径、训练图像数对 DCRF-MIL 算法分类精度的影响

4.4.3 DCRF-MIL 算法在 MUSK 数据集上的分类精度

4.5 小结

第五章基于子空间集成的多示例学习并行算法

5.1 引言

5.2 相关工作研究

5.2.1 集成学习

5.2.2 半监督学习

5.2.3 分布式并行中间件 ProActive

5.3 基于多个子空间集成的多示例学习分类器（MSEMIL）

5.3.1 生成包特征

5.3.2 生成 T 个子空间

5.3.3 在每个子空间上构造一个基础子分类器

5.3.4 合并子分类器的分类结果

5.3.5 MSEMIL 算法描述

5.3.6 算法复杂度分析

MSEMIL）'>5.4 多示例集成分类器（MSEMIL）的并行算法（P_MSEMIL）

MSEMIL 并行算法的思想'>5.4.1 P_MSEMIL 并行算法的思想

MSEMIL 并行算法的实现'>5.4.2 P_MSEMIL 并行算法的实现

5.5 实验结果与分析

5.5.1 MSEMIL 算法与其它 MIL 算法的分类精度比较

5.5.2 子空间参数、集成策略、“噪声”数据对 MSEMIL 的分类精度影响

MSEMIL 并行算法的计算耗时和加速比'>5.5.3 P_MSEMIL 并行算法的计算耗时和加速比

5.6 小结

总结和展望

参考文献

攻读博士/硕士学位期间取得的研究成果

致谢

附件

多示例学习算法及其应用研究

论文摘要

论文目录

相关论文文献

猜你喜欢