论文摘要
随着人类收集和存储数据能力的不断增长以及计算机运算能力的飞速发展,利用计算机来分析数据的要求越来越广泛和迫切,使得机器学习的重要性越来越显著。多示例学习是一种新的机器学习方法,近年来逐渐成为机器学习领域关注的一个研究热点。它有别于传统的有监督学习、无监督学习和近年来提出的半监督学习方法,被认为是一种新的学习框架。在多示例学习中,训练集由若干个具有标签的包组成,每个包含有若干个没有标签的示例。若一个包中至少有一个示例为正类,则该包被标记为正包;若一个包中所有示例都为负类,则该包被标记为负包。希望学习系统通过对训练包的学习,能够正确预测出新包的标签。由于它的训练样本的层次性表示结构,相较于平板式的单样本属性对表示,更能反映一些现实问题的逻辑结构,使得它在区分“粗标签”对象上具有独特的优势,已经得到广泛的应用,例如:药物活性分子预测,图像检索、分类和标注,文本分类,蛋白质家族预测,目录网页和链接推荐、计算机安全、计算机辅助医学诊断等领域。本文在分析了多示例学习算法国内外研究现状和目前仍存在问题的基础上,对多示例学习算法中依赖于单个示例、包特征的构造、包特征的降维、并行算法进行研究,提出了几个多示例学习算法,并把它们应用于图像检索和分类。主要研究成果如下:1、针对已有的多示例学习算法应用于图像检索时存在依赖于单个示例和耗时较长的缺陷,本章提出一个基于多示例学习和贝叶斯分类的图像检索方法(MIL-Bayesian)。首先,将每幅图像分割成多个区域,把图像看作多示例学习中的包,区域看作为包中的示例;其次,计算所有图像中每个区域的多样性密度(DD)函数值,提取出可能的正区域组成一个集合,使用高斯混合函数逼近估计正区域的类条件概率密度;接着,使用贝叶斯分类器为每幅图像计算一个相对于正类图像的后验概率,并根据后验概率值大小排序返回给用户;最后,经过几轮的用户相关反馈后,用户得到一组满意的图像。在Corel图像集上的实验表明,提出的方法具有好的检索精度和高的检索效率。2、针对多示例学习中构造包特征依赖于少数示例特征的缺陷和缩窄图像的低级特征表示与高级概念之间的语义鸿沟,本章利用密度聚类获得的簇分布信息和多示例学习框架在区分歧义性对象上的特点,提出一个基于区域特征密度聚类和多示例学习的图像分类方法(DCRF-MIL)。该方法首先将每个图像分割为多个区域,将所有区域组成一个集合,在这个区域集合上,使用密度聚类算法学习到区域特征的簇分布信息;其次,将图像看作包,区域看作包中的示例,基于区域特征的簇分布信息,将包映射为簇分布空间上的一个向量作为包的特征,使得包特征带有图像区域的语义信息;最后,使用支持向量机算法,在带有包特征的训练集上训练分类器,对测试图像进行分类。在Corel图像集和MUSK分子活性预测数据集上的实验表明,DCRF-MIL算法具有分类精度高和参数易于选择等特点。3、针对多示例学习中变换示例空间后获得的包特征的高维问题,本章提出一个基于多个子空间集成的多示例学习算法(MSEMIL),和它的并行实现算法(PMSEMIL)。该方法首先将多示例学习中的包,向所有示例组成的示例空间映射得到一个包特征;其次,通过融合bagging法选取训练样本子集和随机选取特征子集的方法,将训练集和测试集划分成多个子空间,在每个子空间上训练一个半监督子分类器;随后,通过集成策略合并多个子分类器的分类结果,得到一个多示例学习集成分类器。最后,在机群计算系统上,应用基于Java的分布式并行计算中间件ProActive,实现这个集成分类器的并行算法。在MUSK和Corel数据集上的实验表明,与其它同类算法相比,MSEMIL具有分类精度高、对标签噪声健壮的特点。实验还表明,PMSEMIL具有小的计算耗时和较高的加速比等特点。