基于样例池类标改变率的主动学习算法终止准则研究

论文摘要

主动学习是机器学习的一个研究的热点。当训练集样例特别少,而且获得无类标样例的类别需要付出很大代价时,通过主动学习方法再进可能减少标注代价下获得一个性能较好的学习器,该方法已被广泛应用到图像检索、文档分类、蛋白质结构分析等各个应用研究领域中。很多专家和学者致力于主动学习选择样例策略的研究,即从不同的方面对主动学习策略进行研究与改进,但由于学习器的性能与标注样例数目之间并非呈线性增长关系,即并非标注的样例数目越多,得到的学习器越好。如何在学习器性能和标注样例数目之间取得一个很好的折中,是本论文所研究的问题。本论文通过引入样例池中样例类标的改变率因子作为判断学习器的学习能力。若样例池中样例类标变化率较大,则说明学习器的学习能力较强,有待于进一步完善;而当样例池中样例类标变化率较小时,则说明该学习器的性能达到了较好的水平。当样例池中样例类标改变率小于某个预定的阈值时,则认为此时学习器性能较稳定且达到了一定的预测能力,此时终止算法,不再标注样例。我们在UCI数据集上的实验结果显示,基于样例池类标改变率的主动学习终止策略确实能够选择在选择较少样例的情况下获得一个较好的学习器。

论文目录

摘要

Abstract

第1章绪论

1.1 研究背景与意义

1.2 国内外研究现状

1.2.1 训练集规模终止准则

1.2.2 最大不确定性终止准则

1.2.3 整体不确定性终止准则

1.2.4 选择精度终止准则

1.2.5 最小期望误差终止准则

1.3 研究内容

第2章主动学习简介

2.1 主动学习历史背景

2.2 主动学习与被动学习

2.3 主动学习过程与算法介绍

2.4 基于池的主动学习算法

2.4.1 基于版本空间缩减的主动学习算法

2.4.2 基于期望误差缩减的主动学习算法

2.4.3 基于不确定性缩减的主动学习算法

第3章决策树

3.1 决策树简介

3.2 分割属性选择

3.3 ID3 算法

3.4 模糊决策树

第4章基于样例池类标改变率的主动学习终止策略

4.1 问题提出

4.2 问题分析

4.3 算法描述

4.4 算法简化

4.5 实验分析

第5章总结与展望

5.1 本文总结

5.2 工作展望

参考文献

致谢

攻读学位期间取得的科研成果

基于样例池类标改变率的主动学习算法终止准则研究

论文摘要

论文目录

相关论文文献

猜你喜欢