论文摘要
主动学习是机器学习的一个研究的热点。当训练集样例特别少,而且获得无类标样例的类别需要付出很大代价时,通过主动学习方法再进可能减少标注代价下获得一个性能较好的学习器,该方法已被广泛应用到图像检索、文档分类、蛋白质结构分析等各个应用研究领域中。很多专家和学者致力于主动学习选择样例策略的研究,即从不同的方面对主动学习策略进行研究与改进,但由于学习器的性能与标注样例数目之间并非呈线性增长关系,即并非标注的样例数目越多,得到的学习器越好。如何在学习器性能和标注样例数目之间取得一个很好的折中,是本论文所研究的问题。本论文通过引入样例池中样例类标的改变率因子作为判断学习器的学习能力。若样例池中样例类标变化率较大,则说明学习器的学习能力较强,有待于进一步完善;而当样例池中样例类标变化率较小时,则说明该学习器的性能达到了较好的水平。当样例池中样例类标改变率小于某个预定的阈值时,则认为此时学习器性能较稳定且达到了一定的预测能力,此时终止算法,不再标注样例。我们在UCI数据集上的实验结果显示,基于样例池类标改变率的主动学习终止策略确实能够选择在选择较少样例的情况下获得一个较好的学习器。