论文摘要
随着各种图像采集设备的普及,图像资源日益剧增。如何在大规模图像集中快速地找到并定位某个对象,是实际应用中需要解决的技术难题。对象定位技术一直是多媒体技术领域的热点,但针对现实应用中的图像资源往往具有数量大、类别多的特点,一直缺乏高效的解决方案。目前对象定位技术的相关研究比较多,主流的技术均基于滑动窗口或霍夫变换方法。但这些方法都是针对小规模、单类别对象的定位技术,面向大规模、多类别时,不仅无效处理多,而且定位效果也有待提高。本文提出了将图像分类技术引入对象定位处理的技术思路,利用对象定位处理的特定应用场景,改进了多示例多标记(MIML)学习框架下的示例包生成方法,提高了图像分类标注的效果;同时提出了两种融合分类结果的对象定位方法,都取得了比较好的实验效果。本文的具体工作内容如下:1.针对大规模、多类别图像集上对象定位问题,提出了利用图像分类信息来提高定位效果的解决思路。图像分类和对象定位是对图像的不同解读,两者的分析处理结论具有独立性,往往可以相互裨益。本文通过在对象定位处理中引入图像分类信息,为大规模、多类别图像集上的对象定位问题提供高效的解决方案。2.对于大规模图像对象定位任务中的图像分类问题,采用了高效的MIML学习算法,并且利用训练集图像中已知的区域标记信息,设计了一种新的示例包——Multi-bow包,使得MIML算法可以汲取更多有用信息用于学习,从而提高图像分类的精度。多个MIML算法的实验结果表明:MuIti-bow包带来的分类效果优于传统的SBN包。3.为提高图像中对象定位技术的处理效果,对对象定位技术和分类技术的融合方式进行了研究,提出两种融合的方案。针对大规模、多类别的图像对象定位问题,提出了先进行快速分类,再精确定位的处理方案;针对高精度对象定位需求,提出了融入全局分类信息的最优框打分机制。实验结果显示,前者在缩短处理时间的同时取得了不错的定位平均精度,而后者对最优框得分的改进也在多个类别上带来了定位效果的提高。实验结果表明,图像分类信息确实能为对象定位带来更好的效果。在上述技术研究的基础上,本文设计实现了一个图像对象浏览原型系统。用户可以设置系统需要考虑的对象类别、需要浏览的图像库,原型系统为其提供图像库的对象浏览模式。