论文摘要
如何让计算机按照人类理解的方式对海量图像数据进行高效地分类与管理,成为了图像理解领域中一个亟待解决的问题。场景分析与理解为图像的语义分类提供了可能,场景分类被明确认定为是图像语义分类中的一个关键课题。本文主要成果有:(1)提出一种基于局部熵加权特征融合的场景分类方法。鉴于不同的特征描述子适合描述不同类型的场景图像,本文针对两种局部特征描述子进行特征融合以增加场景图像特征描述的区分力。首先,通过计算图像的局部熵定量分析场景图像的复杂度,据此定义平坦度,并通过叠加场景类内每幅图像的平坦度获得该场景类的平坦度;其次,提取两种分别适用于描述区域平滑和区域变化的局部特征描述子,并分别进行图像直方图描述;然后,利用场景类图像的平坦度计算两种局部特征的权系数,并对两种基于独立的局部描述子形成的图像直方图描述加权融合,获得场景类图像的最佳描述;最后训练概率生成模型,完成场景分类任务。实验结果表明,该方法对于不同类型的图像特征描述具有一定的普适性。(2)提出一种基于超像素网格空间金字塔图像描述的场景分类方法。鉴于传统的词包模型图像描述方法忽略空间信息的缺点,本文采用上下文特征和空间金字塔图像描述来加入图像的空间信息。首先,构建多尺度上下文特征使其能够保证特征描述时加入局部空间结构信息;其次,对图像进行超像素网格分块,网格的分辨率由金字塔层数决定;然后,对各层次上超像素网格分块得到的各个图像子块依据视觉词典生成图像直方图描述,并按照一定的权重组合在一起形成整幅图像的直方图描述;最后,训练分类器,完成场景分类任务。本文采用的超像素网格分块,避免了图像中对象的强制分割,从而保证了子区域内对象语义的一致性。实验结果验证了场景分类过程中上下文信息和超像素网格分块的优越性。(3)提出一种基于局部约束线性编码特征映射方式的场景分类方法。提取图像的视觉特征并聚类生成视觉码本以后,依据码本进行视觉特征映射形成图像描述。本文提出一种基于最大求和合并法的局部约束线性编码方式特征映射方法,将前t个概率最大的码字进行线性加权取平均作为特征映射编码结果,并分析讨论t的取值对于场景分类性能的影响,并讨论了不同的码本长度与场景分类性能之间的关系。实验证明,该方法提高了特征码字之间的相关性和特征映射的鲁棒性,取得了较好的场景分类性能。
论文目录
致谢中文摘要ABSTRACT1 绪论1.1 场景分类的研究背景与意义1.1.1 课题背景1.1.2 课题意义1.2 场景分类的研究现状1.2.1 场景理解的层次化结构1.2.2 基于低层特征的场景分类1.2.3 基于中层语义建模的场景分类1.2.4 基于中层语义监督学习的场景分类1.2.5 基于中层语义无监督学习的场景分类1.3 场景分类的难点1.4 论文主要成果1.5 论文内容安排2 场景图像分类过程2.1 场景分类2.2 特征提取与描述2.2.1 局部特征2.2.2 全局特征2.3 视觉词典2.3.1 K-Means算法2.3.2 K-Means++算法2.3.3 HIK算法2.3.4 通用码本和类别码本2.4 图像描述2.5 主题模型2.5.1 概率潜在语义分析模型2.5.2 隐含狄利克雷分配模型2.6 分类器2.7 本章小结3 基于局部熵加权特征融合的场景分类3.1 引言3.2 算法原理3.3 特征提取3.3.1 特征提取3.3.2 图像描述3.4 图像加权3.4.1 局部熵3.4.2 平坦度测量3.4.3 权系数3.5 生成模型3.6 实验结果与分析3.6.1 数据集3.6.2 实验设置3.6.3 实验结果3.6.4 实验分析3.7 本章小结4 基于超像素网格空间金字塔图像描述的场景分类4.1 引言4.2 空间金字塔4.2.1 金字塔匹配核4.2.2 空间金字塔匹配4.2.3 特征空间金字塔构建4.3 上下文特征4.4 超像素网格分块4.4.1 规则网格4.4.2 网格参数4.4.3 规则网格生成4.4.4 规则网格评价4.5 实验与分析4.5.1 数据集与参数设置4.5.2 实验结果4.5.3 实验分析4.6 本章小结5 基于局部约束线性编码特征映射方式的场景分类5.1 引言5.2 特征映射编码5.2.1 矢量量化方式5.2.2 稀疏编码方式5.2.3 局部约束线性编码方式5.3 近似LLC快速编码5.4 特征编码合并方式5.5 实验结果与分析5.5.1 数据集与实验设置5.5.2 实验结果与分析5.6 本章小结6 总结与展望6.1 论文总结6.2 工作展望参考文献作者简历攻读博士学位期间发表的学术论文学位论文数据集
相关论文文献
标签:场景分类论文; 特征融合论文; 超像素网格论文; 空间金字塔论文; 上下文信息论文; 特征映射论文;