论文摘要
随着互联网的高速发展,网络上的多媒体信息也在急剧的增加,因此人们对多媒体信息的下载、分类和检索的需求也就随之而来。传统的搜索引擎不适合于自动下载多媒体信息并分类保存,所以有必要研究针对多媒体的搜索引擎和数据库。同时,传统的检索方式大多还是针对于文本的检索,针对多媒体信息的研究并不是很多。互联网上的多媒体信息是以图像为主,因此,针对图像的搜索、下载和检索就成为了目前研究的热点。在传统的通用搜索引擎的基础上,通过改进爬虫的结构,设计了一个以整合图像多种属性为综合值做索引的图像搜索引擎的系统结构,新增了针对图像的搜索、下载和检索的模块。这些模块都增加了对图像属性值处理的功能,包括图像的主题、或者图像的灰度直方图、或者它们的综合值的处理功能。图像底层特征的直方图差值是图像的重要属性。通过计算图像的灰度直方图,进而获取两张图像的灰度直方图差值。类似的,可以获取图像颜色直方图差值和纹理直方图差值等等,还可以获取图像其他属性的差值,通过高斯函数相乘的方法整合这些属性差值,获取一个判定图像差别的综合值,作为图像搜索引擎搜索和检索的依据。引入机器学习中半监督学习方法的概念,深化图像搜索引擎的功能,使之具有能够自动通过已有图像的甄别并吸收同类图像的能力。实验结果表明,该图像搜索引擎能够从互联网上下载和主题词相关的图像,依据图像的属性进行分类并在数据库中建立相关的索引;同时,整合图像多种属性差值而获取的综合值也为图像的检索系统提供了一种比较好的索引参考。