论文摘要
WWW是一个开放的全球性资源,它是世界上最丰富和最密集的信息来源。随着WWW上信息的爆炸性增长,在如此海量的数据中发现有用的信息变得越来越困难。数据挖掘就是从大量的数据中发现隐含的规律性的内容,解决数据的应用质量问题。充分利用有用的数据,废弃虚伪无用的数据,是数据挖掘技术最重要的应用。因此,采用数据挖掘技术从WWW上提取隐含的、未知的、非平凡的及有潜在应用价值的信息,具有十分重要的现实意义和广泛的应用前景。数据挖掘和知识发现为解决信息量过大而人们无法有效利用的问题提供了新的解决途径。目前,数据挖掘和知识发现的数据源主要是已有数据库中的文本和数值类数据,如何对分布于网络环境下的图像数据进行挖掘还未有充分研究。本文首先简单阐述了数据挖掘和知识发现的基本理论;分析了网络信息检索与挖掘的特征,特别是Web数据挖掘和基于内容的图像检索;进而探讨了基于Web的图像数据挖掘研究与应用的一系列基本问题,包括定义、挖掘对象的特征与分类、挖掘和发现所需的理论和技术以及系统的框架结构和功能模块的分析与设计等,力图为该方向的深入研究提供一些有益的思路。本文还研究了基于内容的图像检索技术(CBIR)的特点和方式,CBIR技术主要依据图像的画面内容特征和主题对象特征来进行检索;讨论了图像的颜色、纹理、形状、空间关系等方面的特征;提出了目前图像挖掘的主要技术,包括分类、聚类、关联规则和神经网络;总结了图像数据挖掘的重点和难点在于特征的提取和图像的表示方式、图像的比较策略、机器学习和图像的自动标注、检索系统的评价标准等几个方面。结合基于Web数据挖掘的方法和基于内容的图像检索,本文对WWW上的图像信息挖掘和检索系统进行了一些研究和探索,分析了Web图像搜索引擎的原理、图像分割方法和MPEG—7标准,为实现本文所设计的实验系统打下基础并构建了一个框架。通过上述内容的分析和研究,构建本文所设计的基于Web的图像数据挖掘的实验系统,首先分析了系统所需功能,为系统的实现打下理论基础,提出了多维数据立方在图像数据挖掘中的具体实现方法,针对图像数据和复杂性,简化了多维数据立方结构;采用最大出现次数算法,提高了系统计算规则的速度,设计了一个较为完整的实验系统模型,绘制了各功能模块的框图,给出了一个简化的Cdib类代码,并在系统中引入了徒手绘草图方法,试图增强系统的适用性。