论文摘要
计算机技术与互联网技术迅速结合形成了独特网络文化,流传于网络的大量数字信息给人们的日常生活和工作带来巨大影响。一方面,诸如图书封面、信封封面、文档内容的文字部分等有益图片需要计算机自动完成相关文字内容的搜索工作,从而达到释放劳动力、数字化办工的需求。另一方面,流传于网络的不良图片种类繁多,需及时检测和过滤,消除在网络传播中的不良影响。文本是图像信息中最重要的内容,基于图像的文本信息检索也应运而生。现有的字符识别技术已经非常成熟,只要能准确定位出文本,即可分割和识别出文本。因此,在网络图片中定位出文本就显得非常重要。本文的主要工作围绕如何从网络图片中定位和提取文本区域信息的各个方面和步骤展开,研究的工作主要集中于网络图片中文字区域的检测、定位和文本区域的辨别以及相关的算法研究。网络图片并无统一的规范和标准,因此包含的文本也形式各异,字体的不同大小、排列方式、语言种类、色彩、亮度、背景的复杂程度以及网络图片本身的分辨率、质量等都将影响到算法的准确性和适用性。这些因素都给网络图片中文本区域的定位技术研究带来了困难和挑战。在文本检测方面,本文对比了基于连通区域、基于边缘检测、基于纹理学习和基于机器学习等算法,最后选择角点为文本的主要特征,并提出了基于角点的高斯金字塔自动文本检测和定位算法。该算法能自动地检测到同一网络图片中大、中、小三种不同大小的文本。为达到高召回率,改进了积分投影算法,提出了分段处理的思想在完成同一图片中不同位置多文本区域的定位。为提高查找精度,采用了基于文本混合特性的启发式规则。在性能评估方面,主要采用召回率、精度和运行时间为评估标准。本文提出的算法是在一系列文献阅读和实验对比下设计和完成的,实验结果表明,针对传输于网络上的书籍封面和CD唱片封面的图片,本文算法能较好地完成迅速、准确定位。可配合文本分割、文字识别系统完成网络图片中文字的提取和识别,辨别图片的语义内容,提取有用信息,过滤不良信息。