视觉文档图像的几何校正

论文摘要

OCR(Optical Character Recognition,光学字符识别)技术利用计算机自动分析、识别由扫描仪输入的文字图像,来取代文字的人工录入,由于其速度快,准确性高,从而得到了广泛的应用。随着数码相机等数字成像设备分辨率的不断提高,OCR技术开始进入视觉文档图像这一广阔的领域。在以数码相机等数字设备拍摄文档资料时,会产生光学变形与几何变形。为了使普通的识别软件能够对数码相机等拍摄的文档图像进行识别,视觉文档图像的恢复就成为OCR进行视觉文档图像这一领域的当务之急。视觉文档图像的恢复主要包括光学校正和几何校正两部分。本文针对视觉文档图像的几何校正展开了研究,根据视觉文档图像的特点实现了一种先分类后校正的视觉文档图像校正算法。首先针对视觉文档图像的特点提出了一种基于全局阈值与局部阈值相结合的二值化算法来完成对图像的二值化操作。该算法能在较短的时间内完成,并且保持了局部阈值保存细节的优点。然后提出了一种基于连通区域搜索的文字行定位算法,搜索连通区并对连通区按行进行聚类,由聚类的结果定位文字行。对得到的文字行进行曲线拟合计算出代表文字行走向的文字行曲线函数,根据文字行曲线函数对视觉文档图像几何变形的类型进行确定。最后针对几何变形的类型采取相应的校正算法来实现对变形图像的几何校正。通过对大量的视觉文档图像变形样张的测试表明,本文的分类算法和校正算法都能取得较好的效果。

论文目录

摘要

Abstract

第1章引言

1.1 研究背景和意义

1.2 国内外研究现状

1.3 文章组织

第2章视觉文档图像

2.1 数码相机成像原理

2.2 数码相机与扫描仪成像的异同

2.3 视觉文档图像处理面临的问题

2.4 几何变形的恢复

2.5 本章小结

第3章视觉文档图像预处理

3.1 JPEG图像转换为BMP图像

3.2 二值化

3.2.1 OSTU算法

3.2.2 Niblack算法

3.2.3 本文的算法

3.3 文字行定位

3.3.1 前景扩大化定位算法

3.3.2 基于连通区搜索的算法

3.4 文字行曲线拟合

3.4.1 最小二乘法曲线拟合

3.5 基于灰度图像的文字行定位

3.6 本章小结

第4章几何变形的校正

4.1 几何变形的分类

4.2 倾斜变形的校正

4.2.1 交叉相关性法

4.2.2 本文的方法

4.3 透视变形的校正

4.3.1 基于透视变换的方法

4.3.2 控制点法

4.4 扭曲变形的校正

4.4.1 基于切分的校正

4.4.2 基于圆柱面模型的校正方法

4.5 本章小结

第5章实验过程及结果分析

5.1 测试结果

5.1.1 二值化算法对比

5.1.2 几何变形分类测试

5.1.3 校正前后识别率对比

5.2 结果分析

5.3 本章小结

第6章结论与展望

6.1 工作总结

6.2 后续工作展望

参考文献

攻读硕士学位期间发表论文情况

致谢

视觉文档图像的几何校正

论文摘要

论文目录

相关论文文献