论文摘要
OCR(Optical Character Recognition,光学字符识别)技术利用计算机自动分析、识别由扫描仪输入的文字图像,来取代文字的人工录入,由于其速度快,准确性高,从而得到了广泛的应用。随着数码相机等数字成像设备分辨率的不断提高,OCR技术开始进入视觉文档图像这一广阔的领域。在以数码相机等数字设备拍摄文档资料时,会产生光学变形与几何变形。为了使普通的识别软件能够对数码相机等拍摄的文档图像进行识别,视觉文档图像的恢复就成为OCR进行视觉文档图像这一领域的当务之急。视觉文档图像的恢复主要包括光学校正和几何校正两部分。本文针对视觉文档图像的几何校正展开了研究,根据视觉文档图像的特点实现了一种先分类后校正的视觉文档图像校正算法。首先针对视觉文档图像的特点提出了一种基于全局阈值与局部阈值相结合的二值化算法来完成对图像的二值化操作。该算法能在较短的时间内完成,并且保持了局部阈值保存细节的优点。然后提出了一种基于连通区域搜索的文字行定位算法,搜索连通区并对连通区按行进行聚类,由聚类的结果定位文字行。对得到的文字行进行曲线拟合计算出代表文字行走向的文字行曲线函数,根据文字行曲线函数对视觉文档图像几何变形的类型进行确定。最后针对几何变形的类型采取相应的校正算法来实现对变形图像的几何校正。通过对大量的视觉文档图像变形样张的测试表明,本文的分类算法和校正算法都能取得较好的效果。
论文目录
摘要Abstract第1章 引言1.1 研究背景和意义1.2 国内外研究现状1.3 文章组织第2章 视觉文档图像2.1 数码相机成像原理2.2 数码相机与扫描仪成像的异同2.3 视觉文档图像处理面临的问题2.4 几何变形的恢复2.5 本章小结第3章 视觉文档图像预处理3.1 JPEG图像转换为BMP图像3.2 二值化3.2.1 OSTU算法3.2.2 Niblack算法3.2.3 本文的算法3.3 文字行定位3.3.1 前景扩大化定位算法3.3.2 基于连通区搜索的算法3.4 文字行曲线拟合3.4.1 最小二乘法曲线拟合3.5 基于灰度图像的文字行定位3.6 本章小结第4章 几何变形的校正4.1 几何变形的分类4.2 倾斜变形的校正4.2.1 交叉相关性法4.2.2 本文的方法4.3 透视变形的校正4.3.1 基于透视变换的方法4.3.2 控制点法4.4 扭曲变形的校正4.4.1 基于切分的校正4.4.2 基于圆柱面模型的校正方法4.5 本章小结第5章 实验过程及结果分析5.1 测试结果5.1.1 二值化算法对比5.1.2 几何变形分类测试5.1.3 校正前后识别率对比5.2 结果分析5.3 本章小结第6章 结论与展望6.1 工作总结6.2 后续工作展望参考文献攻读硕士学位期间发表论文情况致谢
相关论文文献
标签:光学字符识别论文; 视觉文档图像论文; 几何校正论文; 几何变形论文; 透视变形论文;