OCR(Optical Character Recognition,光学字符识别)技术利用计算机自动分析、识别由扫描仪输入的文字图像,来取代文字的人工录入,由于其速度快,准确性高,从而得到了广泛的应用。随着数码相机等数字成像设备分辨率的不断提高,OCR技术开始进入视觉文档图像这一广阔的领域。在以数码相机等数字设备拍摄文档资料时,会产生光学变形与几何变形。为了使普通的识别软件能够对数码相机等拍摄的文档图像进行识别,视觉文档图像的恢复就成为OCR进行视觉文档图像这一领域的当务之急。视觉文档图像的恢复主要包括光学校正和几何校正两部分。本文针对视觉文档图像的几何校正展开了研究,根据视觉文档图像的特点实现了一种先分类后校正的视觉文档图像校正算法。首先针对视觉文档图像的特点提出了一种基于全局阈值与局部阈值相结合的二值化算法来完成对图像的二值化操作。该算法能在较短的时间内完成,并且保持了局部阈值保存细节的优点。然后提出了一种基于连通区域搜索的文字行定位算法,搜索连通区并对连通区按行进行聚类,由聚类的结果定位文字行。对得到的文字行进行曲线拟合计算出代表文字行走向的文字行曲线函数,根据文字行曲线函数对视觉文档图像几何变形的类型进行确定。最后针对几何变形的类型采取相应的校正算法来实现对变形图像的几何校正。通过对大量的视觉文档图像变形样张的测试表明,本文的分类算法和校正算法都能取得较好的效果。
本文来源: https://www.lw50.cn/article/5194b3b2eb3f71cb44358a3e.html