古籍手写汉字图像分割算法研究

古籍手写汉字图像分割算法研究

论文摘要

文本图像的分割对于进行正确的单字提取和字符识别有着重大的影响和使用价值,而古籍手写汉字图像分割更是古籍汉字识别过程中的难点。同时古籍手写汉字图像的分割对开展古籍文物研究、文献研究及文字研究工作具有十分重要的价值。由于古籍汉字资料保存时间久远,大量存在纸张变色、破损、文字残缺等现象,导致古籍手写汉字图像噪声很大,处理难度很大。现有的大多数预处理及单字切分算法多以印刷文本图像为处理对象,在对古籍手写汉字图像进行处理时往往效果欠佳。因此,论文根据古籍手写汉字分割的要求对现有的方法进行改进,并设计了新的文本图像处理方法,以期得到满意的单字图像分割结果。在参与对敦煌遗书等古籍进行研究的社科基金项目的过程中,分析了古籍手写汉字图像的特点和复杂性,在阈值分割、连通域标记和基于偏微分方程的目标轮廓提取等理论与算法的基础上,对古籍手写汉字图像的分割问题进行了深入的研究。主要内容有:①针对单纯采用全局阈值法或局部阈值法对图像进行分割时的不足,提出了整体阈值与局部阈值相结合的二次OTSU算法。算法综合考虑全局阈值与局部阈值来确定各像素点的阈值。与单纯采用全局阈值法和单纯采用局部阈值法相比,该算法在克服了以上两种算法的缺点的同时,继承了以上两种算法的优点,既考虑到了局部图像的特殊性,也兼顾了整个图像的整体性。通过实验证明,这种方法很好地将全局阈值的概括性与局部阈值的针对性结合了起来,能够取得明显优于原来两种算法的处理结果,这给后续的字符切分打下了良好的基础。②针对传统连通域标记算法需要多次扫描才能完成像素标记,运算时间较长的缺点,提出了快速非递归连通域生成及合并算法。算法对二值图像只需进行一次扫描,对需要识别的目标进行标记,遇到分叉时即进行连通域的合并。因此,在扫描过程中就可得到已扫描区域中的连通域,一次扫描后,无需再进行任何处理,就得到了二值图像的连通域的正确划分。实验证明,算法对于简单图像、一次分叉图像、多次分叉图像、连通域相互包含的图像,都可以正确、快速地进行连通域的标记处理。③应用快速非递归连通域生成及合并算法,设计了基于连通域特征的去噪去边框算法,及基于连通域并结合方块字特征进行单字切分的算法。并进一步采用局部投影法进行粘连字的切分。对应用快速连通域标记算法进行手写汉字图像处理的算法都进行了实验及结果分析。实践证明算法对手写汉字图像进行连通域生成、去噪、去边框及单字切分效果良好。④针对传统C-V主动轮廓模型达到稳定状态所需的迭代次数过多,对图像的尺寸比较敏感的缺点,提出了局部C-V主动轮廓模型快速图像分割算法。算法对图像进行预先的分块,将各分块单独作为输入图像以C-V模型算法进行分割处理。实验证明,算法在保证处理效果的前提下速度上得到了极大的提高。⑤根据手写汉字每个汉字单独成块的特点,提出了窄带快速C-V手写汉字图像分割方法。算法首先采用阈值法对汉字进行初步的分割,再利用汉字图像的连通域信息,进行汉字图像轮廓标记及窄带的构造,进一步进行基于窄带C-V模型的手写汉字图像分割。实验表明,采用窄带法对手写汉字进行分割,能够保留更多的文字细节,更加真实自然,同时处理速度进一步提高,有利于对文字进行后续的分析研究。综合本文提出的各种手写汉字图像分割算法,设计出了对手写汉字图像进行分割处理的完整的算法流程。对灰度化的手写汉字图像采用二次OTSU算法,对整幅图像进行二值化处理。接着采用非递归快速连通域算法,标记出图像的连通域情况。根据手写汉字的特点,进行去边框、去噪及单个汉字的分割操作。根据连通域情况初步分割出单个汉字后,再从原灰度图像中的对应位置取出小图像,采用OTSU算法进行二值化,以避免由于一个汉字处理不同区域采用不同阈值造成的差异。对以此方法得到的二值化图像进行轮廓标记。对每个单个汉字的原图像区域,以刚得到的轮廓为窄带划分的依据,采用前述的窄带C-V算法,进行汉字图像的细致分割。采用本文所提出的一系列算法对古籍手写汉字图像进行分割,能在提高处理效率的同时得到良好的分割效果。

论文目录

  • 中文摘要
  • 英文摘要
  • 1 绪论
  • 1.1 研究背景
  • 1.2 图像分割及其意义
  • 1.2.1 图像分割及其意义
  • 1.2.2 古籍图像处理及文字分割的意义
  • 1.3 图像分割的一般模型
  • 1.4 图像分割方法研究的现状
  • 1.4.1 基于区域的图像分割算法
  • 1.4.2 基于边缘的图像分割算法
  • 1.5 图像分割方法研究的发展
  • 1.5.1 古籍手写汉字图像的分割
  • 1.5.2 彩色图像的分割
  • 1.6 论文的主要工作
  • 1.7 论文的结构安排
  • 2 传统方法在古籍手写汉字图像分割中的应用研究
  • 2.1 引言
  • 2.2 图像分割的理论与方法的研究
  • 2.3 简单图像基于像素灰度的全局门限法
  • 2.3.1 简单直方图分析法
  • 2.3.2 直方图凹形分析法
  • 2.3.3 类别方差自动门限法
  • 2.3.4 矩不变自动门限法
  • 2.4 简单图像基于像素邻域属性的全局门限法
  • 2.4.1 基于边缘特性的方法
  • 2.4.2 基于二阶灰度统计特性的方法
  • 2.4.3 利用两个“累积测量”选门限
  • 2.4.4 松弛迭代方法
  • 2.5 全局门限化直方图分割方法的评估
  • 2.6 复杂图像基于图像属性的分割方法
  • 2.6.1 自动多门限分割技术
  • 2.6.2 循环分解法
  • 2.6.3 分块分割再合并方法
  • 2.7 彩色图像分割
  • 2.8 传统方法在古籍手写汉字图像分割中的局限性
  • 2.9 本章小结
  • 3 基于二次类间方差阈值法的手写汉字图像分割方法研究
  • 3.1 引言
  • 3.2 传统阈值分割方法
  • 3.2.1 简单灰度直方图阈值分割
  • 3.2.2 最小误差阈值分割
  • 3.2.3 最大熵值分割
  • 3.2.4 类间方差阈值分割
  • 3.3 局部类间方差阈值分割算法
  • 3.3.1 全局OTSU 算法效果及缺点
  • 3.3.2 局部OTSU 算法原理
  • 3.3.3 局部OTSU 算法结果及分析
  • 3.4 整体与局部相结合的二次OTSU 算法
  • 3.4.1 算法原理
  • 3.4.2 实验结果
  • 3.5 本章小结
  • 4 基于快速非递归连通域算法的手写汉字图像分割
  • 4.1 引言
  • 4.2 连通域算法基本原理
  • 4.3 快速非递归连通域生成及合并算法研究
  • 4.3.1 数据结构设计
  • 4.3.2 非递归连通域生成及合并算法
  • 4.3.3 非递归连通域算法分析及实验结果
  • 4.4 快速非递归连通域算法的应用
  • 4.4.1 基于连通域特征的去噪去边框算法
  • 4.4.2 基于连通域的单字切分
  • 4.4.3 基于方块字特征及局部投影法的粘连字切分
  • 4.5 实验结果及分析
  • 4.6 本章小结
  • 5 基于偏微分方程的目标轮廓提取理论与方法
  • 5.1 引言
  • 5.2 目标轮廓提取方法分类
  • 5.3 基于偏微分方程的目标轮廓提取理论与方法
  • 5.3.1 基本概念
  • 5.3.2 主动轮廓模型
  • 5.3.3 梯度向量场可变形模型
  • 5.3.4 目标轮廓能量全局最小主动轮廓模型
  • 5.3.5 拓扑自适应主动轮廓模型
  • 5.3.6 水平集图像分割方法
  • 5.3.7 参数主动轮廓模型与几何主动轮廓模型之间的关系
  • 5.4 基于最小作用曲面及图像二分法的封闭轮廓提取方法
  • 5.4.1 基于最小作用曲面的封闭轮廓提取方法
  • 5.4.2 基于最小作用曲面及图像二分法的封闭轮廓提取法
  • 5.5 水平集方法
  • 5.5.1 水平集方法的数值实现
  • 5.5.2 水平集方法应用于图像分割
  • 5.6 窄带水平集方法
  • 5.6.1 窄带水平集算法
  • 5.6.2 M-S 分割模型
  • 5.6.3 基于窄带M-S 模型的图像分割
  • 5.6.4 基于窄带M-S 模型的手写汉字图像分割方法
  • 5.7 本章小结
  • 6 基于 C-V 模型的快速图像分割算法研究
  • 6.1 引言
  • 6.2 C-V 分割模型
  • 6.3 局部C-V 主动轮廓模型快速图像分割算法
  • 6.3.1 局部C-V 主动轮廓模型快速图像分割算法
  • 6.3.2 局部C-V 主动轮廓模型手写汉字图像分割算法
  • 6.3.3 实验结果及分析
  • 6.4 基于窄带C-V 模型的手写汉字图像分割方法
  • 6.4.1 窄带快速C-V 手写汉字图像分割方法
  • 6.4.2 实验结果及分析
  • 6.5 基于二次OTSU 算法、快速连通域法及窄带C-V 算法结合的手写汉字图像处理
  • 6.5.1 手写汉字图像处理算法分析
  • 6.5.2 实验结果及分析
  • 6.6 本章小结
  • 7 结论与展望
  • 7.1 主要创新点与结论
  • 7.2 工作展望
  • 致谢
  • 参考文献
  • 附录
  • A. 作者在攻读学位期间发表的论文
  • B. 作者在攻读学位期间参加的科研项目
  • 相关论文文献

    • [1].特征分组提取融合深度网络手写汉字识别[J]. 计算机工程与应用 2020(12)
    • [2].计算机汉字识别和静态手写汉字签名鉴定技术综述[J]. 网络安全技术与应用 2019(10)
    • [3].手写汉字识别的发展应用综述[J]. 电视指南 2017(24)
    • [4].手写汉字已成为需要保护的传统文化[J]. 基础教育课程 2016(02)
    • [5].最需要继承保护的是手写汉字[J]. 中国钢笔书法 2015(10)
    • [6].基于压缩感知的手写汉字识别研究[J]. 西安航空学院学报 2017(05)
    • [7].手写汉字的特性与生命力[J]. 中国教师 2008(04)
    • [8].基于反向传播算法在联机手写汉字结构识别中的应用[J]. 软件导刊 2011(04)
    • [9].基于笔顺自由及连笔的联机手写汉字识别[J]. 计算机系统应用 2009(05)
    • [10].深度学习在手写汉字识别中的应用综述[J]. 自动化学报 2016(08)
    • [11].手写汉字规定格式练习系统设计[J]. 教师 2009(16)
    • [12].一种改进的脱机手写汉字四角特征粗分类方法[J]. 信息安全与技术 2013(04)
    • [13].基于联机手写汉字字块特征码提取的研究[J]. 电脑知识与技术 2011(01)
    • [14].基于结构聚类和笔画分析的粘连手写汉字切分[J]. 计算机工程与应用 2008(34)
    • [15].基于卷积神经网络的手写汉字识别研究[J]. 信息技术与信息化 2018(12)
    • [16].基于深度学习的异噪声下手写汉字识别的研究[J]. 计算机应用研究 2019(12)
    • [17].基于压缩感知的阅卷系统手写汉字识别算法[J]. 电子科技 2018(03)
    • [18].用于手写汉字识别的文本分割方法[J]. 智能计算机与应用 2018(02)
    • [19].空中手写汉字交互输入与识别实验平台构建[J]. 实验技术与管理 2016(07)
    • [20].用于相似字识别的手写汉字特征优化方法[J]. 哈尔滨工程大学学报 2012(07)
    • [21].基于信息熵的静态手写汉字签名鉴定研究[J]. 计算机应用与软件 2013(01)
    • [22].基于自产生投票的手写汉字识别[J]. 自动化学报 2013(04)
    • [23].一种静态手写汉字签名特征描述算法的实现[J]. 软件导刊 2012(09)
    • [24].“书法速成”:一个浮躁时代的商业噱头[J]. 美术观察 2010(07)
    • [25].概率神经网络在手写汉字识别中的应用[J]. 电子设计工程 2016(02)
    • [26].基于局部模块组合的手写汉字识别算法[J]. 微计算机信息 2011(02)
    • [27].基于相似度的手写汉字笔划鉴别方法实验研究[J]. 实验室研究与探索 2015(12)
    • [28].一种新的手写汉字生成方法[J]. 太原大学学报 2014(03)
    • [29].一种多模型超图用于手写汉字识别算法[J]. 计算机应用与软件 2019(07)
    • [30].联机手写汉字识别系统应用研究[J]. 信息与电脑(理论版) 2018(18)

    标签:;  ;  ;  ;  ;  

    古籍手写汉字图像分割算法研究
    下载Doc文档

    猜你喜欢