论文摘要
文本图像的分割对于进行正确的单字提取和字符识别有着重大的影响和使用价值,而古籍手写汉字图像分割更是古籍汉字识别过程中的难点。同时古籍手写汉字图像的分割对开展古籍文物研究、文献研究及文字研究工作具有十分重要的价值。由于古籍汉字资料保存时间久远,大量存在纸张变色、破损、文字残缺等现象,导致古籍手写汉字图像噪声很大,处理难度很大。现有的大多数预处理及单字切分算法多以印刷文本图像为处理对象,在对古籍手写汉字图像进行处理时往往效果欠佳。因此,论文根据古籍手写汉字分割的要求对现有的方法进行改进,并设计了新的文本图像处理方法,以期得到满意的单字图像分割结果。在参与对敦煌遗书等古籍进行研究的社科基金项目的过程中,分析了古籍手写汉字图像的特点和复杂性,在阈值分割、连通域标记和基于偏微分方程的目标轮廓提取等理论与算法的基础上,对古籍手写汉字图像的分割问题进行了深入的研究。主要内容有:①针对单纯采用全局阈值法或局部阈值法对图像进行分割时的不足,提出了整体阈值与局部阈值相结合的二次OTSU算法。算法综合考虑全局阈值与局部阈值来确定各像素点的阈值。与单纯采用全局阈值法和单纯采用局部阈值法相比,该算法在克服了以上两种算法的缺点的同时,继承了以上两种算法的优点,既考虑到了局部图像的特殊性,也兼顾了整个图像的整体性。通过实验证明,这种方法很好地将全局阈值的概括性与局部阈值的针对性结合了起来,能够取得明显优于原来两种算法的处理结果,这给后续的字符切分打下了良好的基础。②针对传统连通域标记算法需要多次扫描才能完成像素标记,运算时间较长的缺点,提出了快速非递归连通域生成及合并算法。算法对二值图像只需进行一次扫描,对需要识别的目标进行标记,遇到分叉时即进行连通域的合并。因此,在扫描过程中就可得到已扫描区域中的连通域,一次扫描后,无需再进行任何处理,就得到了二值图像的连通域的正确划分。实验证明,算法对于简单图像、一次分叉图像、多次分叉图像、连通域相互包含的图像,都可以正确、快速地进行连通域的标记处理。③应用快速非递归连通域生成及合并算法,设计了基于连通域特征的去噪去边框算法,及基于连通域并结合方块字特征进行单字切分的算法。并进一步采用局部投影法进行粘连字的切分。对应用快速连通域标记算法进行手写汉字图像处理的算法都进行了实验及结果分析。实践证明算法对手写汉字图像进行连通域生成、去噪、去边框及单字切分效果良好。④针对传统C-V主动轮廓模型达到稳定状态所需的迭代次数过多,对图像的尺寸比较敏感的缺点,提出了局部C-V主动轮廓模型快速图像分割算法。算法对图像进行预先的分块,将各分块单独作为输入图像以C-V模型算法进行分割处理。实验证明,算法在保证处理效果的前提下速度上得到了极大的提高。⑤根据手写汉字每个汉字单独成块的特点,提出了窄带快速C-V手写汉字图像分割方法。算法首先采用阈值法对汉字进行初步的分割,再利用汉字图像的连通域信息,进行汉字图像轮廓标记及窄带的构造,进一步进行基于窄带C-V模型的手写汉字图像分割。实验表明,采用窄带法对手写汉字进行分割,能够保留更多的文字细节,更加真实自然,同时处理速度进一步提高,有利于对文字进行后续的分析研究。综合本文提出的各种手写汉字图像分割算法,设计出了对手写汉字图像进行分割处理的完整的算法流程。对灰度化的手写汉字图像采用二次OTSU算法,对整幅图像进行二值化处理。接着采用非递归快速连通域算法,标记出图像的连通域情况。根据手写汉字的特点,进行去边框、去噪及单个汉字的分割操作。根据连通域情况初步分割出单个汉字后,再从原灰度图像中的对应位置取出小图像,采用OTSU算法进行二值化,以避免由于一个汉字处理不同区域采用不同阈值造成的差异。对以此方法得到的二值化图像进行轮廓标记。对每个单个汉字的原图像区域,以刚得到的轮廓为窄带划分的依据,采用前述的窄带C-V算法,进行汉字图像的细致分割。采用本文所提出的一系列算法对古籍手写汉字图像进行分割,能在提高处理效率的同时得到良好的分割效果。
论文目录
相关论文文献
- [1].特征分组提取融合深度网络手写汉字识别[J]. 计算机工程与应用 2020(12)
- [2].计算机汉字识别和静态手写汉字签名鉴定技术综述[J]. 网络安全技术与应用 2019(10)
- [3].手写汉字识别的发展应用综述[J]. 电视指南 2017(24)
- [4].手写汉字已成为需要保护的传统文化[J]. 基础教育课程 2016(02)
- [5].最需要继承保护的是手写汉字[J]. 中国钢笔书法 2015(10)
- [6].基于压缩感知的手写汉字识别研究[J]. 西安航空学院学报 2017(05)
- [7].手写汉字的特性与生命力[J]. 中国教师 2008(04)
- [8].基于反向传播算法在联机手写汉字结构识别中的应用[J]. 软件导刊 2011(04)
- [9].基于笔顺自由及连笔的联机手写汉字识别[J]. 计算机系统应用 2009(05)
- [10].深度学习在手写汉字识别中的应用综述[J]. 自动化学报 2016(08)
- [11].手写汉字规定格式练习系统设计[J]. 教师 2009(16)
- [12].一种改进的脱机手写汉字四角特征粗分类方法[J]. 信息安全与技术 2013(04)
- [13].基于联机手写汉字字块特征码提取的研究[J]. 电脑知识与技术 2011(01)
- [14].基于结构聚类和笔画分析的粘连手写汉字切分[J]. 计算机工程与应用 2008(34)
- [15].基于卷积神经网络的手写汉字识别研究[J]. 信息技术与信息化 2018(12)
- [16].基于深度学习的异噪声下手写汉字识别的研究[J]. 计算机应用研究 2019(12)
- [17].基于压缩感知的阅卷系统手写汉字识别算法[J]. 电子科技 2018(03)
- [18].用于手写汉字识别的文本分割方法[J]. 智能计算机与应用 2018(02)
- [19].空中手写汉字交互输入与识别实验平台构建[J]. 实验技术与管理 2016(07)
- [20].用于相似字识别的手写汉字特征优化方法[J]. 哈尔滨工程大学学报 2012(07)
- [21].基于信息熵的静态手写汉字签名鉴定研究[J]. 计算机应用与软件 2013(01)
- [22].基于自产生投票的手写汉字识别[J]. 自动化学报 2013(04)
- [23].一种静态手写汉字签名特征描述算法的实现[J]. 软件导刊 2012(09)
- [24].“书法速成”:一个浮躁时代的商业噱头[J]. 美术观察 2010(07)
- [25].概率神经网络在手写汉字识别中的应用[J]. 电子设计工程 2016(02)
- [26].基于局部模块组合的手写汉字识别算法[J]. 微计算机信息 2011(02)
- [27].基于相似度的手写汉字笔划鉴别方法实验研究[J]. 实验室研究与探索 2015(12)
- [28].一种新的手写汉字生成方法[J]. 太原大学学报 2014(03)
- [29].一种多模型超图用于手写汉字识别算法[J]. 计算机应用与软件 2019(07)
- [30].联机手写汉字识别系统应用研究[J]. 信息与电脑(理论版) 2018(18)